CN110991509B

CN110991509B - 基于人工智能技术的资产识别与信息分类方法

Info

Publication number: CN110991509B
Application number: CN201911166506.9A
Authority: CN
Inventors: 唐佳莉; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-08-01
Anticipated expiration: 2039-11-25
Also published as: CN110991509A

Abstract

本发明提供一种基于人工智能技术的资产识别与信息分类方法：包括以下步骤：收集资产信息数据；判断根据资产信息数据能都得知资产所属或类型；资产信息数据进行标签化与统一化处理，得到标签化信息；采取图像识别算法对网站类型进行分类；如果分类成功，得到分类信息，执行步骤五；资产信息数据做相似度与所属性分析，得到资产联想定位信息；将资产信息数据、标签化信息、分类信息和联想定位信息，作为信息报告；对于步骤五所得的信息报告进行标签化处理与分类入库，储存到相应的资产数据库。本发明整合以上人工智能技术所构建的资产识别与分类系统能在信息分类上达到准确高效和自动化的效果。

Description

基于人工智能技术的资产识别与信息分类方法

技术领域

本发明涉及一种资产识别与信息分类方法，具体涉及一种基于人工智能技术的资产识别与信息分类方法。

背景技术

随着5G时代的来临与万物互联概念的兴起，暴露在互联网中的网络资产数量与类型激增，对于资产的识别与信息分类的难度也急剧上升，因此，构建一个高效且能自动化对资产进行识别和分类的系统刻不容缓。

而人工智能技术是一项能生产出以人类智能相似的方式做出反应的智能机器，包括机器人、语言识别、图像识别、自然语言处理和专家系统等，采用人工智能技术进行问题的处理已经成为了趋势。

因此，使用人工智能技术，对网络资产进行多维度的识别检测和分类，包括对扫描所得资源进行图像和文字识别、使用机器学习算法和自然语言处理技术对资产进行分类，构建一个完善的自动化资产识别与分类系统，能极大的提高资产识别的效率和准确度。

目前，多数网络资产探测与信息收集系统采用的是主动扫描和收集分类的方式，在面对急剧增长的资产数量和类型的情况下，对于资产的识别和分类效率和准确度都存在缺陷。

而目前现有的单纯结合机器学习进行资产识别和分类的系统，均为对资产信息进行简单的分类，并没有做深入的处理与分析，不能够高效准确的准确定位资产信息，在资产的识别与分类上还是需要很多人工辅助的操作。同时在数据维度上，目前尚未有资产探测系统结合人工智能图像音频识别与自然语言处理技术对资产进行分类。

因此，需要对现有技术进行改进。

发明内容

本发明要解决的技术问题是提供一种高效的基于人工智能技术的资产识别与信息分类方法。

为解决上述技术问题，本发明提供一种基于人工智能技术的资产识别与信息分类方法：包括以下步骤：

步骤一：收集资产信息数据；判断根据资产信息数据能都得知资产所属或类型；如果能，执行步骤二；否则，执行步骤三；

步骤二：资产信息数据进行标签化与统一化处理，得到标签化信息；执行步骤五；

步骤三：采取图像识别算法对网站类型进行分类；如果分类成功，得到分类信息，执行步骤五；否则，执行步骤四；

同时截取WEB网页图像，对页面中的标志性LOGO进行图像识别。

步骤四：资产信息数据做相似度与所属性分析，得到资产联想定位信息；执行步骤五；

步骤五：将步骤一、二、三、四得到资产信息数据、标签化信息、分类信息和联想定位信息，作为信息报告；执行步骤六

步骤六：对于步骤五所得的信息报告进行标签化处理与分类入库，储存到相应的资产数据库。

作为对本发明基于人工智能技术的资产识别与信息分类方法的改进：

步骤四包括：

资产信息数据做相似度与所属性分析，采用数据挖掘的方式进行扩散联想与资产信息收集，得到资产联想定位信息；执行步骤五；

作为对本发明基于人工智能技术的资产识别与信息分类方法的进一步改进：

步骤四包括：

在已分类的资产数据库中，搜索与其拥有相似域名、相近ip、相似操作系统或中间件的资产信息数据，作为资产联想定位信息；执行步骤五；

资产信息数据包括IP信息、服务类型、MAC地址、主机、路由器、防火墙、中间件指纹特征，还可能包括Web域名、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息。

步骤二具体的标签化与统一化处理使用机器学习分类算法，机器学习分类算法包括但不限于有K-Means聚类算法。

步骤二中的自然语言处理技术包括但不限于对信息进行分词、命名实体识别、词义相似度分析等。

步骤三中的图像识别算法包括但不限于：fasterR-cnn、yolo3图像识别算法。

本发明基于人工智能技术的资产识别与信息分类方法的技术优势为：

本发明旨在实现一种基于人工智能技术的资产识别与分类系统，该系统的原理为对网络资产进行多维度的识别检测和分类，包括但不限于对扫描所得资源进行图像和文字识别、使用机器学习算法和自然语言处理技术对资产进行分类，整合以上人工智能技术所构建的资产识别与分类系统能在信息分类上达到准确高效和自动化的效果。

目前并没有一种完全安全、无法破解的机器学习算法模型，本发明致力于实现一种高效且适用性广、迁移性强的对抗性攻击方法，构建一个与目标模型相对立的神经网络，通过此网络能生成鱼原图相近的对抗性样本图像，来使图像识别分类模型产生错误。构建神经网络的益处在于一旦训练完成，之后所生成的对抗性样本均不需要依赖于目标模型的接触和大量的数值运算，具有高效、可迁移的特点。同时，研究机器学习的对抗性攻击有益于一步优化机器学习算法和数据处理手段，从而提高机器学习算法和其应用的安全性。

目前并没有一种完全智能与高效的资产识别与分类系统，随着5G时代的来临与万物互联概念的兴起，暴露在互联网中的网络资产数量与类型激增，对于资产的识别与信息分类的难度也急剧上升，因此，本发明致力于构建一个高效且能自动化对资产进行识别和分类的系统。使用人工智能技术，对网络资产进行多维度的识别检测和分类，包括对扫描所得资源进行图像和文字识别、使用机器学习算法和自然语言处理技术对资产进行分类，构建一个完善的自动化资产识别与分类系统，能极大的提高资产识别的效率和准确度。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为本发明基于人工智能技术的资产识别与信息分类方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此。

实施例1、基于人工智能技术的资产识别与信息分类方法，如图1所示，使用人工智能技术，对网络资产进行多维度的识别检测和分类，包括对扫描所得资源进行图像和文字识别、使用机器学习算法和自然语言处理技术对资产进行分类，有助于构建一个完善的自动化资产识别与分类系统，能极大的提高资产识别的效率和准确度。

本发明构建一个结合人工智能图像音频识别与自然语言处理技术的资产分类识别系统，包括资产信息标签化子系统、应用分类子系统、资产联想定位子系统、资产识别与分类测绘子系统、资产存储与数据挖掘子系统。

资产信息标签化子系统，能对主动扫描所获得的资产信息，采取人工智能技术进行资产识别与信息分类，具体表现为，对格式混乱与无法归一化的资产信息例如中间件软件版本信息、大量操作系统子版本信息、作者信息等进行机器学习分类与自然语言处理操作。清洗与汇总资产的客观数据，包括所有无需处理的IP信息、Web域名信息，并对路由器、防火墙、中间件指纹特征、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息进行标签化与统一化处理。具体的机器学习分类算法包括但不限于有K-Means聚类算法，具体的自然语言处理技术包括但不限于对信息进行分词、命名实体识别、词义相似度分析等。

应用分类子系统将扫描所得的应用信息，包括但不限于网站信息、视频探头信息等，在无法得知资产所属与类型时，采取机器学习分类算法对应用类型进行分类，同时截取应用展现的图像，对页面中的标志性LOGO进行图像识别。具体的图像识别算法包括但不限于：faster R-cnn、yolo3图像识别算法等。

资产联想定位子系统对于单个无法进行识别与分类的资产，联想与搜索相关域名、IP、相似操作系统或中间件、关联区域等的资产，做相似度与所属性分析，采用数据挖掘的方式对用户特殊关注的单一资产进行扩散联想与资产信息收集。具体相似度算法包括但不限于采取机器学习聚类k-means算法的方式进行相似度聚类。

资产识别与分类测绘子系统对于扫描所得的资产信息，构建完整的资产识别与信息分类分析系统，具体包括步骤一的主动扫描技术与步骤二所得的标签化信息和步骤三所得的分类信息，同时结合步骤四所得的相似性分析资产，对信息进行汇总与测绘之后能得出包括但不限于资产的具体类型、领域、所属单位、相关同类型资产等信息报告。

资产存储与数据挖掘子系统对于最终人工智能技术的资产识别与信息分类系统分析与测绘得到的资产数据进行标签化处理与分类入库，为之后扫描所得的资产信息作关联性分析的数据支撑。

基于人工智能技术的资产识别与信息分类方法具体包括以下步骤：

步骤一：通过主动扫描器收集资产的资产信息数据；

获取资产信息数据包括IP信息、服务类型、MAC地址、主机、路由器、防火墙、中间件指纹特征，同时获取Web域名、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息，截取WEB页面图像。

判断根据资产信息数据能都得知资产所属或类型；如果能，执行步骤二；否则，执行步骤三；

步骤二：对主动扫描所获得的资产信息数据，使用采资产信息标签化子系统(采取人工智能技术进行资产识别与信息分类)，对格式混乱与无法归一化的资产信息例如中间件软件版本信息、大量操作系统子版本信息、作者信息等进行机器学习分类与自然语言处理操作。清洗与汇总资产的客观数据，包括所有无需处理的IP信息、Web域名信息，并对路由器、防火墙、中间件指纹特征、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息进行标签化与统一化处理，得到标签化信息。执行步骤五；

“资产的客观数据”指的是类别明确、显而易见、没有模糊混淆的信息数据，例如IP信息、MAC地址、Web域名、服务类型、开放端口等，此类为客观数据，无需分词并进行机器学习分类或者自然语言处理。而例如从Web服务中提取的指纹信息、软件及版本、操作系统和Web标题描述等信息，由于格式、描述方式的不同(例如操作系统： Ubuntu16.06/linux-ubuntu16.06/thesystemversionisubuntu16.06，再例如web页面标题：xxx 医院主页/xxx医院欢迎你，描述不同但是本质相同)需要进行机器学习分类与自然语言处理，此类数据包括但不限于web服务所采集的数据。

对上述资产信息数据需要进行处理，机器学习分类与自然语言处理均为手段，最终得到标签化信息。此处的标签化信息为，统一“Ubuntu16.06/linux-ubuntu16.06/thesystemversionis ubuntu16.06”为“Ubuntu16.06”，统一“xxx医院主页/xxx医院欢迎你”为“xxx医院”，这些意义明确、没有冗余信息的数据可作为标签化信息。具体的机器学习分类的算法包括但不限于有K-Means聚类算法，具体的自然语言处理的技术包括但不限于对信息进行分词、命名实体识别、词义相似度分析等。

步骤三：对于步骤一扫描所得的资产信息数据，采用应用分类子系统，在无法得知资产所属或类型时(根据Web域名、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息可知资产所属或类型，例如：预设类型为医院、教育、政府的域名，通过Web域名即可得知相应的资产信息数据属于什么类型；通过资产信息数据的操作系统得知其由什么框架构建的)，采取机器学习分类算法对网站类型进行分类，截取WEB网页图像，对页面中的标志性LOGO进行图像识别。分类成功，执行步骤五；否则，执行步骤四；

比如使用图像识别算法，识别出网站logo或图片中的文字，从而确定网站的分类(比如在网站背景中有“医院”字样/网站logo是一个有名的公司logo)，得到分类信息。具体的机器学习分类算法使用的图像识别算法包括但不限于：fasterR-cnn、yolo3图像识别算法等。

步骤三所述的机器学习算法侧重于对图像的处理，步骤二中的机器学习分类算法侧重于对文字数据的处理，这也是由于步骤三的处理是侧重于针对网站页面，而步骤二侧重于扫描所得的文字信息。

步骤四：对于其他步骤二和步骤三无法定位与分类的资产(步骤二无法定位即为资产信息数据缺少相应信息，步骤三无法进行分类即为图像识别算法识别出的结果无法确定分类)，采用资产联想定位子系统，联想与搜索相关域名、IP、相似操作系统或中间件、关联区域等的资产，做相似度与所属性分析，采用数据挖掘的方式对用户特殊关注的单一资产进行扩散联想与资产信息收集，得到资产联想定位信息；执行步骤五；

联想与搜索的具体方法为：对无法定位与分类的资产，在已分类的资产数据库中，搜索与其拥有相似域名、相近ip、相似操作系统或中间件的资产信息数据，作为资产联想定位信息(例如，一个未知资产只扫描到了域名/ip，但此域名与资产数据库中某医院的域名很像，或者与某教育网站所使用的操作系统和中间件相似)。例如某无法定位与分类的资产，和80％的A类分类中的中间件相似，和50％的B类分类的域名相关，又和30％C类分类有一样的网页描述，那么则需要进行相似度的分析，对一个未知分类的资产，以现有的资产数据库为依据，“大概联想一下它最像哪一类资产数据”这样一种相似性评估的过程。

步骤五：在步骤一所得的资产信息数据上添加相应的步骤二所得的标签化信息、步骤三所得的分类信息和步骤四得到的联想定位信息，作为信息报告。

对于步骤一扫描所得的资产信息数据，构建完整的资产识别与信息分类分析系统，具体包括步骤一的主动扫描技术与步骤二所得的标签化信息和步骤三所得的分类信息，同时结合步骤四的资产联想定位信息，对信息进行汇总与测绘之后能得出包括但不限于资产的具体类型、领域、所属单位、相关同类型资产等信息报告。

步骤六：对于步骤五所得的信息报告进行标签化处理与分类入库，储存到资产数据库，为之后扫描所得的资产信息作关联性分析的数据支撑。

例如资产信息数据：域名www.xxhospital.com,操作系统为ubuntu16.06-linux，网页截图后有“xx医院”图像，则步骤二标签化信息为ubuntu16.06，步骤三分类信息为xx医院。此数据经步骤五整理入库后；有一未知资产，其扫描得到的信息只有域名www.xxhospital-eyes.com，其他数据全都没有，那么通过步骤四的联想定位，在数据库中搜索到相似域名的www.xxhospital.com这一条数据，可以联想到此未知资产为xx医院的可能性很高。

术语1：人工智能技术

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

术语2：图像识别算法

用于图像检测、分类的机器学习算法，通常基于卷积神经网络CNN，有RCNN/AlexNet/VGGNet/ResNet等多种结构。

术语3：机器学习算法

机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

术语4：自然语言处理技术

自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.基于人工智能技术的资产识别与信息分类方法，其特征在于：包括以下步骤：

资产信息数据包括IP信息、服务类型、MAC地址、主机、路由器、防火墙、中间件指纹特征；同时获取Web域名、Web开发语言中间件的指纹信息、软件及版本、操作系统的信息，截取WEB页面图像；

所述步骤二中对格式混乱与无法归一化的资产信息进行机器学习分类与自然语言处理操作，清洗与汇总资产的客观数据包括所有无需处理的IP信息、Web域名信息，并对路由器、防火墙、中间件指纹特征、Web开发语言中间件的指纹信息、软件及版本、操作系统的信息进行标签化与统一化处理，得到标签化信息；

标签化与统一化处理使用机器学习分类算法，机器学习分类算法包括K-Means聚类算法；

步骤四：资产信息数据做相似度与所属性分析，在已分类的资产数据库中，搜索与其拥有相似域名、相近ip、相似操作系统或中间件的资产信息数据，采用数据挖掘的方式对单一资产进行扩散联想与资产信息收集，得到资产联想定位信息；执行步骤五；

步骤五：为以下任一：

将步骤一得到的资产信息数据、步骤二得到的标签化信息作为信息报告；执行步骤六；

将步骤一得到的资产信息数据、步骤三得到的分类信息作为信息报告；执行步骤六；

将步骤一得到的资产信息数据、步骤四得到的资产联想定位信息作为信息报告；执行步骤六；

2.根据权利要求1所述的基于人工智能技术的资产识别与信息分类方法，其特征在于：

步骤二中的自然语言处理技术包括对信息进行分词、命名实体识别、词义相似度分析。

3.根据权利要求2所述的基于人工智能技术的资产识别与信息分类方法，其特征在于：

步骤三中的图像识别算法包括faster R-cnn 、yolo3图像识别算法。