CN110991509B - 基于人工智能技术的资产识别与信息分类方法 - Google Patents

基于人工智能技术的资产识别与信息分类方法 Download PDF

Info

Publication number
CN110991509B
CN110991509B CN201911166506.9A CN201911166506A CN110991509B CN 110991509 B CN110991509 B CN 110991509B CN 201911166506 A CN201911166506 A CN 201911166506A CN 110991509 B CN110991509 B CN 110991509B
Authority
CN
China
Prior art keywords
information
asset
classification
executing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911166506.9A
Other languages
English (en)
Other versions
CN110991509A (zh
Inventor
唐佳莉
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN201911166506.9A priority Critical patent/CN110991509B/zh
Publication of CN110991509A publication Critical patent/CN110991509A/zh
Application granted granted Critical
Publication of CN110991509B publication Critical patent/CN110991509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于人工智能技术的资产识别与信息分类方法:包括以下步骤:收集资产信息数据;判断根据资产信息数据能都得知资产所属或类型;资产信息数据进行标签化与统一化处理,得到标签化信息;采取图像识别算法对网站类型进行分类;如果分类成功,得到分类信息,执行步骤五;资产信息数据做相似度与所属性分析,得到资产联想定位信息;将资产信息数据、标签化信息、分类信息和联想定位信息,作为信息报告;对于步骤五所得的信息报告进行标签化处理与分类入库,储存到相应的资产数据库。本发明整合以上人工智能技术所构建的资产识别与分类系统能在信息分类上达到准确高效和自动化的效果。

Description

基于人工智能技术的资产识别与信息分类方法
技术领域
本发明涉及一种资产识别与信息分类方法,具体涉及一种基于人工智能技术的资产识别与信息分类方法。
背景技术
随着5G时代的来临与万物互联概念的兴起,暴露在互联网中的网络资产数量与类型激增,对于资产的识别与信息分类的难度也急剧上升,因此,构建一个高效且能自动化对资产进行识别和分类的系统刻不容缓。
而人工智能技术是一项能生产出以人类智能相似的方式做出反应的智能机器,包括机器人、语言识别、图像识别、自然语言处理和专家系统等,采用人工智能技术进行问题的处理已经成为了趋势。
因此,使用人工智能技术,对网络资产进行多维度的识别检测和分类,包括对扫描所得资源进行图像和文字识别、使用机器学习算法和自然语言处理技术对资产进行分类,构建一个完善的自动化资产识别与分类系统,能极大的提高资产识别的效率和准确度。
目前,多数网络资产探测与信息收集系统采用的是主动扫描和收集分类的方式,在面对急剧增长的资产数量和类型的情况下,对于资产的识别和分类效率和准确度都存在缺陷。
而目前现有的单纯结合机器学习进行资产识别和分类的系统,均为对资产信息进行简单的分类,并没有做深入的处理与分析,不能够高效准确的准确定位资产信息,在资产的识别与分类上还是需要很多人工辅助的操作。同时在数据维度上,目前尚未有资产探测系统结合人工智能图像音频识别与自然语言处理技术对资产进行分类。
因此,需要对现有技术进行改进。
发明内容
本发明要解决的技术问题是提供一种高效的基于人工智能技术的资产识别与信息分类方法。
为解决上述技术问题,本发明提供一种基于人工智能技术的资产识别与信息分类方法:包括以下步骤:
步骤一:收集资产信息数据;判断根据资产信息数据能都得知资产所属或类型;如果能,执行步骤二;否则,执行步骤三;
步骤二:资产信息数据进行标签化与统一化处理,得到标签化信息;执行步骤五;
步骤三:采取图像识别算法对网站类型进行分类;如果分类成功,得到分类信息,执行步骤五;否则,执行步骤四;
同时截取WEB网页图像,对页面中的标志性LOGO进行图像识别。
步骤四:资产信息数据做相似度与所属性分析,得到资产联想定位信息;执行步骤五;
步骤五:将步骤一、二、三、四得到资产信息数据、标签化信息、分类信息和联想定位信息,作为信息报告;执行步骤六
步骤六:对于步骤五所得的信息报告进行标签化处理与分类入库,储存到相应的资产数据库。
作为对本发明基于人工智能技术的资产识别与信息分类方法的改进:
步骤四包括:
资产信息数据做相似度与所属性分析,采用数据挖掘的方式进行扩散联想与资产信息收集,得到资产联想定位信息;执行步骤五;
作为对本发明基于人工智能技术的资产识别与信息分类方法的进一步改进:
步骤四包括:
在已分类的资产数据库中,搜索与其拥有相似域名、相近ip、相似操作系统或中间件的资产信息数据,作为资产联想定位信息;执行步骤五;
作为对本发明基于人工智能技术的资产识别与信息分类方法的进一步改进:
资产信息数据包括IP信息、服务类型、MAC地址、主机、路由器、防火墙、中间件指纹特征,还可能包括Web域名、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息。
作为对本发明基于人工智能技术的资产识别与信息分类方法的进一步改进:
步骤二具体的标签化与统一化处理使用机器学习分类算法,机器学习分类算法包括但不限于有K-Means聚类算法。
作为对本发明基于人工智能技术的资产识别与信息分类方法的进一步改进:
步骤二中的自然语言处理技术包括但不限于对信息进行分词、命名实体识别、词义相似度分析等。
作为对本发明基于人工智能技术的资产识别与信息分类方法的进一步改进:
步骤三中的图像识别算法包括但不限于:fasterR-cnn、yolo3图像识别算法。
本发明基于人工智能技术的资产识别与信息分类方法的技术优势为:
本发明旨在实现一种基于人工智能技术的资产识别与分类系统,该系统的原理为对网络资产进行多维度的识别检测和分类,包括但不限于对扫描所得资源进行图像和文字识别、使用机器学习算法和自然语言处理技术对资产进行分类,整合以上人工智能技术所构建的资产识别与分类系统能在信息分类上达到准确高效和自动化的效果。
目前并没有一种完全安全、无法破解的机器学习算法模型,本发明致力于实现一种高效且适用性广、迁移性强的对抗性攻击方法,构建一个与目标模型相对立的神经网络,通过此网络能生成鱼原图相近的对抗性样本图像,来使图像识别分类模型产生错误。构建神经网络的益处在于一旦训练完成,之后所生成的对抗性样本均不需要依赖于目标模型的接触和大量的数值运算,具有高效、可迁移的特点。同时,研究机器学习的对抗性攻击有益于一步优化机器学习算法和数据处理手段,从而提高机器学习算法和其应用的安全性。
目前并没有一种完全智能与高效的资产识别与分类系统,随着5G时代的来临与万物互联概念的兴起,暴露在互联网中的网络资产数量与类型激增,对于资产的识别与信息分类的难度也急剧上升,因此,本发明致力于构建一个高效且能自动化对资产进行识别和分类的系统。使用人工智能技术,对网络资产进行多维度的识别检测和分类,包括对扫描所得资源进行图像和文字识别、使用机器学习算法和自然语言处理技术对资产进行分类,构建一个完善的自动化资产识别与分类系统,能极大的提高资产识别的效率和准确度。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细说明。
图1为本发明基于人工智能技术的资产识别与信息分类方法的流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此。
实施例1、基于人工智能技术的资产识别与信息分类方法,如图1所示,使用人工智能技术,对网络资产进行多维度的识别检测和分类,包括对扫描所得资源进行图像和文字识别、使用机器学习算法和自然语言处理技术对资产进行分类,有助于构建一个完善的自动化资产识别与分类系统,能极大的提高资产识别的效率和准确度。
本发明构建一个结合人工智能图像音频识别与自然语言处理技术的资产分类识别系统,包括资产信息标签化子系统、应用分类子系统、资产联想定位子系统、资产识别与分类测绘子系统、资产存储与数据挖掘子系统。
资产信息标签化子系统,能对主动扫描所获得的资产信息,采取人工智能技术进行资产识别与信息分类,具体表现为,对格式混乱与无法归一化的资产信息例如中间件软件版本信息、大量操作系统子版本信息、作者信息等进行机器学习分类与自然语言处理操作。清洗与汇总资产的客观数据,包括所有无需处理的IP信息、Web域名信息,并对路由器、防火墙、中间件指纹特征、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息进行标签化与统一化处理。具体的机器学习分类算法包括但不限于有K-Means聚类算法,具体的自然语言处理技术包括但不限于对信息进行分词、命名实体识别、词义相似度分析等。
应用分类子系统将扫描所得的应用信息,包括但不限于网站信息、视频探头信息等,在无法得知资产所属与类型时,采取机器学习分类算法对应用类型进行分类,同时截取应用展现的图像,对页面中的标志性LOGO进行图像识别。具体的图像识别算法包括但不限于:faster R-cnn、yolo3图像识别算法等。
资产联想定位子系统对于单个无法进行识别与分类的资产,联想与搜索相关域名、IP、相似操作系统或中间件、关联区域等的资产,做相似度与所属性分析,采用数据挖掘的方式对用户特殊关注的单一资产进行扩散联想与资产信息收集。具体相似度算法包括但不限于采取机器学习聚类k-means算法的方式进行相似度聚类。
资产识别与分类测绘子系统对于扫描所得的资产信息,构建完整的资产识别与信息分类分析系统,具体包括步骤一的主动扫描技术与步骤二所得的标签化信息和步骤三所得的分类信息,同时结合步骤四所得的相似性分析资产,对信息进行汇总与测绘之后能得出包括但不限于资产的具体类型、领域、所属单位、相关同类型资产等信息报告。
资产存储与数据挖掘子系统对于最终人工智能技术的资产识别与信息分类系统分析与测绘得到的资产数据进行标签化处理与分类入库,为之后扫描所得的资产信息作关联性分析的数据支撑。
基于人工智能技术的资产识别与信息分类方法具体包括以下步骤:
步骤一:通过主动扫描器收集资产的资产信息数据;
获取资产信息数据包括IP信息、服务类型、MAC地址、主机、路由器、防火墙、中间件指纹特征,同时获取Web域名、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息,截取WEB页面图像。
判断根据资产信息数据能都得知资产所属或类型;如果能,执行步骤二;否则,执行步骤三;
步骤二:对主动扫描所获得的资产信息数据,使用采资产信息标签化子系统(采取人工智能技术进行资产识别与信息分类),对格式混乱与无法归一化的资产信息例如中间件软件版本信息、大量操作系统子版本信息、作者信息等进行机器学习分类与自然语言处理操作。清洗与汇总资产的客观数据,包括所有无需处理的IP信息、Web域名信息,并对路由器、防火墙、中间件指纹特征、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息进行标签化与统一化处理,得到标签化信息。执行步骤五;
“资产的客观数据”指的是类别明确、显而易见、没有模糊混淆的信息数据,例如IP信息、MAC地址、Web域名、服务类型、开放端口等,此类为客观数据,无需分词并进行机器学习分类或者自然语言处理。而例如从Web服务中提取的指纹信息、软件及版本、操作系统和Web标题描述等信息,由于格式、描述方式的不同(例如操作系统: Ubuntu16.06/linux-ubuntu16.06/thesystemversionisubuntu16.06,再例如web页面标题:xxx 医院主页/xxx医院欢迎你,描述不同但是本质相同)需要进行机器学习分类与自然语言处理,此类数据包括但不限于web服务所采集的数据。
对上述资产信息数据需要进行处理,机器学习分类与自然语言处理均为手段,最终得到标签化信息。此处的标签化信息为,统一“Ubuntu16.06/linux-ubuntu16.06/thesystemversionis ubuntu16.06”为“Ubuntu16.06”,统一“xxx医院主页/xxx医院欢迎你”为“xxx医院”,这些意义明确、没有冗余信息的数据可作为标签化信息。具体的机器学习分类的算法包括但不限于有K-Means聚类算法,具体的自然语言处理的技术包括但不限于对信息进行分词、命名实体识别、词义相似度分析等。
步骤三:对于步骤一扫描所得的资产信息数据,采用应用分类子系统,在无法得知资产所属或类型时(根据Web域名、Web开发语言中间件等指纹信息、软件及版本、操作系统等信息可知资产所属或类型,例如:预设类型为医院、教育、政府的域名,通过Web域名即可得知相应的资产信息数据属于什么类型;通过资产信息数据的操作系统得知其由什么框架构建的),采取机器学习分类算法对网站类型进行分类,截取WEB网页图像,对页面中的标志性LOGO进行图像识别。分类成功,执行步骤五;否则,执行步骤四;
比如使用图像识别算法,识别出网站logo或图片中的文字,从而确定网站的分类(比如在网站背景中有“医院”字样/网站logo是一个有名的公司logo),得到分类信息。具体的机器学习分类算法使用的图像识别算法包括但不限于:fasterR-cnn、yolo3图像识别算法等。
步骤三所述的机器学习算法侧重于对图像的处理,步骤二中的机器学习分类算法侧重于对文字数据的处理,这也是由于步骤三的处理是侧重于针对网站页面,而步骤二侧重于扫描所得的文字信息。
步骤四:对于其他步骤二和步骤三无法定位与分类的资产(步骤二无法定位即为资产信息数据缺少相应信息,步骤三无法进行分类即为图像识别算法识别出的结果无法确定分类),采用资产联想定位子系统,联想与搜索相关域名、IP、相似操作系统或中间件、关联区域等的资产,做相似度与所属性分析,采用数据挖掘的方式对用户特殊关注的单一资产进行扩散联想与资产信息收集,得到资产联想定位信息;执行步骤五;
联想与搜索的具体方法为:对无法定位与分类的资产,在已分类的资产数据库中,搜索与其拥有相似域名、相近ip、相似操作系统或中间件的资产信息数据,作为资产联想定位信息(例如,一个未知资产只扫描到了域名/ip,但此域名与资产数据库中某医院的域名很像,或者与某教育网站所使用的操作系统和中间件相似)。例如某无法定位与分类的资产,和80%的A类分类中的中间件相似,和50%的B类分类的域名相关,又和30%C类分类有一样的网页描述,那么则需要进行相似度的分析,对一个未知分类的资产,以现有的资产数据库为依据,“大概联想一下它最像哪一类资产数据”这样一种相似性评估的过程。
步骤五:在步骤一所得的资产信息数据上添加相应的步骤二所得的标签化信息、步骤三所得的分类信息和步骤四得到的联想定位信息,作为信息报告。
对于步骤一扫描所得的资产信息数据,构建完整的资产识别与信息分类分析系统,具体包括步骤一的主动扫描技术与步骤二所得的标签化信息和步骤三所得的分类信息,同时结合步骤四的资产联想定位信息,对信息进行汇总与测绘之后能得出包括但不限于资产的具体类型、领域、所属单位、相关同类型资产等信息报告。
步骤六:对于步骤五所得的信息报告进行标签化处理与分类入库,储存到资产数据库,为之后扫描所得的资产信息作关联性分析的数据支撑。
例如资产信息数据:域名www.xxhospital.com,操作系统为ubuntu16.06-linux,网页截图后有“xx医院”图像,则步骤二标签化信息为ubuntu16.06,步骤三分类信息为xx医院。此数据经步骤五整理入库后;有一未知资产,其扫描得到的信息只有域名www.xxhospital-eyes.com,其他数据全都没有,那么通过步骤四的联想定位,在数据库中搜索到相似域名的www.xxhospital.com这一条数据,可以联想到此未知资产为xx医院的可能性很高。
术语1:人工智能技术
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
术语2:图像识别算法
用于图像检测、分类的机器学习算法,通常基于卷积神经网络CNN,有RCNN/AlexNet/VGGNet/ResNet等多种结构。
术语3:机器学习算法
机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
术语4:自然语言处理技术
自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (3)

1.基于人工智能技术的资产识别与信息分类方法,其特征在于:包括以下步骤:
步骤一:收集资产信息数据;判断根据资产信息数据能都得知资产所属或类型;如果能,执行步骤二;否则,执行步骤三;
资产信息数据包括IP信息、服务类型、MAC地址、主机、路由器、防火墙、中间件指纹特征;同时获取Web域名、Web开发语言中间件的指纹信息、软件及版本、操作系统的信息,截取WEB页面图像;
步骤二:资产信息数据进行标签化与统一化处理,得到标签化信息;执行步骤五;
所述步骤二中对格式混乱与无法归一化的资产信息进行机器学习分类与自然语言处理操作,清洗与汇总资产的客观数据包括所有无需处理的IP信息、Web域名信息,并对路由器、防火墙、中间件指纹特征、Web开发语言中间件的指纹信息、软件及版本、操作系统的信息进行标签化与统一化处理,得到标签化信息;
标签化与统一化处理使用机器学习分类算法,机器学习分类算法包括K-Means聚类算法;
步骤三:采取图像识别算法对网站类型进行分类;如果分类成功,得到分类信息,执行步骤五;否则,执行步骤四;
步骤四:资产信息数据做相似度与所属性分析,在已分类的资产数据库中,搜索与其拥有相似域名、相近ip、相似操作系统或中间件的资产信息数据,采用数据挖掘的方式对单一资产进行扩散联想与资产信息收集,得到资产联想定位信息;执行步骤五;
步骤五:为以下任一:
将步骤一得到的资产信息数据、步骤二得到的标签化信息作为信息报告;执行步骤六;
将步骤一得到的资产信息数据、步骤三得到的分类信息作为信息报告;执行步骤六;
将步骤一得到的资产信息数据、步骤四得到的资产联想定位信息作为信息报告;执行步骤六;
步骤六:对于步骤五所得的信息报告进行标签化处理与分类入库,储存到相应的资产数据库。
2.根据权利要求1所述的基于人工智能技术的资产识别与信息分类方法,其特征在于:
步骤二中的自然语言处理技术包括对信息进行分词、命名实体识别、词义相似度分析。
3.根据权利要求2所述的基于人工智能技术的资产识别与信息分类方法,其特征在于:
步骤三中的图像识别算法包括faster R-cnn 、yolo3图像识别算法。
CN201911166506.9A 2019-11-25 2019-11-25 基于人工智能技术的资产识别与信息分类方法 Active CN110991509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911166506.9A CN110991509B (zh) 2019-11-25 2019-11-25 基于人工智能技术的资产识别与信息分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911166506.9A CN110991509B (zh) 2019-11-25 2019-11-25 基于人工智能技术的资产识别与信息分类方法

Publications (2)

Publication Number Publication Date
CN110991509A CN110991509A (zh) 2020-04-10
CN110991509B true CN110991509B (zh) 2023-08-01

Family

ID=70086498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911166506.9A Active CN110991509B (zh) 2019-11-25 2019-11-25 基于人工智能技术的资产识别与信息分类方法

Country Status (1)

Country Link
CN (1) CN110991509B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158001B (zh) * 2021-03-25 2024-05-14 深圳市联软科技股份有限公司 一种网络空间ip资产归属及相关性判别方法及系统
CN113032654A (zh) * 2021-04-08 2021-06-25 远江盛邦(北京)网络安全科技股份有限公司 网络空间内基于暴露面的社会组织识别方法及系统
CN113743542B (zh) * 2021-11-05 2022-03-01 北京广通优云科技股份有限公司 一种基于加密流量的网络资产识别方法与系统
CN114491049A (zh) * 2022-02-17 2022-05-13 金陵科技学院 一种基于信息管理的办公系统资产配置方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049562A (zh) * 2012-12-31 2013-04-17 华为技术有限公司 一种识别相似网页的方法及装置
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN109726763A (zh) * 2018-12-29 2019-05-07 北京神州绿盟信息安全科技股份有限公司 一种信息资产识别方法、装置、设备及介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171088B2 (en) * 2011-04-06 2015-10-27 Google Inc. Mining for product classification structures for internet-based product searching
US20150120346A1 (en) * 2013-10-30 2015-04-30 International Business Machines Corporation Clustering-Based Learning Asset Categorization and Consolidation
CN104021185B (zh) * 2014-06-11 2017-04-05 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置
US10095768B2 (en) * 2014-11-14 2018-10-09 Veritas Technologies Llc Systems and methods for aggregating information-asset classifications
CN106202124B (zh) * 2015-05-08 2019-12-31 广州市动景计算机科技有限公司 网页分类方法及装置
US9979748B2 (en) * 2015-05-27 2018-05-22 Cisco Technology, Inc. Domain classification and routing using lexical and semantic processing
US20160381056A1 (en) * 2015-06-23 2016-12-29 Veracode, Inc. Systems and methods for categorization of web assets
US10148700B2 (en) * 2016-06-30 2018-12-04 Fortinet, Inc. Classification of top-level domain (TLD) websites based on a known website classification
US11503070B2 (en) * 2016-11-02 2022-11-15 Microsoft Technology Licensing, Llc Techniques for classifying a web page based upon functions used to render the web page
US20190294642A1 (en) * 2017-08-24 2019-09-26 Bombora, Inc. Website fingerprinting
CN109190698B (zh) * 2018-08-29 2022-02-11 西南大学 一种网络数字虚拟资产的分类识别系统及方法
CN109033471B (zh) * 2018-09-05 2022-11-08 中国信息安全测评中心 一种信息资产识别方法及装置
CN110427628A (zh) * 2019-08-02 2019-11-08 杭州安恒信息技术股份有限公司 基于神经网络算法的web资产分类检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049562A (zh) * 2012-12-31 2013-04-17 华为技术有限公司 一种识别相似网页的方法及装置
CN108256104A (zh) * 2018-02-05 2018-07-06 恒安嘉新(北京)科技股份公司 基于多维特征的互联网网站综合分类方法
CN109726763A (zh) * 2018-12-29 2019-05-07 北京神州绿盟信息安全科技股份有限公司 一种信息资产识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110991509A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991509B (zh) 基于人工智能技术的资产识别与信息分类方法
Pham et al. Semantic labeling: a domain-independent approach
US20170286835A1 (en) Concept Hierarchies
US20170161619A1 (en) Concept-Based Navigation
CN107085585A (zh) 用于图像搜索的准确的标签相关性预测
CN107193796B (zh) 一种舆情事件检测方法及装置
CN108829661B (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN106446124B (zh) 一种基于网络关系图的网站分类方法
CN116611071A (zh) 一种基于多模态的函数级漏洞检测的方法
CN110928871B (zh) 使用来自正交行和列的全局机器学习特征的表头部检测
ur Rehman et al. Learning a semantic space for modeling images, tags and feelings in cross-media search
Jeya Christy et al. Content-based image recognition and tagging by deep learning methods
Rose et al. The linguistic analysis of scene semantics: LASS
Wei et al. Food image classification and image retrieval based on visual features and machine learning
Li et al. Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
Wick et al. Learning field compatibilities to extract database records from unstructured text
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN111553167A (zh) 文本类型识别方法和装置及存储介质
Bhattacharjee et al. Multimodal co-training for fake news identification using attention-aware fusion
Wang et al. Human reading knowledge inspired text line extraction
Lu et al. Mining latent attributes from click-through logs for image recognition
Pinto et al. Intelligent and fuzzy systems applied to language & knowledge engineering
TW202004519A (zh) 影像自動分類的方法
Xiang et al. Distant Supervision for Relation Extraction via Group Selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant