CN110427628A - 基于神经网络算法的web资产分类检测方法及装置 - Google Patents
基于神经网络算法的web资产分类检测方法及装置 Download PDFInfo
- Publication number
- CN110427628A CN110427628A CN201910714955.6A CN201910714955A CN110427628A CN 110427628 A CN110427628 A CN 110427628A CN 201910714955 A CN201910714955 A CN 201910714955A CN 110427628 A CN110427628 A CN 110427628A
- Authority
- CN
- China
- Prior art keywords
- web
- sorted
- assets
- page contents
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000004140 cleaning Methods 0.000 claims abstract description 44
- 230000001537 neural effect Effects 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims description 42
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000239290 Araneae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 108010074506 Transfer Factor Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于神经网络算法的web资产分类检测方法及装置,包括:获取待分类web资产的网页内容,对网页内容清洗处理;对清洗处理的网页内容预处理,得到特征分词;对特征分词向量化处理,得到待分类web资产的特征向量;采用分类神经网络模型对待分类web资产的特征向量分类处理,得到待分类web资产的类别信息。该方法在对待分类web资产进行分类时,最终得到的特征向量中涵盖有网页内容特征,在通过分类神经网络模型对待分类web资产的特征向量进行分类处理后,得到的待分类web资产的类别信息准确性好。
Description
技术领域
本发明涉及互联网安全的技术领域,尤其是涉及一种基于神经网络算法的web资产分类检测方法及装置。
背景技术
随着互联网技术的发展,暴露在公众面前的web系统越来越多,如何管理和规范网站内容一直是互联网安全监管的重要职责。资产管理工作是资产脆弱性管理、资产威胁管理、资产风险管理的第一步,在整体安全工作中承担着不可或缺的基石作用。资产管理最重要的目标是收集、清洗、分类、补全资产的信息,最终的目的就是形成一个信息全面的资产档案库。资产档案库中包括4个领域的内容,参考图1所示,分别是:基本信息域、技术信息域、资产分类域和安全信息域。
基础信息包括:资产的IP地址、域名、端口信息、资产所在地理位置和网络协议等;指纹信息包括:资产的前端框架、服务器类型、CMS类型、后端开发框架、开发语言、操作系统类型、WAF类型等;安全信息包括:资产的流量信息、内容更新、安全漏洞、当前受到的攻击等;分类信息主要是为业务提供资产不同分类,例如,按照行业分类、检测黄赌毒资产、检测金融欺诈资产等。
资产的基本信息是在资产收集的过程中可以获取得到的信息,具体可以通过流量、扫描等各种手段获取资产的基础信息(例如:IP地址、域名、端口信息、资产所在地理位置和网络协议等);资产的指纹信息可以通过指定的指纹规则对每个资产进行分别检测,符合规则的就可以标记为属于该类指纹;资产的安全信息可以通过漏洞扫描工具、WAF等设备获取资产漏洞信息、被攻击信息等。
目前,相关的技术方案在对待分类资产进行分类检测时,一般采用特征关键字检索的方式,确定待分类资产的类别。具体过程为:对应于每个类别,事先确定出其所包含的特征关键字(比如:对于金融行业的类别,确定的其所包含的特征关键字有:股票、证券、国债等),然后,对待分类资产进行特征关键字检索,如果在待分类资产中检索到了目标特征关键字,那么就将目标特征关键字所对应的类别作为待分类资产的类别。
但是,上述资产分类的方法常常因为特征关键字归类错误(有些特征关键字难于归类)而导致资产分类错误,分类的准确性差。
发明内容
本发明的目的在于提供一种基于神经网络算法的web资产分类检测方法及装置,以缓解现有的资产分类方法准确性差的技术问题。
本发明提供的一种基于神经网络算法的web资产分类检测方法,包括:获取待分类web资产的网页内容,并对所述网页内容清洗处理;对清洗处理得到的网页内容预处理,得到特征分词;所述预处理包括:去html标签处理、分词处理和去停用词处理,所述特征分词用于表征所述待分类web资产的网页内容特征;对所述特征分词向量化处理,得到所述待分类web资产的特征向量;采用分类神经网络模型对所述待分类web资产的特征向量分类处理,得到所述待分类web资产的类别信息。
进一步的,获取待分类web资产的网页内容包括:获取所述待分类web资产;爬取所述待分类web资产的网页内容,得到第一网页内容;递归爬取所述待分类web资产的网页内容,得到第二网页内容;将所述第一网页内容和所述第二网页内容作为所述待分类web资产的网页内容。
进一步的,所述清洗处理包括:去重处理和去噪处理,对所述网页内容清洗处理包括:采用Simhash算法对所述网页内容去重处理;对去重处理得到的网页内容去噪处理。
进一步的,对清洗处理得到的网页内容预处理包括:对所述网页内容去html标签处理;对去html标签处理得到的网页内容分词处理;对分词处理得到的原始特征分词去停用词处理,得到所述特征分词。
进一步的,对所述特征分词向量化处理包括:对所述特征分词进行One-Hot编码,得到所述特征分词的编码向量;采用向量转化模型对所述编码向量进行转化,得到所述待分类web资产的特征向量。
进一步的,所述类别信息包括:所述待分类web资产所属的类别和所述待分类web资产所属类别的概率值,在得到所述待分类web资产的类别信息之后,所述方法还包括:根据所述待分类web资产所属类别的概率值和所述分类神经网络模型的精确度确定对所述待分类web资产分类检测的置信度。
进一步的,在获取待分类web资产的网页内容之前,所述方法还包括:获取web资产样本的网页内容样本;所述web资产样本携带有类别标签;对所述网页内容样本预处理,并对预处理得到的特征分词样本向量化处理,得到所述web资产样本的特征向量;基于所述web资产样本的特征向量和所述类别标签对原始分类神经网络模型训练,得到所述分类神经网络模型。
进一步的,所述分类神经网络模型的结构包括:卷积层、池化层和分类层。
本发明还提供了一种基于神经网络算法的web资产分类检测装置,包括:获取并清洗模块,用于获取待分类web资产的网页内容,并对所述网页内容清洗处理;预处理模块,用于对清洗处理得到的网页内容预处理,得到特征分词;所述预处理包括:去html标签处理、分词处理和去停用词处理,所述特征分词用于表征所述待分类web资产的网页内容特征;向量化处理模块,用于对所述特征分词向量化处理,得到所述待分类web资产的特征向量;分类处理模块,用于采用分类神经网络模型对所述待分类web资产的特征向量分类处理,得到所述待分类web资产的类别信息。
本发明还提供了一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述内容中所述的方法的步骤。
在本发明实施例中,先获取待分类web资产的网页内容,并对网页内容清洗处理;然后,对清洗处理得到的网页内容预处理,得到特征分词,该特征分词用于表征待分类web资产的网页内容特征;进而,对表征待分类web资产的网页内容特征的特征分词向量化处理,得到待分类web资产的特征向量;最后,采用分类神经网络模型对待分类web资产的特征向量分类处理,得到待分类web资产的类别信息。通过上述描述可知,本发明的web资产分类检测方法在对待分类web资产进行分类时,是先得到用于表征待分类web资产的网页内容特征的特征分词,进而对特征分词向量化处理,得到特征向量,可见,该特征向量中涵盖有网页内容特征,这样在通过分类神经网络模型对待分类web资产的特征向量进行分类处理后,得到的待分类web资产的类别信息准确性好,缓解了现有的资产分类方法准确性差的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的资产档案库的示意图;
图2为本发明实施例提供的一种基于神经网络算法的web资产分类检测方法的流程图;
图3为本发明实施例提供的获取待分类web资产的网页内容的方法流程图;
图4为本发明实施例提供的对清洗处理得到的网页内容预处理的方法流程图;
图5为本发明实施例提供的分类神经网络模型的结构示意图;
图6为本发明实施例提供的训练分类神经网络模型的示意图;
图7为本发明实施例提供的一种基于神经网络算法的web资产分类检测装置的示意图;
图8为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于神经网络算法的web资产分类检测方法进行详细介绍。
实施例一:
根据本发明实施例,提供了一种基于神经网络算法的web资产分类检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的一种基于神经网络算法的web资产分类检测方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,获取待分类web资产的网页内容,并对网页内容清洗处理;
在本发明实施例中,上述web资产分类检测方法可以应用于终端设备,也可以应用于服务器,本发明实施例对其不进行具体限制。
上述待分类web资产可以为待分类网站,具体可以以待分类网站地址的形式表现,在对待分类web资产进行分类时,先获取待分类web资产的网页内容,因为根据网页内容对待分类web资产进行分类时,最终得到的类别信息才会更加准确。
另外,考虑到网页内容中可能会存在一些重复的网页内容或者无效的网页内容,无法真正反映待分类web资产的特征,还会增加后续处理的计算量,进而影响分类的准确性,基于此,在得到上述网页内容后,需要对网页内容进行清洗处理,清洗处理得到的网页内容都能反映待分类web资产的特征,便于后续基于清洗处理得到的网页内容确定待分类web资产的类别信息。
步骤S204,对清洗处理得到的网页内容预处理,得到特征分词;预处理包括:去html标签处理、分词处理和去停用词处理,特征分词用于表征待分类web资产的网页内容特征;
网页内容是用html(即Hyper Text Markup Lanaguage)语言编写的,其中只有部分信息能够表征待分类web资产的网页内容特征,这就需要对清洗处理得到的网页内容进行预处理(可以理解为特征提取处理),进而得到用于表征待分类web资产的网页内容特征的特征分词。
步骤S206,对特征分词向量化处理,得到待分类web资产的特征向量;
文本形式的特征分词无法直接用于后续的分类处理,需要将其向量化处理,进而得到待分类web资产的特征向量,以用于后续的分类处理过程。
步骤S208,采用分类神经网络模型对待分类web资产的特征向量分类处理,得到待分类web资产的类别信息。
上述分类神经网络模型为事先训练好的分类模型,能够对待分类web资产进行分类处理。在得到上述待分类web资产的特征向量后,将其输入至分类神经网络模型中,就能输出得到该待分类web资产的类别信息。
在本发明实施例中,先获取待分类web资产的网页内容,并对网页内容清洗处理;然后,对清洗处理得到的网页内容预处理,得到特征分词,该特征分词用于表征待分类web资产的网页内容特征;进而,对表征待分类web资产的网页内容特征的特征分词向量化处理,得到待分类web资产的特征向量;最后,采用分类神经网络模型对待分类web资产的特征向量分类处理,得到待分类web资产的类别信息。通过上述描述可知,本发明的web资产分类检测方法在对待分类web资产进行分类时,是先得到用于表征待分类web资产的网页内容特征的特征分词,进而对特征分词向量化处理,得到特征向量,可见,该特征向量中涵盖有网页内容特征,这样在通过分类神经网络模型对待分类web资产的特征向量进行分类处理后,得到的待分类web资产的类别信息准确性好,缓解了现有的资产分类方法准确性差的技术问题。
上述内容对本发明的基于神经网络算法的web资产分类检测方法进行了简要介绍,下面对其中涉及到的具体内容进行详细描述。
在本发明的一个可选实施例中,参考图3,上述步骤S202,获取待分类web资产的网页内容包括如下步骤:
步骤S301,获取待分类web资产;
在本发明实施例中,上述待分类web资产是以网站地址的形式存在。
步骤S302,爬取待分类web资产的网页内容,得到第一网页内容;
网页内容能够反映待分类web资产的类别信息,所以,在得到待分类web资产后,进一步爬取待分类web资产的网页内容。具体可以通过http协议访问上述网站地址的方式爬取网页内容。
比如,待分类web资产为A网站,给出了该A网站的网站地址,可以通过http协议访问上述A网站的网站地址,进而得到部分网页内容,将其作为A网站的第一网页内容。
步骤S303,递归爬取待分类web资产的网页内容,得到第二网页内容;
考虑到上述网页内容中所包含的信息量少,不足以用于进行分类检测,所以,进一步通过递归爬取的方式对待分类web资产的网页内容进行爬取。
在具体实现时,可以在上述第一网页内容中提取带有<a href=>超链接的内容,如果该链接的href内容与待分类web资产(待分类网站)属于同一域名下的内容,则保存该链接,然后进一步通过http协议访问上述保存的链接,得到更多的网页内容,在本发明实施例中,称之为第二网页内容。
步骤S304,将第一网页内容和第二网页内容作为待分类web资产的网页内容。
上述第一网页内容和上述第二网页内容共同作为待分类web资产的网页内容,对于每个待分类web资产,为了使得后续分类得到的类别信息更加准确,爬取得到的网页内容不少于2000个,当然,本发明实施例对其具体数量不进行限制,如果对于精度要求不高的分类检测,可以爬取少量的网页内容。
上述内容对获取待分类web资产的过程进行了详细介绍,下面对清洗处理的过程进行详细描述。
在本发明的一个可选实施例中,清洗处理包括:去重处理和去噪处理,上述步骤S202,对网页内容清洗处理包括如下(1)和(2)的步骤:
(1)采用Simhash算法对网页内容去重处理;
在得到网页内容后,采用Simhash算法对每个网页内容进行计算,得到对应的哈希值,进而,计算哈希值之间的海明距离,并根据计算得到的海明距离确定该两个网页内容之间的相似度,如果海明距离小于预设阈值,则确定该海明距离对应的两个网页内容相同,进而去除其中一个网页内容(或者将其进行同一类型的标记,不再进行后续的计算),去重处理得到的网页内容中不再包含重复的网页内容,大量节省了资产分类计算的时间。
(2)对去重处理得到的网页内容去噪处理。
去噪处理就是将一些不可达资产、响应出错的资产、应用服务器的默认页、空白页面、过于简单的页面内容去除掉。不可达资产是待分类web资产(如:网站)当前由于网络或者域名过期等原因访问不到的资产;响应出错的资产是在抓取网页内容时,响应码不是200(例如:404,500等)的资产,这些内容已经不能表示其实际的业务内容;应用服务器的默认页(tomcat、nginx等)、空白页面、ICP备案过期提醒等也要去除掉,这些网页内容是中间件返回的内容,不是实际的网站内容,对于分类检测无用。
上述内容介绍了清洗处理的具体过程,下面对预处理的过程进行详细描述。
在本发明的一个可选实施例中,参考图4,上述步骤S204,对清洗处理得到的网页内容预处理包括如下步骤:
步骤S401,对网页内容去html标签处理;
网页内容中包含有html标签和文本内容,其中的html标签对于分类检测无用,可以去除其中的html标签,只得到文本内容(包括:标题和正文内容)。
步骤S402,对去html标签处理得到的网页内容分词处理;
去html标签处理得到的网页内容具体为文本形式的内容,后续是要对网页内容进行向量化处理,要进行文本内容的向量化就需要对文本内容进行分词处理,得到多个分词,可以认为分词处理的过程是后续向量化处理的预过程。
英文单词本身有空格分隔,可以按照控制进行分词,但有时也需要将多个单词作为一个分词,比如一些名词需要作为一个词看待。而中文由于没有空格,需要基于统计的分词进行分词处理,而统计的样本内容来自于一些标准的语料库。
在分词的过程中,可以有多种分词的组合方式,需要计算哪种组合方式出现的概率最大,就表示该种组合是最合理的分词方式。
计算概率的算法是假定一个分词出现的概率仅仅和前一个分词有关,也就是,马尔科夫假设,然后,使用HMM(隐式马尔科夫模型)算法,计算各种组合方式出现的概率,进而将概率最大的组合方式作为最好的分词方式,就完成了分词的过程。
步骤S403,对分词处理得到的原始特征分词去停用词处理,得到特征分词。
分词处理得到的原始特征分词中有一类分词(比如:助词、限定词等)出现的频率比较高,但是提供的特征性信息比较少,将其称之为停用词,需要将这些停用词过滤掉,以节省计算的工作量,避免这些停用词带来的干扰。
上述内容对预处理的过程进行了详细介绍,下面对向量化处理的过程进行具体描述。
在本发明的一个可选实施例中,上述步骤S206,对特征分词向量化处理包括如下1)和2)的步骤:
1)对特征分词进行One-Hot编码,得到特征分词的编码向量;
2)采用向量转化模型对编码向量进行转化,得到待分类web资产的特征向量。
在对特征分词向量化处理时,先对特征分词进行One-Hot编码,得到特征分词的编码向量。下面对One-Hot编码格式进行举例说明:
小学->[1,0,0,0,0]
中学->[0,1,0,0,0]
大学->[0,0,1,0,0]
硕士->[0,0,0,1,0]
博士->[0,0,0,0,1]
上述特征分词即为One-Hot编码后,得到的编码向量;然后,再将特征分词的编码向量输入至向量转化模型,就能得到待分类web资产的特征向量。
上述向量转化模型使用的是google公司的word2vec中的Skip-Gram模型训练得到的。Word2vec本身是基于2层神经网络结构来训练模型,分别是CBOW(Continuous Bag-of-Words)模型与Skip-Gram模型,本发明使用的是Skip-Gram模型。在训练向量化转化模型时,使用一个单词作为Skip-Gram模型的输入,来预测上下文的内容,跟实际的结果进行对比,计算结果,从而根据误差调整神经网络的参数,直至达到迭代的次数,最终将神经网络的权重留下。再将该单词的编码向量输入后,就能得到对应的特征向量。
上述内容对特征分词向量化处理的过程进行了详细介绍,下面对确定分类检测置信度的过程进行描述。
在本发明的一个可选实施例中,类别信息包括:待分类web资产所属的类别和待分类web资产所属类别的概率值,在得到待分类web资产的类别信息之后,该方法还包括:根据待分类web资产所属类别的概率值和分类神经网络模型的精确度确定对待分类web资产分类检测的置信度。
具体的,将待分类web资产所属类别的概率值与分类神经网络模型的精确度相乘,得到的乘积作为对待分类web资产分类检测的置信度。
上述内容对本发明的web资产分类检测方法的具体过程进行了详细介绍,下面对其中得到分类神经网络模型的过程进行详细描述。
在本发明的一个可选实施例中,在获取待分类web资产的网页内容之前,该方法还包括如下i)至iii)的步骤:
i)获取web资产样本的网页内容样本;web资产样本携带有类别标签;
具体的,先获取web资产样本,该web资产样本中携带有类别标签。比如:对于教育行业类别、医疗行业类别、水利行业类别、金融行业类别和电力行业类别,都有对应的10个web资产样本(即网站地址)。然后,爬取web资产样本的网页内容样本,该爬取的过程与上述内容中获取待分类web资产的网页内容的过程相同,在此不再赘述,具体过程可以参考上述内容中的相关介绍。
ii)对网页内容样本预处理,并对预处理得到的特征分词样本向量化处理,得到web资产样本的特征向量;
在得到网页内容样本后,对其进行预处理(也可以理解为特征提取处理),得到特征分词。具体的,预处理包括:去html标签处理、分词处理和去停用词处理。该预处理的过程与上述内容中提到的预处理的过程相同,在此不再赘述。
另外,预处理后,得到特征分词样本,再对得到的特征分词样本向量化处理,得到web资产样本的特征向量。
iii)基于web资产样本的特征向量和类别标签对原始分类神经网络模型训练,得到分类神经网络模型。
训练时,可以将web资产样本的特征向量分为两个数据集,其中一个数据集用于训练分类神经网络模型的参数,另一个数据集用于验证分类神经网络模型的准确性。
上述分类神经网络模型输入层为维度300的向量,通过3类卷积核(3*300卷积核、4*300卷积核、5*300卷积核)分别进行卷积处理,步长为1*300,每一类卷积核根据不同参数生成100个输出特征量;对生成了可变长度(是指3类卷积核)的100个特征量进行池化操作,得到一个300维度的向量;根据300维度的向量,采用softmax层(即分类层)的分类算法,将最终结果映射到不同的类别上。参考图5所示,其中示出了分类神经网络模型的结构。
在完成模型的构建后,进行模型的训练,目的是确定卷积层、池化层和分类层的参数,训练过程采用反向传播的方式来逼近CNN各层的参数。将训练数据输入模型,模型计算出预测结果,并计算预测结果跟实际结果之间的误差,根据各层的函数的导数,将误差反向传播到各个网络层中,根据传播结果进行参数的调整,直到结果最优。
训练的过程需要多个训练数据,使得预测结果的误差最小,需要多次选择不同批次的训练数据集,完成整个参数的运算。训练的过程如图6所示。
在完成模型的训练后,将验证数据输入模型,计算其分类结果,根据计算结果与实际结果的对比,可以确定该模型的准确度。
本发明的基于神经网络算法的web资产分类检测方法,通过网页爬虫技术获取网页内容,对网页内容进行规范化的预处理后,通过nlp(自然语言处理)技术和神经网络技术提取网页内容中的特征量,并通过分类模型将资产进行分类。nlp(自然语言处理)能够将网页中的内容形成数字化的表示,通过一个向量序列来表示一个网页内容,然后通过CNN(卷积神经网络)算法对网页内容进行分类,该实现方式大大提高了分类的准确性。
实施例二:
本发明实施例还提供了一种基于神经网络算法的web资产分类检测装置,主要用于执行本发明实施例上述内容所提供的基于神经网络算法的web资产分类检测方法,以下对本发明实施例提供的基于神经网络算法的web资产分类检测装置做具体介绍。
图7是根据本发明实施例的一种基于神经网络算法的web资产分类检测装置的示意图,如图7所示,该基于神经网络算法的web资产分类检测装置主要包括获取并清洗模块10,预处理模块20,向量化处理模块30和分类处理模块40,其中:
获取并清洗模块,用于获取待分类web资产的网页内容,并对网页内容清洗处理;
预处理模块,用于对清洗处理得到的网页内容预处理,得到特征分词;预处理包括:去html标签处理、分词处理和去停用词处理,特征分词用于表征待分类web资产的网页内容特征;
向量化处理模块,用于对特征分词向量化处理,得到待分类web资产的特征向量;
分类处理模块,用于采用分类神经网络模型对待分类web资产的特征向量分类处理,得到待分类web资产的类别信息。
在本发明实施例中,先获取待分类web资产的网页内容,并对网页内容清洗处理;然后,对清洗处理得到的网页内容预处理,得到特征分词,该特征分词用于表征待分类web资产的网页内容特征;进而,对表征待分类web资产的网页内容特征的特征分词向量化处理,得到待分类web资产的特征向量;最后,采用分类神经网络模型对待分类web资产的特征向量分类处理,得到待分类web资产的类别信息。通过上述描述可知,本发明的web资产分类检测方法在对待分类web资产进行分类时,是先得到用于表征待分类web资产的网页内容特征的特征分词,进而对特征分词向量化处理,得到特征向量,可见,该特征向量中涵盖有网页内容特征,这样在通过分类神经网络模型对待分类web资产的特征向量进行分类处理后,得到的待分类web资产的类别信息准确性好,缓解了现有的资产分类方法准确性差的技术问题。
可选地,上述获取并清洗模块还用于:获取待分类web资产;
爬取待分类web资产的网页内容,得到第一网页内容;
递归爬取待分类web资产的网页内容,得到第二网页内容;
将第一网页内容和第二网页内容作为待分类web资产的网页内容。
可选地,清洗处理包括:去重处理和去噪处理,上述获取并清洗模块还用于:采用Simhash算法对网页内容去重处理;
对去重处理得到的网页内容去噪处理。
可选地,上述预处理模块还用于:对网页内容去html标签处理;
对去html标签处理得到的网页内容分词处理;
对分词处理得到的原始特征分词去停用词处理,得到特征分词。
可选地,上述向量化处理模块还用于:对特征分词进行One-Hot编码,得到特征分词的编码向量;
采用向量转化模型对编码向量进行转化,得到待分类web资产的特征向量。
可选地,类别信息包括:待分类web资产所属的类别和待分类web资产所属类别的概率值,该装置还包括:确定模块,用于根据待分类web资产所属类别的概率值和分类神经网络模型的精确度确定对待分类web资产分类检测的置信度。
可选地,该装置还包括:
获取模块,用于获取web资产样本的网页内容样本;web资产样本携带有类别标签;
处理模块,用于对网页内容样本预处理,并对预处理得到的特征分词样本向量化处理,得到web资产样本的特征向量;
训练模块,用于基于web资产样本的特征向量和类别标签对原始分类神经网络模型训练,得到分类神经网络模型。
可选地,分类神经网络模型的结构包括:卷积层、池化层和分类层。
该实施例二中的具体内容可以参考上述实施例一中的描述,在此不再赘述。
实施例三:
本发明实施例提供了一种电子设备,参考图8,该电子设备包括:处理器50,存储器51,总线52和通信接口53,处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存储器51中存储的可执行模块,例如计算机程序。处理器执行计算及程序时实现如方法实施例中描述的方法的步骤。
其中,存储器51可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线52可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器51用于存储程序,处理器50在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。
处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。
在另一个实施例中,还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述实施例一中所述的方法的步骤。
本发明实施例所提供的基于神经网络算法的web资产分类检测方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于神经网络算法的web资产分类检测方法,其特征在于,包括:
获取待分类web资产的网页内容,并对所述网页内容清洗处理;
对清洗处理得到的网页内容预处理,得到特征分词;所述预处理包括:去html标签处理、分词处理和去停用词处理,所述特征分词用于表征所述待分类web资产的网页内容特征;
对所述特征分词向量化处理,得到所述待分类web资产的特征向量;
采用分类神经网络模型对所述待分类web资产的特征向量分类处理,得到所述待分类web资产的类别信息。
2.根据权利要求1所述的方法,其特征在于,获取待分类web资产的网页内容包括:
获取所述待分类web资产;
爬取所述待分类web资产的网页内容,得到第一网页内容;
递归爬取所述待分类web资产的网页内容,得到第二网页内容;
将所述第一网页内容和所述第二网页内容作为所述待分类web资产的网页内容。
3.根据权利要求1所述的方法,其特征在于,所述清洗处理包括:去重处理和去噪处理,对所述网页内容清洗处理包括:
采用Simhash算法对所述网页内容去重处理;
对去重处理得到的网页内容去噪处理。
4.根据权利要求1所述的方法,其特征在于,对清洗处理得到的网页内容预处理包括:
对所述网页内容去html标签处理;
对去html标签处理得到的网页内容分词处理;
对分词处理得到的原始特征分词去停用词处理,得到所述特征分词。
5.根据权利要求1所述的方法,其特征在于,对所述特征分词向量化处理包括:
对所述特征分词进行One-Hot编码,得到所述特征分词的编码向量;
采用向量转化模型对所述编码向量进行转化,得到所述待分类web资产的特征向量。
6.根据权利要求1所述的方法,其特征在于,所述类别信息包括:所述待分类web资产所属的类别和所述待分类web资产所属类别的概率值,在得到所述待分类web资产的类别信息之后,所述方法还包括:
根据所述待分类web资产所属类别的概率值和所述分类神经网络模型的精确度确定对所述待分类web资产分类检测的置信度。
7.根据权利要求1所述的方法,其特征在于,在获取待分类web资产的网页内容之前,所述方法还包括:
获取web资产样本的网页内容样本;所述web资产样本携带有类别标签;
对所述网页内容样本预处理,并对预处理得到的特征分词样本向量化处理,得到所述web资产样本的特征向量;
基于所述web资产样本的特征向量和所述类别标签对原始分类神经网络模型训练,得到所述分类神经网络模型。
8.根据权利要求1所述的方法,其特征在于,所述分类神经网络模型的结构包括:卷积层、池化层和分类层。
9.一种基于神经网络算法的web资产分类检测装置,其特征在于,包括:
获取并清洗模块,用于获取待分类web资产的网页内容,并对所述网页内容清洗处理;
预处理模块,用于对清洗处理得到的网页内容预处理,得到特征分词;所述预处理包括:去html标签处理、分词处理和去停用词处理,所述特征分词用于表征所述待分类web资产的网页内容特征;
向量化处理模块,用于对所述特征分词向量化处理,得到所述待分类web资产的特征向量;
分类处理模块,用于采用分类神经网络模型对所述待分类web资产的特征向量分类处理,得到所述待分类web资产的类别信息。
10.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910714955.6A CN110427628A (zh) | 2019-08-02 | 2019-08-02 | 基于神经网络算法的web资产分类检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910714955.6A CN110427628A (zh) | 2019-08-02 | 2019-08-02 | 基于神经网络算法的web资产分类检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110427628A true CN110427628A (zh) | 2019-11-08 |
Family
ID=68412425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910714955.6A Pending CN110427628A (zh) | 2019-08-02 | 2019-08-02 | 基于神经网络算法的web资产分类检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427628A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991509A (zh) * | 2019-11-25 | 2020-04-10 | 杭州安恒信息技术股份有限公司 | 基于人工智能技术的资产识别与信息分类方法 |
CN111897962A (zh) * | 2020-07-27 | 2020-11-06 | 绿盟科技集团股份有限公司 | 一种物联网资产标记方法及装置 |
CN111949916A (zh) * | 2020-08-20 | 2020-11-17 | 深信服科技股份有限公司 | 一种网页分析方法、装置、设备及存储介质 |
CN112766681A (zh) * | 2021-01-11 | 2021-05-07 | 杭州迪普科技股份有限公司 | 设备分类管理方法及装置 |
CN113158001A (zh) * | 2021-03-25 | 2021-07-23 | 深圳市联软科技股份有限公司 | 一种网络空间ip资产归属及相关性判别方法及系统 |
CN115238645A (zh) * | 2022-08-03 | 2022-10-25 | 中国电子科技集团公司信息科学研究院 | 资产数据识别方法、装置、电子设备和计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217144A1 (en) * | 2013-09-04 | 2016-07-28 | Zte Corporation | Method and device for obtaining web page category standards, and method and device for categorizing web page categories |
CN106126512A (zh) * | 2016-04-13 | 2016-11-16 | 北京天融信网络安全技术有限公司 | 一种集成学习的网页分类方法及装置 |
US20170185680A1 (en) * | 2014-10-17 | 2017-06-29 | Surfilter Network Technology Co., Ltd | Chinese website classification method and system based on characteristic analysis of website homepage |
WO2017167067A1 (zh) * | 2016-03-30 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN109062972A (zh) * | 2018-06-29 | 2018-12-21 | 平安科技(深圳)有限公司 | 网页分类方法、装置及计算机可读存储介质 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN109492091A (zh) * | 2018-09-28 | 2019-03-19 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的投诉工单智能分类方法 |
-
2019
- 2019-08-02 CN CN201910714955.6A patent/CN110427628A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217144A1 (en) * | 2013-09-04 | 2016-07-28 | Zte Corporation | Method and device for obtaining web page category standards, and method and device for categorizing web page categories |
US20170185680A1 (en) * | 2014-10-17 | 2017-06-29 | Surfilter Network Technology Co., Ltd | Chinese website classification method and system based on characteristic analysis of website homepage |
WO2017167067A1 (zh) * | 2016-03-30 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 网页文本分类的方法和装置,网页文本识别的方法和装置 |
CN106126512A (zh) * | 2016-04-13 | 2016-11-16 | 北京天融信网络安全技术有限公司 | 一种集成学习的网页分类方法及装置 |
CN109062972A (zh) * | 2018-06-29 | 2018-12-21 | 平安科技(深圳)有限公司 | 网页分类方法、装置及计算机可读存储介质 |
CN109492091A (zh) * | 2018-09-28 | 2019-03-19 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的投诉工单智能分类方法 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
Non-Patent Citations (1)
Title |
---|
韩红旗: "《语义指纹著者姓名消歧理论及应用》", 北京:科学技术文献出版社, pages: 103 - 104 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991509A (zh) * | 2019-11-25 | 2020-04-10 | 杭州安恒信息技术股份有限公司 | 基于人工智能技术的资产识别与信息分类方法 |
CN111897962A (zh) * | 2020-07-27 | 2020-11-06 | 绿盟科技集团股份有限公司 | 一种物联网资产标记方法及装置 |
CN111897962B (zh) * | 2020-07-27 | 2024-03-15 | 绿盟科技集团股份有限公司 | 一种物联网资产标记方法及装置 |
CN111949916A (zh) * | 2020-08-20 | 2020-11-17 | 深信服科技股份有限公司 | 一种网页分析方法、装置、设备及存储介质 |
CN111949916B (zh) * | 2020-08-20 | 2024-04-09 | 深信服科技股份有限公司 | 一种网页分析方法、装置、设备及存储介质 |
CN112766681A (zh) * | 2021-01-11 | 2021-05-07 | 杭州迪普科技股份有限公司 | 设备分类管理方法及装置 |
CN113158001A (zh) * | 2021-03-25 | 2021-07-23 | 深圳市联软科技股份有限公司 | 一种网络空间ip资产归属及相关性判别方法及系统 |
CN113158001B (zh) * | 2021-03-25 | 2024-05-14 | 深圳市联软科技股份有限公司 | 一种网络空间ip资产归属及相关性判别方法及系统 |
CN115238645A (zh) * | 2022-08-03 | 2022-10-25 | 中国电子科技集团公司信息科学研究院 | 资产数据识别方法、装置、电子设备和计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427628A (zh) | 基于神经网络算法的web资产分类检测方法及装置 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN102592067B (zh) | 一种网页识别方法、装置及系统 | |
CN107437038B (zh) | 一种网页篡改的检测方法及装置 | |
CN109005145A (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN103544436A (zh) | 一种钓鱼网站鉴别系统和方法 | |
CN103605691B (zh) | 用于处理社交网络中发布内容的装置和方法 | |
CN113901376B (zh) | 恶意网站检测方法、装置、电子设备和计算机存储介质 | |
CN110532563A (zh) | 文本中关键段落的检测方法及装置 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN112464845B (zh) | 票据识别方法、设备及计算机存储介质 | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN106446124A (zh) | 一种基于网络关系图的网站分类方法 | |
CN110222695A (zh) | 一种证件图片处理方法及装置、介质、电子设备 | |
CN109165529A (zh) | 一种暗链篡改检测方法、装置和计算机可读存储介质 | |
CN111680131A (zh) | 基于语义的文档聚类方法、系统及计算机设备 | |
CN114202336A (zh) | 一种金融场景下的风险行为监测方法及系统 | |
CN109597987A (zh) | 一种文本还原方法、装置及电子设备 | |
CN114915468A (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN114092948A (zh) | 一种票据识别方法、装置、设备以及存储介质 | |
US20230113578A1 (en) | Transaction and ownership information document extraction | |
CN103605692A (zh) | 用于问答社区中屏蔽广告内容的装置和方法 | |
CN112115258B (zh) | 一种用户的信用评价方法、装置、服务器及存储介质 | |
CN113366511A (zh) | 利用遗传编程的命名实体识别和提取 | |
CN115587588B (zh) | 文本内容审核方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191108 |
|
RJ01 | Rejection of invention patent application after publication |