CN111625838A - 一种基于深度学习的漏洞场景识别方法 - Google Patents
一种基于深度学习的漏洞场景识别方法 Download PDFInfo
- Publication number
- CN111625838A CN111625838A CN202010456557.1A CN202010456557A CN111625838A CN 111625838 A CN111625838 A CN 111625838A CN 202010456557 A CN202010456557 A CN 202010456557A CN 111625838 A CN111625838 A CN 111625838A
- Authority
- CN
- China
- Prior art keywords
- vulnerability
- page
- word
- deep learning
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 230000035515 penetration Effects 0.000 abstract description 9
- 238000012360 testing method Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000004044 response Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于深度学习的漏洞场景识别方法,包含以下步骤:A、页面数据获取;B、进行特征工程;C、词嵌入处理;D、对页面内容进行卷积神经网络训练;E、对页面结构进行卷积神经网络训练;F、进入Softmax层进行分类,本发明的有益效果是:1、提高了漏洞场景识别的效率;2、无需编写识别漏洞场景规则,减轻渗透人员的工作;3、识别结果不依赖于渗透人员的经验。识别准确度大幅度提高;4、识别的结果统一化,为后续的渗透测试自动化提供基础支持;5、进一步降低了渗透测试工作的复杂度。
Description
技术领域
本发明涉及计算机技术领域,具体是一种基于深度学习的漏洞场景识别方法。
背景技术
随着计算机技术的不断发展,计算机网路的使用率也在不断上升。但是计算机网络再给人民生活带来便利的同时,计算机网络安全问题也频频发生。因此,发现网络中存在的安全隐患,对于改善计算机网络环境有着十分重要的现实意义。随着行业的发展,渗透测试逐渐在安全领域发展起来,当我们渗透过程进行漏洞检测时,需要对页面场景进行识别,便于我们后续进行更好的进行渗透。
我们传统的方法是人工进行识别和进行规则匹配两种方式进行。第一种人为方式识别,通过请求URL地址,我们可以查看到相关页面,我们可以看到web页面的相关信息,然后我们根据以往经验和页面相关数据我们可以看到此URL的相关场景,首页、商品详情页、购物车页面、支付页面等信息。第二种方式是进行规则匹配进行识别,我们编写一些规则进行规则匹配相关场景页面。通过以上两种方式我们不难发现人为识别对人员能力的依赖程度特别大,受个人主观因素的影响页很大,而且效率低下。第二种编写规则需要依赖于又一定经验的渗透测试工程师,对人员依赖程度很高,而且不同的人员编写的规则页不尽相同,对识别的结果也不一样,最终会对后期渗透结果造成影响。
发明内容
本发明的目的在于提供一种基于深度学习的漏洞场景识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于深度学习的漏洞场景识别方法,包含以下步骤:
A、页面数据获取;
B、进行特征工程;
C、词嵌入处理;
D、对页面内容进行卷积神经网络训练;
E、对页面结构进行卷积神经网络训练;
F、进入Softmax层进行分类。
作为本发明的进一步技术方案:所述步骤A采用爬虫技术和人工手动收集的方式获取登录页面、修改密码页面、订单页面、支付页面等场景页面信息的数据,然后对每种页面数据进行标注,以便于后期做分类。
作为本发明的进一步技术方案:所述步骤B具体是:对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,然后进行网页内容和结构进行分别抽取,并统计高频词汇和低频词汇然后去除低频词汇,用以提高模型准确度,最后并把数据整理成统一格式。
作为本发明的进一步技术方案:所述步骤C使用神经网络来进行自然语言处理,创建一个词库表,并将词进行编码,其中每个词编成的号成为这个词的词向量,词向量对于语义理解、获取词之间相连性有着重要的作用,首先应为网页中的信息简历词库表,然后把词库表生成词向量,随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。
作为本发明的进一步技术方案:所述步骤D具体是:将网页中抽取的网页内容进行分词,去除低频词,然后生成相应的词向量,之后便可以建立针对文本内容的卷积神经网络。
作为本发明的进一步技术方案:所述步骤E具体是:对训练集数据中的网页结构进行抽取,然后针对网页结构进行训练,对网页结构进行向量化处理,然后自定义网络结构。
作为本发明的进一步技术方案:所述步骤F具体是:对步骤E中网页结构卷积神经网络的输出进行全连接操作后进行输出经Softmax函数运算后可得到漏洞场景对所有目标信息的概率分布,模型中获取分类的数目为所有人工标记过的目标信息种类数目,即Sotfmax函数的运算结果最终能够判别出当前输入模型的页面数据所属的漏洞场景。
与现有技术相比,本发明的有益效果是:1、提高了漏洞场景识别的效率;2、无需编写识别漏洞场景规则,减轻渗透人员的工作;3、识别结果不依赖于渗透人员的经验。识别准确度大幅度提高;4、识别的结果统一化,为后续的渗透测试自动化提供基础支持;5、进一步降低了渗透测试工作的复杂度。
附图说明
图1为基于深度学习的漏洞场景识别方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于深度学习的漏洞场景识别方法,包含以下步骤:
A.页面数据获取;
B.进行特征工程;
C.词嵌入处理;
D.对页面内容进行卷积神经网络训练;
E.对页面结构进行卷积神经网络训练;
F.进入Softmax层进行分类。
在上述第一步中,采用爬虫技术和人工手动收集的方式获取登录页面、修改密码页面、订单页面、支付页面等场景页面信息的数据,然后对每种页面数据进行标注,以便于后期做分类。
第二步对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,然后进行网页内容和结构进行分别抽取,并统计高频词汇和低频词汇然后去除低频词汇,用以提高模型准确度,最后并把数据整理成统一格式。
第三步使用神经网络来进行自然语言处理,创建一个词库表,并将词进行编码,其中每个词编成的号成为这个词的词向量,词向量对于语义理解、获取词之间相连性有着重要的作用,首先应为网页中的信息简历词库表,然后把词库表生成词向量,随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。
第四步将网页中抽取的网页内容进行分词,去除低频词,然后生成相应的词向量,之后便可以建立针对文本内容的卷积神经网络,和传统的机器学习不同,卷积神经网络可根据具体的数据定义不同的卷积核个数,卷积核大小,以及池化层和防止过拟合的dropout,以及卷积的层数,然后自动的进行数据的特征提取。通过多层的卷积网络进行训练集特征的提取,可以看到不同场景的页面内容,其中的特征也是不同的。
第五步对训练集数据中的网页结构进行抽取,然后针对网页结构进行训练,对网页结构进行向量化处理,然后自定义网络结构,采用卷积神经网络进行训练,使卷积神经网络能够自动的对网页结构中的特征进行提取,提高训练模型的准确度。
第六步Softmax方法常用于神经网络中的最后一层对输出结果进行多类别的分类。鉴于网页漏洞场景中的目标类别数目暂且定义固定,所以使用Softmax函数来进行多目标分类事最理想的方式。第五步中网页结构卷积神经网络的输出然后进行全连接操作后进行输出经Softmax函数运算后可得到漏洞场景对所有目标信息的概率分布,模型中获取分类的数目为所有人工标记过的目标信息种类数目,即Sotfmax函数的运算结果最终能够判别出当前输入模型的页面数据所属的漏洞场景。
本发明提出了基于深度学习的漏洞场景识别方案,该方案利用深度学习技术,在使用少量的数据集进行训练以后,对目标web页面进行识别,可以有效识别出页面场景。
该方案完全脱离的传统的基于认为识别页面场景和编写规则识别页面场景的方法,有效的减轻了编写规则人员的工作,识别方式更加灵活多样,而且不会受到个人主观因素的影响,使识别结果统一化,同时识别效率得到进一步提高。
1、向web应用服务器发送基于规则语句描述构建的漏洞扫描请求;
在系统的规则库中内置已经构建好的向应用服务器发送请求的规则参数,例OPS(O1=M548ST11NW7%O2=M548ST11NW7%O3=M548NNT11NW7%O4=M548ST11NW7%O5=M548ST11NW7%O6=M548ST11),规则是根据不同的漏洞、不同的应用场景安全专家进行构建的。每项规则的值都是 K-V 形式,K 是规则相关参所的名字,而 V 具体规每个规则参数对应的值。
2、接受所述web应用服务器对于所述漏洞扫描http请求的响应结果;
根据构造含有规则的请求参数向web应用服务器发送请求,服务器会根据的请求返回相应的响应结果,如响应状态码、错误页面、响应内容、headers信等内容。
3、基于规则中的扫描策略信息,对所述响应结果进行匹配得到匹配结果;
系统中根据安全专家的经验会内置响应结果匹配的规则。响应的匹配规则如下:httpm|^HTTP/1\.[01] .*\r\nX-Powered-By: PHP/(\d[\w._-]+)|s i/PHP $1/,请求参数得到的响应内容都会对响应的规则进行匹配,用以得到对应的结果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种基于深度学习的漏洞场景识别方法,其特征在于,包含以下步骤:
A、页面数据获取;
B、进行特征工程;
C、词嵌入处理;
D、对页面内容进行卷积神经网络训练;
E、对页面结构进行卷积神经网络训练;
F、进入Softmax层进行分类。
2.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法,其特征在于,所述步骤A采用爬虫技术和人工手动收集的方式获取登录页面、修改密码页面、订单页面、支付页面等场景页面信息的数据,然后对每种页面数据进行标注,以便于后期做分类。
3.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法,其特征在于,所述步骤B具体是:对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,然后进行网页内容和结构进行分别抽取,并统计高频词汇和低频词汇然后去除低频词汇,用以提高模型准确度,最后并把数据整理成统一格式。
4.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法,其特征在于,所述步骤C使用神经网络来进行自然语言处理,创建一个词库表,并将词进行编码,其中每个词编成的号成为这个词的词向量,词向量对于语义理解、获取词之间相连性有着重要的作用,首先应为网页中的信息简历词库表,然后把词库表生成词向量,随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。
5.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法,其特征在于,所述步骤D具体是:将网页中抽取的网页内容进行分词,去除低频词,然后生成相应的词向量,之后便可以建立针对文本内容的卷积神经网络。
6.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法,其特征在于,所述步骤E具体是:对训练集数据中的网页结构进行抽取,然后针对网页结构进行训练,对网页结构进行向量化处理,然后自定义网络结构。
7.根据权利要求1-6任一所述的一种基于深度学习的漏洞场景识别方法,其特征在于,所述步骤F具体是:对步骤E中网页结构卷积神经网络的输出进行全连接操作后进行输出经Softmax函数运算后可得到漏洞场景对所有目标信息的概率分布,模型中获取分类的数目为所有人工标记过的目标信息种类数目,即Sotfmax函数的运算结果最终能够判别出当前输入模型的页面数据所属的漏洞场景。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010456557.1A CN111625838A (zh) | 2020-05-26 | 2020-05-26 | 一种基于深度学习的漏洞场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010456557.1A CN111625838A (zh) | 2020-05-26 | 2020-05-26 | 一种基于深度学习的漏洞场景识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111625838A true CN111625838A (zh) | 2020-09-04 |
Family
ID=72271132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010456557.1A Pending CN111625838A (zh) | 2020-05-26 | 2020-05-26 | 一种基于深度学习的漏洞场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625838A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733146A (zh) * | 2020-12-31 | 2021-04-30 | 平安医疗健康管理股份有限公司 | 基于机器学习的渗透测试方法、装置、设备及存储介质 |
CN113312891A (zh) * | 2021-04-22 | 2021-08-27 | 北京墨云科技有限公司 | 一种基于生成模型的payload自动生成方法、装置、系统 |
CN114169432A (zh) * | 2021-12-06 | 2022-03-11 | 南京墨网云瑞科技有限公司 | 一种基于深度学习的跨站脚本攻击识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109005145A (zh) * | 2018-06-04 | 2018-12-14 | 上海交通大学 | 一种基于自动特征抽取的恶意url检测系统及其方法 |
-
2020
- 2020-05-26 CN CN202010456557.1A patent/CN111625838A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109005145A (zh) * | 2018-06-04 | 2018-12-14 | 上海交通大学 | 一种基于自动特征抽取的恶意url检测系统及其方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733146A (zh) * | 2020-12-31 | 2021-04-30 | 平安医疗健康管理股份有限公司 | 基于机器学习的渗透测试方法、装置、设备及存储介质 |
CN113312891A (zh) * | 2021-04-22 | 2021-08-27 | 北京墨云科技有限公司 | 一种基于生成模型的payload自动生成方法、装置、系统 |
CN113312891B (zh) * | 2021-04-22 | 2022-08-26 | 北京墨云科技有限公司 | 一种基于生成模型的payload自动生成方法、装置、系统 |
CN114169432A (zh) * | 2021-12-06 | 2022-03-11 | 南京墨网云瑞科技有限公司 | 一种基于深度学习的跨站脚本攻击识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108694225B (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN109413028A (zh) | 基于卷积神经网络算法的sql注入检测方法 | |
CN111625838A (zh) | 一种基于深度学习的漏洞场景识别方法 | |
CN109255027B (zh) | 一种电商评论情感分析降噪的方法和装置 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN106599160A (zh) | 一种内容规则库管理系统及其编码方法 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN112464666B (zh) | 一种基于暗网数据的未知网络威胁自动发现方法 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN109740151A (zh) | 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN116956289B (zh) | 动态调整潜在黑名单和黑名单的方法 | |
CN106778568B (zh) | 基于web页面的验证码的处理方法 | |
CN110889276B (zh) | 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质 | |
CN108595453B (zh) | Url标识映射获取方法及装置 | |
CN105718914A (zh) | 一种人脸编码及识别方法 | |
CN111400606B (zh) | 一种基于全局和局部信息抽取的多标签分类方法 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN116266259A (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN111402012B (zh) | 一种基于迁移学习的电商缺陷产品识别方法 | |
CN111538893A (zh) | 一种从非结构化数据中提取网络安全新词的方法 | |
CN111611774A (zh) | 一种运维操作指令安全分析方法、系统及存储介质 | |
CN112860976B (zh) | 一种基于多模态层次注意力机制的欺诈网站检测方法 | |
CN111625702A (zh) | 一种基于深度学习的页面结构识别抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200904 |