CN111625838A

CN111625838A - 一种基于深度学习的漏洞场景识别方法

Info

Publication number: CN111625838A
Application number: CN202010456557.1A
Authority: CN
Inventors: 董昊辰; 方仁贵; 高晓辉; 郭路路; 何晓刚; 何召阳; 李克萌; 刘兵; 王欣宇; 郗朝旭; 谢鑫; 赵岱翀; 周欢; 朱伟光
Original assignee: Beijing Moyun Technology Co ltd
Current assignee: Beijing Moyun Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-04

Abstract

本发明公开了一种基于深度学习的漏洞场景识别方法，包含以下步骤：A、页面数据获取；B、进行特征工程；C、词嵌入处理；D、对页面内容进行卷积神经网络训练；E、对页面结构进行卷积神经网络训练；F、进入Softmax层进行分类，本发明的有益效果是：1、提高了漏洞场景识别的效率；2、无需编写识别漏洞场景规则，减轻渗透人员的工作；3、识别结果不依赖于渗透人员的经验。识别准确度大幅度提高；4、识别的结果统一化，为后续的渗透测试自动化提供基础支持；5、进一步降低了渗透测试工作的复杂度。

Description

一种基于深度学习的漏洞场景识别方法

技术领域

本发明涉及计算机技术领域，具体是一种基于深度学习的漏洞场景识别方法。

背景技术

随着计算机技术的不断发展，计算机网路的使用率也在不断上升。但是计算机网络再给人民生活带来便利的同时，计算机网络安全问题也频频发生。因此，发现网络中存在的安全隐患，对于改善计算机网络环境有着十分重要的现实意义。随着行业的发展，渗透测试逐渐在安全领域发展起来，当我们渗透过程进行漏洞检测时，需要对页面场景进行识别，便于我们后续进行更好的进行渗透。

我们传统的方法是人工进行识别和进行规则匹配两种方式进行。第一种人为方式识别，通过请求URL地址，我们可以查看到相关页面，我们可以看到web页面的相关信息，然后我们根据以往经验和页面相关数据我们可以看到此URL的相关场景，首页、商品详情页、购物车页面、支付页面等信息。第二种方式是进行规则匹配进行识别，我们编写一些规则进行规则匹配相关场景页面。通过以上两种方式我们不难发现人为识别对人员能力的依赖程度特别大，受个人主观因素的影响页很大，而且效率低下。第二种编写规则需要依赖于又一定经验的渗透测试工程师，对人员依赖程度很高，而且不同的人员编写的规则页不尽相同，对识别的结果也不一样，最终会对后期渗透结果造成影响。

发明内容

本发明的目的在于提供一种基于深度学习的漏洞场景识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于深度学习的漏洞场景识别方法，包含以下步骤：

A、页面数据获取；

B、进行特征工程；

C、词嵌入处理；

D、对页面内容进行卷积神经网络训练；

E、对页面结构进行卷积神经网络训练；

F、进入Softmax层进行分类。

作为本发明的进一步技术方案：所述步骤A采用爬虫技术和人工手动收集的方式获取登录页面、修改密码页面、订单页面、支付页面等场景页面信息的数据，然后对每种页面数据进行标注，以便于后期做分类。

作为本发明的进一步技术方案：所述步骤B具体是：对获取的数数据进行清洗脏数据，对缺失值进行补全、降维等操作，然后进行网页内容和结构进行分别抽取，并统计高频词汇和低频词汇然后去除低频词汇，用以提高模型准确度，最后并把数据整理成统一格式。

作为本发明的进一步技术方案：所述步骤C使用神经网络来进行自然语言处理，创建一个词库表，并将词进行编码，其中每个词编成的号成为这个词的词向量，词向量对于语义理解、获取词之间相连性有着重要的作用，首先应为网页中的信息简历词库表，然后把词库表生成词向量，随着训练的进行，词向量模型中逐渐聚集语义功能相近的字，缩短近义词之间的向量空间距离，将其逐渐拟合。

作为本发明的进一步技术方案：所述步骤D具体是：将网页中抽取的网页内容进行分词，去除低频词，然后生成相应的词向量，之后便可以建立针对文本内容的卷积神经网络。

作为本发明的进一步技术方案：所述步骤E具体是：对训练集数据中的网页结构进行抽取，然后针对网页结构进行训练，对网页结构进行向量化处理，然后自定义网络结构。

作为本发明的进一步技术方案：所述步骤F具体是：对步骤E中网页结构卷积神经网络的输出进行全连接操作后进行输出经Softmax函数运算后可得到漏洞场景对所有目标信息的概率分布，模型中获取分类的数目为所有人工标记过的目标信息种类数目，即Sotfmax函数的运算结果最终能够判别出当前输入模型的页面数据所属的漏洞场景。

与现有技术相比，本发明的有益效果是：1、提高了漏洞场景识别的效率；2、无需编写识别漏洞场景规则，减轻渗透人员的工作；3、识别结果不依赖于渗透人员的经验。识别准确度大幅度提高；4、识别的结果统一化，为后续的渗透测试自动化提供基础支持；5、进一步降低了渗透测试工作的复杂度。

附图说明

图1为基于深度学习的漏洞场景识别方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于深度学习的漏洞场景识别方法，包含以下步骤：

A.页面数据获取；

B.进行特征工程；

C.词嵌入处理；

D.对页面内容进行卷积神经网络训练；

E.对页面结构进行卷积神经网络训练；

F.进入Softmax层进行分类。

在上述第一步中，采用爬虫技术和人工手动收集的方式获取登录页面、修改密码页面、订单页面、支付页面等场景页面信息的数据，然后对每种页面数据进行标注，以便于后期做分类。

第二步对获取的数数据进行清洗脏数据，对缺失值进行补全、降维等操作，然后进行网页内容和结构进行分别抽取，并统计高频词汇和低频词汇然后去除低频词汇，用以提高模型准确度，最后并把数据整理成统一格式。

第三步使用神经网络来进行自然语言处理，创建一个词库表，并将词进行编码，其中每个词编成的号成为这个词的词向量，词向量对于语义理解、获取词之间相连性有着重要的作用，首先应为网页中的信息简历词库表，然后把词库表生成词向量，随着训练的进行，词向量模型中逐渐聚集语义功能相近的字，缩短近义词之间的向量空间距离，将其逐渐拟合。

第四步将网页中抽取的网页内容进行分词，去除低频词，然后生成相应的词向量，之后便可以建立针对文本内容的卷积神经网络,和传统的机器学习不同，卷积神经网络可根据具体的数据定义不同的卷积核个数，卷积核大小，以及池化层和防止过拟合的dropout,以及卷积的层数，然后自动的进行数据的特征提取。通过多层的卷积网络进行训练集特征的提取，可以看到不同场景的页面内容，其中的特征也是不同的。

第五步对训练集数据中的网页结构进行抽取，然后针对网页结构进行训练，对网页结构进行向量化处理，然后自定义网络结构，采用卷积神经网络进行训练，使卷积神经网络能够自动的对网页结构中的特征进行提取，提高训练模型的准确度。

第六步Softmax方法常用于神经网络中的最后一层对输出结果进行多类别的分类。鉴于网页漏洞场景中的目标类别数目暂且定义固定，所以使用Softmax函数来进行多目标分类事最理想的方式。第五步中网页结构卷积神经网络的输出然后进行全连接操作后进行输出经Softmax函数运算后可得到漏洞场景对所有目标信息的概率分布，模型中获取分类的数目为所有人工标记过的目标信息种类数目，即Sotfmax函数的运算结果最终能够判别出当前输入模型的页面数据所属的漏洞场景。

本发明提出了基于深度学习的漏洞场景识别方案，该方案利用深度学习技术，在使用少量的数据集进行训练以后，对目标web页面进行识别，可以有效识别出页面场景。

该方案完全脱离的传统的基于认为识别页面场景和编写规则识别页面场景的方法，有效的减轻了编写规则人员的工作，识别方式更加灵活多样，而且不会受到个人主观因素的影响，使识别结果统一化，同时识别效率得到进一步提高。

1、向web应用服务器发送基于规则语句描述构建的漏洞扫描请求；

在系统的规则库中内置已经构建好的向应用服务器发送请求的规则参数，例OPS(O1=M548ST11NW7%O2=M548ST11NW7%O3=M548NNT11NW7%O4=M548ST11NW7%O5=M548ST11NW7%O6=M548ST11)，规则是根据不同的漏洞、不同的应用场景安全专家进行构建的。每项规则的值都是 K-V 形式，K 是规则相关参所的名字，而 V 具体规每个规则参数对应的值。

2、接受所述web应用服务器对于所述漏洞扫描http请求的响应结果；

根据构造含有规则的请求参数向web应用服务器发送请求，服务器会根据的请求返回相应的响应结果，如响应状态码、错误页面、响应内容、headers信等内容。

3、基于规则中的扫描策略信息，对所述响应结果进行匹配得到匹配结果；

系统中根据安全专家的经验会内置响应结果匹配的规则。响应的匹配规则如下：httpm|^HTTP/1\.[01] .*\r\nX-Powered-By: PHP/(\d[\w._-]+)|s i/PHP $1/，请求参数得到的响应内容都会对响应的规则进行匹配，用以得到对应的结果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的漏洞场景识别方法，其特征在于，包含以下步骤：

A、页面数据获取；

B、进行特征工程；

C、词嵌入处理；

D、对页面内容进行卷积神经网络训练；

E、对页面结构进行卷积神经网络训练；

F、进入Softmax层进行分类。

2.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法，其特征在于，所述步骤A采用爬虫技术和人工手动收集的方式获取登录页面、修改密码页面、订单页面、支付页面等场景页面信息的数据，然后对每种页面数据进行标注，以便于后期做分类。

3.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法，其特征在于，所述步骤B具体是：对获取的数数据进行清洗脏数据，对缺失值进行补全、降维等操作，然后进行网页内容和结构进行分别抽取，并统计高频词汇和低频词汇然后去除低频词汇，用以提高模型准确度，最后并把数据整理成统一格式。

4.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法，其特征在于，所述步骤C使用神经网络来进行自然语言处理，创建一个词库表，并将词进行编码，其中每个词编成的号成为这个词的词向量，词向量对于语义理解、获取词之间相连性有着重要的作用，首先应为网页中的信息简历词库表，然后把词库表生成词向量，随着训练的进行，词向量模型中逐渐聚集语义功能相近的字，缩短近义词之间的向量空间距离，将其逐渐拟合。

5.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法，其特征在于，所述步骤D具体是：将网页中抽取的网页内容进行分词，去除低频词，然后生成相应的词向量，之后便可以建立针对文本内容的卷积神经网络。

6.根据权利要求1所述的一种基于深度学习的漏洞场景识别方法，其特征在于，所述步骤E具体是：对训练集数据中的网页结构进行抽取，然后针对网页结构进行训练，对网页结构进行向量化处理，然后自定义网络结构。

7.根据权利要求1-6任一所述的一种基于深度学习的漏洞场景识别方法，其特征在于，所述步骤F具体是：对步骤E中网页结构卷积神经网络的输出进行全连接操作后进行输出经Softmax函数运算后可得到漏洞场景对所有目标信息的概率分布，模型中获取分类的数目为所有人工标记过的目标信息种类数目，即Sotfmax函数的运算结果最终能够判别出当前输入模型的页面数据所属的漏洞场景。