CN110266675A

CN110266675A - 一种基于深度学习的xss攻击自动化检测方法

Info

Publication number: CN110266675A
Application number: CN201910505447.7A
Authority: CN
Inventors: 陈源; 陈军; 袁军
Original assignee: Chengdu Jiweilian Group Co Ltd
Current assignee: Chengdu Jiweilian Group Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-20
Anticipated expiration: 2039-06-12
Also published as: CN110266675B

Abstract

本发明一种基于深度学习的xss攻击自动化检测方法，包括：步骤1：收集网络中的数据流量，分为训练集和测试集；步骤2：提取数据流量中的请求信息；步骤3：解码请求信息生成明文信息；步骤4：通过正则方式对所述的明文信息进行分词；步骤5：生成对应词表和词向量，并连接词向量生成每条语句对应的向量；步骤6：采用神经网络对词向量进行训练，生成降维后的数据；步骤7：得到分类模型M；步骤8：基于分类模型M进行xss攻击的检测，判断准确率是否达到预期值。本发明具有更好的泛化能力，并且能够对xss攻击进行高精度分类，同时未使用传统的规则匹配的方式，能够检测未在规则内的xss攻击，克服了传统检测方法的缺陷。

Description

一种基于深度学习的xss攻击自动化检测方法

技术领域

本发明涉及网络安全的方法，具体讲是一种基于深度学习的xss攻击自动化检测方法。

背景技术

随着计算机技术的发展，基于Web的服务越来越多地用于诸如社交网络或云计算的互联网应用中。而xss(跨站脚本)漏洞正是经常出现在Web应用中的一种安全威胁，它允许恶意Web用户将代码植入到提供给其他用户使用的页面中，例如这些代码包括HTML代码和客户端脚本等。攻击者利用xss漏洞旁路来访问控制，例如同源策略(same originpolicy)。这种类型的漏洞由于被骇客用来编写危害性更大的网络钓鱼(Phishing)攻击而变得广为人知。对于xss攻击，骇客界的共识是：xss攻击是新型的“缓冲区溢出攻击“，而JavaScript是新型的“ShellCode”。

近年来，由于预编译等SQL注入防御技术的使用和开发者的安全意识的提高，SQL注入类的漏洞越来越少，但是xss攻击却是越来越多。究其原因，一是因为对于xss攻击，大部分的防御工作是基于正则表达式这样的黑名单来做，没有一个先预编译这样的一劳永逸的防御技术；二是因为xss攻击可以利用不同种类、不同版本的浏览器进行有针对性的利用，这样利用浏览器特性的攻击，对于基于规则的防御方式来说是非常难以防御的。

因此目前对xss攻击检测的主要方式还是基于正则匹配或者黑名单的方式来进行检测，而这样的检测方式有着明显的缺陷，例如规则不完全、容易被攻击者绕过检测等缺点。

发明内容

本发明提供了一种基于深度学习的xss攻击自动化检测方法，以解决现有检测方式中规则不全、漏报误报严重的问题，提高检测的准确性。

本发明一种基于深度学习的xss攻击自动化检测方法，包括：

步骤1：收集网络中的数据流量，在数据流量中包括通过数据标签区分的正常流量和具有xss攻击的流量，并将数据流量分为训练集和测试集；

步骤2：提取训练集中数据流量中的请求信息；

步骤3：对所提取的请求信息根据其编码方式进行解码，生成明文信息；

步骤4：根据自然语言处理库(NLTK)，通过正则方式对所述的明文信息进行分词；

步骤5：根据分词结果，生成对应词表，采用word2vec方式生成词向量，并连接词向量生成每条语句对应的向量；

步骤6：采用神经网络对词向量进行训练，生成降维后的数据；

步骤7：对所述降维后的数据进行预处理，并通过XGBoost算法进行分类处理，得到分类模型M；

步骤8：基于分类模型M，通过XGBoost算法对测试集中的数据流量进行xss攻击的检测，判断通过分类模型M的检测准确率是否达到预期值θ。

进一步的，步骤2中的请求信息包括get请求信息和post请求信息两种类型。所述get的请求信息在数据包的url字段信息中，post请求信息在数据包的数据段中。

进一步的，步骤3中至少通过两种编码方式对请求信息进行解码，包括但不限于escape编码方式、base64编码方式、encodeURI编码方式等的解码。

进一步的，步骤4中，先将明文信息中的连续字段替换为0，将url字段的路径信息替换为单个字段u，然后再进行所述分词。

进一步的，步骤5采用word2vec方式生成词向量的步骤包括：

步骤5.1根据步骤4的分词结果统计词频信息，按顺序选取设定数量的出现频次最高的词作为词表；

步骤5.2将各条明文信息分别通过步骤4进行分词，若所分后的词不在所述词表中，则标记为未识别，使用“UNK”标志代替，由此将各条明文信息分别分成了多个词组成，一条语句词数为128，多则截断，少则补“UNK”，形成每条明文信息对应的数据集；

步骤5.3采用word2vec方式将每条明文信息的数据集作为输入，生成对应维度的词向量，将每条明文信息的对应位置的词向量连接，生成每条语句对应的向量。

进一步的，步骤6中采用AutoEncoder神经网络对词向量进行训练，先设计AutoEncoder神经网络，使其中间层维数小于输入层，以达到降维的效果；然后将步骤5中的每条语句对应的向量作为输入，同时作为训练标签，进行训练；训练完成后，再将每条语句对应的向量作为测试集，输出中间层的降维结果。

进一步的，步骤7所述的预处理包括对降维后数据进行标准化处理，对每一列数据进行减去均值后再除以方差的操作，同时加入数据的统计特征，包括URL长度、路径长度、路径最大长度、参数部分长度、参数名最大长度、参数值最大长度、参数个数、字符串最大长度、连续数字最大长度、特殊字符的个数、参数值中数字占有比例、参数值字母占有比例、参数值中特殊字符的比例、大写字符所占比例、空格字符所占比例等。

在深度学习中，每一个模型会由于结构不同、训练集不同，对于同样参数的结果也不同，所以根据测试结果可以根据实际情况进行一定的参数调试。因此在步骤8的测试集中，如果分类模型M的检测准确率未达到预期值θ，则通过调参和/或增加训练样本对分类模型M进行优化迭代。其中可以调整的参数包括但不限于有词表大小、神经网络的结构、训练产生的词向量维度、训练时的batch_size/epoch_size、XGBoost算法中的max_depth、learning_rate、gamma、n_estimators等参数。在检测阶段，是对测试集中的正常数据按照步骤1～步骤7进行向量化，将该向量作为已经训练好的分类模型M的输入，通过分类模型M计算得到的结果来判断对测试集检测的准确性，最终获得达到预期值θ的分类模型M，并将其作为在实际应用中的检测模型。

本发明一种基于深度学习的xss攻击自动化检测方法，具有更好的泛化能力，并且能够对xss攻击进行高精度分类，同时未使用传统的规则匹配的方式，能够检测未在规则内的xss攻击，克服了传统检测方法的缺陷。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明一种基于深度学习的xss攻击自动化检测方法的流程图。

图2为AutoEncoder神经网络设计结构图。

具体实施方式

如图1所示本发明一种基于深度学习的xss攻击自动化检测方法，包括：

步骤1：收集网络中的数据流量，在数据流量中包括通过数据标签区分的正常流量和具有xss(跨站脚本)攻击的流量，并将数据流量分为训练集和测试集。

步骤1.1使用沙箱模拟真实环境。

步骤1.2使用正常流量和具有xss攻击的流量对沙箱进行访问，收集流量信息，包括http中的get请求信息和post请求信息。

步骤1.3将收集的Alexa Top 10000的网站流量输入沙箱，依次收集Alexa Top10000的网站流量作为良性数据的补充。

步骤2：提取训练集中数据流量中的请求信息，所述的请求信息包括get请求信息和post请求信息两种类型，其中get的请求信息在数据包的url字段信息中，post请求信息在数据包的数据段中。

步骤3：至少通过两种编码方式对所提取的请求信息根据其编码方式进行解码，包括但不限于escape编码方式、base64编码方式、encodeURI编码方式等的解码，生成明文信息。

步骤4：根据自然语言处理库(NLTK)，通过正则方式对所述的明文信息进行分词。分词时，先将明文信息中的连续字段替换为0，将url字段的路径信息替换为单个字段u，然后按照以下正则方式使用自然语言处理库(NLTK)进行分词处理：

(？x)[\w\.]+？\(、\)、"\w+？"、'\w+？'、http://\w、</\w+>、<\w+>、<\w+

\w+＝、>、[\w\.]+

步骤5：根据分词结果，生成对应词表，采用word2vec方式生成词向量，并连接词向量生成每条语句对应的向量，包括：

步骤5.1根据步骤4的分词结果统计词频信息，选取前3000个出现频次最高的词作为词表；

步骤5.3采用word2vec方式将每条明文信息的数据集作为输入，生成对应维度的词向量，将每条明文信息的对应位置的词向量连接，生成每条语句对应的向量，并对每条语句的向量设置标签。

步骤6：采用AutoEncoder神经网络对词向量进行训练，生成降维后的数据，包括：

步骤6.1如图2所示设计AutoEncoder神经网络，中间层维数小于输入层，以达到降维的目的，其中词向量维数为64，每个句子词的个数为128；

输入层：维数(64*128)

全连接层：维数(2048)

全连接层：维数(1024)

结果层：维数(64)

全连接层：维数(1024)

全连接层：维数(2048)

输出层：维数(64*128)

步骤6.2然后将步骤5中的每条语句对应的向量作为输入，同时作为训练标签，进行训练：Eg:向量64*128维(0.11212878,…,0.36498124)|标签(0/1)

步骤6.3训练完成后，再将每条语句对应的向量作为测试集，输出中间层的降维结果。

步骤7：对所述降维后的数据进行预处理，包括对降维后数据进行标准化处理，对每一列数据X进行减去均值后再除以方差的操作，同时加入数据的统计特征，包括URL长度、路径长度、路径最大长度、参数部分长度、参数名最大长度、参数值最大长度、参数个数、字符串最大长度、连续数字最大长度、特殊字符的个数、参数值中数字占有比例、参数值字母占有比例、参数值中特殊字符的比例、大写字符所占比例、空格字符所占比例等。

标准化公式：X＝[X–avg(X)]/std(X)

其中avg代表均值，std代表方差。

统计特征为表1所示：

表1：

特征名称	特征含义
		URL_len	URL长度
Path_len	路径长度
		Path_Maxlen	路径最大长度
Argument_len	参数部分长度
		Name_Max_len	参数名最大长度
Value_Max_len	参数值最大长度
		Argument_len	参数个数
String_Max_len	字符串最大长度
		Number_Maxlen	连续数字最大长度
Unknow_len	特殊字符的个数
		Number_Percentage	参数值中数字占有比例
String_Percentage	参数值字母占有比例
		Unkown_Percentage	参数值字母占有比例
BigString_Percentage	大写字符所占比例
		Spacing_Precentage	空格字符所占比例

然后通过XGBoost算法进行分类处理，得到分类模型M。

步骤8：基于分类模型M，通过XGBoost算法对测试集中的数据流量进行xss攻击的检测，判断通过分类模型M的检测准确率是否达到98％的预期值θ，如果未达到，通过调参和/或增加训练样本对分类模型M进行优化迭代。其中可以调整的参数包括但不限于有词表大小、神经网络的结构、训练产生的词向量维度、训练时的batch_size/epoch_size、XGBoost算法中的max_depth、learning_rate、gamma、n_estimators等参数。在检测阶段，是对测试集中的正常数据按照步骤1～步骤7进行向量化，将该向量作为已经训练好的分类模型M的输入，通过分类模型M计算得到结果来判断对测试集检测的准确性，最终获得达到预期值θ的分类模型M，并将其作为在实际应用中的检测模型。

Claims

1.一种基于深度学习的xss攻击自动化检测方法，其特征包括：

步骤2：提取训练集中数据流量中的请求信息；

步骤4：根据自然语言处理库，通过正则方式对所述的明文信息进行分词；

2.如权利要求1所述的一种基于深度学习的xss攻击自动化检测方法，其特征为：步骤2中的请求信息包括get请求信息和post请求信息两种类型。

3.如权利要求1所述的一种基于深度学习的xss攻击自动化检测方法，其特征为：步骤3中至少通过两种编码方式对请求信息进行解码。

4.如权利要求1所述的一种基于深度学习的xss攻击自动化检测方法，其特征为：步骤4中，先将明文信息中的连续字段替换为0，将url字段的路径信息替换为单个字段u，然后再进行所述分词。

5.如权利要求1所述的一种基于深度学习的xss攻击自动化检测方法，其特征为：步骤5采用word2vec方式生成词向量的步骤包括：

步骤5.2将各条明文信息分别通过步骤4进行分词，若所分后的词不在所述词表中，则标记为未识别，由此将各条明文信息分别分成了多个词组成，形成每条明文信息对应的数据集；

6.如权利要求1所述的一种基于深度学习的xss攻击自动化检测方法，其特征为：步骤6中采用AutoEncoder神经网络对词向量进行训练，先设计AutoEncoder神经网络，使其中间层维数小于输入层，以达到降维的效果；然后将步骤5中的每条语句对应的向量作为输入，同时作为训练标签，进行训练；训练完成后，再将每条语句对应的向量作为测试集，输出中间层的降维结果。

7.如权利要求1所述的一种基于深度学习的xss攻击自动化检测方法，其特征为：步骤7所述的预处理包括对降维后数据进行标准化处理，对每一列数据进行减去均值后再除以方差的操作，同时加入数据的统计特征。

8.如权利要求1所述的一种基于深度学习的xss攻击自动化检测方法，其特征为：在步骤8的测试集中，如果分类模型M的检测准确率未达到预期值θ，则通过调参和/或增加训练样本对分类模型M进行优化迭代。