CN112671703A

CN112671703A - 基于改进fastText的跨站脚本攻击检测方法

Info

Publication number: CN112671703A
Application number: CN202011290867.7A
Authority: CN
Inventors: 范敏; 康英来; 胥小波; 范晓波
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-04-16
Anticipated expiration: 2040-11-18
Also published as: CN112671703B

Abstract

本发明涉及网络信息技术领域，具体涉及基于改进fastText的跨站脚本攻击检测方法，包括数据预处理，将对象字符串还原为原始字符串，并提取目标请求字段；按照XSS规则对目标请求字段进行匹配检测；利用fastTest建模，对目标请求字段进行推断和预测；对推断预测结果进行“或”运算，得出最终检测结果。本发明针对网站应用级入侵防御系统实时性要求高的场景，提出了以文本分类fastText技术为基础，基于词级和字符级不同粒度词向量融合的XSS攻击检测方法，解决OOV问题，缓解了概念分布漂移问题；并引入正则化因子改进fastText损失函数，克服容易过拟合的问题，为网站应用级入侵防御系统知识驱动的规则引擎无法发现未知范式的XSS攻击提供了一种可行的解决方案。

Description

基于改进fastText的跨站脚本攻击检测方法

技术领域

本发明涉及网络信息技术领域，具体涉及基于改进fastText的跨站脚本攻击检测方法。

背景技术

跨站脚本攻击(Cross Site Scripting，也称为XSS)指利用网站漏洞从用户那里恶意盗取信息，对于这种攻击的检测一直是近年来业界关注重点。

现有的跨站脚本攻击检测方法，一般有知识驱动和数据驱动两类思路。

(1)基于知识驱动。这类方法简单快速，其通过查询专家经验规则和数据知识库进行检测，但是对于规则和知识库之外的未知攻击很难防御。

(2)基于数据驱动。这类方法一般基于机器学习或者深度学习技术，需要大量的特征工程，模型结构复杂，如随机森林方法；训练时间长，检测速度慢，实时性不佳，如word2vec+CNN(卷积神经网络)分类方法。另外，在数据驱动中，训练数据和真实环境数据分布差异往往会带来概念分布漂移(Concept Drift)问题。

现有技术中针对跨站脚本攻击检测的方法，目前还存在如下问题：

(1)传统基于深度学习的跨站脚本攻击检测方法主要包括向量化和分类两个阶段和模型，模型通常较为复杂，所以速度慢。

(2)传统的分类方法以word-level(词粒度)为特征表述，准确性依赖于训练集的丰富程度，因为word粒度大，在实际环境中存在OOV(Out Of Vocabulary)问题，带来漏报。

(3)fastText在使用过程中，损失函数没有正则化约束项，会出现过拟合，容易产生误报。

因此，现有的网络信息安全领域中还没有特别实际有效的方法，可对跨站脚本攻击进行快速有效的检测；故需要提出更为合理的技术方案，对现有技术中存在的问题进行改进。

发明内容

为了克服上述内容中提到的现有技术存在的缺陷，本发明提供了基于改进fastText的跨站脚本攻击检测方法，旨在通过对输入的数据进行预处理，并通过规则引擎和fastText引擎对同一条规则进行检测，采用“或”运算对检测结果进行集成，实现对规则引擎的补充和辅助，还实现了快速有效的XSS检测。

为了实现上述目的，本发明具体采用的技术方案是：

基于改进fastText的跨站脚本攻击检测方法，包括：

数据预处理，将对象字符串进行预处理并还原为原始字符串，并从原始字符串中提取目标请求字段；

按照XSS规则对目标请求字段进行匹配检测；

利用fastTest建模，对目标请求字段进行推断和预测；

对XSS规则下的检测结果和fastTest模型下的推断预测结果进行“或”运算，得出最终检测结果。

上述公开的检测方法，从对象字符串开始处理，将可疑字符串还原为原始字符串，从原始字符串中提取目标请求字符进行检测；具体是通过XSS引擎和fastTest引擎的两种规则进行检测，其中fastTest引擎下可避免传统的卷积神经网络模型学习时间长、效率低下的问题，可通过快速的组合叠加找到可疑对象；同时还可通过fastTest模型构建字段对XSS的规则库进行丰富和完善，同步提高XSS检测的准确度；通过fastTest模型构建字段进行检测，还能避免传统检测方式中的过拟合问题，避免出现误报，提高检测的准确度。

进一步的，用户接收到的数据多种多样，在客户端上进行访问时，要对接收到的数据进行风险检测，首先进行数据的预处理，所述的数据预处理包括如下过程：

检测对象字符串，若对象字符串采用URL、Base或HTML进行编码则对应进行解码，并从解码后得到的原始字符串并提取目标请求字段；若对象字符串未编码则直接提取目标请求字段。对象字符串中，可能存在经过编码或嵌套处理的数据，类似的处理可能绕过既有检测规则导致无法检出，故在检测之前对数据进行预处理，帮助提高检测引擎的检出率。

再进一步，所述的数据预处理不仅仅包括一次解码处理，在得到目标请求字段后，还包括继续检测目标请求字段，若目标请求字段设置递归编码，则继续对目标请求字段进行解码处理；若目标请求字段未设置递归编码，则不进行解码处理。

进一步的，上述技术方案中公开的利用fastTest建模，对目标请求字段进行推断和预测，包括解码、分词和语句分类，具体采用如下方式：

首先，将目标字符串作为语句处理且进行解码和分词，在分词后构建字典映射矩阵，字典映射矩阵包括词嵌入矩阵和多元字符嵌入矩阵，每个目标请求字段映射至词嵌入矩阵并作为词向量；每个目标请求字段分解出来的多元字符映射至多元字符嵌入矩阵并作为词向量，多元字符嵌入矩阵采用哈希桶对所有多元字符进行映射，映射至同一个哈希桶内的多元字符共享一个嵌入向量。

这样处理的意义在于，通过分词后得到的多元字符，可进行组合得到新的词向量，因而能够扩充XSS的检测词库规则，缓解了OOV导致检出率降低的情况，还对zero-day攻击具备潜在的识别能力。该方法利用神经网络的非线性激活函数，相比于传统的N-grams机器学习模型更能学习到潜在的特征向量表达，同时相比于传统的仅仅基于character-level(字符粒度)或者word-level(词粒度)的卷积神经网络丰富了语义词典矩阵，进一步缓解了概念分布漂移带来的问题。

然后，将目标字符串进行分词处理得到若干词向量，词向量经过相互组合叠加可构建新的词向量，其中采用如下函数表示词向量x_w

同时采用如下函数表示语句向量x_s

其中，g代表gram，w代表word，x_g代表多元字符向量(character-levelN-grams)，s表示语句sentenc。

最后，构建语句时，以词嵌入矩阵中的词向量和多元字符嵌入矩阵中的词向量共同作为输入信息，通过叠加平均处理将部分隐藏向量加入隐藏层，最终得到输出语句，且多个输出语句通过分层逻辑模型进行分类。

输出语句经过分类并进入输出层，输出层内经过处理的输出语句均通过XSS检测规则和fastTest检测规则进行双重检测。

进一步的，上述技术方案中公开的多个输出语句通过分层逻辑模型进行分类，可采用如下方法对语句进行二分类

其中，v_l为目标向量，

为语句经过fastText模型隐藏层之后的转置向量。

再进一步，上述技术方案中过的语句二分类的方式，实质上为计算两个向量之间的点积并压缩至0～1的过程，该处理过程中存在损失并需要对损失部分进行确认，其中按照如下方法确定损失：

其中，y_s为语句标签，x_s是构建语句时的输入信息，A和B为连接输入信息与隐藏层之间的矩阵，f即为p(l|s)。

再进一步，对上述确定损失的方式进行优化以避免出现过拟合的情况，故按照如下方式对损失确定方法进行正则化约束：

其中，θ(x)是单位阶跃函数，y_s是真实标签，

是预测概率，t为阈值且t∈(0，1)；对于预测值大于阈值t的正样本和预测值小于阈值1-的负样本，模型不更新；对于预测值小于阈值t的正样本和预测值大于阈值1-的负样本，模型更新。

在上述正则化约束处理的过程中，具体可进行如下取值：

对于正样本y_s＝1，函数

当预测值

大于阈值t，则λ＝0，loss＝0；当预测值

小于阈值t，则λ＝1，loss保持不变；

对于负样本y_s＝0，函数

当预测值

小于阈值1-，则λ＝0，loss＝0；当预测值

大于阈值1-，则λ＝1，loss保持不变。

这样处理的意义在于，模型在训练的时候更关注在[1-t,t]之间的灰色带的正负样本，进而防止过拟合，使得模型分类效果更好。

与现有技术相比，本发明具有的有益效果是：

本发明针对网站应用级入侵防御系统实时性要求高的场景，提出了以文本分类fastText技术为基础，基于词级和字符级不同粒度词向量融合的XSS攻击检测方法，解决OOV问题，缓解了概念分布漂移问题；并引入正则化因子改进fastText损失函数，克服容易过拟合的问题，为网站应用级入侵防御系统知识驱动的规则引擎无法发现未知范式的XSS攻击提供了一种可行的解决方案。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅表示出了本发明的部分实施例，因此不应看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本发明的系统原理示意图。

图2为数据预处理流程示意图。

图3为字典映射矩阵示意图。

图4为实施例中词的分解示意图。

图5为语句的构建和分类模型示意图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

实施例

本实施例针对网站应用级入侵防御系统下的XSS攻击检测应用，首先通过数据预处理，去掉与XSS不相关的部分；然后进行分词，送入fastText模型进行检测；最后，进行“或”运算集成。利用fastText引擎和规则引擎对同一条数据进行检测会产生如下表1中的四种分布情况，利用“或”运算进行集成，实现对规则引擎的补充和辅助(规则引擎为0，fastText引擎为1),发现规则引擎没有感知到的威胁，辅助安全分析人员进一步工作

具体的，本实施例公开的技术方案如下。

如图1所示，基于改进fastText的跨站脚本攻击检测方法，包括：

S01：数据预处理，将对象字符串进行预处理并还原为原始字符串，并从原始字符串中提取目标请求字段；

S02：按照XSS规则对目标请求字段进行匹配检测；

S03：利用fastTest建模，对目标请求字段进行推断和预测；

S04：对XSS规则下的检测结果和fastTest模型下的推断预测结果进行“或”运算，得出最终检测结果。

上述公开的检测方法，在三大模块中进行数据处理，包括数据预处理模块、XSS规则引擎模块和基于fastTest的XSS检测引擎。从对象字符串开始处理，将可疑字符串还原为原始字符串，从原始字符串中提取目标请求字符进行检测；具体是通过XSS引擎和fastTest引擎的两种规则进行检测，其中fastTest引擎下可避免传统的卷积神经网络模型学习时间长、效率低下的问题，可通过快速的组合叠加找到可疑对象；同时还可通过fastTest模型构建字段对XSS的规则库进行丰富和完善，同步提高XSS检测的准确度；通过fastTest模型构建字段进行检测，还能避免传统检测方式中的过拟合问题，避免出现误报，提高检测的准确度。

用户接收到的数据多种多样，在客户端上进行访问时，要对接收到的数据进行风险检测，首先进行数据的预处理，所述的数据预处理包括如下过程：

如图2所示，检测对象字符串，若对象字符串采用URL、Base或HTML进行编码则对应进行解码，并从解码后得到的原始字符串并提取目标请求字段；若对象字符串未编码则直接提取目标请求字段。对象字符串中，可能存在经过编码或嵌套处理的数据，类似的处理可能绕过既有检测规则导致无法检出，故在检测之前对数据进行预处理，帮助提高检测引擎的检出率。

例如，在进行数据预处理时，可疑字符串为：

“％3fid％3d1'％20union％20select％201％2c2％2c3％20--％2b”

其经过数据预处理模块后为：

“？id＝1'UNION SELECT 1,2,3--+”

所述的数据预处理不仅仅包括一次解码处理，在得到目标请求字段后，还包括继续检测目标请求字段，若目标请求字段设置递归编码，则继续对目标请求字段进行解码处理；若目标请求字段未设置递归编码，则不进行解码处理。

上述技术方案中公开的利用fastTest建模，对目标请求字段进行推断和预测，包括解码、分词和语句分类，具体采用如下方式：

首先，将目标字符串作为语句处理且进行解码和分词，在分词后构建字典映射矩阵，如图3所示，字典映射矩阵包括词嵌入矩阵和多元字符嵌入矩阵，每个目标请求字段映射至词嵌入矩阵并作为词向量；每个目标请求字段分解出来的多元字符映射至多元字符嵌入矩阵并作为词向量，多元字符嵌入矩阵采用哈希桶对所有多元字符进行映射，映射至同一个哈希桶内的多元字符共享一个嵌入向量。

一般采用正则匹配的方式进行分词，例如

<scrip<script>t>window.a＝＝1？1:alert(1)</scrip</script>t>经过正则表达式(<\w+，\w+＝>，和全部数字用0替换等等)分词后为<scrip<script>t>window.a 00alert(0)scrip</script>t>，词之间以空格间隔。

再如，对目标字符串进行分词时，

“http://www.baidu.com/login？ID＝<script>alert('I am a hacker')</script>”经过分词后变为：

['http://u','<script>','alert(','i','am','a','hacker',')','</script>']

再者，如图4所示，词也可经过character-level N-grams进行分解，例如“hacker”可分解为包括：ha、ac、ck、ke、ack、cke、hack、hacker等等多种不同多元字符。

优选的，在构建字典映射矩阵时，设定字典映射矩阵的长L和宽K，其中长L为词嵌入矩阵和多元字符嵌入矩阵的宽度之和，宽K等于词嵌入矩阵和多元字符嵌入矩阵的长。

同时采用如下函数表示语句向量x_s

其中，g代表gram，w代表word，x_g代表多元字符向量(character-level N-grams)，s表示语句sentenc。

最后，构建语句时，如图5所示，以词嵌入矩阵中的词向量和多元字符嵌入矩阵中的词向量共同作为输入信息，通过叠加平均处理将部分隐藏向量加入隐藏层，最终得到输出语句，且多个输出语句通过分层逻辑模型进行分类。

本实施例中，对上述技术方案中公开的多个输出语句通过分层逻辑模型进行分类，可采用如下方法对语句进行二分类

其中，v_l为目标向量，

为语句经过fastText模型隐藏层之后的转置向量。

上述技术方案中过的语句二分类的方式，实质上为计算两个向量之间的点积并压缩至0～1的过程，该处理过程中存在损失并需要对损失部分进行确认，其中按照如下方法确定损失：

对上述确定损失的方式进行优化以避免出现过拟合的情况，故按照如下方式对损失确定方法进行正则化约束：

其中，θ(x)是单位阶跃函数，y_s是真实标签，

是预测概率，t为阈值且t∈(0，1)；对于预测值大于阈值t的正样本和预测值小于阈值1-t的负样本，模型不更新；对于预测值小于阈值t的正样本和预测值大于阈值1-t的负样本，模型更新。

在上述正则化约束处理的过程中，具体可进行如下取值：

对于正样本y_s＝1，函数

当预测值

大于阈值t，则λ＝0，loss＝0；当预测值

小于阈值t，则λ＝1，loss保持不变；

对于负样本y_s＝0，函数

当预测值

小于阈值1-，则λ＝0，loss＝0；当预测值

大于阈值1-，则λ＝1，loss保持不变。

本实施例中公开的技术方案在实际运用时，得到如下表1中所示的一种检测结果：

表1检测结果分布

规则引擎	fastText引擎	或运算
			1	1	1
1	0	1
			0	1	1
0	0	0

其中，当规则引擎检测结果为0，fastTest引擎检测结果为1时，表示发现规则引擎没有感知到的威胁，可将新的威胁用于更新或者完善规则库。

参数：隐藏层参数设置为32，bucket设置为1000000，n-grams设置为3，Intel(R)Xeon(R)CPU E5-2620 v3@2.40GHz，一个CPU逻辑核，实验结果如下表2所示：

表2实验结果

测试样本数	268548(正：负＝2：1)
		准确率	0.994
召回率	0.980
		预测速度	15000条/秒

以上即为本发明列举的实施方式，但本发明不局限于上述可选的实施方式，本领域技术人员可根据上述方式相互任意组合得到其他多种实施方式，任何人在本发明的启示下都可得出其他各种形式的实施方式。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.基于改进fastText的跨站脚本攻击检测方法，其特征在于，包括：

按照XSS规则对目标请求字段进行匹配检测；

利用fastTest建模，对目标请求字段进行推断和预测；

2.根据权利要求1所述的基于改进fastText的跨站脚本攻击检测方法，其特征在于，所述的数据预处理包括如下过程：

检测对象字符串，若对象字符串采用URL、Base或HTML进行编码则对应进行解码，并从解码后得到的原始字符串并提取目标请求字段；若对象字符串未编码则直接提取目标请求字段。

3.根据权利要求2所述的基于改进fastText的跨站脚本攻击检测方法，其特征在于：

还包括继续检测目标请求字段，若目标请求字段设置递归编码，则继续对目标请求字段进行解码处理；若目标请求字段未设置递归编码，则不进行解码处理。

4.根据权利要求1所述的基于改进fastText的跨站脚本攻击检测方法，所述的利用fastTest建模，对目标请求字段进行推断和预测，其特征在于：

将目标字符串作为语句处理且进行解码和分词，在分词后构建字典映射矩阵，字典映射矩阵包括词嵌入矩阵和多元字符嵌入矩阵，每个目标请求字段映射至词嵌入矩阵并作为词向量；每个目标请求字段分解出来的多元字符映射至多元字符嵌入矩阵并作为词向量，多元字符嵌入矩阵采用哈希桶对所有多元字符进行映射，映射至同一个哈希桶内的多元字符共享一个嵌入向量。

5.根据权利要求4所述的基于改进fastText的跨站脚本攻击检测方法，其特征在于：将目标字符串进行分词处理得到若干词向量，词向量经过相互组合叠加可构建新的词向量，其中采用如下函数表示词向量x_w