CN109522454B

CN109522454B - 自动生成web样本数据的方法

Info

Publication number: CN109522454B
Application number: CN201811386566.7A
Authority: CN
Inventors: 普雪飞
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2022-06-03
Anticipated expiration: 2038-11-20
Also published as: CN109522454A

Abstract

本发明涉及安全领域，针对现有的web样本数据无法自动生成的问题，提出一种自动生成web样本数据的方法，包括：构建web训练样本的样本训练集，对样本训练集内的web训练样本进行特征处理得到对应的编码字符串，构建神经网络模型；将样本训练集对应的编码字符串输入至神经网络模型，计算损失函数值，通过最小化损失函数值来优化神经网络模型得到最优模型；构建web输入样本的样本输入集，对样本输入集内的web输入样本进行特征处理得到对应的编码字符串，将样本输入集对应的编码字符串输入到最优模型生成数字字符序列；将数字字符序列转换为对应的词表字符序列。本发明适用于生成安全测试中的web样本数据。

Description

自动生成web样本数据的方法

技术领域

本发明涉及安全领域，特别涉及一种自动生成web样本数据的方法。

背景技术

随着信息化时代的发展，国家发展进入了网络安全时代，国家出台了网络安全法，公司内部也已经在开发自身的网络安全产品，web攻击输入中，一些文本类型的流量数据获取有时比较麻烦，当系统要进行输入时，要手动造web样本数据，如此需要较高的人工成本。

发明内容

本发明所要解决的技术问题是：克服现有的web样本数据无法自动生成的问题，提出一种自动生成web样本数据的方法。

本发明解决上述技术问题，采用的技术方案是：

自动生成web样本数据的方法，包括：

构建web训练样本的样本训练集，对样本训练集内的web训练样本进行特征处理得到对应的编码字符串，构建神经网络模型；

将样本训练集对应的编码字符串输入至神经网络模型，计算损失函数值，通过最小化损失函数值来优化神经网络模型得到最优模型；

构建web输入样本的样本输入集，对样本输入集内的web输入样本进行特征处理得到对应的编码字符串，将样本输入集对应的编码字符串输入到最优模型生成数字字符序列；

将数字字符序列转换为对应的词表字符序列。

优选的，所述构建web训练样本的样本训练集包括：

收集多个同类型的web训练样本，web训练样本的类型包括白流量数据或黑流量数据或rfi数据；

对收集到的web训练样本进行预处理，得到对应web训练样本的样本训练集；

所述构建web输入样本的样本输入集，包括：

通过指定URL地址的协议并按URL的格式指定长度随机生成字符串构成web输入样本。

优选的，所述预处理包括剔除乱码和编码转换。

优选的，所述对样本训练集内的web训练样本进行特征处理得到对应的编码字符串包括：

对样本训练集内的样本以字符级别进行分词处理；

根据分词处理得到的字符构建词表；

统计词表中出现过的字符，并给每个字符赋予唯一的编号；

根据字符对应的编号对样本训练集内的web训练样本进行编码得到编码字符串；

所述对样本输入集内的web输入样本进行特征处理得到对应的编码字符串包括：

根据字符对应的编号对样本输入集内的web输入样本进行编码得到编码字符串。

优选的，所述神经网络模型包括输入层、嵌入层、第一LSTM循环层、第二LSTM循环层、Concatenate层、Attention层和输出层；

输入层，用于将样本训练集对应的编码字符串输入神经网络模型；

嵌入层，用于将编码字符串中每个字符转换为预定维度的字符嵌入向量；

第一LSTM循环层，用于学习编码字符串中时序关系，接收字符嵌入向量，经过LSTM运算后得到对应各时刻隐藏层的输出，记为第一隐藏层输出；

第二LSTM循环层，用于接收第一LSTM循环层的输出，经过LSTM运算后得到对应的各时刻隐藏层的输出；

Concatenate层，用于对字符嵌入向量、第一LSTM循环层的输出和第二LSTM循环层的输出进行拼接得到时序特征；

Attention层，用于对各时序特征赋予权重；

输出层，用于将Attention层的输出映射成输入的样本训练集对应的编码字符串的下一个数字字符取值的概率。

优选的，所述计算损失函数值包括：

采用交叉熵计算损失函数值，交叉熵方法采用的评估数据集为样本训练集。

优选的，所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据之前还包括：

保存最优模型；

加载最优模型。

优选的，所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据，包括：

将样本输入集对应的编码字符串作为给定序列输入至最优模型生成一个数字字符，将生成的数字字符添加到给定序列的末尾并删除给定序列的第一个字符形成新的给定序列，将新的给定序列输入至最优模型生成下一数字字符，以此类推。

本发明的有益效果是：

通过对神经网络模型的训练得到最优模型，将web输入样本编码后输入至最优模型生成数字字符序列，将数字字符序列转换为对应的词表字符序列，该词表字符序列即为web样本数据，本发明能自动生成web样本数据，降低了人工成本，且能根据训练的web训练样本的不同而生成相对应类型的web样本数据。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的神经网络模型流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步详细说明。

自动生成web样本数据的方法，包括：

将数字字符序列转换为对应的词表字符序列。

其中，神经网络模型可基于keras和tensorflow框架来实现。

为保证web训练样本的多样性及有效性，作为上述方案的优选，上述构建web训练样本的样本训练集可包括：收集多个同类型的web训练样本，web训练样本的类型包括白流量数据或黑流量数据或rfi(remote file inclusion，远程文件包含漏洞)数据，其中，白流量数据代表的正常的web访问请求，黑流量数据代表非正常的web访问请求，web访问请求包括URL地址和请求参数，训练数据中只能包含一类数据，目的是生成白流量数据的话，训练时只使用白流量数据训练，以此类推。

为了构建的方便性，web输入样本的长度以及web输入样本的取值可以编写简单的程序随机来指定，所述构建web输入样本的样本输入集，包括：通过指定URL地址的协议并按URL的格式指定长度随机生成字符串构成web输入样本。其中，输入样本的个数可以进行指定，例如指定m个，则按照上述方法生成m个web输入样本，URL地址的协议可采用http协议。

对收集到的web训练样本进行预处理，得到对应web训练样本的样本训练集，同样的，对收集到的web输入样本进行预处理，得到对应web输入样本的样本输入集。上述预处理可包括剔除乱码和编码转换，其中，编码转换可为利用开源的URL解析工具或者python语言开源的的urllib库完成对提出乱码后的web训练样本中的html编码进行解码，如此html编码的字符可还原成原始字符。

鉴于LSTM算法只能处理数值数据，需要对非数值数据进行编码。上述对样本训练集中的样本进行特征处理得到编码字符串可包括：

对样本训练集中的样本以字符级别进行分词处理；

根据分词处理得到的字符构建词表；

统计词表中出现过的字符，并给每个字符赋予唯一的编号；

其中，可利用利用正则表达式对样本进行分词，以字符级为单位，例如：“http:”，分词后变为“h,t,t,p,:”，分词后构建词表，统计所有出现过的字符，并给每个字符赋予一个唯一的编号，编号从零开始，以1为单位依次递增。构建好词表后根据词表中字符对应的编号对训练集中的样本进行编码，将字符串转换为数字类型的编码字符串。

鉴于样本训练集中的样本的多样性，后续web输入样本的编码可直接采用上述词表中字符赋予的编码来进行，即根据字符对应的编号对样本输入集内的web输入样本进行编码得到编码字符串。

上述将数字字符序列转换为对应的词表字符序列可按照上述编号对应的词表中字符进行相应的转换得到词表字符序列。

上述神经网络模型可包括输入层、嵌入层、第一LSTM(Long Short-Term Memory，长短期记忆网络)循环层、第二LSTM循环层、Concatenate层、Attention层和输出层；

Concatenate(连接)层，用于对字符嵌入向量、第一LSTM循环层的输出和第二LSTM循环层的输出进行拼接得到时序特征；

Attention(注意力)层，用于对各时序特征赋予权重；

其中，输出层采用的映射函数可为softmax，将输出映射成输入字符的下一个数字字符各取值的概率，下一数字字符可包括大写字母、小写字母、标点符号和表情等对应的编码，字符对应的概率越大表示输入的下一个字符的取该值的可能性越大。

为使得模型出来的结果尽可能的拟合样本训练集本身，上述计算损失函数值可包括：采用交叉熵计算损失函数值，交叉熵方法采用的评估数据集为样本训练集。

为保证根据不同种类样本训练集来训练不同的模型，等需要使用的时候再调用相应的模型，所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据之前还包括：

保存最优模型；

加载最优模型。

其中，可根据不同种类样本训练集来训练不同的模型，将训练好的模型保存成二进制的文件，需要用到时可加载进来使用；当需要生成白流量数据时，加载已经训练好的对应白流量的最优模型，调用数据生成方法即可自动生成白流量数据；

为了生成数据的方便性，所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据，包括：

实施例

如图1所示，以生成白流量url数据为例，对应的，web训练样本为白流量url数据，具体实施步骤如下：

1、搭建环境：基础运行环境为python，构建神经网络模型所需的库为tensorflow和keras，搭建神经网络的用户交互主要依靠keras，底层运行tensorflow，同时开源工具textgenrnn封装了基于tensorflow和keras的文本生成网络，可以直接使用。

2、构建样本训练集和样本输入集：收集白流量web访问请求数据样本，剔除有乱码的白流量web访问请求数据样本，对剩余的白流量web访问请求数据样本进行html编码转换，将编码后的字符还原成原始字符，将预处理后的70％的web访问请求数据样本用于构建样本输入集，30％的样本用于构建样本训练集，web访问请求包括URL地址和请求参数。

3、特征处理：利用正则表达式对步骤2输出的样本输入集和样本训练集中的web访问请求进行分词，以字符级为单位，例如：“http:”，分词后变为“h,t,t,p,:”，分词后构建词表，统计所有出现过的字符，并给每个字符赋予一个唯一的编号，编号从零开始，以1为单位依次递增。构建好词表后根据词表中字符对应的编号对web访问请求的字符串进行编码，将字符串转换为数字类型的编码字符串。

4、模型构建：利用keras库搭建神经网络模型，神经网络架构采用LSTM+Attention的方式来实现。神经网络模型包含输入层、embedding层、lstm层、注意力层、输出层，输出层通过softmax进行映射，损失函数为交叉熵，将输出映射成输入字符的下一个字符取该值的概率，概率越大表示输入的下一个取该字符的可能性越大，神经网络模型的输入编码字符串，学习的输出是这段编码字符串的下一个字符的取值。

上述步骤1-4均为准备工作，步骤4也可在步骤1之后便执行。

5、模型训练：将特征处理输出的样本训练集对应的编码字符串输入到上述神经网络模型进行训练，通过反复多轮迭代，将交叉熵损失降到最小，评估的数据集可以使用样本训练集本身，以使得模型尽可能的拟合训练集。

具体的，如图2所示，模型的流程为：

1)embedding层它将每个输入的编码字符转换为100维的字符嵌入向量，其中，图中的(**，40,100)表示**个web训练样本，每个样本的编码字符串为40个数字，如果不足40个，则可在编码字符串的末尾填充0使得长度为40，每个字符可作为一个时序特征，100代表每个时序特征的维数为128维度，其它的，以此类推。

2)100维的字符嵌入向量输入到一个包含128个神经元的第一LSTM循环层中。

3)步骤2)的输出被传输至包含128个神经元的第二LSTM循环层中。

4)以上所有三层的输出在Concatenate层进行连接得到最终的时序特征；

5)将步骤4)的输出输入到Attention层中，用来给最重要的时序特征赋权。

6)输出层用于将输出映射到不同数字字符的概率分布上，这些数字字符是序列中的下一个字符，包括大写字母、小写字母、标点符号和表情等对应的编码。

6、数据生成：使用LSTM模型做出预测的最简单方法是将样本输入集对应的编码字符串作为给定序列输入至最优模型生成一个数字字符，将生成的数字字符添加到给定序列的末尾并删除给定序列的第一个字符形成新的给定序列，将新的给定序列输入至最优模型生成下一数字字符，以此类推。在这里重复上述过程n次，就可以生成一个n个数字的数字字符序列，将数字字符序列按照上述编号对应的词表中字符进行相应的转换得到对应的词表字符序列，该词表字符序列即为最终的web样本数据。

Claims

1.自动生成web样本数据的方法，其特征在于，包括：

将数字字符序列转换为对应的词表字符序列。

2.如权利要求1所述的方法，其特征在于，所述构建web训练样本的样本训练集，包括：

所述构建web输入样本的样本输入集，包括：

3.如权利要求2所述的方法，其特征在于，所述预处理包括剔除乱码和编码转换。

4.如权利要求1所述的方法，其特征在于，所述对样本训练集内的web训练样本进行特征处理得到对应的编码字符串包括：

对样本训练集内的样本以字符级别进行分词处理；

根据分词处理得到的字符构建词表；

统计词表中出现过的字符，并给每个字符赋予唯一的编号；

5.如权利要求1所述的方法，其特征在于，所述神经网络模型包括输入层、嵌入层、第一LSTM循环层、第二LSTM循环层、Concatenate层、Attention层和输出层；

Attention层，用于对各时序特征赋予权重；

6.如权利要求1所述的方法，其特征在于，所述计算损失函数值包括：

7.如权利要求1所述的方法，其特征在于，所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据之前还包括：

保存最优模型；

加载最优模型。

8.如权利要求1所述的方法，其特征在于，所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据，包括：