CN109190703B

CN109190703B - 基于dnn的多态蠕虫特征码自动提取方法

Info

Publication number: CN109190703B
Application number: CN201811031199.9A
Authority: CN
Inventors: 周翰逊; 杨阳; 郭薇
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2021-08-24
Anticipated expiration: 2038-09-05
Also published as: CN109190703A

Abstract

一种基于DNN的多态蠕虫特征码自动提取方法，其步骤为：对于DNN的多态蠕虫特征码自动提取，整个过程分为训练DNN模型和提取多态蠕虫特征码两部分。在训练模型阶段，将多态蠕虫有效载荷和其对应的特征码作为输入数据，输入到DNN网络中进行训练，得到DNN网络模型。在提取多态蠕虫特征码阶段，将多态蠕虫有效载荷输入到DNN网络模型，通过Signature Beam Search算法来提取特征码，最终输出多态蠕虫有效载荷对应的特征码。通过上述方法，本发明提供了一种能够快速且准确提取蠕虫特征码的基于DNN的多态蠕虫特征码自动提取方法。

Description

基于DNN的多态蠕虫特征码自动提取方法

技术领域

本发明涉及一种特征码自动提取方法，尤其是一种基于DNN的多态蠕虫特征码自动提取方法。

背景技术

蠕虫特征码自动提取是指不需要人工帮助，自动从已知的攻击载荷数据中提取特征码的过程。随着DNN在自然语言处理领域的深入研究，DNN在机器翻译中表现出很好的效果。蠕虫有效载荷作为一种特殊的文本数据，由于蠕虫特征码的提取和机器翻译同样是一种多对多的序列任务，因此，我们选择使用DNN进行多态蠕虫特征码自动提取。

发明内容

本发明提出了一种基于DNN的多态蠕虫特征码自动提取方法，对于DNN的多态蠕虫特征码自动提取，整个过程分为训练DNN模型和提取多态蠕虫特征码两部分。在训练模型阶段，将多态蠕虫有效载荷和其对应的特征码作为输入数据，输入到DNN网络中进行训练，得到DNN网络模型。在提取多态蠕虫特征码阶段，将多态蠕虫有效载荷输入到DNN网络模型，通过Signature Beam Search算法来提取特征码，最终输出多态蠕虫有效载荷对应的特征码。

为了实现上述目的，本发明创造采用的技术方案为：基于DNN的多态蠕虫特征码自动提取方法，其特征在于，步骤如下：

1)模型结构：

1.1)定义：

输入为a₁,a₂,…,a_M组成M个ASCII码的序列，这些ASCII码组成大小为|V|＝V的词典V；

序列b₁,b₂,…,b_N表示特征码；

集合X表示所有的有效载荷数据，集合Y为所有可能出现的特征码；

1.2)将多态蠕虫有效载荷a作为输入，并输出长度为N<M的特征码b，已知评分函数

找到最佳的特征码b'∈Y使得：

根据蠕虫有效载荷的特征码的条件对数概率，评分函数s(a,b)可表示为：s(a,b)＝log p(b|a；θ)≈∑p(b|a,b_c；θ)；其中，

表示窗口大小为C的特征码上下文，在b_c上做Markov假设，当i<1时，b_i为特定的开始符号<s>；通过评分函数可知，对局部条件概率分布建模：p(b_i+1|a,b_c；θ)；采用神经网络机器翻译的做法，将条件概率分布参数化为一个神经网络，其包括一个神经网络语言模型和一个作为条件特征码生成模型的编码器；

2)建立深度神经网络模型：基于标准的前馈神经网络语言模型，构建包含4个隐藏层的深度神经网络模型，对于隐藏层的激活函数，选择使用ReLU；完整的DNN网络模型为：

p(b_i+1|b_c,a；θ)∝exp(Vh””+W*enc(a,b_c)) (2)

h”＝relu(U'h') (5)

h”'＝relu(U”h”) (6)

h””＝relu(U”'h”') (7)

在上述公式中：

enc表示基于Attention编码器，返回一个大小为H的向量，表示多态蠕虫有效载荷和对应特征码的上下文；

参数θ＝(E,U,U',U”,U”',V,W)，

是特征码的ASCII码嵌入矩阵；

表示权重矩阵；

D表示ASCII码嵌入的大小；

V表示蠕虫有效载荷组成的字典的大小；

H表示隐藏层中隐藏单元的数量；

C表示特征码中上下文大小；

3)Attention的编码器：

使用Attention的编码器，构造基于多态蠕虫有效载荷和特征码上下文的表示，该编码器中，定义区间[x,y]为特征提取窗口的取值范围，从窗口值中反映出模型对蠕虫有效载荷中关键特征信息的关注程度；

4)提取多态蠕虫特征码：

基于DNN的多态蠕虫特征码自动提取算法，找到一个特征码b'∈Y使得：

利用多态蠕虫有效载荷的特点，在提取特征码时，我们提出一种新的方法——Signature Beam Search算法，用于求解argmax函数；

4.1)使用Signature Beam Search算法求解argmax函数时，采用全局搜索的方式来提取多态蠕虫特征码，在搜索的过程中通过判断预测的ASCII码和前一个已预测的ASCII码在多态蠕虫有效载荷中的位置是否相邻，来选择合适的ASCII码；

4.2)在提取多态蠕虫特征码时，限制特征码中的每个位置有K个候选项，在输出预测的特征码之前，通过对候选的K个特征码的对数概率值进行排序，从而选择出最优的特征码。

所述的步骤3)中：

在编码多态蠕虫有效载荷时，Attention选择固定长度的蠕虫有效载荷上下文进行学习，具体的公式描述如下：

公式中：

表示特征码上下文嵌入矩阵；

表示权重矩阵；

表示有效载荷的嵌入矩阵；

Q是注意力窗口的大小；

定义区间[x,y]为特征提取窗口取值范围，当窗口值小于x或者窗口值大于y时，模型无法学习到有效的特征。

所述的步骤4)中：

Signature beam Search算法描述如下：

上述算法中：

b_i1_index表示预测的ASCII码b_i+1在有效载荷数据中的索引；

b_i_index表示预测ASCII码b_i在有效载荷数据中的索引；

‘257’代表特征之间的分隔符；

b_predict＝{b₁,b₂,…,b_V}表示在特征码中第i+1处预测的V个ASCII码。

本发明创造的有益效果为：本发明不需要人工分析蠕虫有效载荷，通过上述方法可以自动从蠕虫有效载荷和蠕虫特征码中进行学习，使用DNN能够从训练数据中学习到更复杂的特征，从而快速且准确地进行蠕虫特征码自动化提取。

附图说明

图1：步骤3)中深度神经网络语言模型。

具体实施方式

一种基于DNN的多态蠕虫特征码自动提取方法，步骤为：

1)模型结构：

1.1)定义：

序列b₁,b₂,…,b_N表示特征码；

找到最佳的特征码b'∈Y使得：

表示窗口大小为C的特征码上下文，在b_c上做Markov假设，当i<1时，b_i为特定的开始符号<s>；通过评分函数可知，对局部条件概率分布建模：p(b_i+1|a,b_c；θ)；采用神经网络机器翻译的做法，将条件概率分布参数化为一个神经网络，其包括一个神经网络语言模型和一个作为条件特征码生成模型的编码器。

2)建立深度神经网络模型：基于标准的前馈神经网络语言模型，构建包含4个隐藏层的深度神经网络模型，对于隐藏层的激活函数，我们选择使用ReLU，该函数的优点在于：在反向传播中，可以缓解梯度消失问题；也可以加快神经网络模型的收敛速度。完整的DNN网络模型为：

p(b_i+1|b_c,a；θ)∝exp(Vh””+W*enc(a,b_c)) (2)

h”＝relu(U'h') (5)

h”'＝relu(U”h”) (6)

h””＝relu(U”'h”') (7)

在上述公式中：

参数θ＝(E,U,U',U”,U”',V,W)，

是特征码的ASCII码嵌入矩阵；

表示权重矩阵；

D表示ASCII码嵌入的大小；

V表示蠕虫有效载荷组成的字典的大小；

H表示隐藏层中隐藏单元的数量；

C表示特征码中上下文大小；

图1为深度神经网络语言模型的示意图。其中，a表示多态蠕虫有效载荷，b表示对应的特征码。

3)Attention的编码器：

特征码是多态蠕虫有效载荷的关键信息，它们是由多个连续子字符串组合而成的。因此并不需要全局地考虑整个文本，只需要关注有限数量的字符构成的上下文即可，这样更能捕获到多态蠕虫有效载荷中的关键信息。为了解决这个问题，选择使用基于Attention的编码器，其能构造基于多态蠕虫有效载荷和特征码上下文的表示。在编码多态蠕虫有效载荷时，Attention选择固定长度的蠕虫有效载荷上下文进行学习。具体的公式描述如下：

上述公式中：

表示特征码上下文嵌入矩阵；

表示权重矩阵；

表示有效载荷的嵌入矩阵；

Q是注意力窗口的大小。

定义：区间[x,y]是特征提取窗口取值范围。当窗口值小于x或者窗口值大于y时，模型无法学习到有效的特征。

在该编码器中，窗口值能够反映出模型对蠕虫有效载荷中关键特征信息的关注程度。通过研究发现，只有当窗口值在一个固定区间[x,y]内时，模型才能够从蠕虫有效载荷中学习到其中的特征信息。如果窗口值小于x或者窗口值大于y时，模型无法关注到蠕虫有效载荷中的特征信息。因此，我们定义这个窗口区间为特征提取窗口区间。

4)提取多态蠕虫特征码：

对于多态蠕虫特征码的提取问题，基于DNN的多态蠕虫特征码自动提取算法需要找到一个特征码b'∈Y使得：

在机器翻译中生成译文是NP问题(Non-deterministic Polynomial，多项式复杂程度的非确定性问题)，但是在提取多态蠕虫特征码时b'的计算代价并不大。在多态蠕虫特征码提取中，有效载荷数据集合所构成的字典V由256个ASCII所组成的；对于多态蠕虫有效载荷来说，其特征码在蠕虫有效载荷数据出现的位置是有序并且依次出现的。也就是说，只有当提取出来的特征码依次出现时，该特征码才是有效的。利用多态蠕虫有效载荷的上述特点，在提取特征码时，提出一种新的方法——Signature Beam Search算法，用于求解argmax函数。

在使用Signature Beam Search算法求解argmax函数时，采用全局搜索的方式来提取多态蠕虫特征码，在搜索的过程中通过判断预测的ASCII码和前一个已预测的ASCII码在多态蠕虫有效载荷中的位置是否相邻来选择合适的ASCII码。在提取多态蠕虫特征码时，限制特征码中的每个位置有K个候选项，在输出预测的特征码之前，通过对候选的K个特征码的对数概率值进行排序，从而选择出最优的特征码。Signature Beam Search算法的最大时间复杂度为O(KNV)。Signature beam Search算法描述如下：

上述算法中：

b_i1_index表示预测的ASCII码b_i+1在有效载荷数据中的索引；

b_i_index表示预测ASCII码b_i在有效载荷数据中的索引；

‘257’代表特征之间的分隔符；

Claims

1.基于DNN的多态蠕虫特征码自动提取方法，其特征在于，步骤如下：

1)模型结构：

1.1)定义：

序列b₁,b₂,…,b_N表示特征码；

1.2)将多态蠕虫有效载荷a作为输入，并输出长度为N<M的特征码b，已知评分函数s:

找到最佳的特征码b'∈Y使得：

根据蠕虫有效载荷的特征码的条件对数概率，评分函数s(a,b)可表示为：s(a,b)＝logp(b|a；θ)≈∑p(b|a,b_c；θ)；其中，

p(b_i+1|b_c,a；θ)∝exp(Vh””+W*enc(a,b_c)) (2)

h”＝relu(U'h') (5)

h”'＝relu(U”h”) (6)

h””＝relu(U”'h”') (7)

在上述公式中：

参数θ＝(E,U,U',U”,U”',V,W)，

是特征码的ASCII码嵌入矩阵；

U',U”,

表示权重矩阵；

D表示ASCII码嵌入的大小；

V表示蠕虫有效载荷组成的字典的大小；

H表示隐藏层中隐藏单元的数量；

C表示特征码中上下文大小；

3)Attention的编码器：

使用Attention的编码器，构造基于多态蠕虫有效载荷和特征码上下文的表示，该编码器中，定义区间[x,y]为特征提取窗口取值范围，从窗口值中反映出模型对蠕虫有效载荷中关键特征信息的关注程度；

4)提取多态蠕虫特征码：

利用多态蠕虫有效载荷的特点，在提取特征码时，采用Signature Beam Search算法，用于求解argmax函数；

4.2)在提取多态蠕虫特征码时，限制特征码中的每个位置有K个候选项，在输出预测的特征码之前，通过对候选的K个特征码的对数概率值进行排序，从而选择出最优的特征码；

Signature beam Search算法描述如下：

输入：a,K；a代表有效蠕虫的有效载荷，K代表搜索的大小；

输出:sig；sig代表特征码；

从1到N循环遍历所有特征，对于每个特征从1到K，通过argmax g(b_i+1,a,b_c)计算其预测的特征值{b₁,b₂,…,b_V}，并且再次循环遍历这V个值，当预测的ASCII码b_i+1在有效载荷数据中的索引与预测ASCII码b_i在有效载荷数据中的索引的值相同时，将b_i+1赋值给sig[i][k]，并且跳出本次循环，否则继续循环；如果最后循环结束仍然没有满足条件的时候，将sig[i][k]设置为257。