CN109190703A - 基于dnn的多态蠕虫特征码自动提取方法 - Google Patents

基于dnn的多态蠕虫特征码自动提取方法 Download PDF

Info

Publication number
CN109190703A
CN109190703A CN201811031199.9A CN201811031199A CN109190703A CN 109190703 A CN109190703 A CN 109190703A CN 201811031199 A CN201811031199 A CN 201811031199A CN 109190703 A CN109190703 A CN 109190703A
Authority
CN
China
Prior art keywords
condition code
payload
worm
polymorphic
dnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811031199.9A
Other languages
English (en)
Other versions
CN109190703B (zh
Inventor
周翰逊
杨阳
郭薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN201811031199.9A priority Critical patent/CN109190703B/zh
Publication of CN109190703A publication Critical patent/CN109190703A/zh
Application granted granted Critical
Publication of CN109190703B publication Critical patent/CN109190703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

一种基于DNN的多态蠕虫特征码自动提取方法,其步骤为:对于DNN的多态蠕虫特征码自动提取,整个过程分为训练DNN模型和提取多态蠕虫特征码两部分。在训练模型阶段,将多态蠕虫有效载荷和其对应的特征码作为输入数据,输入到DNN网络中进行训练,得到DNN网络模型。在提取多态蠕虫特征码阶段,将多态蠕虫有效载荷输入到DNN网络模型,通过Signature Beam Search算法来提取特征码,最终输出多态蠕虫有效载荷对应的特征码。通过上述方法,本发明提供了一种能够快速且准确提取蠕虫特征码的基于DNN的多态蠕虫特征码自动提取方法。

Description

基于DNN的多态蠕虫特征码自动提取方法
技术领域
本发明涉及一种特征码自动提取方法,尤其是一种基于DNN的多态蠕虫特征码自动提取方法。
背景技术
蠕虫特征码自动提取是指不需要人工帮助,自动从已知的攻击载荷数据中提取特征码的过程。随着DNN在自然语言处理领域的深入研究,DNN在机器翻译中表现出很好的效果。蠕虫有效载荷作为一种特殊的文本数据,由于蠕虫特征码的提取和机器翻译同样是一种多对多的序列任务,因此,我们选择使用DNN进行多态蠕虫特征码自动提取。
发明内容
本发明提出了一种基于DNN的多态蠕虫特征码自动提取方法,对于DNN的多态蠕虫特征码自动提取,整个过程分为训练DNN模型和提取多态蠕虫特征码两部分。在训练模型阶段,将多态蠕虫有效载荷和其对应的特征码作为输入数据,输入到DNN网络中进行训练,得到DNN网络模型。在提取多态蠕虫特征码阶段,将多态蠕虫有效载荷输入到DNN网络模型,通过Signature Beam Search算法来提取特征码,最终输出多态蠕虫有效载荷对应的特征码。
为了实现上述目的,本发明创造采用的技术方案为:基于DNN的多态蠕虫特征码自动提取方法,其特征在于,步骤如下:
1)模型结构:
1.1)定义:
输入为a1,a2,…,aM组成M个ASCII码的序列,这些ASCII码组成大小为|V|=V的词典V;
序列b1,b2,…,bN表示特征码;
集合X表示所有的有效载荷数据,集合Y为所有可能出现的特征码;
1.2)将多态蠕虫有效载荷a作为输入,并输出长度为N<M的特征码b,已知评分函数找到最佳的特征码b'∈Y使得:
根据蠕虫有效载荷的特征码的条件对数概率,评分函数s(a,b)可表示为:s(a,b)=log p(b|a;θ)≈∑p(b|a,bc;θ);其中,表示窗口大小为C的特征码上下文,在bc上做Markov假设,当i<1时,bi为特定的开始符号<s>;通过评分函数可知,对局部条件概率分布建模:p(bi+1|a,bc;θ);采用神经网络机器翻译的做法,将条件概率分布参数化为一个神经网络,其包括一个神经网络语言模型和一个作为条件特征码生成模型的编码器;
2)建立深度神经网络模型:基于标准的前馈神经网络语言模型,构建包含4个隐藏层的深度神经网络模型,对于隐藏层的激活函数,选择使用ReLU;完整的DNN网络模型为:
p(bi+1|bc,a;θ)∝exp(Vh””+W*enc(a,bc)) (2)
h”=relu(U'h') (5)
h”'=relu(U”h”) (6)
h””=relu(U”'h”') (7)
在上述公式中:
enc表示基于Attention编码器,返回一个大小为H的向量,表示多态蠕虫有效载荷和对应特征码的上下文;
参数θ=(E,U,U',U”,U”',V,W),是特征码的ASCII码嵌入矩阵;
表示权重矩阵;
D表示ASCII码嵌入的大小;
V表示蠕虫有效载荷组成的字典的大小;
H表示隐藏层中隐藏单元的数量;
C表示特征码中上下文大小;
3)Attention的编码器:
使用Attention的编码器,构造基于多态蠕虫有效载荷和特征码上下文的表示,该编码器中,定义区间[x,y]为特征提取窗口的取值范围,从窗口值中反映出模型对蠕虫有效载荷中关键特征信息的关注程度;
4)提取多态蠕虫特征码:
基于DNN的多态蠕虫特征码自动提取算法,找到一个特征码b'∈Y使得:
利用多态蠕虫有效载荷的特点,在提取特征码时,我们提出一种新的方法——Signature Beam Search算法,用于求解argmax函数;
4.1)使用Signature Beam Search算法求解argmax函数时,采用全局搜索的方式来提取多态蠕虫特征码,在搜索的过程中通过判断预测的ASCII码和前一个已预测的ASCII码在多态蠕虫有效载荷中的位置是否相邻,来选择合适的ASCII码;
4.2)在提取多态蠕虫特征码时,限制特征码中的每个位置有K个候选项,在输出预测的特征码之前,通过对候选的K个特征码的对数概率值进行排序,从而选择出最优的特征码。
所述的步骤3)中:
在编码多态蠕虫有效载荷时,Attention选择固定长度的蠕虫有效载荷上下文进行学习,具体的公式描述如下:
公式中:
表示特征码上下文嵌入矩阵;
表示权重矩阵;
表示有效载荷的嵌入矩阵;
Q是注意力窗口的大小;
定义区间[x,y]为特征提取窗口取值范围,当窗口值小于x或者窗口值大于y时,模型无法学习到有效的特征。
所述的步骤4)中:
Signature beam Search算法描述如下:
上述算法中:
b_i1_index表示预测的ASCII码bi+1在有效载荷数据中的索引;
b_i_index表示预测ASCII码bi在有效载荷数据中的索引;
‘257’代表特征之间的分隔符;
bpredict={b1,b2,…,bV}表示在特征码中第i+1处预测的V个ASCII码。
本发明创造的有益效果为:本发明不需要人工分析蠕虫有效载荷,通过上述方法可以自动从蠕虫有效载荷和蠕虫特征码中进行学习,使用DNN能够从训练数据中学习到更复杂的特征,从而快速且准确地进行蠕虫特征码自动化提取。
附图说明
图1:步骤3)中深度神经网络语言模型。
具体实施方式
一种基于DNN的多态蠕虫特征码自动提取方法,步骤为:
1)模型结构:
1.1)定义:
输入为a1,a2,…,aM组成M个ASCII码的序列,这些ASCII码组成大小为|V|=V的词典V;
序列b1,b2,…,bN表示特征码;
集合X表示所有的有效载荷数据,集合Y为所有可能出现的特征码;
1.2)将多态蠕虫有效载荷a作为输入,并输出长度为N<M的特征码b,已知评分函数找到最佳的特征码b'∈Y使得:
根据蠕虫有效载荷的特征码的条件对数概率,评分函数s(a,b)可表示为:s(a,b)=log p(b|a;θ)≈∑p(b|a,bc;θ);其中,表示窗口大小为C的特征码上下文,在bc上做Markov假设,当i<1时,bi为特定的开始符号<s>;通过评分函数可知,对局部条件概率分布建模:p(bi+1|a,bc;θ);采用神经网络机器翻译的做法,将条件概率分布参数化为一个神经网络,其包括一个神经网络语言模型和一个作为条件特征码生成模型的编码器。
2)建立深度神经网络模型:基于标准的前馈神经网络语言模型,构建包含4个隐藏层的深度神经网络模型,对于隐藏层的激活函数,我们选择使用ReLU,该函数的优点在于:在反向传播中,可以缓解梯度消失问题;也可以加快神经网络模型的收敛速度。完整的DNN网络模型为:
p(bi+1|bc,a;θ)∝exp(Vh””+W*enc(a,bc)) (2)
h”=relu(U'h') (5)
h”'=relu(U”h”) (6)
h””=relu(U”'h”') (7)
在上述公式中:
enc表示基于Attention编码器,返回一个大小为H的向量,表示多态蠕虫有效载荷和对应特征码的上下文;
参数θ=(E,U,U',U”,U”',V,W),是特征码的ASCII码嵌入矩阵;
表示权重矩阵;
D表示ASCII码嵌入的大小;
V表示蠕虫有效载荷组成的字典的大小;
H表示隐藏层中隐藏单元的数量;
C表示特征码中上下文大小;
图1为深度神经网络语言模型的示意图。其中,a表示多态蠕虫有效载荷,b表示对应的特征码。
3)Attention的编码器:
特征码是多态蠕虫有效载荷的关键信息,它们是由多个连续子字符串组合而成的。因此并不需要全局地考虑整个文本,只需要关注有限数量的字符构成的上下文即可,这样更能捕获到多态蠕虫有效载荷中的关键信息。为了解决这个问题,选择使用基于Attention的编码器,其能构造基于多态蠕虫有效载荷和特征码上下文的表示。在编码多态蠕虫有效载荷时,Attention选择固定长度的蠕虫有效载荷上下文进行学习。具体的公式描述如下:
上述公式中:
表示特征码上下文嵌入矩阵;
表示权重矩阵;
表示有效载荷的嵌入矩阵;
Q是注意力窗口的大小。
定义:区间[x,y]是特征提取窗口取值范围。当窗口值小于x或者窗口值大于y时,模型无法学习到有效的特征。
在该编码器中,窗口值能够反映出模型对蠕虫有效载荷中关键特征信息的关注程度。通过研究发现,只有当窗口值在一个固定区间[x,y]内时,模型才能够从蠕虫有效载荷中学习到其中的特征信息。如果窗口值小于x或者窗口值大于y时,模型无法关注到蠕虫有效载荷中的特征信息。因此,我们定义这个窗口区间为特征提取窗口区间。
4)提取多态蠕虫特征码:
对于多态蠕虫特征码的提取问题,基于DNN的多态蠕虫特征码自动提取算法需要找到一个特征码b'∈Y使得:
在机器翻译中生成译文是NP问题(Non-deterministic Polynomial,多项式复杂程度的非确定性问题),但是在提取多态蠕虫特征码时b'的计算代价并不大。在多态蠕虫特征码提取中,有效载荷数据集合所构成的字典V由256个ASCII所组成的;对于多态蠕虫有效载荷来说,其特征码在蠕虫有效载荷数据出现的位置是有序并且依次出现的。也就是说,只有当提取出来的特征码依次出现时,该特征码才是有效的。利用多态蠕虫有效载荷的上述特点,在提取特征码时,提出一种新的方法——Signature Beam Search算法,用于求解argmax函数。
在使用Signature Beam Search算法求解argmax函数时,采用全局搜索的方式来提取多态蠕虫特征码,在搜索的过程中通过判断预测的ASCII码和前一个已预测的ASCII码在多态蠕虫有效载荷中的位置是否相邻来选择合适的ASCII码。在提取多态蠕虫特征码时,限制特征码中的每个位置有K个候选项,在输出预测的特征码之前,通过对候选的K个特征码的对数概率值进行排序,从而选择出最优的特征码。Signature Beam Search算法的最大时间复杂度为O(KNV)。Signature beam Search算法描述如下:
上述算法中:
b_i1_index表示预测的ASCII码bi+1在有效载荷数据中的索引;
b_i_index表示预测ASCII码bi在有效载荷数据中的索引;
‘257’代表特征之间的分隔符;
bpredict={b1,b2,…,bV}表示在特征码中第i+1处预测的V个ASCII码。

Claims (3)

1.基于DNN的多态蠕虫特征码自动提取方法,其特征在于,步骤如下:
1)模型结构:
1.1)定义:
输入为a1,a2,…,aM组成M个ASCII码的序列,这些ASCII码组成大小为|V|=V的词典V;
序列b1,b2,…,bN表示特征码;
集合X表示所有的有效载荷数据,集合Y为所有可能出现的特征码;
1.2)将多态蠕虫有效载荷a作为输入,并输出长度为N<M的特征码b,已知评分函数找到最佳的特征码b'∈Y使得:
根据蠕虫有效载荷的特征码的条件对数概率,评分函数s(a,b)可表示为:s(a,b)=logp(b|a;θ)≈∑p(b|a,bc;θ);其中,表示窗口大小为C的特征码上下文,在bc上做Markov假设,当i<1时,bi为特定的开始符号<s>;通过评分函数可知,对局部条件概率分布建模:p(bi+1|a,bc;θ);采用神经网络机器翻译的做法,将条件概率分布参数化为一个神经网络,其包括一个神经网络语言模型和一个作为条件特征码生成模型的编码器;
2)建立深度神经网络模型:基于标准的前馈神经网络语言模型,构建包含4个隐藏层的深度神经网络模型,对于隐藏层的激活函数,选择使用ReLU;完整的DNN网络模型为:
p(bi+1|bc,a;θ)∝exp(Vh””+W*enc(a,bc)) (2)
h”=relu(U'h') (5)
h”'=relu(U”h”) (6)
h””=relu(U”'h”') (7)
在上述公式中:
enc表示基于Attention编码器,返回一个大小为H的向量,表示多态蠕虫有效载荷和对应特征码的上下文;
参数θ=(E,U,U',U”,U”',V,W),是特征码的ASCII码嵌入矩阵;
表示权重矩阵;
D表示ASCII码嵌入的大小;
V表示蠕虫有效载荷组成的字典的大小;
H表示隐藏层中隐藏单元的数量;
C表示特征码中上下文大小;
3)Attention的编码器:
使用Attention的编码器,构造基于多态蠕虫有效载荷和特征码上下文的表示,该编码器中,定义区间[x,y]为特征提取窗口取值范围,从窗口值中反映出模型对蠕虫有效载荷中关键特征信息的关注程度;
4)提取多态蠕虫特征码:
基于DNN的多态蠕虫特征码自动提取算法,找到一个特征码b'∈Y使得:
利用多态蠕虫有效载荷的特点,在提取特征码时,采用Signature Beam Search算法,用于求解argmax函数;
4.1)使用Signature Beam Search算法求解argmax函数时,采用全局搜索的方式来提取多态蠕虫特征码,在搜索的过程中通过判断预测的ASCII码和前一个已预测的ASCII码在多态蠕虫有效载荷中的位置是否相邻,来选择合适的ASCII码;
4.2)在提取多态蠕虫特征码时,限制特征码中的每个位置有K个候选项,在输出预测的特征码之前,通过对候选的K个特征码的对数概率值进行排序,从而选择出最优的特征码。
2.根据权利要求1所述的基于DNN的多态蠕虫特征码自动提取方法,其特征在于:所述的步骤3)中:
在编码多态蠕虫有效载荷时,Attention选择固定长度的蠕虫有效载荷上下文进行学习,具体的公式描述如下:
公式中:
表示特征码上下文嵌入矩阵;
表示权重矩阵;
表示有效载荷的嵌入矩阵;
Q是注意力窗口的大小;
定义区间[x,y]为特征提取窗口的取值范围,当窗口值小于x或者窗口值大于y时,模型无法学习到有效的特征。
3.根据权利要求1所述的基于DNN的多态蠕虫特征码自动提取方法,其特征在于:所述的步骤4)中:
Signature beam Search算法描述如下:
上述算法中:
b_i1_index表示预测的ASCII码bi+1在有效载荷数据中的索引;
b_i_index表示预测ASCII码bi在有效载荷数据中的索引;
‘257’代表特征之间的分隔符;
bpredict={b1,b2,…,bV}表示在特征码中第i+1处预测的V个ASCII码。
CN201811031199.9A 2018-09-05 2018-09-05 基于dnn的多态蠕虫特征码自动提取方法 Active CN109190703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811031199.9A CN109190703B (zh) 2018-09-05 2018-09-05 基于dnn的多态蠕虫特征码自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811031199.9A CN109190703B (zh) 2018-09-05 2018-09-05 基于dnn的多态蠕虫特征码自动提取方法

Publications (2)

Publication Number Publication Date
CN109190703A true CN109190703A (zh) 2019-01-11
CN109190703B CN109190703B (zh) 2021-08-24

Family

ID=64914728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811031199.9A Active CN109190703B (zh) 2018-09-05 2018-09-05 基于dnn的多态蠕虫特征码自动提取方法

Country Status (1)

Country Link
CN (1) CN109190703B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125703A (zh) * 2019-12-24 2020-05-08 沈阳航空航天大学 一种基于幂级数rnn的多态网络蠕虫特征码提取
US20200151623A1 (en) * 2018-11-14 2020-05-14 Tencent America LLC N- best softmax smoothing for minimum bayes risk training of attention based sequence-to-sequence models

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103501302A (zh) * 2013-10-12 2014-01-08 沈阳航空航天大学 一种蠕虫特征自动提取的方法及系统
CN105247532A (zh) * 2013-03-18 2016-01-13 纽约市哥伦比亚大学理事会 使用硬件特征的无监督的基于异常的恶意软件检测
US20170323101A1 (en) * 2014-09-30 2017-11-09 Juniper Networks, Inc. Dynamically optimizing performance of a security appliance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105247532A (zh) * 2013-03-18 2016-01-13 纽约市哥伦比亚大学理事会 使用硬件特征的无监督的基于异常的恶意软件检测
CN103501302A (zh) * 2013-10-12 2014-01-08 沈阳航空航天大学 一种蠕虫特征自动提取的方法及系统
US20170323101A1 (en) * 2014-09-30 2017-11-09 Juniper Networks, Inc. Dynamically optimizing performance of a security appliance

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEXANDER M. RUSH ET AL.: "A Neural Attention Model for Abstractive Sentence Summarization", 《COMPUTER SCIENCE》 *
TAWFEEQ S. BARHOOM ET.AL: "Adaptive Worm Detection Model Based on Multi Classifiers", 《2013 PALESTINIAN INTERNATIONAL CONFERENCE ON INFORMATION AND COMMUNICATION TECHNOLOGY》 *
雷家怡: "基于神经网络的程序行为恶意性判定原型系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200151623A1 (en) * 2018-11-14 2020-05-14 Tencent America LLC N- best softmax smoothing for minimum bayes risk training of attention based sequence-to-sequence models
US11551136B2 (en) * 2018-11-14 2023-01-10 Tencent America LLC N-best softmax smoothing for minimum bayes risk training of attention based sequence-to-sequence models
US11803618B2 (en) * 2018-11-14 2023-10-31 Tencent America LLC N-best softmax smoothing for minimum bayes risk training of attention based sequence-to-sequence models
CN111125703A (zh) * 2019-12-24 2020-05-08 沈阳航空航天大学 一种基于幂级数rnn的多态网络蠕虫特征码提取

Also Published As

Publication number Publication date
CN109190703B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
Santos et al. Boosting named entity recognition with neural character embeddings
Li et al. When are tree structures necessary for deep learning of representations?
CN109948152A (zh) 一种基于lstm的中文文本语法纠错模型方法
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN107836000A (zh) 用于语言建模和预测的改进的人工神经网络
CN107680580A (zh) 文本转换模型训练方法和装置、文本转换方法和装置
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN109753661B (zh) 一种机器阅读理解方法、装置、设备及存储介质
CN110263147B (zh) 推送信息的生成方法及装置
CN111708878B (zh) 一种体育文本摘要提取方法、装置、存储介质及设备
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110457714B (zh) 一种基于时序主题模型的自然语言生成方法
CN111078834B (zh) 基于深度森林的文本对象推荐方法
CN114818891A (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN114372465A (zh) 基于Mixup和BQRNN的法律命名实体识别方法
CN110083824A (zh) 一种基于多模型组合神经网络的老挝语分词方法
Puscasiu et al. Automated image captioning
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN109190703A (zh) 基于dnn的多态蠕虫特征码自动提取方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN112015903B (zh) 题目判重方法、装置、存储介质、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant