CN113515742A

CN113515742A - 基于行为语义融合萃取的物联网恶意代码检测方法

Info

Publication number: CN113515742A
Application number: CN202010282572.9A
Authority: CN
Inventors: 王娟娟; 刘伟伟
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-04-12
Filing date: 2020-04-12
Publication date: 2021-10-19
Anticipated expiration: 2040-04-12
Also published as: CN113515742B

Abstract

本发明公开了一种基于行为语义融合萃取的物联网恶意代码检测方法，包括以下步骤：利用静态分析，对elf格式的良性与恶性代码进行反汇编，选取最合适的代码段，并提取出该段落包含的操作码；清洗样本数据，并将其融合成一个语料库和带有词频的字典，使用语料库训练word2vec的CBOW模型，采用MEOI‑TFIDF算法以及MT‑TextRank算法提取关键词，送入到训练好的word2vec模型里，生成词向量；使用基于注意力机制的TextCNN网络进行特征训练与分类，根据结果进行调参优化。本发明能准确识别物联网软件的二分类，并提高了样本分类的准确性。

Description

基于行为语义融合萃取的物联网恶意代码检测方法

技术领域

本发明涉及信息安全技术领域，尤其是一种基于行为语义融合萃取的物联网恶意代码检测方法。

背景技术

随着信息化和通讯技术的发展，数字化经济催生的物联网系统迅猛发展，近年来物联网设备呈指数型增长，据分析公司Gartner统计指出，2020年全球物联网将超过260 亿部，5年后该数字将达到750亿部，其应用将遍布各行各业，设计生产生活的方方面面，智能家居、智慧城市、智慧医疗、智慧交通、智慧金融等将惠及大众，而恶意攻击也无时无刻的存在网络设备之间。

恶意代码分类识别也一直是互联网行业研究的重要课题，然而随着恶意代码识别技术的提高，网络攻击者所开发的恶意程序也趋向于复杂、隐秘，为了躲避安全防护工具的审查，恶意代码通常会经过变形以及混淆等手段不断形成新的变种，经典的恶意代码检测方法如特征码扫描、查找广谱特征、基于逆向工程反汇编和启发式扫描的检测技术在性能和效率上已无法应对当前恶意代码的巨大挑战。

2015年Kaggle针对恶意代码分类发起了竞赛，之后几年国内大部分的恶意代码分类都是基于该平台发布的已经汇编处理过得数据，方法也都大同小异，将二进制数据转换为灰度图，或者是n-gram直接处理操作码序列以及使用词频提取特征的方法，在检测准确度上也没有太大的突破。物联网恶意代码却层出不穷，形态各异，对ELF格式的恶意代码检测更是稀少，通过对ELF格式样本的静态分析，充分利用样本信息，提取样本中最具代表性的操作码，排除冗余操作码，同时也考虑操作码之间的关联性，结合深度学习，提升恶意代码检测的时效性，准确性至关重要。

发明内容

本发明的目的在于提供一种基于行为语义融合萃取的物联网恶意代码检测方法，弥补恶意应用检测中特征提取的不足，排除不必要的冗余代码，并融合词之间的关联性得到关键词，以及深度学习的效率问题。

实现本发明目的的技术解决方案为：一种基于行为语义融合萃取的物联网恶意代码检测方法，包括：

对恶意代码软件与elf格式的良性软件进行反汇编；

提取汇编代码中代码段包含的关键词；

将关键词样本转换为矩阵，使用卷积神经网络进行特征训练、分类。

与现有技术相比，其显著优点在于：(1)本发明全面考虑了操作码对于单个样本与样本集的重要性来进行关键词的提取；(2)本发明中根据提取出的特征矩阵设计的卷积神经网络本身计算量很少，同时训练过程可以利用GPU并行计算来实现，提升了计算效率；(3)本发明与当前主流方法相比，物联网恶意代码检测准确率更高，检测效率更快。

附图说明

图1是基于行为语义融合萃取的物联网恶意代码检测方法流程图。

图2是基于行为语义融合萃取关键词提取的流程图。

图3是MT-TextRank算法的流程图。

图4是特征向量化的流程图。

具体实施方式

如图1所示，本发明的一种基于行为语义融合萃取的物联网恶意代码检测方法，包括如下步骤：

对恶意代码软件与elf格式的良性软件的进行反汇编；

提取汇编代码中代码段包含的关键词；

将关键词样本转换为矩阵，使用卷积神经网络进行特征训练，分类，最终可准确识别物联网恶意应用。

进一步的，所述恶意代码软件与elf格式的良性软件，是从VirusTotal hreatIntelligence网站爬取的恶意样本与各种官方物联网应用程序中提取的良性样本。

进一步的，提取汇编代码中代码段包含的关键词，具体包括：

截取反汇编后的样本中的代码段；

提取代码段包含的所有操作码；

对操作码样本进行数据清洗，删除所有的标点符号以及undefined；

针对清洗后的样本，使用行为语义融合萃取的方法，提取关键词；其中使用行为语义融合萃取的方法提取关键词，具体步骤如下：

基于MEOI-TFIDF算法的关键词提取，即将TF-IDF与平均信息熵相结合计算单个样本中操作码的权重，公式为：

其中

对于特征项c，n_c为单个样本中的词频，S_c为同一类样本中的词频数，

N为样本总数，N_c为包含特征项c的样本数，f_ck表示词c在文档k中出现的频次；对权重W进行倒叙排序，从而得到最重要的M个操作码，作为单个样本的关键词。

基于MT-TextRank算法的关键词提取，公式为：

其中，W为上面计算的操作码的权重，In(V_i) 表示操作码V_i的所有入链的集合，即指向V_i的顶点集合，Out(V_j)表示操作码V_j的出度点集合，即V_j所指向的顶点集合，d是指阻尼系数，取值为0.85，w_ji是指操作码V_i和 V_j之间的边权重，表示两个操作码之间关系。对权重W(V_i)进行倒叙排序，从而得到最重要的N个操作码，作为单个样本的关键词。

所述的清洗后的数据样本，构建成一个自定义语料库，用来训练word2vec的CBOW模型。将上述M个关键词和N个关键词融合为一个样本的特征，通过训练好的word2vec 模型，转换成K*(M+N)维的词向量，其中K为词向量维度，M+N为特征数。

根据特征参数设计基于TextCNN的分类模型，包括卷积神经网络的输入维度，卷积核的大小，卷积核的个数，池化层的大小，池化层的个数，全连接层的大小，全连接层的个数，输出层的维度。特征参数包括每个样本特征的长度M+N，需要分类样本有几类，以及特征维度。

将词向量送入分类模型中，训练并验证该分类模型的准确率。

本发明还提供一种基于行为语义融合萃取的物联网恶意代码检测系统，包括样本收集模块、特征提取模块、特征向量化模块、分类模块；

收集样本模块是收集验证本发明所述方法是否可行的数据，主要包括良性代码与恶意代码；

特征提取模块包含对elf格式样本的进行反汇编得到汇编代码、清洗数据，删除无意义的词以及标点符号得到操作码样本、根据上述样本得到操作码语料库与按照词频排序的字典、根据MEOI-TFIDF算法以及MT-TextRank算法获得样本包含的关键词；

特征向量化模块包括应用上述样本构成的语料库，训练word2vec的CBOW模型，并将样本关键词送入该模型，得到特征矩阵；

分类模块指根据特征参数特点设计卷积神经网络结构，进行特征训练，分类。

下面结合附图和具体实施对本发明作进一步详细描述。

实施例

如图1所示，一种基于行为语义融合萃取的物联网恶意代码检测方法，包括：

爬取样本，并对ELF格式样本的进行反汇编得到汇编代码；

清洗数据，删除无意义的词以及标点符号得到操作码样本；

根据上述样本得到操作码语料库与按照词频排序的字典；

根据MEOI-TFIDF算法以及MT-TextRank算法获得样本的关键词；

应用上述样本构成的语料库，训练word2vec的CBOW模型，并将每个的样本关键词送入该模型，得到特征矩阵；

根据特征矩阵特点设计卷积神经网络结构，进行特征训练，分类。

如图2所示，是ELF文件的行为语义融合萃取的特征提取的过程。首先使用objdump相关命令对ELF文件进行反汇编，静态分析反汇编文件，提取文件中属于代码段的段落，并将该段落的所有操作码提取，构成操作码样本，对该样本进行数据清洗，删除数据中所有的字符标点，以及无意义的字符串；其次统计样本的操作码词频，以及将样本生成语料库用来训练word2vec的CBOW模型，同时，根据MEOI-TFIDF算法，公式为：

计算得到词权重，其中n_c表示单个样本中词c出现的次数，S_c表示所有样本词c出现的总数，N表示样本总数，N_c表示包含词c的样本数量，以及通过公式:

计算词语权重，f_ck表示词c在文档k中出现的频次，将W₁*W₂排序得到TopM作为关键词输出；根据MI-TextRank算法，具体计算流程如图 3所示，公式为：

计算每个词的权重并进行排序，选取TopN作为关键词输出，其中W为上面计算的操作码的权重，In(V_i)表示操作码V_i的所有入链的集合，即指向V_i的顶点集合，Out(V_j)表示操作码V_j的出度点集合，即V_j所指向的顶点集合，d是指阻尼系数，取值为0.85，w_ji是指操作码V_i和V_j之间的边权重，表示两个操作码之间关系；M+N就是提取的样本的关键词。

如图4所示，是特征转化向量过程。首先，使用原始操作码融合生成的语料库，训练Word2vec的CBOW模型，训练的最终目的是输入 w(t-n),w(t-n+1),w(t+1),...,w(t+n-1),w(t+n)时，输出期望的词向量w(t)，即可得到样本中出现的每个操作码的词向量；其次，将如图2中生成的关键词构成的固定数目固定顺序的词序列样本，对应文本上计算出的词向量组合成矩阵，之后打乱样本，测试集与训练集2:8的比例，训练卷积神经网络并验证结果。

Claims

1.一种基于行为语义融合萃取的物联网恶意代码检测方法，其特征在于，包括：

对恶意代码软件与elf格式的良性软件进行反汇编；

提取汇编代码中代码段包含的关键词；

2.根据权利要求1所述的基于行为语义融合萃取的物联网恶意代码检测方法，其特征在于，所述的恶意代码软件与elf格式的良性软件，是从VirusTotal hreat Intelligence网站爬取的恶意样本与物联网应用程序中提取的良性样本。

3.根据权利要求1或2所述的基于行为语义融合萃取的物联网恶意代码检测方法，其特征在于，所述的提取汇编代码中代码段包含的关键词，具体步骤如下：

截取反汇编后的样本中的代码段；

提取代码段包含的所有操作码；

针对清洗后的样本，使用行为语义融合萃取的方法，提取关键词。

4.根据权利要求3所述的基于行为语义融合萃取的物联网恶意代码检测方法，其特征在于，所述的行为语义融合萃取方法包括以下步骤：

其中

N为样本总数，N_c为包含特征项c的样本数，f_ck表示词c在文档k中出现的频次；对权重W进行倒叙排序，得到最重要的M个操作码，作为单个样本的关键词；

基于MT-TextRank算法的关键词提取，公式为：

其中，W为操作码的权重，In(V_i)表示操作码V_i的所有入链的集合，Out(V_j)表示操作码V_j的出度点集合，d为指阻尼系数，w_ji是指操作码V_i和V_j之间的边权重，表示两个操作码之间关系；对权重W(V_i)进行倒叙排序，从而得到最重要的N个操作码，作为单个样本的关键词；

将清洗后的数据样本，构建成一个自定义语料库，用来训练word2vec的CBOW模型；将上述M个关键词和N个关键词融合为一个样本的特征，通过训练好的word2vec模型，转换成K*(M+N)维的词向量，其中K为词向量维度，M+N为特征数。

5.根据权利要求4所述的基于行为语义融合萃取的物联网恶意代码检测方法，其特征在于，根据特征参数设计基于TextCNN的分类模型，模型包括卷积神经网络的输入维度，卷积核的大小，卷积核的个数，池化层的大小，池化层的个数，全连接层的大小，全连接层的个数，输出层的维度。

6.根据权利要求5所述的基于行为语义融合萃取的物联网恶意代码检测方法，其特征在于，特征参数包括每个样本特征的长度、需要分类样本类别数，以及特征维度。

7.根据权利要求5所述的基于行为语义融合萃取的物联网恶意代码检测方法，其特征在于，将词向量送入分类模型中，训练并验证该分类模型的准确率。