CN115935360A

CN115935360A - 一种基于信息增益和共现矩阵的恶意代码可视化方法

Info

Publication number: CN115935360A
Application number: CN202310012222.4A
Authority: CN
Inventors: 彭海朋; 尹成睿
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-07

Abstract

本发明公开了一种基于信息增益和共现矩阵的恶意代码可视化方法，首先基于信息增益筛选低维的操作码特征，然后基于共现矩阵生成可视化图像用于分类，将操作码序列转换成图像，通过共现矩阵使相似内容具有可比性，即相似的内容将具有相似的操作码词频共现频率，根据信息增益提取出能够有效区分不同家族的操作码，这样才会更好地表现出恶意代码的家族特征，会更有区分性。同时挖掘了操作码词频信息，在共现潜在语义信息基础上，剔除了文本冗余的词频信息，对词频特征项进行筛选和充分运用，进一步分析恶意代码家族的相关性，进而提升了分类效果和检测效率。

Description

一种基于信息增益和共现矩阵的恶意代码可视化方法

技术领域

本发明涉及恶意代码分析技术领域，尤其涉及一种基于信息增益和共现矩阵的恶意代码可视化方法。

背景技术

恶意软件是指任何对计算机和网络存在着潜在危害的计算机软件。目前，恶意代码的数量和变体逐年增加，并且制作技术发展迅速，对全球网络环境安全带来巨大威胁。

尽管恶意代码衍生了大量变体，但同类恶意家族代码中的核心具有相似性与传承性。这种变体会导致基于签名的检测方法失效，但将恶意代码可视化为图像不会从本质上改变图像纹理及结构特征，该方式能有效对抗恶意代码混淆。与人工提取特征向量相比，恶意代码图像包含丰富、几乎全部的恶意代码信息。无论是通过图像结构、纹理与颜色分析(局部特征和全局特征提取)，还是通过深度学习算法自动学习图像特征，恶意代码可视化都能最大程度上减少混淆技术带来的影响。

恶意代码可视化方法包括可视化为灰度图像和可视化为彩色图像。目前，将恶意代码可视化为灰度图像是检测恶意代码的主流方法，以下对常见的灰度可视化方法进行具体介绍。

Nataraj矢量化是利用恶意的二进制文件进行编码，然后将原来的二进制序列分割为8比特的子序列。因为每一个恶意代码家族都含有不同的攻击类型，造成可视化图像有大小的差异，因此通过固定图像宽度，将恶意代码可视化为长条状的灰度图像，Nataraj矢量化的思路和B2M的思路是一致的，它已经在恶意代码的检测中得到了广泛的使用。Han等在Nataraj向量化的基础上加入熵图，并通过熵图来进一步判定其相似性，并对其进行了改进和完善。

在2015年黑帽大会上，Davis等人将十六进制的反编译文件转化成4-bit的二进制并填充到64bit，其中每位二进制乘以255，对应像素灰度值0或255。通过该方法，可以把一个恶意代码变成一个仅包含0到255像素的灰度图，图像每一行矢量都对应一条机器码。蒋永康等还对编码长度、编码量等因素的选取作了深入探讨，并给出具体的深度学习模型。

Ni等提出一种MCSC方法，将操作码序列和LSH相结合，获取汇编指令中的操作码序列，并使用SimHash与双线性插值法将操作码序列转换为恶意代码图像；因为恶意代码变体通过该方式可视化的图像在某些区域存在相似的指纹，所以通过图像处理技术识别同类恶意代码变体具有可行性。

乔延臣等人利用编译程序指令词向量对恶意程序进行可视化，该算法首先获取到编译程序，把指令当作词，函数看作句子，从而把恶意代码文件转换为文档，然后对文档使用Word2Vec算法获取汇编指令词向量，统计训练集中Top100的汇编指令，据此将每个文档转换为矩阵，最后归一化矩阵得到可视化的灰度图像。

相比恶意代码灰度图像，将恶意代码可视化为彩色图像既保留了灰度主要特征，又强调了二进制文件中重复出现的数据片段，使得同类恶意家族的彩色图像具有相似的纹理、颜色与结构特征。如王博等将恶意代码二进制序列分割成RGB三通道值，从而将恶意代码可视化为彩色图像，由于并不是每个恶意代码的比特位都是24比特的整数倍，所以不足24比特的用1补足，但是，该方法的不足之处在于模型过于复杂，且参数量大、训练效率不高。

综上所述，虽然现有的静态恶意代码检测和分类方法已经取得了一定的成就，然而目前的恶意代码可视化方案还存在特征冗余以及时间成本高的弊端，且基于二进制文件灰度图受到样本大小的影响，不同的样本可视化图像尺寸不同，这也给后续的分类带来了不便。

发明内容

本发明针对现有的恶意代码可视化方法存在特征冗余以及时间成本高的问题，目的是提出一种基于信息增益和共现矩阵的恶意代码可视化方法，提高模型的检测效率。

为了实现上述目的，本发明提供如下技术方案：

本发明提供一种基于信息增益和共现矩阵的恶意代码可视化方法，包括以下步骤：

S1、对静态恶意代码二进制文件进行反编译获取汇编文件，再从汇编文件中提取出每个样本的操作码序列，统计得到全部样本的操作码序列集；

S2、对每个样本按照全部样本的操作码序列集进行词频统计，再结合样本的类别，计算出的每个操作码的信息增益；对计算出的信息增益进行降序排列，筛选出前32个操作码子集作为特征；根据提取的操作码子集对步骤S1提取的每个样本操作码序列进行筛选，若当前操作码在子集内，则保留，否则删去，得到筛选后的操作码序列；

S3、设置滑动窗口长度，将滑动窗口在每个样本筛选后的操作码序列上滑动，统计相邻两个操作码的序列对，将各个操作码的序列对组成集合，再根据序列对集合生成每个样本的共现矩阵；所有样本处理结束形成共现矩阵集；

S4、对共现矩阵集的每个矩阵进行MaxAbs标准化和像素映射预处理，将预处理完的共现矩阵保存为单通道图像，图像尺寸为(32，32)；

S5、将获得的可视化图像以及所属的类别作为深度学习模型的训练数据集，再利用训练好的深度学习模型对恶意代码样本进行检测。

进一步地，步骤S1的具体过程为：

S11、采用反编译工具IDA Pro对静态恶意代码二进制文件进行反编译，生成ASM编译文件；

S12、利用正则表达式分别从每个ASM编译文件样本的每行中提取操作码；

S13、提取出样本的全部操作码，并按顺序排列形成每个样本操作码序列s＝{mov,pub,add,…}；

S14、提取出全部样本的操作码序列，形成样本操作码序列集S＝{s₁,s₂,…s_n}，n为样本数量。

进一步地，步骤S2的具体过程为：

S21、将所有的操作码序列提取的操作码词典作为特征，然后分别计算出每个样本操作码序列中的操作码词频，将操作码词频作为特征取值；

S22、分别计算出操作码词典中每个操作码词频的信息增益；

S23、将处理后的结果按信息熵的大小进行降序排列，筛选出前32个操作码作为特征词典M＝{a₁,a₂,…,a₃₂}，a_i为操作码；

S24、遍历操作码序列集S的每一个序列S_i，若S_ij∈M，则保留，否则删去，S_ij代表第i个样本的第j个操作码。

进一步地，步骤S22操作码的信息增益的计算过程如下：

(1)设训练集为D，其中|D表示为样本集容量，即样本个数，设有K个类C_k,k＝1,2,…,K，|C_k|为属于类C_k的样本个数，

计算数据集D的经验熵H(D)：

(2)设某一个操作码特征A有n个不同的取值{a₁,a₂,…,a_n}，根据A的取值将D划分为n个子集D₁，D₂，…，D_n，|D_i|为D_i的样本个数，

记子集D_i中属于类C_k的样本的集合为D_ik，即D_ik＝D_i∩C_k，|D_ik|为样本D_ik的个数，计算操作码特征A对数据集D的经验条件熵H(D|A)：

(3)计算信息增益：

g(D,A)＝H(D)-H(D|A)

按照上述方法逐步计算每个操作码的信息增益。

进一步地，步骤S3的具体过程为：

S31、设定滑动窗口为2，对操作码序列样本遍历，假设开始窗口状态为[push，mov]，此时中心词为push，因此push和mov共现，在矩阵中push为行、mov为列的位置加1，同时行为mov、列为push的位置也加1；

S32、将窗口向后移动一个词，假设此时状态还是为[add，mov]，中心词为add，因此在行为add、列为mov的位置加1，同时行为mov、列为add的位置也加1；

S33、重复操作，直到遍历结束，每个样本形成共现矩阵C_i，所有样本处理结束形成共现矩阵集C。

进一步地，步骤S4的MaxAbs标准化公式为：

通过除以每个特征的最大值将训练数据特征缩放至[0,1]范围内。

进一步地，步骤S4的像素映射公式为：

p_(i,j)＝X_norm(i,j)×255

其中，X_norm(i,j)表示对共现矩阵集C的每个矩阵进行MaxAbs标准化后的结果，如X_norm(i,j)为0，则像素值为0，若X_norm(i,j)值为1，则像素值为255。

与现有技术相比，本发明的有益效果为：

本发明提出的基于信息增益和共现矩阵的恶意代码可视化方法，首先基于信息增益筛选低维的操作码特征，然后基于共现矩阵生成可视化图像用于分类，将操作码序列转换成图像，通过共现矩阵使相似内容具有可比性，即相似的内容将具有相似的操作码词频共现频率，根据信息增益提取出能够有效区分不同家族的操作码，这样才会更好地表现出恶意代码的家族特征，会更有区分性。同时挖掘了操作码词频信息，在共现潜在语义信息基础上，剔除了文本冗余的词频信息，对词频特征项进行筛选和充分运用，进一步分析恶意代码家族的相关性，进而提升了分类效果和检测效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于信息增益和共现矩阵的恶意代码可视化方法流程图。

图2为本发明实施例提供的根据共现矩阵生成可视化图像的示意图。

图3为本发明实施例提供的在transformer-VIT的分类模型下训练集精度。

图4为本发明实施例提供的方法在微软数据集上训练的混淆矩阵效果。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实例仅仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的基于信息增益和共现矩阵的恶意代码可视化方法，整体流程如图1所示，包括以下步骤：

S1、恶意代码样本反编译获取汇编文件：对静态恶意代码二进制文件进行反编译获取汇编文件，再从汇编文件中提取出每个样本的操作码序列，统计得到全部样本的操作码序列集。

步骤S1的具体过程为：

S2、根据每个操作码的信息增益提取特征：对每个样本按照全部样本的操作码序列集进行词频统计，再结合样本的类别，计算出的每个操作码的信息增益；对计算出的信息增益进行降序排列，筛选出前32个操作码子集作为特征；根据提取的操作码子集对步骤S1提取的每个样本操作码序列进行筛选，若当前操作码在子集内，则保留，否则删去，得到筛选后的操作码序列。

步骤S2的具体过程为：

S21、将所有的操作码序列提取的操作码词典{mov,pub,add,…}作为特征，然后分别计算出每个样本操作码序列中的操作码词频，将操作码词频作为特征取值，如{102,12,0,…,67}；

S22、分别计算出操作码词典中每个操作码词频的信息增益；

信息增益的计算过程如下：

(1)设训练集为D，其中|D|表示为样本集容量，即样本个数，设有K个类C_k,k＝1,2,…,K，|C_k|为属于类C_k的样本个数，

计算数据集D的经验熵H(D)：

(3)计算信息增益：

g(D,A)＝H(D)-H(D|A)

按照上述方法逐步计算每个操作码的信息增益。

S3、根据特征生成共现矩阵：设置滑动窗口长度，将滑动窗口在每个样本筛选后的操作码序列上滑动，统计相邻两个操作码的序列对，将各个操作码的序列对组成集合，再根据序列对集合生成每个样本的共现矩阵；所有样本处理结束形成共现矩阵集。

根据特征词典M构建每个样本的共现矩阵，其大小为：(32，32)。其横竖分别对应特征词典M中的每个操作码，例如矩阵第3行第5列的数值即代表特征词第3个与特征词第5个同时出现的次数，同时它的值也等于该矩阵第5行第3列的值。步骤S3的具体过程为：

S4、共现矩阵可视化：对共现矩阵集的每个矩阵进行MaxAbs标准化和像素映射预处理，将预处理完的共现矩阵保存为单通道图像，图像尺寸为(32，32)。

MaxAbs标准化公式为：

像素映射公式为：

p_(i,j)＝X_norm(i,j)×255

其中，X_norm(i,j)表示对共现矩阵集C的每个矩阵进行MaxAbs标准化后的结果，使用归一化处理后的结果乘255，映射到图像[0,255]像素值，即如X_norm(i,j)为0，则像素值为0，若X_norm(i,j)值为1，则像素值为255。再将共现矩阵对应的单通道图像。

构建该模型以及对词频进行归一化处理，有利于消除特征项出现频次大小的影响，统一量化，减小实验的误差，并且利于处理和后续模型的构建。

S5、深度学习模型用于分类检测：将获得的可视化图像以及所属的类别作为深度学习模型的训练数据集，再利用训练好的深度学习模型对恶意代码样本进行检测。

检测使用的数据集是kaggle恶意代码分类竞赛Microsoft MalwareClassification Challenge(BIG 2015)提供的数据集，该数据集中的恶意代码由微软提供，该数据集提供的恶意代码训练集总共有10896，每个恶意代码均包含恶意代码的二进制文件和反编译ASM文件，同时官方指出提供的恶意代码数据中不包含编译环境、文件信息、编译PE头数据，恶意代码数据是使用IDA反编译工具生成的。该数据集共计由9个不同的恶意代码家族，分别是Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY、Gatak。本发明将数据集分成两部分，其中80％作为训练集，剩余的20％作为模型验证集。具体的数量分布如表1所示。

表1

分类检测结果如图2所示，不同家族之间具有明显的区分度，也证实这种特征提取方法的有效性。并且在transformer-VIT的分类模型下，本发明的训练集精度达到了99.8％，验证集精度在97％，在训练集的训练结果如图3所示，可知模型在微软2015数据集上已经取得了较好的分类效果。本发明方法在微软数据集上训练的混淆矩阵效果如图4所示。本模型在kelihos_ver3和Gatak家族上达到了100％的精度，在Ramnit、Lollipop和Vundo家族上达到了99％的精度，取得了较好的分类效果。

综上，本发明通过生成低维度的恶意代码可视化图像，提高了在深度学习模型上检测和分类的准确率。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。