CN114510721A

CN114510721A - 一种基于特征融合的静态恶意代码分类方法

Info

Publication number: CN114510721A
Application number: CN202210151968.9A
Authority: CN
Inventors: 徐丽; 黄若文; 申林山; 付小晶; 江粤; 张新玉
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-17

Abstract

一种基于特征融合的静态恶意代码分类方法，它属于静态恶意代码特征提取和融合领域。本发明解决了传统静态恶意代码检测和分类方法仅考虑了单一维度特征的问题。本发明将hash值转换成像素矩阵生成灰度图像，再提取图像纹理全局特征和局部特征，并将全局特征和局部特征融合，在获取恶意代码图像全局特征信息的前提条件下突出局部特点。基于控制流程图的n‑gram方法对操作码进行特征提取，这种方法的检测颗粒度较小，与控制流程图相结合会得到代码上下文之间的关联，从而将操作码转换成特征向量形式。将两种特征向量融合成一个向量，弥补了在单一层面提取特征的局限性。本发明方法可以应用于对静态恶意代码进行分类。

Description

一种基于特征融合的静态恶意代码分类方法

技术领域

本发明属于静态恶意代码特征提取和融合领域，具体涉及一种基于特征融合的静态恶意代码分类方法。

背景技术

随着信息和通信技术的发展使人们可以随时随地从网络上获取信息，提高了工作的效率，也使得日常生活更加方便。但是信息泄露、勒索软件等各种网络攻击也在不断增加，这些网络攻击大多是由恶意代码引起的。由于计算机技术的发展，恶意软件变得越来越复杂，黑客在网页上、软件等植入恶意软件，或者黑客入侵工业设备，给工控网络造成瘫痪，这样给用户、企业甚至国家层面造成巨额的损失。

传统的静态恶意代码检测主要是从被测软件的源程序或者二进制码进行扫描(例如字节码、字符串等)，从语法、语义的层面理解程序的行为，从而获取程序在运行过程中的信息。机器学习在恶意代码检测上的应用也受到了广泛的关注，越来越多的学者使用机器学习的方法对恶意软件进行检测和分类。有的学者通过提取操作码序列特征，之后在操作码特征上使用逻辑回归、人工神经网络、朴素贝叶斯、决策树、随机森林和支持向量机等机器学习方法来进行预测和分类。有的学者将恶意代码反编译成编译文件，通过编译文件转换成灰度图像，从而提取灰度图像的纹理特征，将特征向量放在机器学习模型进行训练，也达到了一定的预测和分类效果。

综上所述，虽然传统的静态恶意代码检测和分类方法已经取得了一定的成就，但是传统的静态恶意代码检测和分类方法仅考虑了操作码序列特征或者图像纹理特征，即仅考虑了单一维度的特征，导致传统静态恶意代码检测和分类方法的检测和分类效果仍然有限，检测和分类效果有待进一步提高。

发明内容

本发明的目的是为解决传统的静态恶意代码检测和分类方法仅考虑了单一维度特征的问题，而提出了一种基于特征融合的静态恶意代码分类方法。

本发明为解决上述技术问题所采取的技术方案是：一种基于特征融合的静态恶意代码分类方法，所述方法具体包括以下步骤：

步骤一、对静态恶意代码二进制文件进行反编译，再从反编译结果中提取出操作码序列；

步骤二、对提取出的操作码序列进行预处理后，再计算预处理后的操作码序列中每位操作码的哈希值，根据计算出的哈希值获得操作码序列对应的SimHash值序列；

步骤三、根据操作码序列对应的SimHash值序列生成灰度图；

步骤四、采用SIFT算法提取灰度图的局部纹理特征，采用GIST算法提取灰度图的全局纹理特征；

再对灰度图的局部纹理特征和灰度图的全局纹理特征进行融合，将融合结果作为灰度图的纹理特征；

步骤五、利用IDA Pro从静态恶意代码二进制文件中得到函数的调用关系，再将得到的函数调用关系利用控制流程图的逻辑关系表示；

再根据控制流程图从静态恶意代码二进制文件中提取操作码，提取的操作码组成操作码序列；

步骤六、设置滑动窗口长度，将滑动窗口在步骤五提取的操作码序列上滑动，得到步骤五中提取出的操作码序列的各个操作码子序列，将各个操作码子序列组成的子序列集合记为S；

再根据子序列集合S提取出静态恶意代码二进制文件的操作码特征；

步骤七、将步骤四获得的灰度图纹理特征和步骤六获得的操作码特征进行融合，将融合结果作为静态恶意代码二进制文件的特征；

将获得的静态恶意代码二进制文件的特征和静态恶意代码二进制文件所属的类别作为机器学习模型的训练数据集；

再利用训练好的机器学习模型对待分类的静态恶意代码二进制文件的类别进行检测。

进一步地，所述步骤一的具体过程为：

采用反编译工具IDA Pro对静态恶意代码二进制文件进行反编译，生成asm编译文件；再利用正则表达式分别从asm编译文件的每行中提取操作码，提取出的全部操作码顺序排列形成操作码序列。

进一步地，所述步骤二的具体过程为：

步骤二一、对操作码序列进行预处理

若操作码序列中某一位操作码的值为1，则将1与该位操作码的权值相加，将相加结果作为预处理后操作码序列中该位操作码的值，否则，若操作码序列中某一位操作码的值为0，则将0与该位操作码的权值相减，将相减结果作为预处理后操作码序列中该位操作码的值；

对操作码序列中的每一位操作码分别进行处理后，获得预处理后的操作码序列；

步骤二二、分别计算出预处理后的操作码序列中每位操作码的哈希值；

步骤二三、对于预处理后的操作码序列中的第n位操作码，若第n位操作码的哈希值中1的数量大于0的数量，则将第n位操作码的SimHash值置为1，否则将第n位操作码的SimHash值置为0；

将预处理后的操作码序列中各位操作码的SimHash值进行顺序排列，则预处理后的操作码序列被编码成SimHash值序列。

进一步地，所述步骤二二中，分别计算出预处理后的操作码序列中每位操作码的hash值，采用的是MD5方法。

进一步地，所述步骤三的具体过程为：

将操作码序列对应的SimHash值序列中的每个SimHash值分别转换为一个像素值，即若SimHash值为0，则像素值为0，若SimHash值为1，则像素值为255，再将像素值排列成矩阵，生成操作码序列对应的灰度图像。

进一步地，所述步骤四中，采用SIFT算法提取灰度图的局部纹理特征，其具体过程为：

步骤1、利用密集SIFT检测器提取灰度图的关键点特征；

步骤2、利用密集SIFT描述符来分别计算以每个关键点为中心的矩形区域内的128维局部纹理特征向量；

步骤3、通过字典学习，在字典中分别找到与每个关键点的局部纹理特征向量最接近的视觉特征，再将每个关键点的局部纹理特征向量分配给与其最接近的视觉特征；

对于字典中的某个视觉特征来说，分配给该视觉特征的全部关键点的局部纹理特征向量组成一个簇，作为该视觉特征对应的簇；

步骤4、对于一个簇，计算出该簇的中心后，再分别计算出该簇中的每个局部纹理特征向量与簇中心的欧式距离；

各个簇均遍历完成后，将计算出的每个局部纹理特征向量与簇中心的欧式距离作为提取出的局部纹理特征。

进一步地，所述步骤四中，采用GIST算法提取灰度图的全局纹理特征，其具体过程为：

步骤1)、通过不同比例和位置的过滤器对灰度图进行过滤，将灰度图分成N个块；

步骤2)、分别计算出每个块中像素值的平均值；

步骤3)、根据步骤2)的计算结果获得灰度图的全局纹理特征。

更进一步地，所述对灰度图的局部纹理特征和灰度图的全局纹理特征进行融合，其具体为：

CSGM_FD＝wDSIFT_MFD+(1-w)GIST_MFD

其中，DSIFT_MFD为灰度图的局部纹理特征，GIST_MFD为灰度图的全局纹理特征，w表示加权参数。

本发明的有益效果是：

本发明将传统二进制转换成灰度图，通过SimHash使相似内容的散列值具有可比性，即相似的内容将具有相似的哈希值，来解决Hash算法冲突几率非常低的问题。将hash值转换成像素矩阵生成灰度图像，利用GiST算法提取图像纹理全局特征，利用SiFT算法提取图像纹理局部特征，将全局特征和局部特征融合，在获取恶意代码图像全局特征信息的前提条件下突出局部特点，这样才会更好地表现出恶意代码的家族特征，会更有区分性。基于控制流程图的n-gram方法对操作码进行特征提取，这种方法的检测颗粒度较小，与控制流程图相结合会得到代码上下文之间的关联，从而将操作码转换成特征向量形式。将两种特征向量融合成一个向量，弥补了在单一层面提取特征的局限性。

本发明通过两种层面特征的提取并融合成一个特征，提高了在机器学习模型和深度学习模型上检测和分类的准确率。

附图说明

图1为本发明的一种基于特征融合的静态恶意代码分类方法的流程图；

图2为根据像素值的平均值获得全局纹理特征的示意图。

具体实施方式

具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于特征融合的静态恶意代码分类方法，所述方法具体包括以下步骤：

步骤三、根据操作码序列对应的SimHash值序列生成灰度图；

在对待分类的静态恶意代码进行分类时，首先采用滑动窗口(此处的滑动窗口长度大于步骤六中设置的窗口长度)截取待分类的静态恶意代码的操作码序列，再采用步骤六中设置的滑动窗口将每个截取出的操作码序列分为若干个子序列，若某个子序列在集合S中(集合S可以通过对现有已知类别的静态恶意代码二进制文件进行处理获得)，则该子序列对应的值为1，否则该子序列对应的值为0，对于截取出的某个操作码序列来说，该操作码序列的各个子序列对应的值顺序排列得到该操作码序列的特征向量，同理，得到截取出的各个操作码序列的特征向量。再采用步骤一至步骤四的方法得到待分类的静态恶意代码的纹理特征。将得到的操作码序列的特征向量和纹理特征进行融合，将融合结果输入训练好的机器学习模型，通过训练好的机器学习模型输出待分类的静态恶意代码的类别。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤一的具体过程为：

操作码按照在asm编译文件中出现的先后顺序进行排列，得到操作码序列。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤二的具体过程为：

步骤二一、对操作码序列进行预处理

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤二二中，分别计算出预处理后的操作码序列中每位操作码的hash值，采用的是MD5方法。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤三的具体过程为：

因为存在着不同恶意代码家族所产生的灰度图像尺寸差异的问题，所以采用双线性插值算法对图像进行压缩，最终生成8×8大小的图像。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤四中，采用SIFT算法提取灰度图的局部纹理特征，其具体过程为：

步骤1、利用密集SIFT检测器提取灰度图的关键点特征；

局部纹理特征向量根据二值图像、尺寸调整参数、密集SIFT描述符的大小和关键点周围的矩形区域确定；

步骤3、通过字典学习，在字典中分别找到与每个关键点的局部纹理特征向量最接近的视觉特征(即对于一个关键点的局部特征向量来说，分别计算出该关键点的局部特征向量与字典中每个视觉特征的欧式距离后，得到与该关键点的局部特征向量欧氏距离最小的视觉特征，作为最接近的视觉特征)，再将每个关键点的局部纹理特征向量分配给与其最接近的视觉特征；

局部纹理特征用于描述图像的边缘和角点。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述步骤四中，采用GIST算法提取灰度图的全局纹理特征，其具体过程为：

步骤2)、分别计算出每个块中像素值的平均值；

步骤3)、根据步骤2)的计算结果获得灰度图的全局纹理特征。

根据每个块中像素值的平均值获得全局纹理特征的示意图如图2所示。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述对灰度图的局部纹理特征和灰度图的全局纹理特征进行融合，其具体为：

CSGM_FD＝wDSIFT_MFD+(1-w)GIST_MFD

其它步骤及参数与具体实施方式一至七之一相同。

本发明为了提高恶意代码静态特征在机器学习或者深度学习模型检测的效果，并解决了在单个维度中提取操作码或者图像纹理特征的局限性。在提取图像纹理特征过程中，提出一种Simhash处理编译文件转换成灰度图像的方法，生成灰度图像后通过GIST算法和SIFT算法提取全局和局部图像纹理特征，并将全局和局部图像特征进行融合。在提取的操作码特征中，先将恶意代码利用控制流程图的顺序反编译得到操作码，再采用N-gram算法获得操作码特征。其次，由于恶意代码的灰度图像特征和操作码特征，分别体现了全局和局部同类型恶意代码的差异，提出了一个可以综合考察全局与局部特性的特征融合方式。将图像特征和操作码指令特征进行融合的方法。在判断操作码序列的相似性时，传统的Hash算法可以确保冲突，但是确保冲突几率非常低。即使对于两个相似的输入，散列输出也会大不相同。然而，SimHash的目的是使这些散列值具有可比性，即相似的内容将具有相似的哈希值。而在操作码提取时用基于控制流程图的n-gram方法对操作码进行特征提取，这种方法的检测颗粒度较小，与控制流程图相结合会得到代码上下文之间的关联，可以将操作码转换成特征向量形式。本发明提出了一种基于灰度图像特征提取和操作码特征提取融合的方法，弥补了在不同层面提取特征的局限性，提高了在机器学习模型和深度学习模型上检测的准确率。

下面结合附图对本发明作进一步详细描述。

图1为本发明所述的基于灰度图像特征提取和操作码特征提取融合的示意图。该方法的具体实施方式包括：

步骤1：使用反编译工具IDAPro对恶意代码家族数据进行反编译，批量生成asm编译文件，从asm文件中提取Opcode序列。经过察验，asm文件中操作码都是存在以“text”开头的代码段中，利用正则表达式来提取每行的恶意代码操作码序列。这样提取出来的序列是完整的，包括了操作码和操作数的指令。

步骤2：使用Simhash算法来计算操作码序列的hash值。用MD5来计算每个操作码的hash值，并把每个序列编码成64位SimHash值。根据序列中每一位为1还是0,来加上还是减去该操作码的权值，得到新的序列。接下来判断新的序列第n位为1的哈希值的数量是否大于第n位为0的哈希值的数量，大于的话则置为1，否则置为0。这样每个序列就被编码成64位的SimHash值。

步骤3：将处理过的每个SimHash转换为一个像素值。如果比特位为0，那么像素值为0，如果比特位为1，那么像素值为255，之后将n个像素点排列成矩阵，生成灰度图像。

步骤4：通过GIST算法提取灰度图像全局特征，SIFT算法提取灰度图像局部特征，并将全局特征和局部特征结合。

步骤4.1：首先利用SIFT提取恶意软件灰度图像的局部特征，描述图像的边缘和角点。在第一阶段，借助密集SIFT检测器从密集网格中提取恶意软件图像的关键特征。在第二阶段，选择密集的SIFT描述符来计算矩形区域的128维局部特征向量，其中每个关键特征由公式DSIFT_FV＝f_dsift(M_I，R_s，S_size，B_bounds)所示的函数表示。其中M_I表示维度为D_h*D_w的二值图像，R_s表示尺寸调整参数，S_size表示密集SIFT描述符的大小，B_bounds表示二值图像每个关键点周围的矩形区域。第三阶段，DSIFT_FV用K-means技术进行聚类，这个过程称为字典学习。如公式Dictionary_L＝f_kmeans(DSIFT_FV，D_size)所示。这里的D_size代表是字典的大小。最后，DSIFT_FV分配给字典中最接近的视觉特征，这个过程称为描述符量化。每个量化的描述符就会以直方图的形式来表示，直方图出现的值在0至1尺度之间变化，然后通过计算DSIFT_FV和Dictionary_L之间的最小欧几里德距离，如公式DSIFT_MFD＝f_histogram(DSIFT_FV，Dictionary_L)所示。

步骤4.2：通过使用GIST计算恶意软件灰度图像的全局特征，其得到图像的纹理和空间布局。通过GIST描述恶意软件图像分为三个阶段。在GIST的第一和第二阶段，恶意软件图像通过不同比例和位置的过滤器过滤，然后将其分成N个块。第三阶段，用GIST计算每个块的平均值，如公式GIST_MFD＝f_gist(M_I，[R_s，N_b，B_overtap，F_n，N_sq])所示。其中M_I表示维度为D_h*D_w的恶意软件图像，R_s表示尺寸调整参数，N_b表示将恶意软件图像分成水平和垂直位置的标准块大小，B_overtap表示重叠参数，用于分离重叠或非重叠块中的二值图像，F_n表示用于过滤二值图像的多个过滤器，N_sq表示统计量的数量，即在计算特征描述时使用的平均值和偏差，N_sq根据每个块的平均值获得。最后，将基于BOF的稠密SIFT与GIST组合，得到的混合的CSGM特征维数。CSGM特征如公式CSGM_FD＝wDSIFT_MFD+(1-w)GIST_MFD所示。这里，w表示加权参数，其值取决于恶意软件分类中的特征值。

步骤5：使用IDA Pro将恶意代码程序反编译准换成编译程序。由于恶意代码通常由结构体、类、循环、条件判断等组成，所以在函数调用之间存在着一些联系。通过IDA Pro来查看函数的调用关系。这种函数调用关系可以用控制流程图的逻辑关系所表示，来表达一个过程或者程序的抽象表现。根据控制流程图的顺序来提取其对应的操作码，例如可以提取到这组操作码：{push，mov，push，call，add，mov，xor，pop}。

步骤6：提取到上一步的操作码并将滑动窗口长度n设为3，我们会得到一个操作码子序列集合{(push，mov，push)，(mov，push，call)，(push，call，add)，(call，add，mov)，(add，mov，xor)，(mov，xor，pop)}。每一个二进制文件都可以生成这样的子序列集合，将所有的子序列(v1,v2,v3…,vn)组成在一起变成一个子序列集合(S)。如果这个子序列v在集合S中，那么将其设置为1，否则设置为0，最终会得到一个只包含0,1的特征向量。

步骤7：提取到的灰度图像纹理特征和n-gram的Opcode操作码特征进行融合，将两个特征向量通过合并函数融合成一个特征向量，并将融合的特征向量数据集用于训练模型中。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于特征融合的静态恶意代码分类方法，其特征在于，所述方法具体包括以下步骤：

步骤三、根据操作码序列对应的SimHash值序列生成灰度图；

2.根据权利要求1所述的一种基于特征融合的静态恶意代码分类方法，其特征在于，所述步骤一的具体过程为：

3.根据权利要求2所述的一种基于特征融合的静态恶意代码分类方法，其特征在于，所述步骤二的具体过程为：

步骤二一、对操作码序列进行预处理

4.根据权利要求3所述的一种基于特征融合的静态恶意代码分类方法，其特征在于，所述步骤二二中，分别计算出预处理后的操作码序列中每位操作码的hash值，采用的是MD5方法。

5.根据权利要求4所述的一种基于特征融合的静态恶意代码分类方法，其特征在于，所述步骤三的具体过程为：

6.根据权利要求5所述的一种基于特征融合的静态恶意代码分类方法，其特征在于，所述步骤四中，采用SIFT算法提取灰度图的局部纹理特征，其具体过程为：

步骤1、利用密集SIFT检测器提取灰度图的关键点特征；

7.根据权利要求6所述的一种基于特征融合的静态恶意代码分类方法，其特征在于，所述步骤四中，采用GIST算法提取灰度图的全局纹理特征，其具体过程为：

步骤2)、分别计算出每个块中像素值的平均值；

步骤3)、根据步骤2)的计算结果获得灰度图的全局纹理特征。

8.根据权利要求7所述的一种基于特征融合的静态恶意代码分类方法，其特征在于，所述对灰度图的局部纹理特征和灰度图的全局纹理特征进行融合，其具体为：

CSGM_FD＝wDSIFT_MFD+(1-w)GIST_MFD