CN113282926B

CN113282926B - 一种基于三通道图像的恶意软件分类方法

Info

Publication number: CN113282926B
Application number: CN202110569369.4A
Authority: CN
Inventors: 徐洋; 杨春雨; 张思聪; 李小剑
Original assignee: Guizhou Education University
Current assignee: Guizhou Education University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-11-09
Anticipated expiration: 2041-05-25
Also published as: CN113282926A

Abstract

本发明公开了一种基于三通道图像的恶意软件分类方法，包括以下步骤：（1）提取样本的字节流；（2）提取字节流的Bigram序列；（3）提取样本的反编译Lst文件并提取Lst文件的字节流。（4）将样本字节流、标准化后的Bigram序列、Lst字节流转化成三种灰度图像；（5）使用加载了ImageNet权重的EfficientNetB0微调模型对恶意软件三通道图像数据训练和测试。本发明使用三种类型灰度图像合成三通道彩色图像，增加特征的有效性，同时采用微调的方式将ImageNet图片领域的分类权重用于本发明的模型的微调，通过微调不仅增加了模型训练的收敛速度，同时提高了测试准确率，减少调参、海量数据收集以及训练的时间开销。

Description

一种基于三通道图像的恶意软件分类方法

技术领域

本发明涉及网络空间安全中的系统安全领域，具体涉及一种基于三通道图像的恶意软件分类方法。

背景技术

针对传统恶意软件分类采用单通道图像分类准确率不高、抗混淆能力弱的缺点，我们对恶意软件图像表示方法做一定的改进，将恶意软件、Bigram、Lst三种文件的灰度图像组合成三通道彩色图像进行分类，三通道彩色图像相比单通道图像包含更多信息。并使用微调的EfficientNetB0模型对恶意软件的图像进行分类，微调使用的权重有ImageNet和Noisy Student两种权重。本发明提出的架构具有准确率高，收敛快，参数量少的特点。

随着GPU并行计算的发展，深度学习已经被广泛应用于恶意软件分类领域。L.Nataraj，S.Karthikeyan，G.Jacob，B.S.Manjunath首先提出了使用Bin2Pixel算法将恶意软件转化成灰度图像，通过恶意软件独特的纹理提取其Gist特征，并使用KNN对灰度图像的Gist纹理特征进行分类。Mingxing Tan,Quoc V.Le提出了一种EfficientNetB0深度卷积神经网络结构，该网络在ImageNet上取得最高的84.4％的准确率，根据深度和宽度以及分辨率的不同可以将该模型分为EfficientNetB0～B7版本。Qizhe Xie,Minh-Thang Luong,Eduard Hovy,Quoc V.Le提出了Noisy Student Training训练方式对模型进行训练,然后通过增大EfficientNetB7模型结构对ImageNet分类进一步达到了88.4％的准确率，但是模型过于庞大，时间开销太长，不适宜落地应用，通过这种方式能够得到EfficientNetB0～B7版本对应的Noisy Student权重。本发明所提出的架构的关键部分是使用三种灰度图像合成三通道彩色图像，并对EfficientNetB0采用微调方式进行训练。微调是迁移学习实现的一种手段，通过微调能够运用相似领域的知识到新的领域中并提高模型对新领域的学习能力。所提出的架构的另一关键是将ImageNet图像分类领域的知识迁移到本发明的恶意软件数据集上来，实现的具体方式是在EfficientNetB0模型中加载ImageNet权重。

发明内容

本发明的目的在于提供一种基于三通道图像的恶意软件分类方法，使用三种恶意软件灰度图像合成恶意软件三通道彩色图像，将EfficientNetB0模型用于恶意软件三通道图像分类，并采用微调的方式提高模型的训练速度和测试准确率。本发明充分考虑了单通道图像对于恶意软件分类的限制，提出使用三种类型灰度图像合成三通道彩色图像，增加特征的有效性，同时采用微调的方式将ImageNet图片领域的分类权重用于本发明的模型的微调，通过微调不仅增加了模型训练的收敛速度，同时提高了测试准确率，减少调参、海量数据收集以及训练的时间开销。设计出的efficientnet0-imagenetfusion能够达到最高97.22％的分类准确率，分类效果不仅高于单通道图像和Noisy Student微调的准确率，且相比较预训练收敛速度大幅加快。

本发明的技术方案是：

一种基于三通道图像的恶意软件分类方法，通过三种恶意软件灰度图像合成恶意软件的三通道彩色图像，并将EfficientNetB0模型使用ImageNet权重进行微调用于恶意软件三通道彩色图像训练和测试，设置训练Epoch为20，包括以下步骤：

步骤1、提取样本的字节流；

步骤2、提取字节流的Bigram序列；

步骤3、提取样本的反编译Lst文件并提取Lst文件的字节流；

步骤4、将样本字节流、标准化后的Bigram序列、Lst字节流转化成三种灰度图像，并生成恶意软件的三通道彩色图像；

步骤5、使用EfficientNetB0微调模型对恶意软件三通道图像训练和测试。

具体地：步骤1、将目标样本以二进制形式打开，获得恶意软件样本的二进制流，再将二进制流八位为一个字节转化为字节流。

步骤2、将N-gram算法的N值设置为2，提取样本字节流的Bigram序列，并将Bigram标准化到[0,255]范围内；标准化公式如下：X是一个样本的Bigram特征，首先分别使用(1)式、(2)式找出X的最小值min和最大值max，再使用(3)式计算出系数k，最后通过(4)式将X标准化后取整，使其范围落到[0,255]。

min＝find_min(X) (1)

max＝find_max(X)(2)

X_new＝k×(X-min) (4)

步骤3、使用IDA_Pro工具提取样本的反编译Lst文件，Lst文件比传统的Asm文件包含了更多的信息，该文件的内容包含了每一行汇编代码的段信息；再用步骤1的方式将反编译文件转化成字节流。

步骤4、使用Bin2Pixel算法将恶意软件，Lst文件的字节流以及标准化过后的Bigram序列转化成灰度图像，该算法伪代码如下，并将三种文件的灰度图像合并成三通道彩色图像。

步骤5、修改EfficientNetB0的全连接层输出为20，然后使用该模型加载不含全连接层的ImageNet权重，并在恶意软件三通道图像上进行训练和测试。

本发明具有以下特点：

1、本发明对传统的单通道恶意软件图像做改进和创新，使用三种不同类型的灰度图像合成三通道彩色图像，使恶意软件的图像包含多种类型的特征，提高模型对恶意软件图像的学习性能。

2、对EfficientNetB0模型做改造，使其能够应用于本发明的恶意软件数据集，并加载在海量数据上训练得来的ImageNet权重到模型中，使模型能够运用基于海量数据学习到的“知识”。

3、本发明改进了恶意软件灰度图像的表示方式，使恶意软件图像具有更多的信息量，能够提高模型的鲁棒性。并通过微调的训练方式迁移了已有领域的知识从而加快了训练的收敛，并提高最后的分类准确率，大幅降低调参、收集数据产生的开销。

附图说明

图1是恶意软件Lst文件内容图。

图2是Virustotal恶意软件数据集恶意软件分布图。

图3是本发明使用的网络结构图。

图4是恶意软件的灰度图像。

图5是Lst文件的灰度图像。

图6是Bigram特征的灰度图像。

图7是恶意软件三通道彩色图。

图8是三种训练方式下准确率最高的模型的训练准确率对比图。

图9是三种训练方式下准确率最高的模型的训练损失对比图。

图10是三种训练方式下准确率最高的模型对20种恶意软件家族分类的精确率。

图11是三种训练方式下准确率最高的模型对20种恶意软件家族分类的召回率。

图12是三种训练方式下准确率最高的模型对20种恶意软件家族分类的F1-score。

具体实施方式

下面通过附图和实施例对本发明作进一步描述。

一种基于三通道图像的恶意软件分类方法，通过三种灰度图像合成恶意软件的三通道彩色图像，使用Virustotal恶意软件数据集中的20种恶意软件家族的16439个样本进行分类，恶意软件的数量分布如图2所示，并将EfficientNetB0模型进行微调用于恶意软件三通道彩色图像训练和测试。包括以下步骤：

步骤1、提取样本的字节流；

步骤2、提取字节流的Bigram序列；

步骤3、提取样本的反编译Lst文件并提取Lst文件的字节流；

具体地：

步骤1、将目标样本以二进制形式打开，获得恶意软件样本的二进制流，再将二进制流八位为一个字节转化为字节流。

步骤2、将N-gram算法的N值设置为2，提取样本字节流的Bigram序列，并将Bigram标准化到[0,255]范围内。标准化公式如下。X是一个样本的Bigram特征，首先分别使用(1)、(2)找出X的最小值min和最大值max，再使用(3)计算出系数k，最后通过(4)将X标准化后取整，使其范围落到[0,255]。

min＝find_min(X) (1)

max＝find_max(X) (2)

X_new＝k×(X-min) (4)

步骤3、使用IDA_Pro工具提取样本的反编译Lst文件，Lst文件比传统的Asm文件包含了更多的信息，该文件的内容如图1所示，包含了每一行汇编代码的段信息。再用步骤1的方式将反编译文件转化成字节流。

步骤4、使用Bin2Pixel算法将恶意软件，Lst文件的字节流以及标准化过后的Bigram序列转化成灰度图像，该算法伪代码如下。三种文件的灰度图像如图4、图5、图6所示，并将三种灰度图像合并成三通道彩色图像，合成彩色图像效果如图7所示；

本发明使用的结构取自EfficientNetB0结构，该网络结构如图3所示。该网络结构的图像输入分辨率为224×224×3，输出为20维，表示样本属于二十种恶意软件的概率。该网络由大量的MBConv模块组成。表1中是预训练在各个数据集上的分类准确率和各项指标，表1中EfficientNetB0对Lst图像的分类准确率达到最高的94.36％。表2中是ImageNet微调在各个数据集上的分类准确率和各项指标，表2中EfficientNetB0对三通道图像的分类准确率达到最高的97.22％。表3中是Noisy Student微调在各个数据集上的分类准确率和各项指标，表3中EfficientNetB3对三通道图像的分类准确率达到最高的97.20％。ImageNet微调对四种特征分类的平均准确率相比较预训练分别提高了4.37％、3.02％、19.33％(Bigram提升最高)、5.46％。Noisy Student微调对四种特征的平均分类准确率相比较预训练分别提高了4.51％、3.09％、19.61％(Bigram提升最高)、5.42％，在前三种特征下的平均准确率增幅大于ImageNet微调的增幅。在ImageNet微调采用EfficientNetB0模型的情况下达到了最高的97.22％的准确率。

从图8和图9是预训练、ImageNet微调、Noisy Student微调三种训练方式下测试准确率最好的模型和对应的数据集的训练过程。可以看出微调曲线在3个Epoch后都趋于平滑，而预训练则至少在5个Epoch后曲线才趋于平滑。

通过表1、表2、表3可知三种训练方式下最好的三种模型是ef ficientnet0-lst、efficientnet0-imagenetfusion、efficientnet3-studentfusion，这三个模型在Lst、Fusion、Fusion数据集上分别达到了94.36％、97.22％、97.20％的准确率。

图10、11、12是这三种模型的Precision，Recall，F1-score对比。可以看出在每一种指标下，微调的曲线都位于预训练曲线的上方，微调对大多数恶意软件家族分类的效果均优于预训练条件下的分类效果。预训练的efficientnet0-lst精确率和召回率达到100％的家族数分别是6个和4个。微调的efficientnet0-imagenetfusion精确率和召回率达到100％的家族数都有7个。efficientnet3-stude ntfusion分别是5个和7个，但是该模型的参数量大于efficientn et0-imagenetfusion。efficientnet0-imagenetfusion和efficien tnet3-studentfusion微调模型的训练时间分别是1628s和3248s，两者对比，efficientnet0-imagenetfusion节省了将近一半的时间。所以，efficientnet0-imagenetfusion模型效果最好。可见，微调能够很好的利用已有的图像分类“知识”，使模型快速适应新的图像数据集，达到最佳效果。

表1：

表2：

表3：

本发明在改进恶意软件图像表达方式的同时，采用微调方式迁移ImageNet图像分类领域的知识，加快模型收敛的速度，并提高分类的测试准确率，大幅节省调参和收集海量数据的开销。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，任何未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于三通道图像的恶意软件分类方法，其特征在于：使用三种恶意软件灰度图像合成三通道彩色图像，将EfficientNetB0微调模型用于恶意软件三通道图像训练和测试，包括以下步骤：

步骤1、提取样本的字节流；

步骤2、提取字节流的Bigram序列；

步骤3、提取样本的反编译Lst文件并提取Lst文件的字节流；

2.如权利要求1所述的一种基于三通道图像的恶意软件分类方法，其特征在于：具体步骤为：

步骤1、将目标样本以二进制形式打开，获得恶意软件样本的二进制流，再将二进制流八位为一个字节转化为字节流；

步骤2、将N-gram算法的N值设置为2，提取样本字节流的Bigram序列，并将Bigram标准化到[0,255]范围内；标准化公式如下：X是一个样本的Bigram特征，首先分别使用（1）式、（2）式找出X的最小值min和最大值max，再使用（3）式计算出系数k，最后通过（4）式将X标准化后取整，使其范围落到[0,255]；

步骤3、使用IDA_Pro工具提取样本的反编译Lst文件，Lst文件比传统的Asm文件包含了更多的信息，该文件的内容包含了每一行汇编代码的段信息；再用步骤1的方式将反编译文件转化成字节流；

步骤4、将恶意软件， Lst文件的字节流以及标准化过后的Bigram序列转化成灰度图像，将三种文件的灰度图像合并成三通道彩色图像；