CN111651762A

CN111651762A - 一种基于卷积神经网络的pe恶意软件检测方法

Info

Publication number: CN111651762A
Application number: CN202010317111.0A
Authority: CN
Inventors: 韩科; 池灏; 金韬
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-09-11

Abstract

本发明公开了一种基于卷积神经网络的PE恶意软件检测方法，通过引入深度可分离卷积结构、空洞卷积、知识蒸馏等方法在保证准确率的前提下大幅提高恶意软件检测速率。本发明使用一个基于PE软件结构分析的模块，来判定PE软件中可以进行字节填充以生成对抗样本的部分，使得能够在PE软件中间填充字节生成对抗样本；接着通过半黑盒攻击的快速梯度下降算法产生对抗样本所需的迭代次数对样本集的平均来评估模型鲁棒性。最后本发明还可提供逻辑配对和权重参数非负训练两种方法来提升模型的鲁棒性，使得模型在保持较高检测准确率的前提下对对抗样本有一定的抵御能力。

Description

一种基于卷积神经网络的PE恶意软件检测方法

技术领域

本发明属于网络安全领域，涉及深度学习和恶意软件检测的交叉领域，尤其涉及一种基于卷积神经网络的PE恶意软件检测方法，着重于该领域内模型检测鲁棒性的评估和改进的方法与相应模块设计。

背景技术

随着深度学习在图像方面大放异彩，越来越多的行业希望借由深度学习技术为本领域赋能，网络安全正是其中之一。深度学习在原先机器学习的基础上，通过多层神经网络自动提取特征，免去了人工设计特征的步骤，同时能够更加充分的利用原始数据，对于大部分恶意软件的简单变种有着较好的检测效果。因此，网络安全界的研究人员做出了不少研究，Rezende,E.Ruppert,G.Carvalho,et al(2017).Malicious Software ClassificationUsing Transfer Learning of ResNet-50 Deep Neural Network.将恶意软件机器码转化为二维灰度图的形式,并使用迁移学习的方法直接将训练好的ResNet-50在恶意软件样本集上进行训练。国内瀚思科技也使用inception-V4网络结构和更轻量级的SqueezeNet进行类似的训练，并构建对应的恶意软件检测系统。这些研究是比较早期的借鉴图像领域的方法。存在的问题是图像分类领域和恶意软件分类领域本身是有较大差别的，使用图像模型预训练的权重下，有一定可能导致优化器难以将损失函数优化到一个比较好的位置。另一个方面的问题是，恶意软件的二进制代码从形式上来说更接近于自然语言文本的一维结构而并非图像的二维结构。将其做二维化可能会引入额外的结构信息。

为了解决上述的两个问题，在Raff,Edward&Barker,Jon&Sylvester,Jared&Brandon,Robert&Catanzaro,Bryan&Nicholas,Charles.(2017).Malware Detection byEating a Whole EXE.提出了一维度的基于门控卷积神经网络的模型Malconv来对恶意软件进行分类。该模型有着比较高的检测精确度，但是其计算复杂度比较高。尽管其在附录中提到使用更小的卷积核和更多的层数的类ResNet模型效果并没有Malconv好，但这个问题可以通过知识蒸馏的方式使得采用精简结构的神经网络也保持有近似的准确率和更高的检测效率。

基于深度学习的恶意软件检测方法虽然不需要人工设计特征，但原始数据的高维度和基于梯度的优化方法却带来了其他的麻烦。即深度学习的模型非常容易受到对抗样本的攻击。对抗样本是通过将模型参数固定，通过反向梯度传播去更新样本来生成的。对于图像而言即是改变像素点的RGB值，对于恶意软件检测，是在不影响恶意软件功能的前提下，对可改变的二进制字节进行填充或是修改。Kolosnjaji,Bojan&Demontis,Ambra&Biggio,Battista&Maiorca,Davide&Giacinto,Giorgio&Eckert,Claudia&Roli,Fabio.(2018).Adversarial Mal-ware Binaries:Evading Deep Learning for Malware Detection inExecutables.给出了一种在PE恶意软件末端添加额外字节(Overlay)来使得恶意样本骗过深度学习检测模型。其另外提到了可以在PE软件中添加字节段(Section)，但未给出具体的实现方法。同时其对模型的鲁棒性评估方式没有给出一个很好地解决方案。

一种基于深度学习的恶意软件检测方法(CN 109784056A)提出了对整个PE软件和PE软件中的.text字段做哈希的方法来过滤掉对抗样本，这种方法可以非常完美地应对基于Overlay字节填充生成的对抗样本，但是这种方法需要记录每个恶意软件的哈希结果，其复杂度为O(n)，即随着检测出来的恶意软件数目的增长，该过滤器的计算成本也呈线性增长，这在面对数以百万计的恶意软件威胁时是难以接受的。同时这种方法也难以过滤基于冗余空间生成的恶意样本。面向恶意软件汇编格式检测模型的黑盒攻击的防御方法(CN110633570A)通过单纯地对抗训练来增强模型对对抗样本的识别率，有一定的作用，但是没有充分利用原样本与生成的对抗样本之间的联系，存在进一步改进的空间。

发明内容

本发明公开了一种基于卷积神经网络的PE恶意软件检测方法，使用精简的卷积结构的深度学习模型提高检测效率，并在此基础上，提出在PE软件中间使用快速梯度下降算法生成对抗样本的方法，并给出了一个较为完整的评价深度学习恶意软件检测模型鲁棒性的模块。最后，本发明使用权重非负约束的训练方式来改进模型对对抗样本的准确率，同时借助逻辑配对的方法更好的利用对抗样本和原始样本之间的关系进行重训练，相比起单纯的将对抗样本添入数据集有更好的效果。

为解决上述技术问题，本发明采用以下技术方案：

一种基于卷积神经网络的PE恶意软件检测方法，包括如下：

步骤1：对原始样本进行预处理，构建数据集，获得训练集、验证集、测试集；

步骤2：构建神经网络分类模型：使用类似Resnet的多层残差结构，通过多个Block块的叠加来构造网络，对于每一个块内采用深度可分离卷积的方式，在块的入口和出口通过1*1的卷积核来变换通道层Channel的数目，通过传统卷积核的卷积结果和空洞卷积核的卷积结果在通道层叠加的方式来增加神经网络每一层的感受野；

步骤3：评估模型鲁棒性：通过半黑盒攻击的快速梯度下降算法产生对抗样本所需的平均迭代次数以及给定迭代次数内生成对抗样本的成功率，来作为模型鲁棒性的评判标准。

具体如下：

一、对原始样本进行预处理，构建数据集

对收集到的PE恶意软件，先进行加壳检查，对于有壳的恶意软件，使用对应的脱壳器进行脱壳处理。对于无法识别的壳或是无法进行脱壳处理的恶意软件，将其过滤掉，转交人工分析或是动态分析处理。将处理后的PE恶意软件打上恶意标签，如果有具体的恶意软件家族类别，则以家族类别做标签。对于正常的PE软件打上正常标签后与过滤后的恶意软件混合，对于数据集中每一个软件，通过PE软件格式解析获得的其节地址、空闲空间地址等重要属性。之后通过末尾填充0字节和截断的方式使所有软件的二进制代码长度统一到一个定值(例如2Mb)。将得到的数据以0.8：0.1：0.1的比例分为训练集，验证集，测试集。

二、设计分类网络模型

本发明主要使用类似Resnet的多层残差结构，通过多个块(Block)的叠加来构造较深的网络，以获取较强的表达能力。对于每一个块内，借鉴深度可分离卷积的方式，在块的入口和出口通过1*1的卷积核来变换通道层(Channel)的数目。使用较小的卷积核并通过传统卷积核的卷积结果和空洞卷积核的卷积结果在通道层叠加的方式来增加神经网络每一层的感受野，卷积的方式采用Depth-wise的方式以减小计算量。此外，为了充分利用已有研究的优势，提供了知识蒸馏的方式进一步提升模型的精确率，当在一些样本集上，可能会出现与前文所述MalConv相比我们设计的精简网络有较高准确率时，这种方法能够将MalConv学到的一些隐知识传递到我们设计的神经网络中。

三、模型鲁棒性评估

除了简单地在软件末尾填充字节，PE软件格式还存在其他可以利用的空间，能够在不改变软件功能的情况下，进行字节的修改或填充。例如利用PE软件的冗余空间，这是PE的节在进行2的整数幂字节对齐时所多出来的为全0的空间。同时，通过新加节段的方法也能够在PE软件中进行字节填充。上述方法总体而言可以分为两种类型，一是以冗余空间二进制代码修改为首的字节段修改类型，这种方法对每个恶意软件都是不同的，可修改的字节段往往也有长度限制。另外两种填充方法可以归为添加字节类型，只不过利用新加节段的方法还需要对PE头的一些信息进行修改。对于这类方法，我们默认填充的字节为一个定长，例如10KB。将这两类方法中可供操作的字节部分记为B。我们通过额外训练一个与原网络结构相同，但初始化权重不同的网络。并基于该网络对能够被分类正确的恶意样本使用FGSM算法，在更改字节时，只对B中字节进行更改。通过迭代生成对抗样本所需的平均迭代次数以及给定迭代次数内生成对抗样本的成功率，来作为模型鲁棒性的评判标准。这种方法与图像领域通过L2范数或是无穷范数内对抗样本生成的成功率相比更适用于网络安全领域。

四、模型鲁棒性改进方法

本发明中，提供两种方法来在一定程度上提高模型的鲁棒性，一种是逻辑配对的方法，它使得对抗样本与原样本的softmax层结果尽可能的接近，从而更好地利用两者之间的关联来优化模型。另一种方法是对网络的权重进行非负限制，这会使得字节的修改大概率会导致判定的结果朝着恶意软件的方向倾斜。

本发明与背景技术相比，具有的技术优势是：

1.本发明使用残差结构和空洞卷积来增加模型表达力，使用深度可分离卷积来减少每一层的模型计算量，同时使用知识蒸馏技术，能够利用其他模型学到的隐知识来进一步增加识别准确率。在保证较高准确率的情况下有着较好的检测速率

2.本发明提出的针对恶意软件检测领域量化分析神经网络模型鲁棒性的方法，通过半黑盒攻击的快速梯度下降算法产生对抗样本所需的迭代次数对样本集的平均来评估神经网络模型鲁棒性，能够更好地对模型鲁棒性进行分析。能够使相关领域从业人员更好的评估深度学习方法在恶意软件检测领域潜在的风险。

3..本发明将两种新的提升神经网络模型鲁棒性的方式应用在了恶意软件检测当中，其中逻辑配对方法相较背景技术能够更好地利用原始样本和对抗样本之间的关联。

附图说明

图1是本发明的整体框架流程示意图；

图2是本发明所使用的卷积神经网络分类器的架构。

图3是本发明生成恶意软件对抗样本可用的填充字节段的说明图。

具体实施方案

下面结合附图和实例对本发明技术方案做进一步的说明。

第一步、对原始样本进行预处理，构建数据集：

步骤1.1从Virusshare等公共恶意软件平台上下载PE软件，使用PEID对加壳的恶意软件进行脱壳。收集大量正常PE软件。

步骤1.2对步骤1.1中，处理后的恶意软件，根据PE软件结构，提取其重要信息，主要包括PE软件每个节起始位置，每个节的实效尺寸(Virtual Size)等信息。

步骤1.3将1.1中的恶意软件和正常软件混合后，通过末尾填充0字节和截断的方式使所有软件的二进制代码长度统一到一个定值(例如2Mb)。以0.8：0.1：0.1的比例分为训练集，验证集，测试集。

第二步、构建神经网络分类模型

步骤2.1使用embedding层将二进制PE软件代码的0-255的离散值映射为一个四维的连续向量，该向量作为初始的通道层输入到后面的分类模型。

步骤2.2使用如附图2的神经网络结构构建卷积神经网络分类模型，其中附图2左边是模型的整体结构。附图2右边是每一个小的块的结构实现，使用深度可分离卷积的方法降低模型计算效率，计算量减少普通卷积的1/C，其中C为卷积输出的通道数。使用空洞卷积增加每一层的感受野。

步骤2.3使用softmax层作为最终的概率输出，并用交叉熵函数作为损失函数.式中下标label为实际类别的种类标量，表示输出向量中第label个元素。

L＝-log(q(x_label))(2)

使用Xavier作为全连接层的权重初始化，使用He-normal作为卷积核的权重初始化。使用Adam优化器和初始为0.001随迭代轮数递减的的学习速率进行20个轮次的迭代，之后使用SGD优化器进行损失极小值搜寻，并且每进行一轮迭代即在步骤1.3中的验证集上进行验证，直到验证集的平均交叉熵损失函数提升小于一个预定阈值。

步骤2.4对于步骤2.3训练所得的神经网络模型，在测试集上进行测试，输出检测结果的混淆矩阵，进而得到检测的精确率，查全率等结果。

步骤2.5图2中的虚线部分是使用知识蒸馏进一步提升步骤2.4中所得模型的精确率的方法。当使用计算量较大，表达能力更强的模型(例如Malconv)替换步骤2.2中的模型，并在步骤1.3的训练集上采取相同方法进行训练。之后将训练集每个样本作为输入，记录替代模型的Softmax层结果。将以下损失函数作为步骤2.3中的损失函数重新训练步骤2.2中的模型，其中p(x_i)为替代模型Softmax层输出向量第i个类别对应的概率，q(x_i)为步骤2.2中模型softmax层输出向量第i个类别对应的概率，l是数据集样本的总类别数。

再使用步骤2.2中的模型在训练集上训练，本步骤更加适用于多分类任务(即恶意软件按家族类别划分)，对仅有恶意软件和正常软件两种类别的数据集并无明显提升。

第三步、模型鲁棒性评估

步骤3.1如附图3所示，利用步骤1.2中获取的PE软件结构信息。可以对PE软件进行字节填充，图中的深色部分为可以修改的字节段。其中，基于冗余空间的修改方法需要同时在节表修改每个节的实效尺寸。基于新增节的方法需要在节表中添加新增节名，新增节的实效尺寸，新增节的实效地址，新增节在软件中的存储大小和起始地址，新增节的属性等信息。对于在PE软件末尾添加的字节，无需对PE软件进行修改。

步骤3.2选取步骤3.1中所述的一种生成对抗样本的字节修改方法，对被步骤2.3训练后的模型可以正确检测出来的恶意软件样本M，维护一个与M相同长度的向量V，其中，步骤3.1中所有可以修改的字节段，V中对应位置的值为1，对于其他位置，V中对应位置的值为0。

步骤3.3对步骤2.2以训练好的模型Model，使用步骤2.3额外训练一个与其结构相同但是权重初始化值不同的模型Model_new。对Model_new使用快速梯度下降算法(FGSM)对步骤3.2中的恶意软件样本M经过词嵌入层的输出M_E进行对抗样本梯度计算。如公式4所示。M_E为输入的恶意软件样本经过词嵌入层后的输出，η代表对词嵌入后向量M_E进行最优改动的方向，θ代表模型Model_new的权重参数，y代表要改变成的类别，在该例子中，为正常样本所对应的类别。

步骤3.4对于V中所有为1的位置，计算M_E中当前位置字节对应向量与词嵌入矩阵的向量差得到向量差矩阵，再将步骤3.3中的计算结果η与向量差矩阵中的每一个向量(对于字节码而言共有256个)进行向量夹角计算，将当前位置字节替换为夹角最小的向量所对应的字节。即是使字节改动后，词嵌入后的向量差值在梯度η方向上单位投影最大；

步骤3.5重复进行步骤3.4直到成功生成对于检测模型Model的对抗样本M’,或是迭代次数超过阈值。记录生成对抗样本所需的迭代次数，作为模型鲁棒性评估方式。如果存在迭代次数超过阈值的情况，则额外记录在指定的迭代次数内，生成对抗样本的成功率。

第四步、模型鲁棒性优化

步骤4.1对于步骤2.2中训练好的模型，在训练时对其权重进行额外的非负约束，即当模型更新时，如果该权重会更新为负值，则不对其进行更新。使用步骤3的流程重新进行鲁棒性评估。如果本步骤改进后，生成样本所需迭代次数增加，或是单位迭代次数内生成对抗样本成功率降低，则用本步骤所得的模型替代步骤2.2中模型。

步骤4.2对于步骤2.2或是步骤4.1的模型，对其按照步骤3的流程生成对抗样本，并在训练时同时输入对抗样本和其对应的原始样本，更改步骤2.3中的损失函数为以下公式,其中前半项代表使模型将对抗样本M’成功分类为正确样本的损失函数，后半项代表模型对两者输出的softmax结果的交叉熵。

L＝L(M′，θ)+H(f(M，θ)，f(M′，θ))(5)

如果本步骤改进后，生成样本所需迭代次数增加，或是单位迭代次数内生成对抗样本成功率降低，则用本步骤所得的模型替代步骤2.2或是步骤4.1中模型。

Claims

1.一种基于卷积神经网络的PE恶意软件检测方法，其特征在于，该方法包括如下：

2.根据权利要求1所述的基于卷积神经网络的PE恶意软件检测方法，其特征在于，步骤1所述的对原始样本进行预处理，具体如下：

对收集到的PE恶意软件，先进行加壳检查，对于有壳的恶意软件进行脱壳处理，对于无法识别的壳或是无法进行脱壳处理的恶意软件，将其过滤掉，转交人工分析或是动态分析处理；将处理后的PE恶意软件打上恶意标签，如果有具体的恶意软件家族类别，则以家族类别做标签，对于正常的PE软件打上正常标签后与过滤并标签处理后的恶意软件混合，对于数据集中每一个软件，通过PE软件格式解析获得的其节地址、空闲空间地址等重要属性，之后通过末尾填充0字节和截断的方式使所有软件的二进制代码长度统一到一个定值，将得到的数据以0.8：0.1：0.1的比例分为训练集，验证集，测试集。

3.根据权利要求1所述的基于卷积神经网络的PE恶意软件检测方法，其特征在于，步骤2所述的构建神经网络分类模型，具体为：

步骤2.1使用embedding层将二进制PE软件代码的0-255的离散值映射为一个四维的连续向量，该向量作为初始的通道层输入；

步骤2.2通过多个Block块的叠加来构造类似Resnet的多层残差结构网络，对于每一个块内采用深度可分离卷积的方式，在块的入口和出口通过1*1的卷积核来变换通道层Channel的数目，通过传统卷积核的卷积结果和空洞卷积核的卷积结果在通道层叠加的方式来增加神经网络每一层的感受野；

步骤2.3使用softmax层作为最终的概率输出，并用交叉熵函数作为损失函数；使用Xavier作为全连接层的权重初始化，使用He-normal作为卷积核的权重初始化，使用Adam优化器和初始为0.001随迭代轮数递减的的学习速率进行20个轮次的迭代，之后使用SGD优化器进行损失极小值搜寻，并且每进行一轮迭代即在验证集上进行验证，直到验证集的平均交叉熵损失函数提升小于一个预定阈值；

步骤2.4对于步骤2.3训练所得的神经网络模型，在测试集上进行测试，输出检测结果的混淆矩阵，进而得到检测的精确率、查全率结果。

4.根据权利要求3所述的基于卷积神经网络的PE恶意软件检测方法，其特征在于，使用知识蒸馏技术进一步提升步骤2.4中所得模型的精确率。

5.根据权利要求1所述的基于卷积神经网络的PE恶意软件检测方法，其特征在于，步骤3所述的评估模型鲁棒性，具体为：

步骤3.1利用获取的PE软件结构信息，对PE软件进行字节修改或填充，具体分为两类，一类是以冗余空间二进制代码修改为首的字节段修改类型的方法，另一类为添加字节类型的方法；

步骤3.2选取步骤3.1中任一种生成对抗样本的字节修改方法，对被训练后的模型可以正确检测出来的恶意软件样本M，维护一个与M相同长度的向量V。对于M所有可以修改的字节B，将V中对应位置的值为1，对于其他位置，V中对应位置的值为0；

步骤3.3对训练好的模型Model，使用相同方法额外训练一个与其结构相同但是权重初始化值不同的模型Model_new，对Model_new使用快速梯度下降算法对步骤3.2中的恶意软件样本M经过词嵌入层的输出M_E进行对抗样本梯度计算；

步骤3.4对于V中所有为1的位置，计算M_E中当前位置字节对应向量与词嵌入矩阵的向量差得到向量差矩阵，再将步骤3.3中的计算结果与向量差矩阵中的每一个向量进行向量夹角计算，将当前位置字节替换为夹角最小的所对应的字节，即是使字节改动后，词嵌入后的向量差值在所计算梯度方向上单位投影最大；

步骤3.5重复进行步骤3.4直到成功生成对于检测模型Model的对抗样本M’,或是迭代次数超过阈值，记录生成对抗样本所需的迭代次数，作为模型鲁棒性评估方式；如果存在迭代次数超过阈值的情况，则额外记录在指定的迭代次数内，生成对抗样本的成功率。

6.根据权利要求1所述的基于卷积神经网络的PE恶意软件检测方法，其特征在于，采用逻辑配对的方法或对网络的权重进行非负限制的方法对模型鲁棒性进行改进。