CN112417447B

CN112417447B - 一种恶意代码分类结果的精确度验证方法及装置

Info

Publication number: CN112417447B
Application number: CN202011256849.7A
Authority: CN
Inventors: 侯健; 陈浩; 张依漪; 王佳佳; 王凤敏; 王立霞
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-07-20
Anticipated expiration: 2040-11-11
Also published as: CN112417447A

Abstract

本发明涉及一种恶意代码分类结果的精确度验证方法及装置，属于信息安全技术领域，解决了现有的恶意代码分类方法耗费时间和资源且效率较低的问题。方法包括：获取包含恶意代码的原始文件，并基于原始文件建立样本数据集；构建深度学习网络模型，并基于样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构；基于深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证恶意代码分类结果的精确度，实现了恶意代码的分类和对分类结果的精确度验证，提高了恶意代码的分类效率及可靠性。

Description

一种恶意代码分类结果的精确度验证方法及装置

技术领域

本发明涉及信息安全技术领域，尤其涉及一种恶意代码分类结果的精确度验证方法及装置。

背景技术

随着互联网的快速发展，计算机软件的安全问题已经提高到国家安全的战略角度。建立安全可信的计算机软件系统成为维护计算机信息安全的一种有效手段，对于恶意代码的检测成为软件可信性分析的一个核心研究方向。

目前，针对恶意代码的分类，传统机器学习模型在特征提取阶段往往需要人工设计和参与，这需要完备的先验知识，并且不能从数据本质出发提取恶意代码区分度较大的特征，在一定程度上影响了恶意代码的分类精确率；另外，该方法需要较为复杂、耗费时间且浪费资源。因此，在当下海量恶意代码背景下，传统的恶意代码分类方法已经不能满足恶意代码分类高效性要求了。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种恶意代码分类结果的精确度验证方法及装置，用以解决现有的恶意代码分类方法耗费时间和资源且效率较低的问题。

一方面，本发明实施例提供了一种恶意代码分类结果的精确度验证方法，包括下述步骤：

获取包含恶意代码的原始文件，并基于所述原始文件建立样本数据集；

构建深度学习网络模型，并基于所述样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构；

基于所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证所述恶意代码分类结果的精确度。

进一步，获取包含恶意代码的原始文件，并基于所述原始文件建立样本数据集，包括下述步骤：

基于所述包含恶意代码的原始文件，得到指定序列长度的二进制代码；

对所述指定序列长度的二进制代码进行预处理，得到二进制文件列表；

为所述二进制文件列表中的每个恶意代码添加标签，得到样本数据集。

进一步，所述恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。

进一步，所述深度学习网络模型包括卷积神经网络和长短期记忆网络，其中，所述卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层；

所述长短期记忆网络包括正向LSTM层、反向LSTM层和第二输出层，其中，所述第二输出层用于将所述正向LSTM层的输出特征与反向LSTM层的输出特征进行拼接并输出。

进一步，基于所述样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构，包括下述步骤：

将所述样本数据集划分为训练数据集和验证数据集；

将所述训练数据集输入深度学习网络模型进行训练，得到训练好的深度学习网络；

基于所述验证数据集对训练好的深度学习网络进行验证，得到深度学习网络模型的最优网络结构。

进一步，基于所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证所述恶意代码分类结果的精确度，包括下述步骤：

将所述包含恶意代码的待预测原始文件输入深度学习网络模型的最优网络结构，得到恶意代码的分类结果和预测结果；

基于所述预测结果计算精确率和召回率；

基于所述精确率和召回率得到分类结果对应的F1分数，其中，所述F1分数越大，则恶意代码分类结果的精确度越高。

另一方面，本发明实施例提供了一种恶意代码分类结果的精确度验证装置，包括：

样本数据集构建模块，用于获取包含恶意代码的原始文件，并基于所述原始文件建立样本数据集；

模型训练模块，用于构建深度学习网络模型，并基于所述样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构；

分类结果的精确度验证模块，用于根据所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证所述恶意代码分类结果的精确度。

进一步，所述样本数据集构建模块用于：

对所述指定序列长度的二进制代码进行预处理，得到二进制代码文件列表；

为所述二进制代码文件列表中的每个恶意代码添加标签，得到样本数据集。

与现有技术相比，本发明至少可实现如下有益效果之一：

1、一种恶意代码分类结果的精确度验证方法，通过建立样本数据集，并利用样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构，最后将包含恶意代码的待预测原始文件输入最优网络结构进行分类，得到恶意代码的分类结果，并通过计算F1分数验证恶意代码分类结果的精确度，简单易行、易于实施，提高了恶意代码的分类效率和可靠性，具有较高的实用价值。

2、采用类别均衡采样法对指定序列长度的二进制代码进行预处理，得到二进制文件列表，并为二进制文件列表中的每个恶意代码添加标签，恶意代码与其对应的标签构成了样本数据集，为后期深度学习网络模型的训练提供了数据支撑和依据。

3、通过构建深度学习网络模型，并利用训练数据集对深度学习网络模型进行训练，得到训练好的深度学习网络，并利用验证数据集对训练好的深度学习网络进行训练，得到深度学习网络模型的最优网络结构，为后期对待预测原始文件中的恶意代码分类提供了基础，且能够提高恶意代码分类的精度。

4、基于深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，同时得到恶意代码的分类结果和预测结果，并基于预测结果计算精确率和召回率，最终得到F1分数，基于F1分数验证恶意代码分类结果的精确度，具有较高的实用性。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为一个实施例中恶意代码分类结果的精确度验证方法流程图；

图2为一个实施例中深度学习网络模型结构示意图；

图3为另一个实施例中恶意代码分类结果的精确度验证装置结构图；

附图标记：

100-样本数据集构建模块，200-模型训练模块，300-分类结果的精确度验证模块。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

目前，针对恶意代码的分类，传统机器学习模型在特征提取阶段往往需要人工设计和参与，这需要完备的先验知识，并且不能从数据本质出发提取恶意代码区分度较大的特征，在一定程度上影响了恶意代码的分类精确率；另外，该方法需要较为复杂、耗费时间且浪费资源。因此，在当下海量恶意代码背景下，传统的恶意代码分类方法已经不能满足恶意代码分类高效性要求了。为此，本申请提出了一种恶意代码分类结果的精确度验证方法及装置，通过建立样本数据集，并利用样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构，最后将包含恶意代码的待预测原始文件输入最优网络结构进行分类，得到恶意代码的分类结果，并通过计算F1分数验证恶意代码分类结果的精确度，简单易行、易于实施，提高了恶意代码的分类效率，具有较高的实用价值。

本发明的一个具体实施例，公开了一种恶意代码分类结果的精确度验证方法，如图1所示，包括下述步骤S1～S3。

步骤S1、获取包含恶意代码的原始文件，并基于原始文件建立样本数据集，包括下述步骤S101～S103。

步骤S101、基于包含恶意代码的原始文件，得到指定序列长度的二进制代码。其中，采用OpenCV计算机视觉库对包含恶意代码的原始文件进行压缩，得到指定序列长度为sequence_length的二进制代码。

步骤S102、对指定序列长度的二进制代码进行预处理，得到二进制文件列表。具体来说，采用类别均衡采样法对得到的指定序列长度的二进制代码进行预处理的步骤包括：首先按照恶意代码的类别顺序对指定序列长度的二进制代码进行排序，统计每个类别的二进制代码数目并记录二进制代码的最大值；根据该最大值对每类二进制代码产生一个随机排列的列表，然后用此列表中的随机数对各自类别的二进制代码取余，得到对应的索引值。根据索引从该类的二进制代码中随机提取相应数值的二进制代码，生成该类二进制代码的随机列表。最后将所有类别二进制代码的随机列表连在一起并随机打乱次序，即可得到最终的二进制文件列表，可以发现最终的二进制文件列表中每类二进制代码数目均等。

步骤S103、为二进制文件列表中的每个恶意代码添加标签，得到样本数据集。其中，恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。

采用类别均衡采样法对指定序列长度的二进制代码进行预处理，得到二进制文件列表，并为二进制文件列表中的每个恶意代码添加标签，恶意代码与其对应的标签构成了样本数据集，为后期深度学习网络模型的训练提供了数据支撑和依据。

步骤S2、构建深度学习网络模型，并基于样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构。如图2所示，深度学习网络模型包括卷积神经网络和长短期记忆网络，其中，卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层；长短期记忆网络包括正向LSTM层、反向LSTM层和第二输出层。其中，卷积神经网络中第一输出层的输出特征同时作为正向LSTM层和反向LSTM层的输入，第二输出层用于将正向LSTM层的输出特征与反向LSTM层的输出特征进行拼接并输出。

构建得到深度学习网络模型后，可利用样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构，包括下述步骤：

将样本数据集划分为训练数据集和验证数据集。示例性的，本申请中可将样本数据集按照9:1的比例划分为训练数据集和验证数据集，其中，训练数据集用于对深度学习网络模型进行训练，以得到训练好的深度学习网络；验证数据集用于对训练好的深度学习网络进行验证，以得到深度学习网络的最优网络结构。

将训练数据集输入深度学习网络模型进行训练，得到训练好的深度学习网络，具体包括下述步骤：

首先对参数初始化：令v_dW＝0,S_dW＝0，v_db＝0,S_db＝0，且设置迭代次数epochs为100，其中，W为权重；b为偏移量；dW和db为W和b的微分，v_dW为dW的平均数，s_dW为dW的指数加权平均数；v_db为db的平均数，s_db为db的指数加权平均数。

在第t次迭代中，利用梯度下降法计算得到dW和db。同时设dW的指数加权平均数β₁为0.9，计算v_dW和v_db：

v_dW＝β₁v_dW+(1-β₁)dW

v_db＝β₁v_db+(1-β₁)db

设超参数β₂为0.999，用RMSprop更新s_dW和s_db：

S_dW＝β₂S_dW+(1-β₂)(dW)²

S_db＝β₂S_db+(1-β₂)(db)²；

计算v_dW、v_db、s_dW和s_db分别对应的修正误差

和

设阈值门槛ε为10^-8，学习率α为0.001，对深度学习模型卷积层的权重进行修正，令训练收敛到更好的性能，修正后的权重W′和修正后的偏移量b′分别为：

基于修正后的权重和偏移量计算得到网络对应的损失函数，当损失函数小于预设损失函数门槛时，得到对应的训练好的深度学习网络；若损失函数不小于预设损失函数门槛，继续调整参数，直至满足条件，得到对应的训练好的深度学习网络。同时，可利用验证数据集对训练好的深度学习网络进行验证，得到深度学习网络模型的最优网络结构。

通过构建深度学习网络模型，并利用训练数据集对深度学习网络模型进行训练，得到训练好的深度学习网络，并利用验证数据集对训练好的深度学习网络进行训练，得到深度学习网络模型的最优网络结构，为后期对待预测原始文件中的恶意代码分类提供了基础，且能够提高恶意代码分类的精度。

步骤S3、基于深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证恶意代码分类结果的精确度，包括下述步骤S301～S303：

步骤S301、将包含恶意代码的待预测原始文件输入深度学习网络模型的最优网络结构，得到恶意代码的分类结果和预测结果。详细地，将包含恶意代码的待预测原始文件输入深度学习网络模型的最优网络结构后，同时得到的恶意代码的分类结果和预测结果。其中，预测结果包括TP(将正确的判断正确)、FP(将正确的判断错误)、FN(将错误的判断错误)和TN(将错误的判断正确)四种，可统计得到这四种预测结果的数量。

步骤S302、基于预测结果计算精确率Precision和召回率Recall：

步骤S303、基于精确率和召回率得到分类结果对应的F1分数，F1分数为精确率和召回率的调和平均值，其中，F1分数越大，则恶意代码分类结果的精确度越高，F1分数的计算公式为：

基于深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，同时得到了恶意代码的分类结果和预测结果，并基于预测结果计算精确率和召回率，最终得到F1分数，利用F1分数验证恶意代码分类结果的精确度，具有较高的实用性。

与现有技术相比，本实施例提供的一种恶意代码分类结果的精确度验证方法，通过建立样本数据集，并利用样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构，最后将包含恶意代码的待预测原始文件输入最优网络结构进行分类，得到恶意代码的分类结果，并通过计算F1分数验证恶意代码分类结果的精确度，简单易行、易于实施，提高了恶意代码的分类效率。

本发明的另一个具体实施例，公开了一种恶意代码分类结果的精确度验证装置，如图3所示，包括样本数据集构建模块100，用于获取包含恶意代码的原始文件，并基于原始文件建立样本数据集；模型训练模块200，用于构建深度学习网络模型，并基于样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构；分类结果的精确度验证模块300，用于根据深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证恶意代码分类结果的精确度。

由于恶意代码分类结果的精确度验证装置与前述恶意代码分类结果的精确度验证的实现原理相同，故这里不再赘述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种恶意代码分类结果的精确度验证方法，其特征在于，包括下述步骤：

获取包含恶意代码的原始文件，并基于所述原始文件建立样本数据集，包括下述步骤：

为所述二进制文件列表中的每个恶意代码添加标签，得到样本数据集；

基于所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证所述恶意代码分类结果的精确度；

对所述指定序列长度的二进制代码进行预处理，得到二进制文件列表包括：按照恶意代码的类别顺序对指定序列长度的二进制代码进行排序，统计每个类别的二进制代码数目并记录二进制代码的最大值；根据所述最大值对每类二进制代码产生一个随机排列的列表，根据所述随机排列的列表中的随机数对每类二进制代码取余得到索引值；根据所述索引值从该类二进制代码中随机提取相应数值的二进制代码，生成该类二进制代码的随机列表；将所有类别的二进制代码的随机列表连在一起并随机打乱次序，得到所述二进制文件列表。

2.根据权利要求1所述的恶意代码分类结果的精确度验证方法，其特征在于，所述恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。

3.根据权利要求1所述的恶意代码分类结果的精确度验证方法，其特征在于，所述深度学习网络模型包括卷积神经网络和长短期记忆网络，其中，所述卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层；

4.根据权利要求2所述的恶意代码分类结果的精确度验证方法，其特征在于，基于所述样本数据集对深度学习网络模型进行训练，得到深度学习网络模型的最优网络结构，包括下述步骤：

将所述样本数据集划分为训练数据集和验证数据集；

5.根据权利要求4所述的恶意代码分类结果的精确度验证方法，其特征在于，基于所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证所述恶意代码分类结果的精确度，包括下述步骤：

基于所述预测结果计算精确率和召回率；

6.一种恶意代码分类结果的精确度验证装置，其特征在于，包括：

样本数据集构建模块，用于获取包含恶意代码的原始文件，并基于所述原始文件建立样本数据集；所述样本数据集构建模块用于：

为所述二进制代码文件列表中的每个恶意代码添加标签，得到样本数据集；

分类结果的精确度验证模块，用于根据所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类，得到恶意代码的分类结果，并验证所述恶意代码分类结果的精确度；

对所述指定序列长度的二进制代码进行预处理，得到二进制文件列表包括：按照恶意代码的类别顺序对指定序列长度的二进制代码进行排序，统计每个类别的二进制代码数目并记录二进制代码的最大值；根据该最大值对每类二进制代码产生一个随机排列的列表，根据所述列表中的随机数对每类二进制代码取余，得到索引值；根据所述索引值从该类的二进制代码中随机提取相应数值的二进制代码，生成该类二进制代码的随机列表；将所有类别的二进制代码的随机列表连在一起并随机打乱次序，得到所述二进制文件列表。

7.根据权利要求6所述的恶意代码分类结果的精确度验证装置，其特征在于，所述恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。

8.根据权利要求7所述的恶意代码分类结果的精确度验证装置，其特征在于，所述深度学习网络模型包括卷积神经网络和长短期记忆网络，其中，所述卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层；