CN116975863A

CN116975863A - 基于卷积神经网络的恶意代码检测方法

Info

Publication number: CN116975863A
Application number: CN202310840709.1A
Authority: CN
Inventors: 方城
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-10-31

Abstract

本发明公开了基于卷积神经网络的恶意代码检测方法，包括以下步骤：收集代码数据集并标注，将标注后的代码数据集按设定的数量比例划分为训练集和测试集；使用词袋模型将代码数据集的代码文件转换为词袋向量，采用TF‑IDF方法将转换后的训练集进行归一化；构建用于恶意代码检测的卷积神经网络模型，所述卷积神经网络模型包括依序设置的卷积网络、池化网络及全连接网络，卷积网络使用残差结构的卷积块，使用训练集中的词袋向量对卷积神经网络模型进行训练，使用测试集评估出最佳模型；使用词袋模型将待检测代码文件转换后输入至所述最佳模型，最佳模型输出待检测代码文件的类别。本发明提出的恶意代码检测方法可快速检测出恶意代码并保证检测的精度。

Description

基于卷积神经网络的恶意代码检测方法

技术领域

本发明属于软件工程技术领域，特别涉及基于卷积神经网络的恶意代码检测方法。

背景技术

恶意代码根据其行为和执行过程分为许多类别，如蠕虫、病毒、特洛伊木马、rootkit、后门、间谍软件、逻辑炸弹、广告软件和勒索软件。攻击计算机系统是为了破坏计算机资源，获取经济利益，窃取私人和机密数据，使用计算资源，使系统无法获得服务等等。恶意代码的编写者和安全人员之间便是一场无止休的军备竞赛，一方面，安全人员在不断寻找新方法去提高恶意代码的检测能力，另一方面，恶意软件编写者也在不断提高代码的混淆能力以试图躲过检测。

现有技术中基于卷积神经网络的恶意代码检测方法，包括：公开号为“CN113806746A”的中国发明专利申请提出基于改进CNN网络的恶意代码检测方法，通过图像化技术将恶意代码转换成灰度图像特征，再通过N-Gram技术提取恶意代码的操作码序列特征，通过特征融合技术将全局特征和局部特征进行特征融合，得到的融合特征输入到改进的卷积神经网络模型训练并选用合适的分类器进行检测。公开号为“CN114238977A”的中国发明专利申请提出一种融合efficient-net和1d-cnn的恶意代码家族分类方法，将恶意代码的二进制文件分别转换为1维矢量和图像后，分别输入两个网络，将其特征图进行了金字塔融合。公开号为“CN116257851A”的中国发明专利申请提出的一种基于CNN和ViTransformer的软件恶意代码识别方法，对恶意代码源程序进行反汇编操作；将反汇编后的数据转换为灰度图；将灰度图输入到CNN网络，得到局部特征图；将局部特征图输入到转化模块中进行编码处理；将编码后的数据输入到Transformer模块中，得到恶意代码识别结果。以上发明均是将代码转换为图像后输入卷积网络模型进行检测，将代码转换为图像形式时，会丢失一些细节和语义信息，代码中的标识符、注释、缩进等都包含着重要的信息，但在转换为图像时可能无法很好地保留，这可能导致模型无法充分利用代码的结构和语义信息；另外，由于图像是具有固定大小的二维数据，而代码的长度和结构可能各不相同，在将代码转换为图像时，需要确定一个固定的图像大小，可能需要进行填充或截断操作，这可能会引入冗余信息或丢失部分代码信息；使得检测的效率及准确率不足。

词袋模型是一种常用的文本表示方法，它在文本处理任务中有广泛的应用。公开号为“CN110096591A”的中国发明专利申请提出基于词袋模型的长文本分类方法，首先获取待分类的长文本；根据预设规则滤除所述长文本中的噪音字符；基于第一词袋模型，从滤除所述噪音字符的长文本提取第一词袋特征向量，所述第一词袋模型的词典包括若干词语；基于第二词袋模型，从滤除所述噪音字符的长文本提取第二词袋特征向量，所述第二词袋模型的词典包括若干单个文字；基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

发明内容

本发明提供基于卷积神经网络的恶意代码检测方法，旨在解决现有卷积神经网络对恶意代码进行检测存在的效率及准确率不足的问题。

为解决上述技术问题，本发明提出基于卷积神经网络的恶意代码检测方法，包括以下步骤：

S1：收集代码数据集并标注，所述代码数据集包括恶意代码文件及正常代码文件，所述标注的内容为代码文件的类别，包括恶意文件及正常文件，将标注后的代码数据集按设定的数量比例划分为训练集和测试集。

S2：使用词袋模型按预设规则将所述代码数据集中的代码文件转换为词袋向量，采用TF-IDF方法将转换后的训练集进行归一化。

S3：构建用于恶意代码检测的卷积神经网络模型，所述卷积神经网络模型包括依序设置的卷积网络、池化网络及全连接网络，所述卷积网络使用残差结构的卷积块，用于提取词袋向量特征，所述池化网络用于降低卷积网络输出的特征矩阵的维度，所述全连接网络用于对输入的特征向量进行分类。

S4：使用所述训练集中的词袋向量对卷积神经网络模型进行训练，使用所述测试集评估出最佳模型。

S5：使用词袋模型将待检测代码文件转换后输入至所述最佳模型，最佳模型输出待检测代码文件的类别。

优选的，所述卷积网络将输入的词袋向量复制为两个子集，第一子集依次经过卷积、批量归一化、ReLU激活、卷积及批量归一化操作后，与第二子集相加，相加后的特征矩阵经过一次ReLU激活操作作为每个卷积块的操作。

优选的，所述TF-IDF方法对转换后的训练集进行归一化具体如下：

式中，v_norm为归一化后的词袋向量，v为原始的词袋向量，TF为词频，表示单词在代码文件中出现的频率，IDF为逆文本频率，表示单词在代码文件中区分力指标。TF和IDF的计算方法如下：

式中，TF_i为单词i在一代码文件中出现的频率，n_i为单词i在一代码文件中出现的次数，∑_jn_j为一代码文件中所有单词出现的次数之和，IDF_i为单词i的逆文本频率，∑d表示训练集代码文件的总数量，d_i表示训练集中包含单词i的代码文件数量。

优选的，所述步骤S4对训练结果的评估采用F0.5分数，将F0.5分数首次大于80的模型作为最佳模型。

优选的，所述F0.5分数的计算公式如下：

式中，Precision表示精确率，Recall表示召回率，计算方法如下：

式中，TP表示真正例，FP表示假正例，FN表示假反例。

优选的，所述卷积网络的卷积核大小设置为3×3。

优选的，所述池化网络采用池化核大小为2×2、步幅为2的最大池化方法。

优选的，所述全连接网络的输出结果可以表示为：

y＝Wx+b

式中，y是全连接网络的输出结果，W是全连接网络的权重矩阵，x是输入全连接网络的特征向量，b是偏置向量，W的维度为(n_out,n_in)，其中n_out是输出神经元的数量，n_in是输入全连接网络特征向量的长度。

与现有技术相比，本发明具有以下技术效果：

1.本发明使用训练好的卷积神经网络模型对恶意代码进行检测，首先使用词袋模型按预设规则将所述代码数据集中的代码文件转换为词袋向量，将词袋向量输入卷积神经网络中进行训练或检测，避免现有技术将代码转换为图像输入卷积神经网络进行检测导致的检测效率及精度不足的问题，有效提高恶意代码检测的效率及精度。

2.本发明提出的恶意代码检测方法采用TF-IDF对词袋模型转换后的词袋向量进行归一化。由于在词袋模型中，不同的词汇在文本中出现的频率差异很大，使用TF-IDF归一化可以对特征权重进行平衡，降低高频词对模型的影响，提高低频词的重要性，有助于更好地捕捉文本的关键特征；另外，词袋向量通常具有高维度和稀疏性的特点，通过TF-IDF归一化，可以将特征向量中的非零值缩放到一定范围内，减小特征向量的取值范围，从而降低向量的稀疏性，提高模型的计算效率。

3.本发明提出的恶意代码检测方法采用F0.5分数评估卷积神经网络模型的训练结果，F0.5分数相比于其他F分数(如F1分数)更加关注精确率，在恶意代码检测的任务中，精确率比召回率更为重要，可以有效减少误报的影响，使用F0.5分数能够使模型更加关注于精确率的提升，对于强调模型的准确性和可靠性是有益的。

4.本发明提出的恶意代码检测方法在卷积层中使用残差结构，通过将输入信号与卷积层输出信号进行直接相加，允许模型将前一层的特征与后一层的特征相加，从而使信息传播更顺畅，这有助于解决梯度消失或梯度爆炸问题，同时提高网络的深度和性能。

附图说明

图1是本发明提出的恶意代码检测方法流程图；

图2是本发明实施例的卷积神经网络结构示意图；

图3是本发明实施例的残差结构示意图；

图4是本发明实施例的全连接层结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例，并参照附图，对本发明的技术方案进行清楚、完整地描述。

在本实施例中，基于卷积神经网络的恶意代码检测方法，如图1所示，包括以下步骤：

代码数据集采用网络安全公司Sophos和ReversingLabs联合发布的SoReL-20M数据集,其中包括其中含有1000万去除恶意软件功能的恶意文件样本，以及1000万非恶意文件中提取的特征和元数据，每份样本均标注了文件元数据、标签(恶意文件或正常文件)和特征的数据集。按照8:2的比例将2000万数据集分别划分为训练集及测试集，其中训练集中包含恶意文件样本及非恶意文件样本各800万份，测试集中包含恶意文件样本及非恶意文件样本各200万份。训练集用于卷积神经网络模型的训练，测试集用于评估训练结果并选出最佳模型用于对恶意代码进行检测。

构建词袋向量采用以下方式：

S2-1：构建词汇表，对每一份代码文件，遍历代码文件，按功能块收集所有不重复的单词或标记，并构建一个词汇表，词汇表中的每个单词或标记都将作为词袋模型中的一个特征。

对于一个简单的代码文件中单个功能块示例：

import numpy as np\nx＝np.array([1,2,3])\nprint(x)

构建的词汇表如下：

vocabulary＝[″import″,″numpy″,″np″,″array″,″x″,″1″,″2″,″3″,″print″]

S2-2：计算词频，计算词汇表中每个单词或者标记在该文件中对应功能块中出现的频次，上述简单词汇表计算的词频如下：

S2-3：构建词袋向量，将词频统计结果表示为词袋向量，词袋向量是一个稀疏向量，每个维度对应词汇表中的一个单词或标记，数值表示该单词在代码文件中出现的频次。上述词频构建出的词袋向量如下：

vector＝[1，1，1，1，2，1，1，1，1]

将构建词袋向量的方法应用于一份代码文件多个功能块，组成一个二维矩阵形式的词袋向量：

其中每行为每个功能块(函数)的词袋向量，通过将文本数据转换为词袋向量的二维矩阵表示，可以应用各种机器学习算法或深度学习模型，以进行分类、聚类、信息检索等任务。

由于词袋向量是一个稀疏向量，还需要使用TF-IDF方法对转换后的训练集进行归一化具体如下：

式中，v_norm为归一化后的词袋向量，v为原始的词袋向量，TF为词频，表示单词或标记在代码文件中出现的频率。IDF为逆文本频率，表示单词或标记在整个代码文件中的区分能力，一个单词或标记在较多功能块都出现过，说明该单词或标记的区分度就不是很高，IDF值就较小；反之，若一个单词或标记只在少数功能块出现，说明该单词或标记在别的文档中的重要性就较高，IDF值也就较大。TF和IDF的计算方法如下：

式中，TF_i为单词i在一代码文件中出现的频率，n_i为单词i在一代码文件中出现的次数，∑_jn_j为一代码文件中所有单词出现的次数之和，IDF_i为单词i的逆文本频率，∑d表示训练集代码文件的总数量，d_i表示训练集中包含单词i的代码文件数量。通过加权后的TF-IDF得分，可以有效地减少单词或标记分类中的错误率，提高分类准确性和检索效率。上述二维矩阵形式的词袋向量，经过TF-IDF归一化后，结果如下：

由于在词袋模型中，不同的词汇在文本中出现的频率差异很大，使用TF-IDF归一化可以对特征权重进行平衡，降低高频词对模型的影响，提高低频词的重要性，有助于更好地捕捉文本的关键特征；另外，词袋向量通常具有高维度和稀疏性的特点，通过TF-IDF归一化，可以将特征向量中的非零值缩放到一定范围内，减小特征向量的取值范围，从而降低向量的稀疏性，提高模型的计算效率。

S3：构建用于恶意代码检测的卷积神经网络模型，如图2所示所述卷积神经网络模型包括依序设置的卷积网络、池化网络及全连接网络，所述卷积网络包括三个使用残差结构的卷积块，用于提取词袋向量特征，所述池化网络用于降低卷积网络输出的特征矩阵的维度，所述全连接网络用于对输入的特征向量进行分类。如图3所示，所述使用残差结构的卷积块将输入的词袋向量复制为两个子集，第一子集依次经过卷积、批量归一化、ReLU激活、卷积及批量归一化操作后，与第二子集相加，相加后的特征矩阵经过一次ReLU激活操作作为每个卷积块的操作，本实施例中，每个卷积块中的卷积核大小设置为3×3。

残差结构的卷积块通过将输入信号与卷积层输出信号进行直接相加，允许模型将前一层的特征与后一层的特征相加，从而使信息传播更顺畅，这有助于解决梯度消失或梯度爆炸问题，同时提高网络的深度和性能。

上述TF-IDF归一化后的二维矩阵依序经过卷积网络中三个卷积块的卷积操作，输出特征矩阵：

池化网络对输入的特征矩阵进行最大池化，最大池化的池化核大小为2×2、步幅为2，用于降低特征矩阵的维度，输出一维的特征向量：

[0.215684,0.541827,0.625148,...,0.785249]

一维的特征向量输入全连接网络进行分类，全连接网络如图4所示，v1～vn为输入层，n对应为一维特征向量的个数；u1～un为隐藏层，隐藏层可设置为多层，a1、a2为输出层，对应分类分别为恶意文件及正常文件的得分。一个典型的输出如下：

[0.851479,0.005874]

该输出对应的恶意文件得分为0.851479，正常文件的得分为0.005874，所检测的文件将被标记为恶意文件。

具体的，所述全连接网络的输出结果可以表示为：

y＝Wx+b

式中，y是全连接网络的输出结果，W是全连接网络的权重矩阵，x是输入全连接网络的特征向量，b是偏置向量，W的维度为(n_out,n_in)，其中n_out是输出神经元的数量，n_in是输入全连接网络特征向量的长度。在卷积神经网络的训练过程中，不断迭代求解W与b。

本实施例中，对训练结果的评估采用F0.5分数，将F0.5分数首次大于80的模型作为最佳模型。F0.5分数相比于其他F分数(如F1分数)更加关注精确率，在恶意代码检测的任务中，精确率比召回率更为重要，可以有效减少误报的影响，使用F0.5分数能够使模型更加关注于精确率的提升，对于强调模型的准确性和可靠性是有益的。

所述F0.5分数的计算公式如下：

式中，TP表示真正例(True Positive)，即将输入的特征向量预测为正样本，并且预测正确；FP表示假正例(False Positive)，即将输入的特征向量预测为负样本，并且预测正确；FN表示假反例(False Negative)，即将输入的特征向量预测为负样本，并且预测错误。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于卷积神经网络的恶意代码检测方法，其特征在于，包括以下步骤：

S1：收集代码数据集并标注，所述代码数据集包括恶意代码文件及正常代码文件，所述标注的内容为代码文件的类别，包括恶意文件及正常文件，将标注后的代码数据集按设定的数量比例划分为训练集和测试集；

S2：使用词袋模型按预设规则将所述代码数据集中的代码文件转换为词袋向量，采用TF-IDF方法将转换后的训练集进行归一化；

S3：构建用于恶意代码检测的卷积神经网络模型，所述卷积神经网络模型包括依序设置的卷积网络、池化网络及全连接网络，所述卷积网络使用残差结构的卷积块，用于提取词袋向量特征，所述池化网络用于降低卷积网络输出的特征矩阵的维度，所述全连接网络用于对输入的特征向量进行分类；

S4：使用所述训练集中的词袋向量对卷积神经网络模型进行训练，使用所述测试集评估出最佳模型；

2.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法，其特征在于，所述卷积网络将输入的词袋向量复制为两个子集，第一子集依次经过卷积、批量归一化、ReLU激活、卷积及批量归一化操作后，与第二子集相加，相加后的特征矩阵经过一次ReLU激活操作作为每个卷积块的操作。

3.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法，其特征在于，所述TF-IDF方法对转换后的训练集进行归一化具体如下：

式中，v_norm为归一化后的词袋向量，v为原始的词袋向量，TF为词频，表示单词在代码文件中出现的频率，IDF为逆文本频率，表示单词在代码文件中区分力指标；TF和IDF的计算方法如下：

4.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法，其特征在于，所述步骤S4对训练结果的评估采用F0.5分数，将F0.5分数首次大于80的模型作为最佳模型。

5.根据权利要求4所述的基于卷积神经网络的恶意代码检测方法，其特征在于，所述F0.5分数的计算公式如下：

式中，TP表示真正例，FP表示假正例，FN表示假反例。

6.根据权利要求1或2所述的基于卷积神经网络的恶意代码检测方法，其特征在于，所述卷积网络的卷积核大小设置为3×3。

7.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法，其特征在于，所述池化网络采用池化核大小为2×2、步幅为2的最大池化方法。

8.根据权利要求1所述的基于卷积神经网络的恶意代码检测方法，其特征在于，所述全连接网络的输出结果可以表示为：

y＝Wx+b