CN113722713A

CN113722713A - 一种恶意代码检测的方法、装置、电子设备及存储介质

Info

Publication number: CN113722713A
Application number: CN202111061961.XA
Authority: CN
Inventors: 马影; 魏国富; 周晓勇; 夏玉明; 刘胜; 徐�明; 王启凡; 梁淑云; 余贤喆; 陶景龙; 殷钱安
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-11-30

Abstract

本发明公开了一种恶意代码检测的方法、装置、电子设备及存储介质，所述方法包括：将可执行程序代码在动态沙箱中模拟运行，获取数据集；利用数据集训练XGBoost模型；利用数据集训练TextCNN模型；将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型，将两个模型的输出结果进行归一化处理得到最终的预测结果；本发明的优点在于：恶意代码的识别率高。

Description

一种恶意代码检测的方法、装置、电子设备及存储介质

技术领域

本发明涉及网络安全领域，更具体涉及一种恶意代码检测的方法、装置、电子设备及存储介质。

背景技术

恶意代码是指故意编制或设置的、对网络或系统会产生威胁或潜在威胁的计算机代码，传统的恶意代码包括蠕虫、木马等，这些恶意代码严重侵犯用户合法权益，甚至将给用户及他人带来巨大的经济或其他形式的利益损失。

传统的恶意程序检测主要通过机器学习进行，但往往单个模型的识别率并不高。中国专利授权公告号CN109379377B，提供一种加密恶意流量检测方法、装置、电子设备及计算机可读存储介质，包括如下步骤：基于正常流量样本和恶意流量样本提取特征；将所述提取特征中适用于深度学习的第一特征输入深度学习模型进行训练，形成基于深度学习的深度检测模型；将深度学习模型输出的特征集输入到机器学习模型，将所述提取特征中适用于机器学习的第二特征输入到所述机器学习模型，形成基于机器学习的机器检测模型；利用所述深度检测模型和所述机器学习检测模型，对真实网络流量进行检测，最终识别出加密恶意流量。该专利可以有效解决人工特征提取不全面的问题。同时可以更加有效地识别恶意加密流量，同时可以确保检测模型在语义上是用户可理解的。但是其属于单独深度检测模型和所述机器学习检测模型进行恶意流量识别，识别的结果考虑的是单一模型的结果，对恶意流量的识别率不高。

发明内容

本发明所要解决的技术问题在于现有技术对恶意流量的识别率不高的问题。

本发明通过以下技术手段实现解决上述技术问题的：一种恶意代码检测的方法，所述方法包括：

步骤一：将可执行程序代码在动态沙箱中模拟运行，获取数据集；

步骤二：利用数据集训练XGBoost模型；

步骤三：利用数据集训练TextCNN模型；

步骤四：将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型，将两个模型的输出结果进行归一化处理得到最终的预测结果。

本发明将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型，将两个模型的输出结果进行归一化处理得到最终的预测结果，将机器学习模型和深度学习模型相结合，输出的预测结果是融合了两种模型的结果，大大提高了恶意代码的识别率。

进一步地，所述步骤一包括：将windows可执行程序在动态沙箱中模拟运行，得到每个样本对应的API指令序列，每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号，其中，文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。

进一步地，所述步骤二包括：

步骤201：将数据集中API指令序列输入word2vec模型中进行学习，获得每个API指令序列对应的词向量，再根据每个样本对应的API指令序列，通过相加求平均值的方式获得每个样本对应的词向量；

步骤202：将数据集中API指令序列输入N-gram模型中进行学习，得到每个API指令序列的N-gram特征，再根据每个样本对应的API指令序列的编号，获得每个样本的N-gram特征；

步骤203：将每个样本对应的词向量与每个样本的N-gram特征进行拼接融合，得到融合后的特征向量；

步骤204：将每个样本融合后的特征向量输入到XGBoost模型进行训练，不断调整XGBoost模型的参数，直到XGBoost模型的目标函数收敛时停止训练，得到训练好的XGBoost模型。

进一步地，所述步骤三包括：

步骤301：将数据集中API指令序列输入word2vec模型中进行学习，获得每个API指令序列对应的词向量，在每个API指令序列对应的词向量中添加零向量使得每个API指令序列对应的词向量维度相同得到样本向量；

步骤302：将每个样本向量输入到TextCNN模型进行训练，不断调整TextCNN模型的参数，直到TextCNN模型的目标函数收敛时停止训练，得到训练好的TextCNN模型。

更进一步地，所述TextCNN模型的模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20]。

更进一步地，步骤301之前还包括：对每个样本的API指令序列进行统一长度的处理，对于API指令序列长度低于预设值的，将其填充到预设值，对于API指令序列长度超过预设值的，只保留前预设值个API。

本发明还提供一种恶意代码检测的装置，所述装置包括：

数据集获取模块，用于将可执行程序代码在动态沙箱中模拟运行，获取数据集；

XGBoost模型训练模块，用于利用数据集训练XGBoost模型；

TextCNN模型训练模块，用于利用数据集训练TextCNN模型；

预测结果输出模块，用于将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型，将两个模型的输出结果进行归一化处理得到最终的预测结果。

进一步地，所述数据集获取模块还用于：将windows可执行程序在动态沙箱中模拟运行，得到每个样本对应的API指令序列，每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号，其中，文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。

进一步地，所述XGBoost模型训练模块包括：

词向量获取单元，用于将数据集中API指令序列输入word2vec模型中进行学习，获得每个API指令序列对应的词向量，再根据每个样本对应的API指令序列，通过相加求平均值的方式获得每个样本对应的词向量；

N-gram特征获取单元，用于将数据集中API指令序列输入N-gram模型中进行学习，得到每个API指令序列的N-gram特征，再根据每个样本对应的API指令序列的编号，获得每个样本的N-gram特征；

特征向量获取单元，用于将每个样本对应的词向量与每个样本的N-gram特征进行拼接融合，得到融合后的特征向量；

XGBoost训练单元，用于将每个样本融合后的特征向量输入到XGBoost模型进行训练，不断调整XGBoost模型的参数，直到XGBoost模型的目标函数收敛时停止训练，得到训练好的XGBoost模型。

进一步地，所述TextCNN模型训练模块包括：

样本向量获取单元，用于将数据集中API指令序列输入word2vec模型中进行学习，获得每个API指令序列对应的词向量，在每个API指令序列对应的词向量中添加零向量使得每个API指令序列对应的词向量维度相同得到样本向量；

TextCNN训练单元，用于将每个样本向量输入到TextCNN模型进行训练，不断调整TextCNN模型的参数，直到TextCNN模型的目标函数收敛时停止训练，得到训练好的TextCNN模型。

进一步地，所述样本向量获取单元之前还包括预处理单元，用于对每个样本的API指令序列进行统一长度的处理，对于API指令序列长度低于预设值的，将其填充到预设值，对于API指令序列长度超过预设值的，只保留前预设值个API。

本发明还提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现上述方法步骤。

本发明还提供一种计算机可读存储介质，存储有计算机程序指令，所述计算机程序指令在被处理器调用和执行时实现上述方法步骤。

本发明的优点在于：本发明将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型，将两个模型的输出结果进行归一化处理得到最终的预测结果，将机器学习模型和深度学习模型相结合，输出的预测结果是融合了两种模型的结果，大大提高了恶意代码的识别率。。

附图说明

图1为本发明实施例所公开的一种恶意代码检测的方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种恶意代码检测的方法，所述方法包括：

S1：将可执行程序代码在动态沙箱中模拟运行，获取数据集；具体过程为：将windows可执行程序在动态沙箱中模拟运行，得到每个样本对应的API指令序列，每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号，其中，文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。这样就将恶意程序检测问题转换为对API指令序列的文本分类问题，可根据得到的API序列对程序文件进行多分类(本实施例中分八个类别)预测，训练数据字段如表1所示，本实施例中只用到文件编号、文件标签、API名称以及API调用的顺序编号。

表1数据字段

S2：利用数据集训练XGBoost模型；XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升，是一种基于集成思想的机器学习算法。其目标函数为

其中i表示第i个样本，

表示第i个样本的预测误差,误差越小预测结果越确，∑_kΩ(f_k)表示模型的复杂度的函数，复杂度越低泛化能力越强，可防止过拟合问题。此外，XGBoost还支持并行化，可大大提升训练速度。因此，XGBoost在文本分类问题中，能够得到很好的分类效果。以下详细介绍XGBoost模型训练过程为：

步骤201：将数据集中API指令序列输入word2vec模型中进行学习，获得每个API指令序列对应的词向量，再根据每个样本对应的API指令序列，通过相加求平均值的方式获得每个样本对应的词向量；本实施例中数据集包含301个API。

步骤204：将每个样本融合后的特征向量输入到XGBoost模型进行训练，不断调整XGBoost模型的参数，直到XGBoost模型的目标函数收敛时停止训练，得到训练好的XGBoost模型。需要说明的是，XGBoost是一种应用于梯度提升算法的分类器，为了提高模型的稳定性和预测精度，在训练数据时将数据进行10折分层采样。再通过调参等手段得到XGBoost分类器，最终得到结果为测试数据集每个样本对应八个恶意程序类型的概率矩阵。

S3：利用数据集训练TextCNN模型；TextCNN是Yoon Kim在论文(2014EMNLP)Convolutional Neural Networks for Sentence Classification中提出的。将卷积神经网络CNN应用到文本分类任务，利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram)，从而能够更好地捕捉局部相关性。训练TextCNN模型的具体过程为：

步骤302：将每个样本向量输入到TextCNN模型进行训练，不断调整TextCNN模型的参数，直到TextCNN模型的目标函数收敛时停止训练，得到训练好的TextCNN模型。为了提高模型的预测能力，将模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20]，在全局最大池化的基础上添加了全局平均池化。由于TextCNN无法对变长序列进行处理，再根据训练集中每个文件对应的API个数分布表，为了尽可能的保存序列信息，填充每个API序列统一长度50000，超过50000的序列只保留前50000个API。

为了抑制过拟合现象，采用了Dropout、标签平滑等方法。标签平滑是将标签进行变换。

转换前的标签为one-hot表示：

转换后的标签表示：

n为类别个数，本实施例中类别个数为8，∈为误差，如果只是预测对应的类别，∈取0.1效果就会提升，如果要预测每个类别的概率，∈取值需要很小才会有效果，本实例中∈取0.005。

通过调参、抑制过拟合等手段训练深度学习模型，输出结果为测试数据集每个样本对应八个恶意程序类型的概率矩阵。

S4：将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型，将两个模型的输出结果进行归一化处理得到最终的预测结果。

通过以上技术方案，本发明将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型，将两个模型的输出结果进行归一化处理得到最终的预测结果，将机器学习模型和深度学习模型相结合，输出的预测结果是融合了两种模型的结果，大大提高了恶意代码的识别率。

实施例2

与本发明实施例1相对应的，本发明实施例2提供一种恶意代码检测的装置，所述装置包括：

XGBoost模型训练模块，用于利用数据集训练XGBoost模型；

TextCNN模型训练模块，用于利用数据集训练TextCNN模型；

具体的，所述数据集获取模块还用于：将windows可执行程序在动态沙箱中模拟运行，得到每个样本对应的API指令序列，每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号，其中，文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。

具体的，所述XGBoost模型训练模块包括：

具体的，所述TextCNN模型训练模块包括：

更具体的，所述TextCNN模型的模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20]。

具体的，所述样本向量获取单元之前还包括预处理单元，用于对每个样本的API指令序列进行统一长度的处理，对于API指令序列长度低于预设值的，将其填充到预设值，对于API指令序列长度超过预设值的，只保留前预设值个API。

实施例3

与实施例1相对应的本发明实施例3还提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现实施例1所述的方法步骤。

实施例4

与实施例1相对应的本发明实施例4还提供一种计算机可读存储介质，存储有计算机程序指令，所述计算机程序指令在被处理器调用和执行时实现实施例1所述的方法步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种恶意代码检测的方法，其特征在于，所述方法包括：

步骤二：利用数据集训练XGBoost模型；

步骤三：利用数据集训练TextCNN模型；

2.根据权利要求1所述的一种恶意代码检测的方法，其特征在于，所述步骤一包括：将windows可执行程序在动态沙箱中模拟运行，得到每个样本对应的API指令序列，每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号，其中，文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。

3.根据权利要求1所述的一种恶意代码检测的方法，其特征在于，所述步骤二包括：

4.根据权利要求1所述的一种恶意代码检测的方法，其特征在于，所述步骤三包括：

5.根据权利要求4所述的一种恶意代码检测的方法，其特征在于，所述TextCNN模型的模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20]。

6.根据权利要求4所述的一种恶意代码检测的方法，其特征在于，步骤301之前还包括：对每个样本的API指令序列进行统一长度的处理，对于API指令序列长度低于预设值的，将其填充到预设值，对于API指令序列长度超过预设值的，只保留前预设值个API。

7.一种恶意代码检测的装置，其特征在于，所述装置包括：

XGBoost模型训练模块，用于利用数据集训练XGBoost模型；

TextCNN模型训练模块，用于利用数据集训练TextCNN模型；

8.根据权利要求7所述的一种恶意代码检测的装置，其特征在于，所述数据集获取模块还用于：将windows可执行程序在动态沙箱中模拟运行，得到每个样本对应的API指令序列，每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号，其中，文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序指令，所述处理器执行所述计算机程序指令时，实现权利要求1-6任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序指令，所述计算机程序指令在被处理器调用和执行时实现权利要求1-6任一项所述的方法步骤。