CN112765606A

CN112765606A - 恶意代码同源性分析方法和装置及设备

Info

Publication number: CN112765606A
Application number: CN202110067880.4A
Authority: CN
Inventors: 吴来云
Original assignee: Nanjing Dongxun Information Technology Co ltd
Current assignee: Nanjing Dongxun Information Technology Co ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-05-07

Abstract

本申请涉及一种恶意代码同源性分析方法，包括：将恶意代码样本集中的恶意代码样本进行分组，并提取出每一组中的各恶意代码样本的动态特征信息和静态特征信息；将每一组中的恶意代码样本的动态特征信息和静态特征信息进行数值化处理，得到每一组中的恶意代码样本的特征向量；采用卷积神经网络对每一组中的恶意代码样本的特征向量进行卷积运算，得到每一组中的恶意代码样本之间的特征相似度向量；基于动态BP神经网络对特征相似度向量进行分析检测，得到每一组中的恶意代码样本之间的同源性检测结果。其综合卷积神经网络和动态BP神经网络的配合，在对恶意代码同源性分析时，能够有效提高分析结果，使得对恶意代码的同源关系检测的更加准确。

Description

恶意代码同源性分析方法和装置及设备

技术领域

本申请涉及信息安全技术领域，尤其涉及一种恶意代码同源性分析方法和装置及设备。

背景技术

随着计算机网络的深度应用和恶意代码技术的不断发展，恶意代码已成为威胁计算机系统安全的一个重要因素。为了适应不同的攻击目标环境或实现不同的攻击目的，恶意代码的编写者会在一个原始恶意代码样本的基础上，通过修改得到不同的恶意代码。在此情况下，这些新生成的恶意代码使用的已经不再是传统恶意代码生存技术中的变形和多态技术。在eat恶意代码攻击越来越有组织性和目的性的新形势下，定义恶意代码同源性的概念，对现有的恶意代码同源性进行分析和总结已经成为当下必须的热点事件。

面对海量新出现恶意代码，基于特征码和签名的传统恶意代码分析方法已经不能满足恶意代码的检测需求，启发式方法、云检测技术以及主动防御技术被提出，并已经应用于恶意代码关联分析和同源分析。随着攻击向高级、持续(如：APT，advancedpersistentthreat)等方向发展，恶意代码攻击场景更加复杂，为了躲避检测，恶意代码不断采用多态和变形等方式。因此，发现样本中的同源关系对攻击组织溯源、运行环境还原以及攻击防范具有重要的作用。

发明内容

有鉴于此，本申请提出了一种恶意代码同源性分析方法，可以有效实现恶意代码的同源关系的检测，并且能够提高检测结果的准确度。

根据本申请的一方面，提供了一种恶意代码同源性分析方法，包括：

将恶意代码样本集中的恶意代码样本进行分组，并提取出每一组中的各恶意代码样本的动态特征信息和静态特征信息；

将每一组中的各恶意代码样本的所述动态特征信息和所述静态特征信息进行数值化处理，得到每一组中的各恶意代码样本的特征向量；

采用卷积神经网络对每一组中的各恶意代码样本的特征向量进行卷积运算，得到每一组中的各恶意代码样本之间的特征相似度向量；

基于动态BP神经网络对所述特征相似度向量进行分析检测，得到每一组中的恶意代码样本之间的同源性检测结果。

在一种可能的实现方式中，提取出每一组中的各恶意代码样本的动态特征信息，包括：

将各所述恶意代码样本提交至模拟运行环境进行运行分析，由运行分析结果中提取出各所述恶意代码样本的动态特征信息；

其中，所述动态特征信息包括：API函数调用信息、特殊字符串信息、特殊数值信息、进程行为信息、文件行为信息、网络行为信息和注册表行为信息中的至少一种。

在一种可能的实现方式中，提取出每一组中的各恶意代码样本的静态特征信息，包括：

获取所述恶意代码样本在模拟运行环境运行过程中生成的DUMP样本，然后使用反汇编工具对所述DUMP样本进行反汇编后提取出所述静态特征信息；

其中，所述静态特征信息包括：PE头部信息、样本加壳方式和对普通函数的调用信息中的至少一种。

在一种可能的实现方式中，将每一组中的各恶意代码样本的所述动态特征信息和所述静态特征信息进行数值化处理，包括：对所述动态特征信息和所述静态特征信息进行向量化处理。

在一种可能的实现方式中，对所述动态特征信息和所述静态特征信息进行向量化处理，包括：

由所述动态特征信息和所述静态特征信息中提取出非数值化特征信息；

使用TF-IDF方法将所述非数值化特征信息进行数值向量化。

在一种可能的实现方式中，使用TF-IDF方法将所述非数值化特征信息进行数值向量化后，还包括将数值向量化后的非数值化特征信息与数值化特征信息进行特征合并的步骤。

在一种可能的实现方式中，将每一组中的各恶意代码样板的所述动态特征信息和所述静态特征信息进行数值化处理后，还包括：对合并后的特征信息进行归一化处理；

其中，对合并后的特征信息进行归一化处理时，基于转换函数：

进行处理。

在一种可能的实现方式中，基于动态BP神经网络对所述特征相似度向量进行分析检测，得到每一组中的恶意代码样本之间的同源性检测结果时，所述动态BP神经网络中的学习率基于以下优化模型实时动态调整：

优化模型为：

其中，η为所述学习率，λ的取值范围为：0.0001≤λ≤0.001。

根据本申请的另一方面，还提供了一种恶意代码同源性分析装置，包括特征信息提取模块、特征信息处理模块、特征相似度计算模块和特征分析检测模块；

所述特征信息提取模块，被配置为将恶意代码样本集中的恶意代码样本进行分组，并提取出每一组中的各恶意代码样本的动态特征信息和静态特征信息；

所述特征信息处理模块，被配置为将每一组中的各恶意代码样本的所述动态特征信息和所述静态特征信息进行数值化处理并进行特征合并，得到每一组中的各恶意代码样本的特征向量；

所述特征相似度计算模块，被配置为采用卷积神经网络对每一组中的各恶意代码样本的特征向量进行卷积运算，得到每一组中的各恶意代码样本之间的特征相似度向量；

所述特征分析检测模块，被配置为基于动态BP神经网络对所述特征相似度向量进行分析检测，得到每一组中的恶意代码样本之间的同源性检测结果。

根据本申请的另一方面，还提供了一种恶意代码同源性分析设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。

通过对恶意代码样本进行动态特征信息和静态特征信息的提取，进而再基于提取出来的动态特征信息和静态特征信息，采用卷积神经网络计算每一组中各恶意代码样本之间的特征相似度向量，进而再以计算得到的特征相似度向量作为动态BP神经网络的输入，由动态BP神经网络对特征相似度向量进行分析检测，来实现对恶意代码的同源性分析。其综合卷积神经网络和动态BP神经网络的配合，在对恶意代码同源性分析时，能够有效提高分析结果，使得对恶意代码的同源关系检测的更加准确。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出本申请一实施例的恶意代码同源性分析方法的流程图；

图2示出本申请一实施例的恶意代码同源性分析方法的另一流程图；

图3示出本申请一实施例的恶意代码同源性分析方法中所提取出来的恶意代码样本同源分析中的特征；

图4示出本申请一实施例的恶意代码同源性分析方法中所采用卷积神经网络的网络结构；

图5示出本申请一实施例的恶意代码同源性分析方法中的动态BP神经网络模型的结构图；

图6示出本申请一实施例的恶意代码同源性分析方法中误差函数图；

图7示出本申请一实施例的恶意代码同源性分析装置的结构框图；

图8示出本申请一实施例的恶意代码同源性分析设备的结构框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

首先，需要说明的是，同源的定义可以理解为：若两个恶意代码样本是由同一恶意代码采用代码复用的方式演变而来，或者是行为具有相似性，而出现存在先后的关系，则认为这两个恶意代码样本存在同源关系。对应的，本申请实施例的恶意代码同源性分析指的就是对不同的恶意代码进行同源关系的检测分析。

图1示出根据本申请一实施例的恶意代码同源性分析方法的流程图。如图1所示，该方法包括：步骤S100，将恶意代码样本集中的恶意代码样本进行分组，每一组可以包含两个以上的恶意代码样本，并提取出每一组中的各恶意代码样本的动态特征信息和静态特征信息。此处，本领域技术人员可以理解的是，恶意代码样本集中包含有多个恶意代码样本，在对恶意代码同源性分析时，需要对两个以上的恶意代码进行特征相似度的分析检测，以判断这两个以上的恶意代码是否同源。因此，可以将恶意代码样本集中的恶意代码样本进行组合配对，可以将每两个恶意代码样本作为一组(即，一对)，然后一组一组的进行分析。其中，在对恶意代码样本集中的恶意代码样本进行组对时，可以根据按照排列组合的方式进行组合，也可以按照其他方式进行，此处不进行具体限定。

步骤S200，将每一组中的各恶意代码样本的动态特征信息和静态特征信息进行数值化处理，得到每一组中的各恶意代码样本的特征向量。即，对提取到的动态特征信息和静态特征信息进行数值化处理，从而便于后面进行特征相似度的计算获取。

在得到每一组中的各恶意代码样本的特征向量后，即可执行步骤S300，采用卷积神经网络对每一组中的各恶意代码样本的特征向量进行卷积运算，得到每一组中的恶意代码样本之间的特征相似度向量。最后，再通过步骤S400，基于动态BP神经网络对特征相似度向量进行分析检测，得到每一组中的恶意代码样本之间的同源性检测结果。

由此，本申请实施例的恶意代码同源性分析方法，通过对恶意代码样本进行动态特征信息和静态特征信息的提取，进而再基于提取出来的动态特征信息和静态特征信息，采用卷积神经网络计算每一组中恶意代码样本之间的特征相似度向量，进而再以计算得到的特征相似度向量作为动态BP神经网络的输入，由动态BP神经网络对特征相似度向量进行分析检测，来实现对恶意代码的同源性分析。其综合卷积神经网络和动态BP神经网络，通过基于卷积神经网络框架，同时对反向传播算法进行调整和改进，实现了在对恶意代码同源性分析时，能够有效提高分析结果的目的，使得对恶意代码的同源关系检测的更加准确。

其中，在一种可能的实现方式中，在将恶意代码样本集中的恶意代码样本进行分组配对之后，对每一组中的每个恶意代码样本进行动态特征信息的提取和静态特征信息的提取可以采用以下方式来实现。

即，参阅图2，首先，通过步骤S110，将各恶意代码样本提交至模拟运行环境进行运行分析，然后，通过步骤S120，由运行分析结果中提取出各恶意代码样本的动态特征信息。其中，需要指出的是，动态特征信息包括：API函数调用信息、特殊字符串信息、特殊数值信息、进程行为信息、文件行为信息、网络行为信息和注册表行为信息中的至少一种。

也就是说，将收集的恶意代码样本集中的恶意代码样本分别提交至模拟运行环境进行运行分析，针对每一个恶意代码样本都会生成一份样本报告。报告中收集了恶意代码样本运行过程中对操作系统各种资源的操作信息。比如：恶意代码样本对API函数以及普通函数调用序列信息、进程行为信息、文件行为信息、网络行为信息、注册表行为信息等。由该报告中即可直接提取出所需要的动态特征信息。

同时，在恶意代码样本模拟运行过程中，还会生成DUMP样本，使用反汇编工具对DUMP样本进行反汇编后即可提取静态特征信息。

即，参阅图2，在本申请一实施例的恶意代码同源性分析方法中，提取出每一组中的各恶意代码样本的静态特征信息时，可以通过以下方式获取。

首先，通过步骤S120’，获取恶意代码样本在模拟运行环境运行过程中生成的DUMP样本，然后执行步骤S130’，使用反汇编工具对DUMP样本进行反汇编后，再通过步骤S140’，由反汇编结果中提取出静态特征信息。

其中，应当指出的是，根据前面所述，对每一个恶意代码样本提取的动态特征信息包括但不限于：API函数调用信息，特殊字符串信息，特殊数值信息以及各种行为特征。对每一个恶意代码样本提取的静态特征信息包括但不限于：PE头部信息、样本加壳方式和对普通函数的调用信息。

参阅图3，其中，PE头部信息是在静态分析中通过读取DUMP样本的PE头结构，从节表结构数值中获取节的个数，节名，节属性信息，同时获取导入库的个数，导入库名以及导入的函数个数；加壳方式是对样本进行各种壳的特征串扫描获取的，判断样本是否加壳，加壳算法名称以及算法的版本信息。另外，通过反汇编工具的快速库鉴定与识别技术，提取样本的普通函数的签名信息。动态特征包括从将样本放至模拟运行环境中执行生成的报告中获取API序列字符串信息并对在对API函数调用参数的分析过程中，提取重要的数值型参数；分析样本对API函数调用的参数，提取重要的字符串型参数；在对样本动态执行生成的报告中得到的API调用序列及其参数值的基础上，提取与各种行为操作有关的API序列，若在序列中找到满足一定调用序列和参数条件的API序列，则认为样本存在特定的行为模式。

在通过上述任一方式提取出恶意代码样本的动态特征信息和静态特征信息之后，即可对提取出的动态特征信息和静态特征信息进行数值化处理。在一种可能的实现方式中，可以通过对动态特征信息和静态特征信息进行向量化处理的方式来实现。

具体的，由动态特征信息和静态特征信息中提取出非数值化特征信息；然后，使用TF-IDF方法将非数值化特征信息进行数值向量化。此处，需要解释说明的是，非数值化特征信息指的是动态特征信息和静态特征信息中的各种不同的行为特征信息。即，动态特征信息和静态特征信息中除数值化特征信息之外的其他特征信息。

也就是说，参阅图2，步骤S210，对于提取出的动态特征信息和静态特征信息中的数值化特征信息，可以直接以向量形式进行表征。而对于除数值化特征信息之外的其他特征信息，如：各种不同的行为特征信息，则可以采用TF-IDF将其进行数值向量化。

其中，TF-IDF(Term Frequency-inverse Document Frequency)是一种针对关键词的统计分析方法，用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比，跟它在语料库出现的次数成反比。其中，

TF-IDF的计算公式则为TF-IDF＝TF*IDF。

在计算出各类行为模式的词向量后，我们将其与提取出的数值化特征信息进行合并(即，步骤S220)。即，将数值向量化后的非数值化特征信息与数值化特征信息进行特征合并。

其中，需要说明的是，将数值向量化后的非数值化特征信息与数值化特征信息进行特征合并指的是，将属于同一恶意代码样本的数值向量化后的非数值化特征信息和数值化特征信息合并为一个数据集合，将另一恶意代码样本的数值向量化后的非数值化特征信息和数值化特征信息合并为另一数据集合，从而以便于后续对于两个恶意代码样本之间的特征相似度向量的计算。

此外，在本申请实施例的方法中，将提取出来的动态特征信息和静态特征信息均进行数值化处理之后，还可以对数值化处理后的动态特征信息和静态特征信息进行归一化处理。

这是因为，在实际经验中数值化处理后的动态特征信息和静态特征信息会(即，合并后的特征数据)存在不同的评价指标，其量纲或量纲单位不同，处于不同的数量级。为了解决特征指标之间的可比性，使得各指标处于同一数量级，便于综合对比，在一种可能的实现方式中，可以对特征数据进行归一化的预处理。其转换函数为：

归一化可以让不同维度之间的特征在数值上有一定的比较性，并可以大大提高分类器的准确性。

此处，应当指出的是，min(x)指的是特征数据的最小值，max(x)指的是特征数据的最大值，x为归一化之前的特征数据，x’为归一化后的特征数据。

通过上述任一方式对动态特征信息和静态特征信息进行数值化处理，得到恶意代码样本的特征向量之后，即可执行步骤S300，采用卷积神经网络对每一组中的恶意代码样本的特征向量进行卷积运算，得到每一组中的恶意代码样本之间的特征相似度向量。其中，参阅图4，为本申请一实施例中所采用的卷积神经网络。基于卷积神经网络框架，通过使用多个卷积核进行卷积运算，得到一组中两个恶意代码样本之间的特征相似度向量。

然后，再以所得到的特征相似度向量作为动态BP神经网络的输入，由动态BP神经网络对所述特征相似度向量进行分析检测，得到每一组中的恶意代码样本之间的同源性检测结果。

参阅图5，BP网络是一种多层前馈神经网络，它采用BP算法实现输入空间到输出空间的非线性映射，具有结构简单、可操作性强等优点。BP神经网络一般由三层构成，对于输入信号先传播到隐层节点，再把隐层节点的信息传播到输出节点。输入层有n个节点，隐层有h个节点，输出层有m个节点，w_ji表示输入层的第i节点和隐层节的第j节点之间的连接权值，v_ki表示隐层节的第i节点和输出层的第k节点之间的连接权值。BP神经网络的学习过程由模式正传播和误差逆传播两个过程组成，是基于误差修正学习的，而学习率的大小对收敛速度和训练结果影响很大。常规的BP神经网络模型具有一个重大缺陷，就是其学习过程的收敛速度非常慢。为了克服这个缺陷，我们在将BP神经网络应用于恶意代码同源性分析时，引入了动态BP神经网络的模型，即会动态得对学习效率进行调整，使得收敛速度极大得提高。

请参阅图6，收敛处则是误差函数的最优最终值。权值

(j＝0,1,2,…m；k＝1,2,…l)，其中，η为学习率。在实际应用中，如果误差在权值更新后减小了，此时如果再减小学习率，则权值修改的速度会比较慢，进而影响误差网络的收敛速度。此时如果增大学习率，使网络能够以较大幅度修改权值，网络训练效果就会更好一些。调整改进后的BP学习率的优化模型为：

其中，0.0001≤λ≤0.001，E(k)则为第k次迭代的误差值。这样，由于在学习过程中不断根据当前输出误差的变化情况来实时地调整学习率，神经网络学习过程的收敛速度就大大的加快了。

本申请实施例的恶意代码同源性分析方法，通过对收集的恶意样本集进行两两配对组合，计算样本之间的特征相似度向量作为输入向量，并将它们的同源性度量值作为期望输出值，通过训练不断调整各个特征对同源性分析结果的影响权值，从而实现从恶意代码特征向量到同源性分析结果的合理映射。如：来自同一同源性家族样本的期望输出为1，来自不同同源性家族样本的期望输出为0，结合调整改进后的BP算法模型，最终实现对未知样本间的同源性检测。

需要说明的是，尽管以图1至图7作为示例介绍了如上所述的恶意代码同源性分析方法，但本领域技术人员能够理解，本申请应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤的具体实现方式，只要是基于卷积神经网络和动态BP神经网络的综合配合来实现对恶意代码同源性的分析检测即可。

相应的，基于前面任一所述的恶意代码同源性分析方法，本申请还提供了一种恶意代码同源性分析装置。由于本申请提供的恶意代码同源性分析装置的工作原理与本申请提供的恶意代码同源性分析方法的原理相同或相似，因此重复之处不再赘述。

参阅图7，本申请提供的恶意代码同源性分析装置100，包括特征信息提取模块110、特征信息处理模块120、特征相似度计算模块130和特征分析检测模块140。其中，特征信息提取模块110，被配置为将恶意代码样本集中的恶意代码样本进行两两组合，并提取出每一组中的恶意代码样本的动态特征信息和静态特征信息。特征信息处理模块120，被配置为将每一组中的恶意代码样本的动态特征信息和静态特征信息进行数值化处理并进行特征合并，得到每一组中的恶意代码样本的特征向量。特征相似度计算模块130，被配置为采用卷积神经网络对每一组中的恶意代码样本的特征向量进行卷积运算，得到每一组中的恶意代码样本之间的特征相似度向量。特征分析检测模块140，被配置为基于动态BP神经网络对特征相似度向量进行分析检测，得到每一组中的恶意代码样本之间的同源性检测结果。

更进一步地，根据本申请的另一方面，还提供了一种恶意代码同源性分析设备200。参阅图8，本申请实施例的恶意代码同源性分析设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中，处理器210被配置为执行可执行指令时实现前面任一所述的恶意代码同源性分析方法。

此处，应当指出的是，处理器210的个数可以为一个或多个。同时，在本申请实施例的恶意代码同源性分析设备200中，还可以包括输入装置230和输出装置240。其中，处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器220作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本申请实施例的恶意代码同源性分析方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块，从而执行恶意代码同源性分析设备200的各种功能应用及数据处理。

输入装置230可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种恶意代码同源性分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，提取出每一组中的各恶意代码样本的动态特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，提取出每一组中的各恶意代码样本的静态特征信息，包括：

4.根据权利要求1所述的方法，其特征在于，将每一组中的各恶意代码样本的所述动态特征信息和所述静态特征信息进行数值化处理，包括：对所述动态特征信息和所述静态特征信息进行向量化处理。

5.根据权利要求4所述的方法，其特征在于，对所述动态特征信息和所述静态特征信息进行向量化处理，包括：

使用TF-IDF方法将所述非数值化特征信息进行数值向量化。

6.根据权利要求5所述的方法，其特征在于，使用TF-IDF方法将所述非数值化特征信息进行数值向量化后，还包括将数值向量化后的非数值化特征信息与数值化特征信息进行特征合并的步骤。

7.根据权利要求1所述的方法，其特征在于，将每一组中的各恶意代码样板的所述动态特征信息和所述静态特征信息进行数值化处理后，还包括：对合并后的特征信息进行归一化处理；

进行处理。

8.根据权利要求1所述的方法，其特征在于，基于动态BP神经网络对所述特征相似度向量进行分析检测，得到每一组中的恶意代码样本之间的同源性检测结果时，所述动态BP神经网络中的学习率基于以下优化模型实时动态调整：

优化模型为：

其中，η为所述学习率，λ的取值范围为：0.0001≤λ≤0.001。

9.一种恶意代码同源性分析装置，其特征在于，包括特征信息提取模块、特征信息处理模块、特征相似度计算模块和特征分析检测模块；

所述特征信息处理模块，被配置为将每一组中的各恶意代码样本的所述动态特征信息和所述静态特征信息进行数值化处理并进行特征合并，得到每一组中的恶意代码样本的特征向量；

10.一种恶意代码同源性分析设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至8中任意一项所述的方法。