CN112231703A

CN112231703A - 一种结合api模糊处理技术的恶意软件对抗样本生成方法

Info

Publication number: CN112231703A
Application number: CN202011239328.0A
Authority: CN
Inventors: 罗森林; 张荣倩; 潘丽敏; 闫晗; 张笈
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-01-15
Anticipated expiration: 2040-11-09
Also published as: CN112231703B

Abstract

本发明涉及一种结合API模糊处理技术的恶意软件对抗样本生成方法，属于计算机与信息科学技术领域。本发明首先向原始的API调用序列中插入无关的API向量，初步实现恶意软件特征功能的混淆；然后对样本实施函数调用重定向的混淆操作，隐藏API的函数功能；最后，把修改后的样本馈送到恶意软件分类器，检查它是否实现了错误分类，利用遗传算法解决优化问题。本发明具有更高的实用性，更符合现实需求；相比于面向黑盒的对抗样本生成方法，本发明不仅没有破坏恶意软件原始的功能，而且在欺骗恶意软件分类器时具有高成功率，极大改善了无法平衡对抗样本欺骗成功率低和恶意软件功能被破坏的问题。

Description

一种结合API模糊处理技术的恶意软件对抗样本生成方法

技术领域

本发明涉及一种结合API模糊处理技术的恶意软件对抗样本生成方法，属于计算机与信息科学技术领域。

背景技术

由于网络空间中存在大量的恶意软件攻击，机器学习技术已经广泛用于恶意软件的检测与分类，为了评估恶意软件检测模型的抗攻击性，研究面向恶意软件检测模型的攻击方法尤为重要。同时，深度模型本身已被证明容易收到对抗样本的攻击，到目前为止，尽管对抗学习一直是一个活跃的研究领域，但是大部分对抗样本的研究多应用在图像识别领域，研究基于深度学习的恶意软件检测系统的对抗攻击方法占少数，并且大部分对抗样本生成方法都无法保证样本的可执行性。因此，本发明将提供一种结合API模糊处理技术的恶意软件对抗样本生成方法，来提高针对恶意软件检测系统的欺骗率。

恶意软件对抗样本生成方法需要解决的基本问题是：生成无关的API插入原始的API序列，通过一种API混淆技术隐藏导入的API函数，将恶意软件分类器以高成功率欺骗为错误分类。综合现有的对抗样本生成方法，通常使用方法可归为两类：

1.面向白盒的对抗样本攻击方法

面向白盒的对抗样本攻击方法可以根据已知参数信息的模型生成对抗样本，通过在数据集中通过故意添加微小的干扰生成输入的对抗样本，从而导致目标模型以高置信度给出一个错误的输出。但是由于目标模型的参数信息很难获取，所以这种方法不具备实用性。

2.面向黑盒的对抗样本攻击方法

面向黑盒的对抗样本攻击方法可以根据已知参数信息的模型生成对抗样本，通过获取模型最终的分类输出结果，或基于对抗生成网络(GAN)生成针对恶意软件检测模型的对抗样本，最终成功绕过检测器的检测。但是这些方法通常破坏了恶意软件的功能，导致无法创建出可以在实践中有效工作的对抗样本。

综上所述，现有的恶意软件对抗样本生成方法中，面向黑盒的攻击方法更具有可行性，但很难保证在加入扰动之后不破坏恶意软件的功能，保证对抗样本可以用于现实的对抗攻击中。所以本发明提出一种结合API模糊处理技术的恶意软件对抗样本生成方法。

发明内容

本发明的目的是为了生成精心制作的对抗样本，欺骗可移植可执行(PE)恶意软件分类器从而导致高成功率的误分类，所以提出了一种结合API模糊处理技术的恶意软件对抗样本生成方法。

本发明的设计原理为：本发明首先向原始的API恶意序列中插入无关的API向量，在保证恶意软件的功能性不被破坏的前提下生成修改后的恶意序列；然后根据集合中对应API函数是否混淆，生成混淆向量M并进行模糊处理；最后，把修改后的假设样本馈送到恶意软件分类器，检查它是否实现了错误分类。

本发明的技术方案是通过如下步骤实现的：

步骤1，向原始的API调用序列中插入无关的API向量，根据修改后的API调用序列生成恶意软件特征向量X_P，初步实现恶意软件特征功能的混淆。

步骤1.1，确定一个有序集合V，其包含PE程序可以调用的所有API函数。

步骤1.2，在API的随机位置i插入一个新的已编码API向量，位置i…n中的API被退回一个位置。

步骤1.3，根据修改后的API调用序列生成二进制恶意软件特征向量X_P。

步骤2，设混淆向量为M，指示集合中对应的API函数是否应该混淆，对样本实施函数调用重定向的混淆操作，最终隐藏API的函数功能。

步骤2.1，初始化一个只采用二进制值表示的混淆向量M，指示有序集V中对应的API函数是否应该混淆。

步骤2.2，实施具体的API混淆操作。混淆处理后的样本特征向量变为X_P⊙M，其中⊙表示逐元素相乘。

步骤3，把修改后的样本馈送到恶意软件分类器，检查它是否实现了错误分类，利用遗传算法解决优化问题。

步骤3.1，初始化种群。

步骤3.2，遗传操作，对于向量M中属于可操作集的每个元素，进行完全变异、部分变异或交叉。

步骤3.3，如果对于当前的锚点样本q，遗传算法未能找到可以将分类器欺骗为目标错误分类的实际对抗性样本，则从集合中选择一个不同的样本，然后重新运行遗传算法。

有益效果

相比于面向白盒的恶意软件对抗样本生成方法，本发明具有更高的实用性，更符合现实需求；相比于面向黑盒的对抗样本生成方法，本发明不仅没有破坏恶意软件原始的功能，而且在欺骗恶意软件分类器时具有高成功率，极大改善了无法平衡对抗样本欺骗成功率低和恶意软件功能被破坏的问题。

附图说明

图1为本发明一种结合API模糊处理技术的恶意软件对抗样本生成方法的原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1，向原始的API调用序列中插入无关的API向量，根据修改后的API调用序列生成恶意软件特征向量X_P，通过添加冗余代码初步实现恶意软件特征功能的混淆。

步骤1.2，设l为攻击所用的API调用序列的长度，X为长度为l的API恶意序列，把X分成

个长度为n的w_j，其中

n为w_j中API调用的个数，在每个w_j中随机选择一个API位置i∈{1…n}，在位置i插入一个API向量:

其中⊥表示串联操作，

插入API后，位置i…n中的API被退回一个位置，最后一个API调用

被推出并从

中删除，从

推出的API将作为w_j+1的开始。

步骤1.3，根据修改后的API调用序列生成二进制恶意软件特征向量X_P，其大小为|V|，指示原始PE样本是否已使用API函数，通过添加冗余代码初步实现恶意软件特征功能的混淆。

步骤2.1，初始化一个只采用二进制值表示的混淆向量M，大小为|V|，指示有序集V中对应的API函数是否应该混淆。

步骤2.2，实施具体的API混淆操作，构造一个调用指令来实现功能函数调用的重定向过程，使函数名不直接出现在反汇编代码中，最终隐藏API的函数功能。模糊处理后的样本特征向量变为X_P⊙M，其中⊙表示逐元素相乘。

步骤3.1，初始化种群。定义一条染色体为向量M的样本，随机生成大小为|H|的种群H,如果当前H中没有一个能够成功实现针对性的错误分类，则从H中选择适应性得分最高的前t个染色体，并将它们添加到列表L中，其中样本的适应性得分计算为其特征向量与锚定样本的特征向量之间的KL距离，即

产生以下优化问题：

步骤3.2，进行遗传操作，对于向量M中属于可操作集的每个元素，操作分为完全变异、部分变异或交叉。完全变异：将元素随机分配为0或1，执行200次完全变异。部分变异：选择以0.5的概率对元素进行变异，如果选择进行变异，则其值将在0和1之间随机选择，对列表L上的200条染色体进行部分变异。交叉：从列表L中随机选择两个染色体h₀和h₁创建一个新的变体，交叉操作执行200次。

测试结果：实验一种结合API模糊处理技术的恶意软件对抗样本生成方法，本发明在未知检测器参数的背景下，向恶意扰动序列中插入已编码的API向量，进行模糊处理并利用遗传算法解决优化问题，维持了恶意软件的功能性，同时提高了在恶意软件检测下对抗样本的欺骗成功率，效果见表1和表2，有效的实现了恶意软件的对抗样本攻击。

表1.恶意软件分类器性能

表2.攻击性能

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合API模糊处理技术的恶意软件对抗样本生成方法，其特征在于所述方法包括如下步骤：

步骤1，向原始的API调用序列中插入无关的API向量，初步实现恶意软件特征功能的混淆，首先，确定一个有序集合V，其包含PE程序可以调用的所有API函数；其次，在API的随机位置i插入一个新的已编码API向量，位置i...n中的API被退回一个位置；最后，根据修改后的API调用序列生成二进制恶意软件特征向量X_P；

步骤2，对样本实施混淆操作，隐藏API的函数功能，首先，初始化一个只采用二进制值表示的混淆向量M，指示有序集V中对应的API函数是否应该混淆；然后，对样本实施函数调用重定向的混淆操作；

2.根据权利要求1所述的一种结合API模糊处理技术的恶意软件对抗样本生成方法，其特征在于：步骤1中设l为攻击所用的API调用序列的长度，X为长度为l的API恶意序列，把X分成

个长度为n的w_j，其中

n为w_j中API调用的个数，在每个w_j中随机选择一个API位置i∈{1...n}，在位置i插入一个API向量：

其中⊥表示串联操作，

插入API后，位置i...n中的API被退回一个位置，最后一个API调用

被推出并从

中删除，从

推出的API将作为w_j+1的开始；根据修改后的API调用序列生成二进制恶意软件特征向量X_P，其大小为|V|，指示原始PE样本是否已使用API函数，通过添加冗余代码初步实现恶意软件特征功能的混淆。

3.根据权利要求1所述的一种结合API模糊处理技术的恶意软件对抗样本生成方法，其特征在于：步骤2中实施具体的API混淆操作，构造一个调用指令来实现功能函数调用的重定向过程，使函数名不直接出现在反汇编代码中，最终隐藏API的函数功能，模糊处理后的样本特征向量变为X_P⊙M，其中⊙表示逐元素相乘。