CN112231703A - 一种结合api模糊处理技术的恶意软件对抗样本生成方法 - Google Patents
一种结合api模糊处理技术的恶意软件对抗样本生成方法 Download PDFInfo
- Publication number
- CN112231703A CN112231703A CN202011239328.0A CN202011239328A CN112231703A CN 112231703 A CN112231703 A CN 112231703A CN 202011239328 A CN202011239328 A CN 202011239328A CN 112231703 A CN112231703 A CN 112231703A
- Authority
- CN
- China
- Prior art keywords
- api
- sample
- malicious software
- function
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Virology (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Stored Programmes (AREA)
Abstract
本发明涉及一种结合API模糊处理技术的恶意软件对抗样本生成方法,属于计算机与信息科学技术领域。本发明首先向原始的API调用序列中插入无关的API向量,初步实现恶意软件特征功能的混淆;然后对样本实施函数调用重定向的混淆操作,隐藏API的函数功能;最后,把修改后的样本馈送到恶意软件分类器,检查它是否实现了错误分类,利用遗传算法解决优化问题。本发明具有更高的实用性,更符合现实需求;相比于面向黑盒的对抗样本生成方法,本发明不仅没有破坏恶意软件原始的功能,而且在欺骗恶意软件分类器时具有高成功率,极大改善了无法平衡对抗样本欺骗成功率低和恶意软件功能被破坏的问题。
Description
技术领域
本发明涉及一种结合API模糊处理技术的恶意软件对抗样本生成方法,属于计算机与信息科学技术领域。
背景技术
由于网络空间中存在大量的恶意软件攻击,机器学习技术已经广泛用于恶意软件的检测与分类,为了评估恶意软件检测模型的抗攻击性,研究面向恶意软件检测模型的攻击方法尤为重要。同时,深度模型本身已被证明容易收到对抗样本的攻击,到目前为止,尽管对抗学习一直是一个活跃的研究领域,但是大部分对抗样本的研究多应用在图像识别领域,研究基于深度学习的恶意软件检测系统的对抗攻击方法占少数,并且大部分对抗样本生成方法都无法保证样本的可执行性。因此,本发明将提供一种结合API模糊处理技术的恶意软件对抗样本生成方法,来提高针对恶意软件检测系统的欺骗率。
恶意软件对抗样本生成方法需要解决的基本问题是:生成无关的API插入原始的API序列,通过一种API混淆技术隐藏导入的API函数,将恶意软件分类器以高成功率欺骗为错误分类。综合现有的对抗样本生成方法,通常使用方法可归为两类:
1.面向白盒的对抗样本攻击方法
面向白盒的对抗样本攻击方法可以根据已知参数信息的模型生成对抗样本,通过在数据集中通过故意添加微小的干扰生成输入的对抗样本,从而导致目标模型以高置信度给出一个错误的输出。但是由于目标模型的参数信息很难获取,所以这种方法不具备实用性。
2.面向黑盒的对抗样本攻击方法
面向黑盒的对抗样本攻击方法可以根据已知参数信息的模型生成对抗样本,通过获取模型最终的分类输出结果,或基于对抗生成网络(GAN)生成针对恶意软件检测模型的对抗样本,最终成功绕过检测器的检测。但是这些方法通常破坏了恶意软件的功能,导致无法创建出可以在实践中有效工作的对抗样本。
综上所述,现有的恶意软件对抗样本生成方法中,面向黑盒的攻击方法更具有可行性,但很难保证在加入扰动之后不破坏恶意软件的功能,保证对抗样本可以用于现实的对抗攻击中。所以本发明提出一种结合API模糊处理技术的恶意软件对抗样本生成方法。
发明内容
本发明的目的是为了生成精心制作的对抗样本,欺骗可移植可执行(PE)恶意软件分类器从而导致高成功率的误分类,所以提出了一种结合API模糊处理技术的恶意软件对抗样本生成方法。
本发明的设计原理为:本发明首先向原始的API恶意序列中插入无关的API向量,在保证恶意软件的功能性不被破坏的前提下生成修改后的恶意序列;然后根据集合中对应API函数是否混淆,生成混淆向量M并进行模糊处理;最后,把修改后的假设样本馈送到恶意软件分类器,检查它是否实现了错误分类。
本发明的技术方案是通过如下步骤实现的:
步骤1,向原始的API调用序列中插入无关的API向量,根据修改后的API调用序列生成恶意软件特征向量XP,初步实现恶意软件特征功能的混淆。
步骤1.1,确定一个有序集合V,其包含PE程序可以调用的所有API函数。
步骤1.2,在API的随机位置i插入一个新的已编码API向量,位置i…n中的API被退回一个位置。
步骤1.3,根据修改后的API调用序列生成二进制恶意软件特征向量XP。
步骤2,设混淆向量为M,指示集合中对应的API函数是否应该混淆,对样本实施函数调用重定向的混淆操作,最终隐藏API的函数功能。
步骤2.1,初始化一个只采用二进制值表示的混淆向量M,指示有序集V中对应的API函数是否应该混淆。
步骤2.2,实施具体的API混淆操作。混淆处理后的样本特征向量变为XP⊙M,其中⊙表示逐元素相乘。
步骤3,把修改后的样本馈送到恶意软件分类器,检查它是否实现了错误分类,利用遗传算法解决优化问题。
步骤3.1,初始化种群。
步骤3.2,遗传操作,对于向量M中属于可操作集的每个元素,进行完全变异、部分变异或交叉。
步骤3.3,如果对于当前的锚点样本q,遗传算法未能找到可以将分类器欺骗为目标错误分类的实际对抗性样本,则从集合中选择一个不同的样本,然后重新运行遗传算法。
有益效果
相比于面向白盒的恶意软件对抗样本生成方法,本发明具有更高的实用性,更符合现实需求;相比于面向黑盒的对抗样本生成方法,本发明不仅没有破坏恶意软件原始的功能,而且在欺骗恶意软件分类器时具有高成功率,极大改善了无法平衡对抗样本欺骗成功率低和恶意软件功能被破坏的问题。
附图说明
图1为本发明一种结合API模糊处理技术的恶意软件对抗样本生成方法的原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
具体流程为:
步骤1,向原始的API调用序列中插入无关的API向量,根据修改后的API调用序列生成恶意软件特征向量XP,通过添加冗余代码初步实现恶意软件特征功能的混淆。
步骤1.1,确定一个有序集合V,其包含PE程序可以调用的所有API函数。
步骤1.2,设l为攻击所用的API调用序列的长度,X为长度为l的API恶意序列,把X分成个长度为n的wj,其中n为wj中API调用的个数,在每个wj中随机选择一个API位置i∈{1…n},在位置i插入一个API向量:其中⊥表示串联操作, 插入API后,位置i…n中的API被退回一个位置,最后一个API调用被推出并从中删除,从推出的API将作为wj+1的开始。
步骤1.3,根据修改后的API调用序列生成二进制恶意软件特征向量XP,其大小为|V|,指示原始PE样本是否已使用API函数,通过添加冗余代码初步实现恶意软件特征功能的混淆。
步骤2,设混淆向量为M,指示集合中对应的API函数是否应该混淆,对样本实施函数调用重定向的混淆操作,最终隐藏API的函数功能。
步骤2.1,初始化一个只采用二进制值表示的混淆向量M,大小为|V|,指示有序集V中对应的API函数是否应该混淆。
步骤2.2,实施具体的API混淆操作,构造一个调用指令来实现功能函数调用的重定向过程,使函数名不直接出现在反汇编代码中,最终隐藏API的函数功能。模糊处理后的样本特征向量变为XP⊙M,其中⊙表示逐元素相乘。
步骤3,把修改后的样本馈送到恶意软件分类器,检查它是否实现了错误分类,利用遗传算法解决优化问题。
步骤3.1,初始化种群。定义一条染色体为向量M的样本,随机生成大小为|H|的种群H,如果当前H中没有一个能够成功实现针对性的错误分类,则从H中选择适应性得分最高的前t个染色体,并将它们添加到列表L中,其中样本的适应性得分计算为其特征向量与锚定样本的特征向量之间的KL距离,即产生以下优化问题:
步骤3.2,进行遗传操作,对于向量M中属于可操作集的每个元素,操作分为完全变异、部分变异或交叉。完全变异:将元素随机分配为0或1,执行200次完全变异。部分变异:选择以0.5的概率对元素进行变异,如果选择进行变异,则其值将在0和1之间随机选择,对列表L上的200条染色体进行部分变异。交叉:从列表L中随机选择两个染色体h0和h1创建一个新的变体,交叉操作执行200次。
步骤3.3,如果对于当前的锚点样本q,遗传算法未能找到可以将分类器欺骗为目标错误分类的实际对抗性样本,则从集合中选择一个不同的样本,然后重新运行遗传算法。
测试结果:实验一种结合API模糊处理技术的恶意软件对抗样本生成方法,本发明在未知检测器参数的背景下,向恶意扰动序列中插入已编码的API向量,进行模糊处理并利用遗传算法解决优化问题,维持了恶意软件的功能性,同时提高了在恶意软件检测下对抗样本的欺骗成功率,效果见表1和表2,有效的实现了恶意软件的对抗样本攻击。
表1.恶意软件分类器性能
表2.攻击性能
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种结合API模糊处理技术的恶意软件对抗样本生成方法,其特征在于所述方法包括如下步骤:
步骤1,向原始的API调用序列中插入无关的API向量,初步实现恶意软件特征功能的混淆,首先,确定一个有序集合V,其包含PE程序可以调用的所有API函数;其次,在API的随机位置i插入一个新的已编码API向量,位置i...n中的API被退回一个位置;最后,根据修改后的API调用序列生成二进制恶意软件特征向量XP;
步骤2,对样本实施混淆操作,隐藏API的函数功能,首先,初始化一个只采用二进制值表示的混淆向量M,指示有序集V中对应的API函数是否应该混淆;然后,对样本实施函数调用重定向的混淆操作;
步骤3,把修改后的样本馈送到恶意软件分类器,检查它是否实现了错误分类,利用遗传算法解决优化问题。
2.根据权利要求1所述的一种结合API模糊处理技术的恶意软件对抗样本生成方法,其特征在于:步骤1中设l为攻击所用的API调用序列的长度,X为长度为l的API恶意序列,把X分成个长度为n的wj,其中n为wj中API调用的个数,在每个wj中随机选择一个API位置i∈{1...n},在位置i插入一个API向量:其中⊥表示串联操作,插入API后,位置i...n中的API被退回一个位置,最后一个API调用被推出并从中删除,从推出的API将作为wj+1的开始;根据修改后的API调用序列生成二进制恶意软件特征向量XP,其大小为|V|,指示原始PE样本是否已使用API函数,通过添加冗余代码初步实现恶意软件特征功能的混淆。
3.根据权利要求1所述的一种结合API模糊处理技术的恶意软件对抗样本生成方法,其特征在于:步骤2中实施具体的API混淆操作,构造一个调用指令来实现功能函数调用的重定向过程,使函数名不直接出现在反汇编代码中,最终隐藏API的函数功能,模糊处理后的样本特征向量变为XP⊙M,其中⊙表示逐元素相乘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011239328.0A CN112231703B (zh) | 2020-11-09 | 2020-11-09 | 一种结合api模糊处理技术的恶意软件对抗样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011239328.0A CN112231703B (zh) | 2020-11-09 | 2020-11-09 | 一种结合api模糊处理技术的恶意软件对抗样本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231703A true CN112231703A (zh) | 2021-01-15 |
CN112231703B CN112231703B (zh) | 2022-08-05 |
Family
ID=74122248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011239328.0A Active CN112231703B (zh) | 2020-11-09 | 2020-11-09 | 一种结合api模糊处理技术的恶意软件对抗样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231703B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860932A (zh) * | 2021-02-19 | 2021-05-28 | 电子科技大学 | 抵御恶意样本攻击的图像检索方法、装置、设备及存储介质 |
CN113238957A (zh) * | 2021-05-28 | 2021-08-10 | 北京理工大学 | 智能化场景下流量监测系统的测试样本生成方法 |
CN113254930A (zh) * | 2021-05-28 | 2021-08-13 | 北京理工大学 | 一种pe恶意软件检测模型的后门对抗样本生成方法 |
CN114036521A (zh) * | 2021-11-29 | 2022-02-11 | 北京航空航天大学 | 一种Windows恶意软件对抗样本生成方法 |
CN114266050A (zh) * | 2022-03-03 | 2022-04-01 | 西南石油大学 | 一种跨平台恶意软件对抗样本生成方法及系统 |
CN115168859A (zh) * | 2022-09-05 | 2022-10-11 | 浙江工业大学 | 面向api序列恶意软件检测模型的黑盒攻击与防御方法 |
CN116738429A (zh) * | 2023-08-15 | 2023-09-12 | 之江实验室 | 基于生成对抗的目标检测引擎优化方法、装置及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7640583B1 (en) * | 2005-04-01 | 2009-12-29 | Microsoft Corporation | Method and system for protecting anti-malware programs |
CN103324872A (zh) * | 2013-07-12 | 2013-09-25 | 上海交通大学 | 基于指令混淆的Android应用程序保护方法及系统 |
CN109446808A (zh) * | 2018-10-30 | 2019-03-08 | 中国人民解放军国防科技大学 | 基于DCGAN的Android对抗样本生成方法及系统 |
CN109492355A (zh) * | 2018-11-07 | 2019-03-19 | 中国科学院信息工程研究所 | 一种基于深度学习的软件抗分析方法和系统 |
CN110210190A (zh) * | 2019-05-30 | 2019-09-06 | 中国科学院信息工程研究所 | 一种基于二次汇编的代码混淆方法 |
CN111259393A (zh) * | 2020-01-14 | 2020-06-09 | 河南信息安全研究院有限公司 | 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法 |
US20200210575A1 (en) * | 2018-12-28 | 2020-07-02 | Mcafee, Llc | Methods and apparatus to detect adversarial malware |
CN111475810A (zh) * | 2020-04-13 | 2020-07-31 | 广州锦行网络科技有限公司 | 一种恶意软件检测器训练方法及系统、检测方法及系统 |
-
2020
- 2020-11-09 CN CN202011239328.0A patent/CN112231703B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7640583B1 (en) * | 2005-04-01 | 2009-12-29 | Microsoft Corporation | Method and system for protecting anti-malware programs |
CN103324872A (zh) * | 2013-07-12 | 2013-09-25 | 上海交通大学 | 基于指令混淆的Android应用程序保护方法及系统 |
CN109446808A (zh) * | 2018-10-30 | 2019-03-08 | 中国人民解放军国防科技大学 | 基于DCGAN的Android对抗样本生成方法及系统 |
CN109492355A (zh) * | 2018-11-07 | 2019-03-19 | 中国科学院信息工程研究所 | 一种基于深度学习的软件抗分析方法和系统 |
US20200210575A1 (en) * | 2018-12-28 | 2020-07-02 | Mcafee, Llc | Methods and apparatus to detect adversarial malware |
CN110210190A (zh) * | 2019-05-30 | 2019-09-06 | 中国科学院信息工程研究所 | 一种基于二次汇编的代码混淆方法 |
CN111259393A (zh) * | 2020-01-14 | 2020-06-09 | 河南信息安全研究院有限公司 | 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法 |
CN111475810A (zh) * | 2020-04-13 | 2020-07-31 | 广州锦行网络科技有限公司 | 一种恶意软件检测器训练方法及系统、检测方法及系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860932A (zh) * | 2021-02-19 | 2021-05-28 | 电子科技大学 | 抵御恶意样本攻击的图像检索方法、装置、设备及存储介质 |
CN113238957A (zh) * | 2021-05-28 | 2021-08-10 | 北京理工大学 | 智能化场景下流量监测系统的测试样本生成方法 |
CN113254930A (zh) * | 2021-05-28 | 2021-08-13 | 北京理工大学 | 一种pe恶意软件检测模型的后门对抗样本生成方法 |
CN114036521A (zh) * | 2021-11-29 | 2022-02-11 | 北京航空航天大学 | 一种Windows恶意软件对抗样本生成方法 |
CN114036521B (zh) * | 2021-11-29 | 2024-05-03 | 北京航空航天大学 | 一种Windows恶意软件对抗样本生成方法 |
CN114266050A (zh) * | 2022-03-03 | 2022-04-01 | 西南石油大学 | 一种跨平台恶意软件对抗样本生成方法及系统 |
CN114266050B (zh) * | 2022-03-03 | 2022-10-04 | 西南石油大学 | 一种跨平台恶意软件对抗样本生成方法及系统 |
CN115168859A (zh) * | 2022-09-05 | 2022-10-11 | 浙江工业大学 | 面向api序列恶意软件检测模型的黑盒攻击与防御方法 |
CN115168859B (zh) * | 2022-09-05 | 2022-11-29 | 浙江工业大学 | 面向api序列恶意软件检测模型的黑盒攻击与防御方法 |
CN116738429A (zh) * | 2023-08-15 | 2023-09-12 | 之江实验室 | 基于生成对抗的目标检测引擎优化方法、装置及系统 |
CN116738429B (zh) * | 2023-08-15 | 2023-11-14 | 之江实验室 | 基于生成对抗的目标检测引擎优化方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112231703B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112231703B (zh) | 一种结合api模糊处理技术的恶意软件对抗样本生成方法 | |
Tang et al. | CNN-based adversarial embedding for image steganography | |
CN111310802B (zh) | 一种基于生成对抗网络的对抗攻击防御训练方法 | |
Boenisch | A systematic review on model watermarking for neural networks | |
CN111832019B (zh) | 基于生成对抗网络的恶意代码检测方法 | |
AprilPyone et al. | Block-wise image transformation with secret key for adversarially robust defense | |
Chiang et al. | Detection as regression: Certified object detection with median smoothing | |
Liu et al. | Security analysis and enhancement of model compressed deep learning systems under adversarial attacks | |
CN110659486B (zh) | 用于使用两级文件分类来检测恶意文件的系统和方法 | |
CN113269241B (zh) | 一种遥感图像对抗样本的软阈值防御方法 | |
Labaca-Castro et al. | Poster: Attacking malware classifiers by crafting gradient-attacks that preserve functionality | |
CN112488225A (zh) | 一种量子模糊机器学习对抗防御模型方法 | |
Pérez et al. | Universal steganography detector based on an artificial immune system for JPEG images | |
Hussain et al. | Recognition based segmentation of connected characters in text based CAPTCHAs | |
Zanddizari et al. | Generating black-box adversarial examples in sparse domain | |
CN111881446B (zh) | 一种工业互联网恶意代码识别方法及装置 | |
JP2023513109A (ja) | 二値画像認識システムへのサイバー攻撃の検出及び軽減 | |
Kang et al. | Resilience against Adversarial Examples: Data-Augmentation Exploiting Generative Adversarial Networks. | |
Zhang et al. | MODA: Model Ownership Deprivation Attack in Asynchronous Federated Learning | |
Nowroozi et al. | Employing deep ensemble learning for improving the security of computer networks against adversarial attacks | |
Dai et al. | Balancing Robustness and Covertness in NLP Model Watermarking: A Multi-Task Learning Approach | |
Cai et al. | Detecting a malicious executable without prior knowledge of its patterns | |
Sharma et al. | Towards secured image steganography based on content-adaptive adversarial perturbation | |
CN117932457B (zh) | 一种基于错误分类的模型指纹识别方法及系统 | |
CN111552970A (zh) | 基于三位一体综合画像的恶意代码检测及恶意性定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |