CN112231703A - 一种结合api模糊处理技术的恶意软件对抗样本生成方法 - Google Patents

一种结合api模糊处理技术的恶意软件对抗样本生成方法 Download PDF

Info

Publication number
CN112231703A
CN112231703A CN202011239328.0A CN202011239328A CN112231703A CN 112231703 A CN112231703 A CN 112231703A CN 202011239328 A CN202011239328 A CN 202011239328A CN 112231703 A CN112231703 A CN 112231703A
Authority
CN
China
Prior art keywords
api
sample
malicious software
function
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011239328.0A
Other languages
English (en)
Other versions
CN112231703B (zh
Inventor
罗森林
张荣倩
潘丽敏
闫晗
张笈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011239328.0A priority Critical patent/CN112231703B/zh
Publication of CN112231703A publication Critical patent/CN112231703A/zh
Application granted granted Critical
Publication of CN112231703B publication Critical patent/CN112231703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Virology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及一种结合API模糊处理技术的恶意软件对抗样本生成方法,属于计算机与信息科学技术领域。本发明首先向原始的API调用序列中插入无关的API向量,初步实现恶意软件特征功能的混淆;然后对样本实施函数调用重定向的混淆操作,隐藏API的函数功能;最后,把修改后的样本馈送到恶意软件分类器,检查它是否实现了错误分类,利用遗传算法解决优化问题。本发明具有更高的实用性,更符合现实需求;相比于面向黑盒的对抗样本生成方法,本发明不仅没有破坏恶意软件原始的功能,而且在欺骗恶意软件分类器时具有高成功率,极大改善了无法平衡对抗样本欺骗成功率低和恶意软件功能被破坏的问题。

Description

一种结合API模糊处理技术的恶意软件对抗样本生成方法
技术领域
本发明涉及一种结合API模糊处理技术的恶意软件对抗样本生成方法,属于计算机与信息科学技术领域。
背景技术
由于网络空间中存在大量的恶意软件攻击,机器学习技术已经广泛用于恶意软件的检测与分类,为了评估恶意软件检测模型的抗攻击性,研究面向恶意软件检测模型的攻击方法尤为重要。同时,深度模型本身已被证明容易收到对抗样本的攻击,到目前为止,尽管对抗学习一直是一个活跃的研究领域,但是大部分对抗样本的研究多应用在图像识别领域,研究基于深度学习的恶意软件检测系统的对抗攻击方法占少数,并且大部分对抗样本生成方法都无法保证样本的可执行性。因此,本发明将提供一种结合API模糊处理技术的恶意软件对抗样本生成方法,来提高针对恶意软件检测系统的欺骗率。
恶意软件对抗样本生成方法需要解决的基本问题是:生成无关的API插入原始的API序列,通过一种API混淆技术隐藏导入的API函数,将恶意软件分类器以高成功率欺骗为错误分类。综合现有的对抗样本生成方法,通常使用方法可归为两类:
1.面向白盒的对抗样本攻击方法
面向白盒的对抗样本攻击方法可以根据已知参数信息的模型生成对抗样本,通过在数据集中通过故意添加微小的干扰生成输入的对抗样本,从而导致目标模型以高置信度给出一个错误的输出。但是由于目标模型的参数信息很难获取,所以这种方法不具备实用性。
2.面向黑盒的对抗样本攻击方法
面向黑盒的对抗样本攻击方法可以根据已知参数信息的模型生成对抗样本,通过获取模型最终的分类输出结果,或基于对抗生成网络(GAN)生成针对恶意软件检测模型的对抗样本,最终成功绕过检测器的检测。但是这些方法通常破坏了恶意软件的功能,导致无法创建出可以在实践中有效工作的对抗样本。
综上所述,现有的恶意软件对抗样本生成方法中,面向黑盒的攻击方法更具有可行性,但很难保证在加入扰动之后不破坏恶意软件的功能,保证对抗样本可以用于现实的对抗攻击中。所以本发明提出一种结合API模糊处理技术的恶意软件对抗样本生成方法。
发明内容
本发明的目的是为了生成精心制作的对抗样本,欺骗可移植可执行(PE)恶意软件分类器从而导致高成功率的误分类,所以提出了一种结合API模糊处理技术的恶意软件对抗样本生成方法。
本发明的设计原理为:本发明首先向原始的API恶意序列中插入无关的API向量,在保证恶意软件的功能性不被破坏的前提下生成修改后的恶意序列;然后根据集合中对应API函数是否混淆,生成混淆向量M并进行模糊处理;最后,把修改后的假设样本馈送到恶意软件分类器,检查它是否实现了错误分类。
本发明的技术方案是通过如下步骤实现的:
步骤1,向原始的API调用序列中插入无关的API向量,根据修改后的API调用序列生成恶意软件特征向量XP,初步实现恶意软件特征功能的混淆。
步骤1.1,确定一个有序集合V,其包含PE程序可以调用的所有API函数。
步骤1.2,在API的随机位置i插入一个新的已编码API向量,位置i…n中的API被退回一个位置。
步骤1.3,根据修改后的API调用序列生成二进制恶意软件特征向量XP
步骤2,设混淆向量为M,指示集合中对应的API函数是否应该混淆,对样本实施函数调用重定向的混淆操作,最终隐藏API的函数功能。
步骤2.1,初始化一个只采用二进制值表示的混淆向量M,指示有序集V中对应的API函数是否应该混淆。
步骤2.2,实施具体的API混淆操作。混淆处理后的样本特征向量变为XP⊙M,其中⊙表示逐元素相乘。
步骤3,把修改后的样本馈送到恶意软件分类器,检查它是否实现了错误分类,利用遗传算法解决优化问题。
步骤3.1,初始化种群。
步骤3.2,遗传操作,对于向量M中属于可操作集的每个元素,进行完全变异、部分变异或交叉。
步骤3.3,如果对于当前的锚点样本q,遗传算法未能找到可以将分类器欺骗为目标错误分类的实际对抗性样本,则从集合中选择一个不同的样本,然后重新运行遗传算法。
有益效果
相比于面向白盒的恶意软件对抗样本生成方法,本发明具有更高的实用性,更符合现实需求;相比于面向黑盒的对抗样本生成方法,本发明不仅没有破坏恶意软件原始的功能,而且在欺骗恶意软件分类器时具有高成功率,极大改善了无法平衡对抗样本欺骗成功率低和恶意软件功能被破坏的问题。
附图说明
图1为本发明一种结合API模糊处理技术的恶意软件对抗样本生成方法的原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
具体流程为:
步骤1,向原始的API调用序列中插入无关的API向量,根据修改后的API调用序列生成恶意软件特征向量XP,通过添加冗余代码初步实现恶意软件特征功能的混淆。
步骤1.1,确定一个有序集合V,其包含PE程序可以调用的所有API函数。
步骤1.2,设l为攻击所用的API调用序列的长度,X为长度为l的API恶意序列,把X分成
Figure BDA0002767897590000031
个长度为n的wj,其中
Figure BDA0002767897590000032
n为wj中API调用的个数,在每个wj中随机选择一个API位置i∈{1…n},在位置i插入一个API向量:
Figure BDA0002767897590000033
其中⊥表示串联操作,
Figure BDA0002767897590000034
Figure BDA0002767897590000035
Figure BDA0002767897590000036
插入API后,位置i…n中的API被退回一个位置,最后一个API调用
Figure BDA0002767897590000037
被推出并从
Figure BDA0002767897590000038
中删除,从
Figure BDA0002767897590000039
推出的API将作为wj+1的开始。
步骤1.3,根据修改后的API调用序列生成二进制恶意软件特征向量XP,其大小为|V|,指示原始PE样本是否已使用API函数,通过添加冗余代码初步实现恶意软件特征功能的混淆。
步骤2,设混淆向量为M,指示集合中对应的API函数是否应该混淆,对样本实施函数调用重定向的混淆操作,最终隐藏API的函数功能。
步骤2.1,初始化一个只采用二进制值表示的混淆向量M,大小为|V|,指示有序集V中对应的API函数是否应该混淆。
步骤2.2,实施具体的API混淆操作,构造一个调用指令来实现功能函数调用的重定向过程,使函数名不直接出现在反汇编代码中,最终隐藏API的函数功能。模糊处理后的样本特征向量变为XP⊙M,其中⊙表示逐元素相乘。
步骤3,把修改后的样本馈送到恶意软件分类器,检查它是否实现了错误分类,利用遗传算法解决优化问题。
步骤3.1,初始化种群。定义一条染色体为向量M的样本,随机生成大小为|H|的种群H,如果当前H中没有一个能够成功实现针对性的错误分类,则从H中选择适应性得分最高的前t个染色体,并将它们添加到列表L中,其中样本的适应性得分计算为其特征向量与锚定样本的特征向量之间的KL距离,即
Figure BDA0002767897590000041
产生以下优化问题:
Figure BDA0002767897590000042
Figure BDA0002767897590000043
步骤3.2,进行遗传操作,对于向量M中属于可操作集的每个元素,操作分为完全变异、部分变异或交叉。完全变异:将元素随机分配为0或1,执行200次完全变异。部分变异:选择以0.5的概率对元素进行变异,如果选择进行变异,则其值将在0和1之间随机选择,对列表L上的200条染色体进行部分变异。交叉:从列表L中随机选择两个染色体h0和h1创建一个新的变体,交叉操作执行200次。
步骤3.3,如果对于当前的锚点样本q,遗传算法未能找到可以将分类器欺骗为目标错误分类的实际对抗性样本,则从集合中选择一个不同的样本,然后重新运行遗传算法。
测试结果:实验一种结合API模糊处理技术的恶意软件对抗样本生成方法,本发明在未知检测器参数的背景下,向恶意扰动序列中插入已编码的API向量,进行模糊处理并利用遗传算法解决优化问题,维持了恶意软件的功能性,同时提高了在恶意软件检测下对抗样本的欺骗成功率,效果见表1和表2,有效的实现了恶意软件的对抗样本攻击。
表1.恶意软件分类器性能
Figure BDA0002767897590000051
表2.攻击性能
Figure BDA0002767897590000052
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种结合API模糊处理技术的恶意软件对抗样本生成方法,其特征在于所述方法包括如下步骤:
步骤1,向原始的API调用序列中插入无关的API向量,初步实现恶意软件特征功能的混淆,首先,确定一个有序集合V,其包含PE程序可以调用的所有API函数;其次,在API的随机位置i插入一个新的已编码API向量,位置i...n中的API被退回一个位置;最后,根据修改后的API调用序列生成二进制恶意软件特征向量XP
步骤2,对样本实施混淆操作,隐藏API的函数功能,首先,初始化一个只采用二进制值表示的混淆向量M,指示有序集V中对应的API函数是否应该混淆;然后,对样本实施函数调用重定向的混淆操作;
步骤3,把修改后的样本馈送到恶意软件分类器,检查它是否实现了错误分类,利用遗传算法解决优化问题。
2.根据权利要求1所述的一种结合API模糊处理技术的恶意软件对抗样本生成方法,其特征在于:步骤1中设l为攻击所用的API调用序列的长度,X为长度为l的API恶意序列,把X分成
Figure FDA0002767897580000011
个长度为n的wj,其中
Figure FDA0002767897580000012
n为wj中API调用的个数,在每个wj中随机选择一个API位置i∈{1...n},在位置i插入一个API向量:
Figure FDA0002767897580000013
其中⊥表示串联操作,
Figure FDA0002767897580000014
插入API后,位置i...n中的API被退回一个位置,最后一个API调用
Figure FDA0002767897580000015
被推出并从
Figure FDA0002767897580000016
中删除,从
Figure FDA0002767897580000017
推出的API将作为wj+1的开始;根据修改后的API调用序列生成二进制恶意软件特征向量XP,其大小为|V|,指示原始PE样本是否已使用API函数,通过添加冗余代码初步实现恶意软件特征功能的混淆。
3.根据权利要求1所述的一种结合API模糊处理技术的恶意软件对抗样本生成方法,其特征在于:步骤2中实施具体的API混淆操作,构造一个调用指令来实现功能函数调用的重定向过程,使函数名不直接出现在反汇编代码中,最终隐藏API的函数功能,模糊处理后的样本特征向量变为XP⊙M,其中⊙表示逐元素相乘。
CN202011239328.0A 2020-11-09 2020-11-09 一种结合api模糊处理技术的恶意软件对抗样本生成方法 Active CN112231703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011239328.0A CN112231703B (zh) 2020-11-09 2020-11-09 一种结合api模糊处理技术的恶意软件对抗样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011239328.0A CN112231703B (zh) 2020-11-09 2020-11-09 一种结合api模糊处理技术的恶意软件对抗样本生成方法

Publications (2)

Publication Number Publication Date
CN112231703A true CN112231703A (zh) 2021-01-15
CN112231703B CN112231703B (zh) 2022-08-05

Family

ID=74122248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011239328.0A Active CN112231703B (zh) 2020-11-09 2020-11-09 一种结合api模糊处理技术的恶意软件对抗样本生成方法

Country Status (1)

Country Link
CN (1) CN112231703B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860932A (zh) * 2021-02-19 2021-05-28 电子科技大学 抵御恶意样本攻击的图像检索方法、装置、设备及存储介质
CN113238957A (zh) * 2021-05-28 2021-08-10 北京理工大学 智能化场景下流量监测系统的测试样本生成方法
CN113254930A (zh) * 2021-05-28 2021-08-13 北京理工大学 一种pe恶意软件检测模型的后门对抗样本生成方法
CN114036521A (zh) * 2021-11-29 2022-02-11 北京航空航天大学 一种Windows恶意软件对抗样本生成方法
CN114266050A (zh) * 2022-03-03 2022-04-01 西南石油大学 一种跨平台恶意软件对抗样本生成方法及系统
CN115168859A (zh) * 2022-09-05 2022-10-11 浙江工业大学 面向api序列恶意软件检测模型的黑盒攻击与防御方法
CN116738429A (zh) * 2023-08-15 2023-09-12 之江实验室 基于生成对抗的目标检测引擎优化方法、装置及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640583B1 (en) * 2005-04-01 2009-12-29 Microsoft Corporation Method and system for protecting anti-malware programs
CN103324872A (zh) * 2013-07-12 2013-09-25 上海交通大学 基于指令混淆的Android应用程序保护方法及系统
CN109446808A (zh) * 2018-10-30 2019-03-08 中国人民解放军国防科技大学 基于DCGAN的Android对抗样本生成方法及系统
CN109492355A (zh) * 2018-11-07 2019-03-19 中国科学院信息工程研究所 一种基于深度学习的软件抗分析方法和系统
CN110210190A (zh) * 2019-05-30 2019-09-06 中国科学院信息工程研究所 一种基于二次汇编的代码混淆方法
CN111259393A (zh) * 2020-01-14 2020-06-09 河南信息安全研究院有限公司 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法
US20200210575A1 (en) * 2018-12-28 2020-07-02 Mcafee, Llc Methods and apparatus to detect adversarial malware
CN111475810A (zh) * 2020-04-13 2020-07-31 广州锦行网络科技有限公司 一种恶意软件检测器训练方法及系统、检测方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640583B1 (en) * 2005-04-01 2009-12-29 Microsoft Corporation Method and system for protecting anti-malware programs
CN103324872A (zh) * 2013-07-12 2013-09-25 上海交通大学 基于指令混淆的Android应用程序保护方法及系统
CN109446808A (zh) * 2018-10-30 2019-03-08 中国人民解放军国防科技大学 基于DCGAN的Android对抗样本生成方法及系统
CN109492355A (zh) * 2018-11-07 2019-03-19 中国科学院信息工程研究所 一种基于深度学习的软件抗分析方法和系统
US20200210575A1 (en) * 2018-12-28 2020-07-02 Mcafee, Llc Methods and apparatus to detect adversarial malware
CN110210190A (zh) * 2019-05-30 2019-09-06 中国科学院信息工程研究所 一种基于二次汇编的代码混淆方法
CN111259393A (zh) * 2020-01-14 2020-06-09 河南信息安全研究院有限公司 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法
CN111475810A (zh) * 2020-04-13 2020-07-31 广州锦行网络科技有限公司 一种恶意软件检测器训练方法及系统、检测方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860932A (zh) * 2021-02-19 2021-05-28 电子科技大学 抵御恶意样本攻击的图像检索方法、装置、设备及存储介质
CN113238957A (zh) * 2021-05-28 2021-08-10 北京理工大学 智能化场景下流量监测系统的测试样本生成方法
CN113254930A (zh) * 2021-05-28 2021-08-13 北京理工大学 一种pe恶意软件检测模型的后门对抗样本生成方法
CN114036521A (zh) * 2021-11-29 2022-02-11 北京航空航天大学 一种Windows恶意软件对抗样本生成方法
CN114036521B (zh) * 2021-11-29 2024-05-03 北京航空航天大学 一种Windows恶意软件对抗样本生成方法
CN114266050A (zh) * 2022-03-03 2022-04-01 西南石油大学 一种跨平台恶意软件对抗样本生成方法及系统
CN114266050B (zh) * 2022-03-03 2022-10-04 西南石油大学 一种跨平台恶意软件对抗样本生成方法及系统
CN115168859A (zh) * 2022-09-05 2022-10-11 浙江工业大学 面向api序列恶意软件检测模型的黑盒攻击与防御方法
CN115168859B (zh) * 2022-09-05 2022-11-29 浙江工业大学 面向api序列恶意软件检测模型的黑盒攻击与防御方法
CN116738429A (zh) * 2023-08-15 2023-09-12 之江实验室 基于生成对抗的目标检测引擎优化方法、装置及系统
CN116738429B (zh) * 2023-08-15 2023-11-14 之江实验室 基于生成对抗的目标检测引擎优化方法、装置及系统

Also Published As

Publication number Publication date
CN112231703B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN112231703B (zh) 一种结合api模糊处理技术的恶意软件对抗样本生成方法
Tang et al. CNN-based adversarial embedding for image steganography
CN111310802B (zh) 一种基于生成对抗网络的对抗攻击防御训练方法
Boenisch A systematic review on model watermarking for neural networks
CN111832019B (zh) 基于生成对抗网络的恶意代码检测方法
AprilPyone et al. Block-wise image transformation with secret key for adversarially robust defense
Chiang et al. Detection as regression: Certified object detection with median smoothing
Liu et al. Security analysis and enhancement of model compressed deep learning systems under adversarial attacks
CN110659486B (zh) 用于使用两级文件分类来检测恶意文件的系统和方法
CN113269241B (zh) 一种遥感图像对抗样本的软阈值防御方法
Labaca-Castro et al. Poster: Attacking malware classifiers by crafting gradient-attacks that preserve functionality
CN112488225A (zh) 一种量子模糊机器学习对抗防御模型方法
Pérez et al. Universal steganography detector based on an artificial immune system for JPEG images
Hussain et al. Recognition based segmentation of connected characters in text based CAPTCHAs
Zanddizari et al. Generating black-box adversarial examples in sparse domain
CN111881446B (zh) 一种工业互联网恶意代码识别方法及装置
JP2023513109A (ja) 二値画像認識システムへのサイバー攻撃の検出及び軽減
Kang et al. Resilience against Adversarial Examples: Data-Augmentation Exploiting Generative Adversarial Networks.
Zhang et al. MODA: Model Ownership Deprivation Attack in Asynchronous Federated Learning
Nowroozi et al. Employing deep ensemble learning for improving the security of computer networks against adversarial attacks
Dai et al. Balancing Robustness and Covertness in NLP Model Watermarking: A Multi-Task Learning Approach
Cai et al. Detecting a malicious executable without prior knowledge of its patterns
Sharma et al. Towards secured image steganography based on content-adaptive adversarial perturbation
CN117932457B (zh) 一种基于错误分类的模型指纹识别方法及系统
CN111552970A (zh) 基于三位一体综合画像的恶意代码检测及恶意性定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant