CN110826059B - 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置 - Google Patents

面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置 Download PDF

Info

Publication number
CN110826059B
CN110826059B CN201910886217.XA CN201910886217A CN110826059B CN 110826059 B CN110826059 B CN 110826059B CN 201910886217 A CN201910886217 A CN 201910886217A CN 110826059 B CN110826059 B CN 110826059B
Authority
CN
China
Prior art keywords
sample
discriminator
generator
malicious software
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910886217.XA
Other languages
English (en)
Other versions
CN110826059A (zh
Inventor
陈晋音
袁俊坤
邹健飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910886217.XA priority Critical patent/CN110826059B/zh
Publication of CN110826059A publication Critical patent/CN110826059A/zh
Application granted granted Critical
Publication of CN110826059B publication Critical patent/CN110826059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种面向恶意软件图像格式检测模型的黑盒攻击的防御方法,包括:1)获取数据集,分为训练集和测试集;2)转换为恶意软件图像格式;3)构建基于深度卷积生成对抗网络(DCGAN)生成扰动的黑盒攻击模型,黑盒攻击模型结构分为生成器和判别器两部分;4)经过步骤3)构建的生成器和判别器之间的不断对抗过程,生成器最终生成能够模仿样本B的对抗样本;5)将步骤4)获取的对抗样本对恶意软件汇编格式检测模型重训练进行优化,获得能够防御对抗攻击的恶意软件检测模型;6)利用能够防御对抗攻击的恶意软件检测模型对恶意软件进行识别。本发明还包括实施面向恶意软件图像格式检测模型的黑盒攻击的防御方法的装置。

Description

面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其 装置
技术领域
本发明涉及一种面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置。
背景技术
随着计算机和互联网的飞速发展,人们之间的沟通越来越便捷,网络信息交流和智能应用在人们日常生活中扮演着至关重要的角色。根据资料显示,到2016年6月为止,全世界使用互联网的人群数量已经达到了36亿以上,用户首次占比过半。同时网络的发展也伴随着许多网络安全问题,恶意软件就是其中一个重要的影响因素。恶意软件(MaliciousSoftware,Malware)指有目的地实现攻击者破坏计算机、服务器、客户端或计算机网络的软件程序。恶意软件的代表类型有病毒、蠕虫、特洛伊木马、后门、Rootkits、勒索软件、僵尸网络等,通过自行复制、注入、诱惑、隐藏等形式渗透进入网络系统和受害者的计算机,试图破坏网络和计算机系统的正常运转、获取网络和主机资源、盗取机构和个人的敏感信息,对主机工作的安全性、网络传输的安全性和用户隐私的安全性都带来了极大的威胁。恶意软件能够有目的地实现对网络和主机的攻击、窃取信息和隐私、监视网络的使用,对主机的安全性、网络的安全性和隐私的安全性都具有极大的损害,对其进行检测、分析和预防一直是网络与信息安全研究工作的重点和热点之一。
目前存在的恶意软件检测方法有许多,深信服科技股份有限公司首先获取多个恶意软件产生的网络流量,再基于网络流量的统计特征对多个恶意软件粗粒度聚类,得到第一聚类结果,然后基于网络流量的内容特征对第一类聚类结果中的每一类恶意软件细粒度聚类,得到第二聚类结果,最后为第二聚类结果中的每一类恶意软件生成签名,以利用签名进行恶意软件检测。签名是一小段字节序列,它对于每一种已知的恶意软件类型都是独一无二的。这种从软件二进制代码中识别特定的字符串来鉴别恶意性质的方法,虽然一定程度上解决了检测问题,但是其需要域名专家进行手工制作、更新和上传,费时费力且易出错;北京物资学院首先从已知软件类型的软件样本集合中,提取各个软件样本的静态特征和动态特征,再将提取的各个软件样本的静态特征和动态特征有效结合,形成混合特征数据集,根据主成分分析方法和特征权重的选择方法,降低特征维度,去除冗余特征,得到优化后的混合特征数据集,然后运用支持向量机模型对优化后的混合特征集中的特征进行训练,形成分类检测模型,最后根据分类检测模型对待检测软件进行检测,但是基于向量机模型等机器学习的检测技术的泛化性能仍然不够高,且手工提取的待分析特征一旦被攻击者发现,可轻易地修改样本成功逃逸检测。
深度学习作为机器学习中神经网络技术进一步的发展思想,以分布式的结构自动地学习数据的特征表征,利用深度学习算法实现对恶意软件的检测为新趋势。大连理工大学构建卷积神经网络分类器实现对恶意软件的检测,广东工业大学通过循环神经网络得到恶意软件识别器,然而以上方法都是对恶意软件的检测,对于目前存在的恶意软件检测的攻击并没有涉及,而在实际情况中,对于恶意软件检测的攻击已经出现,因此,实现对恶意软件检测攻击的防御方法是目前亟待解决的问题。
发明内容
为了克服现有技术的上述缺点,本发明提供一种面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置。
本发明解决其技术问题所采用的技术方案是:
本发明提供了一种面向恶意软件图像格式检测模型的黑盒攻击的防御方法,包括以下步骤:
1)获取数据集,将其划分为训练集和测试集。具体包括:
1.1)收集各个恶意软件家族样本数据集,数据以“.asm”后缀的汇编语言文件类型保存;
1.2)考虑各个类别的样本数量差异以及为便于后续的工作,将各个类别数据集以训练集占比约80%、测试集占比约20%的比例划分;
2)转换为恶意软件图像格式,过程如下:
2.1)对于步骤1.1)中的“.asm”后缀的汇编语言文件,文件的每个字符都可以在ASCII编码中找到,首先将其通过ASCII标准表映射为十六进制的数字;
2.2)再通过进制转换转化为十进制的数字,恶意软件的长字符串就转化为十进制的长数组;
2.3)将十进制长数组以一定的方式进行拼接(定宽切割拼接、定长切割拼接等),转换为64×64大小的恶意软件灰度图像;
2.4)最后获取图像格式的恶意软件样本;
3)构建基于深度卷积生成对抗网络(DCGAN)生成扰动的黑盒攻击模型;黑盒攻击模型结构分为生成器和判别器两部分,具体包括:
3.1)由神经网络搭建生成器(Generator)的结构模型,生成器学习将随机分布z的映射为扰动图,扰动图加到原始样本A上生成模仿样本B的对抗样本;从噪声中采样出长度为N的一维数组,将其通过全连接层和尺度变化操作转为(4,4,1024)大小的特征图;通过四层卷积核为3×3、步长为2的反卷积层,将噪声转变的特征图进行一步步地反卷积操作直到和原始数据图具有一样的尺寸(64,64,1);整个生成器网络共五层,共6,194,304个带训练参数(除去偏置值和第一个全连接层,且实际训练时由于前向、反向计算和优化器的使用,参数量将有所增加);生成器完成从噪声随机分布的采样到扰动图的映射,它使用扰动图加到原始样本A中生成的对抗样本被判别器分类的概率和被攻击样本B的标签(数值1)的交叉熵作为损失函数,使扰动能让样本A尽可能地模仿样本B,迷惑判别器;
3.2)由神经网络搭建判别器(Discriminator)的结构模型,判别器学习如何将3.1)中生成器生成的样本A的对抗样本和样本B区分开来;输入的一个通道的图像,通过四层卷积核为4×4、步长为2的卷积层逐层提取特征,最后通过全连接层输出分类概率的数值大小;网络共5层,共2,161,728个带训练参数(除去偏置值,且实际训练时由于前向、反向计算和优化器的使用,参数量将有所增加);判别器完成对样本A、B的区分,它以当前样本的分类概率和当前样本的标签(A样本的标签为0,B样本的标签为1)的交叉熵作为损失函数,使得判别器能抵挡住生成器的迷惑,具有良好的分类鲁棒性;
4)经过步骤3.1)构建的生成器和3.2)构建的判别器之间的不断对抗过程,生成器最终生成能够模仿样本B的对抗样本;
5)将步骤4)获取的对抗样本对恶意软件汇编格式检测模型重训练进行优化,获得能够防御对抗攻击的恶意软件检测模型;
6)利用能够防御对抗攻击的恶意软件检测模型对恶意软件进行识别,能够防御对恶意软件检测模型的对抗攻击。
本发明还提供一种面向恶意软件图像格式检测模型的黑盒攻击的防御方法的装置,包括:
获取模块,获取数据集,并将其划分为训练集和测试集;具体包括:
收集各个恶意软件家族样本数据集,数据以“.asm”后缀的汇编语言文件类型保存;
考虑各个类别的样本数量差异以及为便于后续的工作,将各个类别数据集以训练集占比约80%、测试集占比约20%的比例划分;
转换模块,将步骤1)获取模块中获取的数据集转换为恶意软件图像格式,具体包括:
对于“.asm”后缀的汇编语言文件,文件的每个字符都可以在ASCII编码中找到,首先将其通过ASCII标准表映射为十六进制的数字;
再通过进制转换转化为十进制的数字,恶意软件的长字符串就转化为十进制的长数组;
将十进制长数组以一定的方式进行拼接转换为64×64大小的恶意软件灰度图像;
最后获取图像格式的恶意软件样本;
生成模块,构建基于深度卷积生成对抗网络(DCGAN)生成扰动的黑盒攻击模型;所述生成模块包含两个单元,具体包括:
第一生成单元,用于构建生成器,由神经网络搭建生成器(Generator)的结构模型,生成器学习将随机分布z的映射为扰动图,扰动图加到原始样本A上生成模仿样本B的对抗样本;从噪声中采样出长度为N的一维数组,将其通过全连接层和尺度变化操作转为(4,4,1024)大小的特征图;通过四层卷积核为3×3、步长为2的反卷积层,将噪声转变的特征图进行一步步地反卷积操作直到和原始数据图具有一样的尺寸(64,64,1);整个生成器网络共五层,共6,194,304个带训练参数;生成器完成从噪声随机分布的采样到扰动图的映射,它使用扰动图加到原始样本A中生成的对抗样本被判别器分类的概率和被攻击样本B的标签的交叉熵作为损失函数,使扰动能让样本A尽可能地模仿样本B,迷惑判别器;
第二生成单元,用于构建判别器,由神经网络搭建判别器(Discriminator)的结构模型,判别器学习如何将3.1)中生成器生成的样本A的对抗样本和样本B区分开来;输入的一个通道的图像,通过四层卷积核为4×4、步长为2的卷积层逐层提取特征,最后通过全连接层输出分类概率的数值大小;网络共5层,共2,161,728个带训练参数;判别器完成对样本A、B的区分,它以当前样本的分类概率和当前样本的标签的交叉熵作为损失函数,A样本的标签为0,B样本的标签为1,使得判别器能抵挡住生成器的迷惑,具有良好的分类鲁棒性;
对抗模块,将第一生成单元构建的生成器和第二生成单元构建的判别器进行不断地对抗,最终第一单元构建的生成器生成能够模仿样本B的对抗样本;
防御模块,将对抗模块获取的对抗样本对恶意软件汇编格式检测模型重训练进行优化,获得能够防御对抗攻击的恶意软件检测模型;
利用步防御模块获取的能够防御对抗攻击的恶意软件检测模型对恶意软件进行识别,能够防御对恶意软件检测模型的对抗攻击。
本发明的技术构思为:对于恶意软件,提出获取基于深度卷积生成对抗网络(DCGAN)的黑盒攻击的对抗样本实现恶意软件检测模型的对抗攻击的防御方法及其装置。
本发明的有益效果主要表现在:对于面前恶意软件检测过程中出现的黑盒攻击,提出了一种基于DCGAN的黑盒攻击的防御方法及其装置。在真实恶意软件上的实验结果表明,该算法具有良好的适用性和精度,能够有效的防御对恶意软件检测模型的黑盒攻击,取得较好的检测效果。
附图说明
图1是本发明的实施例中基于DCGAN生成扰动的黑盒攻击模型。
图2是本发明的实施例中生成器的网络结构图。
图3是本发明的实施例中判别器的网络结构图。
图4是本发明的实施例中提供的一种基于深度学习的恶意软件检测装置的结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
第一方面,本发明实施例提供了一种面向恶意软件图像格式检测模型的黑盒攻击的防御方法,请参考图1,包括以下步骤:
1)获取数据集,将其划分为训练集和测试集。具体包括:
1.1)收集各个恶意软件家族样本数据集,数据以“.asm”后缀的汇编语言文件类型保存;
1.2)考虑各个类别的样本数量差异以及为便于后续的工作,将各个类别数据集以训练集占比约80%、测试集占比约20%的比例划分;
2)转换为恶意软件图像格式,具体包括:
2.1)对于步骤1.1)中的“.asm”后缀的汇编语言文件,文件的每个字符都可以在ASCII编码中找到,首先将其通过ASCII标准表映射为十六进制的数字;
2.2)再通过进制转换转化为十进制的数字,恶意软件的长字符串就转化为十进制的长数组;
2.3)将十进制长数组以一定的方式进行拼接(定宽切割拼接、定长切割拼接等),转换为64×64大小的恶意软件灰度图像;
2.4)最后获取图像格式的恶意软件样本;
3)构建基于深度卷积生成对抗网络(DCGAN)生成扰动的黑盒攻击模型;黑盒攻击模型结构分为生成器和判别器两部分,具体包括:
3.1)由神经网络搭建生成器(Generator)的结构模型,生成器学习将随机分布z的映射为扰动图,扰动图加到原始样本A上生成模仿样本B的对抗样本;生成器的目的是从噪声映射到扰动图像,从而达到将扰动图像加入到原始样本A中生成的对抗样本能迷惑判别器误分为样本B的目的,具体的结构信息参考图2。从噪声中采样出长度为N的一维数组,将其通过全连接层和尺度变化操作转为(4,4,1024)大小的特征图;通过四层卷积核为3×3、步长为2的反卷积层,将噪声转变的特征图进行一步步地反卷积操作直到和原始数据图具有一样的尺寸(64,64,1);整个生成器网络共五层,共6,194,304个带训练参数(除去偏置值和第一个全连接层,且实际训练时由于前向、反向计算和优化器的使用,参数量将有所增加);生成器完成从噪声随机分布的采样到扰动图的映射,它使用扰动图加到原始样本A中生成的对抗样本被判别器分类的概率和被攻击样本B的标签(数值1)的交叉熵作为损失函数,使扰动能让样本A尽可能地模仿样本B,迷惑判别器;
3.2)由神经网络搭建判别器(Discriminator)的结构模型,判别器学习如何将3.1)中生成器生成的样本A的对抗样本和样本B区分开来,具体的结构信息参考图3。输入的一个通道的图像,通过四层卷积核为4×4、步长为2的卷积层逐层提取特征,最后通过全连接层输出分类概率的数值大小;网络共5层,共2,161,728个带训练参数(除去偏置值,且实际训练时由于前向、反向计算和优化器的使用,参数量将有所增加);判别器完成对样本A、B的区分,它以当前样本的分类概率和当前样本的标签(A样本的标签为0,B样本的标签为1)的交叉熵作为损失函数,使得判别器能抵挡住生成器的迷惑,具有良好的分类鲁棒性;
生成器与判别器的对抗过程,具体来说,假设pdata(x)为真实数据的概率分别,pz(z)为噪声的分布。那么生成器G的目标就是找到一个映射关系,使得噪声的分布pz(z)通过映射后能逼近于真实的数据的分布pdata(x),从而迷惑判别器D。训练过程的优化目标如公式(1)所示,其由判别器的log损失函数的期望和判别器对生成器生成的分布的期望构成。它首先训练判别器,使损失函数最大化来增大判别器的真伪识别能力;然后训练生成器,使损失函数最小化来提高生成器的模仿能力。
Figure BDA0002207366860000101
4)经过3.1)构建的生成器和3.2)构建的判别器之间的不断对抗过程,生成器最终生成能够模仿样本B的对抗样本;
5)将步骤4)获取的对抗样本对恶意软件汇编格式检测模型重训练进行优化,获得能够防御对抗攻击的恶意软件检测模型;
6)利用能够防御对抗攻击的恶意软件检测模型对恶意软件进行识别,能够防御对恶意软件检测模型的对抗攻击。
本设计中,设置生成器和判别器的总迭代训练次数为100次,其中每训练一次判别器将训练k次生成器,k是待研究超参数。高维空间的噪声是一维向量,其长度z是另一待研究超参数。训练结束后随机选取500个样本A的测试样本(不足500的使用所有测试样本)用于生成对抗样本以进行黑盒攻击,测试恶意软件检测器的精度变化情况。当z=1000,k=20时,恶意软件图像分类器的攻击效果达到最佳,分类精度降低到16.8%左右。其中精度为分类正确的样本占总样本的比例,精度的计算公式如下:
Figure BDA0002207366860000102
其中f(xi)为分类器对样本i的分类结果,yi为样本真实的标签,样本总数为n。
第二方面,提供了一种实施面向恶意软件图像格式检测模型的黑盒攻击的防御方法的装置,请参考图4,所述装置包括:
获取模块,获取数据集,并将其划分为训练集和测试集;具体包括:
收集各个恶意软件家族样本数据集,数据以“.asm”后缀的汇编语言文件类型保存;
考虑各个类别的样本数量差异以及为便于后续的工作,将各个类别数据集以训练集占比约80%、测试集占比约20%的比例划分;
转换模块,将获取模块中获取的数据集转换为恶意软件图像格式,具体包括:
对于的“.asm”后缀的汇编语言文件,文件的每个字符都可以在ASCII编码中找到,首先将其通过ASCII标准表映射为十六进制的数字;
再通过进制转换转化为十进制的数字,恶意软件的长字符串就转化为十进制的长数组;
将十进制长数组以一定的方式进行拼接转换为64×64大小的恶意软件灰度图像;
最后获取图像格式的恶意软件样本;
生成模块,构建基于深度卷积生成对抗网络(DCGAN)生成扰动的黑盒攻击模型;所述生成模块包含两个单元,具体包括:
第一生成单元,用于构建生成器,由神经网络搭建生成器(Generator)的结构模型,生成器学习将随机分布z的映射为扰动图,扰动图加到原始样本A上生成模仿样本B的对抗样本;从噪声中采样出长度为N的一维数组,将其通过全连接层和尺度变化操作转为(4,4,1024)大小的特征图;通过四层卷积核为3×3、步长为2的反卷积层,将噪声转变的特征图进行一步步地反卷积操作直到和原始数据图具有一样的尺寸(64,64,1);整个生成器网络共五层,共6,194,304个带训练参数;生成器完成从噪声随机分布的采样到扰动图的映射,它使用扰动图加到原始样本A中生成的对抗样本被判别器分类的概率和被攻击样本B的标签的交叉熵作为损失函数,使扰动能让样本A尽可能地模仿样本B,迷惑判别器;
第二生成单元,用于构建判别器,由神经网络搭建判别器(Discriminator)的结构模型,判别器学习如何将3.1)中生成器生成的样本A的对抗样本和样本B区分开来;输入的一个通道的图像,通过四层卷积核为4×4、步长为2的卷积层逐层提取特征,最后通过全连接层输出分类概率的数值大小;网络共5层,共2,161,728个带训练参数;判别器完成对样本A、B的区分,它以当前样本的分类概率和当前样本的标签的交叉熵作为损失函数,A样本的标签为0,B样本的标签为1,使得判别器能抵挡住生成器的迷惑,具有良好的分类鲁棒性;
对抗模块,将第一生成单元构建的生成器和第二生成单元构建的判别器进行不断地对抗,最终第一单元构建的生成器生成能够模仿样本B的对抗样本;
防御模块,将对抗模块中获取的对抗样本对恶意软件汇编格式检测模型重训练进行优化,获得能够防御对抗攻击的恶意软件检测模型;
利用防御模块获取的能够防御对抗攻击的恶意软件检测模型对恶意软件进行识别,能够防御对恶意软件检测模型的对抗攻击。
本发明装置中,设置第一生成单元和第二生成单元的总迭代训练次数为100次,其中每训练一次第二生成单元将训练k次第一生成单元,k是待研究超参数。高维空间的噪声是一维向量,其长度z是另一待研究超参数。训练结束后随机选取500个样本A的测试样本(不足500的使用所有测试样本)用于生成对抗样本以进行黑盒攻击,测试恶意软件检测器的精度变化情况。当z=1000,k=20时,恶意软件图像分类器的攻击效果达到最佳,分类精度降低到16.8%左右。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (6)

1.一种面向恶意软件图像格式检测模型的黑盒攻击的防御方法,包括以下步骤:
1)获取数据集,将其划分为训练集和测试集;具体包括:
1.1)收集各个恶意软件家族样本数据集,数据以“.asm”后缀的汇编语言文件类型保存;
1.2)考虑各个类别的样本数量差异以及为便于后续的工作,将各个类别数据集以训练集占比80%、测试集占比20%的比例划分;
2)转换为恶意软件图像格式,具体包括:
2.1)对于步骤1.1)中的“.asm”后缀的汇编语言文件,文件的每个字符都可以在ASCII编码中找到,首先将其通过ASCII标准表映射为十六进制的数字;
2.2)再通过进制转换转化为十进制的数字,恶意软件的长字符串就转化为十进制的长数组;
2.3)将十进制长数组以一定的方式进行拼接转换为64×64大小的恶意软件灰度图像;
2.4)最后获取图像格式的恶意软件样本;
3)构建基于深度卷积生成对抗网络(DCGAN)生成扰动的黑盒攻击模型;黑盒攻击模型结构分为生成器和判别器两部分,具体包括:
3.1)由神经网络搭建生成器(Generator)的结构模型,生成器学习将随机分布z映射为扰动图,扰动图加到原始样本A上生成模仿样本B的对抗样本;从噪声中采样出长度为N的一维数组,将其通过全连接层和尺度变化操作转为(4,4,1024)大小的特征图;通过四层卷积核为3×3、步长为2的反卷积层,将噪声转变的特征图进行一步步地反卷积操作直到和原始数据图具有一样的尺寸(64,64,1);整个生成器网络共五层,共6,194,304个带训练参数;生成器完成从噪声随机分布的采样到扰动图的映射,它使用扰动图加到原始样本A中生成的对抗样本被判别器分类的概率和被攻击样本B的标签的交叉熵作为损失函数,使扰动能让样本A尽可能地模仿样本B,迷惑判别器;
3.2)由神经网络搭建判别器(Discriminator)的结构模型,判别器学习如何将3.1)中生成器生成的样本A的对抗样本和样本B区分开来;输入的一个通道的图像,通过四层卷积核为4×4、步长为2的卷积层逐层提取特征,最后通过全连接层输出分类概率的数值大小;网络共5层,共2,161,728个带训练参数;判别器完成对样本A、B的区分,它以当前样本的分类概率和当前样本的标签的交叉熵作为损失函数,A样本的标签为0,B样本的标签为1,使得判别器能抵挡住生成器的迷惑,具有良好的分类鲁棒性;
4)经过步骤3.1)构建的生成器和3.2)构建的判别器之间的不断对抗过程,生成器最终生成能够模仿样本B的对抗样本;
5)将步骤4)获取的对抗样本对恶意软件汇编格式检测模型重训练进行优化,获得能够防御对抗攻击的恶意软件检测模型;
6)利用能够防御对抗攻击的恶意软件检测模型对恶意软件进行识别,能够防御对恶意软件检测模型的对抗攻击。
2.如权利要求1所述的面向恶意软件图像格式检测模型的黑盒攻击的防御方法,其特征在于:所述步骤1)中,获取了9个恶意软件家族样本数据集,共10868个恶意软件样本,将恶意软件原始“.asm”后缀的汇编语言文件通过ASCII映射、进制转换、拼接转换为64×64大小的恶意软件灰度图像。
3.如权利要求1所述的面向恶意软件图像格式检测模型的黑盒攻击的防御方法,其特征在于:在所述步骤3.1)中,生成器将高维空间的噪声通过全连接和反卷积过程转换为扰动图像并叠加到A样本的原始图像上形成对抗样本,以对抗样本被判别器识别错误作为目标和损失函数进行训练;在所述步骤3.2)中,判别器将A样本的对抗样本和真实的B样本进行判断,以把对抗样本和真实样本同时分类正确作为目标和损失函数进行训练,双方不断对抗,最终生成器通过非线性映射将噪声转换成能把A图像生成B图像的扰动图像。
4.如权利要求1所述的面向恶意软件图像格式检测模型的黑盒攻击的防御方法,其特征在于:在所述步骤4)中,设置生成器和判别器的总迭代训练次数为100次,其中每训练一次判别器将训练k次生成器,k是待研究超参数;高维空间的噪声是一维向量,其长度z是另一待研究超参数;训练结束后随机选取500个样本A的测试样本用于生成对抗样本以进行黑盒攻击,测试恶意软件检测器的精度变化情况;当z=1000,k=20时,恶意软件图像分类器的攻击效果达到最佳,分类精度降低到16.8%左右;其中精度为分类正确的样本占总样本的比例,精度的计算公式如下:
Figure FDA0003159705280000031
其中f(xi)为分类器对样本i的分类结果,yi为样本真实的标签,样本总数为n。
5.如权利要求1所述的面向恶意软件图像格式检测模型的黑盒攻击的防御方法,其特征在于:在所述步骤4)中,生成器与判别器的对抗过程具体包括:假设pdata(x)为真实数据的概率分别,pz(z)为噪声的分布;那么生成器G的目标就是找到一个映射关系,使得噪声的分布pz(z)通过映射后能逼近于真实的数据的分布pdata(x),从而迷惑判别器D;训练过程的优化目标如公式(2)所示:
Figure FDA0003159705280000041
其由判别器的log损失函数的期望和判别器对生成器生成的分布的期望构成,首先训练判别器,使损失函数最大化来增大判别器的真伪识别能力;然后训练生成器,使损失函数最小化来提高生成器的模仿能力。
6.实施如权利要求1所述的一种面向恶意软件图像格式检测模型的黑盒攻击的防御方法的装置,其特征在于:包括依次连接的获取模块、转换模块、生成模块、对抗模块、防御模块;
获取模块获取数据集,并将其划分为训练集和测试集;具体包括:
收集各个恶意软件家族样本数据集,数据以“.asm”后缀的汇编语言文件类型保存;
考虑各个类别的样本数量差异以及为便于后续的工作,将各个类别数据集以训练集占比80%、测试集占比20%的比例划分;
转换模块将获取模块获取的数据集转换为恶意软件图像格式,具体包括:
对于“.asm”后缀的汇编语言文件,文件的每个字符都可以在ASCII编码中找到,首先将其通过ASCII标准表映射为十六进制的数字;
再通过进制转换转化为十进制的数字,恶意软件的长字符串就转化为十进制的长数组;
将十进制长数组以一定的方式进行拼接转换为64×64大小的恶意软件灰度图像;
最后获取图像格式的恶意软件样本;
生成模块构建基于深度卷积生成对抗网络(DCGAN)生成扰动的黑盒攻击模型;所述生成模块包含两个单元,具体包括:
第一生成单元,用于构建生成器,由神经网络搭建生成器(Generator)的结构模型,生成器学习将随机分布z映射为扰动图,扰动图加到原始样本A上生成模仿样本B的对抗样本;从噪声中采样出长度为N的一维数组,将其通过全连接层和尺度变化操作转为(4,4,1024)大小的特征图;通过四层卷积核为3×3、步长为2的反卷积层,将噪声转变的特征图进行一步步地反卷积操作直到和原始数据图具有一样的尺寸(64,64,1);整个生成器网络共五层,共6,194,304个带训练参数;生成器完成从噪声随机分布的采样到扰动图的映射,它使用扰动图加到原始样本A中生成的对抗样本被判别器分类的概率和被攻击样本B的标签的交叉熵作为损失函数,使扰动能让样本A尽可能地模仿样本B,迷惑判别器;
第二生成单元,用于构建判别器,由神经网络搭建判别器(Discriminator)的结构模型,判别器学习如何将3.1)中生成器生成的样本A的对抗样本和样本B区分开来;输入的一个通道的图像,通过四层卷积核为4×4、步长为2的卷积层逐层提取特征,最后通过全连接层输出分类概率的数值大小;网络共5层,共2,161,728个带训练参数;判别器完成对样本A、B的区分,它以当前样本的分类概率和当前样本的标签的交叉熵作为损失函数,A样本的标签为0,B样本的标签为1,使得判别器能抵挡住生成器的迷惑,具有良好的分类鲁棒性;
对抗模块,将第一生成单元构建的生成器和第二生成单元构建的判别器进行不断地对抗,最终第一单元构建的生成器生成能够模仿样本B的对抗样本;
防御模块,将对抗模块获取的对抗样本对恶意软件汇编格式检测模型重训练进行优化,获得能够防御对抗攻击的恶意软件检测模型;
利用防御模块获取的能够防御对抗攻击的恶意软件检测模型对恶意软件进行识别,防御对恶意软件检测模型的对抗攻击。
CN201910886217.XA 2019-09-19 2019-09-19 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置 Active CN110826059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910886217.XA CN110826059B (zh) 2019-09-19 2019-09-19 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910886217.XA CN110826059B (zh) 2019-09-19 2019-09-19 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置

Publications (2)

Publication Number Publication Date
CN110826059A CN110826059A (zh) 2020-02-21
CN110826059B true CN110826059B (zh) 2021-10-15

Family

ID=69548039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910886217.XA Active CN110826059B (zh) 2019-09-19 2019-09-19 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置

Country Status (1)

Country Link
CN (1) CN110826059B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475810B (zh) * 2020-04-13 2021-04-06 广州锦行网络科技有限公司 一种恶意软件检测器训练方法及系统、检测方法及系统
CN111651762A (zh) * 2020-04-21 2020-09-11 浙江大学 一种基于卷积神经网络的pe恶意软件检测方法
CN111627429B (zh) * 2020-05-20 2022-10-14 浙江工业大学 一种基于CycleGAN的语音识别模型的防御方法及装置
CN111832019B (zh) * 2020-06-10 2024-02-23 国家计算机网络与信息安全管理中心 基于生成对抗网络的恶意代码检测方法
CN111935097B (zh) * 2020-07-16 2022-07-19 上海斗象信息科技有限公司 一种检测dga域名的方法
CN112182571A (zh) * 2020-07-21 2021-01-05 浙江工商大学 一种基于神经网络不变量的安卓恶意应用检测系统
CN112001424B (zh) * 2020-07-29 2023-05-23 暨南大学 基于对抗训练的恶意软件开放集家族分类方法和装置
CN112116026A (zh) * 2020-09-28 2020-12-22 西南石油大学 一种对抗样本生成方法、系统、存储介质和装置
CN112367291B (zh) * 2020-09-29 2022-07-29 国网宁夏电力有限公司电力科学研究院 一种应用于电力控制系统网络攻击的主动防御方法
CN112381142B (zh) * 2020-11-13 2022-08-12 海南大学 基于重要特征的具有可解释性对抗样本生成方法及系统
CN112446025A (zh) * 2020-11-23 2021-03-05 平安科技(深圳)有限公司 联邦学习防御方法、装置、电子设备及存储介质
CN112380537A (zh) * 2020-11-30 2021-02-19 北京天融信网络安全技术有限公司 一种检测恶意软件的方法、装置、存储介质和电子设备
CN112565261B (zh) * 2020-12-04 2021-11-23 浙江大学 基于多生成器AugGAN的对抗动态恶意API序列生成方法
CN112580708B (zh) * 2020-12-10 2024-03-05 上海阅维科技股份有限公司 从应用程序生成的加密流量中识别上网行为的方法
CN112560034B (zh) * 2020-12-11 2024-03-29 宿迁学院 基于反馈式深度对抗网络的恶意代码样本合成方法及装置
CN112749391B (zh) * 2020-12-31 2024-04-09 华中科技大学 一种恶意软件对抗样本的检测方法、装置和电子设备
CN112860932B (zh) * 2021-02-19 2022-08-12 电子科技大学 抵御恶意样本攻击的图像检索方法、装置、设备及存储介质
CN112968891B (zh) * 2021-02-19 2022-07-08 山东英信计算机技术有限公司 网络攻击防御方法、装置及计算机可读存储介质
CN112966272B (zh) * 2021-03-31 2022-09-09 国网河南省电力公司电力科学研究院 一种基于对抗式网络的物联网Android恶意软件检测方法
CN113205030A (zh) * 2021-04-27 2021-08-03 武汉大学 一种防御对抗性攻击的行人重识别方法
CN113158190B (zh) * 2021-04-30 2022-03-29 河北师范大学 一种基于生成式对抗网络的恶意代码对抗样本自动生成方法
CN113380255B (zh) * 2021-05-19 2022-12-20 浙江工业大学 一种基于迁移训练的声纹识别中毒样本生成方法
CN113360694B (zh) * 2021-06-03 2022-09-27 安徽理工大学 一种基于自编码器的恶意图像查询样本检测过滤方法
CN113779581B (zh) * 2021-09-15 2022-08-26 山东省计算中心(国家超级计算济南中心) 一种轻量化高精度恶意软件识别模型的鲁棒检测方法及系统
CN114143024B (zh) * 2021-10-26 2022-07-26 广州大学 基于生成对抗网络的黑盒恶意软件检测对抗样本生成方法、系统、电子设备及存储介质
CN114036521B (zh) * 2021-11-29 2024-05-03 北京航空航天大学 一种Windows恶意软件对抗样本生成方法
CN114510715B (zh) * 2022-01-14 2022-10-14 中国科学院软件研究所 模型的功能安全测试方法、装置、存储介质及设备
CN114745157B (zh) * 2022-03-15 2024-02-13 尚蝉(浙江)科技有限公司 一种基于生成对抗网络的抵御网络流量侦察方法、系统、终端和存储介质
CN114724189B (zh) * 2022-06-08 2022-09-02 南京信息工程大学 一种目标识别的对抗样本防御模型训练方法、系统及应用
CN115086054B (zh) * 2022-06-23 2023-04-07 北京金睛云华科技有限公司 基于自注意力生成对抗网络的恶意域名检测方法、装置和电子设备
CN115168857B (zh) * 2022-08-03 2023-08-22 中国电子科技集团公司信息科学研究院 恶意软件检测优化方法、系统、终端及存储介质
CN115168859B (zh) * 2022-09-05 2022-11-29 浙江工业大学 面向api序列恶意软件检测模型的黑盒攻击与防御方法
CN117077141A (zh) * 2023-10-13 2023-11-17 国网山东省电力公司鱼台县供电公司 一种智能电网恶意软件检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017101166A4 (en) * 2017-08-25 2017-11-02 Lai, Haodong MR A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
CN109948693A (zh) * 2019-03-18 2019-06-28 西安电子科技大学 基于超像素样本扩充和生成对抗网络高光谱图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017101166A4 (en) * 2017-08-25 2017-11-02 Lai, Haodong MR A Method For Real-Time Image Style Transfer Based On Conditional Generative Adversarial Networks
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
CN109948693A (zh) * 2019-03-18 2019-06-28 西安电子科技大学 基于超像素样本扩充和生成对抗网络高光谱图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于GAN的对抗样本生成研究;孙曦音等;《万方数据库》;20190722;第202-207页 *

Also Published As

Publication number Publication date
CN110826059A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826059B (zh) 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置
CN110765458B (zh) 一种基于深度学习的恶意软件图像格式检测方法及其装置
CN110633570B (zh) 面向恶意软件汇编格式检测模型的黑盒攻击的防御方法
Kancherla et al. Image visualization based malware detection
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
Pinhero et al. Malware detection employed by visualization and deep neural network
Tang et al. Dynamic API call sequence visualisation for malware classification
Seok et al. Visualized malware classification based-on convolutional neural network
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN107315956B (zh) 一种用于快速准确检测零日恶意软件的图论方法
Tong et al. A method for detecting DGA botnet based on semantic and cluster analysis
Azab et al. Msic: malware spectrogram image classification
CN110647745A (zh) 基于深度学习的恶意软件汇编格式的检测方法
CN108090356A (zh) 一种基于图像纹理和bp神经网络的恶意文件检测方法
CN110704841A (zh) 一种基于卷积神经网络的大规模安卓恶意应用检测系统及方法
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN112380537A (zh) 一种检测恶意软件的方法、装置、存储介质和电子设备
CN116962047A (zh) 一种可解释的威胁情报生成方法、系统及装置
Pan et al. Malware classification based on the behavior analysis and back propagation neural network
Malik et al. Performance Evaluation of Classification Algorithms for Intrusion Detection on NSL-KDD Using Rapid Miner
Wang et al. Malware detection using cnn via word embedding in cloud computing infrastructure
Guo et al. Classification of malware variant based on ensemble learning
Juvonen et al. Anomaly detection framework using rule extraction for efficient intrusion detection
Bozkır et al. Local image descriptor based phishing web page recognition as an open-set problem
Jiang et al. A pyramid stripe pooling-based convolutional neural network for malware detection and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant