CN111832019A - 基于生成对抗网络的恶意代码检测方法 - Google Patents
基于生成对抗网络的恶意代码检测方法 Download PDFInfo
- Publication number
- CN111832019A CN111832019A CN202010524261.9A CN202010524261A CN111832019A CN 111832019 A CN111832019 A CN 111832019A CN 202010524261 A CN202010524261 A CN 202010524261A CN 111832019 A CN111832019 A CN 111832019A
- Authority
- CN
- China
- Prior art keywords
- sample
- malicious code
- sample set
- countermeasure
- benign
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 230000003068 static effect Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000013145 classification model Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 78
- 238000000034 method Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000544061 Cuculus canorus Species 0.000 description 1
- 244000035744 Hura crepitans Species 0.000 description 1
- 241001377938 Yara Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000002155 anti-virotic effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007323 disproportionation reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/563—Static detection by source code analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明涉及一种基于生成对抗网络的恶意代码检测方法,包括:采集恶意代码样本集和良性样本集;提取恶意代码样本集和良性样本集中每一样本的静态特征和动态特征;将每一样本的静态特征和动态特征进行组合,得到每一样本组合特征;将所有样本组合特征输入预先设置的生成器G中,生成对抗样本集;将对抗样本集输入预先设置的判别器D中,判别每个对抗样本是否为恶意代码,并标记是否为恶意代码的标签,再将附带标签的对抗样本集反馈到生成器G中,持续优化所述生成器G;将附带标签的对抗样本集作为训练集进行训练,得到恶意代码分类模型;基于恶意代码分类模型检测待测样本是否为恶意代码。本发明提高了恶意代码检测的准确度和效率。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于生成对抗网络的恶意代码检测方法。
背景技术
随着网络技术的发展,当前网络空间安全的主要威胁之一是恶意代码通过系统漏洞或垃圾邮件等大规模传播,进而对信息系统造成破坏,因此,如何准确而有效的识别恶意代码十分必要。现有的恶意代码检测技术通常基于如下假设:恶意代码与非恶意代码在结构、功能和行为特征上存在差异,且该差异特征尽可能非歧义的判别代码片段或计算机程序是否为恶意代码。但是,随着网络攻防的博弈,恶意代码呈现出隐形化、多态化、多歧化特点,如何获取大量恶意代码样本并提取丰富而准确的恶意特征是恶意代码检测引擎的关键能力之一。
现有的恶意代码检测技术,主要包括以下两种:
(1)规则式检测(Rule-based Detection)
恶意代码检测引擎基于恶意代码特征规则库对样本进行检测,规则库主要包括针对恶意指令的指纹特征和针对恶意行为的模式特征。目前的代表性工作YARA工具,支持文本文件、二进制文件的字节序列提取,支持通配符、正则表达式等特性。虽然此方法检测恶意代码的准确率较高、检测时间较短,但是,该方法需要预先定义大量的规则,对于稍作变化的未知恶意代码则无能为力,不具备通用性。
(2)启发式检测(Heuristic Detection)
通过监视系统的活动并将其分类为正常或异常两种状态来检测样本是否具有恶意的企图。当前对异常状态的判断通常基于机器学习算法,这需要恶意代码检测引擎进行一段时间的训练和建模。目前的代表性工作有VMAnalyzer、Maldy工具,通过提取恶意代码的API调用序列或动态行为分析特征,输入到神经网络中训练分类模型,进而检测恶意代码。但是,该方法基于统计特征和概率决策模型,在实际应用中通常具有较高的误报率,更为重要的是,基于机器学习的检测模型通常需要大量的样本进行训练,才有得到相对较高的准确率和召回率,检测成本高,且对于恶意样本的获取是一个极大的挑战。
由此可知,现有的恶意代码检测技术检测成本高且通用性差。
发明内容
本发明目的在于,提供一种基于生成对抗网络的恶意代码检测方法,通过采集少量恶意代码样本集,基于生成对抗网络构建大量恶意代码对抗样本,用于训练恶意代码检测模型,能够实现准确而有效的恶意代码检测,成本低且具有通用性。
为了解决上述技术问题,本发明提供了一种基于生成对抗网络的恶意代码检测方法,包括:
采集恶意代码样本集和良性样本集;
提取所述恶意代码样本集和良性样本集中每一样本的静态特征和动态特征;
将所述恶意代码样本集和良性样本集中每一样本的静态特征和动态特征进行组合,得到每一样本组合特征;
将所有样本组合特征输入预先设置的生成器G中,生成对抗样本集;
将所述对抗样本集输入预先设置的判别器D中,判别每个对抗样本是否为恶意代码,为每个对抗样本标记是否为恶意代码的标签,并将附带标签的对抗样本集反馈到所述生成器G中,持续优化所述生成器G;
将附带标签的对抗样本集作为训练集进行训练,得到恶意代码分类模型;
基于所述恶意代码分类模型检测待测样本是否为恶意代码。
进一步的,提取所述恶意代码样本集和良性样本集中每一样本的静态特征,包括:
提取所述恶意代码样本集和良性样本集中每一样本的二进制灰度图像,并生成每一样本的二进制灰度图像对应的多维静态特征向量,作为所述静态特征向量。
进一步的,所述提取所述恶意代码样本集和良性样本集中每一样本的二进制灰度图像,包括:
将每一恶意代码样本和良性样本的样本文件0和1构成的二进制串解读为8位无符号整数向量;
根据样本文件的大小设定图像的宽度,将无符号整数向量转换为二维数组;
将所述二维数组的每个数组元素表示为灰度图像的一个像素,构成所述二进制灰度图像。
进一步的,提取所述恶意代码样本集和良性样本集中每一样本的动态特征,包括:
基于所述恶意代码样本集和良性样本集中每一样本的动态行为,提取每一样本的API调用序列特征,得到每一样本的多维动态特征向量,作为所述动态特征向量。
进一步的,所述提取每一样本的API调用序列特征,得到每一样本的多维动态特征向量,包括:
通过动态分析样本在运行中调用的操作系统API列表,并进行编码,生成每个样本的多维动态特征向量。
进一步的,将所述恶意代码样本集和良性样本集中每一样本的静态特征和动态特征进行组合,得到每一样本组合特征,包括:
将所述恶意代码样本集和良性样本集中每一样本的多维静态特征向量和多维动态特征向量进行组合,得到每一样本的多维组合特征向量,作为所述每一样本组合特征,所述组合包括叠加和降维。
进一步的,将所有样本组合特征输入预先设置的生成器G中,生成对抗样本集,包括:
将所有样本的多维组合特征向量输入预先设置的生成器G中,生成对抗样本特征向量,所述对抗样本特征向量与输入样本特征相似,将每一所述对抗样本特征向量反向还原为样本文件,组成所述对抗样本集。
进一步的,所述将每一所述对抗样本特征向量反向还原为样本文件,包括:
将所述与输入样本特征相似的样本特征向量还原为对应的灰度图像,再反向生成样本文件;
根据编码的API序列,将标记变为0的API调用随机修改为一个标记变为1的API,或填充空指令,生成所述对抗样本集。
进一步的,将附带标签的对抗样本集作为训练集进行训练,得到恶意代码分类模型,包括:
以所有附带标签的对抗样本集作为训练集,使用卷积神经网络对样本静态特征向量训练分类模型,使用随机森林算法对样本动态特征向量训练分类模型,再对两个模型分类结果加和平均归一化,得到所述恶意代码分类模型。
进一步的,所述基于所述恶意代码分类模型检测待测样本是否为恶意代码,包括:
提取所述待测试样本的静态特征和动态特征,并将所述待测试样本的静态特征和动态特征输入所述恶意代码分类模型中,然后输出待测试样本是否为恶意代码的分类。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明一种基于生成对抗网络的恶意代码检测方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明通过采集少量恶意代码样本集,生成大量对抗样本集,因而可以使机器学习算法获得大量的有标签样本集进行训练,同时在生成对抗网络的博弈中生成了大量具有良好特征的对抗样本,有效解决了现有基于机器学习的恶意代码检测引擎对训练样本数量要求较高、容易产生过拟合的问题,提高了恶意代码识别的精确度和效率,成本低且具有通用性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明一实施例提供的基于生成对抗网络的恶意代码检测方法示意图;
图2为本发明一实施例提供的控制器结构框图;
图3为本发明一实施例提供的计算机可读存储介质的结构框图。
【符号说明】
100:控制器
101:存储器
102:处理器
200:计算机可读存储介质
201:程序代码
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于生成对抗网络的恶意代码检测方法的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种基于生成对抗网络的恶意代码检测方法,如图1所示,包括:
步骤S1、采集恶意代码样本集和良性样本集;
步骤S2、提取所述恶意代码样本集和良性样本集中每一样本的静态特征和动态特征;
步骤S3、将所述恶意代码样本集和良性样本集中每一样本的静态特征和动态特征进行组合,得到每一样本组合特征;
步骤S4、将所有样本组合特征输入预先设置的生成器G中,生成对抗样本集;
步骤S5、将所述对抗样本集输入预先设置的判别器D中,判别每个对抗样本是否为恶意代码,为每个对抗样本标记是否为恶意代码的标签,并将附带标签的对抗样本集反馈到所述生成器G中,持续优化所述生成器G;
步骤S6、将附带标签的对抗样本集作为训练集进行训练,得到恶意代码分类模型;
步骤S7、基于所述恶意代码分类模型检测待测样本是否为恶意代码。
所述步骤S1中,可从多源威胁情报中采集恶意代码样本集,多源威胁情报指的是网络安全厂商、开源安全社区,商业付费安全大数据供应商所提供的网络攻击组织活动报告、网络安全事件报告、入侵检测指标(Indicator of Compromise)。良性样本集指的是开源社区和公开软件仓库中高评分的活跃开源软件项目生成的可执行文件集合,例如采集Github平台中评分大于10K且最近3个月内保持活跃的开源项目,提取其中的二进制可执行程序作为良性样本集。
作为一种示例,所述步骤S2中,提取所述恶意代码样本集和良性样本集中每一样本的静态特征包括:
步骤S21、提取所述恶意代码样本集和良性样本集中每一样本的二进制灰度图像,并生成每一样本的二进制灰度图像对应的多维静态特征向量,作为所述静态特征向量。
其中,可使用自编码网络Autoencoder提取所有图像的100维特征向量,作为所述静态特征向量。
所述步骤S21中,提取所述恶意代码样本集和良性样本集中每一样本的二进制灰度图像,包括:
步骤S211、将每一恶意代码样本和良性样本的样本文件0和1构成的二进制串解读为8位无符号整数向量;
步骤S212、根据样本文件的大小设定图像的宽度,将无符号整数向量转换为二维数组;
步骤S213、将所述二维数组的每个数组元素表示为灰度图像的一个像素,构成所述二进制灰度图像。
所述步骤S2中,提取所述恶意代码样本集和良性样本集中每一样本的动态特征,包括:
步骤S22、基于所述恶意代码样本集和良性样本集中每一样本的动态行为,提取每一样本的API调用序列特征,得到每一样本的多维动态特征向量,作为所述动态特征向量。
所述步骤S22中,所述提取每一样本的API调用序列特征,得到每一样本的多维动态特征向量,包括:
步骤S221、通过动态分析样本在运行中调用的操作系统API列表,并进行编码,生成每个样本的多维动态特征向量。例如进行One-Hot编码,生成每个样本的二值(即0和1)多维特征向量。
作为一种示例,所述步骤S22中,可在Cuckoo沙箱环境中运行所有样本,捕获样本运行中的所有API调用,根据API调用的频率,选择前100个API使用One-Hot编码,生成每个样本的100维动态特征向量。
作为一种示例,所述步骤S3可包括:
步骤S31、将所述恶意代码样本集和良性样本集中每一样本的多维静态特征向量和多维动态特征向量进行组合,得到每一样本的多维组合特征向量,作为所述每一样本组合特征,所述组合包括叠加和降维。
例如,组合步骤S102中每个样本的100维静态特征向量和步骤S103中每个样本的100维动态特征向量,叠加生成样本的200维特征向量,也可根据计算资源等因素将叠加生成的组合特征进行降维操作,例如,将200维的组合特征通过降维处理得到150维组合特征。需要说明的是,上述仅为一个示例,多维静态特征向量和多维动态特征向量的维度可以相等,也可以不等,例如多维动态特征向量为100维动态特征向量,多维静态特征向量为50维静态特征向量。
作为一种示例,所述步骤S4中,生成器G指的是一种特殊的神经网络,该网络通过预测所输入样本的特征,生成一个新的样本并保持其特征与输入样本相似。具体可使用Adam梯度下降优化算法构建生成器G,输入步骤多维组合特征向量和随机噪声z,生成对抗样本特征向量,并反向还原为样本文件。还可采用SGD、RMSProp、AdaGrad等类似的深度学习优化算法来构建生成器G。本发明实施例中,可根据训练集的样本特征,设定所述生成器G中的迭代次数和步长等参数。其中,生成对抗样本集,指的是从样本的多维特征向量反向生成样本文件的过程。由于生成器G的操作对象为样本的多维特征向量,而步骤S5中判别器D的操作对象为样本文件,因此,通过生成器G生成的对抗样本的特征向量只有反向还原为样本文件,才能在判别器D中执行分类操作。因此,所述步骤S4具体可包括:
步骤S41、将所有样本的多维组合特征向量输入预先设置的生成器G中,生成对抗样本特征向量,所述对抗样本特征向量与输入样本特征相似,将每一所述对抗样本特征向量反向还原为样本文件,组成所述对抗样本集。
所述步骤S41中,将每一所述对抗样本特征向量反向还原为样本文件,可包括:
步骤S411、将所述与输入样本特征相似的样本特征向量还原为对应的灰度图像,再反向生成样本文件;
步骤S412、根据编码的API序列,将标记变为0的API调用随机修改为一个标记变为1的API,或填充NOP空指令,生成所述对抗样本集,NOP是汇编语言的一个指令。
步骤S5中,判别器D指的是一种具有高置信度的恶意代码检测引擎,对输入的样本进行分类,判断是否为恶意代码。具体可使用VirusTotal作为判别器D,检测步骤S4生成的对抗样本,若VirusTotal中大于5个杀毒引擎检测为恶意代码,则标记为恶意代码,否则标记为良性代码;同时将样本标签反馈到生成器G中持续优化,能够不断提高生成器G的判断恶意代码的准确度,进而提高本发明所述方法检测恶意代码的准确度。
作为一种示例,所述步骤S6包括:
步骤S61、以所有附带标签的对抗样本集作为训练集,使用卷积神经网络对样本静态特征向量训练分类模型,使用随机森林算法对样本动态特征向量训练分类模型,再对两个模型分类结果加和平均归一化,得到所述恶意代码分类模型,所述恶意代码分类模型用于输出是否为恶意代码的标签。
作为一种示例,所述步骤S7包括:
步骤S71、提取所述待测试样本的静态特征和动态特征,并将所述待测试样本的静态特征和动态特征输入所述恶意代码分类模型中,然后输出待测试样本是否为恶意代码的分类。
本发明实施例通过采集少量恶意代码样本集,生成大量对抗样本集,因而可以使机器学习算法获得大量的有标签样本集进行训练,同时在生成对抗网络的博弈中生成了大量具有良好特征的对抗样本,有效解决了现有基于机器学习的恶意代码检测引擎对训练样本数量要求较高、容易产生过拟合的问题,提高了恶意代码识别的精确度和效率,成本低且具有通用性。
本发明实施例还提供一种控制器100,其包括存储器101以及一个或多个处理器102,存储器101以及处理器102之间通信线路连接。存储器101可用于存储软件程序,如本申请实施例中所述的方法对应的程序指令,处理器102通过运行存储在存储器101内的软件程序,从而执行各种功能应用以及数据处理,如本发明实施例所述的方法。
存储器101可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。可以理解的是,图2所示的结构仅为示意,服务器100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
图2所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例还提供一种计算机可读存储介质,如图3所示,该计算机可读介质200中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。计算机可读存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质200包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质200具有执行上述方法中的任何方法步骤的程序代码201的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码201可以例如以适当形式进行压缩。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种基于生成对抗网络的恶意代码检测方法,其特征在于,
包括以下步骤:
采集恶意代码样本集和良性样本集;
提取所述恶意代码样本集和良性样本集中每一样本的静态特征和动态特征;
将所述恶意代码样本集和良性样本集中每一样本的静态特征和动态特征进行组合,得到每一样本组合特征;
将所有样本组合特征输入预先设置的生成器G中,生成对抗样本集;
将所述对抗样本集输入预先设置的判别器D中,判别每个对抗样本是否为恶意代码,为每个对抗样本标记是否为恶意代码的标签,并将附带标签的对抗样本集反馈到所述生成器G中,持续优化所述生成器G;
将附带标签的对抗样本集作为训练集进行训练,得到恶意代码分类模型;
基于所述恶意代码分类模型检测待测样本是否为恶意代码。
2.根据权利要求1所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
所述提取所述恶意代码样本集和良性样本集中每一样本的静态特征,包括:
提取所述恶意代码样本集和良性样本集中每一样本的二进制灰度图像,并生成每一样本的二进制灰度图像对应的多维静态特征向量,作为所述静态特征向量。
3.根据权利要求2所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
所述提取所述恶意代码样本集和良性样本集中每一样本的二进制灰度图像,包括:
将每一恶意代码样本和良性样本的样本文件0和1构成的二进制串解读为8位无符号整数向量;
根据样本文件的大小设定图像的宽度,将无符号整数向量转换为二维数组;
将所述二维数组的每个数组元素表示为灰度图像的一个像素,构成所述二进制灰度图像。
4.根据权利要求2所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
所述提取所述恶意代码样本集和良性样本集中每一样本的动态特征,包括:
基于所述恶意代码样本集和良性样本集中每一样本的动态行为,提取每一样本的API调用序列特征,得到每一样本的多维动态特征向量,作为所述动态特征向量。
5.根据权利要求4所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
所述提取每一样本的API调用序列特征,得到每一样本的多维动态特征向量,包括:
通过动态分析样本在运行中调用的操作系统API列表,并进行编码,生成每个样本的多维动态特征向量。
6.根据权利要求4所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
将所述恶意代码样本集和良性样本集中每一样本的静态特征和动态特征进行组合,得到每一样本组合特征,包括:
将所述恶意代码样本集和良性样本集中每一样本的多维静态特征向量和多维动态特征向量进行组合,得到每一样本的多维组合特征向量,作为所述每一样本组合特征,所述组合包括叠加和降维。
7.根据权利要求6所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
所述将所有样本组合特征输入预先设置的生成器G中,生成对抗样本集,包括:
将所有样本的多维组合特征向量输入预先设置的生成器G中,生成对抗样本特征向量,所述对抗样本特征向量与输入样本特征相似,将每一所述对抗样本特征向量反向还原为样本文件,组成所述对抗样本集。
8.根据权利要求7所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
所述将每一所述对抗样本特征向量反向还原为样本文件,包括:
将所述与输入样本特征相似的样本特征向量还原为对应的灰度图像,再反向生成样本文件;
根据编码的API序列,将标记变为0的API调用随机修改为一个标记变为1的API,或填充空指令,生成所述对抗样本集。
9.根据权利要求1所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
将附带标签的对抗样本集作为训练集进行训练,得到恶意代码分类模型,包括:
以所有附带标签的对抗样本集作为训练集,使用卷积神经网络对样本静态特征向量训练分类模型,使用随机森林算法对样本动态特征向量训练分类模型,再对两个模型分类结果加和平均归一化,得到所述恶意代码分类模型。
10.根据权利要求1所述的基于生成对抗网络的恶意代码检测方法,其特征在于,
所述基于所述恶意代码分类模型检测待测样本是否为恶意代码,包括:
提取所述待测试样本的静态特征和动态特征,并将所述待测试样本的静态特征和动态特征输入所述恶意代码分类模型中,然后输出待测试样本是否为恶意代码的分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010524261.9A CN111832019B (zh) | 2020-06-10 | 2020-06-10 | 基于生成对抗网络的恶意代码检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010524261.9A CN111832019B (zh) | 2020-06-10 | 2020-06-10 | 基于生成对抗网络的恶意代码检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832019A true CN111832019A (zh) | 2020-10-27 |
CN111832019B CN111832019B (zh) | 2024-02-23 |
Family
ID=72898653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010524261.9A Active CN111832019B (zh) | 2020-06-10 | 2020-06-10 | 基于生成对抗网络的恶意代码检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832019B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112565261A (zh) * | 2020-12-04 | 2021-03-26 | 浙江大学 | 基于多生成器AugGAN的对抗动态恶意API序列生成方法 |
CN112560034A (zh) * | 2020-12-11 | 2021-03-26 | 宿迁学院 | 基于反馈式深度对抗网络的恶意代码样本合成方法及装置 |
CN112580047A (zh) * | 2020-12-23 | 2021-03-30 | 苏州三六零智能安全科技有限公司 | 工业恶意代码标记方法、设备、存储介质及装置 |
CN112989346A (zh) * | 2021-04-09 | 2021-06-18 | 鹏城实验室 | 对抗样本生成方法、装置、终端设备以及存储介质 |
CN113158190A (zh) * | 2021-04-30 | 2021-07-23 | 河北师范大学 | 一种基于生成式对抗网络的恶意代码对抗样本自动生成方法 |
CN113221109A (zh) * | 2021-03-30 | 2021-08-06 | 浙江工业大学 | 一种基于生成对抗网络的恶意文件智能分析方法 |
CN113722713A (zh) * | 2021-09-10 | 2021-11-30 | 上海观安信息技术股份有限公司 | 一种恶意代码检测的方法、装置、电子设备及存储介质 |
CN114663946A (zh) * | 2022-03-21 | 2022-06-24 | 中国电信股份有限公司 | 对抗样本生成方法、装置、设备及介质 |
CN114692148A (zh) * | 2022-03-31 | 2022-07-01 | 中国舰船研究设计中心 | 一种基于机器学习的恶意代码检测方法 |
CN114745205A (zh) * | 2022-05-26 | 2022-07-12 | 哈尔滨工业大学(深圳) | 恶意代码对抗样本检测方法、系统及存储介质 |
CN114861178A (zh) * | 2022-04-25 | 2022-08-05 | 北京计算机技术及应用研究所 | 一种基于改进b2m算法的恶意代码检测引擎设计方法 |
CN115249048A (zh) * | 2022-09-16 | 2022-10-28 | 西南民族大学 | 一种对抗样本生成方法 |
CN116383835A (zh) * | 2023-06-06 | 2023-07-04 | 北京比瓴科技有限公司 | 基于多安全工具的软件漏洞监测方法、装置、设备及介质 |
CN116429406A (zh) * | 2023-06-14 | 2023-07-14 | 山东能源数智云科技有限公司 | 大型机械设备故障诊断模型的构建方法及装置 |
CN116738429A (zh) * | 2023-08-15 | 2023-09-12 | 之江实验室 | 基于生成对抗的目标检测引擎优化方法、装置及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193225A1 (en) * | 2016-01-04 | 2017-07-06 | Electronics And Telecommunications Research Institute | Behavior-based malicious code detecting apparatus and method using multiple feature vectors |
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN109446808A (zh) * | 2018-10-30 | 2019-03-08 | 中国人民解放军国防科技大学 | 基于DCGAN的Android对抗样本生成方法及系统 |
CN109784056A (zh) * | 2019-01-02 | 2019-05-21 | 大连理工大学 | 一种基于深度学习的恶意软件检测方法 |
CN110362997A (zh) * | 2019-06-04 | 2019-10-22 | 广东工业大学 | 一种基于生成对抗网络的恶意url过采样方法 |
CN110581856A (zh) * | 2019-09-17 | 2019-12-17 | 武汉思普崚技术有限公司 | 一种恶意代码的检测方法及系统 |
CN110728297A (zh) * | 2019-09-04 | 2020-01-24 | 电子科技大学 | 一种基于gan的低代价对抗性网络攻击样本生成方法 |
CN110795732A (zh) * | 2019-10-10 | 2020-02-14 | 南京航空航天大学 | 基于SVM的Android移动网络终端恶意代码的动静结合检测方法 |
CN110826059A (zh) * | 2019-09-19 | 2020-02-21 | 浙江工业大学 | 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置 |
CN111062036A (zh) * | 2019-11-29 | 2020-04-24 | 暨南大学 | 恶意软件识别模型构建、识别方法及介质和设备 |
CN111259393A (zh) * | 2020-01-14 | 2020-06-09 | 河南信息安全研究院有限公司 | 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法 |
-
2020
- 2020-06-10 CN CN202010524261.9A patent/CN111832019B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193225A1 (en) * | 2016-01-04 | 2017-07-06 | Electronics And Telecommunications Research Institute | Behavior-based malicious code detecting apparatus and method using multiple feature vectors |
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN109446808A (zh) * | 2018-10-30 | 2019-03-08 | 中国人民解放军国防科技大学 | 基于DCGAN的Android对抗样本生成方法及系统 |
CN109784056A (zh) * | 2019-01-02 | 2019-05-21 | 大连理工大学 | 一种基于深度学习的恶意软件检测方法 |
CN110362997A (zh) * | 2019-06-04 | 2019-10-22 | 广东工业大学 | 一种基于生成对抗网络的恶意url过采样方法 |
CN110728297A (zh) * | 2019-09-04 | 2020-01-24 | 电子科技大学 | 一种基于gan的低代价对抗性网络攻击样本生成方法 |
CN110581856A (zh) * | 2019-09-17 | 2019-12-17 | 武汉思普崚技术有限公司 | 一种恶意代码的检测方法及系统 |
CN110826059A (zh) * | 2019-09-19 | 2020-02-21 | 浙江工业大学 | 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置 |
CN110795732A (zh) * | 2019-10-10 | 2020-02-14 | 南京航空航天大学 | 基于SVM的Android移动网络终端恶意代码的动静结合检测方法 |
CN111062036A (zh) * | 2019-11-29 | 2020-04-24 | 暨南大学 | 恶意软件识别模型构建、识别方法及介质和设备 |
CN111259393A (zh) * | 2020-01-14 | 2020-06-09 | 河南信息安全研究院有限公司 | 一种基于生成对抗网络的恶意软件检测器抗概念漂移方法 |
Non-Patent Citations (1)
Title |
---|
潘一鸣 等;: "基于生成对抗网络的恶意网络流生成及验证", 华东理工大学学报(自然科学版), vol. 45, no. 02, pages 344 - 350 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112565261A (zh) * | 2020-12-04 | 2021-03-26 | 浙江大学 | 基于多生成器AugGAN的对抗动态恶意API序列生成方法 |
CN112560034A (zh) * | 2020-12-11 | 2021-03-26 | 宿迁学院 | 基于反馈式深度对抗网络的恶意代码样本合成方法及装置 |
CN112560034B (zh) * | 2020-12-11 | 2024-03-29 | 宿迁学院 | 基于反馈式深度对抗网络的恶意代码样本合成方法及装置 |
CN112580047A (zh) * | 2020-12-23 | 2021-03-30 | 苏州三六零智能安全科技有限公司 | 工业恶意代码标记方法、设备、存储介质及装置 |
CN112580047B (zh) * | 2020-12-23 | 2022-11-04 | 苏州三六零智能安全科技有限公司 | 工业恶意代码标记方法、设备、存储介质及装置 |
CN113221109B (zh) * | 2021-03-30 | 2022-06-28 | 浙江工业大学 | 一种基于生成对抗网络的恶意文件智能分析方法 |
CN113221109A (zh) * | 2021-03-30 | 2021-08-06 | 浙江工业大学 | 一种基于生成对抗网络的恶意文件智能分析方法 |
CN112989346A (zh) * | 2021-04-09 | 2021-06-18 | 鹏城实验室 | 对抗样本生成方法、装置、终端设备以及存储介质 |
CN112989346B (zh) * | 2021-04-09 | 2021-08-10 | 鹏城实验室 | 对抗样本生成方法、装置、终端设备以及存储介质 |
CN113158190A (zh) * | 2021-04-30 | 2021-07-23 | 河北师范大学 | 一种基于生成式对抗网络的恶意代码对抗样本自动生成方法 |
CN113158190B (zh) * | 2021-04-30 | 2022-03-29 | 河北师范大学 | 一种基于生成式对抗网络的恶意代码对抗样本自动生成方法 |
CN113722713A (zh) * | 2021-09-10 | 2021-11-30 | 上海观安信息技术股份有限公司 | 一种恶意代码检测的方法、装置、电子设备及存储介质 |
CN114663946A (zh) * | 2022-03-21 | 2022-06-24 | 中国电信股份有限公司 | 对抗样本生成方法、装置、设备及介质 |
CN114692148A (zh) * | 2022-03-31 | 2022-07-01 | 中国舰船研究设计中心 | 一种基于机器学习的恶意代码检测方法 |
CN114692148B (zh) * | 2022-03-31 | 2024-04-26 | 中国舰船研究设计中心 | 一种基于机器学习的恶意代码检测方法 |
CN114861178A (zh) * | 2022-04-25 | 2022-08-05 | 北京计算机技术及应用研究所 | 一种基于改进b2m算法的恶意代码检测引擎设计方法 |
CN114861178B (zh) * | 2022-04-25 | 2024-03-29 | 北京计算机技术及应用研究所 | 一种基于改进b2m算法的恶意代码检测引擎设计方法 |
CN114745205A (zh) * | 2022-05-26 | 2022-07-12 | 哈尔滨工业大学(深圳) | 恶意代码对抗样本检测方法、系统及存储介质 |
CN115249048B (zh) * | 2022-09-16 | 2023-01-10 | 西南民族大学 | 一种对抗样本生成方法 |
CN115249048A (zh) * | 2022-09-16 | 2022-10-28 | 西南民族大学 | 一种对抗样本生成方法 |
CN116383835B (zh) * | 2023-06-06 | 2023-09-19 | 北京比瓴科技有限公司 | 基于多安全工具的软件漏洞监测方法、装置、设备及介质 |
CN116383835A (zh) * | 2023-06-06 | 2023-07-04 | 北京比瓴科技有限公司 | 基于多安全工具的软件漏洞监测方法、装置、设备及介质 |
CN116429406A (zh) * | 2023-06-14 | 2023-07-14 | 山东能源数智云科技有限公司 | 大型机械设备故障诊断模型的构建方法及装置 |
CN116429406B (zh) * | 2023-06-14 | 2023-09-26 | 山东能源数智云科技有限公司 | 大型机械设备故障诊断模型的构建方法及装置 |
CN116738429A (zh) * | 2023-08-15 | 2023-09-12 | 之江实验室 | 基于生成对抗的目标检测引擎优化方法、装置及系统 |
CN116738429B (zh) * | 2023-08-15 | 2023-11-14 | 之江实验室 | 基于生成对抗的目标检测引擎优化方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111832019B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832019B (zh) | 基于生成对抗网络的恶意代码检测方法 | |
Aslan et al. | A new malware classification framework based on deep learning algorithms | |
CN109359439B (zh) | 软件检测方法、装置、设备及存储介质 | |
Almomani et al. | An automated vision-based deep learning model for efficient detection of android malware attacks | |
Zhao et al. | Maldeep: A deep learning classification framework against malware variants based on texture visualization | |
Sun et al. | Malware family classification method based on static feature extraction | |
CN116305168B (zh) | 一种多维度信息安全风险评估方法、系统及存储介质 | |
CN112491872A (zh) | 一种基于设备画像的异常网络访问行为检测方法和系统 | |
Falana et al. | Mal-Detect: An intelligent visualization approach for malware detection | |
CN112329012A (zh) | 针对包含JavaScript的恶意PDF文档的检测方法及电子设备 | |
Mpanti et al. | A graph-based model for malicious software detection exploiting domination relations between system-call groups | |
Čeponis et al. | Evaluation of deep learning methods efficiency for malicious and benign system calls classification on the AWSCTD | |
CN114143074B (zh) | webshell攻击识别装置及方法 | |
CN115567224A (zh) | 一种用于检测区块链交易异常的方法及相关产品 | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
CN115473667A (zh) | 一种基于子图匹配的apt攻击序列检测方法 | |
CN114579965A (zh) | 一种恶意代码的检测方法、装置及计算机可读存储介质 | |
Rashid et al. | Enhanced website phishing detection based on the cyber kill chain and cloud computing | |
Bozkır et al. | Local image descriptor based phishing web page recognition as an open-set problem | |
Juvonen et al. | Anomaly detection framework using rule extraction for efficient intrusion detection | |
Jeyalakshmi et al. | A study of malware datasets and techniques to detect the malware using deep learning approach | |
Rueda et al. | A Hybrid Intrusion Detection Approach Based on Deep Learning Techniques | |
Jin et al. | Effective Ransomware Attacks Detection Using CNN Algorithm | |
Zhao et al. | Research Article MalDeep: A Deep Learning Classification Framework against Malware Variants Based on Texture Visualization | |
CN112632541A (zh) | 行为恶意程度的确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |