CN112613036A

CN112613036A - 恶意样本增强方法、恶意程序检测方法及对应装置

Info

Publication number: CN112613036A
Application number: CN202011598718.7A
Authority: CN
Inventors: 陈龙; 王炜; 江军
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-06

Abstract

本申请涉及网络安全技术领域，提供一种恶意样本增强方法、恶意程序检测方法及对应装置。其中，恶意样本增强方法包括：获取原始恶意样本，该原始恶意样本为二进制文件；利用原始恶意样本训练生成对抗网络，该生成对抗网络包括判别器以及生成器；训练好后，利用生成器生成扩充恶意样本；将扩充恶意样本与原始恶意样本结合，形成增强的恶意样本集。该方法可基于少量的原始恶意样本派生出大量的扩充恶意样本，从而有利于增加样本集中恶意样本的数量，使得训练出来的恶意程序检测模型的泛化能力显著提高，进而对于多类恶意程序都能够有效地检测。并且，该方法中的扩充恶意样本由生成器自动生成，无需人工介入，因此是一种高效的样本增强方法。

Description

恶意样本增强方法、恶意程序检测方法及对应装置

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种恶意样本增强方法、恶意程序检测方法及对应装置。

背景技术

在现有技术中，多采用深度学习模型对网络空间中的可执行威胁进行检测，然而，当训练深度学习模型所用的威胁数据集中样本数量较少时，训练出来的深度学习模型性能将大幅下降。目前，只能依赖人工去尽可能收集更多的样本，但此种做法不仅效率低下而且也不容易收集到所需的样本。

发明内容

本申请实施例的目的在于提供一种恶意样本增强方法及装置、存储介质及电子设备，以改善上述技术问题。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种恶意样本增强方法，包括：获取原始恶意样本，所述原始恶意样本为二进制文件；利用所述原始恶意样本训练生成对抗网络，所述生成对抗网络包括判别器以及生成器；在所述生成对抗网络训练好后，利用所述生成器生成扩充恶意样本；将所述扩充恶意样本与所述原始恶意样本结合，形成增强的恶意样本集。

上述方法利用生成对抗网络，可基于少量的原始恶意样本派生出大量的扩充恶意样本，从而有利于增加样本集中恶意样本的数量，在恶意样本的数量增多后，训练出来的恶意程序检测模型的泛化能力将显著提高，进而对于多类恶意程序都能够有效地检测。该方法中的扩充恶意样本是生成对抗网络的生成器自动生成的，无需人工介入，因此是一种高效的样本增强方法。此外，该方法还有利于改善样本不平衡问题、样本相似度问题以及模型过拟合问题，具体见后文阐述。

需要指出，增强的恶意样本集虽然可用于训练恶意程序检测模型，但并不必然用于训练该模型，即该方法并没有限定最终得到的恶意样本集的用途。

在第一方面的一种实现方式中，所述获取原始恶意样本，包括：通过以下至少一种方式获取所述原始恶意样本：直接将具有恶意特征的二进制文件作为所述原始恶意样本；对已有二进制文件进行反编译，对反编译生成的结果文件添加恶意特征或者改动其恶意特征后再将其编译为所述原始恶意样本；将具有恶意代码的源文件编译后生成所述原始恶意样本。

原始恶意样本有多种可能的获取方式，其获取渠道是广泛的、灵活的。上述第一种方式代表收集到的样本本就是二进制文件，因此无需进行转换即可将其作为原始恶意样本，例如恶意文件本就是可执行文件的情况。上述第二种方式代表开发人员希望对已有的二进制文件进行一定程度的改动的情况(例如，添加恶意特征或者修改其本身的恶意特征)，由于开发人员无法直接修改二进制内容，因此需要先将其反编译为可读的结果文件再行修改。上述第三种方式代表恶意文件是源文件的情况，需要对其进行编译，才能得到相应的二进制文件并将其作为原始恶意样本，例如，开发人员自己编写的恶意程序。

在第一方面的一种实现方式中，所述生成对抗网络为序列生成对抗网络Seq-GAN，所述生成器为循环神经网络RNN，所述判别器为卷积神经网络CNN。

二进制文件可视为一种离散型数据，因此可采用原始GAN网络的变形，即Seq-GAN进行处理，Seq-GAN借鉴了强化学习的策略，有效解决了原始GAN应用于离散数据的问题。

在第一方面的一种实现方式中，所述利用所述原始恶意样本训练生成对抗网络，包括：随机初始化所述生成器和所述判别器的参数；基于所述原始恶意样本，通过最大似然估计预训练所述生成器；根据预训练的生成器生成初始数据，并基于所述初始数据通过最小化交叉熵预训练所述判别器；在预训练完成后，迭代执行以下步骤进行对抗训练，直至所述生成对抗网络收敛：将随机变量输入至所述生成器中以生成二进制文件序列；其中，所述二进制文件序列包括完整的二进制文件序列和非完整的二进制文件序列；采用蒙特卡洛树搜索对所述非完整的二进制文件序列进行模拟，获得模拟的二进制文件序列；将所述模拟的二进制文件序列与所述完整的二进制文件序列结合，形成新的二进制文件序列；基于所述新的二进制文件序列和所述原始恶意样本训练所述判别器，并生成奖励值；利用策略梯度算法结合所述奖励值训练所述生成器。

上述实现方式给出了本申请中Seq-GAN的一种可能的训练方法，大致可分为两个阶段：第一阶段为预训练阶段，输出预训练好的生成器与判别器；第二阶段为正式训练阶段，基于GAN的生成对抗原理，并结合强化学习策略，继续训练第一阶段得到的生成器与判别器，直至模型收敛。

在第一方面的一种实现方式中，在所述利用所述生成对抗网络中的生成网络生成扩充恶意样本之后，以及在所述将所述扩充恶意样本与所述原始恶意样本结合，形成增强的恶意样本集之前，所述方法还包括：检测所述扩充恶意样本的可执行性以及恶意性。

对于生成的扩充恶意样本，可以检测其有效性，例如可否执行、是否具有恶意特征等。若检测通过，表明生成器是有效的，可以进一步使用该生成器生成样本，否则可能需要重新训练生成对抗网络。

第二方面，本申请实施例提供一种恶意程序检测方法，包括：基于第一方面或第一方面的任意一种可能的实现方式提供的方法构建增强的恶意样本集；利用所述增强的恶意样本集训练恶意程序检测模型，所述恶意程序检测模型为神经网络模型；将训练好的恶意程序检测模型导出至检测器，并利用所述检测器检测程序样本。

上述方法由于使用了本申请实施例提供的恶意样本增强方法来获得增强的恶意样本集，因此该恶意样本集包含较多的恶意样本，从而训练出来的恶意程序检测模型的泛化能力将显著提高，进而所导出的检测器对于多类恶意程序都能够有效地检测。此外，该方法还有利于改善样本不平衡问题、样本相似度问题以及模型过拟合问题，具体见后文阐述。

第三方面，本申请实施例提供一种恶意样本增强装置，包括：样本获取模块，用于获取原始恶意样本，所述原始恶意样本为二进制文件；第一模型训练模块，用于利用所述原始恶意样本训练生成对抗网络，所述生成对抗网络包括判别器以及生成器；样本生成模块，用于在所述生成对抗网络训练好后，利用所述生成器生成扩充恶意样本；样本增强模块，用于将所述扩充恶意样本与所述原始恶意样本结合，形成增强的恶意样本集。

第四方面，本申请实施例提供一种恶意程序检测装置，包括：样本集构建模块，用于基于第一方面或第一方面的任意一种可能的实现方式提供的方法构建增强的恶意样本集；第二模型训练模块，用于利用所述增强的恶意样本集训练恶意程序检测模型，所述恶意程序检测模型为神经网络模型；检测模块，用于将训练好的恶意程序检测模型导出至检测器，并利用所述检测器检测程序样本。

第五方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面、第二方面或这两方面的任意一种可能的实现方式提供的方法。

第六方面，本申请实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面、第二方面或这两方面的任意一种可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的恶意样本增强方法的一种可能的流程；

图2示出了GAN网络的结构；

图3示出了Seq-GAN网络的一种可能的训练流程；

图4示出了Seq-GAN网络的结构；

图5示出了本申请实施例提供的恶意程序检测方法的一种可能的流程；

图6示出了本申请实施例提供的恶意样本增强装置的一种可能的结构；

图7示出了本申请实施例提供的恶意程序检测装置的一种可能的结构；

图8示出了本申请实施例提供的电子设备的一种可能的结构。

具体实施方式

当深度学习在计算机视觉领域取得巨大成功之后，研究人员开始将其推广至其他领域，例如网络安全领域，用于检测一些恶意程序，比如病毒、木马、垃圾广告等。然而，深度学习模型的训练需要大量的恶意样本，当只有少量的恶意样本时，模型对恶意程序的检测性能将大幅下降，但在现实中收集大量的恶意样本并不容易，这使得模型的训练成为了一个小样本学习问题。

发明人长期研究发现，小样本学习中存在如下一些问题：

(1)样本不平衡问题

在深度学习的学术研究中，使用的大部分数据集都是平衡的，即数据集中的每一数据类别通常有相同或相近的样本数量。而在实际采集的数据集中各数据类别的样本数量往往是不平衡的。

样本不平衡问题包括两方面：

一方面是分类标签不平衡，样本集中可能正常样本很多，恶意样本较少。而在仅有恶意样本分布也不均匀，某几类威胁的样本可能很多，另一些威胁类别的样本则很少，甚至没有，用不平衡的数据集训练出来的模型在针对样本数量很少的类别进行预测时，必然会出现预测性能很差甚至无法预测的情况。

另一方面是错分成本不平衡的问题，在学术研究中，数据集中的每一数据类别的分类错误成本通常是一样的，但实际中并不是这样。针对有的恶意程序，一旦分类错误可能带来极为严重的后果，即其错分成本很高，不妨类比于医学，将一个健康的人误诊为患病带来的伤害相对是有限的，但是将一个患病的人误诊为健康将使病人得不到治疗而延误病情，可能为此付出生命的代价。用不平衡的数据集训练出来的模型会导致错分成本的显著上升。

(2)样本相似度问题

传统的深度学习方法在训练或推断时，一般利用神经网络模型提取目标特征，然后对特征进行分类以及回归，然而在这一过程中，大多数方法将焦点放在样本独立性上，没有考虑样本之间的相似关系。基于此，出现了孪生网络(Siamese Neural Network)，匹配网络(Matching Network)，原型网络(Prototypical Networks)，关系网络(RelationNetwork)等一系新颖网络，这些网络将焦点集中于学习样本之间的相似关系，使得模型拥有比较样本之间相似度的能力。然而，若数据集中样本数量过少，或者缺少相似样本，将使得这些网络的效果大打折扣。

(3)模型过拟合问题

为了得到一致假设而使假设变得过度严格称为过拟合。一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象，这里的“假设”对于深度学习来说可以指模型。出现过拟合现象的主要原因是训练数据中存在噪音，或者因训练数据太少、缺乏代表性样本等。总之，训练所用的数据集越小，过拟合出现的概率越大。通过调整深度学习模型的容量(capacity)，可以控制模型偏向于过拟合或者欠拟合。当机器学习算法的容量适合于所执行任务的复杂度和所提供数据的数量时，算法效果最佳。容量不足的模型不能解决复杂任务，容量高的模型能够解决复杂的任务，但过高时，有可能会过拟合。

本申请实施例提出的恶意样本增强方法能够扩增威胁数据集中的恶意样本数量，从而对上述问题都能够起到改善作用，该方法的详细步骤见后文阐述。需要指出，除了本申请新提出的技术方案之外，上述技术问题都是发明人在长期研究实验的过程中发现和总结的，因此也应视为发明人在发明过程中所作出的贡献，而非现有技术的一部分。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1示出了本申请实施例提供的恶意样本增强方法的一种可能的流程。该方法可以但不限于由一电子设备执行，图8示出了该电子设备的一种可能的结构，具体见后文关于图8的阐述。参照图1，该方法包括：

步骤S110：获取原始恶意样本。

原始恶意样本可以指包含恶意特征的二进制文件。其中，计算机文件一般可分为两类，一类是文本文件，另一类是二进制文件，当然这只是一种从逻辑上看待文件内容的方式，在物理上计算机文件中存储的都是二进制数据。原始恶意样本既可能是可执行文件，如恶意程序，也可能是不可以执行文件(但其中可以包含可执行的片段)，比如有的木马会伪装成不可执行文件，但其中含有可执行的恶意程序片段。

原始恶意样本的获取方式包括但不限于以下方式中的一种或多种：

a.直接将具有恶意特征的二进制文件作为原始恶意样本。

该方式针对收集到的样本本来就是二进制文件的情况，因此无需进行转换即可将其作为原始恶意样本，例如后缀为“.exe”恶意程序本就是可执行文件的情况。

b.对已有二进制文件进行反编译，对反编译生成的结果文件添加恶意特征或者改动其恶意特征后再将其编译为原始恶意样本。

该方式针对开发人员希望对已有的二进制文件(例如，通过方式a得到的原始恶意样本，或者其他二进制文件)进行一定程度的改动的情况，这种改动包括但不限于：对不包含恶意特征的二进制文件添加恶意特征，对已包含恶意特征的二进制文件修改其恶意特征，等等。由于开发人员无法直接修改二进制内容，因此需要先将其反编译为可读的结果文件再行修改，这里的反编译既可以是反编译为高级计算机语言(如C语言)，也可以是反编译成汇编语言(也称为反汇编)。在对结果文件修改后，还需要再将结果文件编译为二进制文件，才能得到所需的原始恶意样本。

通过方式b可以得到一定数量的原始恶意样本，但该方式仍然依赖于人工对样本的改动，因此并不能大量产生恶意样本，并且所需的技术门槛较高。

c.将具有恶意代码的源文件编译后生成原始恶意样本。

该方式代表恶意文件是源文件的情况，需要对其进行编译，才能得到相应的二进制文件并将其作为原始恶意样本，例如，该源文件可以是开发人员自己编写的恶意程序源码。下面举例说明通过某驱动程序将C语言源文件转换二进制文件的一种可能的过程：

驱动程序首先调用C预处理器把源文件main.c翻译成一个ASCII中间文件main.i，预处理器会把#include所包含的内容都插入到声明的位置，并且做宏替换，例如，把main.c文件的第3行的宏SIZE替换成2。然后，驱动程序的C编译器将main.i翻译成汇编语言程序main.s。接着，驱动程序的汇编器将汇编语言程序main.s翻译成可重定位的二进制文件main.o。最后驱动程序的运行链接器将main.o与一些必要的系统目标文件(如swap.o、printf.o)连接起来变成一个可执行的二进制文件。

通过方式c可以得到一定数量的原始恶意样本，但该方式仍然依赖于人工编写源代码，因此并不能大量产生恶意样本，并且所需的技术门槛较高。

总之，原始恶意样本有多种可能的获取方式，其获取渠道是广泛的、灵活的。但这些方式都不适于大量产生恶意样本，同时也受到开发人员技术水平的限制，无法得到种类丰富的恶意样本，因此，步骤S110中得到的恶意样本数量有限，只是小样本。

步骤S120：利用原始恶意样本训练生成对抗网络。

生成对抗网络(Generative Adversarial Networks，简称GAN)是由Goodfellow等人提出的一个通过对抗过程估计生成模型的新框架，在该框架中同时训练两个网络：生成器(Generator，简称G)和判别器(Discriminator，简称D)。在训练过程中，生成器的目标就是生成尽量接近真实的样本去欺骗判别器，而判别器的目标就是尽量把生成器生成的样本与真实样本区分开来。这样，生成器和判别器构成了一个动态的博弈过程，即寻找二者之间的一个平衡点，如果达到该平衡点，判别器无法判断数据来自生成器还是真实样本，此时达到最优状态。发明人的研究实践表明可利用GAN解决训练集中样本数量过少的问题。

下面先简单介绍一下Goodfellow等人提出的原始GAN，其结构如图2所示。参照图2，GAN包括判别器D和生成器G，二者都可以采用卷积神经网络(Convolutional NeuralNetwork，简称CNN)实现。其中，D的输入为真实数据x，输出为1或0，G的输入是一维随机噪声向量z，输出是G(z)。训练的目标是使得G(z)的分布pz尽可能接近真实数据的分布pdata。D的目标是实现对输入数据的二值分类，若输入来源于真实样本，则D的输出为1；若输入为G(z)，则D的输出为0。

G的目标是使自己生成的数据G(z)在D上的表现D(G(z))和真实数据x在D上的表现D(x)尽可能一致，因此G的损失函数可以通过下式计算：

G在不断对抗学习的过程中，生成的数据G(z)越来越接近真实样本，D对G(z)的判别也越来越模糊。因此D的损失函数可以通过下式计算：

综上，G和D的总体损失函数可以如下式计算：

与其他一些生成模型相比，GAN有以下两大特点：不需要依赖任何先验分布，生成对抗网络不需要先验假设，这样减少了模型的局限性，拓宽了模型的学习能力；从模型中采样数据十分简单，相比其他生成方法的繁琐采样过程，GAN只需要一次前向计算即可。

进一步的，对于离散型数据(如本申请中的二进制文件)，直接应用原始的GAN会存在一些困难，因此在一些实现方式中，可采用原始GAN的变型—序列生成对抗网络(Sequence Generative Adversarial Networks,简称Seq-GAN)对小样本数据进行增强，采用Seq-GAN有利于解决基于二进制文件数据生成器难以传递梯度更新，以及判别器难以评估非完整序列的问题。

可选的，Seq-GAN的生成器可使用循环神经网络(Recurrent Neural Network，简称RNN)，判别器可使用卷积神经网络CNN，并引入强化学习(Reinforcement Learning，简称RL)和蒙特卡洛树搜索(Monte Carlo Tree Search，简称MCTS)。可以理解的，步骤S120中的生成对抗网络也可以采用Seq-GAN以外的GAN网络类型。

若生成对抗网络采用Seq-GAN，则步骤S120中的网络训练过程可进一步包括图3中的各子步骤。图3示出的训练流程大致可分为两个阶段：第一阶段为预训练阶段(步骤S210至步骤S230)，输出预训练好的生成器与判别器；第二阶段为正式训练阶段(步骤S240至步骤S280)，基于生成对抗网络的生成对抗原理，并结合强化学习策略，继续训练第一阶段得到的生成器与判别器，直至模型收敛。图4则示出了Seq-GAN网络的结构，可与图3中的步骤相适应。参照图3，该训练流程包括：

步骤S210：随机初始化生成器和判别器的参数。

步骤S220：基于原始恶意样本，通过最大似然估计预训练生成器。

其中，原始恶意样本来源于步骤S110。通过最大似然估计(Maximum LikelihoodEstimation，简称MLE)预训练生成器，能够提高生成器的生成效率。所谓生成器的生成效率比较高，就是指生成器只需在原样本的基础上稍加改动就能得到新的样本。

步骤S230：根据预训练的生成器生成初始数据，并基于初始数据通过最小化交叉熵预训练判别器。

步骤S240：将随机变量输入至生成器中以生成二进制文件序列。

其中，二进制文件序列为二进制文件序列化的结果，二进制文件序列包括完整的二进制文件序列和非完整的二进制文件序列。非完整的二进制文件序列可以是二进制文件中的恶意片段所形成的序列。

步骤S250：采用蒙特卡洛树搜索对非完整的二进制文件序列进行模拟，获得模拟的二进制文件序列。

采用蒙特卡洛树搜索的方法解决了生成器生成二进制文件序列后，判别器难以评估非完整序列的问题。

步骤S260：将模拟的二进制文件序列与完整的二进制文件序列结合，形成新的二进制文件序列。

步骤S270：基于新的二进制文件序列和原始恶意样本训练判别器，并生成奖励值。

训练判别器即更新判别器的参数，在训练前，可将原始恶意样本也转化为序列的形式。可选的，当训练判别器时，原始恶意样本作为正样本，而生成器生成的样本则作为负样本。为了保持平衡，在一些实现方式中，可使得生成的负样本数量与正样本数量相同，同时，为了降低估计的可变性，需要使用不同的负样本集和正样本集。

可选的，对于生成器生成的非完整的序列用生成器作为Roll-out policy，将剩余的T-t个元素采用蒙特卡洛树思想采样。利用二进制文件序列计算奖励Q的公式如下式所示：

其中，在时刻t，当前的状态s被定义为“已生成的序列”，(y_1,…,y_t-1)，记作Y_1:t-1，而动作a是接下来要选出的元素Yt，所以策略policy模型就是G_θ(y₁|Y_1:t-1)。

是动作值action-value函数，是指在状态s下选择动作a，此后一直遵循着策略policy做决策，最终得到的值。在初始状态下，对于策略policy可能选出的每个y，都计算对应的值，把这些值根据策略policy的概率分布加权求和，就得到了初始状态的值。应用了上述算法的模拟(Simulation)过程：对于非完整的序列Y_1:t，以G_β(等同于生成器)作为Roll-out policy，将剩余的T-t个元素模拟出来，利用判别器对所有二进制文件序列进行评估。为了减小对value估计的误差，会进行N次模拟，对这N个结果取平均值，最终得到了完整的action-value函数。

可以理解的是，采用判别器基于完整序列的输出作为强化学习的奖励，即作为下述策略梯度算法的奖励来更新生成器的参数。

步骤S280：利用策略梯度算法结合所述奖励值训练生成器。

步骤S280通过直接执行策略梯度(Policy Gradient)算法更新生成器的参数，有利于避免传统生成对抗网络中离散序列数据的区分问题，同时也解决了基于二进制文件数据生成器难以传递梯度更新的问题。

可选的，策略梯度对参数进行迭代更新的计算公式如下：

其中，给定一个参数θ，

为策略梯度，

为给定系数，

为更新后的参数。

步骤S290：判断生成对抗网络是否收敛。

若未收敛，则跳转至步骤S240重复执行，若收敛则结束训练流程。可以理解的是，当生成器通过训练时，需要定期对判别器进行重新训练，以保持与生成器的良好同步。

步骤S130：利用生成器生成扩充恶意样本。

在生成对抗网络训练好后，只需要向生成器输入随机变量，生成器就可以输出其重构的恶意样本，称为扩充恶意样本。

在一些实现方式中，可以直接利用生成器生成大量的扩充恶意样本。

在另一些实现方式中，可以先生成少量的扩充恶意样本，然后检测(例如，抽样检测、逐个样本检测等)其有效性，检测内容包括样本可否执行、是否具有恶意特征等，若检测通过，表明生成器是有效的，再进一步利用生成器大量生成样本，否则可能需要重新训练生成对抗网络。该检测步骤可以通过预设的检测规则或现有的检测机制完成。

在另一些实现方式中，也可以每生成一批扩充恶意样本后就进行检测，检测通过后再生成下一批，不通过则可能需要重新训练生成对抗网络。

步骤S140：将扩充恶意样本与原始恶意样本结合，形成增强的恶意样本集。

步骤S140中的结合可以只是简单地合并扩充恶意样本的集合与原始恶意样本的集合，也可以是将扩充恶意样本与原始恶意样本混合在一起，等等。在结合形成的增强的恶意样本集中，样本的数量大于原始恶意样本的数量。在一些实现方式中，对原始恶意样本的扩充可以是具有针对性的，例如，针对某些样本数量比较少的种类进行样本扩充。

综上所述，本申请实施例提供的恶意样本增强方法利用生成对抗网络的生成对抗机制，可基于少量的原始恶意样本派生出大量的扩充恶意样本，从而有利于增加样本集中恶意样本的数量，在恶意样本的数量增多后，训练出来的恶意程序检测模型(具体可参考图5中的方法)的泛化能力将显著提高，进而对于多类恶意程序都能够有效地检测。该方法中的扩充恶意样本是生成对抗网络的生成器自动生成的，无需人工介入，因此是一种高效的样本增强方法。应当理解，增强的恶意样本集虽然可用于训练恶意程序检测模型，但并不必然用于训练该模型，即该方法并没有限定最终得到的恶意样本集的用途。

此外，上述方法还有利于改善样本不平衡问题。例如，对于那些原本样本数量较少的种类下的恶意样本，可通过上述方法扩增样本数量，因此该方法有助于改善恶意样本分类标签不平衡的问题，而在恶意样本具有一定的数量后，训练出来的恶意程序检测模型检测能力更强，从而可以显著降低错分成本。

此外，上述方法还有利于改善样本相似度问题，利用生成器生成的样本，并非与原始恶意样本毫无关系，而是可以视为在原始恶意样本的基础上进行了一些小的改动，因此其内容与原始恶意样本具有一定的相似性，即该方法可提供数量可观的相似样本，供现有的、考虑了像本相似性的小样本学习系统(例如，孪生网络、匹配网络等)使用。

此外，上述方法还有利于改善模型过拟合问题，根据前文阐述，导致模型过拟合问题的重要原因是样本数量不足，从而在恶意样本增强后，模型过拟合问题有望得到缓解。

图5示出了本申请实施例提供的恶意程序检测方法的一种可能的流程。该方法可以但不限于由一电子设备执行，图8示出了该电子设备的一种可能的结构，具体见后文关于图8的阐述。参照图5，该方法包括：

步骤S310：基于本申请实施例提供的恶意样本增强方法构建增强的恶意样本集。

步骤S320：利用增强的恶意样本集训练恶意程序检测模型。

步骤S330：将训练好的恶意程序检测模型导出至检测器，并利用检测器检测程序样本。

关于恶意样本增强，在阐述图1时已经介绍，此处不再重复。恶意程序检测模型可以是一个神经网络模型，训练好的恶意程序检测模型需要部署到检测器中(这一过程称为模型导出)，检测器则是一个具有检测程序样本的恶意性的可执行程序，其利用恶意程序检测模型进行检测并输出检测结果。例如，若恶意程序检测模型是一个分类模型，根据分类模型的不同，检测结果可以是被检测目标是否具有恶意、被检测目标是否具有某种恶意特征、被检测目标的威胁程度(高危、中危、低危、安全等)等等。

可以理解的，训练恶意程序检测模型除了使用增强的恶意样本集作为训练数据之外，还可以使用无恶意特征的样本作为训练数据，以使的模型可以识别出正常的程序样本。

此外，针对某类特定的威胁，可以对该类威胁对应的样本进行增强，并训练专属的检测器，实现对其的有效检测。

综上所述，本申请实施例提供的恶意程序检测方法由于使用了本申请实施例提供的恶意样本增强方法来获得增强的恶意样本集，因此该恶意样本集包含较多的恶意样本，从而训练出来的恶意程序检测模型的泛化能力将显著提高，进而所导出的检测器对于多类恶意程序都能够有效地检测。此外，该方法同样有利于改善样本不平衡问题、样本相似度问题以及模型过拟合问题对检测结果的影响，原因上文已经分析。

长期以来，基于MD5特征值的威胁检测机制应用于网络空间的大量威胁防御、预警及处置过程。而对威胁进行迭代编译即可随时变更MD5值，使基于其MD5数据库的检测机制无法对其进行精准检测。通过生成对矿网络对相关恶意样本进行迭代修改并对抗生成大量训练样本，可使威胁变种样本及其特征被新的检测机制检测。这是上述恶意程序检测方法的一个实际的用途。

图6示出了本申请实施例提供的恶意样本增强装置400的一种可能的结构。参照图6，恶意样本增强装置400包括：

样本获取模块410，用于获取原始恶意样本，所述原始恶意样本为二进制文件；

第一模型训练模块420，用于利用所述原始恶意样本训练生成对抗网络，所述生成对抗网络包括判别器以及生成器；

样本生成模块430，用于在所述生成对抗网络训练好后，利用所述生成器生成扩充恶意样本；

样本增强模块440，用于将所述扩充恶意样本与所述原始恶意样本结合，形成增强的恶意样本集。

在恶意样本增强装置400的一种实现方式中，样本获取模块410获取原始恶意样本，包括：通过以下至少一种方式获取所述原始恶意样本：直接将具有恶意特征的二进制文件作为所述原始恶意样本；对已有二进制文件进行反编译，对反编译生成的结果文件添加恶意特征或者改动其恶意特征后再将其编译为所述原始恶意样本；将具有恶意代码的源文件编译后生成所述原始恶意样本。

在恶意样本增强装置400的一种实现方式中，所述生成对抗网络为序列生成对抗网络Seq-GAN，所述生成器为循环神经网络RNN，所述判别器为卷积神经网络CNN。

在恶意样本增强装置400的一种实现方式中，第一模型训练模块420利用所述原始恶意样本训练生成对抗网络，包括：随机初始化所述生成器和所述判别器的参数；基于所述原始恶意样本，通过最大似然估计预训练所述生成器；根据预训练的生成器生成初始数据，并基于所述初始数据通过最小化交叉熵预训练所述判别器；在预训练完成后，迭代执行以下步骤进行对抗训练，直至所述生成对抗网络收敛：将随机变量输入至所述生成器中以生成二进制文件序列；其中，所述二进制文件序列包括完整的二进制文件序列和非完整的二进制文件序列；采用蒙特卡洛树搜索对所述非完整的二进制文件序列进行模拟，获得模拟的二进制文件序列；将所述模拟的二进制文件序列与所述完整的二进制文件序列结合，形成新的二进制文件序列；基于所述新的二进制文件序列和所述原始恶意样本训练所述判别器，并生成奖励值；利用策略梯度算法结合所述奖励值训练所述生成器。

在恶意样本增强装置400的一种实现方式中，所属装置还包括：样本测试模块，用于在样本生成模块430利用所述生成对抗网络中的生成网络生成扩充恶意样本之后，以及在样本增强模块440将所述扩充恶意样本与所述原始恶意样本结合，形成增强的恶意样本集之前，检测所述扩充恶意样本的可执行性以及恶意性。

本申请实施例提供的恶意样本增强装置400，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图7示出了本申请实施例提供的恶意程序检测装置500的一种可能的结构。参照图7，恶意程序检测装置500包括：

样本集构建模块510，用于基于本申请实施例提供的恶意样本增强方法构建增强的恶意样本集；

第二模型训练模块520，用于利用所述增强的恶意样本集训练恶意程序检测模型，所述恶意程序检测模型为神经网络模型；

检测模块530，用于将训练好的恶意程序检测模型导出至检测器，并利用所述检测器检测程序样本。

本申请实施例提供的恶意程序检测装置500，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图8示出了本申请实施例提供的电子设备600的一种可能的结构。参照图8，电子设备600包括：处理器610、存储器620以及通信接口630，这些组件通过通信总线640和/或其他形式的连接机构(未示出)互连并相互通讯。

其中，处理器610包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器610可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、微控制单元(Micro Controller Unit，简称MCU)、网络处理器(Network Processor，简称NP)或者其他常规处理器；还可以是专用处理器，包括图形处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network ProcessingUnit，简称NPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuits，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器610为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。

存储器620包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory，简称EEPROM)等。处理器610以及其他可能的组件可对存储器620进行访问，读和/或写其中的数据。

在存储器620中可以存储一个或多个计算机程序指令，处理器610可以读取并运行这些计算机程序指令，以实现本申请实施例提供的恶意样本增强方法和/或恶意程序检测方法。

通信接口630包括一个或多个(图中仅示出一个)，可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。通信接口630可以包括进行有线和/或无线通信的接口。

可以理解，图8所示的结构仅为示意，电子设备600还可以包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。图8中所示的各组件可以采用硬件、软件或其组合实现。电子设备600可能是实体设备，例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备600也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本申请实施例提供的恶意样本增强方法和/或恶意程序检测方法。例如，计算机可读存储介质可以实现为图8中电子设备600中的存储器620。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种恶意样本增强方法，其特征在于，包括：

获取原始恶意样本，所述原始恶意样本为二进制文件；

利用所述原始恶意样本训练生成对抗网络，所述生成对抗网络包括判别器以及生成器；

在所述生成对抗网络训练好后，利用所述生成器生成扩充恶意样本；

将所述扩充恶意样本与所述原始恶意样本结合，形成增强的恶意样本集。

2.根据权利要求1所述的恶意样本增强方法，其特征在于，所述获取原始恶意样本，包括：

通过以下至少一种方式获取所述原始恶意样本：

直接将具有恶意特征的二进制文件作为所述原始恶意样本；

对已有二进制文件进行反编译，对反编译生成的结果文件添加恶意特征或者改动其恶意特征后再将其编译为所述原始恶意样本；

将具有恶意代码的源文件编译后生成所述原始恶意样本。

3.根据权利要求1所述的恶意样本增强方法，其特征在于，所述生成对抗网络为序列生成对抗网络Seq-GAN，所述生成器为循环神经网络RNN，所述判别器为卷积神经网络CNN。

4.根据权利要求3所述的恶意样本增强方法，其特征在于，所述利用所述原始恶意样本训练生成对抗网络，包括：

随机初始化所述生成器和所述判别器的参数；

基于所述原始恶意样本，通过最大似然估计预训练所述生成器；

根据预训练的生成器生成初始数据，并基于所述初始数据通过最小化交叉熵预训练所述判别器；

在预训练完成后，迭代执行以下步骤进行对抗训练，直至所述生成对抗网络收敛：

将随机变量输入至所述生成器中以生成二进制文件序列；其中，所述二进制文件序列包括完整的二进制文件序列和非完整的二进制文件序列；

采用蒙特卡洛树搜索对所述非完整的二进制文件序列进行模拟，获得模拟的二进制文件序列；

将所述模拟的二进制文件序列与所述完整的二进制文件序列结合，形成新的二进制文件序列；

基于所述新的二进制文件序列和所述原始恶意样本训练所述判别器，并生成奖励值；

利用策略梯度算法结合所述奖励值训练所述生成器。

5.根据权利要求1-4中任一项所述的恶意样本增强方法，其特征在于，在所述利用所述生成对抗网络中的生成网络生成扩充恶意样本之后，以及在所述将所述扩充恶意样本与所述原始恶意样本结合，形成增强的恶意样本集之前，所述方法还包括：

检测所述扩充恶意样本的可执行性以及恶意性。

6.一种恶意程序检测方法，其特征在于，包括：

基于如权利要求1-5中任一项所述的方法构建增强的恶意样本集；

利用所述增强的恶意样本集训练恶意程序检测模型，所述恶意程序检测模型为神经网络模型；

训练好的恶意程序检测模型导出至检测器，并利用所述检测器检测程序样本。

7.一种恶意样本增强装置，其特征在于，包括：

样本获取模块，用于获取原始恶意样本，所述原始恶意样本为二进制文件；

第一模型训练模块，用于利用所述原始恶意样本训练生成对抗网络，所述生成对抗网络包括判别器以及生成器；

样本生成模块，用于在所述生成对抗网络训练好后，利用所述生成器生成扩充恶意样本；

样本增强模块，用于将所述扩充恶意样本与所述原始恶意样本结合，形成增强的恶意样本集。

8.一种恶意程序检测装置，其特征在于，包括：

样本集构建模块，用于基于如权利要求1-4中任一项所述的方法构建增强的恶意样本集；

第二模型训练模块，用于利用所述增强的恶意样本集训练恶意程序检测模型，所述恶意程序检测模型为神经网络模型；

检测模块，用于将训练好的恶意程序检测模型导出至检测器，并利用所述检测器检测程序样本。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-6中任一项所述的方法。

10.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1-6中任一项所述的方法。