CN114745205A

CN114745205A - 恶意代码对抗样本检测方法、系统及存储介质

Info

Publication number: CN114745205A
Application number: CN202210582754.7A
Authority: CN
Inventors: 丁宇新; 马宇斌; 黄宁鑫; 王广斌
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-07-12

Abstract

本发明公开一种恶意代码对抗样本检测方法、系统及存储介质，方法包括：构建阶段，利用恶意代码检测模型获取基于良性样本训练集的贡献度分布向量集；检测阶段，将待检测文件输入恶意代码检测模型，若恶意代码检测模型的输出为良性，则获取待检测文件的贡献度分布向量，检测待检测文件的贡献度分布向量置于贡献度分布向量集中是否有离群表现，如果待检测文件的贡献度分布向量被识别为离群点，则待检测文件为对抗样本。本发明方法增强了检测方法的普适性，提高了检测率。

Description

恶意代码对抗样本检测方法、系统及存储介质

技术领域

本发明涉及网络安全技术领域，特别涉及一种恶意代码对抗样本检测方法、系统及存储介质。

背景技术

在网络安全领域，恶意代码作为网络攻击的主要攻击方式，根据AV-TEST最新统计结果，每天新增的恶意代码样本数超过35万个，同时报告指出检测出的绝大多数的恶意代码文件是Windows平台下的PE(Portable Executable)可执行文件。恶意代码的泛滥严重影响了网络安全，准确检测恶意代码将有效遏制后续的攻击行为，保护网络信息财产安全，准确确定恶意代码所属家族对制定攻击事件等级以及采取有效的应急处理措施具有重要作用。因此网络安全工作者针对恶意代码不断研究检测方案。深度学习的发展，使得恶意代码检测进入一个高速发展的阶段并不断取得较好的效果。

随之，攻击者开始研究相应对抗技术，如通过在恶意代码文件中加入精心构造的噪声数据生成对抗样本，诱导恶意代码检测引擎做出错误的判断，从而躲避查杀。在恶意代码领域，对抗样本开始大规模应用，导致对恶意代码的漏报进一步升高，威胁着网络空间安全。对对抗样本存在的原因，一种假设是：训练样本不足以覆盖全体空间，而对抗性样本存在于全体空间中概率密度较低的区域，由于模型没有足够的训练样本来学习这些区域的特征，导致无法识别对抗性样本。同时，由于PE文件的本身的特性，文件内部各部分具有很高的耦合度，在黑盒攻击的场景下，对样本的操作空间受限，一般仅在恶意PE文件的文件尾，节间填充区域等不影响主功能的未知对字节进行操作(包括添加、删除、更改字节等)来生成对抗样本。

基于深度学习的恶意代码检测方法已经被广泛使用，然而深度学习模型有一定的局限性，容易遭受对抗性样本攻击。已有的在恶意代码领域中，对抗样本的检测方式更多的将重心放在防御对抗样本上，例如已有的检测方法有网络蒸馏、对抗训练、随机化失效特征等等。网络蒸馏最初是旨在通过将知识从大型网络映射到小型网络中来减少深度神经网络的规模，使用网络蒸馏方法使深度神经网络具有一定抵抗对抗样本的能力；对抗训练，是将生成的对抗样本重新打上标签再次加入到训练集进行训练的方法，在训练阶段的每一步均生成对抗样本，并将这些样本注入到训练数据集中，实验表明，对抗性训练可以使深度神经网络提升正则化，以提升其精度。有人提出一种将待判定样本中的某些特征进行随机化失效的方法，以提升对对抗样本检测率，但是该方法导致检测引擎的准确率明显下降。

综上所述，已有的防御对抗性样本的方法，如模型蒸馏、对抗性训练、随机化失效特征等，通过提升模型自身的鲁棒性来增强对对抗性样本的识别能力，一般只针对一类攻击有效，不能防御未知的对抗性攻击，且需要较大的计算代价来建立足够强的模型，存在普适性不强，检测率较低等缺点。

发明内容

本发明针对上述问题，提供了一种恶意代码对抗样本检测方法、系统及存储介质，用以提高恶意代码对抗样本检测的普适性，提高检测率。

本发明的第一方面，提供了一种恶意代码对抗样本检测方法，所述方法包括：

构建阶段，利用恶意代码检测模型获取基于良性样本训练集的贡献度分布向量集；

检测阶段，将待检测文件输入恶意代码检测模型，若恶意代码检测模型的输出为良性，则获取待检测文件的贡献度分布向量，检测待检测文件的贡献度分布向量置于贡献度分布向量集中是否有离群表现，如果待检测文件的贡献度分布向量被识别为离群点，则待检测文件为对抗样本。

本发明的进一步技术方案是：获取基于良性样本的贡献度分布向量的步骤包括：

将良性样本文件的一维字节序列作为基于卷积神经网络的恶意代码检测模型输入，模型中最后一层卷积层输出包含位置信息的k通道特征图，通过全局平均池化得到每个特征图的对应权重，根据权重对特征图进行加权平均，最后通过一个ReLu层过滤得到良性样本文件的贡献度向量；

基于良性样本文件中各个字节的位置以及贡献度向量，确定良性样本文件中各个字节对应的贡献度；

根据良性样本文件结构，定位良性样本文件头以及各节的位置，对良性样本文件进行划分，以获得多个文件块，将各个文件块进一步划分为若干等长的子文件块，将各个子文件块中所包括的字节的贡献度求和以确定各个子文件块的贡献度，基于各个子文件快的贡献度确定各个文件块的贡献度，将各个文件块的贡献度放入对应位置，确定各个文件块贡献度向量，将各个文件块贡献度向量通过标准化处理得到贡献度分布向量。。

本发明的进一步技术方案是：检测待检测文件的贡献度分布向量置于贡献度分布向量集中是否有离群表现的步骤包括：

将待检测文件的贡献度分布向量置于贡献度分布向量集中获取目标贡献度分布向量集；

计算待检测文件的贡献度分布向量在目标贡献度分布向量集中的局部离群因子；

确定局部离群因子是否大于预设离群因子，其中，若局部离群因子大于预设离群因子，则判定待检测文件的贡献度分布向量为目标贡献度分布向量集的离群点。

本发明的进一步技术方案是：获取贡献度向量的表达式为：

其中c表示恶意代码检测模型中分类器的输出类别，k表示特征图通道数，A^k表示特征图，

表示权重，

n为特征图的数量，y^c表示恶意代码检测模型中与分类器的输出类别对应的Softmax输出，

表示第k个通道的特征层A坐标为i的数据，i表示特征层一维坐标。

本发明的进一步技术方案是：计算局部离群因子的表达式为：

l表示距离，X表示输入点，N_l(X)表示输入点X的l距离领域，ρ_l(X)表示输入点X的局部可达密度，

d_l(X,P)表示输入点X的第l可达距离。

本发明的第二方面，提供了一种恶意代码对抗样本检测系统，所述系统包括：

构建模块，用于利用恶意代码检测模型获取基于良性样本训练集的贡献度分布向量集；

检测模块，用于将待检测文件输入恶意代码检测模型，若恶意代码检测模型的输出为良性，则获取待检测文件的贡献度分布向量，检测待检测文件的贡献度分布向量置于贡献度分布向量集中是否有离群表现，如果待检测文件的贡献度分布向量被识别为离群点，则待检测文件为对抗样本。

本发明的进一步技术方案是：构建模块中获取基于良性样本的贡献度分布向量的步骤包括：

根据良性样本文件结构，定位良性样本文件头以及各节的位置，对良性样本文件进行划分，以获得多个文件块，将各个文件块进一步划分为若干等长的子文件块，将各个子文件块中所包括的字节的贡献度求和以确定各个子文件块的贡献度，基于各个子文件快的贡献度确定各个文件块的贡献度，将各个文件块的贡献度放入对应位置，确定各个文件块贡献度向量，将各个文件块贡献度向量通过标准化处理得到贡献度分布向量。

本发明的进一步技术方案是：检测模块中检测待检测文件的贡献度分布向量置于贡献度分布向量集中是否有离群表现的步骤包括：

本发明的第三方面，提供了一种恶意代码对抗样本检测系统，包括：处理器；以及存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行上述恶意代码对抗样本检测方法。

本发明的第四方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行上述恶意代码对抗样本检测方法。

本发明提出一种恶意代码对抗样本检测方法、系统及存储介质，采用异常检测方法检测恶意代码对抗样本，该方法基于良性样本训练集构造贡献度分布向量集，通过计算待测样本贡献度分布向量集与训练集贡献度分布向量集之间的差异，判断待测样本是否为对抗样本。增强了检测方法的普适性，提高了检测率。

附图说明

图1是本发明实施例中恶意代码对抗样本检测方法流程示意图；

图2是本发明实施例中基于良性样本的贡献度向量提取方法示意图；

图3是本发明实施例中PE文件结构分段提取贡献度向量示意图；

图4是本发明实施例中恶意代码对抗样本检测系统结构示意图；

图5是本发明实施例中的计算机设备的架构。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅出示了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在本发明的描述中，“多个”“若干”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本发明实施例针对一种恶意代码对抗样本检测方法、系统及存储介质，提供了如下实施例：

基于本发明的实施例1

本实施例用于说明恶意代码对抗样本检测方法，如图1所示，为本发明实施例的恶意代码对抗样本检测方法流程图：

进一步地，获取基于良性样本的贡献度分布向量的步骤包括：

一些优选实施例中，以MalConv模型作为恶意代码检测模型，MalConv以卷积神经网络为基础，样本文件是Windows平台下的PE(Portable Executable)可执行文件，将PE文件的每个字节映射到一个固定长的向量后合并成矩阵作为MalConv模型输入，由于卷积神经网络中的卷积层单元包含了大量的位置信息，可以通过Grad_Cam方法识别出输入中贡献度高的区域。图2展示了以MalConv恶意代码模型为例的贡献度提取方法。卷积层输出的特征图是输入在空间维度上某一级的表征，由于恶意代码检测的输入是PE文件的一维字节序列，所以这里卷积层的输出是一维的特征图。基于Grad-Cam方法，以最后一层卷积层作为目标层，以Gating机制输出的k通道特征图A^k为目标层输出。

进一步地，获取贡献度向量的表达式为：

表示权重，

表示第k个通道的特征层A坐标为i的数据，i表示特征层一维坐标，n为特征图的数量，y^c表示恶意代码检测模型中与分类器的输出类别对应的Softmax输出。实施例中将贡献度向量映射回对应字节在PE文件中的位置，可以以分值的形式反应文件中不同区域对良性分类结果的贡献度。

在另一些优选实施例中，如图3所示，以PE文件的结构为依据，通过对PE文件的解析，定位文件头以及各节的位置，对文件进行划分。由于节是PE文件的主体部分，为了提高描述的精度，将每节进行进一步划分为若干个等长的部分，以更精确地描述贡献度在空间上的分布。对每部分各字节的贡献度分值求和代表该部分对于分类结果的贡献度。为了解决不同的PE文件有不同数量的节的问题，将多个节统一为一个部分，对于有多个节的PE文件，通过对贡献度求和合并各节。将划分后各部分的贡献度存入向量的对应位置，通过标准化处理得到贡献度分布向量(x₁,x₂,…,x_k)∈X^k，由于经过标准化处理，有X∈[0,1]。

进一步地，检测待检测文件的贡献度分布向量置于贡献度分布向量集中是否有离群表现的步骤包括：

优选实施例中，基于提取的贡献度分布向量，通过离群点检测方法，将试图欺骗恶意代码检测模型混入正常良性样本的对抗性恶意样本加以区分。由于提取的贡献度分布向量是高维数据，所以使用基于密度分布异常检测方法，如孤立森林和LOF(局部离群因子)算法。使用LOF算法进行异常检测，在LOF算法中，通过计算样本点的局部离群因子，来刻画样本点局部密度与领域点密度的差距，从而发现局部密度异常的离群点，进一步地，对于输入点X，计算局部离群因子的表达式为：

d_l(X,P)表示输入点X的第l可达距离。第l可达距离是X和P的距离和X与第l距离之间的最大值，X的第l距离就是距离X第l远的点与X之间的距离。

需要说明的是，局部离群因子大于1时，说明X的密度小于其领域密度，X是离群点。

基于本发明的实施例2

以下，参照图4来描述根据本公开实施例1的方法对应的系统，一种恶意代码对抗样本检测系统400，所述系统包括：构建模块401，用于利用恶意代码检测模型获取基于良性样本训练集的贡献度分布向量集；检测模块402，用于将待检测文件输入恶意代码检测模型，若恶意代码检测模型的输出为良性，则获取待检测文件的贡献度分布向量，检测待检测文件的贡献度分布向量置于贡献度分布向量集中是否有离群表现，如果待检测文件的贡献度分布向量被识别为离群点，则待检测文件为对抗样本。除了上述2个模块以外，系统400还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。

进一步地，构建模块中获取基于良性样本的贡献度分布向量的步骤包括：

进一步地，检测模块中检测待检测文件的贡献度分布向量置于贡献度分布向量集中是否有离群表现的步骤包括：

一种恶意代码对抗样本检测系统400的具体工作过程参照上述恶意代码对抗样本检测方法实施例1的描述，不再赘述。

基于本发明的实施例3

根据本发明实施例的装置也可以借助于图5所示的计算设备的架构来实现。图5示出了该计算设备的架构。如图5所示，计算机系统501、系统总线503、一个或多个CPU 504、输入/输出502、存储器505等。存储器505可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1方法的程序指令。图5所示的架构只是示例性的，在实现不同的设备时，根据实际需要调整图5中的一个或多个组件。

基于本发明的实施例4

本发明实施例也可以被实现为计算机可读存储介质。根据实施例4的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本发明实施例1的上述恶意代码对抗样本检测方法。

综合上述实施例提供的恶意代码对抗样本检测方法、系统及存储介质，采用异常检测方法检测恶意代码对抗样本，该方法基于良性样本训练集构造贡献度分布向量集，通过计算待测样本贡献度分布向量集与训练集贡献度分布向量集之间的差异，判断待测样本是否为对抗样本。增强了检测方法的普适性，提高了检测率。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。