CN117235728B

CN117235728B - 一种基于细粒度标注模型的恶意代码基因检测方法及装置

Info

Publication number: CN117235728B
Application number: CN202311523184.5A
Authority: CN
Inventors: 黄娜; 任祥辉; 姜海
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-06
Anticipated expiration: 2043-11-16
Also published as: CN117235728A

Abstract

本公开是关于一种基于细粒度标注模型的恶意代码基因检测方法及装置。该方法包括：基于二进制的字节流图像化编码技术，对恶意代码样本进行图像矢量映射，生成恶意代码矢量图像，通过预设图像处理方法对所述恶意代码矢量图像进行处理，生成恶意代码特征图像；通过设立滑动窗口对所述恶意代码特征图像进行切分，生成恶意代码特征图像小块集，基于所述恶意代码特征图像小块集的细粒度基因检测，对Transformer模型进行构建，生成细粒度模型；基于恶意代码标签数据集，对细粒度模型进行训练，生成细粒度标注模型，基于所述细粒度标注模型，完成对恶意代码的基因检测。通过上述方法，能更加精准地对恶意代码的家族同源性、类型同源性及关键功能进行分析。

Description

一种基于细粒度标注模型的恶意代码基因检测方法及装置

技术领域

本公开涉及恶意代码基因检测领域，具体而言，涉及一种基于细粒度标注模型的恶意代码基因检测方法及装置。

背景技术

实际网络环境中的恶意代码自身会兼具多种恶意代码特征，而且多种恶意代码会通过一定的方式实现组合化、复杂化，增加破坏力。这样的恶意代码样本，往往包含一个或多个基因，例如某一个恶意代码可能既具有Trojan的特点，又具有Virus的特点，还有一些恶意代码兼具蠕虫和感染式恶意代码的特性，既能通过网络进行自我复制，又具有本地感染能力，即，同时具有通过网络进行自我复制能力和本地感染能力的恶意代码，这种情况下，仅仅通过计算整个恶意代码的相似性来判断其来源或同源性，无法得到准确结论。

而现有技术的几种分类方法中：

（1）现有将恶意代码转换成图像的方法，使用分类算法模型对恶意代码进行分类，通过分类结果判定恶意代码类型或家族来源。但都是对整个恶意代码样本转换成的图像直接进行分类，对具有多种基因的恶意代码直接判定为其中一个类别，没有对细粒度基因的检测识别，不能解决前面所描述的恶意代码基因复杂多样的问题。

（2）现有基于卷积神经网络的恶意代码图像分类方法中，由于卷积神经网络模型的输入尺寸固定，为了解决恶意代码大小不一，无法输入的问题，通常使用裁剪或补充的方法，将恶意代码图像裁剪成相同大小，或者补充无关像素将恶意代码图像变成相同大小，裁剪方法会使原始信息丢失，补充像素的方法会在原始信息中增加扰乱信息。

因此，需要一种或多种方法解决上述问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于细粒度标注模型的恶意代码基因检测方法、装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开的一个方面，提供一种基于细粒度标注模型的恶意代码基因检测方法，包括：

基于二进制的字节流图像化编码技术，通过对恶意代码样本进行图像矢量映射，生成恶意代码矢量图像，通过预设图像处理方法对所述恶意代码矢量图像进行处理，生成恶意代码特征图像。

通过设立滑动窗口对所述恶意代码特征图像进行切分，生成恶意代码特征图像小块集，基于所述恶意代码特征图像小块集的细粒度基因检测，对Transformer模型中的encoder-decoder结构进行构建，生成细粒度模型。

基于恶意代码标签数据集，通过对所述细粒度模型进行训练，生成细粒度标注模型，基于所述细粒度标注模型，完成对恶意代码的基因检测。

在本公开的一种示例性实施例中，所述方法还包括，基于二进制的字节流图像化编码技术，通过对二进制字节流进行信息提取，生成二进制字节流数值矩阵；基于二进制的字节流图像化编码技术，通过对字节结构化进行特征提取，生成字节结构化特征数值矩阵；基于二进制的字节流图像化编码技术，通过对二进制字节流进行噪音添加，生成噪音字节流数值矩阵；通过对所述二进制字节流数值矩阵、字节结构化特征数值矩阵、噪音字节流数值矩阵进行复合，生成恶意代码矢量图像。

在本公开的一种示例性实施例中，所述方法还包括，通过预设图像处理方法对所述恶意代码矢量图像进行视觉突出处理，生成恶意代码视觉突出图像；基于小波与Retinex算法的图像增强处理方法，通过对所述恶意代码视觉突出图像进行特征预设增强处理，生成恶意代码特征图像。

在本公开的一种示例性实施例中，所述方法还包括，基于恶意代码特征图像尺寸、预设恶意代码特征图像小块尺寸，对所述滑动窗口进行设置，生成滑动窗口步长；基于所述滑动窗口步长，将所述滑动窗口按照从左到右、从上到下在所述恶意代码特征图像上进行移动，生成恶意代码特征图像小块集。

在本公开的一种示例性实施例中，所述方法还包括，基于Transformer模型，通过线性投射层将所述恶意代码特征图像小块集进行拉伸、投影变换，生成输入向量；通过在所述输入向量中添加位置信息编码、重叠信息编码，生成编码输入向量；基于Transformer模型，通过Transformer模型中的Encoder结构，通过对所述编码输入向量进行编码，生成编码输出向量。

在本公开的一种示例性实施例中，所述方法还包括，基于Transformer模型，通过引入置信度向量、类别向量、位置向量对所述Transformer模型中Decoder结构进行设置，生成预测Decoder结构；基于所述预测Decoder结构，对所述编码输出向量进行解码，生成解码输出向量；通过多层感知神经网络，对所述解码输出向量进行分类，生成基因检测图像块，完成细粒度模型的构建。

在本公开的一种示例性实施例中，所述方法还包括，通过恶意代码情报库渠道、网络收集渠道、自行捕获渠道，对恶意代码进行收集，生成恶意代码数据集；基于专家知识分析样本，通过对所述恶意代码数据集进行基因标注，生成所述恶意代码标签数据集；基于所述恶意代码标签数据集，对所述细粒度模型进行训练，生成所述细粒度标注模型。

在本公开的一个方面，提供一种基于细粒度标注模型的恶意代码基因检测装置，包括：

图像转换模块，用于对恶意代码样本进行预设处理，生成恶意代码特征图像；

细粒度基因检测模块，用于通过滑动窗口将恶意代码特征图像分解成恶意代码特征图像小块集，对恶意代码特征图像小块集进行细粒度基因检测；

训练模块，用于对所述细粒度基因检测模块进行训练。

在本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的方法。

在本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的方法。

本公开的示例性实施例中的一种基于细粒度标注模型的恶意代码基因检测方法，其中，该方法包括：基于二进制的字节流图像化编码技术，通过对恶意代码样本进行图像矢量映射，生成恶意代码矢量图像，通过预设图像处理方法对所述恶意代码矢量图像进行处理，生成恶意代码特征图像。通过设立滑动窗口对所述恶意代码特征图像进行切分，生成恶意代码特征图像小块集，基于所述恶意代码特征图像小块集的细粒度基因检测，对Transformer模型进行构建，生成细粒度模型。基于恶意代码标签数据集，通过对所述细粒度模型进行训练，生成细粒度标注模型，基于所述细粒度标注模型，完成对恶意代码的基因检测。通过上述方法，能更加精准地对恶意代码的家族同源性、类型同源性及关键功能进行分析。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

通过参照附图来详细描述其示例实施例，本公开的上述和其它特征及优点将变得更加明显。

图1示出了根据本公开一示例性实施例的一种基于细粒度标注模型的恶意代码基因检测方法的流程图；

图2示出了根据本公开一示例性实施例的一种基于细粒度标注模型的恶意代码基因检测方法的图像转换流程图；

图3示出了根据本公开一示例性实施例的一种基于细粒度标注模型的恶意代码基因检测方法的细粒度模型构建示意图；

图4示出了根据本公开一示例性实施例的一种基于细粒度标注模型的恶意代码基因检测装置的示意框图；

图5示意性示出了根据本公开一示例性实施例的电子设备的框图；

图6示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本示例实施例中，首先提供了一种基于细粒度标注模型的恶意代码基因检测方法；参考图1中所示，该一种基于细粒度标注模型的恶意代码基因检测方法可以包括以下步骤：

步骤S110，基于二进制的字节流图像化编码技术，通过对恶意代码样本进行图像矢量映射，生成恶意代码矢量图像，通过预设图像处理方法对所述恶意代码矢量图像进行处理，生成恶意代码特征图像。

步骤S120，通过设立滑动窗口对所述恶意代码特征图像进行切分，生成恶意代码特征图像小块集，基于所述恶意代码特征图像小块集的细粒度基因检测，对Transformer模型中的encoder-decoder结构进行构建，生成细粒度模型。

步骤S130，基于恶意代码标签数据集，通过对所述细粒度模型进行训练，生成细粒度标注模型，基于所述细粒度标注模型，完成对恶意代码的基因检测。

本公开的示例性实施例中的一种基于细粒度标注模型的恶意代码基因检测方法，其中，该方法包括：基于二进制的字节流图像化编码技术，通过对恶意代码样本进行图像矢量映射，生成恶意代码矢量图像，通过预设图像处理方法对所述恶意代码矢量图像进行处理，生成恶意代码特征图像。通过设立滑动窗口对所述恶意代码特征图像进行切分，生成恶意代码特征图像小块集，通过对所述恶意代码特征图像小块集进行细粒度基因检测，生成细粒度模型。基于恶意代码标签数据集，通过对所述细粒度模型进行训练，生成细粒度标注模型，基于所述细粒度标注模型，完成对恶意代码的基因检测。通过上述方法，能更加精准地对恶意代码的家族同源性、类型同源性及关键功能进行分析。

下面，将对本示例实施例中的一种基于细粒度标注模型的恶意代码基因检测方法进行进一步的说明。

在模版配置步骤S110中，可以基于二进制的字节流图像化编码技术，通过对恶意代码样本进行图像矢量映射，生成恶意代码矢量图像，通过预设图像处理方法对所述恶意代码矢量图像进行处理，生成恶意代码特征图像。

在本示例的实施例中，如图2所示，所使用的二进制的字节流图像化编码技术是一种将恶意代码样本映射为图像矢量的编码技术。矢量化的最终目标是用一张全局唯一的图像矢量来表征恶意代码，从而将恶意代码的检测分析问题转化为图像的检测分析问题。

但是一方面灰度图只有单个通道，能包含的信息较少，不能全面地将恶意代码攻击信息体现在图像中，可能导致可视化的灰度图像特征不明显，不能很好地反映出恶意代码特性。另一方面，在实际中会存在恶意代码样本大小不一的问题，且单纯采用图像裁剪方式可能造成丢失恶意代码的信息、提取特征单一、抗混淆能力不足等缺点。

因此，基于二进制的字节流图像化编码技术，通过对二进制字节流进行信息提取，生成二进制字节流数值矩阵，作为第一个图像通道；基于二进制的字节流图像化编码技术，通过对字节结构化进行特征提取，生成字节结构化特征数值矩阵，作为第二个图像通道；基于二进制的字节流图像化编码技术，通过对二进制字节流进行噪音添加，生成噪音字节流数值矩阵，作为第三个图像通道。之后通过对所述二进制字节流数值矩阵、字节结构化特征数值矩阵、噪音字节流数值矩阵进行三通道复合，组合生成恶意代码矢量图像。

同时，也可以只将二进制字节流转换成图像，再通过复制将单通道灰度图转换为三通道的恶意代码矢量图像或者可以直接使用二进制字节流的灰度图作为恶意代码矢量图像。

在本示例的实施例中，如图2所示，通过预设图像处理方法（对比度增强、锐化、滤波、插值等方法）对退化的某些图像特征（边缘、轮廓、对比度等）进行处理，以改善图像的视觉效果，提高图像的清晰度，或是突出图像中的某些“有用”信息，压缩其他“无用”信息，将图像转换为更适合人或计算机分析处理的形式。通过上述方法对所述恶意代码矢量图像进行视觉突出处理，生成恶意代码视觉突出图像。

同时，基于同类恶意家族的二进制样本图谱表现出的相似纹理、颜色与结构特征，通过采用基于小波与Retinex算法（或其他方法）的图像增强方法，对恶意代码视觉突出图像进行增强，使图像特征更加突出，生成所述恶意代码特征图像。

在模版配置步骤S120中，可以通过设立滑动窗口对所述恶意代码特征图像进行切分，生成恶意代码特征图像小块集，基于所述恶意代码特征图像小块集的细粒度基因检测，对Transformer模型中的encoder-decoder结构进行构建，生成细粒度模型。

在本示例的实施例中，如图3所示，所基于的现有的视觉大模型（视觉Transformer模型）方法中，是将图像切分成大小相同的图像块，再将每一个图像块视为NLP（自然语言处理）中的一个token后输入模型中。

但由于二进制恶意代码大小各不相同，在切分图像时为保证图像块大小相同，通过本实施例，将恶意代码特征图像尺寸设置为a*b、将预设恶意代码特征图像小块，即patch尺寸设置为s*s，将所述滑动窗口设置为固定大小，同时生成滑动窗口步长p，p可以根据恶意代码特征图像尺寸和patch尺寸的关系进行设置，取值范围为{1，s}。

之后基于所述滑动窗口步长p，将所述滑动窗口p按照从左到右、从上到下在所述恶意代码特征图像上进行移动，每次滑动前将滑动窗口所覆盖的图像区域取出就是一个patch，所有的patch组合起来就生成了恶意代码特征图像小块集。

在本示例的实施例中，如图3所示，首先基于Transformer模型，通过线性投射层（或者卷积神经网络层）将所述恶意代码特征图像小块集进行拉伸、投影变换，生成输入向量；

之后通过在所述输入向量中添加位置信息编码、重叠信息编码，生成编码输入向量。位置编码采用相对位置编码，使模型可以接受不定长的输入序列，保证了不同恶意代码特征图像切分出的patch数量可以不同。重叠信息编码是在使用滑动窗口切分图像时重叠的像素值，即s减p。

最后基于Transformer模型，通过对Transformer模型中的Encoder结构（本示例中只表示一层Encoder结构，实际中可以重复叠加，例如神经网络中的一层神经元的多层复制）进行适配性设计修改，使其能够对所述编码输入向量进行编码，生成编码输出向量。

在本示例的实施例中，如图3所示，一个恶意代码样本可能包含一个或多个关键基因，所以采用图像目标检测的思想，对二进制图像进行细粒度的基因检测，方法为基于Transformer模型，通过引入：置信度向量、类别向量、位置向量（根据类别和置信度可以判定图像块是哪一类别的恶意代码基因，根据位置可以标记出图像块在原始图像中的位置）对所述Transformer模型中Decoder结构进行适配性设计修改，生成预测Decoder结构。使预测Decoder结构的预测目标设置为：置信度、类别、位置。

之后基于所述预测Decoder结构，对所述编码输出向量进行解码，生成解码输出向量（本示例中只表示一层Decoder结构，实际中可以重复叠加，例如神经网络中的一层神经元的多层复制）。再通过多层感知神经网络，对所述解码输出向量进行分类，生成基因检测图像块，这样每一个切分出的图像块都对应置信度、类别、位置的预测结果。完成了细粒度模型的构建。

在模版配置步骤S130中，可以基于恶意代码标签数据集，通过对所述细粒度模型进行训练，生成细粒度标注模型，基于所述细粒度标注模型，完成对恶意代码的基因检测。

在本示例的实施例中，通过恶意代码情报库渠道、网络收集渠道、自行捕获渠道等，对恶意代码进行收集，生成恶意代码数据集。

之后基于专家知识分析样本，通过对所述恶意代码数据集进行基因标注，生成所述恶意代码标签数据集。

最后基于所述恶意代码标签数据集，对所述细粒度模型进行训练，生成所述细粒度标注模型，通过应用所述细粒度标注模型可以对未知的恶意代码进行细粒度基因标注，完成了基于细粒度标注模型的恶意代码基因检测。

需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

此外，在本示例实施例中，还提供了一种基于细粒度标注模型的恶意代码基因检测装置。参照图4所示，该一种基于细粒度标注模型的恶意代码基因检测装置400可以包括：图像转换模块410、细粒度基因检测模块420以及训练模块430。其中：

图像转换模块410，用于对恶意代码样本进行预设处理，生成恶意代码特征图像；

细粒度基因检测模块420，用于通过滑动窗口将恶意代码特征图像分解成恶意代码特征图像小块集，对恶意代码特征图像小块集进行细粒度基因检测；

训练模块430，用于对所述细粒度基因检测模块进行训练。

上述一种基于细粒度标注模型的恶意代码基因检测装置模块中的各具体细节已经在对应的一种基于细粒度标注模型的恶意代码基因检测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了一种基于细粒度标注模型的恶意代码基因检测装置400的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例（包括固件、微代码等），或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本发明的这种实施例的电子设备500。图5显示的电子设备500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件（包括存储单元520和处理单元510）的总线530、显示单元540。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。例如，所述处理单元510可以执行如图1中所示的步骤S110至步骤S130。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元（ROM）5203。

存储单元520还可以包括具有一组（至少一个）程序模块5204的程序模块/实用工具5205，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备570（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口550进行。并且，电子设备500还可以通过网络适配器560与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图5所示，网络适配器560通过总线530与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图6所示，描述了根据本发明的实施例的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java、C++等，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种基于细粒度标注模型的恶意代码基因检测方法，其特征在于，所述方法包括：

基于二进制的字节流图像化编码技术，通过对恶意代码样本进行图像矢量映射，生成恶意代码矢量图像，通过预设图像处理方法对所述恶意代码矢量图像进行处理，生成恶意代码特征图像；

通过设立滑动窗口对所述恶意代码特征图像进行切分，生成恶意代码特征图像小块集，基于所述恶意代码特征图像小块集的细粒度基因检测，通过对Transformer模型中的encoder-decoder结构进行构建，生成细粒度模型；

基于恶意代码标签数据集，通过对所述细粒度模型进行训练，生成细粒度标注模型，基于所述细粒度标注模型，完成对恶意代码的基因检测；

所述方法还包括：

基于恶意代码特征图像尺寸、预设恶意代码特征图像小块尺寸，对所述滑动窗口进行设置，生成滑动窗口步长；

基于所述滑动窗口步长，将所述滑动窗口按照从左到右、从上到下在所述恶意代码特征图像上进行移动，生成所述恶意代码特征图像小块集；

所述方法还包括：

基于Transformer模型，通过线性投射层将所述恶意代码特征图像小块集进行拉伸、投影变换，生成输入向量；

通过在所述输入向量中添加位置信息编码、重叠信息编码，生成编码输入向量；

基于Transformer模型，通过Transformer模型中的Encoder结构对所述编码输入向量进行编码，生成编码输出向量；

所述方法还包括：

基于Transformer模型，通过引入置信度向量、类别向量、位置向量对所述Transformer模型中的Decoder结构进行设置，生成预测Decoder结构；

基于所述预测Decoder结构，对所述编码输出向量进行解码，生成解码输出向量；

通过多层感知神经网络，对所述解码输出向量进行分类，生成基因检测图像块，完成细粒度模型的构建。

2.如权利要求1所述的基于细粒度标注模型的恶意代码基因检测方法，其特征在于，所述方法还包括：

基于二进制的字节流图像化编码技术，通过对二进制字节流进行信息提取，生成二进制字节流数值矩阵；

基于二进制的字节流图像化编码技术，通过对字节结构化进行特征提取，生成字节结构化特征数值矩阵；

基于二进制的字节流图像化编码技术，通过对二进制字节流进行噪音添加，生成噪音字节流数值矩阵；

通过对所述二进制字节流数值矩阵、字节结构化特征数值矩阵、噪音字节流数值矩阵进行复合，生成所述恶意代码矢量图像。

3.如权利要求2所述的基于细粒度标注模型的恶意代码基因检测方法，其特征在于，所述方法还包括：

通过预设图像处理方法对所述恶意代码矢量图像进行视觉突出处理，生成恶意代码视觉突出图像；

基于小波与Retinex算法的图像增强处理方法，通过对所述恶意代码视觉突出图像进行特征预设增强处理，生成所述恶意代码特征图像。

4.如权利要求1所述的基于细粒度标注模型的恶意代码基因检测方法，其特征在于，所述方法还包括：

通过恶意代码情报库渠道、网络收集渠道、自行捕获渠道，对恶意代码进行收集，生成恶意代码数据集；

基于专家知识分析样本，通过对所述恶意代码数据集进行基因标注，生成所述恶意代码标签数据集；

基于所述恶意代码标签数据集，对所述细粒度模型进行训练，生成所述细粒度标注模型。

5.一种基于细粒度标注模型的恶意代码基因检测装置，所述装置采用权利要求1-4任一项所述的方法，其特征在于，所述装置包括：

训练模块，用于对所述细粒度基因检测模块进行训练。

6.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至4中任一项所述方法。