CN117113351A

CN117113351A - 一种基于多重多级预训练的软件分类方法及设备

Info

Publication number: CN117113351A
Application number: CN202311345558.9A
Authority: CN
Inventors: 孙玉霞; 陈诗琪; 潘宇聪; 赵昌平; 许颖媚; 马志平
Original assignee: Guangdong Science & Technology Infrastructure Center; Jinan University
Current assignee: Guangdong Science & Technology Infrastructure Center; Jinan University
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-11-24
Anticipated expiration: 2043-10-18
Also published as: CN117113351B

Abstract

本发明公开了一种基于多重多级预训练的软件分类方法及设备，所述方法包括：对二进制软件进行反汇编得到反汇编代码文本；对反汇编代码文本进行预处理，并从预处理后的反汇编代码文本中筛选出用户定义函数，得到类反汇编代码文本并输入到文本表征生成模块，得到文本表征；基于二进制软件中的字节统计特征、PE文件统计特征，以及反汇编代码文本中的反汇编统计特征，确定统计特征向量并输入至统计表征生成模块，得到统计表征；对文本表征和统计表征进行融合处理，得到样本表征并输入至分类网络模型，得到二进制软件的代码分类识别结果。本发明能够实现高精度的软件分类。

Description

一种基于多重多级预训练的软件分类方法及设备

技术领域

本发明涉及计算机软件领域，尤其涉及一种基于多重多级预训练的软件分类方法及设备。

背景技术

在系统安全和软件工程领域，存在大量针对软件二进制代码的分析、检测和测试问题，包括针对可执行软件代码的作者组织分类问题，针对恶意代码的家族分类问题等。近年来，随着深度学习和BERT（Bidirectional Encoder Representation fromTransformers，基于Transformer的双向编码器表征）等语言模型在处理文本分类问题上取得显著成效，越来越多的技术开始使用深度学习语言模型来解决软件二进制代码的各种分类问题。

但是，现有技术中所使用的软件代码文本通常没有进行充分的标注，而且一般使用的面向软件代码文本的很多语言模型存在时间步较短、特征粒度较粗等问题，从而导致软件分类的精度不高。

发明内容

为了解决上述技术问题，本发明实施例提出了一种基于多重多级预训练的软件分类方法及设备，能够实现高精度的软件分类。

为了实现上述目的，本发明实施例提供了一种基于多重多级预训练的软件分类方法，包括：

获取待分类的二进制软件；

对所述二进制软件进行反汇编处理得到反汇编代码文本；

对所述反汇编代码文本进行预处理，并从预处理后的反汇编代码文本中筛选出用户定义函数，得到类反汇编代码文本；

将所述类反汇编代码文本输入到基于多重多级预训练任务的文本表征生成模块，得到所述文本表征生成模块输出的文本表征；其中，所述文本表征生成模块包括基本块表征子模块、函数表征子模块和文本表征子模块；

从所述二进制软件中提取字节统计特征以及PE文件统计特征，从所述反汇编代码文本中提取反汇编统计特征，并基于所述字节统计特征、所述PE文件统计特征和所述反汇编统计特征，确定统计特征向量；

将所述统计特征向量输入至预设的统计表征生成模块，得到所述统计表征生成模块输出的统计表征；

根据预设的超参数，对所述文本表征和所述统计表征进行融合处理，得到样本表征，并将所述样本表征输入至预设的分类网络模型，得到所述分类网络模型输出的所述二进制软件的分类结果；

其中，所述分类结果包括代码分类识别结果，当所述二进制软件为恶意软件时，所述代码分类识别结果为所述恶意软件的组织分类识别结果。

进一步的，所述基本块表征子模块包括N1个编码器，所述函数表征子模块包括N2个编码器，所述文本表征子模块包括N3个编码器；

所述将所述类反汇编代码文本输入到基于多重多级预训练任务的文本表征生成模块，得到所述文本表征生成模块输出的文本表征，具体包括：

将所述类反汇编代码文本输入到所述基本块表征子模块，通过所述基本块表征子模块对所述类反汇编代码文本进行词嵌入，并根据N1个不同的第一预训练任务，采用所述N1个编码器分别对词嵌入后的所述类反汇编代码文本进行训练，得到N1个基本块编码向量，将N1个所述基本块编码向量融合为基本块编码融合向量；

将所述基本块编码融合向量输入到所述函数表征子模块，通过所述函数表征子模块在所述基本块编码融合向量前插入所述类反汇编代码文本中包含的函数起始标志，并根据N2个不同的第二预训练任务，采用所述N2个编码器分别对插入标志后的基本块编码融合向量进行训练，得到N2个函数编码向量，将N2个所述函数编码向量融合为函数编码融合向量；

将所述函数编码融合向量输入到所述文本表征子模块，通过所述文本表征子模块在所述函数编码融合向量前插入所述类反汇编代码文本对应的文本起始标志，并根据N3个不同的第三预训练任务，采用所述N3个编码器分别对插入标志后的函数编码融合向量进行训练，得到N3个文本编码向量，将N3个所述文本编码向量融合为所述文本表征；

其中，每一所述第一预训练任务对应于所述类反汇编代码文本的一个指令，每一所述第二预训练任务对应于所述类反汇编代码文本的一个基本块，每一所述第三预训练任务对应于所述类反汇编代码文本的一个函数，N1、N2和N3均为正整数。

进一步的，所述对所述反汇编代码文本进行预处理，具体包括：

将所述反汇编代码文本中的函数数量、基本块数量、指令数量分别与预设的函数数量均值、基本块数量均值、指令数量均值进行比较，根据比较结果确定所述反汇编代码文本对应的填充长度或截断长度；

对所述反汇编代码文本进行分词处理；

根据所述填充长度或所述截断长度，对分词后的所述反汇编代码文本进行填充或截断处理；其中，当进行填充处理时，基于所述填充长度，将预设的填充标志填充进分词后的所述反汇编代码文本；

针对填充或截断处理后的所述反汇编代码文本，在函数的起始位置插入所述反汇编代码文本对应的函数起始标志，并在基本块的起始位置插入所述反汇编代码文本对应的基本块起始标志，得到预处理后的反汇编代码文本。

进一步的，所述N1个不同的第一预训练任务包括如下至少一种：预测指令任务、预测操作码的操作类型、预测操作码的跳转类型、预测第一操作数的地址类型、预测第二操作数的地址类型、预测第一操作数的数据类型和预测第二操作数的数据类型；

所述N2个不同的第二预训练任务包括如下至少一种：预测基本块中是否包含输入寄存器、预测基本块中是否包含输出寄存器、预测基本块是否处于函数的结束位置和预测两个基本块在控制流图中是否有边；

所述N3个不同的第三预训练任务包括如下至少一种：预测函数是否调用用户定义函数、预测函数是否调用非用户定义函数、预测函数是否携带有返回值、预测函数中是否使用了ebp寄存器对栈执行读写操作、预测函数是否为静态函数和预测两个函数在函数调用图中是否有边。

进一步的，所述将N1个所述基本块编码向量融合为基本块编码融合向量，具体包括：通过预设的权重网络确定与N1个所述基本块编码向量对应的N1个第一权重，基于所述第一权重，对N1个所述基本块编码向量进行加权计算，得到所述基本块编码融合向量；

所述将N2个所述函数编码向量融合为函数编码融合向量，具体包括：通过预设的权重网络确定与N2个所述函数编码向量对应的N2个第二权重，基于所述第二权重，对N2个所述函数编码向量进行加权计算，得到所述函数编码融合向量；

所述将N3个所述文本编码向量融合为所述文本表征，具体包括：通过预设的权重网络确定与N3个所述文本编码向量对应的N3个第三权重，基于所述第三权重，对N3个所述文本编码向量进行加权计算，得到所述文本表征。

进一步的，所述基于所述字节统计特征、所述PE文件统计特征和所述反汇编统计特征，确定统计特征向量，具体包括：

将所述字节统计特征、所述PE文件统计特征和所述反汇编统计特征组合成软件统计特征；

将所述软件统计特征转换为统计特征向量。

进一步的，所述将所述统计特征向量输入至预设的统计表征生成模块，得到所述统计表征生成模块输出的统计表征，具体包括：

对所述统计特征向量进行重塑处理，得到矩阵向量；

将所述矩阵向量输入至所述统计表征生成模块中的编码器，得到所述统计表征生成模块中的编码器输出的统计表征。

进一步的，所述编码器包括交叉注意力网络和自注意力网络。

本发明实施例还提供了一种计算机设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的基于多重多级预训练的软件分类方法的步骤。

综上，本发明具有以下有益效果：

（1）采用本发明实施例，在生成软件代码的文本表征过程中，应用多重多级预训练的思想，即分别从指令、基本块和函数角度执行预训练任务，不仅能够学习到二进制软件更细粒度的信息，还促使从软件的反汇编代码文本中逐步学习由简单到复杂的上下文信息；且在软件代码的文本表征的基础上，融合软件的其他表征，从而能够提高软件代码分类识别的性能，进而提高软件分类的性能。

（2）在获取到二进制软件及其反汇编代码文本后，处理和筛选得到类反汇编代码文本，进一步归纳得到统计特征，在此基础上执行本发明实施例的各个模块（文本表征生成模块中的基本块表征子模块、函数表征子模块、文本表征子模块，以及统计表征生成模块），得到文本表征和统计表征，最后根据超参数融合表征并输入到进行分类识别的网络模型中，输出软件代码的组织分类结果，特别地，可以应用于对恶意软件代码的组织分类识别当中，提高软件代码的分类识别准确率，尤其是对恶意软件的代码识别。

附图说明

图1是本发明提供的一种基于多重多级预训练的软件分类方法的一个实施例的流程示意图；

图2是本发明提供的一种基于多重多级预训练的软件分类方法的另一个实施例的流程示意图；

图3是本发明提供的基本块表征子模块的一个实施例的示意图；

图4是本发明提供的函数表征子模块的一个实施例的示意图；

图5是本发明提供的文本表征子模块的一个实施例的示意图；

图6是本发明提供的一种计算机设备的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

在本申请的描述中，需要说明的是，除非另有定义，本发明所使用的所有的技术和科学术语与属于本的技术领域的技术人员通常理解的含义相同。本发明中说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明，对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

需要说明的是，PE文件（PortableExecutable，可移植的可执行的文件）。

参见图1，是本发明提供的基于多重多级预训练的软件分类方法的一个实施例的流程示意图，该方法包括步骤S1至S7，具体如下：

S1,获取待分类的二进制软件；

S2,对所述二进制软件进行反汇编处理得到反汇编代码文本；

S3,对所述反汇编代码文本进行预处理，并从预处理后的反汇编代码文本中筛选出用户定义函数，得到类反汇编代码文本；

S4,将所述类反汇编代码文本输入到基于多重多级预训练任务的文本表征生成模块，得到所述文本表征生成模块输出的文本表征；其中，所述文本表征生成模块包括基本块表征子模块、函数表征子模块和文本表征子模块；

S5,从所述二进制软件中提取字节统计特征以及PE文件统计特征，从所述反汇编代码文本中提取反汇编统计特征，并基于所述字节统计特征、所述PE文件统计特征和所述反汇编统计特征，确定统计特征向量；

S6,将所述统计特征向量输入至预设的统计表征生成模块，得到所述统计表征生成模块输出的统计表征；

S7, 根据预设的超参数，对所述文本表征和所述统计表征进行融合处理，得到样本表征，并将所述样本表征输入至预设的分类网络模型，得到所述分类网络模型输出的所述二进制软件的分类结果；

在本发明实施例中，当二进制软件为PE恶意软件时，每个代码文本中均包含127个函数，每个函数都包含15个基本块（包括填充的基本块），每个基本块包含8条指令（包括填充的指令）。

需要说明的是，在步骤S5当中：

字节统计特征包括：0~255字节的统计信息和字节n-gram信息熵；

PE文件统计特征包括：文件大小的统计信息、节表的统计信息、导入/导出表的统计信息和PE文件头部的统计信息；

反汇编统计特征包括：操作数数据类型的统计信息、操作码的统计信息和各个操作码出现的次数；寄存器的统计信息、寻址类型的统计信息、常量的统计信息、函数类型的统计信息、跳转操作码的统计信息、寄存器运算类型的统计信息和图的统计信息。

作为上述方案的改进，所述基本块表征子模块包括N1个编码器，所述函数表征子模块包括N2个编码器，所述文本表征子模块包括N3个编码器；

示例性的，参见图3，其中BSF编码向量为基本块编码向量，融合后的基本块编码向量为基本块编码融合向量；参见图4，其中FSF编码向量为函数编码向量，融合后的函数编码向量为函数编码融合向量；参见图5，其中TSF编码向量为文本编码向量。

示例性的，所述编码器为PerceiverIO编码器。

作为上述方案的改进，所述对所述反汇编代码文本进行预处理，具体包括：

对所述反汇编代码文本进行分词处理；

可以理解的是，根据比较结果确定所述反汇编代码文本对应的填充长度或截断长度，从而使填充或截断处理后的反汇编代码文本的函数、基本块、指令各自的长度均能够尽可能接近各自的均值，进而统一反汇编代码文本的大小，方便后续的统一处理。

需要说明的是，在分词处理当中，具体为把其中的一条指令当成一个词。

作为上述方案的改进，所述N1个不同的第一预训练任务包括如下至少一种：预测指令任务、预测操作码的操作类型、预测操作码的跳转类型、预测第一操作数的地址类型、预测第二操作数的地址类型、预测第一操作数的数据类型和预测第二操作数的数据类型；

具体的：

在所述第一预训练任务当中：

预测指令任务，具体做法是从代码文本的基本块中随机选取所有指令的15%，在这15%的指令中，10%使用随机指令替换，80%使用MASK指令替换，10%保持不变；

预测操作码的操作类型，即预测操作码是否为算术指令（如sub/add/mul/div等）、逻辑指令（如and/or/not/xor等）、普通指令（如mov/call/lea/jmp等）、堆栈指令（如push/pop）的其中一种；

预测操作码的跳转类型，即预测是否为非跳转操作码、近距离跳转操作码和远距离跳转操作码的其中一种；

预测第一操作数和第二操作数的地址类型，即预测是否为空、立即寻址类型、寄存器寻址类型、内存寻址类型、基址变址寻址类型、相对基址变址寻址类型的其中一种；

预测第一操作数和第二操作数的数据类型，即预测是否为字节类型、双字类型、四字类型的其中一种。

在所述第二预训练任务当中：

预测基本块中是否包含输入寄存器，即预测在基本块的指令序列中，第一条指令的操作数寻址类型是否是寄存器寻址；

预测基本块中是否包含输出寄存器，即预测在基本块的指令序列中，最后一条指令的操作数寻址类型是否是寄存器寻址；

预测基本块是否处于函数的结束位置，即预测基本块中是否包含“retn”等代表函数返回的指令；

预测两个基本块在控制流图中是否有边。

在所述第三预训练任务当中：

预测函数是否调用用户定义函数，其中用户定义函数指二进制软件组织成员自己编写的函数；

预测函数是否调用非用户定义函数，其中非用户定义函数是指为使二进制软件正常运行而加入的函数；

预测函数是否携带有返回值；

预测函数中是否使用了ebp寄存器对栈执行读写操作；

预测函数是否为静态函数；

预测两个函数在函数调用图中是否有边，其中函数调用图是一个有向图，用于描述各个函数之间的执行逻辑关系。

可以理解的是，本实施例通过应用多重多级预训练的思想，即分别从指令、基本块和函数角度执行预训练任务，不仅能够学习到二进制软件更细粒度的信息，还促使从软件的反汇编代码文本中逐步学习由简单到复杂的上下文信息，从而能够提高软件代码分类识别的性能。

作为上述方案的改进，所述将N1个所述基本块编码向量融合为基本块编码融合向量，具体包括：通过预设的权重网络确定与N1个所述基本块编码向量对应的N1个第一权重，基于所述第一权重，对N1个所述基本块编码向量进行加权计算，得到所述基本块编码融合向量；

作为上述方案的改进，所述基于所述字节统计特征、所述PE文件统计特征和所述反汇编统计特征，确定统计特征向量，具体包括：

将所述软件统计特征转换为统计特征向量。

作为上述方案的改进，所述将所述统计特征向量输入至预设的统计表征生成模块，得到所述统计表征生成模块输出的统计表征，具体包括：

对所述统计特征向量进行重塑处理，得到矩阵向量；

作为上述方案的改进，所述编码器包括交叉注意力网络和自注意力网络。

示例性的，所述编码器为PerceiverIO编码器，由交叉注意力网络和自注意力网络组成。

参见图6，该实施例的计算机设备包括：处理器301、存储器302以及存储在所述存储器302中并可在所述处理器301上运行的计算机程序，例如软件代码分类识别程序。所述处理器301执行所述计算机程序时实现上述各个基于多重多级预训练的软件分类方法实施例中的步骤，例如图1所示的步骤S1至S7。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器302中，并由所述处理器301执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括，但不仅限于，处理器301、存储器302。本领域技术人员可以理解，所述示意图仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器301、数字信号处理器301 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器301可以是微处理器301或者该处理器301也可以是任何常规的处理器301等，所述处理器301是所述计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分。

所述存储器302可用于存储所述计算机程序和/或模块，所述处理器301通过运行或执行存储在所述存储器302内的计算机程序和/或模块，以及调用存储在存储器302内的数据，实现所述计算机设备的各种功能。所述存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器302可以包括高速随机存取存储器302，还可以包括非易失性存储器302，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器302件、闪存器件、或其他易失性固态存储器302件。

其中，所述计算机设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器301执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器302、只读存储器302（ROM，Read-OnlyMemory）、随机存取存储器302（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

综上，本发明具有以下有益效果：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于多重多级预训练的软件分类方法，其特征在于，包括：

获取待分类的二进制软件；

对所述二进制软件进行反汇编处理得到反汇编代码文本；

2.如权利要求1所述的基于多重多级预训练的软件分类方法，其特征在于，所述基本块表征子模块包括N1个编码器，所述函数表征子模块包括N2个编码器，所述文本表征子模块包括N3个编码器；

3.如权利要求1所述的基于多重多级预训练的软件分类方法，其特征在于，所述对所述反汇编代码文本进行预处理，具体包括：

对所述反汇编代码文本进行分词处理；

4.如权利要求2所述的基于多重多级预训练的软件分类方法，其特征在于，所述N1个不同的第一预训练任务包括如下至少一种：预测指令任务、预测操作码的操作类型、预测操作码的跳转类型、预测第一操作数的地址类型、预测第二操作数的地址类型、预测第一操作数的数据类型和预测第二操作数的数据类型；

5.如权利要求2所述的基于多重多级预训练的软件分类方法，其特征在于，所述将N1个所述基本块编码向量融合为基本块编码融合向量，具体包括：通过预设的权重网络确定与N1个所述基本块编码向量对应的N1个第一权重，基于所述第一权重，对N1个所述基本块编码向量进行加权计算，得到所述基本块编码融合向量；

6.如权利要求1所述的基于多重多级预训练的软件分类方法，其特征在于，所述基于所述字节统计特征、所述PE文件统计特征和所述反汇编统计特征，确定统计特征向量，具体包括：

将所述软件统计特征转换为统计特征向量。

7.如权利要求1所述的基于多重多级预训练的软件分类方法，其特征在于，所述将所述统计特征向量输入至预设的统计表征生成模块，得到所述统计表征生成模块输出的统计表征，具体包括：

对所述统计特征向量进行重塑处理，得到矩阵向量；

8.如权利要求2或7所述的基于多重多级预训练的软件分类方法，其特征在于，所述编码器包括交叉注意力网络和自注意力网络。

9.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的基于多重多级预训练的软件分类方法。