CN118036008B

CN118036008B - 恶意文件伪装检测方法

Info

Publication number: CN118036008B
Application number: CN202410446322.2A
Authority: CN
Inventors: 陈珙; 渠成堃; 孔将旭; 王清; 黎明
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2024-04-15
Filing date: 2024-04-15
Publication date: 2024-06-21
Anticipated expiration: 2044-04-15
Also published as: CN118036008A

Abstract

本发明提供了一种恶意文件伪装检测方法。该方法包括：在进行恶意文件防护时，利用规则库匹配、小模型相似度匹配和大模型相似度匹配对至少一个待检测文件依次进行第一检测、第二检测和第三检测；基于所述第一检测的结果和/或所述第二检测的结果和/或所述第三检测的结果，对所述至少一个待检测文件进行恶意文件伪装的判断，由此，通过规则库匹配到小模型相似度匹配到大模型相似度匹配的精准链路，逐级筛查，提高检出效率。

Description

恶意文件伪装检测方法

技术领域

本申请涉及网络安全领域，尤其涉及一种恶意文件伪装检测方法。

背景技术

传统的恶意文件检测方法主要有信息-摘要算法（Message Digest Algorithm 5，简称“MD5”）、病毒特征码和规则匹配这三大类，这些静态病毒检测方案虽然技术原理和检测能力各有不同，但它们的检测对象本质上都是字节信息，该共性也成为他们的共同缺陷，导致他们通常无法检测新变种、新家族等未知威胁。

深度神经网络是由多层的非线性神经元构成的网络计算模型，它模拟了生物神经系统的链接方式，能够在系统中有效、快速的传递有效信息。深度神经网络通过学习海量的正常文件样本和病毒文件样本，能够自动地、逐层地凝练更高层次的特征。例如信息在网络传递的过程中，其表征的含义从最开始输入的文件字节特征（例如识别一个字节），逐渐进化到语句特征(例如识别一个指令)，函数特征（例如识别一个函数）和语义特征（例如识别一个操作或行为，例如勒索病毒通常具有的加密操作），最后完全自动化的构建出稳定可靠的高层次病毒特征。与只利用字节特征的传统方案相比，深度神经网络具有明显优势，即，具有很强的泛化能力，能够更好的识别未曾见过的病毒样本，抵御抗病毒变种和新病毒家族等未知威胁。目前AI技术已经在恶意文件检测领域崭露头角，例如可以通过AI检测引擎综合多种分类算法（随机森林，神经网络，支持向量机等）进行恶意文件鉴定。

本部分旨在为权利要求书中陈述的本申请实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

发明人发现，现有技术的方案聚焦在恶意文件的文本信息（即二进制字符串），对恶意文件文本信息与图标信息的对应性上，并没有很好的关注。而在实际恶意攻击场景中，将可执行文件（如exe格式）伪装成pdf诱导用户点击，是常见的攻击手法。常规检测模式难以覆盖海量的软件与图标类型，而大语言模型的爆发，为这类恶意攻击手段的检测提供了解决方案。

为了解决上述问题中的至少一个，本申请实施例提供一种恶意文件检测方法，通过三者逐层漏斗式地将检测文件图标和文本信息作相似性匹配，每一级判别的泛化和解析能力逐渐增强，在针对海量恶意文件检测时，基于规则库可以过滤掉较大比例的恶意文件数量，而针对隐藏性强、高级威胁的恶意文件，则会过滤至泛化和学习能力最强的大模型进行判别，这种协同方式兼顾了恶意文件的检测成本和判别准确性。

根据本申请实施例的第一方面，提供一种基于规则库、小模型、大模型三者协同的恶意文件伪装检测方法，其特征在于，所述方法包括：

在进行恶意文件防护时，利用规则库匹配、小模型相似度匹配和大模型相似度匹配对至少一个待检测文件依次进行第一检测、第二检测和第三检测；

基于所述第一检测的结果和/或所述第二检测的结果和/或所述第三检测的结果，对所述至少一个待检测文件进行恶意文件伪装的判断，

其中，所述第一检测包括：

对所述至少一个待检测文件的图标信息、文本信息（即二进制字符串）、图标-文本映射关系和已有黑白样本库进行规则匹配，判定所述至少一个待检测文件是否为恶意文件伪装；

其中，所述第二检测包括：

对在所述第一检测中无法判定为恶意文件伪装的待检测文件的图标信息、文本信息（即二进制字符串）、图标-文本映射关系进行小参数神经网络模型相似性判别，判定所述待检测文件是否为恶意文件伪装；

其中，所述第三检测包括：

对在所述第二检测中无法判定为恶意文件伪装的待检测文件的图标信息、文本信息（即二进制字符串）、图标-文本映射关系进行视觉-文本多模态神经网络大模型解析与相似性判别，判定是否为恶意文件伪装。

根据本申请实施例的第二方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现第一方面的实施例所述的方法。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的实施例所述的方法。

根据本申请实施例的第四方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现第一方面的实施例所述的方法。

本申请实施例的一个有益效果在于，通过三者逐层漏斗式地将检测文件图标和文本信息作相似性匹配，每一级判别的泛化和解析能力逐渐增强，在针对海量恶意文件检测时，基于规则库可以过滤掉较大比例的恶意文件数量，而针对隐藏性强、高级威胁的恶意文件，则会过滤至泛化和学习能力最强的大模型进行判别，这种协同方式兼顾了恶意文件的检测成本和判别准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请实施例恶意文件伪装检测方法的流程示意图；

图2是本申请实施例的数据标注方法的一个示意图；

图3示出了本申请实施例的用于恶意文件检测的视觉-文本多模态神经网络大模型的模型架构。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本申请实施例做进一步详细说明。在此，本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。

需要说明的是，本申请中技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。本申请实施例中的用户信息和用户数据均是通过合法合规途径获得，并且对用户信息和用户数据的获取、存储、使用、处理等经过客户授权同意的。

需要说明的是，本申请所述的“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例提供了一种恶意文件伪装检测方法。图1是本申请实施例恶意文件伪装检测方法的流程示意图。如图1所示，该方法包括：

步骤101，在进行恶意文件防护时，利用规则库匹配、小模型相似度匹配和大模型相似度匹配对至少一个待检测文件依次进行第一检测、第二检测和第三检测；

步骤102，基于所述第一检测的结果和/或所述第二检测的结果和/或所述第三检测的结果，判断所述至少一个待检测文件是否为恶意文件伪装。

在本申请实施例中，“规则库匹配”是指将待检测文件的图标信息、二进制文本信息以及两者的映射关系与已有非恶意文件图标库进行相似度匹配。

在本申请实施例中，“小模型匹配”是指构建非恶意文件图标库与二进制字符串的小参数神经网络判别模型，将待检测文件的图标信息、二进制文本信息以及两者的映射关系输入所述小参数神经网络判别模型进行相似度判别。

在本申请实施例中，“大模型匹配”是指构建非恶意文件图标库与二进制字符串的视觉-文本多模态神经网络大模型，将待检测文件的图标信息、二进制文本信息以及两者的映射关系输入所述视觉-文本多模态神经网络大模型进行相似度判别。

在步骤101中，第一检测、第二检测和第三检测不是必须都执行，也就是说，本申请实施例的第一检测、第二检测和第三检测是逐级检测，即，在利用规则库匹配进行的第一检测判断出待检测文件为恶意程序文件的情况下，就可以停止对该待检测文件的检测；在通过第一检测不能判断待检测文件为恶意程序文件的情况下进入第二检测，在利用小模型相似度匹配进行的第二检测判断出待检测文件为恶意程序文件的情况下，可以停止检测；在通过第二检测仍然不能判断待检测文件为恶意程序文件的情况下进入第三检测，利用大模型相似度匹配对待检测文件进行检测。

也可以说，本申请实施例的第一检测、第二检测和第三检测是对至少一个待检测文件进行逐级筛查，通过第一检测筛查出待检测文件中的初级或伪装程度不高的恶意文件，通过第二检测筛查出中级或伪装程度较高的恶意文件，通过第三检测筛查出高级或伪装程度最高的恶意文件，由此，通过逐级筛查，提高检出效率。

在本申请实施例中，所述第一检测包括：对待检测文件的图标信息和已有图标库进行规则匹配，同时结合待检测文件的文本信息（例如二进制字符串）与已有规则库中的黑白样本（也称作“已有黑白样本库”）的文本信息的匹配程度，以及图标-文本的两者映射关系是否正确，判定是否为恶意程序伪装。另外，待检测文件的文本信息与已有规则库中的黑白样本的文本信息进行匹配可以是，白样本拥有正常的图标和正常的文本信息以及两者的映射关系，均被收录在规则库中，而恶意文件修改了图标，但其文本信息仍为恶意字符串，两者映射关系无法匹配规则库中的白样本的映射关系，由此，通过将待检测文件的文本信息与白样本进行匹配，如果无法匹配，则说明待检测文件可能是恶意程序伪装。对于黑样本匹配，原理类似，此处不再一一说明。

所述第二检测包括：对待检测文件的图标信息、文本信息（即二进制字符串）、图标-文本映射关系进行小参数神经网络模型相似性判别，判定所述待检测文件是否为恶意文件伪装。

所述第三检测包括：对待检测文件的图标信息、文本信息（即二进制字符串）、图标-文本映射关系进行视觉-文本多模态神经网络大模型解析与相似性判别，判定是否为恶意文件伪装。

这里，第一检测可以理解为对待检测文件的图标和二进制字符特征，进行恶意文件规则库的相似度匹配，大部分较为初级或伪装程度不高的恶意文件，其二进制字符串和图标之间的映射关系都能与规则库中的黑样本匹配，从而被检出。

第二检测可以理解为对待检测文件的图标和二进制字符特征，进行小参数神经网络模型的恶意文件相似性检测，针对一些未被收录在黑样本库中的已有字节信息变异的恶意文件，小参数的神经网络模型也拥有少量的泛化能力，能够自主学习，识别出未收录的恶意文件特征，如错误的文件图标与二进制字符映射关系，从而检出恶意文件。小参数的神经网络模型一般是指参数在数千万到数亿量级的神经网络模型，模型结构可以是循环神经网络（Recurrent Neural Network，RNN）等。

第三检测是对待检测文件的图标和二进制字符特征，进行视觉-文本多模态神经网络大模型的恶意文件相似性检测，本申请实施例所述的视觉-文本多模态神经网络大模型是指参数达到数亿至数千亿规模的多种模态融合的神经网络模型，模型结构可以是基于自注意力机制的transformer（变换器）架构，如生成式预训练变换器（Generative Pre-trained Transformer，GPT）、双向编码特征变换器（Bidirectional EncoderRepresentations from Transformers，BERT）、文本到文本转换变换器（Text-to-TextTransfer Transformer，T5）等多种类别。由于参数量大幅增加，大模型相比第二检测中的小参数模型拥有更强的泛化能力和特征提取能力，甚至出现“智能涌现”现象，能最大限度地识别恶意文件伪装，提升检出效果。

另外，第三检测由于模型的参数规模大，其单次检测成本也较高，需要激活大量非线性神经元进行推理运算。

这样，本实施例可以实现规则库、小参数模型、大参数模型的协同检测，通过规则库匹配→小模型相似度匹配→大模型相似度匹配的精准链路，将最难识别的高阶恶意文件伪装过滤至大参数模型环节，减少整个系统对大参数模型的调用，减少成本的同时最大程度保证恶意文件检出率。

另外，该方法还可以包括对所述第一检测结果、所述第二检测结果和所述第三检测结果分别设置权重系数，根据所述第一检测结果、所述第二检测结果和所述第三检测结果的加权值与阈值的比较结果对所述至少一个待检测文件进行恶意文件伪装的判断。例如，相似度更高的权重系数更大。本申请实施例对权重系数的取值、阈值等不做限定，可以根据实际需要进行设定，具体实施方式可以参考相关技术。

在本申请实施例中，恶意文件指的是计算机恶意程序文件，当用户计算机终端感染后，可能带来信息丢失、泄露、计算机终端不可用等后果，计算机终端包括但不限于笔记本电脑、台式电脑、桌面云设备、服务器设备等。

在本申请实施例中，视觉-文本多模态神经网络大模型是指能够处理图片（即视觉）、文本（例如二进制字符）等多种输入的模态以及两者关联信息的神经网络模型，例如，可以通过视觉编码器与大语言模型融合的方式形成该多模态大模型。

另外，本申请实施例对规则库匹配、小参数模型匹配、大参数模型匹配的具体匹配方法不做限制，其具体实施方式可以参考相关技术。

在本申请实施例中，上述方法还可以包括迭代已有规则库和神经网络模型中的恶意文件图标、二进制字符串和两者的映射关系的数据标注方法，如基于专家经验的人工标注、基于人类反馈强化学习方式标注等。

示例性地，下面对构建恶意文件图标和二进制字符串的数据标注方法进行说明，该方法可以用于形成步骤101中的规则库，也可以用于小参数模型、大参数模型的预训练数据。

图2是本申请实施例的数据标注方法的一个示意图。

数据标注方法主要涉及恶意文件的数据标注和准备流程，即，通过搜集图标资料的完整性与二进制文本-图像标签映射的准确性，可采用以下步骤对通用和网络安全领域的语料进行标注和增强，以此得到大量图标数据的“标签”与“属性”，如图2所示：具体步骤如下：

步骤201，数据的采集与提取：通过常见应用软件图标分析，采集主流的白数据（如：word图标、pdf图标、windows系统自带各类图标等），同时针对图标与应用的对应情况，以及常见恶意样本的二进制文本，编写脚本供后续采集异常字符串与图标的关联。

步骤202，数据预标注：可使用业界主流预训练模型，结合专业背景知识生成提示符（prompt），对图片内容视觉特征描述，以及恶意语料库（恶意样本二进制串与图标关联）进行自动预标注。这有助于扩大标注规模，减少人工标注的工作量，并提高标注的效率。

步骤203，人工手动标注：根据人工经验（例如，文件检测领域的专家经验），对一部分语料进行人工手动标注，由此能够识别和标注与网络安全相关的特定领域知识，确保语料的精准性和深度。

步骤204，基于人类反馈强化学习（ReinForcement Learning from HumanFeedback）标注：通过与专家人员的交互，设置奖励模型，能够帮助模型更好地理解图标与文件二进制信息在网络安全领域映射的复杂性和特定领域知识，对标注数据进行迭代改进。另外，本申请实施例对基于人类反馈强化学习进行数据标注的实施方式不做限定，其具体实施方式可以参考相关技术。

需要注意的是，本申请实施例中，可以采用步骤202至204中的至少一个步骤进行数据标注，并且，也可以不用按照步骤202至步骤204的顺序进行数据标注。具体采用哪个或哪些步骤进行数据标注可以根据实际需要选择，本申请实施例对此不做限制。图3示出了本申请实施例的用于恶意文件检测的视觉-文本多模态神经网络大模型的模型架构，如图3所示，模型架构300包含图像解析模块301和推理模块302，其中，图像解析模块301可以由图片编码器构成，推理模块302可以由大语言模型构成。

另外，如图3所示，图像解析模块301包含如标签提取、属性提取、标题提取等部分，能够捕获并包含恶意文件图标中视觉内容的各个方面，然后这些标签、属性和标题都会被传输至大语言模型构成的推理模块，大语言模型能够根据图像解析模块提供的文本描述以及特定任务的指令（如判定该文件图标和对应的二进制支付含有恶意程序）生成答案。

根据本申请实施例所述的恶意文件伪装检测方法，通过规则库匹配到小模型相似度匹配再到大模型相似度匹配的精准链路，将最难识别的高阶恶意文件伪装过滤至大参数模型环节，减少整个系统对大参数模型的调用，减少成本的同时最大程度保证恶意文件检出率。

本申请实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的恶意文件伪装检测方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的恶意文件伪装检测方法。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的恶意文件伪装检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置、系统、和计算机程序产品的示意图和/或流程图和/或方框图来描述的。应理解可由计算机程序指令实现示意图和/或流程图和/或方框图中的每一步骤和/或操作和/或流程和/或方框、以及示意图和/或流程图和/或方框图中的步骤和/或操作和/或流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在示意图一个步骤或多个步骤和/或流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在示意图一个步骤或多个步骤和/或流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在示意图一个步骤或多个步骤和/或流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种恶意文件伪装检测方法，其特征在于，所述方法包括：

其中，所述第一检测包括：

对所述至少一个待检测文件的图标信息、二进制文本信息、图标-文本映射关系和已有黑白样本库进行规则匹配，判定所述至少一个待检测文件是否为恶意文件伪装；

其中，所述第二检测包括：

对在所述第一检测中无法判定为恶意文件伪装的待检测文件的图标信息、二进制文本信息、图标-文本映射关系进行小参数神经网络模型的相似性判别，判定所述待检测文件是否为恶意文件伪装；

其中，所述第三检测包括：

对在所述第二检测中无法判定为恶意文件伪装的待检测文件的图标信息、二进制文本信息、图标-文本映射关系进行视觉-文本多模态神经网络大模型解析与判别，判定是否为恶意文件伪装。

2.根据权利要求1所述的方法，其特征在于，该方法还包括对所述第一检测结果、所述第二检测结果和所述第三检测结果分别设置权重系数，根据所述第一检测结果、所述第二检测结果和所述第三检测结果的加权值与阈值的比较结果对所述至少一个待检测文件进行恶意文件伪装的判断。

3.根据权利要求1所述的方法，其特征在于，规则库匹配是将待检测文件的图标信息、二进制文本信息以及两者的映射关系与已有黑白样本库进行规则匹配。

4.根据权利要求1所述的方法，其特征在于，小模型相似度匹配是指构建恶意文件黑白样本图标、二进制文本信息以及两者映射关系的小参数神经网络模型，将待检测文件的图标信息、二进制文本信息以及两者的映射关系输入所述小参数神经网络模型进行相似度判别。

5.根据权利要求1所述的方法，其特征在于，大模型相似度匹配是指构建恶意文件黑白样本图标、二进制文本信息以及两者映射关系的视觉-文本多模态神经网络大模型，将待检测文件的图标信息、二进制文本信息以及两者的映射关系输入所述视觉-文本多模态神经网络大模型进行相似度判别。

6.根据权利要求1所述的方法，其特征在于，所述检测方法还包括迭代所述第一检测中的已有黑白样本库、第二检测中的小参数神经网络模型和第三检测中的视觉-文本多模态神经网络大模型中的至少一个中的恶意文件图标、二进制文本信息和两者映射关系的数据标注方法。

7.根据权利要求5所述的方法，其特征在于，所述视觉-文本多模态神经网络大模型包含图像解析模块和推理模块，所述图像解析模块包含图片编码器，所述推理模块包含大语言模型，所述图像解析模块基于所述图片编码器对待测文件的图标进行标签、属性、标题提取，并将提取的文本描述传输至所述推理模块，所述推理模块基于所述大语言模型对所述文本描述和预定的任务指令进行分析，生成推理结果。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的方法。