CN114996707B

CN114996707B - 图片木马的静态检测方法、装置、电子设备及存储介质

Info

Publication number: CN114996707B
Application number: CN202210913516.XA
Authority: CN
Inventors: 尹重超; 陈杰; 赵林林; 童兆丰; 薛锋
Original assignee: Beijing ThreatBook Technology Co Ltd
Current assignee: Beijing ThreatBook Technology Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-12-16
Anticipated expiration: 2042-08-01
Also published as: CN114996707A

Abstract

本申请实施例提供一种图片木马的静态检测方法、装置、电子设备及存储介质，其中，该方法包括：获取正样本集合和负样本集合；将所述正样本集合和所述负样本集合输入分类模型进行训练，得到图片木马检测模型；获取目标图片文件；对所述目标图片文件进行二进制解析，得到疑似代码字符串；将所述疑似代码字符串输入所述图片木马检测模型，得到检测结果。实施本申请实施例，可以全面地对图片木马进行完整地检测，提高检测效率和检测准确率，降低检测难度。

Description

图片木马的静态检测方法、装置、电子设备及存储介质

技术领域

本申请涉及网页安全技术领域，具体而言，涉及一种图片木马的静态检测方法、装置、电子设备及计算机可读存储介质。

背景技术

随着近十年来信息技术的蓬勃发展，大数据、人工智能技术已经大量应用到主机安全领域。一种常见的网页攻击手段是将木马植入到图片中上传至目标服务器，再通过远程连接执行图片木马从而达到入侵网页主机目的。这种将木马插入到图片中称之为图片木马或者图片木马。这种木马隐匿性强，植入木马的图片在显示上和正常图片没有任何区别，从图片编码上也很难在大量图片信息中找到木马信息。

传统的静态的检测技术一般利用特征匹配，这种方式不仅误报高，而且图片木马制作者很容易利用代码语言特性对检测特征进行绕过。现有的技术利用特征匹配的方式对目标图片进行扫描匹配，选取脚本的特有标签作为特征，然而在实际工业环境中，图片文件可能很大，包含几百万字符，且有部分图片包含大量XML代码，XML代码也非常容易被该特征匹配。因此直接匹配脚本特征会造成误报高的结果，并且木马代码极具多样性，很难对图片木马的特征进行完整地检测，导致检测效率低，检测难度大，费事费力。

发明内容

本申请实施例的目的在于提供一种图片木马的静态检测方法、装置、电子设备及计算机可读存储介质，可以全面地对图片木马进行完整地检测，提高检测效率和检测准确率，降低检测难度。

第一方面，本申请实施例提供了一种图片木马的静态检测方法，所述方法包括：

获取正样本集合和负样本集合；

将所述正样本集合和所述负样本集合输入分类模型进行训练，得到图片木马检测模型；

获取目标图片文件；

对所述目标图片文件进行二进制解析，得到疑似代码字符串；

将所述疑似代码字符串输入所述图片木马检测模型，得到检测结果。

在上述实现过程中，先根据正样本集合和负样本集合训练分类模型，得到图片木马检测模型，再将目标图片文件进行二进制解析后输入图片木马检测模型，可以有效地、快速地检测到图片中的木马，全面地对图片木马进行完整地检测，提高检测效率和检测准确率，降低检测难度。

进一步地，所述获取正样本集合和负样本集合的步骤，包括：

获取图片样本和代码样本；

对所述图片样本进行二进制解析，得到正样本集合；

对所述代码样本进行预处理，得到负样本集合。

在上述实现过程中，分别将图片样本进行二进制解析，对代码样本进行预处理，根据图片样本的特点和代码样本的特点分别进行处理，可以将图片样本的特征和代码样本的特征更加准确地提取出来，使得到的正样本集合和负样本集合更具有针对性。

进一步地，所述对所述图片样本进行二进制解析，得到正样本集合的步骤，包括：

对所述图片样本进行二进制解析，得到可读编码字符串；

获取正则表达式；

根据所述正则表达式对所述可读编码字符串进行筛选，得到所述正样本集合。

在上述实现过程中，对图片样本进行二进制解析后，再对得到的可读编码字符串进行二次筛选，使得到的正样本集合更加适于检测，并且减少正样本集合对空间的占用，提高检测效率。

进一步地，所述对所述代码样本进行预处理，得到负样本集合的步骤，包括：

读取脚本文件，根据所述脚本文件过滤掉所述代码样本中的无关字符，得到过滤代码样本；

按行读取所述过滤代码样本中的代码，得到字符串集合；

对所述字符串集合进行过滤，得到所述负样本集合。

在上述实现过程中，读取过滤代码样本中的代码得到字符串集合，再对字符串集合过滤，可以有效地过滤代码样本中不符合要求的代码，减少检测过程中的运行空间。

进一步地，所述将所述正样本和所述负样本输入分类模型进行训练，得到图片木马检测模型的步骤，包括：

对所述正样本集合和所述负样本集合进行解析，得到字符串；

对所述字符串进行分词编码，得到编码字符串；

根据所述编码字符串获得标签数据；

将所述标签数据输入分类模型进行训练，得到所述图片木马检测模型。

在上述实现过程中，对正样本集合和负样本集合进行解析、分词编码后得到编码字符串，根据编码字符串可以进行标注，得到标签数据，使标签数据容易输入分类模型进行训练标，便于检测模型对其进行检测，提高检测准确率。

进一步地，所述根据所述编码字符串获得标签数据的步骤，包括：

对所述编码字符串进行长度调整；

将调整长度后的字符串进行标记，得到所述标签数据。

在上述实现过程中，对编码字符串进行长度调整和标记后得到标签数据，使得到的标签数据更加规范，并且标签数据可以将正样本和负样本的特征显示出来，有助于提高检测效率。

进一步地，所述对所述编码字符串进行长度调整的步骤，包括：

判断所述编码字符串的长度是否大于预设长度；

若是，对所述编码字符串的长度进行截断处理；

若否，将所述编码字符串进行充零处理。

在上述实现过程中，将编码字符串长度进行调整，使得编码字符串更加规整，在训练过程中可以减少对空间的占用，缩短训练时间。

第二方面，本申请实施例还提供了一种图片木马的静态检测装置，所述装置包括：

获取模块，用于获取正样本集合和负样本集合；还用于获取目标图片文件；

训练模块，用于将所述正样本集合和所述负样本集合输入分类模型进行训练，得到图片木马检测模型；

二进制解析模块，用于对所述目标图片文件进行二进制解析，得到疑似代码字符串；

检测模块，用于将所述疑似代码字符串输入所述图片木马检测模型，得到检测结果。

第三方面，本申请实施例提供的一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。

第四方面，本申请实施例提供的一种计算机可读存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如第一方面任一项所述的方法。

第五方面，本申请实施例提供的一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行如第一方面任一项所述的方法。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的图片木马的静态检测方法的流程示意图；

图2为本申请实施例提供的图片木马的静态检测装置的结构组成示意图；

图3为本申请实施例提供的电子设备的结构组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

实施例一

图1是本申请实施例提供的图片木马的静态检测方法的流程示意图，如图1所示，该方法包括：

S1，获取正样本集合和负样本集合；

S2，将正样本集合和负样本集合输入分类模型进行训练，得到图片木马检测模型；

S3，获取目标图片文件；

S4，对目标图片文件进行二进制解析，得到疑似代码字符串；

S5，将疑似代码字符串输入图片木马检测模型，得到检测结果。

本申请实施例利用人工智能技术对图片木马进行检测，对图片进行二进制解析和二次筛选，过滤掉疑似代码字符串。并且，舍弃特征匹配算法，采用自然语言处理的方法对字符串进行分类，可以有效地提高对图片木马的检测效率。

本申请实施例分为训练和检测两个阶段。训练部分收集正样本集合和负样本集合，通过自然语言处理模型训练出字符串分类器即分类模型，检测部分从待检测目标图片文件中筛选出疑似代码字符串，使用训练好的分类器进行预测，完成检测。

进一步地，S1包括：

获取图片样本和代码样本；

对图片样本进行二进制解析，得到正样本集合；

对代码样本进行预处理，得到负样本集合。

本申请实施例的代码样本可以从github、木马文件或其他来源获取，代码样本为不同程序语言的脚本代码。

进一步地，对图片样本进行二进制解析，得到正样本集合的步骤，包括：

对图片文件进行二进制解析，得到可读编码字符串；

获取正则表达式；

根据正则表达式对可读编码字符串进行筛选，得到正样本集合。

在上述实现过程中，对图片文件进行二进制解析后，再对得到的可读编码字符串进行二次筛选，使得到的正样本集合更加适于检测，并且减少正样本集合对空间的占用，提高检测效率。

可选地，图片文件来源于各大公开网站，包含jpg、png、svg、gif等格式的图片。

使用二进制编码读取一张图片文件，使用正则筛选出可读编码字符串，正则表达式为[\x20-\x7f]{5，}（ASCII编码范围，字符串在5个字符以上）。然后过滤掉一部分恶意代码的可读编码字符串。过滤规则：筛选出长度大于10，字符种类大于8可读编码字符串。

循环读取图片文件中的所有图片，得到正样本集合。

进一步地，对代码样本进行预处理，得到负样本集合的步骤，包括：

读取脚本文件，根据脚本文件过滤掉代码样本中的无关字符，得到过滤代码样本；

按行读取过滤代码样本中的代码，得到字符串集合；

对字符串集合进行过滤，得到负样本集合。

示例性地，对代码样本进行过滤，过滤掉注释、作者信息、等无关代码字符。根据实际木马程序代码，筛选出长度合适，内容多样的字符串集合作为负样本集合。

读取一个脚本文件，过滤掉注释、作者信息等无关字符串后按行读取代码，获得一个字符串集合。过滤掉恶意代码的字符串。过滤规则：筛选出长度大于10，字符种类大于8字符串。循环读取脚本文件中所有代码，得到负样本集合。

进一步地，S5包括：

对正样本集合和负样本集合进行解析，得到字符串；

对字符串进行分词编码，得到编码字符串；

根据编码字符串获得标签数据；

将标签数据输入分类模型进行训练，得到图片木马检测模型。

对于分类模型选择，本申请实施例采用合适的自然语言处理模型来做分类模型。对于不同的工业环境可以选取不同的模型，本申请实施例针对线下无硬件限制的环境采用预训练的codeBert分类模型，针对线上有硬件限制的环境采用n-gram+lightBGM词频分类模型。

进一步地，根据编码字符串获得标签数据的步骤，包括：

对编码字符串进行长度调整；

将调整长度后的字符串进行标记，得到标签数据。

在上述实现过程中，对编码字符串进行长度调整和标记后得到标签数据，使得到的标签数据更加规范，并且签数据可以将正样本和负样本的特征显示出来，有助于提高检测效率。

进一步地，对编码字符串进行长度调整的步骤，包括：

判断编码字符串的长度是否大于预设长度；

若是，对编码字符串的长度进行截断处理；

若否，将编码字符串进行充零处理。

本申请实施例采用codeBert分类模型默认的分词方式对字符串进行分词编码，采用90的样本统计长度作为预设长度，长度不足则充零处理，将标签数据导入到codeBert分类模型进行分类训练，得到图片木马检测模型。

可选地，本申请实施例也可采用n-gram词频对字符串进行提取，使用lightBGM树模型对特征进行整合，得到图片木马检测模型。

本申请实施例通过自然语言处理的人工智能技术检测图片是否被篡改插入代码，从而判定图片是否属于图片后门文件。将人工智能技术应用到图片木马的静态检测上，相较于传统的特征匹配检测手段有更高的检出率和更低的误报率。不仅如此，本申请实施例可以检测图片是否被插入代码，对于不同的恶意代码语言、木马类型都囊括其中，有很好的泛化能力，木马制作者难以通过语言的特性变化来躲避检测。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种图片木马的静态检测装置，如图2所示，该装置包括：

获取模块1，用于获取正样本集合和负样本集合；还用于获取目标图片文件；

训练模块2，用于将正样本集合和负样本集合输入分类模型进行训练，得到图片木马检测模型；

二进制解析模块3，用于对目标图片文件进行二进制解析，得到疑似代码字符串；

检测模块4，用于将疑似代码字符串输入图片木马检测模型，得到检测结果。

进一步地，获取模块1还用于：

获取图片样本和代码样本；

对图片样本进行二进制解析，得到正样本集合；

对代码样本进行预处理，得到负样本集合。

进一步地，获取模块1还用于：

对图片样本进行二进制解析，得到可读编码字符串；

获取正则表达式；

进一步地，获取模块1还用于：

按行读取过滤代码样本中的代码，得到字符串集合；

对字符串集合进行过滤，得到负样本集合。

进一步地，训练模块2还用于：

对正样本集合和所述负样本集合进行解析，得到字符串；

对字符串进行分词编码，得到编码字符串；

根据所述编码字符串获得标签数据；

进一步地，训练模块2还用于：

对编码字符串进行长度调整；

将调整长度后的字符串进行标记，得到标签数据。

进一步地，训练模块2还用于：

判断编码字符串的长度是否大于预设长度；

若是，对编码字符串的长度进行截断处理；

若否，将编码字符串进行充零处理。

上述的图片木马的静态检测装置可实施上述实施例一的方法。上述实施例一中的可选项也适用于本实施例，这里不再详述。

本申请实施例的其余内容可参照上述实施例一的内容，在本实施例中，不再进行赘述。

实施例三

本申请实施例提供一种电子设备，包括存储器及处理器，该存储器用于存储计算机程序，该处理器运行计算机程序以使电子设备执行实施例一的图片木马的静态检测方法。

可选地，上述电子设备可以是服务器。

请参见图3，图3为本申请实施例提供的电子设备的结构组成示意图。该电子设备可以包括处理器31、通信接口32、存储器33和至少一个通信总线34。其中，通信总线34用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口32用于与其他节点设备进行信令或数据的通信。处理器31可以是一种集成电路芯片，具有信号的处理能力。

上述的处理器31可以是通用处理器，包括中央处理器（Central ProcessingUnit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。

存储器33可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。存储器33中存储有计算机可读取指令，当计算机可读取指令由所述处理器31执行时，设备可以执行上述图1方法实施例涉及的各个步骤。

可选地，电子设备还可以包括存储控制器、输入输出单元。存储器33、存储控制器、处理器31、外设接口、输入输出单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线34实现电性连接。处理器31用于执行存储器33中存储的可执行模块，例如设备包括的软件功能模块或计算机程序。

输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。输入输出单元可以是，但不限于，鼠标和键盘等。

可以理解，图3所示的结构仅为示意，电子设备还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

另外，本申请实施例还提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现实施例一的图片木马的静态检测方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种图片木马的静态检测方法，其特征在于，所述方法包括：

获取正样本集合和负样本集合；

获取目标图片文件；

将所述疑似代码字符串输入所述图片木马检测模型，得到检测结果；

所述获取正样本集合和负样本集合的步骤，包括：

获取图片样本和代码样本；

对所述图片样本进行二进制解析，得到正样本集合；

对所述代码样本进行预处理，得到负样本集合；

所述对所述图片样本进行二进制解析，得到正样本集合的步骤，包括：

对所述图片样本进行二进制解析，得到可读编码字符串；

获取正则表达式；

根据所述正则表达式对所述可读编码字符串进行筛选，得到所述正样本集合；

所述对所述代码样本进行预处理，得到负样本集合的步骤，包括：

按行读取所述过滤代码样本中的代码，得到字符串集合；

对所述字符串集合进行过滤，得到所述负样本集合。

2.根据权利要求1所述的图片木马的静态检测方法，其特征在于，所述将所述正样本和所述负样本输入分类模型进行训练，得到图片木马检测模型的步骤，包括：

对所述字符串进行分词编码，得到编码字符串；

根据所述编码字符串获得标签数据；

将所述标签数据输入所述分类模型进行训练，得到所述图片木马检测模型。

3.根据权利要求2所述的图片木马的静态检测方法，其特征在于，所述根据所述编码字符串获得标签数据的步骤，包括：

对所述编码字符串进行长度调整；

将调整长度后的字符串进行标记，得到所述标签数据。

4.根据权利要求3所述的图片木马的静态检测方法，其特征在于，所述对所述编码字符串进行长度调整的步骤，包括：

判断所述编码字符串的长度是否大于预设长度；

若是，对所述编码字符串的长度进行截断处理；

若否，将所述编码字符串进行充零处理。

5.一种图片木马的静态检测装置，其特征在于，所述装置包括：

检测模块，用于将所述疑似代码字符串输入所述图片木马检测模型，得到检测结果；

获取模块还用于：

获取图片样本和代码样本；

对图片样本进行二进制解析，得到正样本集合；

对代码样本进行预处理，得到负样本集合；

获取模块还用于：

对所述图片样本进行二进制解析，得到可读编码字符串；

获取正则表达式；

获取模块还用于：

按行读取所述过滤代码样本中的代码，得到字符串集合；

对所述字符串集合进行过滤，得到所述负样本集合。

6.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至4中任一项所述的图片木马的静态检测方法。

7.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的图片木马的静态检测方法。