CN113806747B

CN113806747B - 一种木马图片检测方法、系统及计算机可读存储介质

Info

Publication number: CN113806747B
Application number: CN202111365886.6A
Authority: CN
Inventors: 林建洪; 陈晓莉; 赵祥廷; 郝辰亮; 朱崇; 章亮
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-25
Anticipated expiration: 2041-11-18
Also published as: CN113806747A

Abstract

本发明涉及一种木马图片检测方法、系统及计算机可读存储介质；木马图片检测方法包括：S1、对图像数据集中的图片进行解码、切分；其中，图像数据集包括正常图片和木马图片；S2、根据切分得到的文本样本构建文本总体特征；S3、对文本向量分别通过加入注意力的双向LSTM和三个不同kernel_size的并行CNN进行特征提取，得到LSTM特征和CNN特征；S4、将三种特征组合，之后依次通过全连接层和softmax激活函数，建立混合神经网络模型并进行权重训练；S5、将待检测图片进行解码、切分，然后经过处理得到三种特征并输入权重训练之后的混合神经网络模型，输出待检测图片的分类结果。本发明提升了木马检测的精度。

Description

一种木马图片检测方法、系统及计算机可读存储介质

技术领域

本发明属于木马检测技术领域，具体涉及一种木马图片检测方法、系统及计算机可读存储介质。

背景技术

互联网每年新增大量图像，但有的图像看似正常，实则暗藏木马代码，利用神经网络可以对木马图像进行解码检测分类，以净化网络环境，保障互联网的健康发展。

现有技术中，公开号为CN111723368A的专利文献公开了一种基于Bi-LSTM和自注意力的恶意代码检测方法，将恶意代码转换为长度统一的字节流序列，每个字节元素利用多维独热编码表示；采用双向长短时记忆Bi-LSTM模型自动学习字节流序列特征，并输出各时间步的隐状态；利用自注意力机制对各时间步隐状态分配权重，将各隐状态的线性加权和作为样本序列的深层特征表示；对该深层特征表示进行全连接神经网络学习和分类，输出样本预测概率。另外，公开号为CN112995150A的专利文献公开了一种基于CNN-LSTM融合的僵尸网络检测方法，获取网络数据集，对数据集进行预处理操作；构建检测模型，检测模型包括卷积神经网络模型CNN、长短时记忆网络模型LSTM、特征融合模块、全连接层，卷积神经网络模型CNN用于空间特征提取，长短时记忆网络模型LSTM用于时序特征提取，将提取得到的空间特征和时序特征在特征融合模块中进行特征融合，得到融合特征，融合特征经过全连接层输出检测结果；对检测模型进行训练，得到训练好的检测模型。

然而，木马图片隐藏很深，图片的尺寸大小不定，从图像视觉层面上看和正常图片没有差异。图片正常解码后的文本杂乱无章，木马程序的代码又多种多样，识别起来难度很大，现有技术中仅针对时序特征进行特征识别，易造成图像分类的精度有限。因此，为了提高木马图片分类的准确率，需要结合图片文本的总体特征和带有时序信息的局部特征进行识别。

发明内容

基于现有技术中存在的上述缺点和不足，本发明的目的是提供一种木马图片检测方法、系统及计算机可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

一种木马图片检测方法，包括以下步骤：

S1、对图像数据集中的图片进行解码、切分；

其中，图像数据集包括正常图片和木马图片；

S2、根据切分得到的文本样本计算字符串熵及字符串可读性；

还对切分得到的文本样本进行文本向量化，计算字符串方差、字符串峰度及字符串偏度；

其中，字符串熵、字符串可读性、字符串方差、字符串峰度及字符串偏度构成文本总体特征；

S3、对文本向量化得到的文本向量分别通过加入注意力的双向LSTM和三个不同kernel_size的并行CNN进行特征提取，得到LSTM特征和CNN特征；

S4、将文本总体特征、LSTM特征和CNN特征组合，之后依次通过全连接层和softmax激活函数，建立混合神经网络模型并进行权重训练；

S5、将待检测图片进行解码、切分，然后经过步骤S2、S3得到待检测图片对应的文本总体特征、LSTM特征和CNN特征，并输入权重训练之后的混合神经网络模型，输出待检测图片标记为正常图片或木马图片。

作为优先方案，所述步骤S1及S5中的切分，包括：

图片解码后，从前往后每K个字符切分作为一个文本样本，不足K个字符部分取最后K个字符作为文本样本，K取值为正整数。

作为优先方案，所述步骤S2中，字符串熵f _en为：

其中，n _i为文本样本中第i个字符的数量，L为文本样本的字符串长度，p _i为第i个字符的数量占比，q为文本样本中去重之后的字符数量。

作为优先方案，所述步骤S2中，字符串可读性f _re为：

其中，n _yuan为文本样本的字符串中元音字母的个数，L为文本样本的字符串长度。

作为优先方案，所述K取值为100。

作为优先方案，所述步骤S3中，对文本向量化得到的文本向量通过加入注意力的双向LSTM进行特征提取，包括：

对文本向量进行Embedding编码，之后通过双向LSTM得到(none，n，m)格式的原始特征，接着依次通过全连接层、flatten层转换为(none，n)格式的特征，之后将(none，n)格式的特征进行多步复制以进行维度扩展得到为(none，m，n)格式的特征，接着进行后两维转置得到(none，n，m)格式的注意力特征，将原始特征与注意力特征相乘，之后按照倒数第二维度求和，得到加入注意力机制的LSTM特征；

其中，none代表batch size不作限制，n为文本长度，m为双向LSTM的输出维度。

作为优先方案，所述步骤S3中，对文本向量化得到的文本向量通过三个不同kernel_size的并行CNN进行特征提取，包括：

对文本向量进行Embedding编码，之后分别通过(2，emb)、(3，emb)、(4，emb)三种不同的kernel_size的CNN进行特征提取并进行合并，最后通过全连接层得到CNN特征；

其中，2、3及4分别代表卷积核的宽度，卷积核的高度对应文本向量维度emb。

作为优先方案，所述木马图片包括Windows木马图片、linux木马图片和网页木马图片。

本发明还提供一种木马图片检测系统，应用如上任一项方案所述的木马图片检测方法，所述木马图片检测系统包括：

解码切分单元，用于对图片进行解码、切分，得到文本样本；

文本向量化单元，用于对切分得到文本样本进行文本向量化，得到文本向量；

计算单元，用于根据文本样本计算字符串熵及字符串可读性，还用于根据文本向量计算字符串方差、字符串峰度及字符串偏度；其中，字符串熵、字符串可读性、字符串方差、字符串峰度及字符串偏度构成文本总体特征；

加入注意力的双向LSTM单元，用于根据文本向量提取LSTM特征；

三个不同kernel_size的并行CNN单元，用于根据文本向量提取CNN特征；

图片识别单元，用于将待检测图片对应的文本总体特征、LSTM特征和CNN特征输入权重训练之后的混合神经网络模型，以输出待检测图片标记为正常图片或木马图片。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行如上任一项方案所述的木马图片检测方法。

本发明与现有技术相比，有益效果是：

本发明的木马图片检测方法、系统及计算机可读存储介质，结合图片的文本总体特征以及带有时序信息的局部特征（包括LSTM特征和CNN特征）进行木马图片检测，特征维度更全面，从而提升了检测精度。

附图说明

图1是本发明实施例的木马图片检测方法的简要流程图；

图2是本发明实施例的木马图片检测方法的详细流程图；

图3是本发明实施例的文本总体特征的构建流程图；

图4是本发明实施例的混合神经网络模型的框架图；

图5是现有技术中的LSTM的网络结构图；

图6是现有技术中的双向LSTM的网络结构图；

图7是本发明实施例的双向LSTM的注意力机制的网络结构图；

图8是本发明实施例的卷积示意图；

图9是本发明实施例的待检测图片对应的文本总体特征、LSTM特征和CNN特征输入模型检测的流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1和图2所示，本发明实施例的木马图片检测方法，包括以下步骤：

S1、数据收集，创建图像数据集，对图像数据集中的图片进行解码、切分；

其中，图像数据集包括正常图片、Windows木马图片、linux木马图片和网页木马图片。

具体地，每一张图片解码后，从前往后每K个字符切分作为一个文本样本，不足K个字符部分取最后K个字符作为文本样本，并进行数据标注；其中，K取值为正整数。为了示例说明，K取值为100，但不限于100，具体取值可根据实际应用需求进行设置。

其中，字符串熵、字符串可读性、字符串方差、字符串峰度及字符串偏度构成文本总体特征，如图3所示。

具体地，通常木马文本为编程语言，可以在某种环境下运行，因此一般为较为有序的文本，本发明实施例的字符串熵f _en为：

经验证，通过字符串的字符出现次数计算的字符串熵，可有效判断有序和无序文本序列。

由于代码文本一般具有可读性，而英文单词的可读性往往体现在元音字母上，故本发明实施例的字符串可读性f _re为：

另外，代码文本一般采用常用的方法及语句，因此其代码的字符是成规律性的，通过计算编码后的字符串向量的方差、峰度和偏度可以体现这部分特征。

本发明实施例构建的文本总体特征，包括字符串熵、字符串可读性、字符串方差、字符串峰度及字符串偏度，有利于进一步提升木马图片的识别精度。

随后进行混合神经网络模型的构建，将注意力机制、双向LSTM和CNN组合，具体如下：

具体地，如图4所示，对文本向量化得到的文本向量通过加入注意力的双向LSTM进行特征提取，具体包括：

对文本向量进行Embedding(none，n，emb)编码，之后通过双向LSTM（即Bidirectional LSTM）得到(none，n，m)格式的原始特征，接着依次通过全连接层（简称FC）、flatten层（简称Flatten）转换为(none，n)格式的特征，然后通过将前段输出的部分进行多步复制（即Repeat），将其维度扩展，即将(none，n)格式的特征进行多步复制以进行维度扩展得到为(none，m，n)格式的特征，接着进行后两维转置（即Transpose）得到(none，n，m)格式的注意力特征，让其与双向LSTM的输出同维度，将原始特征与注意力特征相乘（即Multiply），之后将注意力的部分加起来，即按照倒数第二维度求和，得到加入注意力机制的LSTM特征；

其中，none代表batch size不作限制，n为文本长度，m为双向LSTM的输出维度，emb为文本向量维度。

如图5所示，以下对LSTM的结构进行详细说明，为了解决梯度消失和爆炸的问题，引入门结构，包括遗忘门、输入门及输出门，来对有顺序信息的数据进行记忆，其通过σ（即sigmoid函数）和tanh来引入更多的非线性的激活。

sigmoid函数的公式为：

；

tanh函数的公式为：

；

S_(t-1),f的公式可得：

；

S_(t-1),i的公式可得：

；

由此可得：

上述LSTM的结构同现有技术，各参数的定义可参考现有技术，在此不赘述。

如图6所示，本发明实施例的双向LSTM通过其双向结构的改进，使得模型对特征数据信息的提取与理解更加全面，其中，双向LSTM的结构可参考现有技术，在此不赘述。

如图7所示，引入的注意力机制（Attention）在双向LSTM的输出之后进行构建与应用。

另外，对文本向量化得到的文本向量通过三个不同kernel_size的并行CNN进行特征提取，具体包括：

对文本向量进行Embedding(none，n，emb)编码，之后分别通过(2，emb)、(3，emb)、(4，emb)三种不同的kernel_size的CNN进行特征提取并进行合并（即Concat），最后通过全连接层得到CNN特征；

其中，2、3及4分别代表卷积核的宽度，卷积核的高度对应文本向量维度emb，emb取值示例为32。

具体地，卷积计算的输入从二维的矩阵到四维张量，以及卷积核从二维矩阵到四维矩阵都对应不同大小的输出，x为图片的图像特征，也是输入，k是卷积核，a是卷积的结果，即特征图（feature map）；假设输入和卷积核都是矩阵，步长为1，本发明实施例通过以下数据进行示例说明：

卷积的过程就是，将输入划分成若干个与卷积核相同大小的不同子集，再分别与卷积核点乘，得到输入的四个子集，表示为：

将经过点乘后得到的不同子集与卷积核相乘，得到图像的特征图信息；

即将得到的四个子集展开，变成一个行向量，表示为：

然后变成行向量的四个子集并在一起得到一个矩阵，表示为：

同理，将卷积核展开成列向量，表示为：

接着将X与K相乘，得到：

最后将A变形，就得到了卷积的结果：

以上所述就是输入和卷积核都是矩阵时的情况，用公式总结为：

其中，KH、KW分别表示卷积核的高和宽；

从而完成卷积操作。

如图8所示，为卷积示意图，采用上述卷积过程的原理，具体不赘述；本发明实施例的卷积核的高是固定的，并对应于文本向量维度，而卷积核的宽却是变化的，目的在于更好的提取文本上的时序特征。

S4、将文本总体特征、LSTM特征和CNN特征组合，之后依次通过全连接层和softmax激活函数，建立混合神经网络模型并进行权重训练，即将图片数据集的所有图片数据进行如上步骤的处理，以便输入混合神经网络模型进行权重训练，如图2所示；

S5、将待检测图片（即新样本）进行解码、切分，然后经过步骤S2、S3得到待检测图片对应的文本总体特征、LSTM特征和CNN特征，并输入权重训练之后的混合神经网络模型，依次通过全连接层和softmax激活函数输出待检测图片标记为正常图片或木马图片（即输出类别），如图9所示。

具体地，待检测图片会被分割为数组文本编码，输入到权重训练之后的混合神经网络模型中，通过判断最大softmax值是否大于阈值，来决定图片的标签：如果最大softmax值大于阈值，取对应标签作为图像标签；如果最大softmax值小于阈值，以未知图像类型作为图像标签；最终如果全为正常，则为正常图片；如果有异常，输出异常标签。

本发明实施例还提供一种木马图片检测系统，应用本发明实施例上述的木马图片检测方法。具体地，木马图片检测系统包括：

解码切分单元，用于对图片进行解码、切分，得到文本样本；具体地，图片为图像数据集中的图片或者待检测的图片；其中，图像数据集包括正常图片、Windows木马图片、linux木马图片和网页木马图片；

另外，切分的过程为：每一张图片解码后，从前往后每K个字符切分作为一个文本样本，不足K个字符部分取最后K个字符作为文本样本，并进行数据标注；其中，K取值为正整数。为了示例说明，K取值为100，但不限于100，具体取值可根据实际应用需求进行设置

具体地，具体地，通常木马文本为编程语言，可以在某种环境下运行，因此一般为较为有序的文本，本发明实施例的字符串熵f _en为：

具体地，根据文本向量提取LSTM特征，包括：

对文本向量进行Embedding(none，n，emb)编码，之后通过双向LSTM得到(none，n，m)格式的原始特征，接着依次通过全连接层、flatten层转换为(none，n)格式的特征，此时加入注意力机制，具体通过将前段输出的部分进行多步复制，将其维度扩展，即将(none，n)格式的特征进行多步复制以进行维度扩展得到为(none，m，n)格式的特征，接着进行后两维转置得到(none，n，m)格式的注意力特征，让其与双向LSTM的输出同维度，将原始特征与注意力特征相乘，之后将注意力的部分加起来，即按照倒数第二维度求和，得到加入注意力机制的LSTM特征；

双向LSTM单元的网络结构如图6所示，也可参考现有技术中双向LSTM单元的网络结构。

具体地，根据文本向量提取CNN特征，包括：

对文本向量进行Embedding(none，n，emb)编码，之后分别通过(2，emb)、(3，emb)、(4，emb)三种不同的kernel_size的CNN进行特征提取并进行合并，最后通过全连接层得到CNN特征；

其中，混合神经网络模型的训练过程，具体可参考上述方法步骤的详细描述以及如图2所示。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行如上实施例所述的木马图片检测方法，具体步骤参考上述的方法步骤，在此不赘述。

通过以上实施例的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行上述实施例或者上述实施例的某些部分所述的方法。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种木马图片检测方法，其特征在于，包括以下步骤：

S1、对图像数据集中的图片进行解码、切分；

其中，图像数据集包括正常图片和木马图片；

S5、将待检测图片进行解码、切分，然后经过步骤S2、S3得到待检测图片对应的文本总体特征、LSTM特征和CNN特征，并输入权重训练之后的混合神经网络模型，输出待检测图片标记为正常图片或木马图片；

所述步骤S1及S5中的切分，包括：

图片解码后，从前往后每K个字符切分作为一个文本样本，不足K个字符部分取最后K个字符作为文本样本，K取值为正整数；

所述步骤S2中，字符串熵f _en为：

其中，n _i为文本样本中第i个字符的数量，L为文本样本的字符串长度，p _i为第i个字符的数量占比，q为文本样本中去重之后的字符数量；

所述步骤S2中，字符串可读性f _re为：

2.根据权利要求1所述的木马图片检测方法，其特征在于，所述K取值为100。

3.根据权利要求1所述的木马图片检测方法，其特征在于，所述步骤S3中，对文本向量化得到的文本向量通过加入注意力的双向LSTM进行特征提取，包括：

4.根据权利要求1或3所述的木马图片检测方法，其特征在于，所述步骤S3中，对文本向量化得到的文本向量通过三个不同kernel_size的并行CNN进行特征提取，包括：

5.根据权利要求1所述的木马图片检测方法，其特征在于，所述木马图片包括Windows木马图片、linux木马图片和网页木马图片。

6.一种木马图片检测系统，应用如权利要求1-5任一项所述的木马图片检测方法，其特征在于，所述木马图片检测系统包括：

7.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当指令在计算机上运行时，使得计算机执行如权利要求1-5任一项所述的木马图片检测方法。