CN115080969B

CN115080969B - 一种基于三通道马尔可夫图的恶意文档检测方法

Info

Publication number: CN115080969B
Application number: CN202210668188.1A
Authority: CN
Inventors: 徐洋; 黄昆; 张思聪; 李小剑; 杨春雨; 谢晓尧
Original assignee: Guizhou Education University
Current assignee: Guizhou Education University
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2023-03-10
Anticipated expiration: 2042-06-14
Also published as: CN115080969A

Abstract

本发明公开了一种基于三通道马尔可夫图的恶意文档检测方法，包括以下步骤：(1)统计文档的字节值出现次数；(2)计算字节值的转移概率；(3)计算三种字节值之间的转移矩阵；(4)将三个转移矩阵转化为三个单通道马尔可夫图；(5)将三个单通道马尔可夫图合成一个三通道马尔可夫彩色图；(6)使用结合迁移学习的EfficientNet‑B0模型对三通道马尔可夫彩色图进行训练和测试，最后进行预测分类。本发明通过马尔可夫模型将恶意文档转化为三通道的彩色图，能可视化出恶意文档和良性文档的视觉差异性，以便于深度学习模型分类，且三通道彩色图包含更多的特征信息，具有良好的检测准确率和效率，适用于大规模的恶意文档检测。

Description

一种基于三通道马尔可夫图的恶意文档检测方法

技术领域

本发明属于网络空间安全中的系统安全领域，具体涉及一种基于三通道图像的恶意文档检测方法。

背景技术

近年来，针对政府机构和商业组织的高级可持续威胁(advanced persistenttreat,APT)时有发生，严重危害了国家的关键信息基础设施和泄露政府企业的敏感信息。相对于可执行文件，人们对恶意文档的防范意识要低很多，因此恶意文档常被作为实施APT攻击的主要载体。

2016年，PaloAlto研究中心的安全研究所发现了针对苹果系统的钓鱼邮件攻击，其攻击方法是在邮件附件中添加带有木马的恶意PDF文档。2017年，Hades组织利用鱼叉邮件投递内嵌恶意宏的Word文档，导致了韩国平昌冬奥会的网站宕机。2018年OceanLotus组织，利用水坑攻击和鱼叉邮件方式，投递内嵌恶意宏的Word文档，对我国和东南亚其他国家进行了全年频繁的针对攻击。赛门铁克的《2016年互联网安全威胁报告》的研究表明，PDF文档和Word文档已经成为2016年特定目标攻击中钓鱼邮件附件最多的文档格式，分别占比为60.1％和38.7％。赛门铁克的《2019年互联网安全威胁报告》的研究表明，2018年中，恶意电子邮件附件中有48％使用Office文件作为附件。

恶意文档的检测已经成为热门领域，许多新的研究思路和研究方法不断被提出。传统静态检测方法大多需要逆向工程，严重影响了恶意代码识别的效率，而动态检测方法则资源消耗大、检测成本高，不利于大规模的恶意代码检测。基于机器学习和深度学习的恶意文档检测能够及时检测新型恶意文档并且快速更新检测模型，但机器学习方法存在人工提取特征繁琐、特征鲁棒性差导致检测准确率低的问题。而在恶意软件可视化的研究领域，恶意软件的原始大小存在差异，直接将二进制文件转化为灰度图的方法会导致图像大小不一致，而对图像的缩放或裁断会导致部分信息丢失，从而影响方法的检测效率和准确率。且针对恶意文档检测，可视化方法尚未有很好的应用，迫切需要新的有效检测方法。

发明内容

本发明的目的在于提供一种基于三通道马尔可夫图的恶意文档检测方法，通过马尔可夫模型，将文档转换为三通道的彩色图，使用轻量级卷积神经网络EfficientNet-B0，结合迁移学习领域中的微调技术，将ImageNet上的分类权重应用到EfficientNet-B0，实现了对恶意文档的检测。

本发明的技术方案是：

一种基于三通道马尔可夫图的恶意文档检测方法，通过马尔可夫模型，将恶意文档转化为三种单通道马尔可夫图，再将三种单通道图合成三通道马尔可夫彩色图，使用结合迁移学习的EfficientNet-B0模型对马夫彩色图进行训练和测试，包括如下步骤：

步骤1、统计文档的字节值出现次数；

步骤2、计算字节值的转移概率；

步骤3、计算三种字节值之间的转移矩阵；

步骤4、将三个转移矩阵转化为三个单通道马尔可夫图；

步骤5、将三个单通道马尔可夫图合成一个三通道马尔可夫彩色图；

步骤6、使用结合迁移学习的EfficientNet-B0模型对三通道马尔可夫彩色图进行训练和测试。

具体地：步骤1、读取文档的字节流，将其视作一个随机过程，每个字节值作为一种特定的状态，即字节B_i∈{0，1，.，N}，其中，N表示恶意软件字节值；遍历文档的所有字节的取值，统计每种取值出现的次数；

步骤2、若用P_i,j表示字节B_i后续第一个字节为B_j的转移概率，计算各个状态之间相互转移概率，具体计算公式如下：

其中，frequency(i，j)表示字节B_i后续第一个字节为B_j的次数；同时，改进上述公式，若frequency(i，j)表示字节B_i后续第二个字节为B_j的次数，可计算出字节B_i后续第二个字节为B_j的转移概率，设为M_i,j，同理，可计算出字节B_i后续第三个字节为B_j的转移概率，设为N_i,j；

步骤3、通过各个状态间的转移概率，计算出M₁、M₂、M₃三个状态转移矩阵，即：

步骤4、每一个矩阵中的值对应一张图像的像素点值，将三个转移矩阵转化为三个单通道马尔可夫图；单通道马尔可夫图生成算法的伪代码如下：

步骤5、将三个单通道马尔可夫图分别填充R、G、B三个通道，合成一个三通道马尔可夫彩色图；

步骤6、对EfficientNet-B0模型进行适当的改进，将其全连接层的输出改为2，以适用恶意文档的二分类检测；在模型的训练前，加载ImageNet权重，并删除全连接层权重，再进行训练及测试；

本发明具有以下特点：

1、本发明检测恶意文档，无需动态分析，也不用逆向分析，仅依赖文档的二进制字节序列，计算效率高，适用于大规模恶意文档检测。

2、相较于传统的灰度图方法，本发明生成的图像均是统一尺寸的图片，不受原始文件大小的影响，降低了对非统一尺寸的图片的裁剪或缩放带来的信息损失。

3、相较于单通道马尔可夫图，本发明生成三通道马尔可夫图理论上包含其所有特征信息，具备更多的深层特征信息，能提高检测方法的鲁棒性和准确率。

4、本发明使用轻量级卷积神经网络EfficientNet-B0模型，并结合迁移学习，加快检测模型的收敛速度，缩短模型的训练时间。

附图说明

图1是本发明检测流程图；

图2是EfficientNet-B0结构图；

图3是MBConv的结构图；

图4是文档转三通道马尔可夫图流程图；

图5是本发明在PDF数据集上准确率变化曲线；

图6是本发明在DOCX数据集上准确率变化曲线。

具体实施方式

下面通过附图和实施例对本发明作进一步描述。

参见图1-4，一种基于三通道马尔可夫图的恶意文档检测方法，通过马尔可夫模型，将恶意文档转化为三通道的彩色图，使用来源于contagio的公共PDF数据集、自收集的DOCX数据集进行实验验证，将加载了ImageNet权重的EfficientNetB0模型应用于马尔可夫三通道图的训练和测试，包括以下步骤：

步骤1、统计文档的字节值出现次数；

步骤2、计算字节值的转移概率；

步骤3、计算三种字节值之间的转移矩阵；

步骤4、将三个转移矩阵转化为三个单通道马尔可夫图；

上述的一种基于三通道马尔可夫图的恶意文档检测方法，具体包括：

步骤1、读取文档的字节流，将其视作一个随机过程，每个字节值作为一种特定的状态，即字节B_i∈{0，1，.，N}，其中，N表示恶意软件字节值；遍历文档的所有字节的取值，统计每种取值出现的次数；

步骤6、对EfficientNet-B0模型进行适当的改进，将其全连接层的输出改为2，以适用恶意文档的二分类检测。在模型的训练前，加载ImageNet权重，并删除全连接层权重，再进行训练及测试。

本发明针对恶意文档检测领域的特点，将EfficientNet-B0模型的全连接层的输出改为2，以适用恶意文档的二分类检测。为了比较模型对相同尺寸图像分类的效果，将输入图片的分辨率固定为224×224×3，主要包含三个模块，第一个模块是一个卷积核大小为3x3步长为2的卷积层(包含BN层和激活函数Swish)，核心模块是重复堆叠的MBConv(MobileInverted Bottleneck Conv)，MBConv后面的数字1或6代表每个模块对输入特征矩阵的通道扩张倍数，3x3或5x5代表Depthwise Conv的卷积核大小，经过一系列的卷积操作，输出1280维的特征，最后经过Softmax分类器输出图像所属的类别。

表1为灰度图、单通道马尔可夫图、三通道马尔可夫彩色图的实验结果，在PDF数据集和DOCX数据集上综合性能最好的组合均是彩色图+EfficientNetB0+迁移学习。其中，在PDF数据集上，该组合的准确率为99.80％，比单通道图和灰度图的准确率分别高1.49％、3.27％，在DOCX数据集上，该组合的准确率为98.14％，比单通道图和灰度图的准确率分别高1.74％、5.57％，并且F1-score和AUC分别有不同程度的提升。图5和图6分别为彩色图+EfficientNetB0在PDF数据集和DOCX数据集上准确率与Epoch次数的关系。在PDF数据集上，采用随机初始化权重，EfficientNet-B0在第50个Epoch时逐渐收敛，准确率稳定在99.1％左右，而使用迁移学习，EfficientNet-B0在第30个Epoch时就开始收敛，准确率稳定在99.8％左右。在DOCX数据集上，采用随机初始化权重，EfficientNet-B0在第90个Epoch时逐渐收敛，准确率稳定在96.8％左右。而使用迁移学习，EfficientNet-B0在第60个Epoch时就开始收敛，准确率稳定在98.1％左右。由于DOCX数据集样本较少，对模型收敛速度和检测准确率有一定影响，但从实验结果可知，使用迁移学习可以加快模型的收敛速度和提升检测准确率。

表1

本发明提出了一种新的基于三通道马尔可夫图的恶意文档检测方法，改进了单通道马尔可夫图，在检测效果上，优于灰度图和单通道马尔可夫图，并使用了结合迁移学习的轻量级卷积神经网络Efficientnet-B0进行训练和测试。实验证明，在两个数据集上，模型的收敛速度快于随机初始化权重的预训练，且模型对恶意PDF文档和恶意DOCX文档的检测准确率分别达到了99.80％和98.14％。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，任何未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于三通道马尔可夫图的恶意文档检测方法，其特征在于：将恶意文档转化为三种单通道马尔可夫图，再将三种单通道图合成三通道马尔可夫彩色图，使用结合迁移学习的EfficientNet-B0模型对马夫彩色图进行训练和测试；包括以下步骤：

步骤1、统计文档的字节值出现次数；

步骤2、计算字节值的转移概率；

步骤3、计算三种字节值之间的转移矩阵；

步骤4、将三个转移矩阵转化为三个单通道马尔可夫图；

步骤6、使用结合迁移学习的EfficientNet-B0模型对三通道马尔可夫彩色图进行训练和测试；

更具体的步骤为：

步骤1、读取文档的字节流，将其视作一个随机过程，每个字节值作为一种特定的状态，即字节B_i∈{0，1，.，N}，其中，N表示恶意文档字节值；遍历文档的所有字节的取值，统计每种取值出现的次数；

其中，frequency(i，j)表示字节B_i后续第一个字节为B_j的出现次数；同时，改进上述公式，若frequency(i，j)表示字节B_i后续第二个字节为B _j的出现次数，可计算出字节B_i后续第二个字节为B_j的转移概率，设为M_i,j，同理，可计算出字节B_i后续第三字节为B _j的转移概率，设为N_i,j；

步骤3、通过各个状态间的转移概率，计算出M₁、M ₂、M ₃三个状态转移矩阵，即：

步骤4、每一个矩阵中的值对应一张图像的像素点值，将三个转移矩阵转化为三个单通道马尔可夫图；

所述步骤6最后进行预测分类。