CN113704757A

CN113704757A - 一种基于特征集聚的恶意pdf文档智能检测方法及系统

Info

Publication number: CN113704757A
Application number: CN202110844065.4A
Authority: CN
Inventors: 王金双; 俞远哲; 孙蒙; 邹霞
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-26

Abstract

本发明公开了一种基于特征集聚的恶意PDF文档智能检测方法及系统，包括：获取待检测的PDF文档；解析PDF文档，从PDF文档中提取文档的内容特征和结构特征，将其合并后，以特征簇最小方差为目标进行特征集聚，得到聚合特征；将聚合特征输入到获取预先训练好的卷积神经网络模型，若输出为1，则判定为恶意文档；若输出0，则判定为良性文档。优点：降低了特征的维度，减轻了深度学习模型的训练压力，提高了系统的高效性；根据输入文档的聚合特征，利用卷积神经网络模型对文档进行检测分类或是自动训练模型的参数，提高了系统的准确性和易用性。

Description

一种基于特征集聚的恶意PDF文档智能检测方法及系统

技术领域

本发明涉及一种基于特征集聚的恶意PDF文档智能检测方法及系统，属于信息安全技技术领域。

背景技术

传统的恶意PDF文档检测方法主要基于签名识别和启发式规则匹配，优点是误报率低，但局限于对病毒库中已有的恶意样本进行检测，面对未知恶意文档反应迟缓，攻击者可以通过伪造新的恶意文档来绕过检测。

近年来，基于机器学习的恶意PDF文档检测技术被广泛使用。相比于传统签名匹配检测，它能够及时发现新型恶意文档且模型更新方便迅速。根据特征提取方式来分可以分为动态检测和静态检测。动态检测需要在虚拟环境中执行文档来获取动态特征，虽然能够深层次挖掘攻击者的意图，但是需要耗费大量的资源且效率比较低。而静态检测以其特征提取高效、成本低、泛化能力强的特点，被研究人员深入研究。同时为了更好的挖掘特征中的隐藏信息，深度学习的方法也被逐渐应用于该领域。

现有的恶意PDF文档检测方法技术的缺点包括：特征的泛化能力差，训练样本较少时，分类模型容易产生欠拟合，影响检测系统的性能；未经处理的原始特征易被攻击者进行反向模仿攻击，从而影响检测系统的检测率；特征空间维度较大，导致深度学习模型的训练效率比较低，依赖系统的配置。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于特征集聚的恶意PDF文档检测方法，提高识别结果的准确性、高效性和易用性。

为解决上述技术问题，本发明提供一种基于特征集聚的恶意PDF文档智能检测方法，包括：

获取待检测的PDF文档；

解析PDF文档，从PDF文档中提取文档的内容特征和结构特征，将其合并后，以特征簇最小方差为目标进行特征集聚，得到聚合特征；

将聚合特征输入到获取预先训练好的卷积神经网络模型，若输出为1，则判定为恶意文档；若输出0，则判定为良性文档。

进一步的，所述内容特征包括：

页数、是否被加密、是否含有JavaScript代码的标签、是否含有可自动执行动作的标签、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。

进一步的，所述结构特征包括：

含JavaScript标签的结构路径占比、结构树高、结构路径总数。

进一步的，所述将其合并后，以特征簇最小方差为目标进行特征集聚，得到聚合特征，包括：

以提取得到的内容特征和结构特征作为聚类对象，使用层次聚类中的Ward方法评估两类特征间的潜在相似度，将每一个特征看作一类簇，以两个簇合并后其离差平方和的增量作为两个簇间合并成本C，合并成本C最小的两个簇生成新的簇，迭代直到得到所需数目的特征簇，得到文档的聚合特征；

离差平方和ESS的计算公式如下：

式中，x_i表示第i个样本的特征值，n表示特征的总数；

合并成本C的计算公式如下：

C＝ESS_x∪y-ESS_x-ESS_y

式中，ESS_x∪y表示两个簇x和y合并后的离差平方和、ESS_x、ESS_y分别表示簇x和簇y的离差平方和。

进一步的，所述卷积神经网络模型的训练过程包括：

获取已确定的若干恶意PDF文档和若干良性PDF文档，将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取，将内容特征和结构特征合并后，以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚，得到聚合特征训练集，给定良性文档训练标签为0，恶意文档训练标签为1；

对1D-CNN模型的网络各层的神经元权值进行初始化，输入聚合特征训练集中的一个训练数据，经过网络各层向前传播得到输出值，与已给定的标签进行比较，计算预测误差，将误差传回1D-CNN模型中，求得各层的误差，对权值进行更新，再重新输入一个训练数据向前传播，多次迭代后得到训练好的神经网络模型。

一种基于特征集聚的恶意PDF文档检测系统，包括：

获取模块，用于获取待检测的PDF文档；

解析模块，用于解析PDF文档，从PDF文档中提取文档的内容特征和结构特征，将其合并后，以特征簇最小方差为目标进行特征集聚，得到聚合特征；

学习检测模块，用于将聚合特征输入到获取预先训练好的卷积神经网络模型，若输出为1，则判定为恶意文档；若输出0，则判定为良性文档。

进一步的，所述内容特征包括：

进一步的，所述结构特征包括：

含JavaScript标签的结构路径占比、结构树高、结构路径总数。

进一步的，所述解析模块包括：

特征提取模块，用于从PDF文档中提取文档的内容特征和结构特征；

特征集聚模块，用于以提取得到的内容特征和结构特征作为聚类对象，使用层次聚类中的Ward方法评估两类特征间的潜在相似度，将每一个特征看作一类簇，以两个簇合并后其离差平方和的增量作为两个簇间合并成本C，合并成本C最小的两个簇生成新的簇，迭代直到得到所需数目的特征簇，得到文档的聚合特征；

离差平方和ESS的计算公式如下：

式中，x_i表示第i个样本的特征值，n表示特征的总数；

合并成本C的计算公式如下：

C＝ESS_x∪y-ESS_x-ESS_y

进一步的，所述学习检测模块包括训练模块，用于

本发明所达到的有益效果：

相对于现有技术，本发明降低了特征的维度，减轻了深度学习模型的训练压力，提高了系统的高效性；根据输入文档的聚合特征，利用卷积神经网络模型对文档进行检测分类或是自动训练模型的参数，提高了系统的准确性和易用性。

附图说明

图1为本发明工作流程图；

图2为本发明系统结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种基于特征集聚的恶意PDF文档检测方法，包括：

输入一个文档，对其进行解析，提取它的内容特征和结构特征；将两大类特征合并后，以特征簇最小方差为目标，使用Ward最小方差聚类方法实现特征集聚，得到相应簇数的聚合特征；将聚合特征送入1D-CNN模型训练或是检测分类。

所述内容特征是指基于对PDF文档的内容解析，提取的14个具有安全相关性的的统计类特征，包括页数、是否被加密、是否含有标签Js、是否含有标签JavaScript、是否含有标签AA、是否含有标签OpenAction、是否含有标签AcroFrom、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。

所述结构特征是指基于对PDF文档的结构解析，主要与文档的结构路径有关的特征，包括含JavaScript标签的结构路径占比、结构树高、结构路径总数。

所述聚合特征的生成过程为：

使用层次聚类中的Ward方法，将每一个特征看作一类簇，以两个簇x和y合并后其离差平方和(ESS，

)的增量作为两个簇间合并成本C(C＝ESS_x∪y-ESS_x-ESS_y)，选择合并成本C最小的两个簇生成新的簇，迭代直到得到所需数目的聚合特征。

所述模型训练的过程为：

根据输入的聚合特征，利用1D-CNN模型自动地更新1D-CNN模型参数。

所述模型分类检测的过程为：

将聚合特征以向量的形式输入1D-CNN模型在经过卷积层、池化层、dropout层、全连接层后得到输出，若输出为1，则判定为恶意文档；若输出0，则判定为良性文档。

如图2所示，本实施例涉及种基于特征集聚的恶意PDF文档检测系统，包括：

获取模块，用于获取待检测的PDF文档；

所述内容特征包括14个具有安全相关性的的统计类特征，包括：页数、是否被加密、是否含有标签Js、是否含有标签JavaScript、是否含有标签AA、是否含有标签OpenAction、是否含有标签AcroFrom、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。

所述结构特征包括：

含JavaScript标签的结构路径占比、结构树高、结构路径总数。

所述解析模块包括：

离差平方和ESS的计算公式如下：

式中，x_i表示第i个样本的特征值，n表示特征的总数；

合并成本C的计算公式如下：

C＝ESS_x∪y-ESS_x-ESS_y

所述学习检测模块包括训练模块，用于

如图1所示，本实施例包括以下详细操作步骤：

步骤1)特征提取，文档解析单元对PDF文档进行解析，然后利用结构特征提取单元和内容特征提取单元提取得到文档的结构特征和内容特征

步骤2)特征聚合，合并单元将提取得到的结构和内容特征合并在一起，然后交给迭代聚合单元，依据Ward方法，选择合并成本C最小的两个簇生成新的簇，迭代直到得到所需数目的聚合特征。

步骤3)学习检测，当模式选择单元根据需求输入’train’时，模型学习单元根据迭代聚合单元生成的聚合特征，利用1D-CNN深度学习模型进行训练，并对模型的参数进行更新；当模式选择单元根据需求输入’valid’时，文档检测单元将聚合特征输入1D-CNN模型后得到输出，若输出为1，则判定为恶意文档；若输出0，则判定为良性文档。

使用例一：

用户输入文档test.pdf

进行文档内容特征提取得到content_ft.npy的内容特征文件，进行文档结构提取得到structure_ft.npy的结构特征文件。

进行特征聚合将两个特征文件合并得到聚合特征feature.py

选择训练模式时，输入’train’，导入聚合特征，模型进行学习并更新参数

使用例二:

用户输入文档test.pdf

进行特征聚合将两个特征文件合并得到聚合特征feature.py

选择测试模式时，输入’valid’，导入聚合特征，模型进行检测，输出结果为1，检测为恶意文档。

使用例三:

用户输入文档test.pdf

进行特征聚合将两个特征文件合并得到聚合特征feature.py

选择测试模式时，输入’valid’，导入聚合特征，模型进行检测，输出结果为0，检测为良性文档。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于特征集聚的恶意PDF文档智能检测方法，其特征在于，包括：

获取待检测的PDF文档；

2.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法，其特征在于，所述内容特征包括：

3.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法，其特征在于，所述结构特征包括：

含JavaScript标签的结构路径占比、结构树高、结构路径总数。

4.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法，其特征在于，所述将其合并后，以特征簇最小方差为目标进行特征集聚，得到聚合特征，包括：

离差平方和ESS的计算公式如下：

式中，x_i表示第i个样本的特征值，n表示特征的总数；

合并成本C的计算公式如下：

5.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法，其特征在于，所述卷积神经网络模型的训练过程包括：

6.一种基于特征集聚的恶意PDF文档检测系统，其特征在于，包括：

获取模块，用于获取待检测的PDF文档；

7.根据权利要求6所述的基于特征集聚的恶意PDF文档智能检测系统，其特征在于，所述内容特征包括：

8.根据权利要求6所述的基于特征集聚的恶意PDF文档智能检测系统，其特征在于，所述结构特征包括：

含JavaScript标签的结构路径占比、结构树高、结构路径总数。

9.根据权利要求6所述的基于特征集聚的恶意PDF文档智能检测系统，其特征在于，所述解析模块包括：

离差平方和ESS的计算公式如下：

式中，x_i表示第i个样本的特征值，n表示特征的总数；

合并成本C的计算公式如下：

C＝ESS_x∪y-ESS_x-ESS_y

10.根据权利要求6所述的基于特征集聚的恶意PDF文档智能检测系统，其特征在于，所述学习检测模块包括训练模块，用于