CN112231645A

CN112231645A - 一种基于主动学习的恶意pdf文档检测方法

Info

Publication number: CN112231645A
Application number: CN202011241038.XA
Authority: CN
Inventors: 李元章; 王鑫鑫; 庞琳; 薛源; 马煜杰; 王亚潇; 谭毓安; 张全新
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-01-15

Abstract

本发明涉及一种基于主动学习的恶意PDF文档检测方法，用于检测PDF文件中的恶意文档，属于数据存储安全技术领域。本方法将机器学习方法与恶意PDF文档检测相结合，通过提取PDF文档的结构特征，并运用结构多重映射和结构路径合并方式处理特征，在减少隐蔽攻击的同时还在一定时间内限制了特征漂移。利用全连接深度模型学习恶意PDF文档特征分布，对于识别结果不确定的情况，本发明采用主动学习方法以提升模型性能，并采用共同协议分析的方法选择小部分信息量丰富的样本添加进训练集进行下一轮训练，在不增加太多样本的前提下显著提升模型性能，经训练完毕后的识别器，能够可靠、有效的识别恶意PDF文档。

Description

一种基于主动学习的恶意PDF文档检测方法

技术领域

本发明涉及一种基于主动学习的恶意PDF文档检测方法，用于检测PDF文件中的恶意文档，属于数据存储安全技术领域。

背景技术

PDF(Portable Document Format)，便携式文档格式，是一种支持呈现和打印一致的文档格式，独立于底层环境。

PDF文件包括四个组成部分：文件头、文件体、交叉引用表和文档尾，如图1所示，各个组成部分的含义如下：

·文件头：存储PDF文件的版本号。

·文件体：PDF文件的主要部分，由多个对象组成，这些对象定义文件所要执行的操作。

·交叉引用表：间接对象的地址索引表，通过查询这个表可以对间接对象进行随机存取。

·文档尾：存储交叉引用表的地址，并说明文件体根对象的对象号。

阅读器对PDF文件的解析步骤如下：首先，阅读器解析文件尾获取PDF结构中的根对象。然后，将交叉引用表中包含的信息与在每个对象中找到的引用编号相结合，遍历和呈现PDF文件体中的每个对象。

PDF文件中存在9种基本对象类型，其中，较为简单的对象类型包括Boolean、Numeric、String和Null。PDF字符串的长度有所限制，并且由一对圆括号包围(“(”和“)”)。Name类型在PDF文件结构的描述中被用作标识符，由字符“/”引入，可以包含除“null”以外的任意字符。前面所述的五种类型也被统称为原始类型。Array是PDF对象中的一维有序集合，由一对中括号包围(“[”和“]”)。它可以包含不同类型的PDF对象，包括嵌套的数组类型。Dictionary是一个无序的键值对集合，由一对双尖括号包围(“<<”和“>>”)。键必须为名称对象，而且在字典中是唯一的。值可以为任意一种PDF对象类型，包括嵌套的字典类型。Stream是一个PDF字典，后面跟着的是字节序列。字节表示可能被压缩或者加密的信息，被关联的字典包含是否以及如何解码这些字节的信息。这些字节通常包含被呈现出来的内容，但也可能包含一系列其它对象。最后，Indirect对象是前面定义的提供了唯一对象标识符的任意一种对象，由一组关键字包围(“obj”和“endobj”)。正是由于这些唯一标识符，间接对象才能通过间接引用方式从其他对象引用。图2给出了一个PDF文件原始内容的示例。

基本对象之间的各种关系组成了PDF文件的逻辑树状文档结构。文档结构的各个节点是对象本身，每条边是子对象在父对象中的名称。对于数组类型，父子节点之间是没有名称的，但是每个子节点与数组中的索引有对应关系。需要注意的是，严格意义上，文档结构并不是树，而是有向有根循环图，因为间接引用可能会指向文档结构中任何一个对象。而这个图可以用广度优先遍历方法简化为一棵树，即结构树。图3所展示的即为图2的PDF文件对应的结构树。

在网络安全领域，恶意代码一直都是一个重大威胁，PDF作为一种广泛使用的文档格式也常常被用作传递恶意行为的载体。PDF文件格式以其高效性、稳定性和交互性广泛用于商业办公。随着非可执行文档攻击技术和APT(Advanced Persistent Threat，高级持续威胁)等攻击手段不断发展，PDF的安全也受到了严重的威胁，目前，利用恶意PDF文档执行的大多数攻击，都是以使用脚本代码来执行恶意代码的方式进行的。恶意代码主要由以下三种类型：

1.基于JavaScript的恶意代码

这些漏洞通过仅仅使用JavaScript代码被利用，是PDF文档漏洞利用最常见的方式。Adobe引入了特定的API调用，这些调用只在PDF文档中使用，并且可以利用它们在机器上执行未经授权的代码。关于文档结构，JavaScript的出现通常是通过名称对象/JavaScript或/JS来引入的。特别是在恶意软件中，攻击者往往多次引用包含此类关键字的对象。攻击代码可以分散在文档的多个对象中，也可以包含在一个对象中。通过JavaScript语言可以利用多种漏洞，一些典型漏洞如下。

·基于API的溢出：这种漏洞类型通常会对属于PDF解析库的特定API调用使用错误的参数解析，从而允许攻击者执行缓冲区溢出或基于面向返回的编程的攻击来完成这种漏洞利用。

·释放后使用(UAF)：此漏洞类型基于访问先前已释放(未重新初始化)的内存区域，这种行为通常会使程序崩溃。

·畸形数据：这种漏洞类型是由运行时被解压的压缩畸形数据触发的，这些数据通常存储在流中。

2.基于ActionScript的恶意代码

由于PDF文档可以通过对Adobe Flash技术支持的Reader来可视化Flash内容，因此利用Adobe Reader的一种方法是通过嵌入恶意的ShockWave Flash(SWF)文档和ActionScript代码来触发Flash组件的漏洞。通常情况下，这些代码是与JavaScript结合使用的，执行ActionScript时触发漏洞，然后执行JavaScript代码进行漏洞利用。通过使用ActionScript语言可以利用多种漏洞类型，以下为一些典型漏洞。

·内存损坏：当内存中的特定指针值以指向攻击者控制的其他内存区域的方式损坏时，就会出现此漏洞，这是利用Flash组件最常用的方法。

·字节码验证：这个漏洞允许攻击者在未初始化的内存区域执行代码。

·损坏的文档加载：这个漏洞是在解析特定的、损坏的视频信号时触发的。

3.文档嵌入的恶意代码

这种漏洞利用技术依赖于外部文档类型，如.bmp、.tiff和.exe。当PDF文档阅读器的特定库试图解析此类文档时，就会触发这种漏洞利用，它也可以嵌入其他PDF文档，然而，这不是一种漏洞利用技术，而是一种隐藏其他攻击的方法。而现有的启发式检测方法等，很容易被攻击者规避。

发明内容

本发明的目的是为了解决如何有效检测恶意PDF文档的技术问题，提出一种基于主动学习的恶意PDF文档检测方法。

本发明方法的创新点在于：首次将机器学习方法与恶意PDF文档检测相结合，通过提取PDF文档的结构特征，并运用结构多重映射和结构路径合并方式处理特征，在减少隐蔽攻击的同时还在一定时间内限制了特征漂移。随后，利用全连接深度模型学习恶意PDF文档特征分布。对于识别结果不确定的情况，本发明采用主动学习方法以提升模型性能，并采用共同协议分析的方法选择小部分信息量丰富的样本添加进训练集进行下一轮训练，在不增加太多样本的前提下显著提升模型性能，经训练完毕后的识别器，能够可靠、有效的识别恶意PDF文档。

本发明是通过以下技术方案实现的：

步骤1：提取PDF文档的结构特征，运用结构多重映射和结构路径合并方式处理特征。

步骤2：使用处理后的结构特征，构建全连接深度模型，得到分类器。

步骤3：使用经训练得到的分类器，检测恶意PDF文档。

有益效果

本发明方法，采用主动学习方法以提升模型性能，并采用共同协议分析的方法选择小部分信息量丰富的样本添加进训练集进行下一轮训练，在不增加太多样本的前提下显著提升模型性能，经训练完毕后的识别器即可可靠地识别恶意PDF文档，在拥有较好检测效果的同时具有较高的处理效率。

附图说明

图1为PDF文档结构；

图2为PDF文档原始内容；

图3为PDF文档结构树；

图4为结构多重映射；

图5为结构路径合并规则；

图6为主动学习模型；

图7为共同协议分析；

图8为特征提取器实现；

图9为特征提取器输出文档；

图10为激活函数图像；

图11为基于主动学习的深度模型性能评估。

具体实施方式

下面结合附图和实施例对本发明方法进行进一步详细说明。

一种基于主动学习的恶意PDF文档检测方法，包括以下步骤：

步骤1.1：对PDF文档进行基于文档结构的静态预处理，得到文档的逻辑结构表示形式。

因PDF文档格式复杂，在处理之前要先对其进行预处理，以得到文档的逻辑结构表示形式，便于后续处理。具体地：

将PDF文档结构树提取成“结构路径-终端结点”的键值对形式。

对于结构路径中包含数组对象的情况，由于一个路径可能会访问到多个终端结点，本方法使用结构多重映射方式，即，一个键对应多个值的方式来处理，键值对即为PDF文档的特征。图4中给出了将图3中文档结构树利用结构多重映射方式转换成键值对的形式。

步骤1.2：采用启发式方式合并结构路径，将多态路径转换为一致表达。

PDF文档格式的语法丰富性和灵活性，使得相同语义有着不同的逻辑结构，这种语法多样性可能会影响检测准确率，也会为对抗攻击提供可能性。为了解决这个问题，采用启发式方式来合并结构路径，将多态路径转换为某种一致表达。

具体地，结构路径合并，通过基于关键路径组件的替换使用正则表达式实现，重复的子路径将会从路径中完全移除。

例如，/Pages/Kids/Resources和/Pages/Kids/Kids/Resources有共同重复子路径，两者都访问具有相同目的的PDF字典来为PDF页面呈现所需的资源提供名称，具有相同语义，结构路径合并可以将上述两个路径合并为/Pages/Resources，将重复子路径/kids移除。运用此方法合并结构路径，可以在减少隐蔽攻击的同时还在一定时间内限制了特征漂移。图5列出了结构路径合并所使用的规则。

步骤1.3：从上述特征中选取出现频率高的特征，作为后续处理中实际使用的特征。

所述出现频率高的特征，是指统计各个结构路径在所有样本中出现的次数后，选取出现次数较多的结构路径作为特征。比如，出现次数不少于300次。

选取一部分特征而不是全部，可以降低输入空间的维度，减少分析时间。同时，还可以剔除一些出现频率很低的路径，对分类准确率有有利影响。

步骤2：构建全连接深度模型。包括以下步骤：

步骤2.1：将步骤1得到的结构路径进行向量化，作为机器学习算法的输入。

具体地，将每个结构路径映射到一个单独的值上。对具有多个值的路径(例如包含字典的路径)，可以取多重映射中所有值的中间值作为最终映射的值。

特殊地，对于多个值为布尔类型的情况，采用取平均值的方式来获取更多有用信息。

通过上述转换获得特征向量

其中d为特征向量的维度，即设立路径出现阈值后所选取的结构路径数目。由于特征选择在提取样本特征之前就已经完成，因此，所选取的结构路径数目是固定的。相应地，所有样本的特征向量维度也是固定的，使得运用机器学习算法进行分类成为可能。

步骤2.2：使用上述特征向量，即向量化后的PDF文档的结构路径，对全连接深度进行训练，得到分类器。

本发明中使用全连接网络，利用主动学习方法，把特征向量输入分类器进行文档分类。若分类器能够准确分类其为良性或者恶意，则不用对该样本进行额外处理。若分类器不能确定判断结果，则需要获取样本的真实标签，并存入训练集进行重新训练，以提高分类器的性能。

如图6所示，本发明使用的主动学习模型。针对如何选择不确定文档，本发明采用共同协议分析方法，依赖于集成分类器的多样性来产生分类器置信度估计，用于在不添加额外真值的情况下检测多种形式的分类器规避。

虽然本发明中的深度学习并不是集成分类器，但是每个样本在神经网络的最后一层都经过了一个sigmoid函数处理，将输出结果控制在0和1之间，这与集成分类器的投票结果类似。共同协议分析的示例如图7所示。在每一轮训练之后根据共同协议分析，只选取若干信息量丰富的测试集样本(即，使用测试集中少量的不确定样本增广训练集就能达到使用所有测试样本增广训练集所达到的性能，说明这些不确定样本包含了提升检测器性能的丰富信息)作为原始训练集的增广，进行下一轮训练，从而在不增加过多样本的前提下显著提升模型性能，其中，选取的测试集样本数量不超过20。

步骤3：使用经训练得到的分类器，检测恶意PDF文档。

实施例

本实施例使用从Contagio数据仓库下载的一些良性样本和恶意样本作为原始数据集(包括良性样本9000个和恶意样本9000个)对模型进行训练，并在训练完毕后对性能进行评估。具体操作如下：

首先，对PDF文档进行特征提取。

特征提取使用的是poppler工具，提取器的实现主要包括如图8所示的cpp文档。实施过程中的特征提取首先将80％的样本作为训练集，20％样本作为测试集，使用提取器分别提取每个输入PDF文档的特征，并统计各个特征的出现次数；然后将训练集中出现次数大于300次的结构路径作为特征，即出现阈值设为300，分别提取了pdf(特征为带路径压缩的数值特征)、pdf-bin(特征为带路径压缩的二进制特征)以及SL2013(特征为不带路径压缩的二进制特征)三种特征，并以libsvm格式存储在输出文档中。图9中展示了这些输出文档。

然后，构建全连接深度模型。

本实施例以Hidost模型为基础，实现了一个经典的全连接深度模型进行恶意PDF的检测。使用线性整流单元Relu作为隐藏层的激活函数，当x大于0的时候不具有软饱和性，保持梯度不衰减，解决了梯度消失问题；使用Sigmoid函数作为输出层的激活函数，使得输出结果范围处于0和1之间，当输出小于0.5时，检测结果为良性，大于等于0.5时，检测结果为恶意。图10分别为Relu函数(左)和Sigmoid函数(右)的几何图像。

之后，训练全连接深度模型，得到模型分类器。

本实施例中对模型的训练为一个阶段重训练的过程，随机选取一小部分样本作为原始训练集，实验中为354个样本，包括176个恶意样本和178个良性样本，进行十个周期的评估，每个周期使用1400个左右的样本作为测试集。本实施例中没有将评估后的所有测试集样本都添加到下一周期作为训练集样本使用，而是将主动学习运用到重训练过程，只选取少部分测试集样本作为原始训练集的增广。在选取少量测试集样本的过程中使用共同协议分析，将控制不确定样本区域的阈值设为50％，即评估得分在0.25和0.75之间的样本定义为不确定样本。当模型性能较差时，不确定样本的数目可能会很大，甚至接近测试集样本数目，倘若全都作为训练集增广，则失去了主动学习的意义，于是实验中设置增广到原始训练集的样本数量不能超过20以限制模型重训练的时间。

最后，使用经训练得到的模型分类器，检测恶意PDF文档。

通过以上设置，十个周期的性能如图11所示。可以发现，模型的AUROC、准确率、TPR都呈现上升趋势，而FPR呈现下降趋势，而且，在第十个周期的评估中，AUROC、准确率以及TPR都十分接近1，而FPR十分接近0。查看第十个周期的训练集，样本数目为517个，相较于原始训练集的354个样本，仅仅增加了163个样本，而性能却有了显著提升。

Claims

1.一种基于主动学习的恶意PDF文档检测方法，其特征在于，包括以下步骤：

步骤1：提取PDF文档的结构特征，运用结构多重映射和结构路径合并方式处理特征；

步骤2：使用处理后的结构特征，构建全连接深度模型，得到分类器，包括以下步骤：

步骤2.1：将步骤1得到的结构路径进行向量化，作为机器学习算法的输入；

将每个结构路径映射到一个单独的值上；对具有多个值的路径，取多重映射中所有值的中间值作为最终映射的值；对于多个值为布尔类型的情况，采用取平均值的方式获取信息；

使用全连接网络，利用主动学习方法，把特征向量输入分类器进行文档分类；若分类器能够准确分类其为良性或者恶意，则不用对该样本进行额外处理；若分类器不能确定判断结果，则需要获取样本的真实标签，并存入训练集进行重新训练；

针对如何选择不确定文档，采用共同协议分析方法，依赖于集成分类器的多样性来产生分类器置信度估计，用于在不添加额外真值的情况下检测多种形式的分类器规避；

共同协议分析，在每一轮训练之后根据共同协议分析，只选取若干信息量丰富的测试集样本作为原始训练集的增广进行下一轮训练，其中，选取的测试集样本数量不超过20；

步骤3：使用经训练得到的分类器，检测恶意PDF文档。

2.如权利要求1所述的一种基于主动学习的恶意PDF文档检测方法，其特征在于，步骤1包括以下步骤：

步骤1.1：对PDF文档进行基于文档结构的静态预处理，得到文档的逻辑结构表示形式；

其中，将PDF文档结构树提取成“结构路径-终端结点”的键值对形式；

对于结构路径中包含数组对象的情况，使用结构多重映射方式，即，一个键对应多个值的方式来处理，键值对即为PDF文档的特征；

步骤1.2：采用启发式方式合并结构路径，将多态路径转换为一致表达；

结构路径合并，通过基于关键路径组件的替换使用正则表达式实现，重复的子路径将会从路径中完全移除；

步骤1.3：从上述特征中选取出现频率高的特征，作为后续处理中实际使用的特征；

所述出现频率高的特征，是指统计各个结构路径在所有样本中出现的次数后，选取出现次数较多的结构路径作为特征。

3.如权利要求2所述的一种基于主动学习的恶意PDF文档检测方法，其特征在于，结构路径出现次数不少于300次。