CN108875374A

CN108875374A - 基于文档节点类型的恶意pdf检测方法及装置

Info

Publication number: CN108875374A
Application number: CN201810333712.3A
Authority: CN
Inventors: 喻民; 刘超; 刘云政; 李敏; 姜建国; 黄伟庆
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-11-23
Anticipated expiration: 2038-04-13
Also published as: CN108875374B

Abstract

本发明实施例公开一种基于文档节点类型的恶意PDF检测方法及装置，能有效的提高检测的准确率，加强对模拟攻击的检测能力。方法包括：S1、以节点为单位对待检测的PDF文档进行划分，并对所述待检测的PDF文档的节点进行类型划分，以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达；S2、将所述向量化表达的结果输入预先构建的检测模型，得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。

Description

基于文档节点类型的恶意PDF检测方法及装置

技术领域

本发明实施例涉及计算机领域，具体涉及一种基于文档节点类型的恶意PDF检测方法及装置。

背景技术

恶意PDF(Portable Document Format，便携式文档格式)文档为在正常的文档中写入恶意代码，利用文档解析程序的漏洞使恶意代码执行的文档。为实现丰富的文档展示效果并支持多种功能，PDF文档中支持嵌入JavaScript脚本代码，允许执行系统调用，这就使得恶意文档能够实现攻击行为。

目前针对恶意文档的检测主要分为静态检测，动态监测和动静结合的检测方法，其中，静态检测具体体现为以下几种具体的检测思路：

一.提取文档中的shellcode代码，利用已有的shellcode代码特征库进行匹配；

二.提取文档中嵌入的JavaScript脚本代码，对JavaScript脚本代码中的系统调用函数和恶意的字符串等进行检测；

三.目前一种比较流行的文档检测方法是：提取文档中的结构特征和(或)元数据特征，利用机器学习方法训练出检测模型，利用训练出的模型进行检测。

目前的静态检测方法，虽然在时间和成本损耗上较小，对已知攻击方式的检测准确率较高，但是难以应对未知攻击的检测。主要原因在于：早先针对shellcode和JavaScript代码的检测方法，在遇到新型shellcode或对JavaScript进行混淆的方法就容易导致基于匹配的检测方法失效；而目前的基于文档的元数据特征或者文档结构特征的检测方法，能够在一定程度上降低对shellcode和JavaScript代码的依赖程度。但是，此类方法在检测的准确率和应对模拟攻击的效果上还有很大的提高空间。

发明内容

针对现有技术存在的不足和缺陷，本发明实施例提供一种基于文档节点类型的恶意PDF检测方法及装置。

一方面，本发明实施例提出一种基于文档节点类型的恶意PDF检测方法，包括：

S1、以节点为单位对待检测的PDF文档进行划分，并对所述待检测的PDF文档的节点进行类型划分，以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达；

S2、将所述向量化表达的结果输入预先构建的检测模型，得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。

另一方面，本发明实施例提出一种基于文档节点类型的恶意PDF检测装置，包括：

表达单元，用于以节点为单位对待检测的PDF文档进行划分，并对所述待检测的PDF文档的节点进行类型划分，以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达；

检测单元，用于将所述向量化表达的结果输入预先构建的检测模型，得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

目前常见的生成恶意PDF文档的方式是利用已有的黑客软件，自动化的生成恶意PDF文档达到攻击的目的，这种方法降低了攻击的成本和攻击的门槛，但是通过自动化软件生成的恶意PDF文档和工作中正常产生的文档在节点的属性分布上会明显存在差异，这种差异既是生成软件自身造成的也是文档编写者的目的不同而造成的(黑客为了实现攻击，正常文档为了实现文字信息和图片等的分享)。

本发明实施例提供的基于文档节点类型的恶意PDF检测方法及装置，与已有基于PDF文档的元数据特征的检测方法不同之处在于：现有的此类检测方法以文档为单位，对文档中出现的属性的类型，属性值或者出现次数进行统计，这是一种粗粒度的统计。本方案从攻击者创造恶意PDF文档的角度出发，对文档的节点进行了类型划分，并对每种类型节点的属性分布进行了统计。直观上看，最大的不同就是现有的检测方法只会对一个属性统计一次，而本方案中，可能同一个属性会在多个类型的节点中都进行了统计，显然不同类型的节点中即使同一属性的统计学分布也是各有特点的。因此相较于现有的检测方法，本方案的检测粒度更小，特征维度更多，从而使得检测准确率更高，而且因为攻击者实现针对这种检测方法的模拟攻击时需要对每种类型的节点的属性分布进行模拟，明显提高了逃避检测的难度，使攻击者更加难以进行模拟攻击。

附图说明

图1为本发明基于文档节点类型的恶意PDF检测方法一实施例的流程示意图；

图2为本发明基于文档节点类型的恶意PDF检测方法另一实施例中待检测的PDF文档的主要结构示意图；

图3为本发明基于文档节点类型的恶意PDF检测装置一实施例的结构示意图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

参看图1，本实施例公开一种基于文档节点类型的恶意PDF检测方法，包括：

本实施例中，节点的类型包括如下几种：Root、Catalog、Pages、Page、OpenAction、Node、Leaf、Xref和Trailer。

本发明实施例提供的基于文档节点类型的恶意PDF检测方法，通过对文档的节点进行类型划分，并对每种类型节点的属性分布进行统计，相较于只会对一个属性统计一次的现有的基于PDF文档的元数据特征的检测方法，本方案的检测粒度更小，特征维度更多，从而使得检测准确率更高，而且因为攻击者实现针对这种检测方法的模拟攻击时需要对每种类型的节点的属性分布进行模拟，明显提高了逃避检测的难度，使攻击者更加难以进行模拟攻击。

在前述方法实施例的基础上，所述以节点为单位对待检测的PDF文档进行划分，可以包括：

对所述待检测的文档以obj、trailer和xref对象为数据块进行划分，划分得到的每个数据块即为一个节点。

在前述方法实施例的基础，所述对所述待检测的PDF文档的节点进行类型划分，可以包括：

对于每一个obj节点，若判断获知该obj节点含有type标签，则根据该obj节点的type标签的标签值确定该obj节点的类型；或者

若判断获知该obj节点不含有type标签，且能通过引用该obj节点的其它节点确定该obj节点的类型，则通过所述其它节点确定该obj节点的类型；或者

若判断获知该obj节点不含有type标签，且不能通过引用该obj节点的其它节点确定该obj节点的类型，则在判断获知该obj节点有子节点时，确定该obj节点的类型为Node，或者在判断获知该obj节点没有子节点时，确定该obj节点的类型为Leaf。

本实施例中，对于obj节点，根据PDF官方文档对obj节点的自然划分，即以obj节点中的type标签的属性值，以及obj节点是否有子节点为依据进行类型划分，具体的划分方法是:在解析PDF文档的obj节点时，如果obj节点含有声明自身类型的type属性标签，则可以根据该标签值直接获取节点属性；如果该obj节点没有type属性标签，则可通过引用本节点时其他节点获取本节点的类型。如图2所示为本发明基于文档节点类型的恶意PDF检测方法另一实施例中待检测的PDF文档的主要结构示意图，以图2中的4 0obj为例，它的类型可以通过自身的type标签值Action获知其类型为OpenAction，也可以通过引用它的1 0obj的OpenAction 4 0R来获知。对于这两种方式都无法获知本节点类型的，则要看此节点是否还有子节点，如果有则类型为Node，如果没有则类型为Leaf。

在前述方法实施例的基础，所述以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达，可以包括：

对于每种类型的节点，选取该种类型的节点的属性标签中出现次数最多的前第一数值个属性标签，将选取得到的属性标签按出现次数由多到少的顺序排列；

对于每一个节点，确定该节点对应的排列后的各个属性标签的值，根据所述各个属性标签的值生成特征向量。

本实施例中，所述第一数值可以设置为50，当然也可以根据需要设置为其它数值，此处不再赘述。对于每一个节点，该节点对应的排列后的每个属性标签的值的确定方法为：如果该属性标签在该节点中出现，则该属性标签的值为1，否则为0，

在前述方法实施例的基础，所述S1，还可以包括：

获取所述待检测的PDF文档中含有的JavaScript代码，对所述JavaScript代码的关键特征进行向量化表达；

其中，所述将所述向量化表达的结果输入预先构建的检测模型，可以包括：

将不同类型节点出现的属性分布特征的向量化表达的结果和对所述JavaScript代码的关键特征进行向量化表达的结果输入所述检测模型。

本实施例中，所述JavaScript代码的关键特征包括长变量名、长函数名、字符串处理函数、系统调用函数、函数名是否出现在字符串中、大量字符串替代、拼接和特殊编码的字符串。具体在对所述JavaScript代码的关键特征进行向量化表达时，如果某个关键特征在所述JavaScript代码中出现的次数较多(比如出现的次数大于某一设置的数值)，则该关键特征在向量化表达得到的向量中的对应位的取值可以为3；或者如果该关键特征在所述JavaScript代码中出现的次数较少(比如出现的次数不大于前述某一设置的数值)，则该关键特征在向量化表达得到的向量中的对应位的取值可以为2；或者如果该关键特征在所述JavaScript代码中未出现，则该关键特征在向量化表达得到的向量中的对应位的取值可以为0。

参看图3，本实施例公开一种基于文档节点类型的恶意PDF检测装置，包括：

表达单元1，用于以节点为单位对待检测的PDF文档进行划分，并对所述待检测的PDF文档的节点进行类型划分，以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达；

检测单元2，用于将所述向量化表达的结果输入预先构建的检测模型，得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。

具体地，所述表达单元1以节点为单位对待检测的PDF文档进行划分，并对所述待检测的PDF文档的节点进行类型划分，以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达；所述检测单元2将所述向量化表达的结果输入预先构建的检测模型，得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。

本发明实施例提供的基于文档节点类型的恶意PDF检测装置，通过对文档的节点进行类型划分，并对每种类型节点的属性分布进行统计，相较于只会对一个属性统计一次的现有的基于PDF文档的元数据特征的检测方法，本方案的检测粒度更小，特征维度更多，从而使得检测准确率更高，而且因为攻击者实现针对这种检测方法的模拟攻击时需要对每种类型的节点的属性分布进行模拟，明显提高了逃避检测的难度，使攻击者更加难以进行模拟攻击。

在前述装置实施例的基础上，所述表达单元，具体可以用于：

本实施例的基于文档节点类型的恶意PDF检测装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本方案已经完成了代码实现，并进行了相应的实验：使用包含12271个恶意PDF样本和2777个正常PDF文档的训练样本集，以25％的数据进行训练，以75％的数据进行检测。实验效果显示本方案的检测准确率能够达到99.74％左右，召回率在99.73％左右，无论是准确性还是误报率，都比当前已知检测方法表现的好很多。并且在本方案中并不依赖于JavaScript代码特征，在实验中即使刻意将JavaScript代码特征去除，检测的准确率仍能够达到97％左右。

图4示出了本发明实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：以节点为单位对待检测的PDF文档进行划分，并对所述待检测的PDF文档的节点进行类型划分，以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达；将所述向量化表达的结果输入预先构建的检测模型，得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：以节点为单位对待检测的PDF文档进行划分，并对所述待检测的PDF文档的节点进行类型划分，以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达；将所述向量化表达的结果输入预先构建的检测模型，得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于文档节点类型的恶意PDF检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述以节点为单位对待检测的PDF文档进行划分，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述待检测的PDF文档的节点进行类型划分，包括：

4.根据权利要求3所述的方法，其特征在于，所述以不同类型节点出现的属性分布为特征，对所述特征进行向量化表达，包括：

5.根据权利要求1所述的方法，其特征在于，所述S1，还包括：

其中，所述将所述向量化表达的结果输入预先构建的检测模型，包括：

6.一种基于文档节点类型的恶意PDF检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述表达单元，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述表达单元，具体用于：

9.一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。