CN110717412A

CN110717412A - 一种检测恶意pdf文档的方法及系统

Info

Publication number: CN110717412A
Application number: CN201910901702.XA
Authority: CN
Inventors: 凌捷; 熊夙; 陈家辉
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-21

Abstract

本发明公开一种检测恶意PDF文档的方法，所述方法包括：利用采集的恶意PDF文件样本数据集及正常PDF文件样本数据集,转换成第一灰度图像及第二灰度图像；利用第一卷积神经网络构建用于增加第一灰度图像数量的深度卷积生成对抗网络；将第二灰度图像及随机噪点输入生成对抗网络，生成恶意PDF文件灰度图；利用第二卷积神经网络构建恶意PDF文件的初始分类器模型；训练初始分类器模型，得到核心恶意PDF文件分类器；通过核心恶意PDF文件分类器对待检测的PDF文件进行检测。本发明还公开一种检测恶意PDF文档的系统，具有自动提取图像特征的优点，摆脱了现有技术过于依赖已有特征的缺陷，避免了在新型的恶意PDF样本数量较少时，较难训练出准确率高的检测模型的弊端。

Description

一种检测恶意PDF文档的方法及系统

技术领域

本发明涉及计算机通信检测技术领域，更具体地，涉及一种检测恶意PDF文档的方法及系统。

背景技术

随着信息技术的发展，信息的载体格式也变得多种多样，其中PDF文件是一种电子文件格式，由于它具有易于使用，体积小且稳定的特点，目前已经被广泛地应用于各行业领域的日常办公。PDF文件有自己公开的标准规范，也有专用的PDF阅读器，但是PDF文件被普遍应用于信息的存储和传播的同时，也吸引了许多攻击者的注意，目前，网络上有大量包含恶意代码的PDF文档，安全意识较弱的用户很容易在下载并打开这些恶意PDF文件的时候受到攻击，且夹带有恶意代码的PDF文件也经常被作为钓鱼邮件的附件投递，给用户造成了很多损失。此外，绝大多数计算机安装有PDF阅读器，PDF阅读器也存在着大量可能被攻击者利用的漏洞。

现有检测恶意PDF文档的方法和检测装置较多，在近些年的研究成果中，Li,Min等人在IEEE Trustcom BigDataSE ISPA期刊的FEPDF:A Robust Feature Extractor forMalicious PDF Detection(2017，5(3)，218-224)中提出用特征提取器来检测恶意PDF，十分高效，但需要的恶意数据集较多，而新型的恶意PDF样本往往数量较少，因此，很难训练出准确率较高的检测模型；此外，深度学习的方法也已经被应用于恶意文件的检测，Jeong等人在SECURITY AND COMMUNICATION NETWORKS期刊的Malware Detection on ByteStreams of PDF Files Using Convolutional Neural Networks(2019，7(3)，206-212)文献中设计了一个卷积神经网络来检测恶意PDF文件，但是现有的深度学习检测方法主要是基于已有特征的静态检测，这种方法过于依赖已有特征，且在应对新型恶意PDF文件威胁方面，有很多缺陷,且新型的恶意PDF样本往往数量较少，很难训练出准确率较高的检测模型。

综上所述，一种新型的灵活检测恶意PDF文档的方法及系统亟待公开。

发明内容

本发明为克服现有的深度学习检测恶意PDF的方法及系统过于依赖已有特征，在应对新型恶意PDF文件威胁方面，存在很多缺陷，且在新型的恶意PDF样本数量较少，存在较难训练出准确率高的检测模型的弊端，本发明提出一种新型的检测恶意PDF文档的方法及系统，在恶意PDF样本数量较少的情况下，灵活生成PDF样本进行补充，保证检测效果。

为了达到上述技术效果，本发明的技术方案如下：

一种检测恶意PDF文档的方法，所述方法包括：

S1.获取一定数量的恶意PDF文件样本及正常PDF文件样本，分别组成恶意PDF文件样本数据集及正常PDF文件样本数据集；

S2.将正常PDF文件样本数据集通过二进制的方式，换成第一灰度图像；将目标种类恶意PDF文件样本数据集通过二进制的方式转换成第二灰度图像；

S3.利用第一卷积神经网络构建用于增加第二灰度图像数量的生成对抗网络；

S4.将第二灰度图像及随机噪点输入生成对抗网络，生成具有与真实恶意PDF文件特征相同的合成恶意PDF文件灰度图，使真实恶意PDF文件数目、合成恶意PDF文件数目之和与正常PDF文件样本数据的数目相匹配；

S5.利用第二卷积神经网络构建恶意PDF文件的初始分类器模型；

S6.将真实恶意PDF文件、合成恶意PDF文件及正常PDF文件的灰度图像利用梯度下降法训练初始分类器模型，得到核心恶意PDF文件分类器；

S7.通过核心恶意PDF文件分类器对待检测的PDF文件进行检测。

优选地，步骤S1所述的正常PDF文件样本的数量范围为10000-50000之间，恶意PDF文件样本的数量为正常PDF文件样本数量的1/4。

优选地，步骤S2所述的转换过程为：

S201.利用转换模块读取目标种类恶意PDF文件样本数据集及正常PDF文件样本数据集；

S202.以目标种类恶意PDF文件样本数据集及正常PDF文件样本数据集的每8为作为一个向量，转为[0,255]之间的一个数字像素灰度值；

S203.将数字像素拼成灰度图像。

优选地，步骤S3所述的生成对抗网络包括生成器G和判别器D。

优选地，步骤S7所述的核心恶意PDF文件分类器对待检测的PDF文件进行检测是在PDF文件通过转换模块转换成灰度图像后进行的，因为卷积神经网络构建而成的核心核心恶意PDF文件分类器可对图像特征进行自动提取，PDF文件通过转换模块转换成灰度图像后进行，便于实现分类器对图像特征的自动提取。

优选地，步骤S7所述核心恶意PDF文件分类器对待检测的PDF文件的检测结果分为两类：“正常PDF”及“恶意PDF”。

此外，本发明还公开一种检测恶意PDF文档的系统，所述系统用于实现检测恶意PDF文档的方法，所述系统包括：

采集模块，用于采集PDF文件样本；

转换模块，用于将采集PDF文件样本转换为灰度图像；

生成对抗网络，包括生成器G和判别器D，生成器D用于合成恶意PDF样本，增加第二灰度图像的数量，使真实恶意PDF文件数目、合成恶意PDF文件数目之和与正常PDF文件样本数据的数目相匹配；判别器D用于把生成器G生成的数据和真实数据区分开，生成对抗网络由第一卷积神经网络构建而成；

分类器，包括初始分类器模型和核心分类器模型，初始分类器由第二卷积神经网络构建而成，核心分类器通过真实恶意PDF文件、合成恶意PDF文件及正常PDF文件的灰度图像利用梯度下降法训练初始分类器而获得，用于检测并分类出恶意PDF文件及真实PDF文件。

优选地，所述生成对抗网络增加第二灰度图像数量的过程为：

S401.工作人员将随机噪点输入至生成器G，合成恶意PDF样本灰度图；

S402.合成恶意PDF样本灰度图与真实恶意PDF灰度图共同输入判别器D；

S403.判别器D判断合成恶意PDF样本灰度图与真实恶意PDF灰度图的特征是否相同，若是，则输出合成恶意PDF样本灰度图；否则，返回步骤401继续执行；

优选地，步骤403所述的特征指灰度图的纹理特征，卷积神经网络可以自动提取图像特征，摆脱了常规检测恶意PDF的方法对已有特征，因此，所述特征可由判别器D自动提取。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出的检测恶意PDF文档的方法及系统，核心恶意PDF文件分类器由卷积神经网络构建成初始恶意PDF分类器后训练获得，具有对图像特征可自动提取的优点，摆脱了现有技术过于依赖已有特征的缺陷，此外，利用生成对抗网络合成恶意PDF文件，增加第二灰度图像的数量，使真实恶意PDF文件数目、合成恶意PDF文件数目之和与正常PDF文件样本数据的数目相匹配，避免了在新型的恶意PDF样本数量较少时，较难训练出准确率高的检测模型的弊端。

附图说明

图1为本发明提出检测恶意PDF文档方法的步骤流程图。

图2为本发明提出的生成对抗网络合成恶意PDF文件灰度图像的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的一种检测恶意PDF文档的方法流程图，所述方法包括：

S1.获取一定数量的恶意PDF文件样本及正常PDF文件样本，分别组成恶意PDF文件样本数据集及正常PDF文件样本数据集；正常PDF文件样本的数量范围为10000-50000之间，因样本的数量足够，可以让后续卷积神经网络组成的各个模型充分学习到特征，可以取到两个端点值，在本实施例中，正常PDF文件样本的数量为50000，恶意PDF文件样本的数量为正常PDF文件样本数量的1/4。

所述的转换过程为：

S203.将数字像素拼成灰度图像。

S3.利用第一卷积神经网络构建用于增加第二灰度图像数量的生成对抗网络，生成对抗网络包括生成器G和判别器D；

S7.通过核心恶意PDF文件分类器对待检测的PDF文件进行检测。所述的核心恶意PDF文件分类器对待检测的PDF文件进行检测是在PDF文件通过转换模块转换成灰度图像后进行的，因为卷积神经网络构建而成的核心核心恶意PDF文件分类器可对图像特征进行自动提取，PDF文件通过转换模块转换成灰度图像后进行，便于实现分类器对图像特征的自动提取，检测结果分为两类：“正常PDF”及“恶意PDF”。

本发明还公开一种检测恶意PDF文档的系统，系统用于实现检测恶意PDF文档的方法，系统包括：

采集模块，用于采集PDF文件样本；

转换模块，用于将采集PDF文件样本转换为灰度图像；

如图2所示，生成对抗网络增加第二灰度图像数量的过程为：

S403.判别器D判断合成恶意PDF样本灰度图与真实恶意PDF灰度图的特征是否相同，若是，则输出合成恶意PDF样本灰度图；否则，返回步骤401继续执行；所述的特征指灰度图的纹理特征，卷积神经网络可以自动提取图像特征，摆脱了常规检测恶意PDF的方法对已有特征，因此，所述特征可由判别器D自动提取。

本发明的实操实例如下：

S10：分别获得一定数量的目标种类恶意PDF文件样本及足够数量的正常PDF文件样本，作为用来数据增强的生成对抗网络的输入，以及训练卷积神经网络恶意文件检测器的输入；

传统深度学习要求获取大量的恶意PDF文件样本和足够数量的正常PDF文件样本，且正负样本的数量要均衡，才能在训练初始分类器模型时达到较好的效果。但是在正常情况下，足量的恶意PDF文件样本是较难获得的，而且当出现新型而已PDF文件时，会面临新型恶意PDF样本数量不够的问题。

该实施例中，所述的获得一定数量的目标种类恶意PDF文件样本，和足够数量的正常PDF文件，“足量”是指训练分类器所需要的充足的正常PDF文件样本数量，该数量和普通训练方法所需要的数量相同，“正常PDF样本”随处可见，很容易收集，所以本文的“足量正常样本”是指和普通方法一样收集训练分类器所需要的“足量样本”。但是对于目标种类的恶意PDF文件样本，如果样本数量不足，可以获取较少于正常样本数量的恶意PDF文件，并用深度卷积生成对抗网络做数据增强，负样本数量只需要正样本数量的1/4。

S20：将正常PDF文件样本数据集通过二进制的方式，换成第一灰度图像；将目标种类恶意PDF文件样本数据集通过二进制的方式转换成第二灰度图像；

该实施例中，此步骤具体为，先以二进制形式读取文件。然后将每8位作为一个向量，转为[0,255]之间的数字，以这个数字作为一个像素的灰度值。然后以一个固定的长度，将这些像素按顺序拼成二维的灰度图片，由于每个PDF文件的文件大小是不一样的，所以此时拼成的灰度图宽度是不一样的，对于越大的PDF文件，在固定长度的情况下其重组后的图像宽度也会变得越大。所以最后统一一个“图片最大的宽度”，对于宽度不足图片要先给二进制文件末尾补0并转换成像素，以达到最大宽度，而对于超过最大宽度的图片则舍弃超过的部分。

以这种方式将每一个PDF文件转为对应的灰度图像，转换后的图像统一了长度和宽度。而转换过程中的“固定长度”是一个可调参数，取决于PDF文件的大小，PDF数据集中每个PDF越大，长度设置得越大，尽量让全部转换的灰度图都变成一个规则的矩形。

S30：利用第一卷积神经网络构建用于增加第二灰度图像数量的生成对抗网络，生成对抗网络包括生成器G和判别器D；；

该实施例中，深度卷积生成对抗网络(dcgan)的结构由两个网络组成，分别叫做生成器G和判别器D，这两个网络都是由卷积神经网络(cnn)搭建的，生成对抗网络可由多种神经网络搭建而成，由于要处理转换后的灰度图片，这里选择了对图片处理效果较好的卷积神经网络去搭建它。

生成对抗网络可以用来合成虚拟样本，在该实施例中，其中的噪点是提供给生成器并用来合成虚拟样本的。恶意PDF图像则是用来提供给判别器并用来训练判别器用的。

S40：让生成器G不断地生成新样本，去欺骗判别器D，直到二者达到平衡点，此时生成了特征部分能够以假乱真的恶意PDF灰度图片；

生成对抗网络可以用来合成虚拟样本，图2是深度卷积生成对抗网络(dcgan)的结构和流程图。

该实施例中，网络合成样本的过程为，首先生成器G的作用是合成尽可能真实的数据去欺骗判别器，判别器D的作用则是尽量把生成器G生成的数据和真实数据区分开，这两个网络共同被训练，直到最后二者达到平衡点时，生成器G已经合成了能够以假乱真的样本，此时输出合格的合成样本。

S50：输出合成的恶意PDF灰度图片样本集，让恶意PDF灰度图片样本的数量，和正常PDF文件的数量达到平衡；

在该实施例中，所述的让恶意PDF灰度图片样本的数量，和正常PDF文件的数量达到平衡，是指如果正负样本数量差别较大，会影响后面训练的分类器的分类效果，所以要增加不足的恶意PDF灰度图片的数量，使之和正常PDF样本的数量一致。

S60：另外用卷积神经网络构建一个恶意PDF文件的分类器模型，它的输入为转换成灰度图像的PDF文件图片，输出则为对输入PDF文件是否为恶意文件的判断；

在该实施例中，所述的用训练好的分类器模型对PDF文件数据集进行分类，必须在输入前进行数据预处理，将PDF文件装换成对应的灰度图像。

S61：把进行数据增强后的恶意PDF灰度图片集(数据增强即增加样本数量，这里包括收集的恶意PDF文件灰度图，和合成的恶意PDF文件灰度图)，正常的PDF灰度图片集，共同训练此卷积神经网络，得到恶意PDF文件分类器；

S70：用训练好的核心分类器模型对PDF文件数据集进行分类，检测其是正常的PDF文件，或者恶意PDF文件。

在该实施例中，所述的训练好的核心分类器模型对PDF文件数据集进行分类，必须在输入核心分类器模型前将PDF进行预处理，PDF文件转换成对应的灰度图像。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种检测恶意PDF文档的方法，其特征在于，所述方法包括：

S2.将正常PDF文件样本数据集通过二进制的方式，换成第一灰度图像；将恶意PDF文件样本数据集通过二进制的方式转换成第二灰度图像；

S7.通过核心恶意PDF文件分类器对待检测的PDF文件进行检测。

2.根据权利要求1所述的检测恶意PDF文档的方法，其特征在于，步骤S1所述的正常PDF文件样本的数量范围为10000-50000之间，恶意PDF文件样本的数量为正常PDF文件样本数量的1/4。

3.根据权利要求1所述的检测恶意PDF文档的方法，其特征在于，步骤S2所述的转换过程为：

S203.将数字像素拼成灰度图像。

4.根据权利要求3所述的检测恶意PDF文档的方法，其特征在于，步骤S3所述的生成对抗网络包括生成器G和判别器D。

5.根据权利要求1所述的检测恶意PDF文档的方法，其特征在于，步骤S7所述的核心恶意PDF文件分类器对待检测的PDF文件进行检测是在PDF文件通过转换模块转换成灰度图像后进行的，便于实现分类器对图像特征的自动提取。

6.根据权利要求1所述的检测恶意PDF文档的方法，其特征在于，步骤S7所述核心恶意PDF文件分类器对待检测的PDF文件的检测结果分为两类：“正常PDF”及“恶意PDF”。

7.一种检测恶意PDF文档的系统，所述系统用于实现检测恶意PDF文档的方法，所述系统包括：

采集模块，用于采集PDF文件样本；

转换模块，用于将采集PDF文件样本转换为灰度图像；

分类器，包括初始分类器和核心分类器，初始分类器由第二卷积神经网络构建而成，核心分类器通过真实恶意PDF文件、合成恶意PDF文件及正常PDF文件的灰度图像利用梯度下降法训练初始分类器而获得，用于检测并分类出恶意PDF文件及真实PDF文件。

8.根据权利要求7所述的检测恶意PDF文档的系统，其特征在于，所述生成对抗网络增加第二灰度图像数量的步骤为：

S403.判别器D判断合成恶意PDF样本灰度图与真实恶意PDF灰度图的特征是否相同，若是，则输出合成恶意PDF样本灰度图；否则，返回步骤401继续执行。

9.根据权利要求8所述的检测恶意PDF文档的系统，其特征在于，步骤403所述的特征指灰度图的纹理特征，所述特征由判别器D自动提取。