CN114491621A

CN114491621A - 文本对象安全性检测方法和设备

Info

Publication number: CN114491621A
Application number: CN202111634142.XA
Authority: CN
Inventors: 庄洪林; 顾嘉祥; 孙贺; 潘璠; 林哲超; 姚乐
Original assignee: 32802 Troops Of People's Liberation Army Of China
Current assignee: 32802 Troops Of People's Liberation Army Of China
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-13
Anticipated expiration: 2041-12-29

Abstract

文本对象安全性检测方法和设备。该文本对象安全性检测方法，包括：提取文本对象的第一特征和第二特征，其中，所述第一特征为JavaScript语义特征，所述第二特征为不安全文本对象中常用的JavaScript关键词和使用方式特征；将所述第一特征与所述第二特征相组合形成组合特征；如果所述组合特征使用已训练的安全性检测模型计算后得到的结果低于阈值，则判定所述文本对象为安全文本对象。

Description

文本对象安全性检测方法和设备

技术领域

本发明涉及网络安全领域，尤其是涉及一种文本对象安全性检测方法和设备。

背景技术

PDF文档(Portable Document Format，可携带文档格式)，是以PostScript语言(计算机编程语言)图像模型为基础的一种编程形式的电子文档格式。PDF文档已经从静态页面发展到具有脚本、多媒体内容、交互式表单以及其他功能的复合式文档。当前，PDF文档格式非常流行，几乎人人都会使用到，也正因此，许多攻击者都将恶意PDF文档作为感染用户的一种重要方式。更具有威胁性的是，当前PDF阅读器还存在许多可以被利用的漏洞，攻击者如果借助这些漏洞，那么恶意软件将以一种隐蔽的方式感染到用户主机上。

上述恶意PDF文档，是指嵌入恶意代码的PDF文档。嵌入在恶意PDF文档的恶意代码可以实现多种类型的攻击，但90％以上通过JavaScript(缩写为JS，是一种高级的、多范式、解释型的编程语言，支持面向对象编程、命令式编程以及函数式编程)代码实现恶意行为，这些攻击可以窃取数据甚至实现任意代码执行，对网络空间安全造成严重威胁。因此，PDF文档安全性检测显得尤为重要。

发明内容

本发明的目的在于提供一种文本对象安全性检测方法和设备，至少能够检测文本对象(如PDF文档)的安全性，提升对未知的不安全文本对象(如恶意PDF文档)的检测能力，克服对未知不安全文本对象检测率低的问题。

根据本发明的一方面，至少一个实施例提供了一种文本对象安全性检测方法，包括：提取文本对象的第一特征和第二特征，其中，所述第一特征为JavaScript语义特征，所述第二特征为不安全文本对象中常用的JavaScript关键词和使用方式特征；将所述第一特征与所述第二特征相组合形成组合特征；如果所述组合特征使用已训练的安全性检测模型计算后得到的结果低于阈值，则判定所述文本对象为安全文本对象。

根据本发明的另一方面，至少一个实施例还提供了一种文本对象安全性检测模型的训练方法，包括：提取多个安全文本对象的多个第三特征和多个第四特征，其中，所述第三特征为JavaScript语义特征，所述第四特征为不安全文本对象中常用的JavaScript关键词和使用方式特征；将所述多个第三特征与所述多个第四特征相组合形成多个第五特征；利用单分类支持向量机对所述多个第五特征构建检测模型。

根据本发明的另一方面，至少一个实施例还提供了一种文本对象安全性检测设备，包括：处理器，适于实现各指令；以及存储器，适于存储多条指令，所述指令适于由处理器加载并执行：本发明上述文本对象安全性检测方法、和/或本发明上述文本对象安全性检测模型的训练方法。

根据本发明的另一方面，至少一个实施例还提供了一种文本对象安全性检测系统，包括：本发明上述文本检测设备。

根据本发明的另一方面，至少一个实施例还提供了一种计算机可读的非易失性存储介质，存储计算机程序指令，当所述计算机执行所述程序指令时，执行本发明上述文本对象安全性检测方法、和/或本发明上述文本对象安全性检测模型的训练方法。

通过本发明上述实施例，文本对象安全性检测模型在训练过程中，仅使用安全文本对象作为训练样本，不安全文本对象常用的关键词和使用方式来协助构造恶意关联特征，较好的提升了对未知不安全文本对象的检测能力，克服了对未知不安全文本对象检测率低的问题，较好的缓解了不安全文本对象对网络空间安全造成的严重威胁。

附图说明

为了更清楚地说明本发明具体实施方式，下面将对具体实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的应用环境示意图；

图2是根据本发明实施例的文本对象安全性检测设备示意图；

图3是根据本发明实施例的文本对象安全性检测方法的流程图；

图4是根据本发明实施例的文本对象安全性检测模型的训练方法的流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

一般而言，PDF文档安全性检测方法所使用的特征，包括PDF文档的文档字节特征、JavaScript特征、元数据特征、结构特征、以及这些特征的组合。其中：文档字节特征是较早用于检测PDF文档安全性(恶意PDF文档)的特征，使用字节特征的主要优点是不用人为设计特征，提取过程简单，但模型不可解释且检测精度不高；随着基于图像特征方法的使用，使用文档字节特征检测PDF文档安全性精度虽得到提升，但不可解释的问题仍然存在。使用元数据特征和/或结构特征来检测PDF文档安全性(恶意PDF文档)，鲁棒性和泛化性不足。使用JavaScript特征来检测PDF文档安全性(恶意PDF文档)，效率较低。

鉴于90％以上的恶意PDF文档通过JavaScript代码实现恶意行为，因此发明人对早期基于JavaScript特征进行PDF安全性检测方法做了研究。发明人发现早期基于JavaScript特征进行PDF安全性检测主要根据行为特征进行检测，包括API调用特征、内存访问序列特征和代码执行序列特征，造成检测效率低的原因在于：安全性检测精度取决于恶意JavaScript是否被执行。

为了更全面提升检测PDF文档安全性检测的精度，发明人深挖不安全PDF文档(即恶意PDF文档)与安全PDF文档(即良性PDF文档)的差异，发现恶意PDF文档与良性PDF文档中JavaScript代码的函数使用和关键字等存在明显差异，这为使用JavaScript特征检测PDF文档安全性提供了重要依据，增强了PDF文档安全性检测模型的可解释性。

在上述研究发现的基础上，本发明的至少一个实施例，提供了一种文本对象安全性检测系统，该系统包括文本对象安全性检测设备，至少用于检测文本对象的安全性，识别该文本对象是良性文本对象还是恶意文本对象。上述文本对象包括但不局限于PDF文档、word文档、excel文档、html文档等。该文本对象安全性检测系统可以包括如图1所示环境，该环境可以包括硬件环境和网络环境。上述硬件环境包括文本对象安全性检测设备100和服务器200，该安全性检测设备100可以通过相应的指令操作该服务器200，从而可以读取、改变、添加数据等。

该安全性检测设备100可以为一个或多个，该安全性检测设备100中可以包括多个处理节点，该多个处理节点对外可以作为一个整体。可选的，该安全性检测设备100也可将获取到的待检测的文本对象发送至服务器200，以使服务器200执行本发明的文本对象安全性检测方法，处理安全性检测设备100所发送的数据。可选的，该安全性检测设备100可以通过网络与服务器200连接。

上述网络包括有线网络和无线网络。该无线网络包括但不限于：广域网、城域网、局域网或移动数据网络。典型地，该移动数据网络包括但不局限于：全球移动通信(GSM)网络、码分多址(CDMA)网络、宽带码分多址(WCDMA)网络、长期演进(LTE)通信网络、WIFI网络、ZigBee网络、基于蓝牙技术的网络等。不同类型的通信网络可能由不同的运营商运营。通信网络的类型不构成对本发明实施例的限制。

该文本对象安全性检测设备100，如图2所示，包括：处理器202；以及存储器204，配置为存储计算机程序指令，计算机程序指令适于由处理器加载并执行本发明所研发的文本对象安全性检测方法、和/或文本对象安全性检测模型的训练方法(后续将进行详细介绍)。可选的，本发明的至少一个实施例还提供了一种计算机可读的非易失性存储介质，存储计算机程序指令，当计算机执行程序指令时，执行本发明所研发的文本对象安全性检测方法、和/或文本对象安全性检测模型的训练方法(后续将进行详细介绍)。

该处理器202可以为各种适用的处理器，例如实现为中央处理器、微处理器、嵌入处理器等形式，可以采用X86、ARM等架构。该存储器204可以为各种适用的存储装置，例如非易失性存储装置，包括但不限于磁存储装置、半导体存储装置、光存储装置等，并且可以布置为单个存储装置、存储装置阵列或分布式存储装置，本发明的实施例对这些不作限制。

本领域普通技术人员可以理解，上述文本对象安全性检测设备的结构仅为示意，其并不对文本对象安全性检测设备的结构造成限定。例如，文本对象安全性检测设备还可包括比图1中所示更多或者更少的组件(如传输装置)。上述的传输装置用于经由一个网络接收或者发送数据。在一个实例中，传输装置为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本发明至少一个实施例提出了一种文本对象安全性检测方法，该文本对象安全性检测方法可以由处理器202加载并执行，至少用于检测文本对象的安全性，识别该文本对象是良性文本对象还是恶意文本对象，提升文本对象安全性检测的精度，克服对未知不安全文本对象检测率低的问题。如图3所示的文本对象安全性检测方法的流程图，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，该方法可以包括如下步骤：

步骤S301，提取文本对象的第一特征和第二特征，其中，第一特征为JavaScript语义特征，第二特征为不安全文本对象中常用的JavaScript关键词和使用方式特征；

步骤S303，将第一特征与第二特征相组合形成组合特征；

步骤S305，如果组合特征使用已训练的安全性检测模型计算后得到的结果低于阈值，则判定文本对象为安全文本对象。

一般而言，安全的文本对象不会故意隐藏JavaScript，所以如果检测到有隐藏JavaScript，则可以直接判定该文本对象为不安全文本对象。故而，在提取文本对象的第一特征和/或第二特征之前，还可以包括：文本对象解析器识别文本对象是否包含JavaScript隐藏手段，如果采用了隐藏手段(即文本对象的JavaScript源码被隐藏不可被识别)，则可直接判定该文本对象为不安全文本对象(即恶意文本对象)。

在步骤S301中，提取文本对象的第一特征和第二特征。提取第一文本对象的第一特征可以包括：通过Poppler库构建文本对象解析器，利用该文本对象解析器实现对包含JavaScript的文本对象中的JavaScript源码进行提取；在文本对象中JavaScript源码的语义级别上构造特征，即直接将提取到的文本对象的JavaScript源码使用Spider Monkey进行分析，Spider Monkey根据文本对象JavaScript源码的语义将文本对象JavaScript源码转化为第一Token，通过第一Token表示文本对象JavaScript源码中的关键字、运算符和数据等特征。

上述Poppler库是用于呈现可移植文档格式(PDF)文档的免费软件实用程序库，通常在Linux系统上使用，并被开源GNOME和KDE桌面环境的PDF查看器使用。上述GNOME是一种GNU网络对象模型环境，GNU是一个自由的操作系统。上述KDE是一个国际性的自由软件社区，开发运行在Linux、BSD、Solaris、Microsoft Windows与Mac OS X等平台上的一系列跨平台应用程序。上述Spider Monkey是一个用C语言实现的JavaScript脚本引擎。上述Token是令牌的意思，通常代表关键字、变量名、字符串、直接量等。

提取文本对象的第二特征可以包括：提取文本对象的第二Token。这里，第二特征用于表征不安全文本对象常使用的JavaScript关键词和使用方式，该特征被设计为特定的Token(如第二Token)。上述关键词包括Eval、Unescape、Substr、Replace、Substring、Return、Length，使用方式包括使用长度大于100的字符串、两位数字的数量大于20。

在步骤S303中，将文本对象的第一特征与第二特征相组合形成组合特征。可选的，组合待进行安全性检测的文本对象的第一Token和第二Token，并通过N-gram模型对其进行编码，构成组合特征。

上述N-Gram是一种基于统计语言模型的算法，基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

在步骤S305中，如果组合特征使用已训练的安全性检测模型计算后得到的结果低于阈值，则判定文本对象为安全文本对象。上述已训练安全性检测模型是基于多个安全文本对象利用单分类支持向量机(SVDD)构建的检测模型，上述阈值为检测模型超球体的半径，即如果组合特征使用检测模型计算后得到的结果低于检测模型超球体的半径，则判定文本对象为安全文本对象。

上述SVDD(Support Vector Data Description，支持向量数据描述算法)，是一种单分类支持向量机算法，能够实现目标样本和非目标样本的区分，通常应用于异常检测、故障检测和安全监测等领域。当前，SVDD技术较为成熟，本文在此不再赘述。详情参见：

(1)Tax D M J,Duin R P W.Support vector domain description[J].Patternrecognition letters,1999,20(11-13):1191-1199；

(2)Tax D M J,Duin R P W.Support vector data description[J].Machinelearning,2004,54(1):45-66；

(3)https://www.zhihu.com/tardis/sogou/art/97522759)。

也就是说，本发明将得到的组合特征使用已训练好的安全性检测模型进行判定，计算距检测模型超球体中心的距离，若距离小于半径，则判定为安全文本对象；若距离大于半径，则判定为不安全文本对象。本发明至少一个实施例还提出了一种文本对象安全性检测模型的训练方法，至少用于构建已训练好的安全性检测模型，该已训练好的安全性检测模型至少用于检测文本对象的安全性，识别该文本对象是良性文本对象还是恶意文本对象，提升文本对象安全性检测的精度，克服对未知不安全文本对象检测率低的问题。

需要说明的是，在构建已训练好的安全性检测模型过程中，发明人发现目前基于JavaScript特征构建安全性检测模型主要使用静态特征，有两类方法：一类是将不安全文本对象和安全文本对象作为训练对象，但由于包含JavaScript代码的安全文本对象较少、不安全文本对象较多，使得样本特征空间分布很不均衡，从而影响检测结果；另一类是仅使用不安全文本对象作为训练样本，由此构建的安全性检测模型依赖于已知的不安全文本对象构建，对未知的不安全文本对象检测能力不足。鉴于上述不足，本发明提出了如图4所示的文本对象安全性检测模型训练方法的流程图，该方法可以包括如下步骤：

步骤S402，提取多个安全文本对象的多个第三特征和多个第四特征，其中，第三特征为JavaScript语义特征，第四特征为不安全文本对象中常用的JavaScript关键词和使用方式特征；

步骤S404，将多个第三特征与多个第四特征相组合形成多个第五特征；

步骤S406，使用多个第五特征，通过单分类支持向量机构建检测模型。

可以看出，本发明提出的是一种基于安全文本对象样本的针对包含JavaScript的不安全文本对象检测机制和方法。例如，本发明在构建安全性检测模型过程中，仅使用安全性文本对象作为训练样本，使用安全性文本对象JavaScript代码语义级别的特征，并将不安全文本对象经常使用的JavaScript关键词和使用方式作为重要特征，以此提供更加丰富的特征表示，克服检测率低的问题；同时，以安全性文本对象作为训练样本，能够提高安全性检测模型的泛化性能，克服对未知的不安全文本对象检测能力不足的问题。

在步骤S402中，提取多个安全文本对象的多个第三特征和多个第四特征。通过上述方式，仅使用安全文本对象作为训练对象，不依赖现有的不安全文本对象特征，从而使安全性检测模型能够检测未知不安全文本对象(如恶意PDF文档)。

可选的，提取多个安全文本对象的多个第三特征可以包括：通过文本对象解析器提取多个安全文本对象的多个第三特征。例如，通过文本对象解析器(如PDF文档解析器)提取包含JavaScript的多个安全文本对象的多个JavaScript源码；对提取出的JavaScript源码进行分析，根据语义将多个JavaScript源码转化为多个第三Token，其中，多个第三Token用于表征多个JavaScript源码的关键字、运算符和数据信息特征。

可选的，提取多个安全文本对象的多个第四特征可以包括：提取多个安全文本对象的多个第四Token。本发明将不安全文本对象经常使用的JavaScript关键词和使用方式设计为特定的Token，分为两类：一是与混淆JavaScript代码相关的恶意特征，如JavaScript代码执行函数eval()、解码编码字符串函数unescape()等，另一种是与漏洞利用相关的恶意特征，如可以计算缓冲区长度的length()函数、存储shellcode的长字符串等。故而，本发明提取安全文本对象的第四Token包括：提取不安全文本对象常使用JavaScript的关键词和使用方式特征，关键词包括Eval、Unescape、Substr、Replace、Substring、Return、Length，使用方式包括使用长度大于100的字符串、两位数字的数量大于20。

在步骤S404中，将多个第三特征与多个第四特征相组合，并进行编码形成多个第五特征。即，将多个安全对象的多个第三Token与多个第四Token相组合形成多个第五特征。可选的，首先，检测识别安全文本对象中存在的不安全文本对象中常用的关键词和使用方式，并将其编码形成Token；其次，将其与提取的安全文本对象JavaScript源码根据语义转化后的Token进行组合；最后，使用N-gram模型对其进行处理，构成恶意关联特征。

在步骤S406中，使用多个第五特征，通过单分类支持向量机构建检测模型。使用多个第五特征，通过单分类支持向量机(SVDD算法)构建检测模型可以包括：SVDD算法通过核函数将多个第五特征映射到新的特征空间，在新的特征空间构建超球体；迭代优化超球体的中心和半径，使超球体形成半径最小的超球体，且包含预设阈值的安全文本对象。

也就是说，本发明将得到的语义信息特征和恶意关联特征使用单分类支持向量机(SVDD算法)进行多次训练和验证，得到文本对象安全性检测模型。训练是通过核函数将数据映射到新的特征空间，在新的特征空间中，构建包含预设阈值的安全文本对象的超球体，通过SVDD算法计算该超球体的中心和半径，不断迭代优化使该超球体半径最小。

通过本发明上述实施例，文本对象安全性检测模型在训练过程中，仅使用安全文本对象作为训练样本，并使用不安全文本对象常用的关键词和使用方式来协助构造恶意关联特征，较好的提升了对未知不安全文本对象的检测能力，克服了对未知不安全文本对象检测率低的问题，较好的缓解了不安全文本对象对网络空间安全造成的严重威胁。

经测试，本发明与现有技术相比检测精度提升显著。具有如下特点：

1.高泛化性：已有的PJscan和Hidost对未知不安全文本对象(如恶意PDF文档)的检测率下降明显，本发明在对已知不安全文本对象保持较高检测率的同时，对未知不安全文本对象的检测率得到较大提升，达到96.91％。

2.高适用性：本发明具有普遍适用性，可以使用不同类型的正样本特征构建文本对象安全性检测模型。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.文本对象安全性检测方法，其特征在于，包括：

提取文本对象的第一特征和第二特征，其中，所述第一特征为JavaScript语义特征，所述第二特征为不安全文本对象中常用的JavaScript关键词和使用方式特征；将所述第一特征与所述第二特征相组合形成组合特征；如果所述组合特征使用已训练的安全性检测模型计算后得到的结果低于阈值，则判定所述文本对象为安全文本对象。

2.根据权利要求1所述的安全性检测方法，所述已训练安全性检测模型是使用多个安全文本对象通过单分类支持向量机构建的检测模型，所述阈值为所述检测模型超球体的半径，如果所述组合特征使用已训练的安全性检测模型计算后得到的结果低于阈值包括：

如果所述组合特征使用检测模型计算后得到的结果低于所述检测模型超球体的半径，则判定所述文本对象为安全文本对象。

3.根据权利要求1所述的安全性检测方法，所述第二特征被设置为第二Token，将所述第一特征与所述第二特征相组合形成组合特征包括：

组合第一特征和第二Token以形成组合特征。

4.根据权利要求1所述的安全性检测方法，提取文本对象的第一特征包括：

提取文本对象的JavaScript源码；

根据语义将所述JavaScript源码转化为第一Token，其中，所述第一Token用于表征所述JavaScript源码的关键字、运算符和数据信息特征。

5.根据权利要求4所述的安全性检测方法，在提取文本对象的JavaScript源码之前，还包括：

检测所述文本对象的JavaScript源码，其中，如果所述文本对象的JavaScript源码被隐藏，则所述文本对象为不安全文本对象。

6.文本对象安全性检测模型的训练方法，其特征在于，包括：

提取多个安全文本对象的多个第三特征和多个第四特征，其中，所述第三特征为JavaScript语义特征，所述第四特征为不安全文本对象中常用的JavaScript关键词和使用方式特征；

将所述多个第三特征与所述多个第四特征相组合形成多个第五特征；

使用所述多个第五特征，通过单分类支持向量机构建检测模型。

7.根据权利要求6所述的训练方法，使用所述多个第五特征，通过单分类支持向量机构建检测模型包括：

单分类支持向量机通过核函数将所述多个第五特征映射到新的特征空间，在新的特征空间构建超球体；

迭代优化所述超球体的中心和半径，使所述超球体形成半径最小的超球体，且包含预设阈值的安全文本对象。

8.根据权利要求6所述的训练方法，所述关键词包括Eval、Unescape、Substr、Replace、Substring、Return、Length，所述使用方式包括使用长度大于100的字符串、两位数字的数量大于20，该第四特征被设置为第四Token，将所述多个第三特征与所述多个第四特征相组合形成多个第五特征包括：

将所述多个第三特征与所述多个第四Token相组合形成多个第五特征。

9.根据权利要求6所述的训练方法，提取多个安全文本对象的多个第三特征包括：

提取多个安全文本对象的多个JavaScript源码；

根据语义将所述多个JavaScript源码转化为多个第三Token，其中，所述多个第三Token用于表征所述多个JavaScript源码的关键字、运算符和数据信息特征。

10.文本对象安全性检测设备，包括：

处理器，适于实现各指令；以及存储器，适于存储多条指令，所述指令适于由处理器加载并执行：如权利要求1-5任一所述的文本对象安全性检测方法、和/或如权利要求6-9任一所述的文本对象安全性检测模型的训练方法。