CN108875374A - 基于文档节点类型的恶意pdf检测方法及装置 - Google Patents

基于文档节点类型的恶意pdf检测方法及装置 Download PDF

Info

Publication number
CN108875374A
CN108875374A CN201810333712.3A CN201810333712A CN108875374A CN 108875374 A CN108875374 A CN 108875374A CN 201810333712 A CN201810333712 A CN 201810333712A CN 108875374 A CN108875374 A CN 108875374A
Authority
CN
China
Prior art keywords
node
obj
type
document
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810333712.3A
Other languages
English (en)
Other versions
CN108875374B (zh
Inventor
喻民
刘超
刘云政
李敏
姜建国
黄伟庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201810333712.3A priority Critical patent/CN108875374B/zh
Publication of CN108875374A publication Critical patent/CN108875374A/zh
Application granted granted Critical
Publication of CN108875374B publication Critical patent/CN108875374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开一种基于文档节点类型的恶意PDF检测方法及装置,能有效的提高检测的准确率,加强对模拟攻击的检测能力。方法包括:S1、以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;S2、将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。

Description

基于文档节点类型的恶意PDF检测方法及装置
技术领域
本发明实施例涉及计算机领域,具体涉及一种基于文档节点类型的恶意PDF检测方法及装置。
背景技术
恶意PDF(Portable Document Format,便携式文档格式)文档为在正常的文档中写入恶意代码,利用文档解析程序的漏洞使恶意代码执行的文档。为实现丰富的文档展示效果并支持多种功能,PDF文档中支持嵌入JavaScript脚本代码,允许执行系统调用,这就使得恶意文档能够实现攻击行为。
目前针对恶意文档的检测主要分为静态检测,动态监测和动静结合的检测方法,其中,静态检测具体体现为以下几种具体的检测思路:
一.提取文档中的shellcode代码,利用已有的shellcode代码特征库进行匹配;
二.提取文档中嵌入的JavaScript脚本代码,对JavaScript脚本代码中的系统调用函数和恶意的字符串等进行检测;
三.目前一种比较流行的文档检测方法是:提取文档中的结构特征和(或)元数据特征,利用机器学习方法训练出检测模型,利用训练出的模型进行检测。
目前的静态检测方法,虽然在时间和成本损耗上较小,对已知攻击方式的检测准确率较高,但是难以应对未知攻击的检测。主要原因在于:早先针对shellcode和JavaScript代码的检测方法,在遇到新型shellcode或对JavaScript进行混淆的方法就容易导致基于匹配的检测方法失效;而目前的基于文档的元数据特征或者文档结构特征的检测方法,能够在一定程度上降低对shellcode和JavaScript代码的依赖程度。但是,此类方法在检测的准确率和应对模拟攻击的效果上还有很大的提高空间。
发明内容
针对现有技术存在的不足和缺陷,本发明实施例提供一种基于文档节点类型的恶意PDF检测方法及装置。
一方面,本发明实施例提出一种基于文档节点类型的恶意PDF检测方法,包括:
S1、以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;
S2、将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
另一方面,本发明实施例提出一种基于文档节点类型的恶意PDF检测装置,包括:
表达单元,用于以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;
检测单元,用于将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。
目前常见的生成恶意PDF文档的方式是利用已有的黑客软件,自动化的生成恶意PDF文档达到攻击的目的,这种方法降低了攻击的成本和攻击的门槛,但是通过自动化软件生成的恶意PDF文档和工作中正常产生的文档在节点的属性分布上会明显存在差异,这种差异既是生成软件自身造成的也是文档编写者的目的不同而造成的(黑客为了实现攻击,正常文档为了实现文字信息和图片等的分享)。
本发明实施例提供的基于文档节点类型的恶意PDF检测方法及装置,与已有基于PDF文档的元数据特征的检测方法不同之处在于:现有的此类检测方法以文档为单位,对文档中出现的属性的类型,属性值或者出现次数进行统计,这是一种粗粒度的统计。本方案从攻击者创造恶意PDF文档的角度出发,对文档的节点进行了类型划分,并对每种类型节点的属性分布进行了统计。直观上看,最大的不同就是现有的检测方法只会对一个属性统计一次,而本方案中,可能同一个属性会在多个类型的节点中都进行了统计,显然不同类型的节点中即使同一属性的统计学分布也是各有特点的。因此相较于现有的检测方法,本方案的检测粒度更小,特征维度更多,从而使得检测准确率更高,而且因为攻击者实现针对这种检测方法的模拟攻击时需要对每种类型的节点的属性分布进行模拟,明显提高了逃避检测的难度,使攻击者更加难以进行模拟攻击。
附图说明
图1为本发明基于文档节点类型的恶意PDF检测方法一实施例的流程示意图;
图2为本发明基于文档节点类型的恶意PDF检测方法另一实施例中待检测的PDF文档的主要结构示意图;
图3为本发明基于文档节点类型的恶意PDF检测装置一实施例的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
参看图1,本实施例公开一种基于文档节点类型的恶意PDF检测方法,包括:
S1、以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;
S2、将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
本实施例中,节点的类型包括如下几种:Root、Catalog、Pages、Page、OpenAction、Node、Leaf、Xref和Trailer。
本发明实施例提供的基于文档节点类型的恶意PDF检测方法,通过对文档的节点进行类型划分,并对每种类型节点的属性分布进行统计,相较于只会对一个属性统计一次的现有的基于PDF文档的元数据特征的检测方法,本方案的检测粒度更小,特征维度更多,从而使得检测准确率更高,而且因为攻击者实现针对这种检测方法的模拟攻击时需要对每种类型的节点的属性分布进行模拟,明显提高了逃避检测的难度,使攻击者更加难以进行模拟攻击。
在前述方法实施例的基础上,所述以节点为单位对待检测的PDF文档进行划分,可以包括:
对所述待检测的文档以obj、trailer和xref对象为数据块进行划分,划分得到的每个数据块即为一个节点。
在前述方法实施例的基础,所述对所述待检测的PDF文档的节点进行类型划分,可以包括:
对于每一个obj节点,若判断获知该obj节点含有type标签,则根据该obj节点的type标签的标签值确定该obj节点的类型;或者
若判断获知该obj节点不含有type标签,且能通过引用该obj节点的其它节点确定该obj节点的类型,则通过所述其它节点确定该obj节点的类型;或者
若判断获知该obj节点不含有type标签,且不能通过引用该obj节点的其它节点确定该obj节点的类型,则在判断获知该obj节点有子节点时,确定该obj节点的类型为Node,或者在判断获知该obj节点没有子节点时,确定该obj节点的类型为Leaf。
本实施例中,对于obj节点,根据PDF官方文档对obj节点的自然划分,即以obj节点中的type标签的属性值,以及obj节点是否有子节点为依据进行类型划分,具体的划分方法是:在解析PDF文档的obj节点时,如果obj节点含有声明自身类型的type属性标签,则可以根据该标签值直接获取节点属性;如果该obj节点没有type属性标签,则可通过引用本节点时其他节点获取本节点的类型。如图2所示为本发明基于文档节点类型的恶意PDF检测方法另一实施例中待检测的PDF文档的主要结构示意图,以图2中的4 0obj为例,它的类型可以通过自身的type标签值Action获知其类型为OpenAction,也可以通过引用它的1 0obj的OpenAction 4 0R来获知。对于这两种方式都无法获知本节点类型的,则要看此节点是否还有子节点,如果有则类型为Node,如果没有则类型为Leaf。
在前述方法实施例的基础,所述以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达,可以包括:
对于每种类型的节点,选取该种类型的节点的属性标签中出现次数最多的前第一数值个属性标签,将选取得到的属性标签按出现次数由多到少的顺序排列;
对于每一个节点,确定该节点对应的排列后的各个属性标签的值,根据所述各个属性标签的值生成特征向量。
本实施例中,所述第一数值可以设置为50,当然也可以根据需要设置为其它数值,此处不再赘述。对于每一个节点,该节点对应的排列后的每个属性标签的值的确定方法为:如果该属性标签在该节点中出现,则该属性标签的值为1,否则为0,
在前述方法实施例的基础,所述S1,还可以包括:
获取所述待检测的PDF文档中含有的JavaScript代码,对所述JavaScript代码的关键特征进行向量化表达;
其中,所述将所述向量化表达的结果输入预先构建的检测模型,可以包括:
将不同类型节点出现的属性分布特征的向量化表达的结果和对所述JavaScript代码的关键特征进行向量化表达的结果输入所述检测模型。
本实施例中,所述JavaScript代码的关键特征包括长变量名、长函数名、字符串处理函数、系统调用函数、函数名是否出现在字符串中、大量字符串替代、拼接和特殊编码的字符串。具体在对所述JavaScript代码的关键特征进行向量化表达时,如果某个关键特征在所述JavaScript代码中出现的次数较多(比如出现的次数大于某一设置的数值),则该关键特征在向量化表达得到的向量中的对应位的取值可以为3;或者如果该关键特征在所述JavaScript代码中出现的次数较少(比如出现的次数不大于前述某一设置的数值),则该关键特征在向量化表达得到的向量中的对应位的取值可以为2;或者如果该关键特征在所述JavaScript代码中未出现,则该关键特征在向量化表达得到的向量中的对应位的取值可以为0。
参看图3,本实施例公开一种基于文档节点类型的恶意PDF检测装置,包括:
表达单元1,用于以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;
检测单元2,用于将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
具体地,所述表达单元1以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;所述检测单元2将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
本发明实施例提供的基于文档节点类型的恶意PDF检测装置,通过对文档的节点进行类型划分,并对每种类型节点的属性分布进行统计,相较于只会对一个属性统计一次的现有的基于PDF文档的元数据特征的检测方法,本方案的检测粒度更小,特征维度更多,从而使得检测准确率更高,而且因为攻击者实现针对这种检测方法的模拟攻击时需要对每种类型的节点的属性分布进行模拟,明显提高了逃避检测的难度,使攻击者更加难以进行模拟攻击。
在前述装置实施例的基础上,所述表达单元,具体可以用于:
对所述待检测的文档以obj、trailer和xref对象为数据块进行划分,划分得到的每个数据块即为一个节点。
在前述装置实施例的基础上,所述表达单元,具体可以用于:
对于每一个obj节点,若判断获知该obj节点含有type标签,则根据该obj节点的type标签的标签值确定该obj节点的类型;或者
若判断获知该obj节点不含有type标签,且能通过引用该obj节点的其它节点确定该obj节点的类型,则通过所述其它节点确定该obj节点的类型;或者
若判断获知该obj节点不含有type标签,且不能通过引用该obj节点的其它节点确定该obj节点的类型,则在判断获知该obj节点有子节点时,确定该obj节点的类型为Node,或者在判断获知该obj节点没有子节点时,确定该obj节点的类型为Leaf。
本实施例的基于文档节点类型的恶意PDF检测装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本方案已经完成了代码实现,并进行了相应的实验:使用包含12271个恶意PDF样本和2777个正常PDF文档的训练样本集,以25%的数据进行训练,以75%的数据进行检测。实验效果显示本方案的检测准确率能够达到99.74%左右,召回率在99.73%左右,无论是准确性还是误报率,都比当前已知检测方法表现的好很多。并且在本方案中并不依赖于JavaScript代码特征,在实验中即使刻意将JavaScript代码特征去除,检测的准确率仍能够达到97%左右。
图4示出了本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序;
其中,所述处理器11,存储器12通过所述总线13完成相互间的通信;
所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法,例如包括:以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例所提供的方法,例如包括:以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于文档节点类型的恶意PDF检测方法,其特征在于,包括:
S1、以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;
S2、将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述以节点为单位对待检测的PDF文档进行划分,包括:
对所述待检测的文档以obj、trailer和xref对象为数据块进行划分,划分得到的每个数据块即为一个节点。
3.根据权利要求2所述的方法,其特征在于,所述对所述待检测的PDF文档的节点进行类型划分,包括:
对于每一个obj节点,若判断获知该obj节点含有type标签,则根据该obj节点的type标签的标签值确定该obj节点的类型;或者
若判断获知该obj节点不含有type标签,且能通过引用该obj节点的其它节点确定该obj节点的类型,则通过所述其它节点确定该obj节点的类型;或者
若判断获知该obj节点不含有type标签,且不能通过引用该obj节点的其它节点确定该obj节点的类型,则在判断获知该obj节点有子节点时,确定该obj节点的类型为Node,或者在判断获知该obj节点没有子节点时,确定该obj节点的类型为Leaf。
4.根据权利要求3所述的方法,其特征在于,所述以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达,包括:
对于每种类型的节点,选取该种类型的节点的属性标签中出现次数最多的前第一数值个属性标签,将选取得到的属性标签按出现次数由多到少的顺序排列;
对于每一个节点,确定该节点对应的排列后的各个属性标签的值,根据所述各个属性标签的值生成特征向量。
5.根据权利要求1所述的方法,其特征在于,所述S1,还包括:
获取所述待检测的PDF文档中含有的JavaScript代码,对所述JavaScript代码的关键特征进行向量化表达;
其中,所述将所述向量化表达的结果输入预先构建的检测模型,包括:
将不同类型节点出现的属性分布特征的向量化表达的结果和对所述JavaScript代码的关键特征进行向量化表达的结果输入所述检测模型。
6.一种基于文档节点类型的恶意PDF检测装置,其特征在于,包括:
表达单元,用于以节点为单位对待检测的PDF文档进行划分,并对所述待检测的PDF文档的节点进行类型划分,以不同类型节点出现的属性分布为特征,对所述特征进行向量化表达;
检测单元,用于将所述向量化表达的结果输入预先构建的检测模型,得到所述待检测的PDF文档是否为恶意PDF文档的检测结果。
7.根据权利要求6所述的装置,其特征在于,所述表达单元,具体用于:
对所述待检测的文档以obj、trailer和xref对象为数据块进行划分,划分得到的每个数据块即为一个节点。
8.根据权利要求7所述的装置,其特征在于,所述表达单元,具体用于:
对于每一个obj节点,若判断获知该obj节点含有type标签,则根据该obj节点的type标签的标签值确定该obj节点的类型;或者
若判断获知该obj节点不含有type标签,且能通过引用该obj节点的其它节点确定该obj节点的类型,则通过所述其它节点确定该obj节点的类型;或者
若判断获知该obj节点不含有type标签,且不能通过引用该obj节点的其它节点确定该obj节点的类型,则在判断获知该obj节点有子节点时,确定该obj节点的类型为Node,或者在判断获知该obj节点没有子节点时,确定该obj节点的类型为Leaf。
9.一种电子设备,其特征在于,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201810333712.3A 2018-04-13 2018-04-13 基于文档节点类型的恶意pdf检测方法及装置 Active CN108875374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810333712.3A CN108875374B (zh) 2018-04-13 2018-04-13 基于文档节点类型的恶意pdf检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810333712.3A CN108875374B (zh) 2018-04-13 2018-04-13 基于文档节点类型的恶意pdf检测方法及装置

Publications (2)

Publication Number Publication Date
CN108875374A true CN108875374A (zh) 2018-11-23
CN108875374B CN108875374B (zh) 2020-09-25

Family

ID=64326897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810333712.3A Active CN108875374B (zh) 2018-04-13 2018-04-13 基于文档节点类型的恶意pdf检测方法及装置

Country Status (1)

Country Link
CN (1) CN108875374B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329012A (zh) * 2019-07-19 2021-02-05 中国人民解放军战略支援部队信息工程大学 针对包含JavaScript的恶意PDF文档的检测方法及电子设备
CN115952783A (zh) * 2023-03-09 2023-04-11 深圳市金大智能创新科技有限公司 一种文档解析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310150A (zh) * 2012-03-13 2013-09-18 百度在线网络技术(北京)有限公司 一种检测pdf漏洞的方法和装置
CN105868630A (zh) * 2016-03-24 2016-08-17 中国科学院信息工程研究所 恶意pdf文档检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310150A (zh) * 2012-03-13 2013-09-18 百度在线网络技术(北京)有限公司 一种检测pdf漏洞的方法和装置
CN105868630A (zh) * 2016-03-24 2016-08-17 中国科学院信息工程研究所 恶意pdf文档检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁晓煌: "恶意PDF文档的静态检测技术研究", 《中国优秀硕士学位论文全文数据库》 *
李晓玲等: "基于结构特征的恶意PDF文档检测", 《第十届中国通信学会学术年会论文集》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329012A (zh) * 2019-07-19 2021-02-05 中国人民解放军战略支援部队信息工程大学 针对包含JavaScript的恶意PDF文档的检测方法及电子设备
CN115952783A (zh) * 2023-03-09 2023-04-11 深圳市金大智能创新科技有限公司 一种文档解析方法及系统

Also Published As

Publication number Publication date
CN108875374B (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN112540832B (zh) 一种基于知识图谱的云原生系统故障分析方法
CN110245270A (zh) 基于图模型的数据血缘关系存储方法、系统、介质和设备
CN109359026A (zh) 日志上报方法、装置、电子设备及计算机可读存储介质
CN109905385A (zh) 一种webshell检测方法、装置及系统
CN110532176A (zh) 一种智能合约的形式化验证方法、电子装置及存储介质
CN107861981A (zh) 一种数据处理方法及装置
US11354345B2 (en) Clustering topics for data visualization
CN109460663A (zh) 一种智能合约审计方法、装置及其存储介质
CN107402855A (zh) 一种硬盘的检测方法、装置及服务器
CN108074033A (zh) 指标数据的处理方法、系统、电子设备和存储介质
CN103886092A (zh) 一种提供终端故障问题解决方案的方法及装置
CN111666766A (zh) 数据处理方法、装置和设备
CN108460068A (zh) 报表导入导出的方法、装置、存储介质及终端
US10823782B2 (en) Ensuring completeness of interface signal checking in functional verification
US11095953B2 (en) Hierarchical video concept tagging and indexing system for learning content orchestration
CN108875374A (zh) 基于文档节点类型的恶意pdf检测方法及装置
CN105824647A (zh) 一种表单页面生成方法和装置
CN107688609A (zh) 一种职位标签推荐方法和计算设备
US10719482B2 (en) Data comparison
US10073938B2 (en) Integrated circuit design verification
Szymczak Stable Morse decompositions for piecewise constant vector fields on surfaces
US20200327364A1 (en) Clustering simulation failures for triage and debugging
Yano et al. Labeling feature-oriented software clusters for software visualization application
CN104572921A (zh) 一种跨数据中心的数据同步方法和装置
CN115129885A (zh) 实体链指方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant