CN112883376A

CN112883376A - 一种文件处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112883376A
Application number: CN202110199076.1A
Authority: CN
Inventors: 杨达明
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-01

Abstract

本申请实施例公开了一种文件处理方法，该方法包括：获取携带有恶意信息的样本文件；获取样本文件的恶意对象和样本文件中除恶意对象之外的对象；其中，恶意对象是恶意信息对应的对象；样本文件中除恶意对象之外的对象包括样本文件的根对象；对样本文件中的对象进行排序，生成至少包括恶意对象和根对象的对象序列；其中，对象序列用于表征样本文件中多个对象的排列次序。本申请实施例同时还公开一种文件处理装置、设备及计算机可读存储介质。

Description

一种文件处理方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及文件处理领域，尤其涉及一种文件处理方法、装置、设备及计算机可读存储介质。

背景技术

在日常工作或学习中，往往需要利用到一些办公软件，例如需要打开一些PDF文件进行查阅，但是PDF文件中可能会存在恶意特征，例如恶意行为代码、恶意链接等。若用户查阅的PDF文件中存在恶意特征，会存在恶意特征恶意攻击用户的计算机设备的情况。为了避免上述情况发生，相关技术中通过搜索预设恶意特征的字符串来确定PDF文档中是否存在恶意特征。但是，相关技术中确定PDF文件是否为恶意文件的方案存在误判的情况，导致准确率低。

发明内容

为解决上述技术问题，本申请实施例期望提供一种文件处理方法、装置、设备及计算机可读存储介质，提高了判断待处理文件是否为恶意文件的准确率，减少误判。

为达到上述目的，本申请的技术方案是这样实现的：

一种文件处理方法，所述方法包括：

获取携带有恶意信息的样本文件；

获取所述样本文件的恶意对象和所述样本文件中除所述恶意对象之外的对象；其中，所述恶意对象是所述恶意信息对应的对象；其中，所述样本文件中除所述恶意对象之外的对象包括所述样本文件的根对象；

对所述样本文件中的对象进行排序，生成至少包括所述恶意对象和所述根对象的对象序列；所述对象序列用于表征所述样本文件中多个对象的排列次序。

上述方案中，所述对所述样本文件中的对象进行排序，生成至少包括所述恶意对象和所述根对象的对象序列，包括：

获取所述恶意对象的对象内容和所述样本文件中除所述恶意对象之外的对象的对象内容；

基于所述恶意对象的对象内容和所述样本文件中除所述恶意对象之外的对象的对象内容，对所述样本文件的对象进行处理，以获得所述对象序列。

上述方案中，所述基于所述恶意对象的对象内容和所述样本文件中除所述恶意对象之外的对象的对象内容，对所述样本文件的对象进行处理，以获得所述对象序列，包括：

基于所述恶意对象的对象内容和所述样本文件中除所述恶意对象之外的对象的对象内容，确定所述样本文件中对象之间的引用关系；

基于所述引用关系对所述样本文件中的对象进行处理，以获得所述对象序列。

上述方案中，所述基于所述引用关系对所述样本文件中的对象进行处理，以获得所述对象序列，包括：

基于所述引用关系对所述样本文件中的对象进行排序处理，并基于排序后的对象确定对象树；

基于所述对象树，获得所述对象序列。

上述方案中，所述基于所述对象树，获得所述对象序列，包括：

从所述恶意对象开始遍历所述对象树中的对象直到找到所述根对象，确定出结构路径；其中，所述结构路径中包括的对象不重复；

或，从所述根对象开始遍历所述对象树中的对象直到找到所述恶意对象，确定从所述根对象至所述恶意对象的路径为所述结构路径；其中，所述结构路径中包括的对象不重复；

基于所述结构路径对与所述结构路径相关的对象进行排序，获得所述对象序列。

一种文件处理方法，所述方法包括：

获取待处理文件中的每个对象；

将对象序列中的对象与所述待处理文件中的对象进行匹配处理，并基于匹配结果确定所述待处理文件是否为恶意文件；其中所述对象序列用于表征所述样本文件中多个对象的排列次序。

上述方案中，所述将对象序列中的对象与待处理文件中的对象进行匹配处理，并基于匹配结果确定所述待处理文件是否为恶意文件，包括：

基于所述待处理文件的对象的引用关系，对所述待处理文件的对象进行排序，得到待处理对象序列；其中，对所述待处理文件的对象的排序方式和所述对象序列的排序方式相同；

若所述待处理对象序列中存在所述对象序列，确定所述待处理文件为所述恶意文件；

若所述待处理对象序列中不存在所述对象序列，确定所述待处理文件为安全文件。

一种文件处理装置，所述装置包括：

获取单元，用于获取携带有恶意信息的样本文件；

所述获取单元，还用于获取所述样本文件的恶意对象和所述样本文件中除所述恶意对象之外的对象；其中，所述恶意对象是所述恶意信息对应的对象；所述样本文件中除所述恶意对象之外的对象包括所述样本文件的根对象；

处理单元，用于对所述样本文件中的对象进行排序，生成至少包括所述恶意对象和所述根对象的对象序列；其中，所述对象序列用于表征所述样本文件中多个对象的排列次序。

一种文件处理装置，所述装置包括：

第二获取单元，用于获取待处理文件中的每个对象；

第二处理单元，用于将对象序列中的对象与所述待处理文件中的对象进行匹配处理，并基于匹配结果确定所述待处理文件是否为恶意文件；其中所述对象序列用于表征所述样本文件中多个对象的排列次序。

一种文件处理设备，所述文件处理设备包括：第一处理器、第一存储器和第一通信总线；

所述第一通信总线用于实现所述第一处理器和所述第一存储器之间的通信连接；

所述第一处理器用于执行所述第一存储器中存储的文件处理程序，以实现上述所述文件处理方法的步骤。

一种文件处理设备，所述文件处理设备包括：第二处理器、第二存储器和第二通信总线；

所述第二通信总线用于实现所述第二处理器和所述第二存储器之间的通信连接；

所述第二处理器执行所述第二存储器中存储的文件处理程序，以实现上述所述文件处理方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现文件处理方法的步骤。

本申请实施例所提供的文件处理方法、装置、设备及计算机可读存储介质，获取携带有恶意信息的样本文件；获取样本文件的恶意对象和样本文件中除恶意对象之外的对象；其中，恶意对象是恶意信息对应的对象；其中，样本文件中除恶意对象之外的对象包括样本文件的根对象；对样本文件中的对象进行排序，生成至少包括恶意对象和根对象的对象序列；对象序列用于表征样本文件中多个对象的排列次序；如此，对样本文件中的对象进行排序来生成对象序列，后续可以根据对象序列来判断待处理文件是否为恶意文件，无需通过搜索字符串的方式来确定待处理文件是否为恶意文件，提高了确定待处理文件是否为恶意文件的准确率。

附图说明

图1为本申请实施例的提供的一种文件处理方法的流程示意图；

图2为本申请另一实施例的提供的一种文件处理方法的流程示意图；

图3为本申请又一实施例的提供的一种文件处理方法的流程示意图；

图4为本申请又一实施例提供的一种文件处理方法的场景示意图；

图5为本申请又一实施例的提供的一种文件处理方法的流程示意图；

图6为本申请实施例提供的一种文件处理装置的结构示意图；

图7为本申请另一实施例提供的一种文件处理装置的结构示意图；

图8为本申请实施例提供的一种文件处理设备的结构示意图；

图9为本申请另一实施例提供的一种文件处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供一种文件处理方法，该方法应用于文件处理设备中，如图1所示，该方法包括以下步骤：

S101、获取携带有恶意信息的样本文件。

其中，恶意信息包括但不限于恶意代码和/或恶意链接；样本文件的类型包括但不限于便携式文档结构格式(Portable Document Format，PDF)。

在本申请实施例中，该文件处理设备可以为具有文件处理分析功能的设备。在一种可行的实现方式中，以样本文件的类型为PDF为例，携带有恶意信息的样本文件可以是基于某一类型的恶意代码和未携带任何恶意信息的PDF文件生成的恶意PDF文件；也就是说，可以将恶意代码添加至未携带任何恶意信息的PDF文件中来生成。

需要说明的是，以恶意信息为恶意代码为例，一个恶意代码经多态或变形后，与源代码仍旧是同源恶意代码，虽然代码表现形式不同，但实现的是相同的恶意行为，将这种表现形式不同但实现相同恶意行为的代码集合可以称之为一个恶意代码家族或同族恶意代码。

S102、获取样本文件的恶意对象和样本文件中除恶意对象之外的对象。

其中，恶意对象是恶意信息对应的对象；样本文件中除恶意对象之外的对象包括样本文件的根对象。

在一种可行的实现方式中，恶意信息对应的对象可以是PDF文件的对象中携带有恶意代码的对象；样本文件中除恶意对象之外的对象可以是PDF文件的对象中除携带有恶意代码的对象之外不携带有恶意代码的对象。

本申请实施例中，样本文件中的恶意对象和样本文件中除恶意对象之外的对象可以是文件处理设备对样本文件的数据结构中的所有对象进行分析得到的。

需要说明的是，对象是构成PDF文件的基本数据结构。一个PDF文件可以分为4个部分，分别为文件头、文件体、交叉引用表和文件尾。其中，根对象存在于一个PDF文件的文件尾，一个PDF文件有且只有一个根对象。

S103、对样本文件中的对象进行排序，生成至少包括恶意对象和根对象的对象序列。

其中，对象序列用于表征样本文件中多个对象的排列次序。

在本申请实施例中，文件处理设备可以通过对样本文件中的所有对象进行排序，根据排序后的对象来生成对象序列。

需要说明的是，对象序列中可以包括多个按照一定顺序排列的对象；该对象序列为恶意信息所在对象在恶意PDF文件中的结构特征，即恶意信息在恶意PDF文件中的结构特征。

在本申请实施例中，从恶意PDF文件的数据结构上基于恶意PDF文件中的恶意对象和恶意PDF文件中除恶意对象之外的对象，确定恶意对象所在恶意PDF文件中的结构特征；对于同族恶意代码而言，尽管恶意代码的表现形式不断变化，但是恶意代码结构特征(也称之为数据结构特征)并不会改变，也就说对于同族恶意代码在不同PDF文件中的结构特征是相同的。因此，基于此特性可以针对携带有恶意代码的PDF文件，获取其恶意代码所在PDF文件中的结构特征，以便后续基于恶意代码所在PDF文件中的结构特征来识别恶意代码，提高确定待处理文件为恶意文件的准确率。

本申请实施例所提供的文件处理方法，对样本文件中的对象进行排序来生成对象序列，后续可以根据对象序列来判断待处理文件是否为恶意文件，无需通过搜索字符串的方式来确定待处理文件是否为恶意文件，提高了确定待处理文件是否为恶意文件的准确率。

基于前述实施例，本申请实施例提供一种文件处理方法，该方法可以应用于文件处理设备中，参照图2所示，该方法包括以下步骤：

S201、文件处理设备获取携带有恶意信息的样本文件。

S202、文件处理设备获取样本文件的恶意对象和样本文件中除恶意对象之外的对象。

S203、文件处理设备获取恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容。

在本申请实施例中，以样本文件为恶意PDF文件为例，文件处理设备可以将恶意PDF文件转换为二进制流的字符串的恶意PDF文件，并对转换后的恶意PDF文件进行扫描，以获取恶意对象的对象内容和恶意PDF文件中除恶意对象之外的对象的对象内容。

下述通过示例对PDF的数据结构中对象的对象内容进行解释说明。

对于任一PDF文件中的某一对象的对象表现形式如下：

3 0obj

《

/Type/pages

/Count1

/kids[4 0R]

》

endobj

其中，第一行中的数字“3”指代的是对象号，用来标识唯一一个对象的，第一行中的数字“0”指代的是产生号，用来表明它在被创建后的第几次修改，所有新创建的PDF文件的对象号都为“0”，即第一次被创建以后没有被修改过；上述举例表明，该对象的对象号为“3”，且创建后未被修改过；对象的对象内容为“《”和“》”之间的内容、第三行中的“pages”指代的是对象的类型为页码、第三行中的“/Type/pages”指代的是对象自身的属性、第四行中“/Count1”指代的是说明页码数量为“1”，第五行“/Kids[4 0R]”中数字“4”指代的是该对象对对象号为“4”的对象的引用，最后以endobj表示结束。

需要说明的是，对于未携带有恶意信息的PDF文件而言，PDF文件中对象的对象号、对象的各属性描述顺序以及所引用的对象的对象号均是可变的，但是对象内容并不会改变，也就说PDF文件的数据结构并不会改变。

S204、文件处理设备基于恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容，对样本文件的对象进行处理，以获得对象序列。

在本申请实施例中，文件处理设备可以基于样本文件中所有对象的对象内容，对样本文件中的所有对象按照一定次序进行排序，并根据排序后的对象生成对象序列。

在一种可行的实现方式中，可以通过对恶意PDF文件中携带恶意信息的对象的对象内容和样本文件中除恶意对象之外的对象的对象内容进行分析后，对恶意对象和样本文件中除恶意对象之外的对象进行排序和筛选以获得对象序列。

具体的，S204文件处理设备基于恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容，对恶意对象和样本文件中除恶意对象之外的对象进行处理生成对象序列可以由S204a-S204b来实现：

S204a、文件处理设备基于恶意对象的对象内容和样本文件中除恶意对象之外的对象的内容，确定样本文件中对象之间的引用关系。

在本申请实施例中，文件处理设备可以对恶意PDF文件中所有对象的内容进行扫描，并确定每一对象所引用的对象，从而得到恶意PDF文件的对象之间的引用关系。其中，引用关系可以为对象内容之间的引用关系，或对象类别之间的引用关系(如对象1引用对象4指的是对象1的对象内容与对象4的对象内容之间的引用关系，和/或对象1的对象类别与对象4的对象类别之间的引用关系)。

在一种可行的实现方式中，继续上述举例，基于该对象的对象内容中“/Kids[40R]”来确定该对象对对象号为4的对象的引用；同理，基于每个对象的对象内容可以确定出每一对象所引用的对象，从而得到恶意PDF文件的对象之间的引用关系并还可以确定每一对象被哪些对象所引用。

S204b、文件处理设备基于引用关系对样本文件中的对象进行处理，以获得对象序列。

需要说明的是，虽然是基于引用关系对样本文件中的对象进行处理来得到对象序列的，但是得到对象序列并不依赖于对象顺序或对象号来实现，而是基于对象的对象内容和对象的类别来实现的。其中，对象顺序指的是某一对象所在PDF文件中的位置，对于不同的PDF文件，同一对象在不同PDF文件中的位置是不同的。

在一种可行的实现方式中，若对象1引用对象2，对象2引用对象3，对象3引用对象4，其中，1、2、3和4分别为对象号，引用关系并不是指对象号之间的引用，而是重新根据对象号来确定的对象内容之间的引用和对象类别之间的引用。

需要说明的是，对于两个PDF文件，若两个PDF的数据结构均相同，但在第一PDF文件中对象1引用对象2，对象2引用对象3，对象3引用对象4；假设生成的对象序列为对象的对象号组成的集合“1-2-3-4”；但在第二PDF文件中，对象1、对象2、对象3和对象4的对象内容所在的对象号均发生改变，依次变为对象6、对象7、对象8和对象9；对象6引用对象7，对象7引用对象8，对象8引用对象9，假设生成的对象序列为对象的对象号组成的集合“6-7-8-9”；明显，两个数据结构均相同的PDF文件生成的对象序列是不同的；因此，在本申请实施例中不依赖于对象顺序或对象号来生成对象序列，而是需要基于样本文件中对象号所对应的对象的对象内容来确定对象序列。

本申请实施例提供的文件处理方法，对样本文件中的对象进行排序来生成对象序列，后续可以根据对象序列来判断待处理文件是否为恶意文件，无需通过搜索字符串的方式来确定待处理文件是否为恶意文件，提高了确定待处理文件是否为恶意文件的准确率。

基于前述实施例，本申请的实施例提供一种文件处理方法，如图3所示，该方法包括以下步骤：

S301、文件处理设备获取携带有恶意信息的样本文件。

S302、文件处理设备获取样本文件的恶意对象和样本文件中除恶意对象之外的对象。

S303、文件处理设备获取恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容。

S304、文件处理设备基于恶意对象的对象内容和样本文件中除恶意对象之外的对象的内容，确定样本文件中对象之间的引用关系。

S305、文件处理设备基于引用关系对样本文件中的对象进行排序处理，并基于排序后的对象确定对象树。

在本申请实施例中，依据样本文件中两两对象之间的引用关系，可以对样本文件中的对象进行排序，排序方式可以从根对象开始排序，也可以是从恶意对象进行排序，并基于排序后的对象按照一定顺序来确定对象树。

在一种可行的实现方式中，文件处理设备可以是对样本文件中的对象依据引用关系进行排序，并对排序后的对象按照一定顺序来确定对象树；其中，排序方式可以为从恶意对象开始到根对象进行排序，或从根对象开始到恶意对象进行排序，最终确定对象树。

需要说明的是，对象树只是样本文件中排序后的对象的表现形式，还可以是基于排序后的对象确定的对象图，本申请实施例对样本文件中排序后的对象的表现形式不作限定。

S306、文件处理设备基于对象树，生成对象序列。

在本申请实施例中，文件处理设备对对象树可以采用不同方式进行遍历，以生成对象序列；具体S306可以通过S306a和S306c来实现，或S306可以通过S306b和S306c来实现。

S306a、文件处理设备从恶意对象开始遍历对象树中的对象直到找到根对象，确定出结构路径。

其中，结构路径中包括的对象不重复。

在本申请实施例中，在遍历对象树中的对象的过程中，若遍历的下一节点的对象的对象号已经出现在此次遍历的路径中，那么文件处理设备会自动结束此次遍历的错误路径，并保存该错误路径。在继续遍历对象树中的对象时，便不会再遍历该错误路径。

在一种可行的实现方式中，如图4所示，若11为恶意对象的对象号；1为根对象的对象号，若从对象号11开始遍历，路径“11-12-11-7-4-1”是不被允许的，按照预设顺序遍历时在“11-12”遍历下一个节点若为“11”则会自动结束该错误路径，并保存错误路径，在继续进行遍历时，便不会再遍历“11-12-11”的节点。

S306b、文件处理设备从根对象开始遍历对象树中的对象直到找到恶意对象，确定从根对象至恶意对象的路径为结构路径。

其中，结构路径中包括的对象不重复。

在一种可行的实现方式中，如图4所示，若从对象号“11”开始遍历，“1-4-7-10-7-11”这种情况是不被允许的，根据预设顺序遍历时在“1-4-7-10”遍历下一个节点若对象号为“7”则会自动结束该错误路径，并保存错误路径，在继续进行遍历时，便不会在遍历“1-4-7-10-7”的节点。

S306c文件处理设备基于结构路径对与结构路径相关的对象进行排序，获得对象序列。

需要说明的是，结构路径只是从根对象到恶意对象的路径，结构路径可以用对象号来表示，但是具体获取对象序列时，需要根据结构路径上对象号所指示的对象内容和/或对象类别来获得对象序列。

在本申请实施例中，若结构路径为“1-4-7-11”，则可以对“1-4-7-11”进行排序，排序后得到正向路径或反向路径，其中，正向路径可以为从恶意对象到根对象的路径；反向路径可以为根对象到恶意对象的路径。基于正向路径或反向路径上的对象内容和/或对象类别来生成对象序列。

需要说明的是，基于对象内容来生成对象序列，可以通过不同方式来实现，如部分对象内容或全部对象内容来实现，下述通过不同示例，对基于对象内容来生成对象序列进行详细的解释说明。

在一种可行的实现方式中，文件处理设备可以提取正向路径或反向路径上每个对象的对象内容，基于每个对象的对象内容来生成对象序列，以正向路径为例，若正向路径为“1-4-7-11”；文件处理设备获取“1-4-7-11”每个对象号所对应的对象的对象内容，则对象序列为“1-4-7-11”依次排布的每个对象的对象内容。

在另一种可行的是实现方式中，文件处理设备可以只提取正向路径或反向路径上恶意对象的对象内容，对于正向路径或反向路径上恶意对象之外的对象只提取其类别(对象的类型)即可，基于提取的恶意对象的对象内容、正向路径或反向路径上恶意对象之外的对象的对象类别来构建对象序列。

需要说明的是，无论采用何种方式基于对象内容来得到对象序列，得到的对象序列中必须包括恶意对象的对象内容。

基于前述实施例，本申请的实施例提供一种文件处理方法，该方法可以应用于文件处理设备中，参照图5所示，该方法包括以下步骤：

S401、文件处理设备获取待处理文件中的每个对象。

其中，待处理文件的类型和样本文件的类型相同。

若样本文件为恶意PDF文件，则待处理文件也为PDF文件；在一种可行的实现方式中，可以通过预设程序对待处理文件进行扫描，以获取待处理文件中的每个对象。

S402、文件处理设备将对象序列中的对象与待处理文件中的对象进行匹配处理，并基于匹配结果确定待处理文件是否为恶意文件。

其中，对象序列用于表征样本文件中多个对象的排列次序。

在本申请实施例中，对象序列为恶意信息在PDF文件中的结构特征，基于对象序列中的对象对待处理文件中的对象进行匹配处理，判断待处理文件的数据结构中是否具有恶意信息的结构特征，根据判断结果来确定待处理文件是否为恶意文件。

本申请实施例所提供的文件处理方法，基于对象序列对待处理文件中的对象进行处理，便可确定待处理文件是否为恶意文件，无需通过搜索预设恶意特征的字符串的方式来确定待处理文件是否为恶意文件，提高了判断待处理文件是否为恶意文件的准确率。

基于前述实施例，本申请的实施例提供一种文件处理方法，S402还可以通过S402a、S402b和S402c来实现.

S402a、文件处理设备基于待处理文件的对象的引用关系，对待处理文件的对象进行排序，得到待处理对象序列。

其中，对待处理文件的对象的排序方式和对象序列的排序方式相同。

在本申请实施例中，对待处理文件的对象进行排序可以是通过正向排序或反向排序来实现；其中，从根对象开始对待处理文件中的其他对象依次进行排序即反向排序，对根对象之外的任一对象开始对待处理文件中的其它对象依次进行排序即正向排序。

S402b、若待处理对象序列中存在对象序列，文件处理设备确定待处理文件为恶意文件。

在本申请实施例中，文件处理设备可以基于对象序列中的每个对象的对象内容，在待处理文件的待处理对象序列中查询是否存在对象序列中每个对象的对象内容，当存在每个对象的对象内容且每个对象的对象内容满足引用关系时，可以确定待处理文件为恶意文件。

在一种可行的实现方式中，若对象序列中存储着对象1、对象4、对象7、对象11中每个对象的对象内容，且每个对象内容之间满足对象11的对象内容引用对象7的对象内容、对象7的对象内容引用对象4的对象内容、对象4的对象内容引用对象1的对象内容(即11-7-4-1)；若对象11为恶意对象，对象1为根对象，则可以从对象11开始在待处理对象集合中查询是否存在对象11的对象内容；若存在，则可以依次查询是否有对象7的对象内容、对象4的对象内容和对象1的对象内容；当待处理对象序列中同时存在对象11的对象内容、对象7的对象内容、对象4的对象内容和对象1的对象内容时，且满足对象内容之间的引用关系时，则判断待处理文件为恶意文件。

需要说明的是，在上述示例中是基于从恶意对象开始在待处理对象集合中进行匹配的，即是基于正向路径上每个对象的对象内容进行依次匹配的，还可以基于反向路径上每个对象的对象内容进行依次匹配，即从根对象开始，依次在待处理对象集合中查询是否具有反向路径上每个对象的对象内容以及是否满足每个对象内容之间的引用关系。此外，若对象序列中存储着正向路径或反向路径上恶意对象之外的对象的对象类别和恶意对象的对象内容；那么在待处理对象集合中进行匹配时也可以先匹配恶意对象的对象内容，之后依次匹配对象序列中恶意对象之外的其它对象的类别，同样，恶意对象与其它对象的类别也必须满足引用关系。

在一种可行的实现方式中，若对象序列中存储着有对象11的对象内容、对象1的对象类别、对象4的对象类别和对象7的对象类别，且对象11引用的对象的对象类别是对象7的对象类别、对象7引用的对象的对象类别是对象4的对象类别、对象4引用的对象的对象类别是对象1的对象类别，其中，对象11为恶意对象，对象1为根对象。那么在判断待处理文件是否为恶意文件时，可以先在待处理对象序列中查询是否存在对象11的对象内容，若存在，则判断待处理对象序列中与对象11的对象内容相同的对象所引用的对象的对象类别是否与对象序列中对象7的类别相同。同理，若待处理对象序列存在对象序列中恶意对象的对象内容和恶意对象之外的其它对象的类别，且满足引用关系，则确定待处理文件为恶意文件。

S402c、若待处理对象集合中不存在对象序列，文件处理设备确定待处理文件为安全文件。

其中，安全文件指的是未携带恶意信息的PDF文件。

在本申请实施例中，当待处理对象序列中不同时存在对象序列中每个对象的对象内容和对象内容之间的引用关系，则可以确定该待处理文件为安全文件；或，待处理对象集合中不同时存在恶意对象的对象内容和对象序列中恶意对象之外其它对象的对象类别，以及对象之间的引用关系时(对象类别之间的引用关系)时，则确定待处理文件为安全文件。

基于前述实施例，本申请的实施例提供一种文件处理装置，该文件处理装置可以应用于图1-图3对应的实施例提供的文件处理方法中，参照图6所示，该文件处理装置5包括：

第一获取单元51，用于获取携带有恶意信息的样本文件；

第一获取单元51，还用于获取样本文件的恶意对象和样本文件中除恶意对象之外的对象；其中，恶意对象是恶意信息对应的对象；样本文件中除恶意对象之外的对象包括样本文件的根对象；

第一处理单元52，用于对样本文件中的对象进行排序，生成至少包括恶意对象和根对象的对象序列。在本申请实施例中，参照图6所示，第一处理单元52包括：

第一获取模块521，用于获取恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容；

第一处理模块522，用于基于恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容，对样本文件的对象进行处理，以获得对象序列。

在本申请实施例中，第一处理模块522，还用于基于恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容，确定样本文件中对象之间的引用关系；

基于引用关系对样本文件中的对象进行处理，以获得对象序列。

在本申请实施例中，第一处理模块522，还用于基于引用关系对样本文件中的对象进行排序处理，并基于排序后的对象确定对象树；

基于对象树，获得对象序列。

在本申请实施例中，第一处理模块522，还用于从恶意对象开始遍历对象树中的对象直到找到根对象，确定出结构路径；其中，结构路径中包括的对象不重复；

或，从根对象开始遍历对象树中的对象直到找到恶意对象，确定从根对象至恶意对象的路径为结构路径；其中，结构路径中包括的对象不重复；

基于结构路径对与结构路径相关的对象进行排序，获得对象序列。

需要说明的是，本申请实施例中各单元和模块之间的交互过程，可以参照图1～图3对应的实施例提供的文件处理方法中的实现过程，此处不再赘述。

本申请实施例所提供的文件处理装置，对样本文件中的对象进行排序来生成对象序列，后续可以根据对象序列来判断待处理文件是否为恶意文件，无需通过搜索字符串的方式来确定待处理文件是否为恶意文件，提高了确定待处理文件是否为恶意文件的准确率。

基于前述实施例，本申请的实施例提供一种文件处理装置，该文件处理装置6可以应用于图5对应的实施例提供的文件处理方法中，参照图7所示，该文件处理装置6包括：

第二获取单元61，用于获取待处理文件中的每个对象；

第二处理单元62，用于将对象序列中的对象与待处理文件中的对象进行匹配处理，并基于匹配结果确定待处理文件是否为恶意文件；其中对象序列用于表征样本文件中多个对象的排列次序。

在本申请实施例中，参照图7所示，第二处理单元62包括：

第二获取模块621，用于确定待处理文件是否为恶意文件，包括：

基于待处理文件的对象的引用关系，对待处理文件的对象进行排序，得到待处理对象序列；其中，对待处理文件的对象的排序方式和对象序列的排序方式相同

第二处理模块622，用于若待处理对象序列中存在对象序列，确定待处理文件为恶意文件；

第二处理模块622，还用于若待处理对象序列中不存在对象序列，确定待处理文件为安全文件。

需要说明的是，本申请实施例中各单元和模块之间的交互过程，可以参照图5对应的实施例提供的文件处理方法中的实现过程，此处不再赘述。

本申请实施例所提供的文件处理装置，基于对象序列对待处理文件中的对象进行处理，便可确定待处理文件是否为恶意文件，无需通过搜索预设恶意特征的字符串的方式来确定待处理文件是否为恶意文件，提高了判断待处理文件是否为恶意文件的准确率。

基于前述实施例，本申请的实施例提供一种文件处理设备7，参照图8，该文件处理设备8包括：第一存储器71、第一处理器72和第一通信总线73；

第一通信总线73用于实现第一处理器72和第一存储器71之间的通信连接；

第一处理器72用于执行存储器71中存储的文件处理程序，以实现以下步骤：

获取携带有恶意信息的样本文件；

获取样本文件的恶意对象和样本文件中除恶意对象之外的对象；其中，恶意对象是恶意信息对应的对象；样本文件中除恶意对象之外的对象包括样本文件的根对象；

对样本文件中的对象进行排序，生成至少包括恶意对象和根对象的对象序列；对象序列用于表征样本文件中多个对象的排列次序。

在本申请的其他实施例中，第一处理器72用于执行第一存储器71中存储的可执行指令，以实现以下步骤：

获取恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容；

基于恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容，对样本文件的对象进行处理，以获得对象序列。

基于恶意对象的对象内容和样本文件中除恶意对象之外的对象的对象内容，确定样本文件中对象之间的引用关系；

基于引用关系对样本文件中的对象进行排序处理，并基于排序后的对象确定对象树；

基于对象树，获得对象序列。

从恶意对象开始遍历对象树中的对象直到找到根对象，确定出结构路径；其中，结构路径中包括的对象不重复；

需要说明的是，本申请实施例中第一处理器51所执行的步骤的具体实现过程，可以参照图1～图3对应的实施例提供的文件处理方法中的实现过程，此处不再赘述。

本申请实施例提供的文件处理设备，对样本文件中的对象进行排序来生成对象序列，后续可以根据对象序列来判断待处理文件是否为恶意文件，无需通过搜索字符串的方式来确定待处理文件是否为恶意文件，提高了确定待处理文件是否为恶意文件的准确率。

基于前述实施例，本申请的实施例提供一种文件处理设备，参照图9所示，该文件处理设备8包括：第二存储器81、第二处理器82、和第二通信总线83；

第二通信总线83用于实现处理器82和存储器81之间的通信连接；

第二处理器82用于执行第二存储器81中存储的文件处理程序，以实现以下步骤：

获取待处理文件中的每个对象；

将对象序列中的对象与待处理文件中的对象进行匹配处理，并基于匹配结果确定待处理文件是否为恶意文件；其中对象序列用于表征样本文件中多个对象的排列次序。

在本申请的其他实施例中，第二处理器82用于执行第二存储器81中存储的可执行指令，以实现以下步骤：

基于待处理文件的对象的引用关系，对待处理文件的对象进行排序，得到待处理对象序列；其中，对待处理文件的对象的排序方式和对象序列的排序方式相同；

若待处理对象序列中存在对象序列，确定待处理文件为恶意文件；

若待处理对象序列中不存在对象序列，确定待处理文件为安全文件。

需要说明的是，本申请实施例中第二处理器82所执行的步骤的具体实现过程，可以参照图5对应的实施例提供的文件处理方法中的实现过程，此处不再赘述。

本申请实施例所提供的文件处理设备，基于对象序列对待处理文件中的对象进行处理，便可确定待处理文件是否为恶意文件，无需通过搜索预设恶意特征的字符串的方式来确定待处理文件是否为恶意文件，提高了判断待处理文件是否为恶意文件的准确率。

基于前述实施例本申请的实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现图1～3和图5对应的实施例提供的文件处理方法中的步骤。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，上述计算机可读存储介质可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所描述的方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文件处理设备的处理器以产生一个机器，使得通过计算机或其他可编程文件处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程文件处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程文件处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文件处理方法，其特征在于，所述方法包括：

获取携带有恶意信息的样本文件；

获取所述样本文件的恶意对象和所述样本文件中除所述恶意对象之外的对象；其中，所述恶意对象是所述恶意信息对应的对象；所述样本文件中除所述恶意对象之外的对象包括所述样本文件的根对象；

对所述样本文件中的对象进行排序，生成至少包括所述恶意对象和所述根对象的对象序列；其中，所述对象序列用于表征所述样本文件中多个对象的排列次序。

2.根据权利要求1所述的方法，其特征在于，所述对所述样本文件中的对象进行排序，生成至少包括所述恶意对象和所述根对象的对象序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述恶意对象的对象内容和所述样本文件中除所述恶意对象之外的对象的对象内容，对所述样本文件的对象进行处理，以获得所述对象序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述引用关系对所述样本文件中的对象进行处理，以获得所述对象序列，包括：

基于所述对象树，获得所述对象序列。

5.根据权利要求4所述的方法，其特征在于，所述基于所述对象树，获得所述对象序列，包括：

6.一种文件处理方法，其特征在于，所述方法包括：

获取待处理文件中的每个对象；

7.根据权利要求6所述的方法，其特征在于，所述将对象序列中的对象与所述待处理文件中的对象进行匹配处理，并基于匹配结果确定所述待处理文件是否为恶意文件，包括：

8.一种文件处理装置，其特征在于，所述装置包括：

第一获取单元，用于获取携带有恶意信息的样本文件；

所述第一获取单元，还用于获取所述样本文件的恶意对象和所述样本文件中除所述恶意对象之外的对象；其中，所述恶意对象是所述恶意信息对应的对象；所述样本文件中除所述恶意对象之外的对象包括所述样本文件的根对象；

第一处理单元，用于对所述样本文件中的对象进行排序，生成至少包括所述恶意对象和所述根对象的对象序列；其中，所述对象序列用于表征所述样本文件中多个对象的排列次序。

9.一种文件处理装置，其特征在于，所述装置包括：

第二获取单元，用于获取待处理文件中的每个对象；

10.一种文件处理设备，其特征在于，所述文件处理设备包括：第一处理器、第一存储器和第一通信总线；

所述第一处理器用于执行所述第一存储器中存储的文件处理程序，以实现上述权利要求1-5任一所述文件处理方法的步骤。

11.一种文件处理设备，其特征在于，所述文件处理设备包括：第二处理器、第二存储器和第二通信总线；

所述第二处理器执行所述第二存储器中存储的文件处理程序，以实现上述权利要求6或7所述文件处理方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至5或6至7任一项所述的文件处理方法的步骤。