CN115374075A

CN115374075A - 一种文件类型识别方法及装置

Info

Publication number: CN115374075A
Application number: CN202210917644.1A
Authority: CN
Inventors: 李忠鹏; 王世彪; 王志海; 喻波; 韩振国
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-22
Anticipated expiration: 2042-08-01
Also published as: CN115374075B

Abstract

本发明提供了一种文件类型识别方法、装置、电子设备及可读存储介质，通过获取待识别文件的头部字段与文件扩展名，与第一对应关系比较，确定待识别文件的文件类型，在第一对应关系无法确定文件类型时，将待识别文件的文件扩展名与第二对应关系中的文件扩展名匹配，在匹配时，通过待识别字段的头部数据与第二对应关系中的头部数据，确定待识别文件的魔鬼数字字段，将对应关系更新至第一对应关系中后，在下一次遇到与待识别文件的文件类型相同的文件时，即可以通过第一对应关系中保存的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型，通过不断智能学习未知文件类型并更新第一对应关系，使对于自定义文件或未知文件均可以被识别。

Description

一种文件类型识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文件类型识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的高速发展，不同的企业或者团队，为了避免文件信息外泄，在企业内部或者团队内部，常常采用自定义类型的文件进行信息交互。

目前，为了确定文件类型，通常通过文件扩展名获取到文件的文件类型。或者获取文件的文件魔数，在预先设置的魔数表格中查找文件魔数对应的文件类型，将查找到的文件类型确定为文件的类型。

但文件的扩展名是可以被篡改的，被篡改后的文件，如果仍根据文件扩展名确定文件类型，就会导致文件类型识别错误，进而不能打开该文件，并且自定义类型的文件的文件魔数不存在于魔数表格中，导致无法识别该文件。

发明内容

本发明实施例提供一种文件类型识别方法、装置、电子设备及计算机可读存储介质，以解决现有技术中对自定义文件或未知文件无法识别的问题。

第一方面，本发明实施例提供了一种文件类型识别方法，所述方法包括：

获取待识别文件的头部字段和文件扩展名；

判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配，所述第一对应关系包括魔鬼数字字段与文件扩展名的对应关系；

若所述第一目标字段与所述魔鬼数字字段不匹配，则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配，所述第二对应关系包括头部字段与文件扩展名的对应关系；

若所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名匹配，则通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，确定所述待识别文件的魔鬼数字字段，并将所述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第一对应关系中，同时将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型。

第二方面，本发明实施例提供了一种文件类型识别装置，所述装置包括：

待识别文件获取模块，用于获取待识别文件的头部字段和文件扩展名；

第一判断模块，用于判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配，所述第一对应关系包括魔鬼数字字段与文件扩展名的对应关系；

第二判断模块，用于若所述第一目标字段与所述魔鬼数字字段不匹配，则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配，所述第二对应关系包括头部字段与文件扩展名的对应关系；

文件类型确定模块，用于若所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名匹配，则通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，确定所述待识别文件的魔鬼数字字段，并将所述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第一对应关系中，同时将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型。

第三方面，本发明实施例还提供了一种电子设备，包括处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现所述第一方面的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行所述第一方面的方法。

在本发明实施例中，获取待识别文件的头部字段与文件扩展名，将待识别文件的头部字段与第一对应关系比较，确定头部字段中的目标字段是否与第一对应关系中的魔鬼数字字段匹配，在匹配时，可以直接将魔鬼数字字段对应的文件类型作为待识别文件的文件类型，在待识别文件的头部字段无法与第一对应关系比较时，将待识别文件的文件扩展名与第二对应关系中的文件扩展名匹配，在匹配时，通过待识别字段的头部数据与第二对应关系中的头部数据，可以确定待识别文件的魔鬼数字字段，将待识别文件的魔鬼数字字段与文件扩展名的对应关系更新至第一对应关系中后，在下一次遇到与待识别文件的文件类型相同的文件时，即可以通过第一对应关系中保存的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型，通过不断智能学习未知文件类型并更新第一对应关系，使得对于自定义文件或未知文件均可以被识别，降低文件识别的错误率，提升文件识别的灵活性与准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1是本发明实施例提供的一种文件类型识别方法步骤流程图；

图2是本发明实施例提供的另一种文件类型识别方法步骤流程图；

图3是本发明实施例提供的文件类型解析流程图；

图4是本发明实施例提供的一种获取魔鬼数字字段的方法图；

图5是本发明实施例提供的另一种获取魔鬼数字字段的方法图；

图6是本发明实施例提供的一种文件类型识别装置的框图；

图7是本发明实施例提供的一种电子设备的逻辑框图；

图8是本发明实施例提供的一种另一种电子设备的逻辑框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1，是本发明实施例提供的一种文件类型识别方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、获取待识别文件的头部字段和文件扩展名。

本发明实施例中，文件的头部字段是位于文件开头的一段承担一定任务的数据，文件头部字段可以描述一个文件的一些重要的属性，比如大小、格式等，处理该文件的程序可以通过头部字段对该文件进行打开和读取，在获取待识别文件的头部字段时，可以设置获取的头部字段长度，例如，每次均获取前128字节或前64字节，本发明实施例在此不作限定，若待识别文件的头部字段不足128字节或64字节，则获取待识别文件的整个字节内容。文件扩展名为用来标识文件格式的一种机制，例如：对于文件名 “example.txt”，example是文件主名，txt为文件扩展名，表示这个文件是一个纯文字文件，句号“.”就是文件主名与文件扩展名的分隔符号。

进一步地，文件的头部字段中通常包含有可以标识文件类型的几个固定字节，称为文件魔鬼数字，例如，JPG格式文件头部字段中通常包含“FF D8 FF E0”，GIF格式文件头部字段中通常包含“47 49 46 38”，PNG格式文件头部字段中通常包含“89 50 4E 47”，在获取文件的头部字段后，通过头部字段中包含的文件魔鬼数字，即可以识别文件的文件类型，并对文件进行打开，避免了仅通过扩展名识别，在扩展名被篡改时，导致的文件无法打开的情况。

步骤102、判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配，所述第一对应关系包括魔鬼数字字段与文件扩展名的对应关系。

本发明实施例中，第一对应关系为已经记录的魔鬼数字字段与文件扩展名的对应关系，在获取到待识别文件的头部字段后，可以判断待识别文件的头部字段中是否包含记录在第一对应关系的魔鬼数字字段，若待识别文件的第一目标字段与第一对应关系的魔鬼数字字段匹配，可以直接将魔鬼数字字段对应的文件扩展名的类型作为待识别文件的文件类型。

进一步地，大多数包含魔鬼数字字段的文件类型，其魔鬼数字字段为从文件的头部字段的开头起始，有部分文件其魔鬼数字字段不从文件的头部字段的开头开始，这种情况称为文件的魔鬼数字字段的的起始偏移，简称文件魔数偏移，因此，在第一对应关系中不仅记录了文件的魔鬼数字字段与文件扩展名的对应关系，还记录有文件的魔鬼数字字段的起始位置以及魔鬼数字字段的长度与文件扩展名的对应关系，在将待识别文件的头部字段与第一对应关系中记录的数据进行比较时，可以根据第一对应关系中记录的魔鬼数字字段的起始位置以及魔鬼数字字段的长度对应获取待识别文件相应起始位置以及长度的第一目标字段，判断第一目标字段是否与第一对应关系中的魔鬼数字字段一致，一致则可以将第一对应关系中的魔鬼数字字段对应的文件扩展名的类型作为待识别文件的文件类型，不一致，则认为基于第一对应关系的匹配失败，第一对应关系中未存储有待识别文件的魔鬼数字字段。

例如：在第一对应关系中：魔鬼数字字段为“％PDF-”，魔鬼数字字段的起始位置为0(头部字段的开始位置)，魔鬼数字字段的长度为5，与该魔鬼数字对应的文件扩展名为“PDF”，则将第一对应关系中的魔鬼数字字段以及位置和长度的关系与待识别文件头部字段比较，就可以判断待识别文件的头部字段是否包含第一对应关系中记录的魔鬼数字字段，进而确定待识别文件的文件类型。

步骤103、若所述第一目标字段与所述魔鬼数字字段不匹配时，则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配，所述第二对应关系包括头部字段与文件扩展名的对应关系。

在本发明实施例中，第二对应关系包括头部字段与文件扩展名的对应关系，在第一目标字段与魔鬼数字字段不匹配时，表明在第一对应关系中不包括待识别文件的魔鬼数字字段与文件扩展名的对应关系，此时，可以将待识别文件的文件扩展名与第二对应关系中包括的文件扩展名进行匹配，判断第二对应关系中是否包含有与待识别文件相同的文件扩展名与头部字段的对应关系，若待识别文件的文件扩展名与第二对应关系中的扩展名匹配时，可以进一步通过比较待识别文件的头部字段和第二对应关系中匹配的文件扩展名对应的头部字段，确定待识别文件的魔鬼数字字段。

进一步地，若第二对应关系中不包括待识别文件的文件扩展名，则将待识别文件的头部字段与文件扩展名的对应关系保存在第二对应关系中，第二次遇到与待识别文件的文件扩展名相同的文件时，可以基于保存的第二对应关系，判断第二次的待识别文件的头部字段与已经保存在第二对应关系的头部字段，确定待识别文件的魔鬼数字字段。

步骤104、若所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名匹配，则通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，确定所述待识别文件的魔鬼数字字段，并将所述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第一对应关系中，同时将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型。

在本发明实施例中，在待识别文件的文件扩展名与第二对应关系中的文件扩展名匹配时，可以通过将待识别文件的头部字段与第二对应关系中的头部字段按照顺序逐个比较的方式确定待识别文件的魔鬼数字字段，在比较前，可以设置魔鬼数字字段至少为连续的8位，在比较时，先比较待识别文件的头部字段的第一位与第二对应关系中的头部字段的第一位是否相同，在相同时，记录第一位的值，并继续比较待识别文件的头部字段的第二位与第二对应关系中的头部字段的第二位是否相同，在相同时，记录第二位的值，继续比较待识别文件的头部字段的第三位与第二对应关系中的头部字段的第三位是否相同，若相同，则记录第三位的值，若不同，则放弃之前记录的前两位的值，继续比较待识别文件的头部字段的第四位与第二对应关系中的头部字段的第四位是否相同，直至记录到连续的八位数字相同时，将连续相同的八位数字的起始位置记录，并记录从起始位置开始，连续相同的字段长度和内容，作为待识别文件的魔鬼数字内容。

进一步地，在获得待识别文件的魔鬼数字字段后，可以将获得的魔鬼数字字段与待识别文件的文件扩展名的对应关系保存至第一对应关系，在下一次遇到与待识别文件相同类型的文件时，即可以基于第一对应关系识别待识别文件的头部字段中的魔鬼数字字段，确定待识别文件的文件类型。

综上，本发明实施例通过获取待识别文件的头部字段与文件扩展名，将待识别文件的头部字段与第一对应关系比较，确定头部字段中的目标字段是否与第一对应关系中的魔鬼数字字段匹配，在匹配时，可以直接将魔鬼数字字段对应的文件类型作为待识别文件的文件类型，在待识别文件的头部字段无法与第一对应关系比较时，将待识别文件的文件扩展名与第二对应关系中的文件扩展名匹配，在匹配时，通过待识别字段的头部数据与第二对应关系中的头部数据，可以确定待识别文件的魔鬼数字字段，将待识别文件的魔鬼数字字段与文件扩展名的对应关系更新至第一对应关系中后，在下一次遇到与待识别文件的文件类型相同的文件时，即可以通过第一对应关系中保存的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型，通过不断智能学习未知文件类型并更新第一对应关系，使得对于自定义文件或未知文件均可以被识别，降低文件识别的错误率，提升文件识别的灵活性与准确性。

图2是本发明实施例提供的又一种文件类型方法的步骤流程图，如图2 所示，该方法可以包括：

步骤201、获取待识别文件的头部字段和文件扩展名。

该步骤可参考步骤101，此处不再赘述。

步骤202、判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配，所述第一对应关系包括魔鬼数字字段与文件扩展名的对应关系。

该步骤可参考步骤102，此处不再赘述。

可选地，步骤202具体可以包括：

子步骤2021、根据所述第一对应关系中的魔鬼数字字段的特征参数，获取所述第一目标字段，所述特征参数包括：魔鬼数字长度、魔鬼数字起始位置和魔鬼数字内容。

在本发明实施例中，魔鬼数字字段的特征参数中魔鬼数字长度表示魔鬼数字字段的字节数目，魔鬼数字起始位置表示魔鬼数字在头部字段中的开始位置，魔鬼数字内容表示魔鬼数字字段具体的字节内容。根据魔鬼数字字段的特征参数可以对应截取待识别文件的头部字段对应位置以及长度的字段作为第一目标字段，将第一目标字段与魔鬼数字内容比较，即可以确定待识别内容的头部字段是否与该魔鬼数字字段相同。

子步骤2022、若所述第一目标字段的长度与所述魔鬼数字长度匹配，所述第一目标字段的起始位置与所述魔鬼数字起始位置匹配，所述第一目标字段的内容与所述魔鬼数字内容匹配，则确定所述第一目标字段与所述第一对应关系中的魔鬼数字字段匹配。

在本发明实施例中，若待识别文件的头部字段中存在与第一对应关系中保存的魔鬼数字字段起始位置相同，长度相同，魔鬼数字内容相同的第一目标字段，说明待识别文件的头部字段可以与第一对应关系中的某一个魔鬼数字字段匹配。

子步骤2023、若所述第一目标字段的长度、起始位置和内容中至少有一项与所述特征参数不匹配，则确定所述第一目标字段与所述第一对应关系中的魔鬼数字字段不匹配。

在本发明实施例中，若待识别文件的头部字段中不存在与第一对应关系中保存的魔鬼数字字段起始位置相同，长度相同，魔鬼数字内容均相同的第一目标字段，说明待识别文件的头部字段不能与第一对应关系中的魔鬼数字字段匹配。

步骤203、若所述第一目标字段与所述第一对应关系中的魔鬼数字字段匹配时，则将所述第一对应关系中的魔鬼数字字段对应的文件扩展名的类型确定为所述待识别文件的文件类型。

在本发明实施例中，若第一目标字段与第一对应关系中的魔鬼数字字段匹配时，说明待识别文件的魔鬼数字字段已经记录在第一对应关系中，根据第一对应关系记录的魔鬼数字字段与文件扩展名的对应关系，可以直接确定待识别文件的文件类型为第一对应关系中的魔鬼数字字段对应的文件扩展名的类型。

步骤204、若所述第一目标字段与所述魔鬼数字字段不匹配时，将所述待识别文件的文件扩展名与预设文件扩展名进行匹配，所述预设文件扩展名为不存在魔鬼数字的文件类型对应的文件扩展名。

在本发明实施例中，有些文件可能不存在魔鬼数字字段，例如：“.TXT” 文件格式，因此，可以将不存在魔鬼数字字段的文件类型的扩展名进行保存作为预设文件扩展名，若通过第一对应关系无法确定待识别文件的类型，可以进一步判断待识别文件的文件扩展名是否与预设文件扩展名匹配，确定待识别文件是否是无魔鬼数字字段的文件。

步骤205、若匹配成功，则将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型。

在本发明实施例中，若待识别文件的文件扩展名与预设文件扩展名匹配成功，说明待识别文件为无魔鬼数字字段的文件，这时，可以将待识别文件的文件扩展名的类型作为待识别文件的文件类型进行输出。

步骤206、若匹配失败，则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配，所述第二对应关系包括头部字段与文件扩展名的对应关系。

在本发明实施例中，若待识别文件的文件扩展名与预设文件扩展名匹配失败，且根据待识别文件的头部字段也无法通过第一对应关系确定待识别文件的文件类型时，可以将待识别文件的文件扩展名与第二对应关系中保存的文件扩展名进行比较，判断在第二对应关系保存的部字段与文件扩展名的对应关系中，是否包含有与待识别文件的文件扩展名相同的对应关系，确定待识别文件的文件扩展名是否被记录。

步骤207、在所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名匹配时，通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，确定所述待识别文件的魔鬼数字字段，并将所述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第一对应关系中，同时将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型。

此步骤可参考步骤104，此处不再赘述。

可选地，步骤207具体可以包括：

子步骤2071、通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，获取第二目标字段，并将所述第二目标字段作为所述待识别文件的魔鬼数字字段，所述第二目标字段为：所述待识别文件的头部字段和所述第二对应关系中的头部字段中起始位置相同、长度相同、数据内容相同的字段。

在本发明实施例中，若待识别文件的文件扩展名可以与第二对应关系中的文件扩展名匹配，说明在第二对应关系中已经存在与待识别文件的文件扩展名相同的文件的头部字段，此时，可以将待识别文件的头部字段与第二对应关系中对应的头部字段进行比较，确定是否存在第二目标字段，比较方式参考步骤104，此处不再赘述。

可选地，若所述第二目标字段的长度大于第一阈值，则选取所述第二目标字段中第二阈值长度的连续数据作为所述待识别文件的魔鬼数字字段；所述第一阈值大于所述第二阈值。

在本发明实施例中，第一阈值为魔鬼数字字段长度的最大值，例如第一阈值可以设置为32字节，第二阈值可以设置为26字节，若将待识别文件的头部字段与第二对应关系中对应的头部字段进行比较后，确认的起始位置相同、长度相同、数据内容相同的第二目标字段的长度为64字节，由于第二目标字段的长度大于第一阈值的32字节，此时可以根据第二阈值选择第二目标字段的前26字节作为待识别文件的魔鬼数字字段。具体第一阈值、第二阈值的设置，可以根据文件类型的不同进行确定，本发明实施例在此不做限定。

步骤208、在所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名不匹配时，将所述待识别文件的文件扩展名与所述待识别文件的头部字段的对应关系加入所述第二对应关系中。

在本发明实施例中，若待识别文件的文件扩展名与第二对应关系中的文件扩展名不匹配时，说明待识别文件的扩展名未记录至第二对应关系中，第二对应关系中也不存在与待识别文件的文件扩展名对应的头部字段的记录，此时，可以将待识别文件的头部字段与文件扩展名的对应关系保存至第二对应关系中，在第二次遇到相同扩展名的待识别文件时，可以基于前次保存在第二对应关系中的头部字段与第二次的待识别文件的头部字段进行比较，确定待识别文件的魔鬼数字字段。也就说，本发明实施例的方法可以对未知的文件类型或自定义的文件类型不断的进行智慧识别与记录，扩充第一对应关系中的数据，使得对文件类型的识别更加准确，基于不断更新在第一对应关系中的魔鬼数字字段达到对文件的正确解析。

可选地，所述方法还包括：

步骤209、获取多个样本文件，所述样本文件为文件扩展名相同的文件。

参考图3，在本发明实施例中，第一对应关系的建立还可以通过自主上传多个样本文件至文件解析服务器的方式，获得样本文件魔鬼数字字段，用户上传样本文件后，文件解析服务器获取样本文件的头部字段，进行进一步样本文件的魔鬼数字字段的确定，用户可以上传多个文件扩展名相同的样本文件，例如样本文件可以为3个、5个甚至更多，数量越多时，对于样本文件的魔鬼数字字段的确定越准确。

步骤210、获取所述样本文件的头部字段。

在本发明实施例中，可以获取样本文件的头部字段，例如，获取样本文件的前128字节的头部字段，具体的头部字段的长度可以根据实际文件类型进行设置，本发明实施例在此不做限定。

步骤211、将多个所述样本文件的头部字段进行比较，获取第三目标字段，并将所述第三目标字段作为所述样本文件的魔鬼数字字段，所述第三目标字段为多个所述样本文件的头部字段中起始位置相同、长度相同、数据内容相同且符合目标长度的字段。

在本发明实施例中，将获取的样本文件的每个头部字段进行比较，判断在每个头部字段是否存在于其他头部字段均一致的起始位置相同、长度相同、数据内容相同且符合目标长度的字段。目标长度为预先设置的魔鬼数字字段的最小长度，在比较并确定魔鬼数字字段时，魔鬼数字字段的长度不能小于目标长度的大小。

步骤212、将所述样本文件的魔鬼数字字段与所述样本文件的文件扩展名的对应关系添加至所述第一对应关系中。

在本发明实施例中，根据多个样本文件确定样本文件的魔鬼数字字段后，可以将样本文件的魔鬼数字字段与样本文件的文件扩展名的对应关系添加至第一对应关系中，在下一次遇到与样本文件的文件类型相同的待识别文件时，可以通过第一对应关系确定待识别文件的文件类型。

可选地，若多个所述样本文件的头部字段中不存在所述第三目标字段，则调整所述目标长度的大小。

在本发明实施例中，若多个样本文件的头部字段中不存在所述第三目标字段，可以调整目标长度的大小，比如将目标长度的大小由32字节，调整至24字节，调整后，重新对样本文件的头部字段进行比较，确定样本文件的魔鬼字段，以避免目标长度的值过大，导致无法确定符合目标字长度大小的样本文件的魔鬼数字字段。

需要说明的是，第一对应关系的建立可以通过用户自主上传样本文件，通过样本文件确定样本文件的魔鬼数字字段，并将对应关系保存在第一对应关系中，参考图4，第一对应关系的建立还也可以通过抓取用户在固定的路由或网络上发送的文件，进行解析，来获取文件的魔鬼数字字段并存储，例如，对于企业内部的文件来说，可以通过文件解析服务器自动抓取用户发送的邮件中包含的文件、发送至网页的文件、或在内网传输的文件，对抓取的文件进行解析，获取抓取文件的头部字段，对扩展名相同的抓取文件，利用步骤104的方法确定抓取文件的魔鬼数字字段并保存在第一对应关系中，这样，在数据量很大时，无需用户自主上传文件，建立第一对应关系，通过对内网文件的自动抓取，自动扩充内部建立的第一对应关系，使得对企业内部自定义文件的识别更加准确。

另外，若利用待识别文件的头部字段可以通过第一对应关系确定文件类型，此时，待识别文件的头部字段与文件扩展名还可以继续保存至第二对应关系，扩充第二对应关系的数据量，将相同扩展名的头部数据继续比较，使得通过第二对应关系中的数据确定的魔鬼数字字段更加准确，并且可以将更新后的魔鬼数字字段更新至第一对应关系，这样，随着第二对应关系中数据量的增长，第一对应关系的准确性也继续提高。

参考图5，图5是获取到待识别文件后的解析流程图，在获取到待识别文件后，先获取文件的二进制流，截取文件头的前128字节的头部字段(大小可自由设置)，若文件头不足128字节，则获取整个文件数据流字节。通过第一对应关系对文件进行识别，若可以识别，直接输出与第一对应关系中的魔鬼数字字段匹配的文件类型，若第一对应关系不能确定待识别文件的文件类型，则判断待识别文件是否为无魔鬼数字字段文件，若是，则输出待识别文件的文件类型，若否，则通过第二对应关系判断待识别文件类型是否存在，若存在，则通过保存的对应关系与待识别文件的头部字段的比较，确定待识别文件的魔鬼数字字段，若不存在，则将待识别文件的头部字段与文件扩展名保存至第二对应关系，等待下一次比较，若待识别文件为无扩展名文件，则输出待识别文件的文件类型为未知类型。

综上，在本发明实施例中，获取待识别文件的头部字段与文件扩展名，将待识别文件的头部字段与第一对应关系比较，确定头部字段中的目标字段是否与第一对应关系中的魔鬼数字字段匹配，在匹配时，可以直接将魔鬼数字字段对应的文件类型作为待识别文件的文件类型，在待识别文件的头部字段无法与第一对应关系比较时，将待识别文件的文件扩展名与第二对应关系中的文件扩展名匹配，在匹配时，通过待识别字段的头部数据与第二对应关系中的头部数据，可以确定待识别文件的魔鬼数字字段，将待识别文件的魔鬼数字字段与文件扩展名的对应关系更新至第一对应关系中后，在下一次遇到与待识别文件的文件类型相同的文件时，即可以通过第一对应关系中保存的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型，通过不断智能学习未知文件类型并更新第一对应关系，使得对于自定义文件或未知文件均可以被识别，降低文件识别的错误率，提升文件识别的灵活性与准确性。

图4是本发明实施例提供的一种攻击行为处置装置的框图，该装置30 包括：

待识别文件获取模块301，用于获取待识别文件的头部字段和文件扩展名；

第一判断模块302，用于判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配，所述第一对应关系包括魔鬼数字字段与文件扩展名的对应关系；

第二判断模块303，用于若所述第一目标字段与所述魔鬼数字字段不匹配，则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配，所述第二对应关系包括头部字段与文件扩展名的对应关系；

第一文件类型确定模块304，用于若所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名匹配，则通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，确定所述待识别文件的魔鬼数字字段，并将所述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第一对应关系中，同时将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型。

可选地，文件类型确定模块304包括：

魔鬼数字字段确定子模块，用于通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，获取第二目标字段，并将所述第二目标字段作为所述待识别文件的魔鬼数字字段，所述第二目标字段为：所述待识别文件的头部字段和所述第二对应关系中的头部字段中起始位置相同、长度相同、数据内容相同的字段。

可选地，所述装置还用于若所述第二目标字段的长度大于第一阈值，则选取所述第二目标字段中第二阈值长度的连续数据作为所述待识别文件的魔鬼数字字段；所述第一阈值大于所述第二阈值。

可选地，第一判断模块302，包括：

第一目标字段获取子模块，用于根据所述第一对应关系中的魔鬼数字字段的特征参数，获取所述第一目标字段，所述特征参数包括：魔鬼数字长度、魔鬼数字起始位置和魔鬼数字内容；

第一匹配子模块，用于若所述第一目标字段的长度与所述魔鬼数字长度匹配，所述第一目标字段的起始位置与所述魔鬼数字起始位置匹配，所述第一目标字段的内容与所述魔鬼数字内容匹配，则确定所述第一目标字段与所述第一对应关系中的魔鬼数字字段匹配；

第一不匹配子模块，用于若所述第一目标字段的长度、起始位置和内容中至少有一项与所述特征参数不匹配，则确定所述第一目标字段与所述第一对应关系中的魔鬼数字字段不匹配。

可选地，所述装置还包括：

第二文件类型确定模块，用于在所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名不匹配时，将所述待识别文件的文件扩展名与所述待识别文件的头部字段的对应关系加入所述第二对应关系中。

可选地，所述装置还包括：

样本文件获取模块，用于获取多个样本文件，所述样本文件为文件扩展名相同的文件；

头部字段获取模块，用于获取所述样本文件的头部字段；

第三目标字段确定模块，用于将多个所述样本文件的头部字段进行比较，获取第三目标字段，并将所述第三目标字段作为所述样本文件的魔鬼数字字段，所述第三目标字段为多个所述样本文件的头部字段中起始位置相同、长度相同、数据内容相同且符合目标长度的字段；

第一对应关系添加模块，用于将所述样本文件的魔鬼数字字段与所述样本文件的文件扩展名的对应关系添加至所述第一对应关系中。

调整模块，用于若多个所述样本文件的头部字段中不存在所述第三目标字段，则调整所述目标长度的大小。

可选地，所述装置还包括：

预设文件扩展名匹配模块，用于将所述待识别文件的文件扩展名与预设文件扩展名进行匹配，所述预设文件扩展名为不存在魔鬼数字的文件类型对应的文件扩展名；

无魔鬼数字字段确定模块，用于若匹配成功，则将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型；

有魔鬼数字字段确定模块，用于若匹配失败且所述待识别文件的头部字段与所述第一对应关系中的魔鬼数字字段不匹配时，则进入判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配的步骤。

可选地，所述装置还包括：

第三文件类型确定模块，用于若所述第一目标字段与所述第一对应关系中的魔鬼数字字段匹配时，则将所述第一对应关系中的魔鬼数字字段对应的文件扩展名的类型确定为所述待识别文件的文件类型。

综上，文件类型识别装置通过获取待识别文件的头部字段与文件扩展名，将待识别文件的头部字段与第一对应关系比较，确定头部字段中的目标字段是否与第一对应关系中的魔鬼数字字段匹配，在匹配时，可以直接将魔鬼数字字段对应的文件类型作为待识别文件的文件类型，在待识别文件的头部字段无法与第一对应关系比较时，将待识别文件的文件扩展名与第二对应关系中的文件扩展名匹配，在匹配时，通过待识别字段的头部数据与第二对应关系中的头部数据，可以确定待识别文件的魔鬼数字字段，将待识别文件的魔鬼数字字段与文件扩展名的对应关系更新至第一对应关系中后，在下一次遇到与待识别文件的文件类型相同的文件时，即可以通过第一对应关系中保存的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型，通过不断智能学习未知文件类型并更新第一对应关系，使得对于自定义文件或未知文件均可以被识别，降低文件识别的错误率，提升文件识别的灵活性与准确性。

图7是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/ O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板 (TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600 处于操作模式，如拍摄模式或多媒体模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610用于输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/ 关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614 还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616用于便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信 (NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID) 技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于实现本申请实施例提供的一种文件类型识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620 执行以完成上述方法。例如，所述非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是根据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以被提供为一服务器。参照图8，电子设备700包括处理组件 722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器 732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行本申请实施例提供的一种文件类型识别方法。

电子设备700还可以包括一个电源组件726被配置为执行电子设备700 的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM， LinuxTM，FreeBSDTM或类似。

本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现所述的文件类型识别方法。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种文件类型识别方法，其特征在于，所述方法包括：

获取待识别文件的头部字段和文件扩展名；

2.根据权利要求1所述的文件类型识别方法，其特征在于，所述通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，确定所述待识别文件的魔鬼数字字段，包括：

通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段，获取第二目标字段，并将所述第二目标字段作为所述待识别文件的魔鬼数字字段，所述第二目标字段为：所述待识别文件的头部字段和所述第二对应关系中的头部字段中起始位置相同、长度相同、数据内容相同的字段。

3.根据权利要求2所述的文件类型识别方法，其特征在于，所述方法还包括：

若所述第二目标字段的长度大于第一阈值，则选取所述第二目标字段中第二阈值长度的连续数据作为所述待识别文件的魔鬼数字字段；所述第一阈值大于所述第二阈值。

4.根据权利要求1所述的文件类型识别方法，其特征在于，所述判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配，包括：

根据所述第一对应关系中的魔鬼数字字段的特征参数，获取所述第一目标字段，所述特征参数包括：魔鬼数字长度、魔鬼数字起始位置和魔鬼数字内容；

若所述第一目标字段的长度与所述魔鬼数字长度匹配，所述第一目标字段的起始位置与所述魔鬼数字起始位置匹配，所述第一目标字段的内容与所述魔鬼数字内容匹配，则确定所述第一目标字段与所述第一对应关系中的魔鬼数字字段匹配；

若所述第一目标字段的长度、起始位置和内容中至少有一项与所述特征参数不匹配，则确定所述第一目标字段与所述第一对应关系中的魔鬼数字字段不匹配。

5.根据权利要求1所述的文件类型识别方法，其特征在于，所述方法还包括：

在所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名不匹配时，将所述待识别文件的文件扩展名与所述待识别文件的头部字段的对应关系加入所述第二对应关系中。

6.根据权利要求1所述的文件类型识别方法，其特征在于，所述方法还包括：

获取多个样本文件，所述样本文件为文件扩展名相同的文件；

获取所述样本文件的头部字段；

将多个所述样本文件的头部字段进行比较，获取第三目标字段，并将所述第三目标字段作为所述样本文件的魔鬼数字字段，所述第三目标字段为多个所述样本文件的头部字段中起始位置相同、长度相同、数据内容相同且符合目标长度的字段；

将所述样本文件的魔鬼数字字段与所述样本文件的文件扩展名的对应关系添加至所述第一对应关系中。

7.根据权利要求6所述的文件类型识别方法，其特征在于，所述方法还包括：

若多个所述样本文件的头部字段中不存在所述第三目标字段，则调整所述目标长度的大小。

8.根据权利要求1所述的文件类型识别方法，其特征在于，所述判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配之前，所述方法还包括：

将所述待识别文件的文件扩展名与预设文件扩展名进行匹配，所述预设文件扩展名为不存在魔鬼数字的文件类型对应的文件扩展名；

若匹配成功，则将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型；

若匹配失败且所述待识别文件的头部字段与所述第一对应关系中的魔鬼数字字段不匹配时，则进入判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配的步骤。

9.根据权利要求1所述的文件类型识别方法，其特征在于，所述方法还包括：

若所述第一目标字段与所述第一对应关系中的魔鬼数字字段匹配时，则将所述第一对应关系中的魔鬼数字字段对应的文件扩展名的类型确定为所述待识别文件的文件类型。

10.一种文件类型识别装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的方法。