CN115374075A - 一种文件类型识别方法及装置 - Google Patents

一种文件类型识别方法及装置 Download PDF

Info

Publication number
CN115374075A
CN115374075A CN202210917644.1A CN202210917644A CN115374075A CN 115374075 A CN115374075 A CN 115374075A CN 202210917644 A CN202210917644 A CN 202210917644A CN 115374075 A CN115374075 A CN 115374075A
Authority
CN
China
Prior art keywords
file
field
identified
extension
corresponding relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210917644.1A
Other languages
English (en)
Other versions
CN115374075B (zh
Inventor
李忠鹏
王世彪
王志海
喻波
韩振国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN202210917644.1A priority Critical patent/CN115374075B/zh
Publication of CN115374075A publication Critical patent/CN115374075A/zh
Application granted granted Critical
Publication of CN115374075B publication Critical patent/CN115374075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文件类型识别方法、装置、电子设备及可读存储介质,通过获取待识别文件的头部字段与文件扩展名,与第一对应关系比较,确定待识别文件的文件类型,在第一对应关系无法确定文件类型时,将待识别文件的文件扩展名与第二对应关系中的文件扩展名匹配,在匹配时,通过待识别字段的头部数据与第二对应关系中的头部数据,确定待识别文件的魔鬼数字字段,将对应关系更新至第一对应关系中后,在下一次遇到与待识别文件的文件类型相同的文件时,即可以通过第一对应关系中保存的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型,通过不断智能学习未知文件类型并更新第一对应关系,使对于自定义文件或未知文件均可以被识别。

Description

一种文件类型识别方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文件类型识别方法、装置、 电子设备及计算机可读存储介质。
背景技术
随着互联网技术的高速发展,不同的企业或者团队,为了避免文件信 息外泄,在企业内部或者团队内部,常常采用自定义类型的文件进行信息交 互。
目前,为了确定文件类型,通常通过文件扩展名获取到文件的文件类型。 或者获取文件的文件魔数,在预先设置的魔数表格中查找文件魔数对应的文 件类型,将查找到的文件类型确定为文件的类型。
但文件的扩展名是可以被篡改的,被篡改后的文件,如果仍根据文件扩 展名确定文件类型,就会导致文件类型识别错误,进而不能打开该文件,并 且自定义类型的文件的文件魔数不存在于魔数表格中,导致无法识别该文 件。
发明内容
本发明实施例提供一种文件类型识别方法、装置、电子设备及计算机可 读存储介质,以解决现有技术中对自定义文件或未知文件无法识别的问题。
第一方面,本发明实施例提供了一种文件类型识别方法,所述方法包括:
获取待识别文件的头部字段和文件扩展名;
判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关 系中的魔鬼数字字段匹配,所述第一对应关系包括魔鬼数字字段与文件扩展 名的对应关系;
若所述第一目标字段与所述魔鬼数字字段不匹配,则判断所述待识别文 件的文件扩展名是否与第二对应关系中的文件扩展名匹配,所述第二对应关 系包括头部字段与文件扩展名的对应关系;
若所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名 匹配,则通过比较所述待识别文件的头部字段与所述第二对应关系中的头部 字段,确定所述待识别文件的魔鬼数字字段,并将所述待识别文件的魔鬼数 字字段与所述待识别文件的文件扩展名的对应关系存储至所述第一对应关 系中,同时将所述待识别文件的文件扩展名的类型作为所述待识别文件的文 件类型。
第二方面,本发明实施例提供了一种文件类型识别装置,所述装置包括:
待识别文件获取模块,用于获取待识别文件的头部字段和文件扩展名;
第一判断模块,用于判断处于所述头部字段中预设位置的第一目标字段 是否与第一对应关系中的魔鬼数字字段匹配,所述第一对应关系包括魔鬼数 字字段与文件扩展名的对应关系;
第二判断模块,用于若所述第一目标字段与所述魔鬼数字字段不匹配, 则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名 匹配,所述第二对应关系包括头部字段与文件扩展名的对应关系;
文件类型确定模块,用于若所述待识别文件的文件扩展名与所述第二对 应关系中的文件扩展名匹配,则通过比较所述待识别文件的头部字段与所述 第二对应关系中的头部字段,确定所述待识别文件的魔鬼数字字段,并将所 述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系 存储至所述第一对应关系中,同时将所述待识别文件的文件扩展名的类型作 为所述待识别文件的文件类型。
第三方面,本发明实施例还提供了一种电子设备,包括处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现所述第一方面的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,当所述计 算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备 能够执行所述第一方面的方法。
在本发明实施例中,获取待识别文件的头部字段与文件扩展名,将待识 别文件的头部字段与第一对应关系比较,确定头部字段中的目标字段是否与 第一对应关系中的魔鬼数字字段匹配,在匹配时,可以直接将魔鬼数字字段 对应的文件类型作为待识别文件的文件类型,在待识别文件的头部字段无法 与第一对应关系比较时,将待识别文件的文件扩展名与第二对应关系中的文 件扩展名匹配,在匹配时,通过待识别字段的头部数据与第二对应关系中的 头部数据,可以确定待识别文件的魔鬼数字字段,将待识别文件的魔鬼数字字段与文件扩展名的对应关系更新至第一对应关系中后,在下一次遇到与待 识别文件的文件类型相同的文件时,即可以通过第一对应关系中保存的待识 别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型,通过不断智 能学习未知文件类型并更新第一对应关系,使得对于自定义文件或未知文件 均可以被识别,降低文件识别的错误率,提升文件识别的灵活性与准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1是本发明实施例提供的一种文件类型识别方法步骤流程图;
图2是本发明实施例提供的另一种文件类型识别方法步骤流程图;
图3是本发明实施例提供的文件类型解析流程图;
图4是本发明实施例提供的一种获取魔鬼数字字段的方法图;
图5是本发明实施例提供的另一种获取魔鬼数字字段的方法图;
图6是本发明实施例提供的一种文件类型识别装置的框图;
图7是本发明实施例提供的一种电子设备的逻辑框图;
图8是本发明实施例提供的一种另一种电子设备的逻辑框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显 示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而 不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻 地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1,是本发明实施例提供的一种文件类型识别方法的步骤流程图,如 图1所示,该方法可以包括:
步骤101、获取待识别文件的头部字段和文件扩展名。
本发明实施例中,文件的头部字段是位于文件开头的一段承担一定任 务的数据,文件头部字段可以描述一个文件的一些重要的属性,比如大小、 格式等,处理该文件的程序可以通过头部字段对该文件进行打开和读取,在 获取待识别文件的头部字段时,可以设置获取的头部字段长度,例如,每次 均获取前128字节或前64字节,本发明实施例在此不作限定,若待识别文 件的头部字段不足128字节或64字节,则获取待识别文件的整个字节内容。 文件扩展名为用来标识文件格式的一种机制,例如:对于文件名 “example.txt”,example是文件主名,txt为文件扩展名,表示这个文件是 一个纯文字文件,句号“.”就是文件主名与文件扩展名的分隔符号。
进一步地,文件的头部字段中通常包含有可以标识文件类型的几个固 定字节,称为文件魔鬼数字,例如,JPG格式文件头部字段中通常包含“FF D8 FF E0”,GIF格式文件头部字段中通常包含“47 49 46 38”,PNG格式 文件头部字段中通常包含“89 50 4E 47”,在获取文件的头部字段后,通过 头部字段中包含的文件魔鬼数字,即可以识别文件的文件类型,并对文件进 行打开,避免了仅通过扩展名识别,在扩展名被篡改时,导致的文件无法打开的情况。
步骤102、判断处于所述头部字段中预设位置的第一目标字段是否与第 一对应关系中的魔鬼数字字段匹配,所述第一对应关系包括魔鬼数字字段与 文件扩展名的对应关系。
本发明实施例中,第一对应关系为已经记录的魔鬼数字字段与文件扩 展名的对应关系,在获取到待识别文件的头部字段后,可以判断待识别文件 的头部字段中是否包含记录在第一对应关系的魔鬼数字字段,若待识别文件 的第一目标字段与第一对应关系的魔鬼数字字段匹配,可以直接将魔鬼数字 字段对应的文件扩展名的类型作为待识别文件的文件类型。
进一步地,大多数包含魔鬼数字字段的文件类型,其魔鬼数字字段为 从文件的头部字段的开头起始,有部分文件其魔鬼数字字段不从文件的头部 字段的开头开始,这种情况称为文件的魔鬼数字字段的的起始偏移,简称文 件魔数偏移,因此,在第一对应关系中不仅记录了文件的魔鬼数字字段与文 件扩展名的对应关系,还记录有文件的魔鬼数字字段的起始位置以及魔鬼数 字字段的长度与文件扩展名的对应关系,在将待识别文件的头部字段与第一 对应关系中记录的数据进行比较时,可以根据第一对应关系中记录的魔鬼数 字字段的起始位置以及魔鬼数字字段的长度对应获取待识别文件相应起始 位置以及长度的第一目标字段,判断第一目标字段是否与第一对应关系中的 魔鬼数字字段一致,一致则可以将第一对应关系中的魔鬼数字字段对应的文 件扩展名的类型作为待识别文件的文件类型,不一致,则认为基于第一对应 关系的匹配失败,第一对应关系中未存储有待识别文件的魔鬼数字字段。
例如:在第一对应关系中:魔鬼数字字段为“%PDF-”,魔鬼数字字 段的起始位置为0(头部字段的开始位置),魔鬼数字字段的长度为5,与 该魔鬼数字对应的文件扩展名为“PDF”,则将第一对应关系中的魔鬼数字 字段以及位置和长度的关系与待识别文件头部字段比较,就可以判断待识别 文件的头部字段是否包含第一对应关系中记录的魔鬼数字字段,进而确定待 识别文件的文件类型。
步骤103、若所述第一目标字段与所述魔鬼数字字段不匹配时,则判断 所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配,所 述第二对应关系包括头部字段与文件扩展名的对应关系。
在本发明实施例中,第二对应关系包括头部字段与文件扩展名的对应关 系,在第一目标字段与魔鬼数字字段不匹配时,表明在第一对应关系中不包 括待识别文件的魔鬼数字字段与文件扩展名的对应关系,此时,可以将待识 别文件的文件扩展名与第二对应关系中包括的文件扩展名进行匹配,判断第 二对应关系中是否包含有与待识别文件相同的文件扩展名与头部字段的对 应关系,若待识别文件的文件扩展名与第二对应关系中的扩展名匹配时,可 以进一步通过比较待识别文件的头部字段和第二对应关系中匹配的文件扩 展名对应的头部字段,确定待识别文件的魔鬼数字字段。
进一步地,若第二对应关系中不包括待识别文件的文件扩展名,则将待 识别文件的头部字段与文件扩展名的对应关系保存在第二对应关系中,第二 次遇到与待识别文件的文件扩展名相同的文件时,可以基于保存的第二对应 关系,判断第二次的待识别文件的头部字段与已经保存在第二对应关系的头 部字段,确定待识别文件的魔鬼数字字段。
步骤104、若所述待识别文件的文件扩展名与所述第二对应关系中的文 件扩展名匹配,则通过比较所述待识别文件的头部字段与所述第二对应关系 中的头部字段,确定所述待识别文件的魔鬼数字字段,并将所述待识别文件 的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第 一对应关系中,同时将所述待识别文件的文件扩展名的类型作为所述待识别 文件的文件类型。
在本发明实施例中,在待识别文件的文件扩展名与第二对应关系中的 文件扩展名匹配时,可以通过将待识别文件的头部字段与第二对应关系中的 头部字段按照顺序逐个比较的方式确定待识别文件的魔鬼数字字段,在比较 前,可以设置魔鬼数字字段至少为连续的8位,在比较时,先比较待识别文 件的头部字段的第一位与第二对应关系中的头部字段的第一位是否相同,在 相同时,记录第一位的值,并继续比较待识别文件的头部字段的第二位与第 二对应关系中的头部字段的第二位是否相同,在相同时,记录第二位的值,继续比较待识别文件的头部字段的第三位与第二对应关系中的头部字段的 第三位是否相同,若相同,则记录第三位的值,若不同,则放弃之前记录的 前两位的值,继续比较待识别文件的头部字段的第四位与第二对应关系中的 头部字段的第四位是否相同,直至记录到连续的八位数字相同时,将连续相 同的八位数字的起始位置记录,并记录从起始位置开始,连续相同的字段长 度和内容,作为待识别文件的魔鬼数字内容。
进一步地,在获得待识别文件的魔鬼数字字段后,可以将获得的魔鬼 数字字段与待识别文件的文件扩展名的对应关系保存至第一对应关系,在下 一次遇到与待识别文件相同类型的文件时,即可以基于第一对应关系识别待 识别文件的头部字段中的魔鬼数字字段,确定待识别文件的文件类型。
综上,本发明实施例通过获取待识别文件的头部字段与文件扩展名, 将待识别文件的头部字段与第一对应关系比较,确定头部字段中的目标字段 是否与第一对应关系中的魔鬼数字字段匹配,在匹配时,可以直接将魔鬼数 字字段对应的文件类型作为待识别文件的文件类型,在待识别文件的头部字 段无法与第一对应关系比较时,将待识别文件的文件扩展名与第二对应关系 中的文件扩展名匹配,在匹配时,通过待识别字段的头部数据与第二对应关 系中的头部数据,可以确定待识别文件的魔鬼数字字段,将待识别文件的魔鬼数字字段与文件扩展名的对应关系更新至第一对应关系中后,在下一次遇 到与待识别文件的文件类型相同的文件时,即可以通过第一对应关系中保存 的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型,通过 不断智能学习未知文件类型并更新第一对应关系,使得对于自定义文件或未 知文件均可以被识别,降低文件识别的错误率,提升文件识别的灵活性与准 确性。
图2是本发明实施例提供的又一种文件类型方法的步骤流程图,如图2 所示,该方法可以包括:
步骤201、获取待识别文件的头部字段和文件扩展名。
该步骤可参考步骤101,此处不再赘述。
步骤202、判断处于所述头部字段中预设位置的第一目标字段是否与第 一对应关系中的魔鬼数字字段匹配,所述第一对应关系包括魔鬼数字字段与 文件扩展名的对应关系。
该步骤可参考步骤102,此处不再赘述。
可选地,步骤202具体可以包括:
子步骤2021、根据所述第一对应关系中的魔鬼数字字段的特征参数, 获取所述第一目标字段,所述特征参数包括:魔鬼数字长度、魔鬼数字起始 位置和魔鬼数字内容。
在本发明实施例中,魔鬼数字字段的特征参数中魔鬼数字长度表示魔鬼 数字字段的字节数目,魔鬼数字起始位置表示魔鬼数字在头部字段中的开始 位置,魔鬼数字内容表示魔鬼数字字段具体的字节内容。根据魔鬼数字字段 的特征参数可以对应截取待识别文件的头部字段对应位置以及长度的字段 作为第一目标字段,将第一目标字段与魔鬼数字内容比较,即可以确定待识 别内容的头部字段是否与该魔鬼数字字段相同。
子步骤2022、若所述第一目标字段的长度与所述魔鬼数字长度匹配, 所述第一目标字段的起始位置与所述魔鬼数字起始位置匹配,所述第一目标 字段的内容与所述魔鬼数字内容匹配,则确定所述第一目标字段与所述第一 对应关系中的魔鬼数字字段匹配。
在本发明实施例中,若待识别文件的头部字段中存在与第一对应关系 中保存的魔鬼数字字段起始位置相同,长度相同,魔鬼数字内容相同的第一 目标字段,说明待识别文件的头部字段可以与第一对应关系中的某一个魔鬼 数字字段匹配。
子步骤2023、若所述第一目标字段的长度、起始位置和内容中至少有 一项与所述特征参数不匹配,则确定所述第一目标字段与所述第一对应关系 中的魔鬼数字字段不匹配。
在本发明实施例中,若待识别文件的头部字段中不存在与第一对应关 系中保存的魔鬼数字字段起始位置相同,长度相同,魔鬼数字内容均相同的 第一目标字段,说明待识别文件的头部字段不能与第一对应关系中的魔鬼数 字字段匹配。
步骤203、若所述第一目标字段与所述第一对应关系中的魔鬼数字字段 匹配时,则将所述第一对应关系中的魔鬼数字字段对应的文件扩展名的类型 确定为所述待识别文件的文件类型。
在本发明实施例中,若第一目标字段与第一对应关系中的魔鬼数字字段 匹配时,说明待识别文件的魔鬼数字字段已经记录在第一对应关系中,根据 第一对应关系记录的魔鬼数字字段与文件扩展名的对应关系,可以直接确定 待识别文件的文件类型为第一对应关系中的魔鬼数字字段对应的文件扩展 名的类型。
步骤204、若所述第一目标字段与所述魔鬼数字字段不匹配时,将所述 待识别文件的文件扩展名与预设文件扩展名进行匹配,所述预设文件扩展名 为不存在魔鬼数字的文件类型对应的文件扩展名。
在本发明实施例中,有些文件可能不存在魔鬼数字字段,例如:“.TXT” 文件格式,因此,可以将不存在魔鬼数字字段的文件类型的扩展名进行保存 作为预设文件扩展名,若通过第一对应关系无法确定待识别文件的类型,可 以进一步判断待识别文件的文件扩展名是否与预设文件扩展名匹配,确定待 识别文件是否是无魔鬼数字字段的文件。
步骤205、若匹配成功,则将所述待识别文件的文件扩展名的类型作为 所述待识别文件的文件类型。
在本发明实施例中,若待识别文件的文件扩展名与预设文件扩展名匹配 成功,说明待识别文件为无魔鬼数字字段的文件,这时,可以将待识别文件 的文件扩展名的类型作为待识别文件的文件类型进行输出。
步骤206、若匹配失败,则判断所述待识别文件的文件扩展名是否与第 二对应关系中的文件扩展名匹配,所述第二对应关系包括头部字段与文件扩 展名的对应关系。
在本发明实施例中,若待识别文件的文件扩展名与预设文件扩展名匹配 失败,且根据待识别文件的头部字段也无法通过第一对应关系确定待识别文 件的文件类型时,可以将待识别文件的文件扩展名与第二对应关系中保存的 文件扩展名进行比较,判断在第二对应关系保存的部字段与文件扩展名的对 应关系中,是否包含有与待识别文件的文件扩展名相同的对应关系,确定待 识别文件的文件扩展名是否被记录。
步骤207、在所述待识别文件的文件扩展名与所述第二对应关系中的文 件扩展名匹配时,通过比较所述待识别文件的头部字段与所述第二对应关系 中的头部字段,确定所述待识别文件的魔鬼数字字段,并将所述待识别文件 的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第 一对应关系中,同时将所述待识别文件的文件扩展名的类型作为所述待识别 文件的文件类型。
此步骤可参考步骤104,此处不再赘述。
可选地,步骤207具体可以包括:
子步骤2071、通过比较所述待识别文件的头部字段与所述第二对应关 系中的头部字段,获取第二目标字段,并将所述第二目标字段作为所述待识 别文件的魔鬼数字字段,所述第二目标字段为:所述待识别文件的头部字段 和所述第二对应关系中的头部字段中起始位置相同、长度相同、数据内容相 同的字段。
在本发明实施例中,若待识别文件的文件扩展名可以与第二对应关系中 的文件扩展名匹配,说明在第二对应关系中已经存在与待识别文件的文件扩 展名相同的文件的头部字段,此时,可以将待识别文件的头部字段与第二对 应关系中对应的头部字段进行比较,确定是否存在第二目标字段,比较方式 参考步骤104,此处不再赘述。
可选地,若所述第二目标字段的长度大于第一阈值,则选取所述第二目 标字段中第二阈值长度的连续数据作为所述待识别文件的魔鬼数字字段;所 述第一阈值大于所述第二阈值。
在本发明实施例中,第一阈值为魔鬼数字字段长度的最大值,例如第一 阈值可以设置为32字节,第二阈值可以设置为26字节,若将待识别文件的 头部字段与第二对应关系中对应的头部字段进行比较后,确认的起始位置相 同、长度相同、数据内容相同的第二目标字段的长度为64字节,由于第二 目标字段的长度大于第一阈值的32字节,此时可以根据第二阈值选择第二 目标字段的前26字节作为待识别文件的魔鬼数字字段。具体第一阈值、第 二阈值的设置,可以根据文件类型的不同进行确定,本发明实施例在此不做 限定。
步骤208、在所述待识别文件的文件扩展名与所述第二对应关系中的文 件扩展名不匹配时,将所述待识别文件的文件扩展名与所述待识别文件的头 部字段的对应关系加入所述第二对应关系中。
在本发明实施例中,若待识别文件的文件扩展名与第二对应关系中的文 件扩展名不匹配时,说明待识别文件的扩展名未记录至第二对应关系中,第 二对应关系中也不存在与待识别文件的文件扩展名对应的头部字段的记录, 此时,可以将待识别文件的头部字段与文件扩展名的对应关系保存至第二对 应关系中,在第二次遇到相同扩展名的待识别文件时,可以基于前次保存在 第二对应关系中的头部字段与第二次的待识别文件的头部字段进行比较,确 定待识别文件的魔鬼数字字段。也就说,本发明实施例的方法可以对未知的 文件类型或自定义的文件类型不断的进行智慧识别与记录,扩充第一对应关 系中的数据,使得对文件类型的识别更加准确,基于不断更新在第一对应关 系中的魔鬼数字字段达到对文件的正确解析。
可选地,所述方法还包括:
步骤209、获取多个样本文件,所述样本文件为文件扩展名相同的文件。
参考图3,在本发明实施例中,第一对应关系的建立还可以通过自主上 传多个样本文件至文件解析服务器的方式,获得样本文件魔鬼数字字段,用 户上传样本文件后,文件解析服务器获取样本文件的头部字段,进行进一步 样本文件的魔鬼数字字段的确定,用户可以上传多个文件扩展名相同的样本 文件,例如样本文件可以为3个、5个甚至更多,数量越多时,对于样本文 件的魔鬼数字字段的确定越准确。
步骤210、获取所述样本文件的头部字段。
在本发明实施例中,可以获取样本文件的头部字段,例如,获取样本文 件的前128字节的头部字段,具体的头部字段的长度可以根据实际文件类型 进行设置,本发明实施例在此不做限定。
步骤211、将多个所述样本文件的头部字段进行比较,获取第三目标字 段,并将所述第三目标字段作为所述样本文件的魔鬼数字字段,所述第三目 标字段为多个所述样本文件的头部字段中起始位置相同、长度相同、数据内 容相同且符合目标长度的字段。
在本发明实施例中,将获取的样本文件的每个头部字段进行比较,判断 在每个头部字段是否存在于其他头部字段均一致的起始位置相同、长度相 同、数据内容相同且符合目标长度的字段。目标长度为预先设置的魔鬼数字 字段的最小长度,在比较并确定魔鬼数字字段时,魔鬼数字字段的长度不能 小于目标长度的大小。
步骤212、将所述样本文件的魔鬼数字字段与所述样本文件的文件扩展 名的对应关系添加至所述第一对应关系中。
在本发明实施例中,根据多个样本文件确定样本文件的魔鬼数字字段 后,可以将样本文件的魔鬼数字字段与样本文件的文件扩展名的对应关系添 加至第一对应关系中,在下一次遇到与样本文件的文件类型相同的待识别文 件时,可以通过第一对应关系确定待识别文件的文件类型。
可选地,若多个所述样本文件的头部字段中不存在所述第三目标字段, 则调整所述目标长度的大小。
在本发明实施例中,若多个样本文件的头部字段中不存在所述第三目标 字段,可以调整目标长度的大小,比如将目标长度的大小由32字节,调整 至24字节,调整后,重新对样本文件的头部字段进行比较,确定样本文件 的魔鬼字段,以避免目标长度的值过大,导致无法确定符合目标字长度大小 的样本文件的魔鬼数字字段。
需要说明的是,第一对应关系的建立可以通过用户自主上传样本文件, 通过样本文件确定样本文件的魔鬼数字字段,并将对应关系保存在第一对应 关系中,参考图4,第一对应关系的建立还也可以通过抓取用户在固定的路 由或网络上发送的文件,进行解析,来获取文件的魔鬼数字字段并存储,例 如,对于企业内部的文件来说,可以通过文件解析服务器自动抓取用户发送 的邮件中包含的文件、发送至网页的文件、或在内网传输的文件,对抓取的 文件进行解析,获取抓取文件的头部字段,对扩展名相同的抓取文件,利用 步骤104的方法确定抓取文件的魔鬼数字字段并保存在第一对应关系中,这 样,在数据量很大时,无需用户自主上传文件,建立第一对应关系,通过对 内网文件的自动抓取,自动扩充内部建立的第一对应关系,使得对企业内部 自定义文件的识别更加准确。
另外,若利用待识别文件的头部字段可以通过第一对应关系确定文件类 型,此时,待识别文件的头部字段与文件扩展名还可以继续保存至第二对应 关系,扩充第二对应关系的数据量,将相同扩展名的头部数据继续比较,使 得通过第二对应关系中的数据确定的魔鬼数字字段更加准确,并且可以将更 新后的魔鬼数字字段更新至第一对应关系,这样,随着第二对应关系中数据 量的增长,第一对应关系的准确性也继续提高。
参考图5,图5是获取到待识别文件后的解析流程图,在获取到待识别 文件后,先获取文件的二进制流,截取文件头的前128字节的头部字段(大 小可自由设置),若文件头不足128字节,则获取整个文件数据流字节。通 过第一对应关系对文件进行识别,若可以识别,直接输出与第一对应关系中 的魔鬼数字字段匹配的文件类型,若第一对应关系不能确定待识别文件的文 件类型,则判断待识别文件是否为无魔鬼数字字段文件,若是,则输出待识 别文件的文件类型,若否,则通过第二对应关系判断待识别文件类型是否存 在,若存在,则通过保存的对应关系与待识别文件的头部字段的比较,确定 待识别文件的魔鬼数字字段,若不存在,则将待识别文件的头部字段与文件 扩展名保存至第二对应关系,等待下一次比较,若待识别文件为无扩展名文 件,则输出待识别文件的文件类型为未知类型。
综上,在本发明实施例中,获取待识别文件的头部字段与文件扩展名, 将待识别文件的头部字段与第一对应关系比较,确定头部字段中的目标字段 是否与第一对应关系中的魔鬼数字字段匹配,在匹配时,可以直接将魔鬼数 字字段对应的文件类型作为待识别文件的文件类型,在待识别文件的头部字 段无法与第一对应关系比较时,将待识别文件的文件扩展名与第二对应关系 中的文件扩展名匹配,在匹配时,通过待识别字段的头部数据与第二对应关 系中的头部数据,可以确定待识别文件的魔鬼数字字段,将待识别文件的魔鬼数字字段与文件扩展名的对应关系更新至第一对应关系中后,在下一次遇 到与待识别文件的文件类型相同的文件时,即可以通过第一对应关系中保存 的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型,通过 不断智能学习未知文件类型并更新第一对应关系,使得对于自定义文件或未 知文件均可以被识别,降低文件识别的错误率,提升文件识别的灵活性与准 确性。
图4是本发明实施例提供的一种攻击行为处置装置的框图,该装置30 包括:
待识别文件获取模块301,用于获取待识别文件的头部字段和文件扩展 名;
第一判断模块302,用于判断处于所述头部字段中预设位置的第一目标 字段是否与第一对应关系中的魔鬼数字字段匹配,所述第一对应关系包括魔 鬼数字字段与文件扩展名的对应关系;
第二判断模块303,用于若所述第一目标字段与所述魔鬼数字字段不匹 配,则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展 名匹配,所述第二对应关系包括头部字段与文件扩展名的对应关系;
第一文件类型确定模块304,用于若所述待识别文件的文件扩展名与所 述第二对应关系中的文件扩展名匹配,则通过比较所述待识别文件的头部字 段与所述第二对应关系中的头部字段,确定所述待识别文件的魔鬼数字字 段,并将所述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的 对应关系存储至所述第一对应关系中,同时将所述待识别文件的文件扩展名 的类型作为所述待识别文件的文件类型。
可选地,文件类型确定模块304包括:
魔鬼数字字段确定子模块,用于通过比较所述待识别文件的头部字段与 所述第二对应关系中的头部字段,获取第二目标字段,并将所述第二目标字 段作为所述待识别文件的魔鬼数字字段,所述第二目标字段为:所述待识别 文件的头部字段和所述第二对应关系中的头部字段中起始位置相同、长度相 同、数据内容相同的字段。
可选地,所述装置还用于若所述第二目标字段的长度大于第一阈值,则 选取所述第二目标字段中第二阈值长度的连续数据作为所述待识别文件的 魔鬼数字字段;所述第一阈值大于所述第二阈值。
可选地,第一判断模块302,包括:
第一目标字段获取子模块,用于根据所述第一对应关系中的魔鬼数字字 段的特征参数,获取所述第一目标字段,所述特征参数包括:魔鬼数字长度、 魔鬼数字起始位置和魔鬼数字内容;
第一匹配子模块,用于若所述第一目标字段的长度与所述魔鬼数字长度 匹配,所述第一目标字段的起始位置与所述魔鬼数字起始位置匹配,所述第 一目标字段的内容与所述魔鬼数字内容匹配,则确定所述第一目标字段与所 述第一对应关系中的魔鬼数字字段匹配;
第一不匹配子模块,用于若所述第一目标字段的长度、起始位置和内容 中至少有一项与所述特征参数不匹配,则确定所述第一目标字段与所述第一 对应关系中的魔鬼数字字段不匹配。
可选地,所述装置还包括:
第二文件类型确定模块,用于在所述待识别文件的文件扩展名与所述第 二对应关系中的文件扩展名不匹配时,将所述待识别文件的文件扩展名与所 述待识别文件的头部字段的对应关系加入所述第二对应关系中。
可选地,所述装置还包括:
样本文件获取模块,用于获取多个样本文件,所述样本文件为文件扩展 名相同的文件;
头部字段获取模块,用于获取所述样本文件的头部字段;
第三目标字段确定模块,用于将多个所述样本文件的头部字段进行比 较,获取第三目标字段,并将所述第三目标字段作为所述样本文件的魔鬼数 字字段,所述第三目标字段为多个所述样本文件的头部字段中起始位置相 同、长度相同、数据内容相同且符合目标长度的字段;
第一对应关系添加模块,用于将所述样本文件的魔鬼数字字段与所述样 本文件的文件扩展名的对应关系添加至所述第一对应关系中。
调整模块,用于若多个所述样本文件的头部字段中不存在所述第三目标 字段,则调整所述目标长度的大小。
可选地,所述装置还包括:
预设文件扩展名匹配模块,用于将所述待识别文件的文件扩展名与预设 文件扩展名进行匹配,所述预设文件扩展名为不存在魔鬼数字的文件类型对 应的文件扩展名;
无魔鬼数字字段确定模块,用于若匹配成功,则将所述待识别文件的文 件扩展名的类型作为所述待识别文件的文件类型;
有魔鬼数字字段确定模块,用于若匹配失败且所述待识别文件的头部字 段与所述第一对应关系中的魔鬼数字字段不匹配时,则进入判断所述待识别 文件的文件扩展名是否与第二对应关系中的文件扩展名匹配的步骤。
可选地,所述装置还包括:
第三文件类型确定模块,用于若所述第一目标字段与所述第一对应关系 中的魔鬼数字字段匹配时,则将所述第一对应关系中的魔鬼数字字段对应的 文件扩展名的类型确定为所述待识别文件的文件类型。
综上,文件类型识别装置通过获取待识别文件的头部字段与文件扩展 名,将待识别文件的头部字段与第一对应关系比较,确定头部字段中的目标 字段是否与第一对应关系中的魔鬼数字字段匹配,在匹配时,可以直接将魔 鬼数字字段对应的文件类型作为待识别文件的文件类型,在待识别文件的头 部字段无法与第一对应关系比较时,将待识别文件的文件扩展名与第二对应 关系中的文件扩展名匹配,在匹配时,通过待识别字段的头部数据与第二对 应关系中的头部数据,可以确定待识别文件的魔鬼数字字段,将待识别文件的魔鬼数字字段与文件扩展名的对应关系更新至第一对应关系中后,在下一 次遇到与待识别文件的文件类型相同的文件时,即可以通过第一对应关系中 保存的待识别文件的魔鬼数字字段与文件扩展名的对应关系确定文件类型, 通过不断智能学习未知文件类型并更新第一对应关系,使得对于自定义文件 或未知文件均可以被识别,降低文件识别的错误率,提升文件识别的灵活性 与准确性。
图7是根据一示例性实施例示出的一种电子设备600的框图。例如,电 子设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏 控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,电子设备600可以包括以下一个或多个组件:处理组件602, 存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/ O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼 叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括 一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。 此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组 件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组 件608和处理组件602之间的交互。
存储器604用于存储各种类型的数据以支持在电子设备600的操作。这 些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指 令,联系人数据,电话簿数据,消息,图片,多媒体等。存储器604可以由 任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存 取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可 编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为电子设备600的各种组件提供电力。电源组件606可以 包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理 和分配电力相关联的组件。
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接 口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板 (TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自 用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和 触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界, 而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例 中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600 处于操作模式,如拍摄模式或多媒体模式时,前置摄像头和/或后置摄像头 可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定 的光学透镜系统或具有焦距和光学变焦能力。
音频组件610用于输出和/或输入音频信号。例如,音频组件610包括 一个麦克风(MIC),当电子设备600处于操作模式,如呼叫模式、记录模 式和语音识别模式时,麦克风用于接收外部音频信号。所接收的音频信号可 以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中, 音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围 接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按 钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为电子设备600提供各个 方面的状态评估。例如,传感器组件614可以检测到电子设备600的打开/ 关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键 盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位 置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加 速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器, 被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614 还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使 用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪 传感器,磁传感器,压力传感器或温度传感器。
通信组件616用于便于电子设备600和其他设备之间有线或无线方式的 通信。电子设备600可以接入基于通信标准的无线网络,如WiFi,运营商 网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中, 通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播 相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信 (NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID) 技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技 术和其他技术来实现。
在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编 程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、 微处理器或其他电子元件实现,用于实现本申请实施例提供的一种文件类型 识别方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储 介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620 执行以完成上述方法。例如,所述非临时性存储介质可以是ROM、随机存 取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是根据一示例性实施例示出的一种电子设备700的框图。例如,电 子设备700可以被提供为一服务器。参照图8,电子设备700包括处理组件 722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器 资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器 732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令 的模块。此外,处理组件722被配置为执行指令,以执行本申请实施例提供 的一种文件类型识别方法。
电子设备700还可以包括一个电源组件726被配置为执行电子设备700 的电源管理,一个有线或无线网络接口750被配置为将电子设备700连接到 网络,和一个输入输出(I/O)接口758。电子设备700可以操作基于存储 在存储器732的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或类似。
本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算 机程序被处理器执行时实现所述的文件类型识别方法。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本 申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公 开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被 视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确 结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所 附的权利要求来限制。

Claims (12)

1.一种文件类型识别方法,其特征在于,所述方法包括:
获取待识别文件的头部字段和文件扩展名;
判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配,所述第一对应关系包括魔鬼数字字段与文件扩展名的对应关系;
若所述第一目标字段与所述魔鬼数字字段不匹配,则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配,所述第二对应关系包括头部字段与文件扩展名的对应关系;
若所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名匹配,则通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段,确定所述待识别文件的魔鬼数字字段,并将所述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第一对应关系中,同时将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型。
2.根据权利要求1所述的文件类型识别方法,其特征在于,所述通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段,确定所述待识别文件的魔鬼数字字段,包括:
通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段,获取第二目标字段,并将所述第二目标字段作为所述待识别文件的魔鬼数字字段,所述第二目标字段为:所述待识别文件的头部字段和所述第二对应关系中的头部字段中起始位置相同、长度相同、数据内容相同的字段。
3.根据权利要求2所述的文件类型识别方法,其特征在于,所述方法还包括:
若所述第二目标字段的长度大于第一阈值,则选取所述第二目标字段中第二阈值长度的连续数据作为所述待识别文件的魔鬼数字字段;所述第一阈值大于所述第二阈值。
4.根据权利要求1所述的文件类型识别方法,其特征在于,所述判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配,包括:
根据所述第一对应关系中的魔鬼数字字段的特征参数,获取所述第一目标字段,所述特征参数包括:魔鬼数字长度、魔鬼数字起始位置和魔鬼数字内容;
若所述第一目标字段的长度与所述魔鬼数字长度匹配,所述第一目标字段的起始位置与所述魔鬼数字起始位置匹配,所述第一目标字段的内容与所述魔鬼数字内容匹配,则确定所述第一目标字段与所述第一对应关系中的魔鬼数字字段匹配;
若所述第一目标字段的长度、起始位置和内容中至少有一项与所述特征参数不匹配,则确定所述第一目标字段与所述第一对应关系中的魔鬼数字字段不匹配。
5.根据权利要求1所述的文件类型识别方法,其特征在于,所述方法还包括:
在所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名不匹配时,将所述待识别文件的文件扩展名与所述待识别文件的头部字段的对应关系加入所述第二对应关系中。
6.根据权利要求1所述的文件类型识别方法,其特征在于,所述方法还包括:
获取多个样本文件,所述样本文件为文件扩展名相同的文件;
获取所述样本文件的头部字段;
将多个所述样本文件的头部字段进行比较,获取第三目标字段,并将所述第三目标字段作为所述样本文件的魔鬼数字字段,所述第三目标字段为多个所述样本文件的头部字段中起始位置相同、长度相同、数据内容相同且符合目标长度的字段;
将所述样本文件的魔鬼数字字段与所述样本文件的文件扩展名的对应关系添加至所述第一对应关系中。
7.根据权利要求6所述的文件类型识别方法,其特征在于,所述方法还包括:
若多个所述样本文件的头部字段中不存在所述第三目标字段,则调整所述目标长度的大小。
8.根据权利要求1所述的文件类型识别方法,其特征在于,所述判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配之前,所述方法还包括:
将所述待识别文件的文件扩展名与预设文件扩展名进行匹配,所述预设文件扩展名为不存在魔鬼数字的文件类型对应的文件扩展名;
若匹配成功,则将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型;
若匹配失败且所述待识别文件的头部字段与所述第一对应关系中的魔鬼数字字段不匹配时,则进入判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配的步骤。
9.根据权利要求1所述的文件类型识别方法,其特征在于,所述方法还包括:
若所述第一目标字段与所述第一对应关系中的魔鬼数字字段匹配时,则将所述第一对应关系中的魔鬼数字字段对应的文件扩展名的类型确定为所述待识别文件的文件类型。
10.一种文件类型识别装置,其特征在于,所述装置包括:
待识别文件获取模块,用于获取待识别文件的头部字段和文件扩展名;
第一判断模块,用于判断处于所述头部字段中预设位置的第一目标字段是否与第一对应关系中的魔鬼数字字段匹配,所述第一对应关系包括魔鬼数字字段与文件扩展名的对应关系;
第二判断模块,用于若所述第一目标字段与所述魔鬼数字字段不匹配,则判断所述待识别文件的文件扩展名是否与第二对应关系中的文件扩展名匹配,所述第二对应关系包括头部字段与文件扩展名的对应关系;
文件类型确定模块,用于若所述待识别文件的文件扩展名与所述第二对应关系中的文件扩展名匹配,则通过比较所述待识别文件的头部字段与所述第二对应关系中的头部字段,确定所述待识别文件的魔鬼数字字段,并将所述待识别文件的魔鬼数字字段与所述待识别文件的文件扩展名的对应关系存储至所述第一对应关系中,同时将所述待识别文件的文件扩展名的类型作为所述待识别文件的文件类型。
11.一种电子设备,其特征在于,包括:处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至9中任一项所述的方法。
CN202210917644.1A 2022-08-01 2022-08-01 一种文件类型识别方法及装置 Active CN115374075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210917644.1A CN115374075B (zh) 2022-08-01 2022-08-01 一种文件类型识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210917644.1A CN115374075B (zh) 2022-08-01 2022-08-01 一种文件类型识别方法及装置

Publications (2)

Publication Number Publication Date
CN115374075A true CN115374075A (zh) 2022-11-22
CN115374075B CN115374075B (zh) 2023-09-01

Family

ID=84063252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210917644.1A Active CN115374075B (zh) 2022-08-01 2022-08-01 一种文件类型识别方法及装置

Country Status (1)

Country Link
CN (1) CN115374075B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226046A (zh) * 2023-03-16 2023-06-06 北京中宏立达科技发展有限公司 一种文件类型检测方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
WO2013066892A1 (en) * 2011-10-31 2013-05-10 Traxxas Lp Multi-function electronic device-enabled transmit controller
CN103383681A (zh) * 2011-12-31 2013-11-06 华为数字技术(成都)有限公司 一种文件类型识别方法及系统
US20140090061A1 (en) * 2012-09-26 2014-03-27 Northrop Grumman Systems Corporation System and method for automated machine-learning, zero-day malware detection
US20170262633A1 (en) * 2012-09-26 2017-09-14 Bluvector, Inc. System and method for automated machine-learning, zero-day malware detection
CN108040069A (zh) * 2017-12-28 2018-05-15 成都数成科技有限公司 一种快速打开网络数据包文件的方法
CN109992969A (zh) * 2019-03-25 2019-07-09 腾讯科技(深圳)有限公司 一种恶意文件检测方法、装置及检测平台
CN110096889A (zh) * 2019-04-18 2019-08-06 深圳前海微众银行股份有限公司 文件检测方法、装置、设备及计算机可读存储介质
CN111159709A (zh) * 2019-12-27 2020-05-15 深信服科技股份有限公司 一种文件类型识别方法、装置、设备及存储介质
CN111966630A (zh) * 2020-08-05 2020-11-20 北京锐安科技有限公司 文件类型的检测方法、装置、设备和介质
CN112100132A (zh) * 2020-09-24 2020-12-18 深圳软牛科技有限公司 一种已删除文件类型识别方法、装置、电子设备及存储介质
CA3125101A1 (en) * 2020-03-09 2021-09-09 Flexxon Pte. Ltd. System and method for detecting data anomalies by analysing morphologies of known and/or unknown cybersecurity threats
CN113590053A (zh) * 2021-09-30 2021-11-02 苏州浪潮智能科技有限公司 一种逻辑卷恢复方法、装置、设备、存储介质
CN113632083A (zh) * 2020-03-09 2021-11-09 丰立有限公司 通过分析已知和/或未知网络安全威胁的形态来检测数据异常的系统和方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013066892A1 (en) * 2011-10-31 2013-05-10 Traxxas Lp Multi-function electronic device-enabled transmit controller
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN103383681A (zh) * 2011-12-31 2013-11-06 华为数字技术(成都)有限公司 一种文件类型识别方法及系统
US20140090061A1 (en) * 2012-09-26 2014-03-27 Northrop Grumman Systems Corporation System and method for automated machine-learning, zero-day malware detection
US20170262633A1 (en) * 2012-09-26 2017-09-14 Bluvector, Inc. System and method for automated machine-learning, zero-day malware detection
CN108040069A (zh) * 2017-12-28 2018-05-15 成都数成科技有限公司 一种快速打开网络数据包文件的方法
CN109992969A (zh) * 2019-03-25 2019-07-09 腾讯科技(深圳)有限公司 一种恶意文件检测方法、装置及检测平台
CN110096889A (zh) * 2019-04-18 2019-08-06 深圳前海微众银行股份有限公司 文件检测方法、装置、设备及计算机可读存储介质
CN111159709A (zh) * 2019-12-27 2020-05-15 深信服科技股份有限公司 一种文件类型识别方法、装置、设备及存储介质
CA3125101A1 (en) * 2020-03-09 2021-09-09 Flexxon Pte. Ltd. System and method for detecting data anomalies by analysing morphologies of known and/or unknown cybersecurity threats
CN113632083A (zh) * 2020-03-09 2021-11-09 丰立有限公司 通过分析已知和/或未知网络安全威胁的形态来检测数据异常的系统和方法
CN111966630A (zh) * 2020-08-05 2020-11-20 北京锐安科技有限公司 文件类型的检测方法、装置、设备和介质
CN112100132A (zh) * 2020-09-24 2020-12-18 深圳软牛科技有限公司 一种已删除文件类型识别方法、装置、电子设备及存储介质
CN113590053A (zh) * 2021-09-30 2021-11-02 苏州浪潮智能科技有限公司 一种逻辑卷恢复方法、装置、设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑洁;罗军勇;芦斌;: "基于统计特征值的文件类型识别算法", 计算机工程, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226046A (zh) * 2023-03-16 2023-06-06 北京中宏立达科技发展有限公司 一种文件类型检测方法及系统
CN116226046B (zh) * 2023-03-16 2023-09-08 北京中宏立达科技发展有限公司 一种文件类型检测方法及系统

Also Published As

Publication number Publication date
CN115374075B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
WO2017092122A1 (zh) 相似性确定方法、装置及终端
CN109359056B (zh) 一种应用程序测试方法及装置
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
CN111539443A (zh) 一种图像识别模型训练方法及装置、存储介质
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN111813932B (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN107181849A (zh) 录音方法及装置
CN115374075B (zh) 一种文件类型识别方法及装置
CN113609380B (zh) 标签体系更新方法、搜索方法、装置以及电子设备
CN111797746B (zh) 人脸识别方法、装置及计算机可读存储介质
CN113920293A (zh) 信息识别方法、装置、电子设备及存储介质
CN111414766A (zh) 一种翻译方法及装置
US11373038B2 (en) Method and terminal for performing word segmentation on text information, and storage medium
US20150363372A1 (en) Method and device for updating user data
CN111339964B (zh) 图像处理方法及装置、电子设备和存储介质
CN110213062B (zh) 处理消息的方法及装置
CN109842688B (zh) 一种内容推荐方法、装置、电子设备及存储介质
CN113936697A (zh) 语音处理方法、装置以及用于语音处理的装置
CN110659625A (zh) 物体识别网络的训练方法及装置、电子设备和存储介质
CN109144286B (zh) 一种输入方法及装置
CN113127613B (zh) 聊天信息处理方法及装置
CN112035628B (zh) 对话数据清洗方法、装置及存储介质
CN110084065B (zh) 数据脱敏方法及装置
CN113870195A (zh) 目标贴图检测模型的训练、贴图检测方法及装置
CN110765111B (zh) 存储和读取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant