CN115577330A - 文件类型识别方法、装置、电子设备及存储介质 - Google Patents
文件类型识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115577330A CN115577330A CN202211561722.5A CN202211561722A CN115577330A CN 115577330 A CN115577330 A CN 115577330A CN 202211561722 A CN202211561722 A CN 202211561722A CN 115577330 A CN115577330 A CN 115577330A
- Authority
- CN
- China
- Prior art keywords
- file
- header information
- identified
- determining
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
Abstract
本发明提供一种文件类型识别方法、装置、电子设备及存储介质,应用于数据处理技术领域,该方法包括:获取待识别文件的文件头信息;确定所述文件头信息所属的目标文件类别对应的预设规则库;其中,所述预设规则库是基于所述目标文件类别中不同文件对应的文件类型确定的;将所述文件头信息与所述预设规则库进行匹配,确定所述待识别文件对应的目标文件类型。该方法用以解决现有技术中由于文件的后缀会存在被恶意修改的情况,电子设备在对该文件的后缀进行类型识别时,易导致该电子设备无法准确识别得到该文件对应的文件类型的缺陷,实现利用预设规则库,对待识别文件进行二次识别,从而有效且准确地得到该待识别文件对应的目标文件类型。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文件类型识别方法、装置、电子设备及存储介质。
背景技术
随着科技的迅速发展,电子设备具有文件摆渡功能,能够将不同的网络划分为不同的保护区间,以使文件可以在这些不同的保护区间进行流转。在文件流转过程中,为了保证文件的安全性,电子设备会对该文件添加一些安全策略(例如:文件类型识别、关键字识别,必要时需要人工审批等),以保证该文件中的数据不被泄露。电子设备还会对特定类型的文件(例如:doc,pdf)限制流转,而在限制文件流转的过程中,电子设备对于这些特定类型的文件所对应的文件类型是否能够进行准确识别是至关重要的。
现有的文件类型识别方法是电子设备对文件的后缀进行识别后,得到该文件的文件类型。然而,由于文件的后缀会存在被恶意修改的情况,就易导致该电子设备无法准确识别得到该文件对应的文件类型。
发明内容
本发明提供一种文件类型识别方法、装置、电子设备及存储介质,用以解决现有技术中由于文件的后缀会存在被恶意修改的情况,电子设备在对该文件的后缀进行类型识别时,就易导致该电子设备无法准确识别得到该文件对应的文件类型的缺陷,实现利用多用途互联网邮件扩展预设规则库,对待识别文件进行二次识别,从而有效且准确地得到该待识别文件对应的目标文件类型。
本发明提供一种文件类型识别方法,包括:
获取待识别文件的文件头信息;
确定该文件头信息所属的目标文件类别对应的预设规则库;其中,该预设规则库是基于该目标文件类别中不同文件对应的文件类型确定的;
将该文件头信息与该预设规则库进行匹配,确定该待识别文件对应的目标文件类型。
根据本发明提供的一种文件类型识别方法,该预设规则库中包括多个文件类型与各文件类型对应的关键字符串,该将该文件头信息与该预设规则库进行匹配,确定该待识别文件对应的目标文件类型,包括:将该文件头信息与该各文件类型对应的关键字符串进行匹配;将与该文件头信息匹配的关键字符串对应的文件类型,确定为该目标文件类型。
根据本发明提供的一种文件类型识别方法,该将与该文件头信息匹配的关键字符串对应的文件类型,确定为该目标文件类型,包括:在存在至少两个关键字符串均与该文件头信息匹配的情况下,从该至少两个关键字符串中确定与该文件头信息匹配度最大的关键字符串;将匹配度最大的关键字符串对应的文件类型,确定为该目标文件类型。
根据本发明提供的一种文件类型识别方法,该确定该文件头信息所属的目标文件类别对应的预设规则库,包括:获取该多个文件类型对应的文件的文件头信息;针对各文件类型对应的文件,从该文件的文件头信息中确定关键字符串;基于该多个文件类型和该文件类型对应的关键字符串,构建预设规则库。
根据本发明提供的一种文件类型识别方法,该从该文件的文件头信息中确定关键字符串,包括:基于该文件的文件头信息,确定起始位置和偏移量;根据该起始位置和该偏移量,确定关键字符串。
根据本发明提供的一种文件类型识别方法,在该确定该待识别文件对应的目标文件类型之后,该方法还包括:基于该待识别文件的文件头信息和该目标文件类型,生成文件标注表,该文件标注表包括该待识别文件的文件头信息和该目标文件类型之间的映射关系。
根据本发明提供的一种文件类型识别方法,在该确定该待识别文件对应的目标文件类型之后,该方法还包括:确定该目标文件类型对应的打开方式;基于该打开方式,输出该待识别文件。
本发明还提供一种文件类型识别装置,包括:
获取模块,用于获取待识别文件的文件头信息;
处理模块,用于确定该文件头信息所属的目标文件类别对应的预设规则库;其中,该预设规则库是基于该目标文件类别中不同文件对应的文件类型确定的;将该文件头信息与该预设规则库进行匹配,确定该待识别文件对应的目标文件类型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文件类型识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文件类型识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文件类型识别方法。
本发明提供的文件类型识别方法、装置、电子设备及存储介质,通过获取待识别文件的文件头信息;确定所述文件头信息所属的目标文件类别对应的预设规则库;其中,所述预设规则库是基于所述目标文件类别中不同文件对应的文件类型确定的;将所述文件头信息与所述预设规则库进行匹配,确定所述待识别文件对应的目标文件类型。该方法用以解决现有技术中由于文件的后缀会存在被恶意修改的情况,电子设备在对该文件的后缀进行类型识别时,就易导致该电子设备无法准确识别得到该文件对应的文件类型的缺陷,实现利用多用途互联网邮件扩展预设规则库,对待识别文件进行二次识别,从而有效且准确地得到该待识别文件对应的目标文件类型。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文件类型识别方法的流程示意图;
图2是本发明提供的文件类型识别装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例涉及的电子设备可以包括:计算机、移动终端及可穿戴设备等。
需要说明的是,本发明实施例涉及的执行主体可以是文件类型识别装置,也可以是电子设备,下面以电子设备为例对本发明实施例进行进一步地说明。
如图1所示,是本发明提供的文件类型识别方法的流程示意图,可以包括:
101、获取待识别文件的文件头信息。
其中,待识别电脑文件(简称:待识别文件)也可称为待识别计算机文件,指的是存储在电子设备中的一段数据流;
文件头信息指的是位于待识别文件开头的一段数据。
电子设备获取待识别文件的文件头信息,以便该电子设备后续基于该文件头信息,准确识别该待识别文件对应的目标文件类型。
可选的,文件头信息可包括多用途互联网邮件扩展(Multipurpose InternetMail Extensions,MIME)特征。
可选的,电子设备获取待识别文件的文件头信息,可以包括:电子设备获取该电子设备的当前剩余电量;该电子设备在确定该当前剩余电量大于预设电量阈值的情况下,获取待识别文件的文件头信息。
其中,当前剩余电量指的是电子设备中供能装置(例如:电池)的剩余电量。
可选的,预设电量阈值可以是电子设备出厂前设置的,也可以是用户自定义的,此处不作具体限定。
电子设备在获取该电子设备的当前剩余电量之后,可以将该当前剩余电量与预设电量阈值进行比较:该电子设备在确定该当前剩余电量大于该预设电量阈值的情况下,说明该电子设备的电量充足,此时,该电子设备可直接获取待识别文件的文件头信息;电子设备在确定该当前剩余电量小于等于该预设电量阈值的情况下,说明该电子设备的电量不足,此处,该电子设备可输出第一提示信息,该第一提示信息用于提示用户对该电子设备充电。
示例性的,假设预设电量阈值为20%。电子设备获取该电子设备的当前剩余电量为30%,该当前剩余电量30%大于该预设电量阈值20%,此时,该电子设备可直接获取待识别文件的文件头信息。
102、确定文件头信息所属的目标文件类别对应的预设规则库。
其中,预设规则库是基于目标文件类别中不同文件对应的文件类型确定的,不同的目标文件类别对应的预设规则库是不同的。
上述预设规则库具有可自定义及易扩展等优势。
电子设备在获取待识别文件的文件头信息之后,可以先确定该文件头信息对应所属的目标文件类别;然后,该电子设备再确定该目标文件类别对应的预设规则库。
可选的,目标文件类别可以包括但不限于以下其中一项:文本文件类、图片文件类、音频文件类及视频文件类等。
其中,文本文件类指的是由若干行字符构成的计算机文件;
图片文件类指的是电子设备存储的若干图片格式;
音频文件类指的是电子设备存储的若干声音文件格式;
视频文件类指的是电子设备存储的若干视频格式。
可选的,文本文件类可以包括但不限于:美国信息交换标准码(AmericanStandard Code for Information Interchange,ASCll)及文本文档(text/ txt)等;
图片文件类可以包括但不限于:联合图像专家小组(Joint PhotographicExperts Group,JPEG)、标签图像文件格式(Tag Image File Format,TIFF)、标准图像文件格式(Bit Map,BMP)、图像互换格式(Graphics Interchange Format,GIF)及可移植网络图形格式(Portable Network Graphic Format,PNG)等;
音频文件类可以包括但不限于:微软媒体音频(Windows Media Audio,WMA)、音频交换文件格式(Audio Interchange File Format,AIFF)及动态图片专家组音频(MovingPicture Experts Group Audio Layer 3,MP3)等;
视频文件类可以包括但不限于:运动图像专家组(Motion Picture ExpertsGroup,MPEG)及音频视频交错(Audio Video Interleaved,AVI)等。
可选的,电子设备确定文件头信息所属的目标文件类别对应的预设规则库,可以包括:电子设备在确定文件头信息与多用途互联网邮件扩展MIME特征库匹配失败的情况下,确定文件头信息所属的目标文件类别对应的预设规则库。
其中,MIME特征库指的是描述信息内容类型的标准,用于表示待识别文件的性质和格式,即用于确定该待识别文件对应的目标文件类型。
电子设备在获取待识别文件的文件头信息之后,可以将该文件头信息中的MIME特征与MIME特征库进行匹配:该电子设备在确定该MIME特征与该MIME特征库匹配失败的情况下,说明该电子设备无法直接确定该待识别文件对应的文件类型,此时,该电子设备可以基于该MIME特征,确定该文件头信息所属的目标文件类别,也就是说,电子设备第一次对该文字头信息对应的文件类型进行识别是失败的,但是,该电子设备可以先确定该文件头所属的目标文件类别,以便后续该电子设备基于该目标文件类别对应的预设规则库,对该文字头信息对应的文件类型进行第二次的准确识别。
在一些实施例中,电子设备确定文件头信息所属的目标文件类别对应的预设规则库,可以包括:电子设备获取多个文件类型对应的文件的文件头信息;该电子设备针对各文件类型对应的文件,从文件的文件头信息中确定关键字符串;该电子设备基于多个文件类型和文件类型对应的关键字符串,构建预设规则库。
其中,关键字符串指的是文件头信息中特定位置范围对应的字符串,该特定位置范围可以是电子设备基于该文件头信息的起始位置和偏移量确定的;
起始位置指的是目标文件头信息包括的某个字节/字符所在位置;
偏移量指的是基于起始位置,向右/向左偏移一定数量个字节/字符的位置。
可选的,起始位置及偏移量可以是电子设备出厂前设置的,也可以是用户自定义的,此处不作具体限定。
可选的,起始位置可以是目标文件头信息中首个字节/字符所在位置。
目标文件类别中有若干文件,这些文件都是不同的。电子设备基于这些不同文件的文件类型,确定文件类型对应的关键字符串;然后,该电子设备基于多个文件类型和文件类型对应的关键字符串,可准确构建预设规则库。
示例性的,电子设备可以获取第一文件对应的第一文件类型及该第一文件类型对应的第一关键字符串;然后,该电子设备获取第二文件对应的第二文件类型及该第二文件类型对应的第二关键字符串;接着,该电子设备将该第一文件类型与该第一关键字符串对应存储在预设规则表中,将该第二文件类型与该第二关键字符串对应存储在预设规则表中,以此类推,该预设规则库就可以包括多个文件类型和文件类型对应的关键字符串。
在一些实施例中,电子设备从文件的文件头信息中确定关键字符串,可以包括:电子设备基于文件的文件头信息,确定起始位置和偏移量;该电子设备根据起始位置和偏移量,确定关键字符串。
为了解决修改后缀的待识别文件无法被电子设备进行准确识别的问题,该电子设备可以基于目标文件头信息中的起始位置和偏移量,(例如:电子设备基于目标文件头信息中的首个字节位置开始,向右偏移六个字节),确定关键字符串(即该关键字符串中包括七个字节)。
示例性的,电子设备基于目标文件头信息中的首个字节位置,向右偏移12个字节位置后的关键字符串为“0xddccaa”;或,电子设备基于目标文件头信息中的首个字节位置,向右偏移7字节位置后的字符串特征为“ltx_root”、“ltx_data”,“version”及“eda”等。也就是说,“0xddccaa”为关键字符串,或,“ltx_root”、“ltx_data”,“version”及“eda”为关键字符串。
103、将文件头信息与预设规则库进行匹配,确定待识别文件对应的目标文件类型。
电子设备在获取获取待识别文件的文件头信息及预设规则库之后,可以将该文件头信息与该预设规则库进行匹配:该电子设备在确定该文件头信息与该预设规则库匹配成功的情况下,可基于该预设规则库,直接确定该待识别文件对应的目标文件类型。
该电子设备在确定该文件头信息与该预设规则库匹配失败的情况下,可输出第二提示信息,该第二提示信息用于提示用该电子设备对该待识别文件的目标文件类型识别失败。
在一些实施例中,预设规则库中包括多个文件类型与各文件类型对应的关键字符串,电子设备将文件头信息与预设规则库进行匹配,确定待识别文件对应的目标文件类型,可以包括:电子设备将文件头信息与各文件类型对应的关键字符串进行匹配;该电子设备将与文件头信息匹配的关键字符串对应的文件类型,确定为目标文件类型。
电子设备在获取文件头信息及预设规则库之后,可以将该文件头信息中的连续字符串与该预设规则库中各文件类型对应的关键字符串逐一进行匹配;该电子设备在匹配成功的情况下,可直接将与该文件头信息匹配的关键字符串对应的文件类型,确定为目标文件类型。
该电子设备在匹配失败的情况下,说明该电子设备在该预设规则库中无法查询到与该文件头信息对应的关键字符串,那么,该电子设备也就无法基于该预设规则库,确定待识别文件对应的目标文件类型,此时,该电子设备可以输出上述第二提示信息。
在一些实施例中,电子设备将与文件头信息匹配的关键字符串对应的文件类型,确定为目标文件类型,可以包括:电子设备在存在至少两个关键字符串均与文件头信息匹配的情况下,从至少两个关键字符串中确定与文件头信息匹配度最大的关键字符串;该电子设备将匹配度最大的关键字符串对应的文件类型,确定为目标文件类型。
电子设备在确定存在多个关键字符串都与文件头信息匹配成功的情况下,可以获取每个关键字符串与该文件头信息之间的匹配度;然后,该电子设备将这些匹配度进行比较,确定最大匹配度对应的关键字符串,并将该匹配度最大的关键字符串对应的文件类型,确定为目标文件类型,这样可有效提高确定目标文件类型的准确性。
在一些实施例中,电子设备在确定待识别文件对应的目标文件类型之后,该方法还可以包括但不限于以下至少一种实现方式:
实现方式1:电子设备基于待识别文件的文件头信息和目标文件类型,生成文件标注表。
其中,文件标注表包括待识别文件的文件头信息和目标文件类型之间的映射关系。
电子设备可以获取第一文件及该第一文件对应的第一文件类型,并将该第一文件及该第一文件类型以第一标识进行标注,得到第一标注信息,该第一文件为多个待识别文件中的任一文件;然后,该电子设备获取第二文件及该第二文件对应的第二文件类型,并将该第二文件及该第二文件类型以第二标识进行标注,得到第二标注信息,该第二文件也为该多个待识别文件中的任一文件,该第二文件与该第一文件不同,该第二标识与该第一标识不同;接着,该电子设备根据该第一标注信息及该第二标注信息,得到这多个文件对应的文件标注表。
接着,电子设备在获取待识别文件之后,可以判断该待识别文件是否为该文件标注表中的文件:如果该电子设备确定该待识别文件为该文件标注表中的文件(例如:该待识别文件为上述第二文件),那么,该电子设备就可以直接从文件标注表中,获取该待识别文件对应的目标文件类型;如果该电子设备确定该待识别文件不为该文件标注表中的文件,那么,该电子设备也就无法准确确定该待识别文件对应的目标文件类型,此时,该电子设备可以输出第二提示信息。
其中,标识用于区分不同的文件及文件类型,也就是说,第一文件及该第一文件对应的第一文件类型具有唯一性,第二文件及该第二文件对应的第二文件类型也具有唯一性。
实现方式2:电子设备确定目标文件类型对应的打开方式;该电子设备基于打开方式,输出待识别文件。
电子设备在获取了多个文件类型之后,可以获取这多个文件类型对应的打开方式,然后,将该这多个文件与对应的打开方式进行关联,得到文件打开关联表。这样一来,该电子设备在获取的待识别文件为上述文件打开关联表中的文件的情况下,可直接查询该目标文件类型对应的打开方式,并基于该打开方式输出该待识别文件,这样可有效提高待识别文件的输出效率。
可选的,不同的目标文件类型对应的打开方式可以是相同的,也可以是不同的,需基于该目标文件类型对应的目标文件类别来确定。
示例性的,如果目标文件类型对应的目标文件类别为图片文件类,那么,该目标文件类型的打开方式可以为图片应用软件;如果目标文件类型对应的目标文件类别为视频文件类,那么,该目标文件类型的打开方式可以为视频应用软件。
实现方式3:电子设备确定目标文件类型对应的数据库;该电子设备基于数据库,对待识别文件进行分析,得到日志报告。
其中,数据库是电子设备在确定待识别文件对应的目标文件类型的过程中记录并存储的。
电子设备在确定目标文件类型之后,可以获取该目标文件类型对应的数据库;然后,该电子设备基于该数据库,对该目标文件类型对应的待识别文件中的文件内容进行分析,得到该待识别文件对应的日志报告。
可选的,日志报告中可以记录该待识别文件中的异常数据,及该异常数据对应的异常原因等。
实现方式4:电子设备输出待识别文件对应的目标文件类型。
这样一来,用户可及时获知待识别文件对应的目标文件类型。
可选的,电子设备输出待识别文件对应的目标文件类型,可以包括但不限于以下至少一种实现方式:
实现方式(1):电子设备以文字形式输出待识别文件对应的目标文件类型。
可选的,文字形式可以是电子设备出厂前设置的,也可以是用户自定义的,此处不作具体限定。
实现方式(2):电子设备以语音形式播报待识别文件对应的目标文件类型。
可选的,语音形式可以是电子设备出厂前设置的,也可以是用户自定义的,此处不作具体限定。
实现方式(3):电子设备将待识别文件对应的目标文件类型向关联设备发送,以使该关联设备输出该目标文件类型。
可选的,电子设备与关联设备之间可通过无线通信技术进行连接,该无线通信技术可以包括但不限于以下其中一项:第四代通讯技术(the 4 Generation mobilecommunication technology,4G)、第五代通讯技术(the 5 Generation mobilecommunication technology,5G)及无线保真技术(Wireless Fidelity,WiFi)等。
需要说明的是,无论是实现方式(1)、实现方式(2),还是实现方式(3),都可灵活使得用户及时获知待识别文件对应的目标文件类型。
示例性的,电子设备在获取待识别文件后,可以先获取该待识别文件的文件头信息;然后,该电子设备在确定文件头信息与MIME特征库匹配失败的情况下,确定文件头信息所属的目标文件类别为文本文件类;接着,该电子设备从该文件头信息的首个字节位置开始,向后偏移6个字节位置,确定关键字符串“ltx_root”,且该待识别文件中还含有“ltx_data”,“version”及“eda”等字符特征;电子设备再获取预设规则库,在该预设规则库中,字符串“ltx_root”与关键字符串“txt”是对应的,所以,该电子设备基于该字符串“ltx_root”及该预设规则库,可有效且准确确定该待识别文件的目标文件类型为“txt”。
在本发明实施例中,获取待识别文件的文件头信息;确定文件头信息所属的目标文件类别对应的预设规则库;其中,预设规则库是基于目标文件类别中不同文件对应的文件类型确定的;将文件头信息与预设规则库进行匹配,确定待识别文件对应的目标文件类型。该方法用以解决现有技术中由于文件的后缀会存在被恶意修改的情况,电子设备在对该文件的后缀进行类型识别时,就易导致该电子设备无法准确识别得到该文件对应的文件类型的缺陷,实现利用多用途互联网邮件扩展预设规则库,对待识别文件进行二次识别,从而有效且准确地得到该待识别文件对应的目标文件类型。
下面对本发明提供的文件类型识别装置进行描述,下文描述的文件类型识别装置与上文描述的文件类型识别方法可相互对应参照。
如图2所示,是本发明提供的文件类型识别装置的结构示意图,可以包括:
获取模块201,用于获取待识别文件的文件头信息;
处理模块202,用于确定该文件头信息所属的目标文件类别对应的预设规则库;其中,该预设规则库是基于该目标文件类别中不同文件对应的文件类型确定的;将该文件头信息与该预设规则库进行匹配,确定该待识别文件对应的目标文件类型。
可选的,该预设规则库中包括多个文件类型与各文件类型对应的关键字符串;
处理模块202,具体用于将该文件头信息与该各文件类型对应的关键字符串进行匹配;将与该文件头信息匹配的关键字符串对应的文件类型,确定为该目标文件类型。
可选的,处理模块202,具体用于在存在至少两个关键字符串均与该文件头信息匹配的情况下,从该至少两个关键字符串中确定与该文件头信息匹配度最大的关键字符串;将匹配度最大的关键字符串对应的文件类型,确定为该目标文件类型。
可选的,获取模块201,具体用于获取该多个文件类型对应的文件的文件头信息;
处理模块202,具体用于针对各文件类型对应的文件,从该文件的文件头信息中确定关键字符串;基于该多个文件类型和该文件类型对应的关键字符串,构建预设规则库。
可选的,处理模块202,具体用于基于该文件的文件头信息,确定起始位置和偏移量;根据该起始位置和该偏移量,确定关键字符串。
可选的,处理模块202,还用于基于该待识别文件的文件头信息和该目标文件类型,生成文件标注表,该文件标注表包括该待识别文件的文件头信息和该目标文件类型之间的映射关系。
可选的,处理模块202,还用于确定该目标文件类型对应的打开方式;基于该打开方式,输出该待识别文件。
如图3所示,是本发明提供的电子设备的结构示意图,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行文件类型识别方法,该方法包括:获取待识别文件的文件头信息;确定该文件头信息所属的目标文件类别对应的预设规则库;其中,该预设规则库是基于该目标文件类别中不同文件对应的文件类型确定的;将该文件头信息与该预设规则库进行匹配,确定该待识别文件对应的目标文件类型。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文件类型识别方法,该方法包括:获取待识别文件的文件头信息;确定该文件头信息所属的目标文件类别对应的预设规则库;其中,该预设规则库是基于该目标文件类别中不同文件对应的文件类型确定的;将该文件头信息与该预设规则库进行匹配,确定该待识别文件对应的目标文件类型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文件类型识别方法,该方法包括:获取待识别文件的文件头信息;确定该文件头信息所属的目标文件类别对应的预设规则库;其中,该预设规则库是基于该目标文件类别中不同文件对应的文件类型确定的;将该文件头信息与该预设规则库进行匹配,确定该待识别文件对应的目标文件类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文件类型识别方法,其特征在于,包括:
获取待识别文件的文件头信息;
确定所述文件头信息所属的目标文件类别对应的预设规则库;其中,所述预设规则库是基于所述目标文件类别中不同文件对应的文件类型确定的;
将所述文件头信息与所述预设规则库进行匹配,确定所述待识别文件对应的目标文件类型。
2.根据权利要求1所述的方法,其特征在于,所述预设规则库中包括多个文件类型与各文件类型对应的关键字符串,所述将所述文件头信息与所述预设规则库进行匹配,确定所述待识别文件对应的目标文件类型,包括:
将所述文件头信息与所述各文件类型对应的关键字符串进行匹配;
将与所述文件头信息匹配的关键字符串对应的文件类型,确定为所述目标文件类型。
3.根据权利要求2所述的方法,其特征在于,所述将与所述文件头信息匹配的关键字符串对应的文件类型,确定为所述目标文件类型,包括:
在存在至少两个关键字符串均与所述文件头信息匹配的情况下,从所述至少两个关键字符串中确定与所述文件头信息匹配度最大的关键字符串;
将匹配度最大的关键字符串对应的文件类型,确定为所述目标文件类型。
4.根据权利要求2所述的方法,其特征在于,所述确定所述文件头信息所属的目标文件类别对应的预设规则库,包括:
获取所述多个文件类型对应的文件的文件头信息;
针对各文件类型对应的文件,从所述文件的文件头信息中确定关键字符串;
基于所述多个文件类型和所述文件类型对应的关键字符串,构建预设规则库。
5.根据权利要求4所述的方法,其特征在于,所述从所述文件的文件头信息中确定关键字符串,包括:
基于所述文件的文件头信息,确定起始位置和偏移量;
根据所述起始位置和所述偏移量,确定关键字符串。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在所述确定所述待识别文件对应的目标文件类型之后,所述方法还包括:
基于所述待识别文件的文件头信息和所述目标文件类型,生成文件标注表,所述文件标注表包括所述待识别文件的文件头信息和所述目标文件类型之间的映射关系。
7.根据权利要求1-5中任一项所述的方法,其特征在于,在所述确定所述待识别文件对应的目标文件类型之后,所述方法还包括:
确定所述目标文件类型对应的打开方式;
基于所述打开方式,输出所述待识别文件。
8.一种文件类型识别装置,其特征在于,包括:
获取模块,用于获取待识别文件的文件头信息;
处理模块,用于确定所述文件头信息所属的目标文件类别对应的预设规则库;其中,所述预设规则库是基于所述目标文件类别中不同文件对应的文件类型确定的;将所述文件头信息与所述预设规则库进行匹配,确定所述待识别文件对应的目标文件类型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文件类型识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文件类型识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211561722.5A CN115577330A (zh) | 2022-12-07 | 2022-12-07 | 文件类型识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211561722.5A CN115577330A (zh) | 2022-12-07 | 2022-12-07 | 文件类型识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115577330A true CN115577330A (zh) | 2023-01-06 |
Family
ID=84590777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211561722.5A Pending CN115577330A (zh) | 2022-12-07 | 2022-12-07 | 文件类型识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577330A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770470A (zh) * | 2008-12-31 | 2010-07-07 | 中国银联股份有限公司 | 一种文件类型识别分析方法及系统 |
CN105808583A (zh) * | 2014-12-30 | 2016-07-27 | Tcl集团股份有限公司 | 文件类型识别方法及装置 |
CN106844476A (zh) * | 2016-12-23 | 2017-06-13 | 上海上讯信息技术股份有限公司 | 一种识别文件格式及对应完整性的方法和设备 |
CN112256635A (zh) * | 2020-10-19 | 2021-01-22 | 厦门天锐科技股份有限公司 | 一种识别文件类型的方法及装置 |
-
2022
- 2022-12-07 CN CN202211561722.5A patent/CN115577330A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770470A (zh) * | 2008-12-31 | 2010-07-07 | 中国银联股份有限公司 | 一种文件类型识别分析方法及系统 |
CN105808583A (zh) * | 2014-12-30 | 2016-07-27 | Tcl集团股份有限公司 | 文件类型识别方法及装置 |
CN106844476A (zh) * | 2016-12-23 | 2017-06-13 | 上海上讯信息技术股份有限公司 | 一种识别文件格式及对应完整性的方法和设备 |
CN112256635A (zh) * | 2020-10-19 | 2021-01-22 | 厦门天锐科技股份有限公司 | 一种识别文件类型的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109951435B (zh) | 一种设备标识提供方法及装置和风险控制方法及装置 | |
CA2399891A1 (en) | Software patch generator | |
CN110716965B (zh) | 一种块链式账本中的查询方法、装置及设备 | |
CN103890734A (zh) | 遥测文件散列和冲突检测 | |
CN108664471B (zh) | 文字识别纠错方法、装置、设备及计算机可读存储介质 | |
CN111124421B (zh) | 区块链智能合约的异常合约数据检测方法和装置 | |
EP2023266B1 (en) | Searching media content for objects specified using identifiers | |
CN115481104A (zh) | 一种数据查询方法、装置、电子设备及存储介质 | |
CN114416926A (zh) | 关键词匹配方法、装置、计算设备及计算机可读存储介质 | |
CN108133026B (zh) | 一种多数据的处理方法、系统及存储介质 | |
CN116055067B (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
CN115577330A (zh) | 文件类型识别方法、装置、电子设备及存储介质 | |
CN111324645B (zh) | 区块链的数据处理方法及装置 | |
CN109359481B (zh) | 一种基于bk树的反碰撞搜索约减方法 | |
CN115269910A (zh) | 音视频审核方法及系统 | |
CN114003737A (zh) | 基于人工智能的双录审查辅助方法、装置、设备及介质 | |
CN110636042B (zh) | 一种服务端已验证块高的更新方法、装置及设备 | |
CN109560964B (zh) | 一种设备合规检查方法及装置 | |
CN108415814B (zh) | 自动记录字段变化方法、应用服务器及计算机可读存储介质 | |
CN110413669A (zh) | 一种基于etl的数据处理方法、装置、终端设备及存储介质 | |
CN115660819B (zh) | 一种用于信贷决策的数据源对接平台 | |
CN113343639B (zh) | 产品标识码图生成、基于产品标识码图的信息查询方法 | |
CN112230983B (zh) | 信息处理方法、电子设备和介质 | |
CN115002100B (zh) | 文件传输方法、装置、电子设备及存储介质 | |
CN115001833B (zh) | 登录方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |