CN105808583B - 文件类型识别方法及装置 - Google Patents

文件类型识别方法及装置 Download PDF

Info

Publication number
CN105808583B
CN105808583B CN201410849385.9A CN201410849385A CN105808583B CN 105808583 B CN105808583 B CN 105808583B CN 201410849385 A CN201410849385 A CN 201410849385A CN 105808583 B CN105808583 B CN 105808583B
Authority
CN
China
Prior art keywords
file
metadata
type
value
file type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410849385.9A
Other languages
English (en)
Other versions
CN105808583A (zh
Inventor
徐隽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201410849385.9A priority Critical patent/CN105808583B/zh
Publication of CN105808583A publication Critical patent/CN105808583A/zh
Application granted granted Critical
Publication of CN105808583B publication Critical patent/CN105808583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明适用于文件识别领域,提供了一种文件类型识别方法及装置。所述方法包括:确定文件的文件类型的初始值;根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据大小value;所述文件的元数据包括标识文件类型的关键字;在文件中提取与确定的文件的元数据大小相等的元数据;识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值。本发明实施例能够提高文件类型识别的准确率。

Description

文件类型识别方法及装置
技术领域
本发明实施例属于文件识别领域,尤其涉及一种文件类型识别方法及装置。
背景技术
随着社会的不断发展,各种智能设备(如智能手机、平板电脑、智能家电等)的普及率越来越高。这些智能设备通常都具有家庭娱乐功能,如分享照片、听音乐、看电影等。智能设备在实现家庭娱乐功能时,需要对各种媒体文件进行处理,如,需要判定媒体文件所属的类型,并调用与媒体文件所属的类型对应的应用程序来打开它。但若文件类型识别错误,则将导致调用的应用程序不能正常打开媒体文件,轻则出错,重则会导致应用崩溃。
现有的文件类型识别方法主要是基于文件后缀名识别,该方法根据不同的文件后缀名来区分不同的文件,是最基本也是最简单的文件类型识别方法。以mp3文件的识别为例,如果判断出文件的后缀名为.mp3,则判定该文件为一个mp3音频文件。这种方法的处理流程如图1所示。但由于媒体文件的后缀名容易被修改,因此,该识别方法虽然简单,但容易误判,从而导致识别率过低。
发明内容
本发明实施例提供了一种文件类型识别方法及装置,旨在解决现有方法在识别文件类型时,准确率低的问题。
本发明实施例是这样实现的,一种文件类型识别方法,所述方法包括:
确定文件的文件类型的初始值;
根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据大小value;所述文件的元数据包括标识文件类型的关键字;
在文件中提取与确定的文件的元数据大小相等的元数据;
识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值。
本发明实施例的另一目的在于提供一种文件类型识别装置,所述装置包括:
文件类型初步确定单元,用于确定文件的文件类型的初始值;
元数据位置确定单元,用于根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据大小value;所述文件的元数据包括标识文件类型的关键字;
元数据提取单元,用于在文件中提取与确定的文件的元数据大小相等的元数据;
元数据识别单元,用于识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值。
在本发明实施例中,由于采用预先建立的文件特征值模型确定文件的元数据大小,并在文件中提取与确定的文件的元数据大小相等的元数据,根据提取的元数据进一步判断文件的文件类型,从而降低误判的概率,提高文件类型识别的准确率。
附图说明
图1是现有技术中文件类型识别方法的的流程图;
图2是本发明第一实施例提供的一种文件类型识别方法的流程图;
图3是本发明第一实施例提供的一种文件类型识别方法中确定文件的文件类型的初始值具体流程图;
图4是本发明第一实施例提供的一种文件类型识别方法中元数据的大小与文件大小的关系示意图;
图5是本发明第一实施例提供的一种文件类型识别方法中元数据所占比率与文件大小的关系示意图;
图6是本发明第二实施例提供的一种文件类型识别装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,确定文件的文件类型的初始值,根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据所在的位置value,在文件的元数据所在的位置提取文件的元数据,识别提取的文件的元数据,并根据识别结果判断文件所属的文件类型的最终值。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图2示出了本发明第一实施例提供的一种文件类型识别方法的流程图,详述如下:
步骤S21,确定文件的文件类型的初始值。
其中,所述步骤S21,确定文件的文件类型的初始值,具体包括:
A1、获取文件的后缀名和/或MIME类型。
A2、根据文件的后缀名和/或MIME类型判断文件的文件类型的初始值。
上述A1~A2中,可根据文件的后缀名初步确定文件的文件类型,或者,根据多用途互联网邮件扩展(Multipurpose Internet Mail Extensions,MIME)类型初步确定文件的文件类型,或者,根据文件的后缀名和MIME类型初步确定文件的文件类型:当根据文件的后缀名判定的文件类型和根据MIME类型判定的文件类型相同时,确定文件的文件类型,否则,当根据文件的后缀名判定的文件类型和根据MIME类型判定的文件类型不相同时,重新确定文件的文件类型。由于根据文件的后缀名、根据文件的MIME类型判断文件的文件类型的初始值,因此,能够快速判断出文件类型的初始值。其中,根据MIME类型识别文件的文件类型,具体为:将文件的后缀名与MIME类型绑定,每一种后缀名对应一个MIME类型,MIME类型能够说明这个文件是图像、还是音频或视频。比如,jpg后缀对应的MIME是image/jpeg,mp3后缀对应的MIME是audio/mpeg,aac后缀对应的MIME是audio/aac,mp4后缀对应的MIME是video/mp4,ogg后缀对应的MIME是video/ogg。这种方法的处理流程如图3所示。
步骤S22,根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据大小value;所述文件的元数据包括标识文件类型的关键字。
在该步骤中,当第一次打开文件时,通过文件系统函数调用或其他方法,得到文件大小,再将文件大小、文件类型的初始值作为预先建立的文件特征值模型的输入,确定文件的元数据大小value。根据确定的value,从文件头部和/或文件尾部分别提取value大小的元数据。当然,若文件大小小于2*value,则直接将文件作为文件的元数据。
其中,预先建立的文件特征值模型过程如下:采取统计学的方法,以大量的统计数据为基准,收集多种类型文件的元数据,将这些元数据与文件的大小、最终确定的文件类型、元数据大小的对应关系记录下来。如对于像mp4这种元数据既可以出现在文件头部,也可以出现在文件尾部的格式,在确定文件的大小与文件类型、元数据大小的对应关系过程中,还要分别统计出元数据出现在文件头部和文件尾部的概率,以概率大者作为这种文件的一般形式,对于概率小的情况,并根据出现概率情况确定对应关系。
在建立的文件特征值模型中,元数据大小与文件大小成正比关系,但元数据大小和文件大小的比值与文件大小成反比关系:当文件小于1M时,元数据在文件中所占的比例较大,一般是文件大小的1%—5%之间,基本上不会超过10%。当文件大于10M时,元数据在文件中所占的比例变小,一般是文件大小的3‰—5‰之间,随着文件的不断增大,元数据在文件中所占比例越来越小。其中,图4为mp4元数据的大小和文件大小的关系趋势示意图,图5为mp4元数据在文件所占比例的趋势示意图。
步骤S23,在文件中提取与确定的文件的元数据大小相等的元数据。具体地,从文件的头部和/或尾部提取元数据大小的元数据。
步骤S24,识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值。
在该步骤中,当识别出文件的文件类型时,采用结构化的文档来存储文件的关键信息,如,对视频文件,存储视频文件的文件类型、编码类型、声道数、分辨率、采样率、帧率等关键信息。
可选地,所述步骤S24,识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值,具体包括:
B1、判断提取的元数据是否包括标识文件类型的关键字。在该步骤中,提取元数据的关键字,将提取的关键字与预先存储的各种类型的文件的关键字进行比较。
B2、在提取的元数据包括标识文件类型的关键字时,根据标识文件类型的关键字判断文件所属的文件类型的最终值。该步骤中,当提取的关键字与某个文件类型的文件的关键字相同时,判定文件类型的最终值为该某个文件类型。
B3、在提取的元数据没有包括标识文件类型的关键字时,获取文件的其他信息,再根据获取的文件的其他信息判断文件所属的文件类型的最终值。
当识别不出文件类型时,有可能是提取的元数据不够,这时,所述B3,在提取的文件的元数据没有包括标识文件类型的关键字时,获取文件的其他信息,再根据获取的文件的其他信息判断文件所属的文件类型的最终值,具体包括:
C1、扩大所述确定文件的元数据大小value的值,得到Final,并从文件中提取Final大小的元数据。根据预先建立的文件特征值模型确定value后,以文件大小的某个比例(如5‰)为基准进行调整,如果在文件的尾部提取元数据则向文件的头部方向将元数据大小扩大文件大小的某个比例,如果在文件的头部提取元数据则向文件的尾部方向将元数据大小扩大文件大小的某个比率。
C2、判断提取的元数据是否包括标识文件类型的关键字。
C3、在提取的元数据包括标识文件类型的关键字时,根据标识文件类型的关键字判断文件所属的文件类型的最终值。
C4、在提取的元数据没有包括标识文件类型的关键字时,重新确定文件的文件类型的初始值。
在C1~C4中,如果扩大一次value的值后,提取的数据量还不够,则再扩大一次value的值,但是调整的次数一般不超过三次。在扩大value的值后,提取的文件的元数据仍然没有包括标识文件类型的关键字时,表明确定的文件类型的初始值是错误的,这时,提取文件的全部的关键字,进而将提取的全部的关键字与已知的文件的关键字比较,以确定文件的文件类型。假设需确定的文件的文件类型为.mp4,则该文件的关键字包括:ftype、moov、trak、mdia、minf、vmhd、smhd等。
可选地,从文件中提取Final大小的包括标识文件类型的关键字的元数据时,根据Final和value确定value的偏差值Delta;根据确定的偏差值和预设的拟合度确定新的value,并根据新的value修正预先建立的文件特征值模型。当元数据出现在文件头部时,Delta=Final–value。当元数据出现在文件尾部时,Delta=Size–Final–value。其中,Size表示文件大小。确定Delta后,根据预设的一个拟合度P(这个值是预先设定的,其取值范围一般在80%-90%之间),采取加权平均的算法,即P*value+Delta*(1-P),得到一个新的值,把这个值保存在文件特征值模型中,用它来替代value,来实现value值的动态调整。同时,将真实值Final、文件大小Size作为输入的一个样本存放在文件特征值模型中,以对文件特征值模型进行修正,使其更能拟合各种现实情况。
优选地,在步骤S24,所述识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值之后,包括:
D1、根据所述用于确定文件类型最终值的元数据或从文件头部和/或文件尾部提取的预设大小数据确定文件的散列值。
D2、将确定的文件的散列值、文件类型、文件大小对应存储,以使所述文件再次被打开时,直接根据所述文件的散列值识别所述文件的文件类型。
上述D1~D2中,在文件识别成功后,从文件头部和文件尾部各提取预设大小(如1K)数据,或直接使用步骤S24中用于确定文件类型最终值的元数据对提取出的数据进行MD5运算,得到一个散列值(MD5值),其中采用步骤S24提取的元数据得到散列值能更加精确地区别不同文件,将得到的散列值与对应的文件类型、文件存储位置、文件大小等信息以结构化文档的形式都存储在本地。其中,存储的结构化文档的组织结构如下表1所示。
表1:
其中,uuid为通用唯一识别码(Universally Unique Identifier)。
当第二次打开某个文件时,可以从存储的MD5散列值表中查找该文件的相关信息,以加快文件处理的速度。
当接收到一个新的文件时,从文件头部和文件尾部各提取预设大小数据,或直接使用步骤S24中用于确定文件类型最终值的元数据进行MD5运算,然后将得到的MD5值与本地存储的MD5值比较,如果数值相同,说明这个新文件与本地上的某个文件相同,可以直接打开本地的文件,并提示用户。如果不同,则执行步骤S21~步骤S24,为下一次快速识别文件类型做准备。
在本发明第一实施例中,确定文件的文件类型的初始值,根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据大小value,从文件中提取元数据大小的元数据,识别提取的文件的元数据,并根据识别结果判断文件所属的文件类型的最终值。由于采用预先建立的文件特征值模型确定文件的元数据所在的位置,并从确定的位置提取相应的元数据,根据提取的元数据进一步判断文件的文件类型,从而降低误判的概率,提高文件类型识别的准确率。
应理解,在本发明实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二:
图6示出了本发明第二实施例提供的一种文件类型识别装置的结构图,该文件类型识别装置可应用于各种智能设备。该智能设备可以包括经无线电接入网RAN与一个或多个核心网进行通信的用户设备,该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等,例如,用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。又例如,该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明,仅示出了与本发明实施例相关的部分。
该文件类型识别装置包括:文件类型初步确定单元61、元数据位置确定单元62、元数据提取单元63、元数据识别单元64。其中:
文件类型初步确定单元61,用于确定文件的文件类型的初始值。
其中,确定文件的文件类型的初始值,具体包括:获取文件的后缀名和/或多用途互联网邮件扩展MIME类型;根据文件的后缀名和/或MIME类型判断文件的文件类型的初始值。
元数据位置确定单元62,用于根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据大小value;所述文件的元数据包括标识文件类型的关键字。
其中,当第一次打开文件时,通过文件系统函数调用或其他方法,得到文件大小,再将文件大小、文件类型的初始值作为预先建立的文件特征值模型的输入,确定文件的元数据大小。假设确定的文件的元数据大小为value,若文件大小小于2*value,则直接将文件的大小作为需提取的文件的元数据大小。
元数据提取单元63,用于在文件中提取与确定的文件的元数据大小相等的元数据。
具体地,从文件的头部和/或尾部提取元数据大小的元数据。
元数据识别单元64,用于识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值。
可选地,所述元数据识别单元64包括:
第一关键字比较模块,用于判断提取的元数据是否包括标识文件类型的关键字。
第一文件类型确认模块,用于在提取的元数据包括标识文件类型的关键字时,根据标识文件类型的关键字判断文件所属的文件类型的最终值。
第一文件类型重确认模块,用于在提取的元数据没有包括标识文件类型的关键字时,获取文件的其他信息,再根据获取的文件的其他信息判断文件所属的文件类型的最终值。
可选地,当识别不出文件类型时,有可能是提取的元数据不够,这时,所述文件类型重确认模块包括:
元数据增量提取模块,用于扩大所述确定文件的元数据大小value的值,得到Final,并从文件中提取Final大小的元数据。根据预先建立的文件特征值模型确定value后,以文件大小的某个比例(如5‰)为基准进行调整。
第二关键字比较模块,用于判断提取的元数据是否包括标识文件类型的关键字。
第二文件类型确认模块,用于在提取的元数据包括标识文件类型的关键字时,根据标识文件类型的关键字判断文件所属的文件类型的最终值。
第二文件类型重确认模块,用于在提取的元数据没有包括标识文件类型的关键字时,重新确定文件的文件类型的初始值。
如果扩大一次value的值后,提取的数据量还不够,则再扩大一次value的值,但是调整的次数一般不超过三次。在扩大value的值后,提取的文件的元数据仍然没有包括标识文件类型的关键字时,表明确定的文件类型的初始值是错误的,这时,提取文件的全部的关键字,进而将提取的全部的关键字与已知的文件的关键字比较,以确定文件的文件类型。
可选地,所述文件类型识别装置包括:
偏差值确定单元,用于从文件中提取Final大小的包括标识文件类型的关键字的元数据时,根据Final和value确定value的偏差值Delta。
模型修正单元,用于根据确定的偏差值和预设的拟合度确定新的value,并根据新的value修正预先建立的文件特征值模型。
当元数据出现在文件头部时,Delta=Final–value。当元数据出现在文件尾部时,Delta=Size–Final–value。其中,Size表示文件大小。确定Delta后,根据预设的一个拟合度P(这个值在文件特征值模型建立时得到,表示所选的统计数据样本对现实数据的模拟程度,其取值范围一般在80%-90%之间),采取加权平均的算法,即P*value+Delta*(1-P),得到一个新的值,把这个值保存在文件特征值模型中,用它来替代value,来实现value值的动态调整。同时,将真实值Final、文件大小Size作为输入的一个样本存放在文件特征值模型中,以对文件特征值模型进行修正,使其更能拟合各种现实情况。如果统计数据发现,调整次数大于1的情况占的比重超过20%,说明拟合程度较差,需要将P的取值适当的变小,必要时,需要重新建立新的文件特征值模型。
可选地,所述文件类型识别装置包括:
散列值确定单元,用于根据所述用于确定文件类型的最终值的元数据或从文件头部和/或文件尾部提取的预设大小数据确定文件的散列值。
散列值存储单元,用于将确定的文件的散列值、文件类型、文件大小对应存储,以使所述文件再次被打开时,直接根据所述文件的散列值识别所述文件的文件类型。
在文件识别成功后,从文件头部和文件尾部各提取预设大小(如1K)数据,或直接使用步骤S24中用于确定文件类型最终值的元数据进行MD5运算,得到一个散列值(MD5值),将得到的散列值与对应的文件类型、文件存储位置、文件大小等信息以结构化文档的形式都存储在本地。当第二次打开某个文件时,可以从存储的MD5散列值表中查找该文件的相关信息,以加快文件处理的速度。
在本发明第二实施例中,由于采用预先建立的文件特征值模型确定文件的元数据所在的位置,并从确定的位置提取相应的元数据,根据提取的元数据进一步判断文件的文件类型,从而降低误判的概率,提高文件类型识别的准确率。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文件类型识别方法,其特征在于,所述方法包括:
确定文件的文件类型的初始值,具体为,获取文件的后缀名和/或MIME类型,根据文件的后缀名和/或MIME类型判断文件的文件类型的初始值;
根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据大小value;所述文件的元数据包括标识文件类型的关键字;其中,预先建立的文件特征值模型具体为,采取统计学的方法,收集至少一种文件类型的元数据,当文件的元数据只出现在文件的头部或尾部时,确定文件元数据与文件的大小、最终确定的文件类型、元数据大小的对应关系;当文件的元数据出现在文件的头部或尾部时,分别统计出元数据出现在文件头部和文件尾部的概率,根据概率情况确定文件的大小与文件类型、元数据大小的对应关系;
在文件中提取与确定的文件的元数据大小相等的元数据;
识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值。
2.根据权利要求1所述的方法,其特征在于,所述识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值,具体包括:
判断提取的元数据是否包括标识文件类型的关键字;
在提取的元数据包括标识文件类型的关键字时,根据标识文件类型的关键字判断文件所属的文件类型的最终值;
在提取的元数据没有包括标识文件类型的关键字时,获取文件的其他信息,再根据获取的文件的其他信息判断文件所属的文件类型的最终值。
3.根据权利要求2所述的方法,其特征在于,所述在提取的元数据没有包括标识文件类型的关键字时,获取文件的其他信息,再根据获取的文件的其他信息判断文件所属的文件类型的最终值,具体包括:
扩大所述确定文件的元数据大小value的值,得到Final,并从文件中提取Final大小的元数据;
判断提取的元数据是否包括标识文件类型的关键字;
在提取的元数据包括标识文件类型的关键字时,根据标识文件类型的关键字判断文件所属的文件类型的最终值;
在提取的元数据没有包括标识文件类型的关键字时,重新确定文件的文件类型的初始值。
4.根据权利要求3所述的方法,其特征在于,从文件中提取Final大小的包括标识文件类型的关键字的元数据时,根据Final和value确定所述value的偏差值Delta;
根据确定的偏差值和预设的拟合度确定新的value,并根据新的value修正预先建立的文件特征值模型。
5.根据权利要求1所述的方法,其特征在于,在所述识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值之后,包括:
根据所述用于确定文件类型的最终值的元数据或从文件头部和/或文件尾部提取预设大小数据确定文件的散列值;
将确定的文件的散列值、文件类型、文件大小对应存储,以使所述文件再次被打开时,直接根据所述文件的散列值识别所述文件的文件类型。
6.一种文件类型识别装置,其特征在于,所述装置包括:
文件类型初步确定单元,用于确定文件的文件类型的初始值,具体为,获取文件的后缀名和/或MIME类型,根据文件的后缀名和/或MIME类型判断文件的文件类型的初始值;
元数据位置确定单元,用于根据获取的文件大小、确定的文件类型的初始值以及预先建立的文件特征值模型,确定文件的元数据大小value;所述文件的元数据包括标识文件类型的关键字;其中,预先建立的文件特征值模型具体为,采取统计学的方法,收集至少一种文件类型的元数据,当文件的元数据只出现在文件的头部或尾部时,确定文件元数据与文件的大小、最终确定的文件类型、元数据大小的对应关系;当文件的元数据出现在文件的头部或尾部时,分别统计出元数据出现在文件头部和文件尾部的概率,根据概率情况确定文件的大小与文件类型、元数据大小的对应关系;
元数据提取单元,用于在文件中提取与确定的文件的元数据大小相等的元数据;
元数据识别单元,用于识别提取的元数据,并根据识别结果判断文件所属的文件类型的最终值。
7.根据权利要求6所述的装置,其特征在于,所述元数据识别单元包括:
第一关键字比较模块,用于判断提取的元数据是否包括标识文件类型的关键字;
第一文件类型确认模块,用于在提取的元数据包括标识文件类型的关键字时,根据标识文件类型的关键字判断文件所属的文件类型的最终值;
第一文件类型重确认模块,用于在提取的元数据没有包括标识文件类型的关键字时,获取文件的其他信息,再根据获取的文件的其他信息判断文件所属的文件类型的最终值。
8.根据权利要求7所述的装置,其特征在于,所述文件类型重确认模块包括:
元数据增量提取模块,用于扩大所述确定文件的元数据大小value的值,得到Final,并从文件中提取Final大小的元数据;
第二关键字比较模块,用于判断提取的元数据是否包括标识文件类型的关键字;
第二文件类型确认模块,用于在提取的元数据包括标识文件类型的关键字时,根据标识文件类型的关键字判断文件所属的文件类型的最终值;
第二文件类型重确认模块,用于在提取的文件的元数据没有包括标识文件类型的关键字时,重新确定文件的文件类型的初始值。
9.根据权利要求8所述的装置,其特征在于,所述装置包括:
偏差值确定单元,用于从文件中提取Final大小的包括标识文件类型的关键字的元数据时,根据Final和value确定所述value的偏差值Delta;
模型修正单元,用于根据确定的偏差值和预设的拟合度确定新的value,并根据新的value修正预先建立的文件特征值模型。
10.根据权利要求6所述的装置,其特征在于,所述装置包括:
散列值确定单元,用于根据所述用于确定文件类型的最终值的元数据或从文件头部和/或文件尾部提取的预设大小数据确定文件的散列值;
散列值存储单元,用于将确定的文件的散列值、文件类型、文件大小对应存储,以使所述文件再次被打开时,直接根据所述文件的散列值识别所述文件的文件类型。
CN201410849385.9A 2014-12-30 2014-12-30 文件类型识别方法及装置 Active CN105808583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410849385.9A CN105808583B (zh) 2014-12-30 2014-12-30 文件类型识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410849385.9A CN105808583B (zh) 2014-12-30 2014-12-30 文件类型识别方法及装置

Publications (2)

Publication Number Publication Date
CN105808583A CN105808583A (zh) 2016-07-27
CN105808583B true CN105808583B (zh) 2019-09-17

Family

ID=56421431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410849385.9A Active CN105808583B (zh) 2014-12-30 2014-12-30 文件类型识别方法及装置

Country Status (1)

Country Link
CN (1) CN105808583B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844476A (zh) * 2016-12-23 2017-06-13 上海上讯信息技术股份有限公司 一种识别文件格式及对应完整性的方法和设备
CN108304369B (zh) * 2017-05-03 2020-12-01 腾讯科技(深圳)有限公司 一种文件类型的识别方法和装置
US10834099B2 (en) * 2017-05-23 2020-11-10 Juniper Networks, Inc. Identifying a file using metadata and determining a security classification of the file before completing receipt of the file
CN108270783B (zh) * 2018-01-15 2021-04-16 新华三信息安全技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110134644A (zh) * 2019-05-17 2019-08-16 成都卫士通信息产业股份有限公司 文件类型识别方法、装置、电子设备及可读存储介质
CN113111147A (zh) * 2020-01-13 2021-07-13 深信服科技股份有限公司 一种文本类型识别方法、装置及电子设备和存储介质
CN115577330A (zh) * 2022-12-07 2023-01-06 北京志翔科技股份有限公司 文件类型识别方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Scalpel: A Frugal, High Performance File Carver;Golden Richard 等;《The Digital Forensic Research Conference》;20050819;正文第1-10页
文件类型的分析、判定与关键信息的提取;石宇;《中国优秀硕士学位论文全文数据库信息科技辑》;20111215(第S2期);正文第9-10、12-58、60-63、65、68-70、72-73页

Also Published As

Publication number Publication date
CN105808583A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105808583B (zh) 文件类型识别方法及装置
CN109213781B (zh) 风控数据查询方法及装置
CN113412608B (zh) 内容推送方法、装置、服务端及存储介质
CN103838875A (zh) 一种基于二维码的信息采集系统及其方法
CN109426785A (zh) 一种人体目标身份识别方法及装置
CN106101169A (zh) 一种终端及数据上报方法
KR20160040281A (ko) 통신 방법, 클라이언트, 및 단말
CN103338462A (zh) 网络扩容方法及设备
CN104731468A (zh) 一种应用图标整理方法及装置
CN104881486A (zh) 一种信息查询方法、终端设备及系统
CN107678640A (zh) 一种长截屏方法、装置、移动终端及计算机可读存储介质
CN108846708A (zh) 用户购买行为预测方法、装置、设备及存储介质
CN104954197B (zh) 多任务传输速度检测方法及装置
CN106257449A (zh) 一种信息确定方法和装置
CN108198305A (zh) 机场快速安检方法、可读存储介质及快速安检平台
CN108241611A (zh) 一种关键词提取方法以及提取设备
CN107402840A (zh) 数据备份的方法及移动终端
CN105491222B (zh) 终端受力提醒方法、装置及终端
CN106293996A (zh) 数据同步方法、主设备、备份设备和系统
CN109241462A (zh) 网页黑词处理方法、装置、设备及存储介质
CN109299948A (zh) 一种红包发送方法、装置、可穿戴设备及存储介质
CN104660813B (zh) 设置系统语言的方法、装置及移动终端
CN106162520B (zh) 健康信息处理方法、健康信息采集设备、终端设备及系统
CN104679399B (zh) 一种信息处理的方法和电子设备
CN105551500B (zh) 一种音频信号处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant