CN102768676A - 一种格式未知文件的处理方法和装置 - Google Patents

一种格式未知文件的处理方法和装置 Download PDF

Info

Publication number
CN102768676A
CN102768676A CN2012101957622A CN201210195762A CN102768676A CN 102768676 A CN102768676 A CN 102768676A CN 2012101957622 A CN2012101957622 A CN 2012101957622A CN 201210195762 A CN201210195762 A CN 201210195762A CN 102768676 A CN102768676 A CN 102768676A
Authority
CN
China
Prior art keywords
file
header
form unknown
key word
application software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101957622A
Other languages
English (en)
Other versions
CN102768676B (zh
Inventor
周鹏
王宝剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210195762.2A priority Critical patent/CN102768676B/zh
Publication of CN102768676A publication Critical patent/CN102768676A/zh
Priority to PCT/CN2013/076899 priority patent/WO2013185561A1/zh
Priority to US14/407,986 priority patent/US20150113009A1/en
Application granted granted Critical
Publication of CN102768676B publication Critical patent/CN102768676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施方式提出了一种格式未知文件的处理方法和装置。该方法包括:解析该格式未知文件的文件头,以从所述文件头中获取文件格式关键字;基于所述文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。应用本发明实施方式之后,可以基于文件头分析来确定打开该类型文件所需要的软件环境,从而避免了现有技术中基于后缀名来确定文件格式以及关联程序所导致的文件格式误判的情形,提高了关联程序的匹配成功率。

Description

一种格式未知文件的处理方法和装置
技术领域
本发明实施方式涉及计算机应用技术领域,更具体地,涉及一种格式未知文件的处理方法和装置。 
背景技术
随着计算机技术和互联网的飞速发展,人们之间的交流越来越频繁,大家用到的应用软件也五花八门,遍及即时通信、音视频播放、资源下载、网页浏览、输入法、系统辅助等多个门类。 
应用软件的一个重要功能是处理数据,因而随着软件的增多,各种不同种类的数据便是纷至沓来。数据一般都是按照一定的格式编排的,随着数据种类的增多,数据格式也是千变万化,层出不穷,终而各种不同格式的文件横空而出,基本上超出了绝大部分用户的记忆范围。 
从视窗(windows)操作系统之前的磁盘操作系统(DOS)开始,便有了对数据文件进行标识整理的需求。当时,软件种类比较稀少,数据格式也不是很繁多,DOS便采用了一种比较简易的方式,即对文件名以文件全名+后缀名的方式(即8+3方式)进行编排,方便用户记忆,同时也利于软件进行分析处理。随着Windows操作系统的不断变化,文件格式大幅度增加,但Windows系统对此类文件处理方式并无多大的变化,仅有一小部分技术上的修正,如名称的字数不再限定等等。这些小的修正并不能满足文件种类和格式日益快速增长的需求。如果电脑上尚没有与文件格式相关联的软件,则操作系统无法使用现有软件打开该文件。 
在现有技术中,主要基于文件的后缀名来确定该文件的格式以及相应关联程序软件。然而,文件的后缀名信息量少,且很多软件共用相同的后缀名, 因此容易出现文件格式误判,导致关联程序的匹配成功率并不高。而且,文件的后缀名很容易被恶意窜改,导致文件格式混淆,因此也难以确定出恰当的关联程序。 
发明内容
本发明实施方式提出一种格式未知文件的处理方法,以提高关联程序的匹配成功率。 
本发明实施方式还提出一种格式未知文件的处理装置,以提高关联程序的匹配成功率。 
本发明实施方式的具体方案如下: 
一种格式未知文件的处理方法,该方法包括: 
解析该格式未知文件的文件头,以从所述文件头中获取文件格式关键字; 
基于所述文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。 
一种格式未知文件的处理装置,该装置包括文件头解析单元和应用软件确定单元,其中: 
文件头解析单元,用于解析该格式未知文件的文件头,以从所述文件头中获取文件格式关键字; 
应用软件确定单元,用于基于所述文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。 
从上述技术方案可以看出,在本发明实施方式中,首先解析该格式未知文件的文件头,以从文件头中获取文件格式关键字;然后基于文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。由此可见,应用本发明实施方式,基于文件头分析来确定该类型文件打开所需要的软件环境,从而避免了基于文件后缀名来确定文件格式以及相应关联程序软件所导致的文件格式误判的情形,因此 本发明实施方式提高了关联程序的匹配成功率。 
而且,在本发明实施方式中,在确定了关联程序之后,可以引导用户去下载安装关联程序,而且可以将格式未知文件与应用软件的对应关系注册到注册表,从而可以修复不正确的关联对应关系,因此本发明实施方式还可以帮助用户顺利打开文件。 
附图说明
图1为现有技术注册表中文件后缀名与关联程序的对应示意图; 
图2为现有技术中视窗操作系统针对格式未知文件的提示窗口示意图; 
图3为根据本发明实施方式的格式未知文件的处理方法流程图; 
图4为根据本发明实施方式的bmp文件格式文件头示意图; 
图5为根据本发明实施方式的格式未知文件的示范性处理方法流程图; 
图6为根据本发明实施方式的格式未知文件的处理装置结构图。 
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。 
在现有技术中,如果出现未知文件格式的文件,则首先读取该文件的后缀名,然后在注册表中读取该后缀名的关联信息,以确定打开该未知文件格式的关联程序。 
图1为现有技术注册表中文件后缀名与关联程序的对应示意图。如图1所示,在注册表中保存有文件后缀名与关联程序的对应关系,其具体存储位置包括: 
HKEY_CLASSES_ROOT; 
HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\FileExts; 
由图1可见,在注册表里面有详细的文件关联信息,可以基于注册表查 询到与文件后缀名对应的关联程序。 
然而,如果用户终端上没有安装相关的关联软件,则注册表中就无法查询到相关关联信息,文件将无法被打开,此时,Windows会执行默认的例行程序处理,即“未知软件推荐”程序。 
图2为现有技术中视窗操作系统针对未关联文件的提示窗口示意图。由图2可见,操作系统将提醒用户从网络中自行寻找恰当的程序或者自己在本地搜索关联程序,而这将给用户带来很大的困扰。 
另外,正如上述分析,由于文件的后缀名信息量少,且很多软件共用相同的后缀名,因此依据上述现有方式来处理未知格式的文件,则容易出现文件格式误判,从而导致关联程序的匹配成功率并不高。而且,文件的后缀名很容易被恶意窜改,导致文件格式混淆,因此也难以确定出恰当的关联程序。 
为了解决上述缺陷,在本发明实施方式中,直接从格式未知文件的文件头中寻找与文件格式相关的信息,并基于文件头来确定出关联程序。 
图3为根据本发明实施方式的格式未知文件的处理方法流程图。 
如图3所示,该方法包括: 
步骤301:解析该格式未知文件的文件头,以从所述文件头中获取文件格式关键字。 
文件是描述数据的载体,根据数据结构的不同,会有各种不同的文件类型出现。每一种文件类型都有相应的数据格式,数据格式定义一般有文件头描述。通常情况下,文件头一般位于文件开头,通常描述有文件的一些重要属性。比如:图4为根据本发明实施方式的bmp文件格式文件头示意图。 
实际上,在各种格式的文件开始部分都有鲜明的特殊字段来标识,这些特殊字段称为文件格式关键字,可以用来确定文件格式。通过解析这些特殊字段,然后与预先确定的文件格式进行比对,若出现一致性,即可判断出该文件类型。而且,准确判断出未知文件类型之后,即可进入软件推荐下载等相应的处理流程。 
在文件头中,经常会包括十六进制的特殊字段。优选地,可以将这些十 六进制的特殊字段应用为文件格式关键字,并利用这些十六进制的文件格式关键字来确定未知文件的类型。 
在一个实施方式中,解析该格式未知文件的文件头,以从文件头中获取文件格式关键字具体包括:解析该格式未知文件的文件头,以从文件头中获取十六进制的文件格式关键字。 
其中,目前常见的十六进制的文件格式关键字包括:FFD8FF;89504E47;47494638;49492A00;424D;41433130;38425053;7B5C727466;3C3F786D6C;68746D6C3E;44656C69766572792D646174653A;CFAD12FEC5FD746F;2142444E;D0CF11E0;5374616E64617264204A;FF575043;255044462D312E;AC9EBD8F;E3828596;504B0304;52617221;57415645;41564920;2E7261FD;2E524D46;000001BA;000001B3;6D6F6F76;3026B2758E66CF11;或D546864,等等。 
而且,文件的文件头有时候还会包括一些文本信息,还可以通过这些文本信息来确定未知文件的格式,此时将这些文本信息应用为文件格式关键字。比如:在文件头中可能包括有文本信息,而这些文本信息包括公司名称、软件名称、软件版本号等辅助信息。此时,可以解析出文本信息,然后根据公司名称、软件名称、软件版本等辅助信息来确定该未知文件的格式。 
在一个实施方式中,可以通过文件头标识符确定出格式未知文件的文件头区域,然后在文件头区域中检索文件格式关键字。 
步骤302:基于所述文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。 
在这里,可以针对目前常见的文件格式,在数据库中预先建立文件格式关键字与文件格式类型之间的关联关系列表,而且在关联关系列表之中优选进一步包含文件格式类型与应用程序之间的对应关系。 
在一个实施方式中,可以基于文件格式关键字,在关联关系列表中查询对应于文件格式关键字的文件格式类型,并将所查询到的文件格式类型确定为该格式未知文件的文件格式类型;基于所确定的文件格式类型,在所述关 联关系列表中查询对应于所确定的文件格式类型的应用软件,并将所查询到的应用软件确定为该格式未知文件相关联的应用软件。 
优选地,关联关系列表是可编辑的,从而当出现新的文件格式的时候,可以在关联关系列表中及时增加对应的文件格式关键字,或者当更改某格式文件的默认打开应用程序之后,也可以在关联关系列表中即时更新对应的关联程序。 
当从文件头中确定出文件格式关键字之后,可以基于文件格式关键字查询关联关系列表,以确定出恰当的关联应用程序。具体地,包括:首先基于所述文件格式关键字查询关联关系列表以确定与文件格式关键字对应的文件格式类型,然后再基于所确定的文件格式类型确定文件打开应用程序,并将该文件打开应用程序关联到所述未知文件。 
更具体地,一些常用文件的文件头格式关键字(16进制)与文件类型的对应关系如下: 
JPEG(jpg),文件头:FFD8FF 
PNG(png),文件头:89504E47 
GIF(gif),文件头:47494638 
TIFF(tif),文件头:49492A00 
Windows Bitmap(bmp),文件头:424D 
CAD(dwg),文件头:41433130 
Adobe Photoshop(psd),文件头:38425053 
Rich Text Format(rtf),文件头:7B5C727466 
XML(xml),文件头:3C3F786D6C 
HTML(html),文件头:68746D6C3E 
Email[thorough only](eml),文件头:44656C69766572792D646174653A 
Outlook Express(dbx),文件头:CFAD12FEC5FD746F 
Outlook(pst),文件头:2142444E 
MS Word/Excel(xls.or.doc),文件头:D0CF11E0 
MS Access(mdb),文件头:5374616E64617264204A 
WordPerfect(wpd),文件头:FF575043 
Adobe Acrobat(pdf),文件头:255044462D312E 
Quicken(qdf),文件头:AC9EBD8F 
Windows Password(pwl),文件头:E3828596 
ZIP Archive(zip),文件头:504B0304 
RAR Archive(rar),文件头:52617221 
Wave(wav),文件头:57415645 
AVI(avi),文件头:41564920 
Real Audio(ram),文件头:2E7261FD 
Real Media(rm),文件头:2E524D46 
MPEG(mpg),文件头:000001BA 
MPEG(mpg),文件头:000001B3 
Quicktime(mov),文件头:6D6F6F76 
Windows Media(asf),文件头:3026B2758E66CF11 
MIDI(mid),文件头:4D546864 
举例说明:当在步骤301中确定出未知格式文件头中包含有文件格式关键字255044462D312E时,则通过查询关联关系列表,确定出该文件格式为Adobe公司开发的pdf文件格式,而且再通过查询关联关系列表获知pdf文件格式对应于Adobe公司开发的Acrobat程序,从而可以利用Acrobat程序来打开该文件。 
在一个实施方式中,除了利用十六进制的文件格式关键字之外,还可以基于文件头中所包含的公司名称、软件名称、软件版本等辅助信息来确定该未知文件的格式。比如,当在步骤301中确定出未知格式文件头中包含有文件格式关键字为“Adobe”和“Acrobat”时,则认为该文件格式具有很大的可能性为pdf文件,则可以尝试利用Acrobat程序来打开该未知文件。 
其中,可以将利用十六进制的文件格式关键字的判断方式和利用辅助信息 的判断方式结合起来进行加权综合判断,或者在这两个判断方式中任意选择一种。 
优选地,在确定出该格式未知文件相关联的应用软件之后,可以进一步检索本地是否安装有与该格式未知文件相关联的应用软件,如果是,则将该格式未知文件与所述应用软件的对应关系注册到注册表,并应用该应用软件打开所述格式未知文件;如果不是,则推送与该格式未知文件相关联的应用软件的下载方式。其中,为了安全器件,可以预先设置安全软件白名单,并且只有列为安全软件白名单中的文件类型才执行具体的推送下载服务。 
在推送软件的下载过程中,优选选择靠近用户客户端的软件资源服务器,而且下载时可以采用P2P相关技术进行加速下载,从而保证用户遇到未知文件时能够立即下载到相应的软件,从而提高软件匹配的成功率。 
另外,区别于windows系统默认的“未知软件推荐”,为了符合用户使用习惯,可以预先在网络侧预先设置国内常用软件名单列表。在向用户推送与格式未知文件相关联的应用软件的下载方式时,优选更加偏向于推荐该国内常用软件名单列表中的国内常用软件。 
而且,可以在网络侧的运营端持续跟进用户使用需求,因而推荐软件列表也时有变化。 
比如:网络侧的运营端可以通过配置文件向客户端下发最新的关联关系列表,从而在客户端上可以及时获知关联关系列表的更新。 
比如,配置文件可以包括描述字段和软件列表字段。在描述字段中描述配置文件的属性信息,在软件列表字段中描述配置文件中所包含的关联软件。 
示范性的,目前配置文件格式如下: 
根据上述实例可见,在描述字段(descrip)中描述有针对电影文件的属性信息,而在软件列表字段(softlist)中描述了与电影文件相关联的软件列表。 
基于上述详细说明,图5为根据本发明实施方式的格式未知文件的示范性处理方法流程图。 
如图5所示,该方法包括: 
步骤501:用户获取到文件。 
步骤502:判断该文件是否已经与应用程序之间具有关联关系,如果是则执行步骤503并结束本流程,如果不是则执行步骤504及其后续步骤。 
步骤503:直接利用与该文件相关联的关联程序打开该文件。 
步骤504:检查该文件是否包含文件头信息,如果是则执行步骤506及其后续步骤,否则执行步骤505并退出本流程。 
步骤505:当确定出文件不包含文件头信息时,则弹出视窗操作系统默认的软件推荐窗口,由用户自行从网络下载用户自身认定的关联程序或者自行从本地选择关联程序。 
步骤506:根据文件头确定该文件的文件格式以及对应的关联程序。 
在这里,用户可以基于从文件头中提取的十六进制的文件格式关键字来确定该文件的文件格式,或者从文件头中获取文本信息,并根据文本信息来确定文件的文件格式以及对应的关联程序。 
步骤507:判断该关联程序是否已经安装在本地,如果是则执行步骤509并结束本流程,如果不是则执行步骤508并结束本流程。 
步骤508:向用户推送该关联程序的下载方式。 
步骤509:利用已经安装在本地的关联程序打开该文件。 
基于上述详细分析,本发明实施方式还提出了一种格式未知文件的处理装置。 
图6为根据本发明实施方式的格式未知文件的处理装置结构图。 
如图6所示,该装置包括文件头解析单元601和应用软件确定单元602。 
其中:文件头解析单元601,用于解析该格式未知文件的文件头,以从所 述文件头中获取文件格式关键字; 
应用软件确定单元602,用于基于所述文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。 
在一个实施方式中,文件头解析单元601,用于解析该格式未知文件的文件头,以从文件头中获取十六进制的文件格式关键字。更具体地,十六进制的文件格式关键字包括:FFD8FF;89504E47;47494638;49492A00;424D;41433130;38425053;7B5C727466;3C3F786D6C;68746D6C3E;44656C69766572792D646174653A;CFAD12FEC5FD746F;2142444E;D0CF11E0;5374616E64617264204A;FF575043;255044462D312E;AC9EBD8F;E3828596;504B0304;52617221;57415645;41564920;2E7261FD;2E524D46;000001BA;000001B3;6D6F6F76;3026B2758E66CF11;或D546864。 
在一个实施方式中,文件头解析单元601,用于解析该格式未知文件的文件头,以从文件头中获取文本信息,并根据所述文本信息获取文件格式关键字,此时文件头解析单元601从文件头中获取文本信息,从文本信息获取公司名称、软件名称或软件版本号,并且将公司名称、软件名称或软件版本号作为文件格式关键字来查询关联程序。 
在一个实施方式中,文件头解析单元601,用于通过文件头标识符确定出该格式未知文件的文件头区域;并在所述文件头区域中检索文件格式关键字。 
优选地,该装置进一步包括软件推荐单元603。软件推荐单元603,用于检索是否安装有与该格式未知文件相关联的应用软件,如果是,则将该格式未知文件与所述应用软件的对应关系注册到注册表,并应用该应用软件打开所述格式未知文件;如果不是,则推送与该格式未知文件相关联的应用软件的下载方式。 
优选地,应用软件确定单元602,用于基于所述文件格式关键字,在预先建立的关联关系列表中查询对应于所述文件格式关键字的文件格式类型,将所查询到的文件格式类型确定为该格式未知文件的文件格式类型,基于所确定的 文件格式类型,在所述关联关系列表中查询对应于所确定的文件格式类型的应用软件,将所查询到的应用软件确定为该格式未知文件相关联的应用软件;其中在所述关联关系列表中保存有文件格式关键字与文件格式类型的对应关系以及文件格式类型与应用软件的对应关系。 
综上所述,在本发明实施方式中,首先解析该格式未知文件的文件头,以从所述文件头中获取文件格式关键字;然后基于文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。由此可见,应用本发明实施方式,基于文件头分析确定该类型文件打开所需要的软件环境,从而避免了现有技术中基于文件后缀名确定文件格式以及相应关联程序软件所导致的文件格式误判的情形,因本发明实施方式提高了关联程序的匹配成功率。 
而且,在本发明实施方式中,在确定了关联程序之后,可以引导用户去下载安装该关联程序或者修复不正确的关联对应关系,因此本发明实施方式还可以帮助用户准确定位到恰当的关联程序下载地址。 
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

Claims (14)

1.一种格式未知文件的处理方法,其特征在于,该方法包括:
解析该格式未知文件的文件头,以从所述文件头中获取文件格式关键字;
基于所述文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。
2.根据权利要求1所述的格式未知文件的处理方法,其特征在于,所述解析该格式未知文件的文件头,以从文件头中获取文件格式关键字包括:
解析该格式未知文件的文件头,以从文件头中获取十六进制的文件格式关键字。
3.根据权利要求1所述的格式未知文件的处理方法,其特征在于,所述解析该格式未知文件的文件头,以从文件头中获取文件格式关键字包括:
解析该格式未知文件的文件头,以从文件头中获取文本信息,并根据所述文本信息获取文件格式关键字。
4.根据权利要求3所述的格式未知文件的处理方法,其特征在于,所述从文本信息获取文件格式关键字为:
从文本信息获取公司名称、软件名称或软件版本号。
5.根据权利要求1所述的格式未知文件的处理方法,其特征在于,所述解析该格式未知文件的文件头,以从文件头中获取文件格式关键字包括:
通过文件头标识符确定出该格式未知文件的文件头区域;
在所述文件头区域中检索文件格式关键字。
6.根据权利要求1所述的格式未知文件的处理方法,其特征在于,该方法进一步包括预先建立关联关系列表的步骤,其中在所述关联关系列表中保存有文件格式关键字与文件格式类型的对应关系以及文件格式类型与应用软件的对应关系;
所述基于所述文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件,具体包括:
基于所述文件格式关键字,在所述关联关系列表中查询对应于所述文件格式关键字的文件格式类型,并将所查询到的文件格式类型确定为该格式未知文件的文件格式类型;
基于所确定的文件格式类型,在所述关联关系列表中查询对应于所确定的文件格式类型的应用软件,并将所查询到的应用软件确定为该格式未知文件相关联的应用软件。
7.根据权利要求1-6中任一项所述的格式未知文件的处理方法,其特征在于,该方法进一步包括:
检索是否安装有与该格式未知文件相关联的应用软件,如果是,则将该格式未知文件与所述应用软件的对应关系注册到注册表,并应用该应用软件打开所述格式未知文件;如果不是,则推送与该格式未知文件相关联的应用软件的下载方式。
8.一种格式未知文件的处理装置,其特征在于,该装置包括文件头解析单元和应用软件确定单元,其中:
文件头解析单元,用于解析该格式未知文件的文件头,以从所述文件头中获取文件格式关键字;
应用软件确定单元,用于基于所述文件格式关键字,确定该格式未知文件的文件格式类型,并根据该文件格式类型,获取与该格式未知文件相关联的应用软件。
9.根据权利要求8所述的格式未知文件的处理装置,其特征在于,
文件头解析单元,用于解析该格式未知文件的文件头,以从文件头中获取十六进制的文件格式关键字。
10.根据权利要求8所述的格式未知文件的处理装置,其特征在于,
文件头解析单元,用于解析该格式未知文件的文件头,以从文件头中获取文本信息,并根据所述文本信息获取文件格式关键字。
11.根据权利要求10所述的格式未知文件的处理装置,其特征在于,
文件头解析单元,用于解析该格式未知文件的文件头,以从文件头中获取文本信息,从文本信息获取公司名称、软件名称或软件版本号。
12.根据权利要求8所述的格式未知文件的处理装置,其特征在于,
文件头解析单元,用于通过文件头标识符确定出该格式未知文件的文件头区域;并在所述文件头区域中检索文件格式关键字。
13.根据权利要求8所述的格式未知文件的处理装置,其特征在于,
应用软件确定单元,用于基于所述文件格式关键字,在预先建立的关联关系列表中查询对应于所述文件格式关键字的文件格式类型,将所查询到的文件格式类型确定为该格式未知文件的文件格式类型,基于所确定的文件格式类型,在所述关联关系列表中查询对应于所确定的文件格式类型的应用软件,将所查询到的应用软件确定为该格式未知文件相关联的应用软件;其中在所述关联关系列表中保存有文件格式关键字与文件格式类型的对应关系以及文件格式类型与应用软件的对应关系。
14.根据权利要求8-13中任一项所述的格式未知文件的处理装置,其特征在于,该装置进一步包括软件推荐单元,
所述软件推荐单元,用于检索是否安装有与该格式未知文件相关联的应用软件,如果是,则将该格式未知文件与所述应用软件的对应关系注册到注册表,并应用该应用软件打开所述格式未知文件;如果不是,则推送与该格式未知文件相关联的应用软件的下载方式。
CN201210195762.2A 2012-06-14 2012-06-14 一种格式未知文件的处理方法和装置 Active CN102768676B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210195762.2A CN102768676B (zh) 2012-06-14 2012-06-14 一种格式未知文件的处理方法和装置
PCT/CN2013/076899 WO2013185561A1 (zh) 2012-06-14 2013-06-07 一种格式未知文件的处理方法和装置
US14/407,986 US20150113009A1 (en) 2012-06-14 2013-06-07 Method and device for processing file having unknown format

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210195762.2A CN102768676B (zh) 2012-06-14 2012-06-14 一种格式未知文件的处理方法和装置

Publications (2)

Publication Number Publication Date
CN102768676A true CN102768676A (zh) 2012-11-07
CN102768676B CN102768676B (zh) 2014-03-12

Family

ID=47096080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210195762.2A Active CN102768676B (zh) 2012-06-14 2012-06-14 一种格式未知文件的处理方法和装置

Country Status (3)

Country Link
US (1) US20150113009A1 (zh)
CN (1) CN102768676B (zh)
WO (1) WO2013185561A1 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982119A (zh) * 2012-11-12 2013-03-20 上海够快网络科技有限公司 一种在线文件的编辑方法
CN103106094A (zh) * 2013-03-06 2013-05-15 广东欧珀移动通信有限公司 一种打开文件方法及移动智能终端
WO2013185561A1 (zh) * 2012-06-14 2013-12-19 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置
CN103544449A (zh) * 2013-10-09 2014-01-29 上海上讯信息技术有限公司 基于分级控制的文件流转方法及系统
CN103823614A (zh) * 2014-03-10 2014-05-28 联想(北京)有限公司 信息处理方法、装置及电子设备
CN103838799A (zh) * 2012-11-27 2014-06-04 北京金山云科技有限公司 一种推荐安装软件的方法、终端设备、云端服务器及系统
CN104239045A (zh) * 2014-09-05 2014-12-24 珠海市君天电子科技有限公司 未知文件的打开方法及装置
CN104408090A (zh) * 2014-11-11 2015-03-11 百度在线网络技术(北京)有限公司 文件打开方法和装置
CN105786515A (zh) * 2016-03-01 2016-07-20 惠州Tcl移动通信有限公司 一种电子书文件及其生成处理方法、以及打开处理方法
CN105787127A (zh) * 2016-03-29 2016-07-20 天脉聚源(北京)传媒科技有限公司 一种推荐应用软件的方法及装置
CN105897830A (zh) * 2015-12-01 2016-08-24 乐视网信息技术(北京)股份有限公司 推荐文件打开工具的客户端、服务器、系统及方法
CN105957542A (zh) * 2016-04-25 2016-09-21 青岛海信移动通信技术股份有限公司 一种音频文件编辑方法及装置
CN106327560A (zh) * 2016-08-25 2017-01-11 苏州创意云网络科技有限公司 一种文件版本的识别方法及识别客户端
CN106933626A (zh) * 2017-03-01 2017-07-07 腾讯科技(深圳)有限公司 应用关联方法及装置
CN107145801A (zh) * 2017-04-26 2017-09-08 浙江远望信息股份有限公司 一种后缀名遭篡改的涉密文件自动发现方法
CN107274291A (zh) * 2017-06-21 2017-10-20 深圳泛态信息技术有限公司 跨平台的估值表解析方法、存储介质及应用服务器
CN109241501A (zh) * 2018-08-15 2019-01-18 北京北信源信息安全技术有限公司 文件解析方法和装置
CN109474827A (zh) * 2018-12-03 2019-03-15 四川巧夺天工信息安全智能设备有限公司 监控视频快速转码的方法
CN109964216A (zh) * 2016-11-27 2019-07-02 亚马逊科技公司 识别未知数据对象
CN110175052A (zh) * 2019-04-16 2019-08-27 努比亚技术有限公司 一种开启文件的方法、装置及计算机可读存储介质
CN110532529A (zh) * 2019-09-04 2019-12-03 北京明朝万达科技股份有限公司 一种文件类型的识别方法及装置
CN111614647A (zh) * 2020-05-14 2020-09-01 中国银行股份有限公司 报文检测及解析方法、装置
CN111966640A (zh) * 2020-09-03 2020-11-20 深圳市小满科技有限公司 一种单据文件识别方法及其系统
US11704331B2 (en) 2016-06-30 2023-07-18 Amazon Technologies, Inc. Dynamic generation of data catalogs for accessing data
CN109964216B (zh) * 2016-11-27 2024-05-28 亚马逊科技公司 识别未知数据对象

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732213B2 (en) 2011-12-23 2014-05-20 Amiato, Inc. Scalable analysis platform for semi-structured data
US9185387B2 (en) 2012-07-03 2015-11-10 Gopro, Inc. Image blur based on 3D depth information
US9514007B2 (en) 2013-03-15 2016-12-06 Amazon Technologies, Inc. Database system with database engine and separate distributed storage service
US9071798B2 (en) 2013-06-17 2015-06-30 Spotify Ab System and method for switching between media streams for non-adjacent channels while providing a seamless user experience
US9516082B2 (en) 2013-08-01 2016-12-06 Spotify Ab System and method for advancing to a predefined portion of a decompressed media stream
US9529888B2 (en) * 2013-09-23 2016-12-27 Spotify Ab System and method for efficiently providing media and associated metadata
US10074013B2 (en) 2014-07-23 2018-09-11 Gopro, Inc. Scene and activity identification in video summary generation
US9685194B2 (en) 2014-07-23 2017-06-20 Gopro, Inc. Voice-based video tagging
US9734870B2 (en) 2015-01-05 2017-08-15 Gopro, Inc. Media identifier generation for camera-captured media
US9666233B2 (en) * 2015-06-01 2017-05-30 Gopro, Inc. Efficient video frame rendering in compliance with cross-origin resource restrictions
US9639560B1 (en) 2015-10-22 2017-05-02 Gopro, Inc. Systems and methods that effectuate transmission of workflow between computing platforms
US9787862B1 (en) 2016-01-19 2017-10-10 Gopro, Inc. Apparatus and methods for generating content proxy
US10078644B1 (en) 2016-01-19 2018-09-18 Gopro, Inc. Apparatus and methods for manipulating multicamera content using content proxy
US9871994B1 (en) 2016-01-19 2018-01-16 Gopro, Inc. Apparatus and methods for providing content context using session metadata
US10129464B1 (en) 2016-02-18 2018-11-13 Gopro, Inc. User interface for creating composite images
US9972066B1 (en) 2016-03-16 2018-05-15 Gopro, Inc. Systems and methods for providing variable image projection for spherical visual content
US10402938B1 (en) 2016-03-31 2019-09-03 Gopro, Inc. Systems and methods for modifying image distortion (curvature) for viewing distance in post capture
US9838730B1 (en) 2016-04-07 2017-12-05 Gopro, Inc. Systems and methods for audio track selection in video editing
US10229719B1 (en) 2016-05-09 2019-03-12 Gopro, Inc. Systems and methods for generating highlights for a video
US9953679B1 (en) 2016-05-24 2018-04-24 Gopro, Inc. Systems and methods for generating a time lapse video
US9922682B1 (en) 2016-06-15 2018-03-20 Gopro, Inc. Systems and methods for organizing video files
US9967515B1 (en) 2016-06-15 2018-05-08 Gopro, Inc. Systems and methods for bidirectional speed ramping
US10045120B2 (en) 2016-06-20 2018-08-07 Gopro, Inc. Associating audio with three-dimensional objects in videos
US10395119B1 (en) 2016-08-10 2019-08-27 Gopro, Inc. Systems and methods for determining activities performed during video capture
US9953224B1 (en) 2016-08-23 2018-04-24 Gopro, Inc. Systems and methods for generating a video summary
US10282632B1 (en) 2016-09-21 2019-05-07 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video
US10268898B1 (en) 2016-09-21 2019-04-23 Gopro, Inc. Systems and methods for determining a sample frame order for analyzing a video via segments
US10044972B1 (en) 2016-09-30 2018-08-07 Gopro, Inc. Systems and methods for automatically transferring audiovisual content
US10397415B1 (en) 2016-09-30 2019-08-27 Gopro, Inc. Systems and methods for automatically transferring audiovisual content
US11106988B2 (en) 2016-10-06 2021-08-31 Gopro, Inc. Systems and methods for determining predicted risk for a flight path of an unmanned aerial vehicle
US10002641B1 (en) 2016-10-17 2018-06-19 Gopro, Inc. Systems and methods for determining highlight segment sets
US11138220B2 (en) 2016-11-27 2021-10-05 Amazon Technologies, Inc. Generating data transformation workflows
US11481408B2 (en) 2016-11-27 2022-10-25 Amazon Technologies, Inc. Event driven extract, transform, load (ETL) processing
US11277494B1 (en) 2016-11-27 2022-03-15 Amazon Technologies, Inc. Dynamically routing code for executing
US10963479B1 (en) 2016-11-27 2021-03-30 Amazon Technologies, Inc. Hosting version controlled extract, transform, load (ETL) code
US10545979B2 (en) 2016-12-20 2020-01-28 Amazon Technologies, Inc. Maintaining data lineage to detect data events
US11036560B1 (en) 2016-12-20 2021-06-15 Amazon Technologies, Inc. Determining isolation types for executing code portions
US9916863B1 (en) 2017-02-24 2018-03-13 Gopro, Inc. Systems and methods for editing videos based on shakiness measures
US10339443B1 (en) 2017-02-24 2019-07-02 Gopro, Inc. Systems and methods for processing convolutional neural network operations using textures
US10360663B1 (en) 2017-04-07 2019-07-23 Gopro, Inc. Systems and methods to create a dynamic blur effect in visual content
US10635851B2 (en) * 2017-04-13 2020-04-28 Sap Se Virtualized server side rendering
US10395122B1 (en) 2017-05-12 2019-08-27 Gopro, Inc. Systems and methods for identifying moments in videos
US10402698B1 (en) 2017-07-10 2019-09-03 Gopro, Inc. Systems and methods for identifying interesting moments within videos
US10614114B1 (en) 2017-07-10 2020-04-07 Gopro, Inc. Systems and methods for creating compilations based on hierarchical clustering
US10824474B1 (en) 2017-11-14 2020-11-03 Amazon Technologies, Inc. Dynamically allocating resources for interdependent portions of distributed data processing programs
US11914571B1 (en) 2017-11-22 2024-02-27 Amazon Technologies, Inc. Optimistic concurrency for a multi-writer database
CN108287917B (zh) 2018-02-13 2020-03-10 Oppo广东移动通信有限公司 文件打开方法、装置、存储介质及电子设备
US10908940B1 (en) 2018-02-26 2021-02-02 Amazon Technologies, Inc. Dynamically managed virtual server system
US11030149B2 (en) * 2018-09-06 2021-06-08 Sap Se File format for accessing data quickly and efficiently
US11269911B1 (en) 2018-11-23 2022-03-08 Amazon Technologies, Inc. Using specified performance attributes to configure machine learning pipeline stages for an ETL job
US11381476B2 (en) * 2018-12-11 2022-07-05 Sap Se Standardized format for containerized applications
US11212366B2 (en) 2018-12-11 2021-12-28 Sap Se Kubernetes as a distributed operating system for multitenancy/multiuser
US11341163B1 (en) 2020-03-30 2022-05-24 Amazon Technologies, Inc. Multi-level replication filtering for a distributed database

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055696A1 (en) * 2005-09-02 2007-03-08 Currie Anne-Marie P G System and method of extracting and managing knowledge from medical documents
CN101211353A (zh) * 2006-12-27 2008-07-02 北京海尔集成电路设计有限公司 一种识别多格式媒体文件的方法
CN101702242A (zh) * 2009-11-23 2010-05-05 中兴通讯股份有限公司 一种自动填写固定格式文件的方法及终端
CN102118439A (zh) * 2011-01-19 2011-07-06 百度在线网络技术(北京)有限公司 一种文档内容的自动处理方法、自动处理装置及编辑器
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4389706A (en) * 1972-05-03 1983-06-21 Westinghouse Electric Corp. Digital computer monitored and/or operated system or process which is structured for operation with an improved automatic programming process and system
US6449617B1 (en) * 1999-06-15 2002-09-10 Microsoft Corporation Edit command delegation program for editing electronic files
US20050273708A1 (en) * 2004-06-03 2005-12-08 Verity, Inc. Content-based automatic file format indetification
US20060136389A1 (en) * 2004-12-22 2006-06-22 Cover Clay H System and method for invocation of streaming application
US20060277154A1 (en) * 2005-06-02 2006-12-07 Lunt Tracy T Data structure generated in accordance with a method for identifying electronic files using derivative attributes created from native file attributes
US7668884B2 (en) * 2005-11-28 2010-02-23 Commvault Systems, Inc. Systems and methods for classifying and transferring information in a storage network
US8387047B1 (en) * 2009-08-03 2013-02-26 Symantec Corporation Method of virtualizing file extensions in a computer system by determining an association between applications in virtual environment and a file extension
US8787567B2 (en) * 2011-02-22 2014-07-22 Raytheon Company System and method for decrypting files
US20120303642A1 (en) * 2011-05-23 2012-11-29 Gbs Corp. Automated file-conversion system and process for a media-generation system
US9037897B2 (en) * 2012-02-17 2015-05-19 International Business Machines Corporation Elastic cloud-driven task execution
CN102768676B (zh) * 2012-06-14 2014-03-12 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055696A1 (en) * 2005-09-02 2007-03-08 Currie Anne-Marie P G System and method of extracting and managing knowledge from medical documents
CN101211353A (zh) * 2006-12-27 2008-07-02 北京海尔集成电路设计有限公司 一种识别多格式媒体文件的方法
CN101702242A (zh) * 2009-11-23 2010-05-05 中兴通讯股份有限公司 一种自动填写固定格式文件的方法及终端
CN102118439A (zh) * 2011-01-19 2011-07-06 百度在线网络技术(北京)有限公司 一种文档内容的自动处理方法、自动处理装置及编辑器
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013185561A1 (zh) * 2012-06-14 2013-12-19 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置
CN102982119A (zh) * 2012-11-12 2013-03-20 上海够快网络科技有限公司 一种在线文件的编辑方法
CN103838799A (zh) * 2012-11-27 2014-06-04 北京金山云科技有限公司 一种推荐安装软件的方法、终端设备、云端服务器及系统
CN103106094A (zh) * 2013-03-06 2013-05-15 广东欧珀移动通信有限公司 一种打开文件方法及移动智能终端
CN103544449A (zh) * 2013-10-09 2014-01-29 上海上讯信息技术有限公司 基于分级控制的文件流转方法及系统
CN103544449B (zh) * 2013-10-09 2018-05-22 上海上讯信息技术股份有限公司 基于分级控制的文件流转方法及系统
CN103823614B (zh) * 2014-03-10 2018-01-16 联想(北京)有限公司 信息处理方法、装置及电子设备
CN103823614A (zh) * 2014-03-10 2014-05-28 联想(北京)有限公司 信息处理方法、装置及电子设备
CN104239045A (zh) * 2014-09-05 2014-12-24 珠海市君天电子科技有限公司 未知文件的打开方法及装置
CN104239045B (zh) * 2014-09-05 2018-02-23 珠海市君天电子科技有限公司 未知文件的打开方法及装置
CN104408090A (zh) * 2014-11-11 2015-03-11 百度在线网络技术(北京)有限公司 文件打开方法和装置
CN105897830A (zh) * 2015-12-01 2016-08-24 乐视网信息技术(北京)股份有限公司 推荐文件打开工具的客户端、服务器、系统及方法
CN105786515A (zh) * 2016-03-01 2016-07-20 惠州Tcl移动通信有限公司 一种电子书文件及其生成处理方法、以及打开处理方法
CN105786515B (zh) * 2016-03-01 2020-01-14 惠州Tcl移动通信有限公司 一种电子书文件及其生成处理方法、以及打开处理方法
CN105787127A (zh) * 2016-03-29 2016-07-20 天脉聚源(北京)传媒科技有限公司 一种推荐应用软件的方法及装置
CN105957542B (zh) * 2016-04-25 2019-03-26 青岛海信移动通信技术股份有限公司 一种音频文件编辑方法及装置
CN105957542A (zh) * 2016-04-25 2016-09-21 青岛海信移动通信技术股份有限公司 一种音频文件编辑方法及装置
US11704331B2 (en) 2016-06-30 2023-07-18 Amazon Technologies, Inc. Dynamic generation of data catalogs for accessing data
CN106327560A (zh) * 2016-08-25 2017-01-11 苏州创意云网络科技有限公司 一种文件版本的识别方法及识别客户端
CN106327560B (zh) * 2016-08-25 2019-11-26 苏州创意云网络科技有限公司 一种文件版本的识别方法及识别客户端
CN109964216B (zh) * 2016-11-27 2024-05-28 亚马逊科技公司 识别未知数据对象
CN109964216A (zh) * 2016-11-27 2019-07-02 亚马逊科技公司 识别未知数据对象
US11893044B2 (en) 2016-11-27 2024-02-06 Amazon Technologies, Inc. Recognizing unknown data objects
CN106933626A (zh) * 2017-03-01 2017-07-07 腾讯科技(深圳)有限公司 应用关联方法及装置
CN107145801A (zh) * 2017-04-26 2017-09-08 浙江远望信息股份有限公司 一种后缀名遭篡改的涉密文件自动发现方法
CN107274291A (zh) * 2017-06-21 2017-10-20 深圳泛态信息技术有限公司 跨平台的估值表解析方法、存储介质及应用服务器
CN107274291B (zh) * 2017-06-21 2020-08-04 况客科技(北京)有限公司 跨平台的估值表解析方法、存储介质及应用服务器
CN109241501A (zh) * 2018-08-15 2019-01-18 北京北信源信息安全技术有限公司 文件解析方法和装置
CN109474827A (zh) * 2018-12-03 2019-03-15 四川巧夺天工信息安全智能设备有限公司 监控视频快速转码的方法
CN110175052A (zh) * 2019-04-16 2019-08-27 努比亚技术有限公司 一种开启文件的方法、装置及计算机可读存储介质
CN110532529A (zh) * 2019-09-04 2019-12-03 北京明朝万达科技股份有限公司 一种文件类型的识别方法及装置
CN111614647B (zh) * 2020-05-14 2022-06-07 中国银行股份有限公司 报文检测及解析方法、装置
CN111614647A (zh) * 2020-05-14 2020-09-01 中国银行股份有限公司 报文检测及解析方法、装置
CN111966640A (zh) * 2020-09-03 2020-11-20 深圳市小满科技有限公司 一种单据文件识别方法及其系统

Also Published As

Publication number Publication date
CN102768676B (zh) 2014-03-12
WO2013185561A1 (zh) 2013-12-19
US20150113009A1 (en) 2015-04-23

Similar Documents

Publication Publication Date Title
CN102768676B (zh) 一种格式未知文件的处理方法和装置
US8630972B2 (en) Providing context for web articles
US7860872B2 (en) Automated media analysis and document management system
US7788262B1 (en) Method and system for creating context based summary
US20070162459A1 (en) System and method for creating searchable user-created blog content
US8423568B2 (en) Query classification using implicit labels
US20030195885A1 (en) System and method for XML based content management
US20070094232A1 (en) System and method for automatically extracting by-line information
CN101546341A (zh) 信息推荐装置和信息推荐方法
US20110137943A1 (en) Apparatus for deciding word-related keywords, and method and program for controlling operation of same
Kotenko et al. Analysis and evaluation of web pages classification techniques for inappropriate content blocking
US20150100877A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN101477527A (zh) 一种检索多媒体资源的方法及装置
KR101221096B1 (ko) 스팸 관리 장치 및 스팸 관리 방법
Cortez et al. A flexible approach for extracting metadata from bibliographic citations
US8131752B2 (en) Breaking documents
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
US7349950B2 (en) Method, system and storage medium for accessing dynamic content
JP2008102790A (ja) 検索システム
JP5125161B2 (ja) Web情報収集装置、Web情報収集方法、Web情報収集プログラム
JP6762678B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
CN113032518A (zh) 信息处理装置、存储介质及信息处理方法
KR101079802B1 (ko) 웹사이트 검색 방법 및 시스템과 웹사이트 검색 장치 및이를 위한 기록매체
Noh et al. Extracting and evaluating topics by region
JP2008165785A (ja) 検索システムおよびその方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant