CN104156373A - 编码格式检测方法及装置 - Google Patents

编码格式检测方法及装置 Download PDF

Info

Publication number
CN104156373A
CN104156373A CN201310179933.7A CN201310179933A CN104156373A CN 104156373 A CN104156373 A CN 104156373A CN 201310179933 A CN201310179933 A CN 201310179933A CN 104156373 A CN104156373 A CN 104156373A
Authority
CN
China
Prior art keywords
coded format
testing result
described testing
transcoding
confidence mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310179933.7A
Other languages
English (en)
Other versions
CN104156373B (zh
Inventor
吴建勋
纪勇士
蔡孟达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Acer Inc
Original Assignee
Acer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Acer Inc filed Critical Acer Inc
Priority to CN201310179933.7A priority Critical patent/CN104156373B/zh
Publication of CN104156373A publication Critical patent/CN104156373A/zh
Application granted granted Critical
Publication of CN104156373B publication Critical patent/CN104156373B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种编码格式检测方法及装置,用以检测文件的识别标签的编码格式。此方法先获取识别标签内的信息,并聚集为一个字符串,接着使用多种编码格式检测此字符串所使用的编码格式,以获得多个检测结果及各个检测结果的信心分数。然后,判断各信心分数是否大于门限值,而当所有检测结果的信心分数均不大于门限值时,将各个检测结果转码为通用编码格式,并利用搜索引擎搜索转码后的各所述检测结果。最后,将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。本发明也提供编码格式检测装置以实现上述方法。

Description

编码格式检测方法及装置
技术领域
本发明是有关于一种编码格式检测方法及装置,且特别是有关于一种识别标签的编码格式检测方法及装置。
背景技术
在现今信息传播的过程中,由于不同国家的不同语言导致需要在不同的字符编码之间转码,以进行一致化的处理。以网页服务器而言,为了处理来自世界各处的信息及其来源编码,例如互联网协议地址(Internet ProtocolAddress,以下简称IP Address)或是浏览器的预设语言等背景信息可做为网页服务器转码成内部统一处理的编码依据。
然而,在其它不同的应用上,并没有足够的背景信息来判断来源编码,而造成后续处理上的困扰。举例而言,MP3(MPEG Layer3)是目前最为普遍的数字音乐格式,MP3文件的识别标签称为MP3文件识别标签(IdentifyMP3,以下简称ID3),其用以记载例如是曲名、演唱者、专辑名称、年代等音乐相关信息。但由于不同国家的不同语言导致这些音乐相关信息是以各式各样的格式进行编码。以现今存在的数字播放器而言,由于这些音乐相关信息相当简短使得背景数据不足,以现有的经验法则(启发式算法)来检测编码格式的结果往往不尽理想而产生乱码,带来负面的使用经验。
发明内容
有鉴于此,本发明提供一种编码格式检测方法及装置,其可更精确地检测文件的识别标签的编码格式。
本发明提供一种编码格式检测方法,用以检测文件的识别标签的编码格式。此方法先获取识别标签内的信息,并聚集为一个字符串。接着使用多种编码格式检测此字符串所使用的编码格式,以获得多个检测结果及各个检测结果的信心分数。然后,判断各信心分数是否大于门限值,而当所有检测结果的信心分数均不大于门限值时,将各个检测结果转码为通用编码格式,并且利用搜索引擎搜索转码后的各个检测结果,将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。
本发明提供一种编码格式检测装置,用以检测文件的识别标签的编码格式。此装置包括标签获取模块、编码检测模块、信心分数判断模块、通用编码转换模块以及决策模块。标签获取模块会获取标签内的信息,并聚集为一个字符串。编码检测模块利用多种编码格式检测字符串所使用的编码格式,以获得多个检测结果及各个检测结果的信心分数。信心分数判断模块会判断各个检测结果的信心分数是否大于门限值。当所有检测结果的信心分数均不大于门限值时,通用编码转换模块将各个检测结果转码为通用编码格式。决策模块会利用搜索引擎搜索转码后的各个检测结果,将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。
基于上述,本发明通过启发式检测器来检测文件的识别标签内的信息所使用的编码格式,获得多个检测结果及各所述检测结果的信心分数。当所有检测结果的信心分数均不大于门限值时,将各个检测结果转码为通用编码格式,并且利用搜索引擎搜索转码后的各个检测结果,将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。藉此,本发明可在背景数据不足的情况下,利用搜索引擎的能力结合启发式演算器来检测编码格式,提供更精确的估测结果。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
附图说明
图1为依据本发明一实施例的一种编码格式检测装置的功能方块示意图;
图2为依据本发明一实施例的一种编码格式检测方法流程图。
附图标记说明:
100:编码格式检测装置;
110:标签获取模块;
120:编码检测模块;
130:信心分数判断模块;
140:通用编码转换模块;
150:决策模块;
S201~S211:编码格式检测方法流程。
具体实施方式
图1为依据本发明一实施例的一种编码格式检测装置的功能方块示意图,图2为依据本发明一实施例的一种编码格式检测方法流程图。请先参照图1,编码格式检测装置100包括标签获取模块110、编码检测模块120、信心分数判断模块130、通用编码转换模块140以及决策模块150。这些模块例如是以逻辑电路元件组成的硬件装置,而可执行编码格式的检测功能。这些模块也可以是存储在电脑主机的硬盘或存储器中的软件程序或固件程序,其可载入电脑主机的处理器,而执行编码格式的检测功能,在此不设限。
上述各构件的详细功能将配合图2中的编码格式检测方法流程图一并揭露。在本实施例中,此编码格式检测装置100是用以检测文件的识别标签的编码格式。请同时参照图1与图2,以下即以图1中编码格式检测装置100的各项元件搭配图2说明本实施例的编码格式检测方法的详细步骤。
本实施例是以检测MP3(MPEG Layer3)格式的音频文件的识别标签的编码格式来进行说明,然而此并不用以限定本发明。MP3文件的识别标签称为MP3文件识别标签(Identify MP3,ID3),其用以记载例如是曲名、演唱者、专辑名称、年代等歌曲相关信息。一般而言,ID3根据信息所存储的位置分为两种版本,即v1版以及v2版。v1版的ID3(ID3v1)位于MP3文件的末尾128字节(bytes),其中前三个字符分别为「T」、「A」以及「G」,其它字符则为曲名、演唱者、专辑名称、年代等歌曲相关信息。ID3v1还可包括具有277字节的扩展标签(extended tag),此标签一般位于128字节的ID3的前方,除了可记载曲名、演唱者或专辑名称外,还可记载歌曲节拍、歌曲开始时间、歌曲停止时间等较为细节的信息。v2版的ID3(ID3v2)一般位于MP3文件的开头,其用以存储歌词或专辑图片等大容量的信息。
首先,标签获取模块110获取文件的识别标签内的信息,并且将这些信息聚集为一个字符串(步骤S201)。在本实施例中,标签获取模块110可以是获取ID3v1标签的曲名、演唱者、专辑名称、年代等歌曲相关信息的字符,并将这些字符聚集成一个字符串。然而,在其它实施例中也可选择性的设定所要获取的信息。
接着,编码检测模块120利用多种编码格式,并可通过启发式检测器(未示出)检测上述字符串所使用的编码格式,以获得多个检测结果及各个检测结果的信心分数(步骤S203)。这些编码格式为多个国家或多种语言文字所采用的字符编码格式。启发式检测器是利用启发式算法去估测代表此字符串的一系列字节的字符编码,其中启发式算法通常依据字节样式的统计分析,也就是完全地依赖统计数据,以评估出此字符串的编码格式的信心分数。
信心分数判断模块130根据上述各个编码格式的检测结果,判断其信心分数是否大于一个门限值(步骤S205)。当上述检测结果中的一个或多个信心分数大于此门限值,则进入步骤S207,由决策模块150将这些信心分数最高的检测结果对应的编码格式设定为识别标签的编码格式,并且完成编码格式的检测。后续可通过文字转码器根据检测结果对应的编码格式去转换识别标签的编码格式。
然而,在被检测的数据不足(例如,字符串不长)的情况下,往往会造成多种可能的编码的信心分数过低。因此,当步骤S205中所有检测结果的信心分数均不大于门限值时,通用编码转换模块140则会将各个检测结果转码为通用编码格式(步骤S209)。然而,本发明并不限于此,信心分数判断模块130也可先将上述检测结果的信心分数依大到小进行排序,并仅选择排名前5或前10的信心分数对应的编码格式进行转码,藉以节省转码所耗费的运算资源。
在此所谓的通用编码格式例如是统一码转换格式(UnicodeTransformation Format,UTF)。统一码是统一码联盟(The Unicode Consortium)为了解决国际间编码格式问题而提出的方案,其不需要特殊转换即可识别各国的编码和字集,常见的格式为UTF-8(8-bit Unicode Transformation Format)以及UTF-16(16-bit Unicode Transformation Format),其中UTF-8已逐渐成为电子邮件、网页以及其它存储或传送文字的应用中所优先采用的编码。因此,本实施例也将以UTF-8来进行说明。
当各个检测结果转码为UTF-8之后,决策模块150利用搜索引擎(未示出)搜索转码后的各个检测结果,最后则将搜索次数最多的检测结果所对应的编码格式设定为识别标签的编码格式(步骤S211),从而完成编码格式的检测。详细来说,决策模块150是将通用编码转换模块140转码后的检测结果作为搜索关键字,输入Google、Yahoo等搜索引擎,从而利用搜索引擎进行搜索。由于错误的检测结果会导致转码的结果是无意义的字符组合,搜索次数必然极低;相对地,正确的检测结果经转码后的结果是有意义的字符组合。因此,可认定搜索次数最多的检测结果为最有可能的编码格式。
此外,当文件的识别标签内的信息被获取并聚集为一个字符串后,会使用启发式检测器来猜测上述字符串所使用的编码格式:
Detect_Results=Heuristic_Detector(Input_Data)
其中Input_Data为上述聚集后的字符串,Heuristic_Detector即针对字符串Input_Data执行启发式检测,而获得多个检测结果,并存储于阵列Detect_Results。
接着可根据上述各个编码格式的检测结果,判断其信心分数是否大于一个门限值。举例而言,当此门限值为50,并且
Detect_Result[0].confidance=90
(也就是说,阵列Detect_Result中第一个元素所对应的编码格式的信心分数为90时),由于此信心分数大于上述门限值,因此可以将此编码格式设定为识别标签的编码格式。
当所有检测结果的信心分数均不大于门限值时,例如:
Detect_Result[0].confidance=10
Detect_Result[1].confidance=10
Detect_Result[2].confidance=10
Detect_Result[3].confidance=10
Detect_Result[n].confidance=5
将上述检测结果的信心分数依大到小进行排序,并仅选择排名前X的信心分数对应的编码格式转码为UTF-8:
Transcoded_Result[0]=Transcode(Input_Data,Detect_Result[0])
Transcoded_Result[1]=Transcode(Input_Data,Detect_Result[1])
Transcoded_Result[2]=Transcode(Input_Data,Detect_Result[2])
Transcoded_Result[X]=Transcode(Input_Data,Detect_Result[X])
其中,函数Transcode是用以针对上述字符串以及排名前X的检测结果进行转码,而获得多种转码后的检测结果,并存储于阵列Transcoded_Result。
接着,利用搜索引擎搜索转码后的各个检测结果,得到多个搜索次数:
Count[0]=Search_Engine_Result_Count(Transcoded_Result[0])
Count[1]=Search_Engine_Result_Count(Transcoded_Result[1])
Count[2]=Search_Engine_Result_Count(Transcoded_Result[2])
Count[X]=Search_Engine_Result_Count(Transcoded_Result[X])
其中Search_Engine_Result_Count依据转码后的检测结果而得到搜索次数,并存储于Count阵列。最后,可在Count阵列中找出数值最高的检测结果所对应的编码格式,并且将此编码格式设定为识别标签的编码格式。
综上所述,本发明通过启发式检测器检测文件的识别标签内的信息所使用的编码格式,将各个检测结果转码为通用编码格式,再利用搜索引擎搜索转码后的检测结果,并将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。当欲检测的相关信息相当简短使得背景数据不足的情况下,本发明可利用搜索引擎的能力结合启发式演算器来检测编码格式,以节省运算资源的前提,提供更精确的估测结果与减低后续处理数据上的困扰,以提高使用者经验。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种编码格式检测方法,用以检测一文件的一识别标签的一编码格式,其特征在于,该方法包括下列步骤:
获取该识别标签内的信息,并聚集为一字符串;
使用多种编码格式检测该字符串所使用的该编码格式,以获得多个检测结果及各所述检测结果的一信心分数;
判断各所述检测结果的该信心分数是否大于一门限值;
当所有检测结果的该信心分数均不大于该门限值时,转码各所述检测结果为一通用编码格式;以及
利用一搜索引擎搜索转码后的各所述检测结果,设定一搜索次数最多的该检测结果对应的该编码格式为该识别标签的该编码格式。
2.根据权利要求1所述的编码格式检测方法,其特征在于,判断各所述检测结果的该信心分数是否大于该门限值的步骤还包括:
当所述检测结果中的一或多个的该信心分数大于该门限值时,设定该信心分数最高的该检测结果对应的该编码格式为该识别标签的该编码格式。
3.根据权利要求1所述的编码格式检测方法,其特征在于,转码各所述检测结果为该通用编码格式,并利用该搜索引擎搜索转码后的各所述检测结果的步骤包括:
依据该信心分数排序所述检测结果;以及
选择排序在前的多个所述检测结果进行转码,并利用该搜索引擎搜索转码后的各所述检测结果。
4.根据权利要求1所述的编码格式检测方法,其特征在于,使用所述编码格式检测该字符串所使用的该编码格式的步骤包括:
利用一启发式检测器检测该字符串所使用的该编码格式。
5.根据权利要求1所述的编码格式检测方法,其特征在于,利用该搜索引擎搜索转码后的各所述检测结果的步骤包括:
以转码后的各所述检测结果做为一搜索关键字,利用搜索引擎进行搜索。
6.一种编码格式检测装置,用以检测一文件的一识别标签的一编码格式,其特征在于,该编码格式检测装置包括:
一标签获取模块,获取该识别标签内的信息,并聚集为一字符串;
一编码检测模块,使用多种编码格式用以检测该字符串所使用的该编码格式,以获得多个检测结果及各所述检测结果的一信心分数;
一信心分数判断模块,判断各所述检测结果的该信心分数是否大于一门限值;
一通用编码转换模块,当所有检测结果的该信心分数均不大于该门限值时,转码各所述检测结果为一通用编码格式;以及
一决策模块,利用一搜索引擎搜索转码后的各所述检测结果,设定一搜索次数最多的该检测结果对应的该编码格式为该识别标签的该编码格式。
7.根据权利要求8所述的编码格式检测装置,其特征在于,当所述检测结果中的一或多个的该信心分数大于该门限值时,该决策模块设定该信心分数最高的该检测结果对应的该编码格式为该识别标签的该编码格式。
8.根据权利要求6所述的编码格式检测装置,其特征在于,:
该通用编码转换模块依据该信心分数排序所述检测结果;以及
该决策模块选择排序在前的多个所述检测结果进行转码,并利用该搜索引擎搜索转码后的各所述检测结果。
9.根据权利要求6所述的编码格式检测装置,其特征在于,还包括:
一启发式检测器,用以检测该字符串所使用的该编码格式。
10.根据权利要求6所述的编码格式检测装置,其特征在于,该决策模块以转码后的各所述检测结果做为一搜索关键字,利用搜索引擎进行搜索。
CN201310179933.7A 2013-05-15 2013-05-15 编码格式检测方法及装置 Expired - Fee Related CN104156373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310179933.7A CN104156373B (zh) 2013-05-15 2013-05-15 编码格式检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310179933.7A CN104156373B (zh) 2013-05-15 2013-05-15 编码格式检测方法及装置

Publications (2)

Publication Number Publication Date
CN104156373A true CN104156373A (zh) 2014-11-19
CN104156373B CN104156373B (zh) 2017-06-06

Family

ID=51881878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310179933.7A Expired - Fee Related CN104156373B (zh) 2013-05-15 2013-05-15 编码格式检测方法及装置

Country Status (1)

Country Link
CN (1) CN104156373B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988977A (zh) * 2015-02-16 2016-10-05 珠海金山办公软件有限公司 一种字符编码识别结果的显示方法和装置
CN106775909A (zh) * 2016-11-22 2017-05-31 中国银行股份有限公司 一种java文件及字节流的编码格式的判断方法及装置
WO2017166430A1 (zh) * 2016-03-28 2017-10-05 深圳Tcl新技术有限公司 字幕显示方法及装置
CN107852647A (zh) * 2016-06-30 2018-03-27 北京小米移动软件有限公司 编码格式确定方法及装置
CN108123721A (zh) * 2016-11-29 2018-06-05 展讯通信(上海)有限公司 编码方法及装置
CN109542774A (zh) * 2018-11-02 2019-03-29 平安医疗健康管理股份有限公司 脚本编码格式批量检测方法、装置、终端及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200603554A (en) * 2004-07-09 2006-01-16 Tsu-Chang Lee Method and apparatus for adaptive multiple-dimensional signal sequences encoding/decoding
US7148824B1 (en) * 2005-08-05 2006-12-12 Xerox Corporation Automatic detection of character encoding format using statistical analysis of the text strings
CN101800892A (zh) * 2010-03-04 2010-08-11 青岛海信信芯科技有限公司 多媒体码流识别的方法和装置
CN102833543A (zh) * 2012-08-16 2012-12-19 中央电视台 一种视音频媒体文件视频编码格式检测装置与方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200603554A (en) * 2004-07-09 2006-01-16 Tsu-Chang Lee Method and apparatus for adaptive multiple-dimensional signal sequences encoding/decoding
US7148824B1 (en) * 2005-08-05 2006-12-12 Xerox Corporation Automatic detection of character encoding format using statistical analysis of the text strings
CN101800892A (zh) * 2010-03-04 2010-08-11 青岛海信信芯科技有限公司 多媒体码流识别的方法和装置
CN102833543A (zh) * 2012-08-16 2012-12-19 中央电视台 一种视音频媒体文件视频编码格式检测装置与方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988977A (zh) * 2015-02-16 2016-10-05 珠海金山办公软件有限公司 一种字符编码识别结果的显示方法和装置
WO2017166430A1 (zh) * 2016-03-28 2017-10-05 深圳Tcl新技术有限公司 字幕显示方法及装置
CN107852647A (zh) * 2016-06-30 2018-03-27 北京小米移动软件有限公司 编码格式确定方法及装置
CN107852647B (zh) * 2016-06-30 2021-09-28 北京小米移动软件有限公司 编码格式确定方法及装置
CN106775909A (zh) * 2016-11-22 2017-05-31 中国银行股份有限公司 一种java文件及字节流的编码格式的判断方法及装置
CN108123721A (zh) * 2016-11-29 2018-06-05 展讯通信(上海)有限公司 编码方法及装置
CN108123721B (zh) * 2016-11-29 2022-01-11 展讯通信(上海)有限公司 编码方法及装置
CN109542774A (zh) * 2018-11-02 2019-03-29 平安医疗健康管理股份有限公司 脚本编码格式批量检测方法、装置、终端及可读存储介质
CN109542774B (zh) * 2018-11-02 2023-10-17 深圳平安医疗健康科技服务有限公司 脚本编码格式批量检测方法、装置、终端及可读存储介质

Also Published As

Publication number Publication date
CN104156373B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN104156373A (zh) 编码格式检测方法及装置
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN109448793B (zh) 基因序列的权利范围标注、检索及信息标注方法、系统
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
WO2022222943A1 (zh) 科室推荐方法、装置、电子设备及存储介质
CN111539193A (zh) 基于本体的文档分析和注释生成
Martens et al. Extracting and analyzing context information in user-support conversations on twitter
CN104182548A (zh) 网页更新处理方法及装置
CN111507400B (zh) 应用分类方法、装置、电子设备以及存储介质
CN111552640A (zh) 一种代码检测方法、装置、设备及存储介质
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110245357B (zh) 主实体识别方法和装置
KR20190090636A (ko) 문서 자동 편집 방법
CN112380416A (zh) 一种更新课程索引的方法、课程搜索方法和装置
CN110287338B (zh) 行业热点确定方法、装置、设备和介质
CN111935552A (zh) 信息标注方法、装置、设备及介质
CN111177082A (zh) 一种pdf文件去重存储方法及系统
US20160253374A1 (en) Data file writing method and system, and data file reading method and system
CN115796146A (zh) 一种文件对比方法及装置
JP2020525949A (ja) メディア検索方法及び装置
CN115033592A (zh) 基于数据库的sql语句处理方法、装置、设备及存储介质
CN110502615B (zh) 卫生信息数据元标准数据生成方法及系统
CN110059272B (zh) 一种页面特征识别方法和装置
WO2015070678A1 (zh) 一种图像识别方法、挖掘图像主体信息方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606