CN104156373B - 编码格式检测方法及装置 - Google Patents
编码格式检测方法及装置 Download PDFInfo
- Publication number
- CN104156373B CN104156373B CN201310179933.7A CN201310179933A CN104156373B CN 104156373 B CN104156373 B CN 104156373B CN 201310179933 A CN201310179933 A CN 201310179933A CN 104156373 B CN104156373 B CN 104156373B
- Authority
- CN
- China
- Prior art keywords
- coded format
- testing result
- transcoding
- confidence score
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000012360 testing method Methods 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种编码格式检测方法及装置,用以检测文件的识别标签的编码格式。此方法先获取识别标签内的信息,并聚集为一个字符串,接着使用多种编码格式检测此字符串所使用的编码格式,以获得多个检测结果及各个检测结果的信心分数。然后,判断各信心分数是否大于门限值,而当所有检测结果的信心分数均不大于门限值时,将各个检测结果转码为通用编码格式,并利用搜索引擎搜索转码后的各所述检测结果。最后,将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。本发明也提供编码格式检测装置以实现上述方法。
Description
技术领域
本发明是有关于一种编码格式检测方法及装置,且特别是有关于一种识别标签的编码格式检测方法及装置。
背景技术
在现今信息传播的过程中,由于不同国家的不同语言导致需要在不同的字符编码之间转码,以进行一致化的处理。以网页服务器而言,为了处理来自世界各处的信息及其来源编码,例如互联网协议地址(Internet Protocol Address,以下简称IP Address)或是浏览器的预设语言等背景信息可做为网页服务器转码成内部统一处理的编码依据。
然而,在其它不同的应用上,并没有足够的背景信息来判断来源编码,而造成后续处理上的困扰。举例而言,MP3(MPEG Layer3)是目前最为普遍的数字音乐格式,MP3文件的识别标签称为MP3文件识别标签(Identify MP3,以下简称ID3),其用以记载例如是曲名、演唱者、专辑名称、年代等音乐相关信息。但由于不同国家的不同语言导致这些音乐相关信息是以各式各样的格式进行编码。以现今存在的数字播放器而言,由于这些音乐相关信息相当简短使得背景数据不足,以现有的经验法则(启发式算法)来检测编码格式的结果往往不尽理想而产生乱码,带来负面的使用经验。
发明内容
有鉴于此,本发明提供一种编码格式检测方法及装置,其可更精确地检测文件的识别标签的编码格式。
本发明提供一种编码格式检测方法,用以检测文件的识别标签的编码格式。此方法先获取识别标签内的信息,并聚集为一个字符串。接着使用多种编码格式检测此字符串所使用的编码格式,以获得多个检测结果及各个检测结果的信心分数。然后,判断各信心分数是否大于门限值,而当所有检测结果的信心分数均不大于门限值时,将各个检测结果转码为通用编码格式,并且利用搜索引擎搜索转码后的各个检测结果,将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。
本发明提供一种编码格式检测装置,用以检测文件的识别标签的编码格式。此装置包括标签获取模块、编码检测模块、信心分数判断模块、通用编码转换模块以及决策模块。标签获取模块会获取标签内的信息,并聚集为一个字符串。编码检测模块利用多种编码格式检测字符串所使用的编码格式,以获得多个检测结果及各个检测结果的信心分数。信心分数判断模块会判断各个检测结果的信心分数是否大于门限值。当所有检测结果的信心分数均不大于门限值时,通用编码转换模块将各个检测结果转码为通用编码格式。决策模块会利用搜索引擎搜索转码后的各个检测结果,将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。
基于上述,本发明通过启发式检测器来检测文件的识别标签内的信息所使用的编码格式,获得多个检测结果及各所述检测结果的信心分数。当所有检测结果的信心分数均不大于门限值时,将各个检测结果转码为通用编码格式,并且利用搜索引擎搜索转码后的各个检测结果,将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。藉此,本发明可在背景数据不足的情况下,利用搜索引擎的能力结合启发式演算器来检测编码格式,提供更精确的估测结果。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
附图说明
图1为依据本发明一实施例的一种编码格式检测装置的功能方块示意图;
图2为依据本发明一实施例的一种编码格式检测方法流程图。
附图标记说明:
100:编码格式检测装置;
110:标签获取模块;
120:编码检测模块;
130:信心分数判断模块;
140:通用编码转换模块;
150:决策模块;
S201~S211:编码格式检测方法流程。
具体实施方式
图1为依据本发明一实施例的一种编码格式检测装置的功能方块示意图,图2为依据本发明一实施例的一种编码格式检测方法流程图。请先参照图1,编码格式检测装置100包括标签获取模块110、编码检测模块120、信心分数判断模块130、通用编码转换模块140以及决策模块150。这些模块例如是以逻辑电路元件组成的硬件装置,而可执行编码格式的检测功能。这些模块也可以是存储在电脑主机的硬盘或存储器中的软件程序或固件程序,其可载入电脑主机的处理器,而执行编码格式的检测功能,在此不设限。
上述各构件的详细功能将配合图2中的编码格式检测方法流程图一并揭露。在本实施例中,此编码格式检测装置100是用以检测文件的识别标签的编码格式。请同时参照图1与图2,以下即以图1中编码格式检测装置100的各项元件搭配图2说明本实施例的编码格式检测方法的详细步骤。
本实施例是以检测MP3(MPEG Layer3)格式的音频文件的识别标签的编码格式来进行说明,然而此并不用以限定本发明。MP3文件的识别标签称为MP3文件识别标签(Identify MP3,ID3),其用以记载例如是曲名、演唱者、专辑名称、年代等歌曲相关信息。一般而言,ID3根据信息所存储的位置分为两种版本,即v1版以及v2版。v1版的ID3(ID3v1)位于MP3文件的末尾128字节(bytes),其中前三个字符分别为「T」、「A」以及「G」,其它字符则为曲名、演唱者、专辑名称、年代等歌曲相关信息。ID3v1还可包括具有277字节的扩展标签(extended tag),此标签一般位于128字节的ID3的前方,除了可记载曲名、演唱者或专辑名称外,还可记载歌曲节拍、歌曲开始时间、歌曲停止时间等较为细节的信息。v2版的ID3(ID3v2)一般位于MP3文件的开头,其用以存储歌词或专辑图片等大容量的信息。
首先,标签获取模块110获取文件的识别标签内的信息,并且将这些信息聚集为一个字符串(步骤S201)。在本实施例中,标签获取模块110可以是获取ID3v1标签的曲名、演唱者、专辑名称、年代等歌曲相关信息的字符,并将这些字符聚集成一个字符串。然而,在其它实施例中也可选择性的设定所要获取的信息。
接着,编码检测模块120利用多种编码格式,并可通过启发式检测器(未示出)检测上述字符串所使用的编码格式,以获得多个检测结果及各个检测结果的信心分数(步骤S203)。这些编码格式为多个国家或多种语言文字所采用的字符编码格式。启发式检测器是利用启发式算法去估测代表此字符串的一系列字节的字符编码,其中启发式算法通常依据字节样式的统计分析,也就是完全地依赖统计数据,以评估出此字符串的编码格式的信心分数。
信心分数判断模块130根据上述各个编码格式的检测结果,判断其信心分数是否大于一个门限值(步骤S205)。当上述检测结果中的一个或多个信心分数大于此门限值,则进入步骤S207,由决策模块150将这些信心分数最高的检测结果对应的编码格式设定为识别标签的编码格式,并且完成编码格式的检测。后续可通过文字转码器根据检测结果对应的编码格式去转换识别标签的编码格式。
然而,在被检测的数据不足(例如,字符串不长)的情况下,往往会造成多种可能的编码的信心分数过低。因此,当步骤S205中所有检测结果的信心分数均不大于门限值时,通用编码转换模块140则会将各个检测结果转码为通用编码格式(步骤S209)。然而,本发明并不限于此,信心分数判断模块130也可先将上述检测结果的信心分数依大到小进行排序,并仅选择排名前5或前10的信心分数对应的编码格式进行转码,藉以节省转码所耗费的运算资源。
在此所谓的通用编码格式例如是统一码转换格式(Unicode TransformationFormat,UTF)。统一码是统一码联盟(The Unicode Consortium)为了解决国际间编码格式问题而提出的方案,其不需要特殊转换即可识别各国的编码和字集,常见的格式为UTF-8(8-bit Unicode Transformation Format)以及UTF-16(16-bit Unicode TransformationFormat),其中UTF-8已逐渐成为电子邮件、网页以及其它存储或传送文字的应用中所优先采用的编码。因此,本实施例也将以UTF-8来进行说明。
当各个检测结果转码为UTF-8之后,决策模块150利用搜索引擎(未示出)搜索转码后的各个检测结果,最后则将搜索次数最多的检测结果所对应的编码格式设定为识别标签的编码格式(步骤S211),从而完成编码格式的检测。详细来说,决策模块150是将通用编码转换模块140转码后的检测结果作为搜索关键字,输入Google、Yahoo等搜索引擎,从而利用搜索引擎进行搜索。由于错误的检测结果会导致转码的结果是无意义的字符组合,搜索次数必然极低;相对地,正确的检测结果经转码后的结果是有意义的字符组合。因此,可认定搜索次数最多的检测结果为最有可能的编码格式。
此外,当文件的识别标签内的信息被获取并聚集为一个字符串后,会使用启发式检测器来猜测上述字符串所使用的编码格式:
Detect_Results=Heuristic_Detector(Input_Data)
其中Input_Data为上述聚集后的字符串,Heuristic_Detector即针对字符串Input_Data执行启发式检测,而获得多个检测结果,并存储于阵列Detect_Results。
接着可根据上述各个编码格式的检测结果,判断其信心分数是否大于一个门限值。举例而言,当此门限值为50,并且
Detect_Result[0].confidance=90
(也就是说,阵列Detect_Result中第一个元素所对应的编码格式的信心分数为90时),由于此信心分数大于上述门限值,因此可以将此编码格式设定为识别标签的编码格式。
当所有检测结果的信心分数均不大于门限值时,例如:
Detect_Result[0].confidance=10
Detect_Result[1].confidance=10
Detect_Result[2].confidance=10
Detect_Result[3].confidance=10
…
Detect_Result[n].confidance=5
将上述检测结果的信心分数依大到小进行排序,并仅选择排名前X的信心分数对应的编码格式转码为UTF-8:
Transcoded_Result[0]=Transcode(Input_Data,Detect_Result[0])
Transcoded_Result[1]=Transcode(Input_Data,Detect_Result[1])
Transcoded_Result[2]=Transcode(Input_Data,Detect_Result[2])
Transcoded_Result[X]=Transcode(Input_Data,Detect_Result[X])
其中,函数Transcode是用以针对上述字符串以及排名前X的检测结果进行转码,而获得多种转码后的检测结果,并存储于阵列Transcoded_Result。
接着,利用搜索引擎搜索转码后的各个检测结果,得到多个搜索次数:
Count[0]=Search_Engine_Result_Count(Transcoded_Result[0])
Count[1]=Search_Engine_Result_Count(Transcoded_Result[1])
Count[2]=Search_Engine_Result_Count(Transcoded_Result[2])
Count[X]=Search_Engine_Result_Count(Transcoded_Result[X])
其中Search_Engine_Result_Count依据转码后的检测结果而得到搜索次数,并存储于Count阵列。最后,可在Count阵列中找出数值最高的检测结果所对应的编码格式,并且将此编码格式设定为识别标签的编码格式。
综上所述,本发明通过启发式检测器检测文件的识别标签内的信息所使用的编码格式,将各个检测结果转码为通用编码格式,再利用搜索引擎搜索转码后的检测结果,并将搜索次数最多的检测结果对应的编码格式设定为识别标签的编码格式。当欲检测的相关信息相当简短使得背景数据不足的情况下,本发明可利用搜索引擎的能力结合启发式演算器来检测编码格式,以节省运算资源的前提,提供更精确的估测结果与减低后续处理数据上的困扰,以提高使用者经验。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种编码格式检测方法,用以检测一文件的一识别标签的一编码格式,其特征在于,该方法包括下列步骤:
获取该识别标签内的信息,并聚集为一字符串;
使用多种编码格式检测该字符串所使用的该编码格式,以获得多个检测结果及各所述检测结果的一信心分数;
判断各所述检测结果的该信心分数是否大于一门限值;
当所有检测结果的该信心分数均不大于该门限值时,转码各所述检测结果为一通用编码格式;
利用一搜索引擎搜索转码后的各所述检测结果,设定一搜索次数最多的该检测结果对应的该编码格式为该识别标签的该编码格式;以及
当所述检测结果中的一或多个的该信心分数大于该门限值时,设定该信心分数最高的该检测结果对应的该编码格式为该识别标签的该编码格式。
2.根据权利要求1所述的编码格式检测方法,其特征在于,转码各所述检测结果为该通用编码格式,并利用该搜索引擎搜索转码后的各所述检测结果的步骤包括:
依据该信心分数排序所述检测结果;以及
选择排序在前的多个所述检测结果进行转码,并利用该搜索引擎搜索转码后的各所述检测结果。
3.根据权利要求1所述的编码格式检测方法,其特征在于,使用所述编码格式检测该字符串所使用的该编码格式的步骤包括:
利用一启发式检测器检测该字符串所使用的该编码格式。
4.根据权利要求1所述的编码格式检测方法,其特征在于,利用该搜索引擎搜索转码后的各所述检测结果的步骤包括:
以转码后的各所述检测结果做为一搜索关键字,利用搜索引擎进行搜索。
5.一种编码格式检测装置,用以检测一文件的一识别标签的一编码格式,其特征在于,该编码格式检测装置包括:
一标签获取模块,获取该识别标签内的信息,并聚集为一字符串;
一编码检测模块,使用多种编码格式用以检测该字符串所使用的该编码格式,以获得多个检测结果及各所述检测结果的一信心分数;
一信心分数判断模块,判断各所述检测结果的该信心分数是否大于一门限值;
一通用编码转换模块,当所有检测结果的该信心分数均不大于该门限值时,转码各所述检测结果为一通用编码格式;以及
一决策模块,利用一搜索引擎搜索转码后的各所述检测结果,设定一搜索次数最多的该检测结果对应的该编码格式为该识别标签的该编码格式,当所述检测结果中的一或多个的该信心分数大于该门限值时,该决策模块设定该信心分数最高的该检测结果对应的该编码格式为该识别标签的该编码格式。
6.根据权利要求5所述的编码格式检测装置,其特征在于,:
该通用编码转换模块依据该信心分数排序所述检测结果;以及
该决策模块选择排序在前的多个所述检测结果进行转码,并利用该搜索引擎搜索转码后的各所述检测结果。
7.根据权利要求5所述的编码格式检测装置,其特征在于,还包括:
一启发式检测器,用以检测该字符串所使用的该编码格式。
8.根据权利要求5所述的编码格式检测装置,其特征在于,该决策模块以转码后的各所述检测结果做为一搜索关键字,利用搜索引擎进行搜索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310179933.7A CN104156373B (zh) | 2013-05-15 | 2013-05-15 | 编码格式检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310179933.7A CN104156373B (zh) | 2013-05-15 | 2013-05-15 | 编码格式检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104156373A CN104156373A (zh) | 2014-11-19 |
CN104156373B true CN104156373B (zh) | 2017-06-06 |
Family
ID=51881878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310179933.7A Expired - Fee Related CN104156373B (zh) | 2013-05-15 | 2013-05-15 | 编码格式检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104156373B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105988977A (zh) * | 2015-02-16 | 2016-10-05 | 珠海金山办公软件有限公司 | 一种字符编码识别结果的显示方法和装置 |
CN105847931B (zh) * | 2016-03-28 | 2019-08-27 | 深圳Tcl新技术有限公司 | 字幕显示方法及装置 |
WO2018000338A1 (zh) * | 2016-06-30 | 2018-01-04 | 北京小米移动软件有限公司 | 编码格式确定方法及装置 |
CN106775909A (zh) * | 2016-11-22 | 2017-05-31 | 中国银行股份有限公司 | 一种java文件及字节流的编码格式的判断方法及装置 |
CN108123721B (zh) * | 2016-11-29 | 2022-01-11 | 展讯通信(上海)有限公司 | 编码方法及装置 |
CN109542774B (zh) * | 2018-11-02 | 2023-10-17 | 深圳平安医疗健康科技服务有限公司 | 脚本编码格式批量检测方法、装置、终端及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200603554A (en) * | 2004-07-09 | 2006-01-16 | Tsu-Chang Lee | Method and apparatus for adaptive multiple-dimensional signal sequences encoding/decoding |
US7148824B1 (en) * | 2005-08-05 | 2006-12-12 | Xerox Corporation | Automatic detection of character encoding format using statistical analysis of the text strings |
CN101800892A (zh) * | 2010-03-04 | 2010-08-11 | 青岛海信信芯科技有限公司 | 多媒体码流识别的方法和装置 |
CN102833543A (zh) * | 2012-08-16 | 2012-12-19 | 中央电视台 | 一种视音频媒体文件视频编码格式检测装置与方法 |
-
2013
- 2013-05-15 CN CN201310179933.7A patent/CN104156373B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200603554A (en) * | 2004-07-09 | 2006-01-16 | Tsu-Chang Lee | Method and apparatus for adaptive multiple-dimensional signal sequences encoding/decoding |
US7148824B1 (en) * | 2005-08-05 | 2006-12-12 | Xerox Corporation | Automatic detection of character encoding format using statistical analysis of the text strings |
CN101800892A (zh) * | 2010-03-04 | 2010-08-11 | 青岛海信信芯科技有限公司 | 多媒体码流识别的方法和装置 |
CN102833543A (zh) * | 2012-08-16 | 2012-12-19 | 中央电视台 | 一种视音频媒体文件视频编码格式检测装置与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104156373A (zh) | 2014-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104156373B (zh) | 编码格式检测方法及装置 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
US8843815B2 (en) | System and method for automatically extracting metadata from unstructured electronic documents | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
US20150113388A1 (en) | Method and apparatus for performing topic-relevance highlighting of electronic text | |
CN110569335B (zh) | 基于人工智能的三元组校验方法、装置及存储介质 | |
CN109726274A (zh) | 问题生成方法、装置及存储介质 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
WO2020074017A1 (zh) | 基于深度学习的医学文献中关键词筛选方法及装置 | |
CN107688541A (zh) | 文件评审方法、装置、服务器及计算机可读存储介质 | |
WO2022134355A1 (zh) | 基于关键词提示的检索方法、装置、电子设备及存储介质 | |
CN111488468A (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN118134422A (zh) | 文件内容审核的方法、装置、设备、存储介质及产品 | |
US20120005207A1 (en) | Method and system for web extraction | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN112949299A (zh) | 新闻稿件的生成方法及装置、存储介质、电子装置 | |
KR20190090636A (ko) | 문서 자동 편집 방법 | |
US10885045B2 (en) | Method and system for providing context-based response for a user query | |
CN109508390B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170606 |
|
CF01 | Termination of patent right due to non-payment of annual fee |