CN101034391A - 一种确定文本流字符集的方法及装置 - Google Patents

一种确定文本流字符集的方法及装置 Download PDF

Info

Publication number
CN101034391A
CN101034391A CN 200710098761 CN200710098761A CN101034391A CN 101034391 A CN101034391 A CN 101034391A CN 200710098761 CN200710098761 CN 200710098761 CN 200710098761 A CN200710098761 A CN 200710098761A CN 101034391 A CN101034391 A CN 101034391A
Authority
CN
China
Prior art keywords
character set
character
collection
text flow
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710098761
Other languages
English (en)
Inventor
蒋光泽
葛兵
徐鲁博
王黎晓
张跃华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LITONGWUXIAN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Original Assignee
LITONGWUXIAN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LITONGWUXIAN SCIENCE AND TECHNOLOGY Co Ltd BEIJING filed Critical LITONGWUXIAN SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority to CN 200710098761 priority Critical patent/CN101034391A/zh
Publication of CN101034391A publication Critical patent/CN101034391A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种确定文本流字符集的方法,包括:预设字符集集合,按字符集的编码范围对所述集合中的字符集进行排序;设置所述序列中的第一字符集为当前字符集;对所述文本流进行字符集转换,如果转换成功,则当前字符集为所述文本流的正确源字符集;如果转换失败,则执行下一步;判断当前字符集是否为所述集合中的最后一个字符集,如果不是,则设置当前字符集的下一个字符集为新的当前字符集,执行上一步。本发明还提供一种确定文本流字符集的装置。采用本发明提供的方法和装置,能够迅速确定接收到的文本流的源字符集,同时对于可能混淆的字符集能够进行二次确认,避免确认错误。

Description

一种确定文本流字符集的方法及装置
技术领域
本发明涉及字符检测技术,特别涉及一种确定文本流字符集的方法及装置。
背景技术
随着计算机网络和通信技术的发展,人们对互联网以及相关电子服务的使用越来越普遍,并且通过这些服务在不同地方持不同自然语言的人们之间的信息传输也越来越频繁。
然而,不同地方的不同语言的用户在计算机装置中使用着不同国家或地区规定的用于信息处理和传递的不同的字符集,各个国家和地区使用的字符集都不相同,甚至在一个国家或地区中也使用多种字符集。例如,在中国,使用的字符集包括EUC-CN、HZ、GBK、GB18030、EUC-TW、BIG5、CP950、BIG5-HKSCS、ISO-2022-CN、ISO-2022-CN-EXT等;在欧美国家,使用的字符集包括ASCII、ISO-8859、KOI8-R、KOI8-U、KOI8-RU、CP、Mac、Macintosh等;在日本,使用的字符集包括EUC-JP、SHIFT JIS、CP932、ISO-2022-JP、ISO-2022-JP-2、ISO-2022-JP-1等;在韩国,使用的字符集包括EUC-KR、CP949、ISO-2022-KR、JOHAB等。
在用户接收到文本流信息后,如果无法正常处理,就需要进行字符集转换。现有技术中在源字符集和目标字符集都确定的情况下,可以实现字符集的转换。但问题是在接收到文本流信息时,有些时候并不知道源文本流是什么字符集的,这样就无法进行字符集转换。如电子邮件收发过程:对每个用户来说,无论是在电脑桌面装置上,还是移动终端上接收邮件,本地装置能够识别并直接处理的字符集非常有限,如果不知道发送方发送的文本流的字符集,就无法转换成本地装置能够识别的字符集格式。
发明内容
有鉴于此,本发明实施例解决的技术问题是提供了一种确定文本流字符集的方法及装置,可以有效的确定文本流的未知源字符集格式。
为解决上述问题,本发明提供的技术方案如下:
一种确定文本流字符集的方法,包括:
预设字符集集合,按字符集的编码范围对所述集合中的字符集进行排序;
设置所述序列中的第一字符集为当前字符集;
对所述文本流进行字符集转换,如果转换成功,则当前字符集为所述文本流的正确源字符集;如果转换失败,则执行下一步;
判断当前字符集是否为所述集合中的最后一个字符集,如果不是,则设置当前字符集的下一个字符集为新的当前字符集,执行上一步;
其中,所述集合中的字符集按编码范围从小到大的顺序依次排列。
其中,通过以下步骤完成对所述文本流进行字符集的转换:
指定所述当前字符集为文本流的源字符集、字符集unicode为目的字符集;
调用libiconv函数库将文本流从当前字符集转换为字符集unicode。
其中,该方法进一步包括:
当字符集转换成功后,判断所述当前字符集与所述集合中的其他字符集的编码范围是否有重叠,如果有,则统计文本流落入与当前字符集编码范围有重叠的字符集的概率,根据概率最大值与预设值的比较结果判断文本流的正确源字符集;如果没有,则当前字符集为所述文本流的正确源字符集;
其中,通过以下步骤完成对文本流落入与当前字符集编码范围有重叠的字符集的概率统计:
调用libcharguess函数库统计所述文本流落入与当前字符集编码范围有重叠的字符集编码范围内的概率。
其中,通过以下步骤来完成文本流的正确源字符集的判断:
比较所述概率最大值与所述预设值的大小,如果所述概率最大值小于所述预设值,则所述文本流的正确源字符集为当前字符集;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中排序靠前的字符集。
本发明实施例还提供一种确定文本流字符集的方法,包括:
预设字符集集合,按字符集的编码范围对所述集合中的字符集进行排序;
统计文本流在所述集合中每个字符集的编码范围内的概率;
比较其中概率最大值与预设值的大小,如果所述概率最大值小于预设值,则报告此次确定过程失败;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中排序靠前的字符集;
其中,通过以下步骤完成文本流在所述集合中每个字符集的编码范围内的概率统计:
调用libcharguess函数库统计所述文本流在集合中每个字符集的编码范围内的概率。
基于上述方法,本发明实施例还提供一种确定文本流字符集的装置,包括:
预设单元,设置单元,转换单元,判断单元;
所述预设单元用于预设字符集集合,并按字符集的编码范围对所述集合中的字符集进行排序;
所述设置单元用于将预设单元排列的字符集序列中的第一字符集设置为当前字符集;按照判断单元的通知,将当前字符集的下一个字符集设置为新的当前字符集;
所述转换单元完成对所述文本流的字符集转换,如果转换成功,则确定当前字符集为所述文本流的正确源字符集;否则,通知判断单元执行相关操作;
所述判断单元用于判断当前字符集是否为所述集合中的最后一个字符集,如果不是,则通知设置单元设置当前字符集的下一个字符集为新的当前字符集,并通知转换单元执行相关操作。
其中,所述预设单元按字符集编码范围从小到大的顺序对字符集进行依次排序。
其中,所述转换单元还包括:指定单元,条件转换单元,转换结果判断单元;
所述指定单元用于指定所述当前字符集为文本流的源字符集、字符集unicode为目的字符集;
所述条件转换单元用于调用libiconv函数库将文本流从指定单元指定的源字符集转换为指定单元指定的目的字符集;
所述转换结果判断单元用于根据转换的结果判断转换是否成功。
其中,该装置进一步包括:条件判断单元,统计单元,结果判断单元;
所述条件判断单元用于在转换单元对字符集成功转换后,判断设置单元中设置的当前字符集与预设单元预设集合中的其他字符集的编码范围是否有重叠,如果有,则通知统计单元执行相关操作;如果没有,则通知设置单元所述当前字符集为所述文本流的正确源字符集;
所述统计单元用于按条件判断单元的通知调用libcharguess函数库统计文本流落入与当前字符集编码范围有重叠的字符集的概率;
所述结果判断单元用于判断概率最大值是否小于所述预设值,如果是,则确定所述文本流的正确源字符集为当前字符集;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中排序靠前的字符集。
基于上述方法,本发明实施例还提供一种确定文本流字符集的装置,该装置包括:
预设单元,条件统计单元,比较结果判断单元;
所述预设单元用于预设字符集集合,并按字符集的编码范围对所述集合中的字符集进行排序;
所述条件统计单元用于统计文本流在所述集合中每个字符集的编码范围内的概率;
所述结果判断单元用于比较条件统计单元统计的概率最大值是否小于预设值,如果是,则报告此次确定过程失败;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中排序靠前的字符集。
其中,所述条件统计单元进一步包括:用于调用libcharguess函数库统计所述文本流在集合中每个字符集的编码范围内的概率。
可以看出,本发明提供的方法及装置,是通过预设字符集集合并将集合中的字符集按一定规律进行排序,然后通过调用特定的函数库依次对集合中的字符集进行转换,最后由可以转换成功的字符集能够迅速确定接收到的文本流的源字符集;另外,为使结果更准确,本发明还检查确定的字符集是否与集合中的其他字符集有编码交叉,如果有,用统计概率方法进行进一步判断。
附图说明
图1是本发明实施例一的流程图;
图2是本发明实施例一中字符集的编码范围重叠示意图;
图3是本发明实施例二的流程图;
图4是本发明实施例三的示意图;
图5是本发明实施例三的二次确定过程示意图;
图6是本发明实施例四的示意图。
具体实施方式
下面,结合实施例1对本发明提供的确定文本流字符集的方法做进一步具体说明。图1是该方法的流程图。
在步骤101中,预设字符集集合,并按字符集的编码范围对集合中的字符集进行排序,其中,编码范围小的字符集排列在前,编码范围大的字符集排列在后。
在步骤102中,设置序列中的第一个字符集为当前字符集,即设置编码范围最小的字符集为当前字符集。
在步骤103中,指定当前字符集为文本流的源字符集、字符集unicode为文本流的目的字符集,调用libiconv函数库将文本流从当前字符集转换为字符集unicode。
在步骤104中,根据转换结果判断转换是否成功,如果转换成功,执行步骤107;否则,执行步骤105。
在步骤105中,判断当前字符集是否是集合中的最后一个字符集,如果是,则确定过程结束;否则,执行步骤106。
在步骤106中,设置当前字符集的下一个字符集为新的当前字符集,然后执行步骤103。
在步骤107中,确定当前字符集为文本流的源字符集。
由于有的字符集与其他字符集的编码范围有重叠,所以需要进行二次确定:当字符集转换成功后,判断当前字符集与集合中的其他字符集的编码范围是否有重叠:
如果有重叠,则调用libcharguess函数库统计文本流落入与当前字符集有重叠的字符集的概率,然后判断统计得到的概率值是否小于预设值,如果小于,则确定文本流的正确源字符集为当前字符集;否则,有两种情况,1.如果有多个字符集的概率值最大且相等,则认定这些字符集中在集合中排序靠前的字符集为文本流的正确源字符集;2.如果不小于预设值的概率值是唯一的,则确定此概率值对应的字符集为文本流的正确源字符集;
如果没有重叠,则确定当前字符集为文本流的正确源字符集。可以看出,此方法对于可能混淆的字符集能够进行二次确认,有效的避免了确认错误。
更具体的说,假设接收的文本流为“瀹磋  鎶ユ憡”,预设一个常用字符集集合,其中集合中包含有6个常用字符集,并按编码范围的大小对此集合中的字符集进行排序,如表1:
表1
序号 编码 第一个字节 第二个字节 第三个字节 第四个字节
1 ASCII 0x00~0x7F
2 UTF-8的双字节 0xC0~0xDF 0x80~BF
UTF-8的三字节 0xE0~0xEF~ 0x80~BF 0x80~BF
UTF-8的四字节 0xF0~0xF7 0x80~BF 0x80~BF 0x80~BF
3 BIG5 0xA1~0xF9 0x40~0x7E0xA1~0xFE
4 GB2312 0xB0~0xF7 0xA0~0xFE
5 GB18030的双字节 0x81~0xFE 0x40~0x7E0x80~0xFE
GB18030的四字节 0x81~0xFE 0x30~0x39 0x81~0xFE 0x30~0x39
6 ISO-8859-1 0x00~0xFF
按表1中的排序顺序,设置ASCII为当前字符集。
然后指定当前字符集即ASCII为“瀹磋  鎶ユ憡”的源字符集、unicode为“瀹磋  鎶ユ憡”的目的字符集,调用libiconv函数库对“瀹磋  鎶ユ憡”进行字符集转换,返回结果为“false”,则转换失败,说明ASCII不是“瀹磋鎶ユ憡”的正确源字符集。
再设置UTF-8为当前字符集,指定UTF-8为“瀹磋  鎶ユ憡”的源字符集、unicode为“瀹磋  鎶ユ憡”的目的字符集,再调用libiconv函数库进行字符集转换,返回结果为“true”,转换成功,说明UTF-8为“瀹磋  鎶ユ憡”的源字符集。
但由于UTF-8与BIG5、GB2132的编码范围有重叠,如图2,所以此次确定的源字符集有可能不准确,为使确定字符集的结果更为准确,要进行二次确定:预设门限值为95%,调用libcharguess函数库分别统计“瀹磋  鎶ユ憡”落入BIG5和GB2312编码范围内的概率,得到的概率值分别为33%和16%;由于“瀹磋  鎶ユ憡”落入BIG5和GB2312编码范围内的概率值小于门限值95%,所以可以确定“瀹磋  鎶ユ憡”的正确源字符集为UTF-8。
下面,结合实施例2对确定文本流字符集的方法做进一步具体说明,图3是该方法的流程图。
在步骤201中,预设字符集集合,并按字符集的编码范围对集合中的字符集进行排序,其中,编码范围小的字符集排列在前,编码范围大的字符集排列在后。
在步骤202中,调用libcharguess函数库统计文本流在集合中每个字符集的编码范围内的概率。
在步骤203中,比较统计得到的概率值中最大值与预设值的大小,并根据比较结果执行下一步骤。
在步骤204中,当所有概率值中的最大值小于预设值,则此次确定过程失败。
在步骤205中,判断不小于预设值的概率最大值是否唯一。
在步骤206中,如果不小于预设值的概率最大值不唯一,则确定这些概率最大值所对应的字符集中排序靠前的字符集为文本流的正确源字符集。
在步骤207中,如果不小于预设值的概率最大值唯一,则确定此最大概率值所对应的字符集为文本流的正确源字符集。
更具体的说,假设接收的文本流为“瀹磋  鎶ユ憡”,预设一个常用字符集集合,其中集合中包含有6个常用字符集,并按编码范围的大小对此集合中的字符集进行排序,如上表1。
预设一个门限值为95%,然后调用libcharguess函数库统计“瀹磋  鎶ユ憡”在集合中6个字符集的编码范围内的概率,依次得到的概率值为0%、100%、33%、16%、100%、100%,其中UTF-8、GB18030、ISO8859的概率值大于门限值95%,UTF-8的排序最靠前,所以确定“瀹磋  鎶ユ憡”的正确源字符集为UTF-8。
基于上述实施例一的方法,本发明还提供一种确定文本流字符集的装置,图4为该装置的示意图,该装置包括预设单元41、设置单元42、转换单元43和判断单元44。其中转换单元43包括指定单元431、条件转换单元432和转换结果判断单元433。
通过预设单元41预设字符集集合,并按字符集集合的编码范围对集合中的字符集进行排序,其中,编码范围小的字符集排列在前,编码范围大的字符集排列在后。利用设置单元42将预设单元41排列的字符集序列中的第一字符集设置为当前字符集,或者在接到判断单元44的通知时,将当前字符集的下一个字符集设置为新的字符集。
当设置单元42设置完当前字符集后,转换单元43对文本流进行字符集转换,如果转换成功,则确定当前字符集为文本流的正确源字符集;否则,通知判断单元44执行相关操作。
其中,转换单元43对文本流进行字符集转换是先通过指定单元431指定当前字符集为文本流的源字符集、字符集unicode为目的字符集,然后条件转换单元432调用libciconv函数库将文本流从指定单元431指定的源字符集转换为目的字符集,再有转换结果判断单元433判断返回结果是否是true,如果结果为true,则说明转换成功,否则,说明转换失败。
当判断单元44接收到转换单元43的通知后,判断当前字符集是否为集合中的最后一个字符集,如果是,则此次确定过程失败;如果不是,则通知设置单元42设置当前字符集的下一个字符集为新的当前字符集,再由后续单元完成相应操作。
考虑到该装置确定的文本流的源字符集有可能不准确,所以该装置还可以包括条件判断单元45、统计单元46和结果判断单元47,以完成字符集的二次确定,如图5。
在转换单元43对文本流的字符集的转换成功并确定文本流的源字符集后,通知条件判断单元45进行后续操作。条件判断单元45接到转换单元43的通知后,判断设置单元42中设置的当前字符集与预设单元41中的其他字符集的编码范围是否有重叠,如果有,则通知统计单元46执行相关操作;否则,确定当前字符集为文本流的正确字符集。
在接收到条件判断单元45的通知后,统计单元46调用libcharguess函数库统计文本流落入与当前字符集编码范围有重叠的字符集的概率。
在统计单元46统计完概率后,结果判断单元47判断统计单元46统计的概率最大值是否小于预设值,如果是,则确定当前字符集为文本流的正确源字符集;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中在排序靠前的字符集。
基于上述实施例二的方法,本发明还提供一种确定文本流字符集的装置,图6为该装置的示意图,该装置包括预设单元41、条件统计单元62和比较结果判断单元63。
通过预设单元41预设字符集集合,并按字符集集合的编码范围对集合中的字符集进行排序,其中,编码范围小的字符集排列在前,编码范围大的字符集排列在后。
利用条件统计单元62统计文本流在集合中每个字符集的编码范围内的概率;例如:条件统计单元62是通过调用libcharguess函数库来实现统计文本流在集合中每个字符集的编码范围内的概率的。
在条件统计单元62统计完概率后,比较结果判断单元63判断条件统计单元62统计的概率最大值是否小于预设值,如果是,则报告此次确定过程失败;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中在排序靠前的字符集。
以上所述的实施例仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种确定文本流字符集的方法,其特征在于,该方法包括:
A.预设字符集集合,按字符集的编码范围对所述集合中的字符集进行排序;
B.设置所述序列中的第一字符集为当前字符集;
C.对所述文本流进行字符集转换,如果转换成功,则当前字符集为所述文本流的正确源字符集;否则,
D.判断当前字符集是否为所述集合中的最后一个字符集,如果不是,设置当前字符集的下一个字符集为新的当前字符集,转步骤C。
2.根据权利要求1所述的方法,其特征在于:
所述集合中的字符集按编码范围从小到大的顺序依次排列。
3.根据权利要求1所述的方法,其特征在于,通过以下步骤完成对所述文本流进行字符集的转换:
指定所述当前字符集为文本流的源字符集、字符集unicode为目的字符集;
调用libiconv函数库将文本流从当前字符集转换为字符集unicode。
4.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
当字符集转换成功后,判断所述当前字符集与所述集合中的其他字符集的编码范围是否有重叠,如果有,则统计文本流落入与当前字符集有重叠的字符集的概率,根据概率最大值与预设值的比较结果判断文本流的正确源字符集;如果没有,则当前字符集为所述文本流的正确源字符集。
5.根据权利要求4所述的方法,其特征在于,通过以下步骤完成对文本流落入与当前字符集编码范围有重叠的字符集的概率统计:
调用libcharguess函数库统计所述文本流落入与当前字符集编码范围有重叠的字符集编码范围内的概率。
6.根据权利要求4所述的方法,其特征在于,通过以下步骤来完成文本流的正确源字符集的判断:
判断所述概率最大值是否小于所述预设值,如果是,则所述文本流的正确源字符集为当前字符集;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中排序靠前的字符集。
7.一种确定文本流字符集的方法,其特征在于,该方法包括:
预设字符集集合,按字符集的编码范围对所述集合中的字符集进行排序;
统计文本流在所述集合中每个字符集的编码范围内的概率;
判断概率最大值是否小于所述预设值,如果是,则报告此次确定过程失败;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中在排序靠前的字符集。
8.根据权利要求7所述的方法,其特征在于,通过以下步骤完成文本流在所述集合中每个字符集的编码范围内的概率统计:
调用libcharguess函数库统计所述文本流在集合中每个字符集的编码范围内的概率。
9.一种采用权利要求1所述方法的确定文本流字符集的装置,其特征在于,包括:
预设单元、设置单元、转换单元和判断单元;
所述预设单元用于预设字符集集合,并按字符集的编码范围对所述集合中的字符集进行排序;
所述设置单元用于将预设单元排列的字符集序列中的第一字符集设置为当前字符集;按照判断单元的通知,将当前字符集的下一个字符集设置为新的当前字符集;
所述转换单元完成对所述文本流的字符集转换,如果转换成功,则确定当前字符集为所述文本流的正确源字符集;否则,通知判断单元执行相关操作;
所述判断单元用于判断当前字符集是否为所述集合中的最后一个字符集,如果不是,则通知设置单元设置当前字符集的下一个字符集为新的当前字符集。
10.根据权利要求9所述的装置,其特征在于:
所述预设单元按字符集编码范围从小到大的顺序对字符集进行依次排序。
11.根据权利要求9所述的装置,其特征在于,所述转换单元包括:指定单元、条件转换单元和转换结果判断单元;
所述指定单元用于指定所述当前字符集为文本流的源字符集、字符集unicode为目的字符集;
所述条件转换单元用于调用libiconv函数库将文本流从指定单元指定的源字符集转换为指定单元指定的目的字符集;
所述转换结果判断单元用于根据转换的结果判断转换是否成功。
12.根据权利要求9所述的装置,其特征在于,该装置进一步包括:条件判断单元、统计单元和结果判断单元;
所述条件判断单元用于在转换单元对字符集成功转换后,判断设置单元中设置的当前字符集与预设单元预设集合中的其他字符集的编码范围是否有重叠,如果有,则通知统计单元执行相关操作;如果没有,则确定所述当前字符集为所述文本流的正确源字符集;
所述统计单元用于按条件判断单元的通知调用libcharguess函数库统计文本流落入与当前字符集编码范围有重叠的字符集的概率;
所述结果判断单元用于判断概率最大值是否小于所述预设值,如果是,则确定所述文本流的正确源字符集为当前字符集;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中排序靠前的字符集。
13.一种采用权利要求7所述方法的确定文本流字符集的装置,其特征在于,该装置包括:
预设单元、条件统计单元和比较结果判断单元;
所述预设单元用于预设字符集集合,并按字符集的编码范围对所述集合中的字符集进行排序;
所述条件统计单元用于统计文本流在所述集合中每个字符集的编码范围内的概率;
所述结果判断单元用于比较条件统计单元统计的概率最大值是否小于预设值,如果是,则报告此次确定过程失败;否则,如果概率最大值唯一时文本流的正确源字符集为此概率最大值对应的字符集,概率最大值不唯一时文本流的正确源字符集为这些字符集中排序靠前的字符集。
14.根据权利要求13所述的装置,其特征在于,所述条件统计单元进一步包括:
所述条件统计单元用于调用libcharguess函数库统计所述文本流在集合中每个字符集的编码范围内的概率。
CN 200710098761 2007-04-26 2007-04-26 一种确定文本流字符集的方法及装置 Pending CN101034391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710098761 CN101034391A (zh) 2007-04-26 2007-04-26 一种确定文本流字符集的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710098761 CN101034391A (zh) 2007-04-26 2007-04-26 一种确定文本流字符集的方法及装置

Publications (1)

Publication Number Publication Date
CN101034391A true CN101034391A (zh) 2007-09-12

Family

ID=38730952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710098761 Pending CN101034391A (zh) 2007-04-26 2007-04-26 一种确定文本流字符集的方法及装置

Country Status (1)

Country Link
CN (1) CN101034391A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194503A (zh) * 2010-03-12 2011-09-21 腾讯科技(深圳)有限公司 一种播放器及字幕文件的字符编码检测方法和装置
CN102567293A (zh) * 2010-12-13 2012-07-11 汉王科技股份有限公司 文本文件的编码格式探测方法和装置
CN101876965B (zh) * 2009-04-30 2012-08-08 国际商业机器公司 用于对文本进行处理的方法和系统
CN104516862A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其系统
CN104750666A (zh) * 2015-03-12 2015-07-01 明博教育科技有限公司 一种文本字符编码方式的识别方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876965B (zh) * 2009-04-30 2012-08-08 国际商业机器公司 用于对文本进行处理的方法和系统
CN102194503A (zh) * 2010-03-12 2011-09-21 腾讯科技(深圳)有限公司 一种播放器及字幕文件的字符编码检测方法和装置
CN102194503B (zh) * 2010-03-12 2014-08-27 腾讯科技(深圳)有限公司 一种播放器及字幕文件的字符编码检测方法和装置
CN102567293A (zh) * 2010-12-13 2012-07-11 汉王科技股份有限公司 文本文件的编码格式探测方法和装置
CN102567293B (zh) * 2010-12-13 2015-05-20 汉王科技股份有限公司 文本文件的编码格式探测方法和装置
CN104516862A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其系统
CN104516862B (zh) * 2013-09-29 2018-05-01 北大方正集团有限公司 一种选择读取目标文档的编码格式的方法及其系统
CN104750666A (zh) * 2015-03-12 2015-07-01 明博教育科技有限公司 一种文本字符编码方式的识别方法及系统
CN104750666B (zh) * 2015-03-12 2018-08-07 明博教育科技有限公司 一种文本字符编码方式的识别方法及系统

Similar Documents

Publication Publication Date Title
CN101034391A (zh) 一种确定文本流字符集的方法及装置
CN1816170A (zh) 短信收发的编码转换方法及其应用的网络设备
CN1653748A (zh) 在多点通信系统中的选择性服务方法
CN1075563A (zh) 多字节字符串字符的互换代码转换的改进方法
CN101068345A (zh) 视频监控方法和系统以及网络传输设备
CN1350758A (zh) 便于多模式多导频硬切换的方法和系统
CN1812397A (zh) 网管接口适配器及信息交互的方法
CN1507172A (zh) 通信系统、通信方法及移动台
CN1780297A (zh) 电子数据交换设备
CN1835625A (zh) 一种传输格式盲检测的方法
CN1863210A (zh) 设备扫描方法
CN101034969A (zh) 指示终端发送数据所采用的分组数据信道的方法
CN1581722A (zh) 一种数字信号处理器(dsp)的动态分配方法
CN1645300A (zh) 通信终端设备,接收设备及其方法
CN1492359A (zh) 一种多关键字自动状态机查找匹配方法
CN1487769A (zh) 用于预览电子邮件的便携式终端设备和方法
CN1852472A (zh) 一种短信群发的方法及短信群发平台
CN1794859A (zh) 一种实现多媒体组播广播业务去激活的方法
CN1859268A (zh) 一种后台进行正反向解析报文的方法和系统
CN1713588A (zh) 网络系统中处理告警数据的方法及装置
CN1652110A (zh) 对于任意ip范围配置的快速规则查找
CN1863021A (zh) 无线通信系统中的码道分配方法和多用户检测方法
CN1852603A (zh) 高速下行分组接入准入判决方法及其装置
CN1581989A (zh) 一种支持mm版权保护的mms实现方法
CN1278521C (zh) 实现综合业务数据网用户部分多国适配的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070912