CN101131690B - 简体汉字和繁体汉字相互转换方法及其系统 - Google Patents
简体汉字和繁体汉字相互转换方法及其系统 Download PDFInfo
- Publication number
- CN101131690B CN101131690B CN2006101115101A CN200610111510A CN101131690B CN 101131690 B CN101131690 B CN 101131690B CN 2006101115101 A CN2006101115101 A CN 2006101115101A CN 200610111510 A CN200610111510 A CN 200610111510A CN 101131690 B CN101131690 B CN 101131690B
- Authority
- CN
- China
- Prior art keywords
- word
- term
- simplified
- hanzi
- mapping table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Controls And Circuits For Display Device (AREA)
- Machine Translation (AREA)
Abstract
简体和繁体汉字相互转换的系统及方法。把将要被转换的简体/繁体汉字字符串划分成若干个词语/术语,并且把每一个词语/术语鉴别-定义为:其中在标记形式上与繁体/简体汉字的词语/术语相同或虽然不同但具有确定对应关系的第一类词语/术语、以及在标记形式上与繁体/简体汉字的词语/术语不同且不具有确定对应关系的简体/繁体汉字的第二类词语/术语。采用映射表将第一类词语/术语直接映射成与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语。采用统计分类方法将第二类词语/术语转换成与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语。将采用映射表方法和采用统计分类方法而得到的结果进行组合并输出。
Description
技术领域
本发明涉及一种中文字符的转换方法及其系统,尤其涉及一种简体汉字和繁体汉字相互转换方法及其系统。更具体地说,本发明涉及一种采用数据表映射技术与数据统计处理技术相结合来实现简体汉字和繁体汉字相互转换的方法及其系统。
背景技术
由于中国政府实行的汉字简化工作,在实现原有的汉字(下称繁体汉字)简化而使得汉字的推广和教育/教学获得进步的同时,也造成了汉字存在简体和繁体两种书写形式客观现实。例如在中国大陆和新加坡,虽然也偶见使用繁体汉字的场合,但是在绝大多数情况下都是使用简体汉字;而在中国的台湾、香港和澳门地区受教育和长大的华人,则多数几乎不能完全认识被简化的汉字而完全使用着原有的繁体字。
因此,为了让上述简体汉字使用区和繁体汉字使用区的人们能够完全相互读懂对方所书写的汉语,则需要对于书写的汉语中使用的简体字和繁体字不一样的汉字进行正确的转换。这种不一样包括以下两个方面。
第一方面是在从简体到繁体(或从繁体到简体)的转换过程中出现的一字对多字(以下简称“一对多”)的问题。例如,简体汉字的“发”可以对应于繁体汉字的“髪”和“發”两种选择,因此在不同的词汇中应该使用不同的繁体汉字“髪”和“發”,例如简体汉字“头发”应该转换为繁体汉字“頭髪”,而简体汉字“发展”应该转换为繁体汉字“發展”。
第二方面是在从简体到繁体(或从繁体到简体)的转换过程中出现的同一个字/词彼此叫法不同的问题。例如简体汉字中的“计算机软件”应该转换为繁体汉字中的“電腦軟體”,简体汉字中的“星期”应该转换为繁体汉字中的“禮拜”。
在已有技术中已经存在对于简体汉字和繁体汉字进行转换的技术。例如在中国专利公开CN1369833和CN1462966中都公开了简体汉字和繁体汉字相互转换的技术。这些专利文件全文结合在此作为参考。
在通常的情况下,简体和繁体汉字的相互转换是在GBK编码的简体字和BIG5编码的繁体字之间的相互转换。总结上述的已有技术中实施的简、繁体汉字的相互转换方案包括以下三种情况。
1.通过内码转换完成基于内码映射表的字到字的转换。字到字是指以字为单位进行转换,而基于内码映射表是指通过查找繁体→(“→”表示“到”,下同)简体(简体→繁体)汉字映射表将繁体(简体)汉字转换与之对应的简体(繁体)汉字。
例如,将BIG5编码的繁体汉字“國”转换为GBK编码的简体汉字“国”,处理过程是通过查找繁体→简体汉字映射表把该汉字的内码BOEA转换为B9FA;反之,在简繁转换中,则是通过查找简体→繁体汉字映射表把该汉字的将内码B9FA转换为BOEA。
内码转换的优点在于:(1)实现简单,只需要有繁体→简体(简体→繁体)汉字映射表即可;(2)转换效率高,只需内码转换一步处理。
内码转换的缺点在于转换准确率低。由于映射表将每个繁体(简体)体汉字对应到唯一的简体(繁体)体汉字形,所以这种转换只能正确地处理一字对一字(以下简称“一对一”)映射的情况。而对于一对多映射的字,除了收入到映射表中的转换字外,其他可能的转换字被忽略了,这就不能保证转换的准确性。例如,在正确的转换下,简体的“头发”对应到繁体的“頭髮”;但按照采用内码的简体→繁体汉字映射表进行简体到繁体的转换时,由于简体字“发”全部被转换为繁体字“發”,“头发”被错误得转换为“頭發”。因此就造成了转换准确率低的问题。
2.通过词级转换完成基于词级映射表的词到词的转换。词到词的转换。词到词 是指以词为单位进行转换,基于词级映射表是指通过查找简体→繁体(繁体→简体)词级映射表完成转换。这个映射表的表项应该包括所有的汉语词语,其中不仅包括双汉字组成的词语,也包括单汉字的词语和三个汉字以上的词语。
转换过程中,首先将需要被转换的汉字串分成若干词,然后通过查找简体→繁体(繁体→简体)词级映射表以词为单位完成转换。例如,对简体字符串“梳头发”进行转换,首先将其分为单字词语“梳”和双字词语“头发”,然后在简体→繁体词级映射表中分别查找这两个词语,分别转换为繁体词语“梳”和“頭髮”,得到转换结果“梳頭髮”。繁体→简体转换的过程与之类似。
词级转换的优点在于:(1)可以较准确处理一对多映射汉字的转换;(2)只需一张映射表即可同时处理简体→繁体转换和繁体→简体转换;(3)转换效率较高,只需词语转换一步处理。
词级转换的缺点在于:(1)对于系统分词性能的要求很高,一旦分词发生错误,就很容易造成最终转换结果的错误。(2)简体→繁体和繁体→简体的词级映射表的构造比较困难。中文中的词语以数十万计,要完成这样规模的词表开销很大。并且由于词集是一个开放集,每天都有新的词产生;并且不能保证所有的人名、地名以及机构名都包含在词表中。(3)对于某些简体→繁体和繁体→简体的一对多映射的字仍然不能保证转换的准确性。比如存在一对多映射的姓氏等。
3.通过术语转换完成基于术语映射表的术语到术语的转换。在此提到的“术语”是对于“词”的广义的解释,本质上还是以词为单位进行转换,但是有时在简体和繁体汉字体系中的相互对应的术语在发音和形体上可以没有同一性,即,可以不存在按字对应的关系。举例来说,简体汉字中的术语“计算机”对应繁体汉字中的“電腦”、简体汉字中的“星期”应该转换为繁体汉字中的“禮拜”等等。虽然所指的术语概念上完全相同,但也可以基于词语映射表通过查找简体→繁体(繁体→简体)词语映射表来完成转换。
术语转换过程与词级转换类似,且简体→繁体术语映射表和简 体→繁体词级映射表在形式上很相似。区别仅在于词级映射中的简体和繁体词语是按字对应的,简体汉字的词语中的每个字对应到繁体词语中相应位置上的字;而术语映射中的简体和繁体词语是在语义的层次上对应的,词语间不一定存在按字对应的关系。
术语转换的优点在于:(1)可以在语义一级处理汉字简体和繁体的相互转换;(2)只需一张映射表即可同时处理简体→繁体转换和繁体→简体转换。
术语转换的缺点在于:(1)对于系统“分词”(对于句子中的“词”的划定)能力的要求很高,一旦分词发生错误,就很容易造成最终转换结果的错误。(2)简体→繁体术语映射表的构造比较困难。首先简体→繁体术语映射表必须像繁体→简体术语映射表一样包含所有的中文词语;另外,这个表需要对中文和外文专有名词进行处理,否则也会引起转换错误。专有名词包括姓名、地名以及机构名等。
因此,在上所述简体和繁体相互转换中,除了特殊的术语外,基本问题就是如何解决转换中字的一对多的映射问题。虽然这个问题能够以词的形式在一定程度上得到解决,如通过词级转换来解决,但是其映射表的庞大和繁杂将使得这种解决方案的进一步完善很困难。而内码转换显然是回避了庞大和繁杂的映射表的问题,但是其转换精确度低下。
因而需要一种新的汉字繁体和简体相互转换的方法和系统,在保证足够的转换精确度的条件下而不使得映射表过大。
发明内容
本发明旨在以最简单的映射表来解决汉字的简体和繁体相互转换,并且保证足够的转换精确度。特别旨在解决简体和繁体相互转换中的汉字的一(字/词)对多(字/词)的映射问题。根据本发明的第一实施例提供一种简体汉字和繁体汉字之间进行相互转换的系统,该系统包括:
输入部分,输入将要被转换的简体/繁体汉字字符串;
词语/术语划分部分,将输入的简体/繁体汉字字符串划分成若 干个词语/术语;
鉴别-定义部分,鉴别-定义该输入的简体/繁体汉字字符串中的每一个词语/术语,将其中在标记形式上与繁体/简体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体/繁体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与繁体/简体汉字的词语/术语不同且不具有确定对应关系的简体/繁体汉字的词语/术语定义为第二类词语/术语;
映射转换部分,采用映射表将该第一类词语/术语直接映射成与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语;
统计转换部分,采用统计分类方法将第二类词语/术语转换成与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语;
组合输出部分,把采用映射表对该第一类词语/术语直接映射而得到的与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语进行组合,形成与将要被转换的简体/繁体汉字字符串对应的繁体/简体汉字字符串,并将其输出。
在本发明的第一实施例中,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
在本发明的第一实施例中,其中所使用的映射表包括简体/繁体汉字→繁体/简体汉字用户词语/术语映射表、简体/繁体汉字→繁体/简体汉字系统词语/术语映射表、简体/繁体汉字→繁体/简体汉字映射表、简体/繁体汉字→繁体/简体汉字一对多映射表。
在本发明的第一实施例中,其中采用的统计方法可以非局限地例如是朴素贝叶斯统计方法。
根据本发明的第二实施例提供一种简体汉字和繁体汉字之间进行相互转换的方法,包括步骤:
输入将要被转换的简体/繁体汉字字符串;
将输入的简体/繁体汉字字符串划分成若干个词语/术语;
鉴别-定义该输入的简体/繁体汉字字符串中的每一个词语/术语,将其中在标记形式上与繁体/简体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体/繁体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与繁体/简体汉字的词语/术语不同且不具有确定对应关系的简体/繁体汉字的词语/术语定义为第二类词语/术语;
采用映射表将该第一类词语/术语直接映射成与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语;
采用统计分类方法将第二类词语/术语转换成与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语;
把采用映射表对该第一类词语/术语直接映射而得到的与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语进行组合,形成与将要被转换的简体/繁体汉字字符串对应的繁体/简体汉字字符串,并将其输出。
在本发明的第二实施例中,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
在本发明的第二实施例中,其中所使用的映射表包括用户词语/术语映射表、系统词语/术语映射表、简体/繁体汉字→繁体/简体汉字映射表、简体/繁体汉字→繁体/简体汉字一对多映射表。
在本发明的第二实施例中,其中采用的统计方法可以非局限地例如是朴素贝叶斯统计方法。
根据本发明的第三实施例提供一种将简体汉字转换成繁体汉字的转换系统,该系统包括:
输入部分,输入将要被转换的简体汉字字符串;
词语/术语划分部分,将输入的简体汉字字符串划分成若干个词语/术语;
鉴别-定义部分,鉴别-定义该输入的简体汉字字符串中的每一 个词语/术语,将其中在标记形式上与繁体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与繁体汉字的词语/术语不同且不具有确定对应关系的简体汉字的词语/术语定义为第二类词语/术语;
映射转换部分,采用映射表将该第一类词语/术语直接映射成与输入的简体汉字的词语/术语唯一对应的繁体汉字的词语/术语;
统计转换部分,采用统计分类方法将第二类词语/术语转换成与输入的简体汉字的词语/术语合理对应的繁体汉字的词语/术语;
组合输出部分,把采用映射表对该第一类词语/术语直接映射而得到的与输入的简体汉字的词语/术语唯一对应的繁体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的简体汉字的词语/术语合理对应的繁体汉字的词语/术语进行组合,形成与将要被转换的简体汉字字符串对应的繁体汉字字符串,并将其输出。
在本发明的第三实施例中,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
在本发明的第三实施例中,其中所使用的映射表包括用户简体→繁体词语/术语映射表、系统简体→繁体词语/术语映射表、简体→繁体汉字映射表、简体→繁体汉字一对多映射表。
在本发明的第三实施例中,其中采用的统计方法可以非局限地例如是朴素贝叶斯统计方法。
根据本发明的第四实施例提供一种将简体汉字转换成繁体汉字的转换方法,包括步骤:
输入将要被转换的简体汉字字符串;
将输入的简体汉字字符串划分成若干个词语/术语;
鉴别-定义该输入的简体汉字字符串中的每一个词语/术语,将其中在标记形式上与繁体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与繁体汉字的词语/术语不同且不具有确定对应关系的简体汉字的词语/术语定义为第二类词语/术语;
采用映射表将该第一类词语/术语直接映射成与输入的简体汉字的词语/术语唯一对应的繁体汉字的词语/术语;
采用统计分类方法将第二类词语/术语转换成与输入的简体汉字的词语/术语合理对应的繁体汉字的词语/术语;
把采用映射表对该第一类词语/术语直接映射而得到的与输入的简体汉字的词语/术语唯一对应的繁体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的简体汉字的词语/术语合理对应的繁体汉字的词语/术语进行组合,形成与将要被转换的简体汉字字符串对应的繁体汉字字符串,并将其输出。
在本发明的第四实施例中,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
在本发明的第四实施例中,其中所使用的映射表包括用户简体→繁体词语/术语映射表、系统简体→繁体词语/术语映射表、简体→繁体汉字映射表、简体→繁体汉字一对多映射表。
在本发明的第四实施例中,其中采用的统计方法可以非局限地例如是朴素贝叶斯统计方法。
根据本发明的第五实施例提供一种将繁体汉字转换成简体汉字的转换系统,该系统包括:
输入部分,输入将要被转换的繁体汉字字符串;
词语/术语划分部分,将输入的繁体汉字字符串划分成若干个词语/术语;
鉴别-定义部分,鉴别-定义该输入的繁体汉字字符串中的每一个词语/术语,将其中在标记形式上与简体汉字的词语/术语相同或虽然不同但具有确定对应关系的繁体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与简体汉字的词语/术语不同且不具有确定对应关系的繁体汉字的词语/术语定义为第二类词语/术语;
映射转换部分,采用映射表将该第一类词语/术语直接映射成与输入的繁体汉字的词语/术语唯一对应的简体汉字的词语/术语;
统计转换部分,采用统计分类方法将第二类词语/术语转换成与输入的繁体汉字的词语/术语合理对应的简体汉字的词语/术语;
组合输出部分,把采用映射表对该第一类词语/术语直接映射而得到的与输入的繁体汉字的词语/术语唯一对应的简体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的繁体汉字的词语/术语合理对应的简体汉字的词语/术语进行组合,形成与将要被转换的繁体汉字字符串对应的简体汉字字符串,并将其输出。
在本发明的第五实施例中,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
在本发明的第五实施例中,其中所使用的映射表包括繁体→简体用户词语/术语映射表、繁体→简体系统词语/术语映射表、繁体→简体汉字映射表、繁体→简体汉字一对多映射表和异体字映射表。
在本发明的第五实施例中,其中采用的统计方法可以非局限地例如是朴素贝叶斯统计方法。
根据本发明的第六实施例提供一种将繁体汉字转换成简体汉字的转换方法,包括步骤:
输入将要被转换的繁体汉字字符串;
将输入的繁体汉字字符串划分成若干个词语/术语;
鉴别-定义该输入的繁体汉字字符串中的每一个词语/术语,将其中在标记形式上与简体汉字的词语/术语相同或虽然不同但具有确定对应关系的繁体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与简体汉字的词语/术语不同且不具有确定对应关系的繁体汉字的词语/术语定义为第二类词语/术语;
采用映射表将该第一类词语/术语直接映射成与输入的繁体汉字的词语/术语唯一对应的简体汉字的词语/术语;
采用统计分类方法将第二类词语/术语转换成与输入的繁体汉字的词语/术语合理对应的简体汉字的词语/术语;
把采用映射表对该第一类词语/术语直接映射而得到的与输入的繁体汉字的词语/术语唯一对应的简体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的繁体汉字的词语/术语合理对应的简体汉字的词语/术语进行组合,形成与将要被转 换的繁体汉字字符串对应的简体汉字字符串,并将其输出。
在本发明的第六实施例中,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
在本发明的第六实施例中,其中所使用的映射表包括用户繁体→简体词语/术语映射表、系统繁体→简体词语/术语映射表、繁体→简体汉字映射表、繁体→简体汉字一对多映射表和异体字映射表。
在本发明的第六实施例中,其中采用的统计方法可以非局限地例如是朴素贝叶斯统计方法。
附图说明
下面将参照附图对本发明进行详细的说明,其中:
图1是根据本发明一个实施例的简体汉字和繁体汉字之间进行相互转换的系统的示意框图。
图2是根据本发明另一个实施例的一种将简体汉字转换成繁体汉字的转换系统的示意图,它可以认为是图1实施例的转换系统的一个子系统。
图3是图2所示实施例的操作流程图。
图4是根据本发明再一个实施例的一种将繁体汉字转换成简体汉字的转换系统的示意图,它可以认为是图1实施例的转换系统的一个子系统。
图5是图4所示实施例的操作流程图。
应该说明,这些附图和流程图意在反映本发明实施例构思而无意将本发明限制到具体形式。事实上,在参照附图理解了随后的实施例的具体描述之后,本专业的技术人员可对于本发明的上述系统的各个部分的功能进行重新分配或将不同部分的功能进行顺序的交换、拆解、合并、通过计算机硬件和软件的单独操作或结合操作来实现本发明的设计思想的局部或全部,而这些修改都不脱离本发明的本质和范围。
具体实施方式
图1是根据本发明一个实施例的简体汉字和繁体汉字之间进行相互转换的系统的示意框图。该图反映了本发明的总体构思和与实际应用场合相结合的情况。
如图所示,根据本发明的简体汉字和繁体汉字进行相互转换的系统100包括作为系统核心的转换处理器101、输入装置102和输出装置103。
作为输入装置的例子,图1中示出了复印机1021、传真机1022、照相机1023、外部存储器1024、网络装置1025以及输入键盘102n等。实际上,只要最终能够将文本格式的中文简体或繁体字符串输入到转换处理器101的任何装置都可以作为输入装置来使用。在同一个时刻,由这些装置的任意之一通过复用器(没示出)对转换处理器101提供原始信号。
应该理解到,例如复印机1021的某些输入装置在操作(例如光学扫描)之后产生的信号并非为字符文本信号。此时应该通过必要的处理(例如OCR识别处理)将非字符文本信号转变成字符文本信号后再提供到转换处理器101。这些内容并非本发明的核心并且属于本专业技术人员的公知常识,因此不再赘述。
作为输出装置的例子,图1中示出了打印机1031、传真机1032、外部存储器1034、网络装置1034以及显示装置103n等。通过复用器(没示出),转换处理器101把经过转换的字符文本输出到这些输出装置的一个或多个。
如图1所示,转换处理器包括中文简体到繁体转换子系统200和中文繁体到简体转换子系统400以及内部存储器104。其中的中文简体到繁体转换子系统200和中文繁体到简体转换子系统400的每一个都可以单独存在而使得图1的系统成为单向的中文简体到繁体或中文繁体到简体的转换系统。在调入到内部存储器104中的控制程序的控制下,中文简体到繁体转换子系统200或中文繁体到简体转换子系统400进行操作来对从输入装置102的字符串进行转换。实际上,系统100何时作为中文简体到繁体转换子系统200或何时作为中文繁体到简体转换子系统400来操作,既可以根据用户的指令来决定,也 可以根据从输入装置102输入到转换处理器的汉字字符串的性质来自动地决定。内部存储器104还存储产生的中间数据和必要的数据库文件。
将要被转换的中文字符串从输入装置102经接口/多路开关(没示出)输入到中文简体到繁体转换子系统200或中文繁体到简体转换子系统400。并且把经过转换的结果字符串送到到输出装置。通过下面参照附图2和3的用于把简体汉字转换成繁体汉字的转换系统及其操作流程的描述和参照附图4和5的用于把繁体汉字转换成简体汉字的转换系统及其操作流程的描述,可以最终获得对于图1所示的在简体汉字和繁体汉字之间进行相互转换的系统100的清楚理解。
下面参照图2描述作为本发明的一个实施例的把简体汉字转换成繁体汉字的转换系统200。
如图2所示,把简体汉字转换成繁体汉字的转换系统200包括:转换部分201、数据输入部分202、输出部分203、词语/术语划分部分204、鉴别-定义部分205。其中的转换部分201中包括简体→繁体词语/术语转换部分206、GBK简体编码→GBK繁体编码转换部分207和GBK编码→BIG5编码转换部分208。在操作上,鉴别-定义部分205、简体→繁体词语/术语转换部分206与用户简体→繁体词语/术语映射表209和系统简体→繁体词语/术语映射表210相联系;GBK简体编码→GBK繁体编码转换部分207与简体→繁体一对多字映射表211、统计数据212、简体→繁体_GBK汉字映射表213和简体→繁体一对多词映射表214相联系,而GBK编码→BIG5编码转换部分208与BIG5→GBK编码转换表215相联系。
输入部分202把将要被转换的简体汉字字符串,例如SC编码的简体汉字数据流输入到词语/术语划分部分204中。
根据控制词语/术语划分的规则,词语/术语划分部分204把输入的简体汉字字符串划分成一个或若干词语/术语,即“抽出”构成简体汉字字符数据流的各个词语(术语)。划分后形成的词语/术语可以由一个或若干简体汉字字符构成。这些作为词语/术语划分的结果而产生的全部词语/术语被输入到鉴别-定义部分205。
在对于简体/繁体汉字向繁体/简体汉字的转换的已有技术中存在各种对于输入的将被转换的对象字符串进行划分的(或称为“分词”)方法,这些方法均可采用在本发明中作为对从输入装置提供的简体/繁体汉字字符串进行划分的方法。关于这些方法可以参见例如台湾的蔡佳麟博士的文章“Report to BMM-based Chinese WordSegmentor with Context-based Unknown Word Identifier for theSecond International Chinese Word Segmentation Bakeoff”(http://acl.ldc.upenn.edu/1/105/105-3020.pdf)和香港揭春雨博士的文章“An Example-Based Chinese Word Segmentation Systemfor CWSB-2”(http://personal.cityu.edu.hk/~ctckit/papers/bakeoff2.pdf)。这些内容被作为已有技术结合在此参考。
鉴别-定义部分205对于输入的全部经过划分的词语/术语进行鉴别和定义,其中的鉴别操作是在预定程序的控制下对于输入的词语/术语的合理性进行鉴别,并且可以在控制程序的控制下提供必要的手段(例如显示界面)供系统的使用者作出新的词语/术语,并将其输入和存储在与鉴别-定义部分205相联系的用户简体→繁体词语/术语映射表209中。随后,鉴别-定义部分205对于经过鉴定的全部词语/术语进行定义而分成两类:
第一类词语/术语是该简体汉字的词语/术语在标记形式上与繁体汉字的词语/术语相同、或虽然该简体汉字的词语/术语在标记形式上与繁体汉字的词语/术语不同,但该将要被转换的简体汉字的词语/术语具有与其为确定对应关系的繁体汉字的词语/术语。举例来说,“北京”一词在简体汉字和繁体汉字中的标记形式完全相同,因此它属于第一类词语/术语。而简体汉字中的“计算机软件”一词与繁体汉字中的“電腦軟體”一词虽然在标记形式上不同,但是二者之间存在确定的对应关系,因此它也属于第一类词语/术语。
第二类词语/术语是该简体汉字的词语/术语在标记形式上与繁体汉字的词语/术语不同且不具有确定对应关系的简体汉字的词语/术语。例如,简体汉字的词语“摆”在繁体汉字中存在有两个对应的标记形式“擺”和“襬”,因此它们之间不仅是标记形式不同,而且 不具有确定对应关系。在把简体汉字的词语“摆”转换成繁体汉字时则需要根据具体的使用情况才能决定选择“擺”和“襬”的哪一个。因此它属于第二类词语/术语。
从上面的分析可以看出,这种第二类词语/术语具有的特点是在进行转换中的一对多的问题。即一个简体汉字对应多个繁体汉字,使得在进行简体汉字到繁体汉字的转换时发生选择上的错误。这也是本发明旨在解决的问题。
把划分形成的简体汉字的词语/术语定义为两类是为了针对不同类型的简体汉字的词语/术语实施具有本发明特点的处理手段而实现本发明高精度和高效率的简体汉字到繁体汉字的转换的目的,从下面的描述中将会看到这一点。
随后,转换部分201对于输入的经过定义的两类简体词语/术语进行从简体到繁体的转换。其中:该简体→繁体词语/术语转换部分206利用用户简体→繁体词语/术语映射表209和系统简体→繁体词语/术语映射表210来对第一类词语/术语执行映射转换;该GBK简体编码→GBK繁体编码转换部分207利用简体→繁体一对多字映射表211、统计数据212、简体→繁体_GBK汉字映射表213和简体→繁体一对多词映射表214来对第二类词语/术语执行映射和统计分类方法相结合的转换;以及该GBK编码→BIG5编码转换部分208利用BIG5→GBK编码转换表把BIG5简体汉字转换成GBK繁体汉字。从简体→繁体词语/术语转换部分206输出的转换结果的繁体汉字和从GBK编码→BIG5编码转换部分208输出的转换结果的繁体汉字相结合而形成期望的繁体汉字数据流,并且输出到输出部分203。
下面将对于发生在转换部分201中的各种转换进行更具体的描述,其中着重介绍本发明核心的统计转换技术原理。
在简体→繁体词语/术语转换部分206利用用户简体→繁体词语/术语映射表209和系统简体→繁体词语/术语映射表210而对于第一类简体词语/术语执行映射转换时,是通过直接查表映射的方法把SC编码的简体字转换为BIG5编码的繁体字,是一种简体词语/术语到繁体词语/术语的直接对应的一对一的转换。具体地说,简体词语/术语 到繁体词语/术语是指以词为单位进行转换,即通过查找“用户简体→繁体词语/术语映射表”和“系统简体→繁体词语/术语映射表”完成对于输入的简体汉字数据流的第一类词语/术语到对应的繁体汉字数据流的转换。该转换具备双向性,就是说“系统简体→繁体词语/术语映射表”和“用户简体→繁体词语/术语映射表”也可用于从繁体到简体的转换(后面将参照图4进行描述),即“系统简体→繁体词语/术语映射表”同“系统繁体→简体词语/术语映射表”,“用户简体→繁体词语/术语映射表”同“用户繁体→简体词语/术语映射表”结构相同而可以共用。
在上述用户简体→繁体词语/术语映射表和系统简体→繁体词语/术语映射表中存储有简体词语中的不能以每个字来对应到繁体词语中相应位置上的字的词语和术语。
表1是该用户简体→繁体词语/术语映射表和系统简体→繁体词语/术语映射表的结构示例。
表1
简体汉字词语 | 繁体汉字词语 |
位 | 位元 |
字节 | 位元組 |
光盘 | 光碟 |
计算机 | 電腦 |
数据库 | 資料庫 |
檔案 | 文件 |
信息 | 資訊 |
因特网 | 網際網路 |
软件 | 軟體 |
星期 | 禮拜 |
乍得 | 查德 |
肯尼迪 | 甘迺迪 |
… | … |
应该说明,上述示例的表1仅用于说明的目的,而不是对于用 户简体→繁体词语/术语映射表和系统简体→繁体词语/术语映射表的结构进行限制。采用这样最直观的结构的映射表实现简体→繁体词语/术语的转换时,将把输入的将要被转换的每一个简体“词语/术语”同所有记录的“简体汉字词语/术语”项进行比较,如果该将要被转换的简体”词语/术语”存在于该表中,则取出与之对应的该记录的”繁体汉字词语/术语”项中内容,做为上述简体词语/术语的转换结果(繁体BIF5编码)进行输出。
本领域的技术人员显而易见的是,可以使用其它在结构上不同于表1的映射表和相应的映射方法,例如:Hash检索映射法、2分检索映射法、树检索映射法等,同时根据查找法来生成词语/术语映射表。另外,虽然本示例中的“系统简体→繁体词语/术语映射表”和“用户简体→繁体词语/术语映射表”结构相同,但它们也可以采用不同的结构,而且本示例中的“系统简体→繁体词语/术语映射表”和“用户简体→繁体词语/术语映射表”与下面将参照图4描述的示例中的“系统繁体→简体词语/术语映射表”和”用户繁体→简体词语/术语映射表”的结构也可以不同。
例如“系统简体→繁体词语/术语映射表”和“用户简体→繁体词语/术语映射表”其中之一可以采用如表1所示的结构和直观映射的方法,而另一个可以采用如下的简体→繁体词语/术语映射转换过程,其中把每一个简体词语/术语当作一个字符串:
1)输入简体汉字字符串≥简体汉字子字符串Si=c1c2c3…cn
2)用简体汉字子字符串Si同映射表中所有记录的”简体汉字词语/术语”项进行比较,如果简体汉字子字符串Si的前缀部分(c1c2…cs,s≤n)存在该映射表中,则取出该记录的”繁体汉字词语/术语”项中的内容,做为上述简体c1c2…cs(s≤n)子字符串的转换结果(简体SC编码)进行输出。转到3)。如果不存在,则结束该处理过程。
3)S=S-c1c2…cs
4)转到上述的2)
如上所述,图2中的简体→繁体词语/术语转换部分206利用用 户简体→繁体词语/术语映射表209和系统简体→繁体词语/术语映射表210完成对于第一类词语/术语映射转换,即把简体汉字编码的简体字转换为BIG5编码的繁体字。其中用户简体→繁体词语/术语映射表209是对于用户开放的,并且在执行转换时在搜索顺序上该用户简体→繁体词语/术语映射表209优先该系统简体→繁体词语/术语映射表210。
下面来说明在图2所示的将简体汉字转换成繁体汉字的转换系统的实施例中对于第二类词语/术语,即该简体汉字的词语/术语在标记形式上与繁体汉字的词语/术语不同且不具有确定对应关系的简体汉字的词语/术语的转换。本发明的特征在于通过统计分类的转换方法来实现了这种转换,从而实现简体汉字字符到繁体汉字字符的一对多映射的准确转换的问题。
操作中,这种对于简体汉字的词语/术语在标记形式上与繁体汉字的词语/术语不同且不具有确定对应关系的简体汉字的词语/术语的转换主要是由GBK简体编码→GBK繁体编码转换部分207完成。
如图所示,简体→繁体一对多字映射表211、统计数据212、简体→繁体_GBK汉字映射表213和简体→繁体一对多词映射表214与该GBK简体编码→GBK繁体编码转换部分207连接。
其中:简体→繁体一对多字映射表211可以具有如下面表2的示例结构:
表2
行号 | 简 | 繁1 | 繁2 | 繁3 | 繁4 |
1 | 摆 | 擺 | 襬 | ||
2 | 板 | 板 | 闆 | ||
3 | 背 | 背 | 揹 | ||
4 | 辟 | 辟 | 闢 | ||
5 | 表 | 表 | 錶 | ||
6 | 别 | 別 | 彆 | ||
7 | 并 | 并 | 併 | 並 | 竝 |
8 | 卜 | 卜 | 蔔 |
[0128]
9 | 布 | 布 | 佈 | ||
10 | 才 | 才 | 纔 | ||
… | … | … | … | … | … |
表2中共有133条记录,每一条记录由5个字符组成。例如第一条记录的第一个字符是简体字“摆”。由于简体字“摆”不在繁体字中出现,所以第二个字符位置没有字符。第三和第四个字符位置分别是繁体字中与简体字“摆”相对应的两个可能的选择“擺”和“襬”。
简体→繁体一对多词映射表214可以具有按照如下的示例规则形成的结构:
1.‘#’号:表示一组“一对多词表数据”的开始,‘#’号后面的汉字为1简体汉字,该简体汉字有多个繁体汉字对应。
2.‘$’号:表示对应的1个繁体汉字的信息。‘$’号后面的汉字为对应的1个TC繁体汉字。‘$’号记录下面的记录为包含‘$’号后面的繁体汉字的词的信息。该记录可以有多个。
3.‘$’号数据记录组会有多个。
4.‘’号:表示一组“一对多词表数据”的结束。
例如,简体汉字“辟”的一对多词表映射数据组可以是:
#辟 简体汉字“辟”的“一对多词表数据”的开始
$辟 简体汉字“辟”对应繁体汉字“辟”
大辟 上述对应时的词表
复辟
征辟
辟邪
辟易
$闢 简体汉字“辟”对应繁体汉字“闢”
开辟 上述对应时的词表
精辟
辟谣
简体汉字“辟”的“一对多词表数据”的结束
如果一个简体字/词能够通过查表映射的方法直接获得确定的繁体汉字的转换结果,则将能又快又准确地实现简体汉字到繁体汉字的转换。但是如前所述,由于从简体汉字转换到繁体汉字的一对多的问题,在已有技术的转换方案中都存在转换不准确的问题。本发明利用统计分析技术—朴素贝叶斯分类器来实现从简体汉字到繁体汉字的一对多映射的准确转换。应该说明,其它能够实现空间向量的统计分类的方法也可以采用,在此是以朴素贝叶斯分类器进行本发明构思的说明,而不是对本发明的限制。
下面先简要介绍贝叶斯统计分类的原理,再说明本发明使用的朴素贝叶斯分类器。
贝叶斯分类问题可以如下描述:假设一个对象可以用一个n维向量表示,如 称 为对象的特征向量,并且可以分成k个类C=(c1,c2,…,ck),则贝叶斯分类问题可以描述成:已知类条件概率密度 和类先验概率p(ci)求后验概率 其中i=1,2,…,k。这可由贝叶斯公式来计算:
可以按照下面的公式来确定对象的分类:
(公式1)
朴素贝叶斯分类器基于一个简单的假设:在给定类变量C的值时,所有属性变量相互独立,也就是说:
(公式2)
将公式2代入公式1,得到朴素贝叶斯分类器的分类算法:
(公式3)
在使用公式3的朴素贝叶斯分类器算法解决从简体汉字到繁体汉字的转换处理时的一对多的问题时,需要使用两个语料库:简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC。这两个语料库存放在实施本发明的计算机的预定存储空间位置中。在具体的实施中可以采取两种方式:
第一种方式是把简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC作为图2中的统计数据212。假设简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC已经达到一定的完备程度,在进行针对一对多的简体汉字到繁体汉字字符的转换时,GBK简体编码→GBK繁体编码转换部分207将调用贝叶斯分类统计处理控制程序操作统计数据212中的简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC,按照随后解释的原理而获得正确的转换结果。由此可见,在该第一种方式中的该图2的统计数据212应该广义地理解为是简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC,真正的统计数据是在GBK简体编码→GBK繁体编码转换部分207将调用贝叶斯分类统计处理控制程序操作这两个语料库之后获得的数据。可以理解到,简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC的完善程度直接影响GBK简体编码→GBK繁体编码转换部分207调用贝叶斯分类统计处理控制程序进行操作的结果的精确度。
第二种方式是,不直接将简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC放置在图2的统计数据212中,而是针对全部所述第二类的简体汉字到繁体汉字转换,即一对多的转换而预先对于简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC执行统计操作,将统计计算的结果放置在图2的统计数据212中。在GBK简体编码→GBK繁体编码转换部分207针对一个输入的第二类简体汉字执行贝叶斯分类统计处理转换时,只需调用预先计 算好的结果即可。这将进一步降低系统的资源占用,提高转换速度。
本发明允许用户在规定的条件下不断充实和完善其自身使用的简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC,使之更适合自身使用的需要。
实际上,上述第一种方式和第二种方式是基于相同的发明构思的两种具体的实施方式,在使用结果上并无实质区别。
下面来说明对于一个第二类简体汉字执行朴素贝叶斯分类处理的过程。假定需要被转换的简体字为S,则它所对应的k个繁体字形的集合记为T={t1,t2,…,tk}。
在简体汉字语料库Corpus_SC中,S和位于它左右的字组成的字符串记为s-1Ss1,其中s-1、s1分别是变量。使用朴素贝叶斯分类器对简体字S进行汉字的简体→繁体转换的算法如下:
学习算法(计算统计特征)
1.收集Corpus_SC中所有的简体字Vocaculary←Corpus-SC中的所有的简体字的集合
2.计算所需要的概率项P(Tj)和P(Si|Tj)
对T中每个目标值Tj,j∈{1,2,…,k}
nj←Corpus_SC中Tj出现的次数,
nT←Corpus_SC中T1,T2,…,Tk出现的总次数,
P(Tj)=nj/nT
对Vocaculary中的Si,i={-1,1}
nI←在简体字S转为Tj的情况下,Corpus_SC中Si的出现次数,
P(Si|Tj)=(ni+m/|Vocaculary|)/(nj+m),这里使用m-估计,其中m=1
当以上的统计特征计算之后,利用以下的贝叶斯分类算法的公式来确定转换为哪一个繁体汉字。
(公式4)
通过几个简单的例子来理解从简体汉字到繁体汉字的转换过程并且体会贝叶斯分类法在该转换过程中的作用。
1)GBK发→BIG5發(发展)
第一步:GBK简体编码→GBK繁体编码转换部分207查找简体→繁体一对多字映射表211,“发”是一对多简体字。使用朴素贝叶斯分类方法操作统计数据212,得到在词语“发展”中的“发”对应繁体字“發”。(内码:B7A2→B06C)
第二步:GBK编码→BIG5编码转换部分208查找GBK→BIG5编码转换映射表215,从GBK编码转换为BIG5编码。(内码:B06C→B56F)
2)GBK发→BIG5髪(头发)
第一步:GBK简体编码→GBK繁体编码转换部分207查找简体→繁体一对多字映射表211,“发”是一对多简体字。使用朴素贝叶斯分类方法操作统计数据212,得到在词语“头发”中的“发”对应繁体字“髪”。(内码:B7A2→B06C)
第二步:GBK编码→BIG5编码转换部分208查找GBK→BIG5编码转换映射表215,从GBK编码转换为BIG5编码。内码:B06C→BE76
3)GBK摆→BIG5襬(衣摆翩翩)
第一步:GBK简体编码→GBK繁体编码转换部分207查找简体→繁体一对多字映射表211,“摆”是一对多简体字。使用朴素贝叶斯分类方法操作统计数据212,假设“衣”和“翩”在“摆”字左右的 情况在语料库中都没有能够得到统计结果,所以此时使用朴素贝叶斯分类方法没有得到期望的结果。此时系统根据用户对于词表的交互,把“衣摆”的“摆”转换为繁体字“襬”。(内码:B0DA→D26F)并且将交互的结果记录在用户简体→繁体词语/术语映射表209和统计数据211中。
第二步:GBK编码→BIG5编码转换部分208查找GBK→BIG5编码转换映射表215,从GBK编码转换为BIG5编码。(内码:D26F→C4FC)
4)GBK国→BIG5國
第一步:由于“国”不是一对多简体字,所以简体→繁体词语/术语转换部分206查找系统简体→繁体词语/术语映射表210,“国”对应繁体字“國”。(内码:B9FA→87F8)
第二步:查找GBK→BIG5编码转换映射表,从GBK编码转换为BIG5编码。(内码:87F8→B0EA)
下面将通过一个简体汉字字符串到繁体汉字字符串的转换来进一步说明本发明的核心:统计转换映射技术。
例如需要被转换成繁体汉字的简体汉字字符串是“心脏是循环系统的动力中心”。它的正确的转换结果应该是“心臟是循環系統的動力中心”。
通过根据图2的将简体汉字转换成繁体汉字的转换系统的操作,其中除去“脏”和“系”之外的十个字的简体字和繁体字之间均是一对一映射的关系。所以对于这十个一对一映射的简体汉字到繁体汉字的转换可以通过利用映射表直接转换即可。
对于一对多映射汉字,即该字符串(简体汉字的句子)中的“脏”和“系”两个简体字的转换操作的实际情况是:其中对“脏”字的转换使用了简体→繁体一对多词表,对“系”字的转换使用朴素贝叶斯分类,具体说明如下。本发明人特别申明,这里所说的“实际情况”是在本发明人的如下的假设前提条件之下出现的,即:简体汉字语料库Corpus_SC和与之对应的繁体汉字语料库Corpus_TC中在医学领域方面欠缺;简体→繁体一对多词映射表214是相对完备的。
首先,从简体→繁体一对多字映射表211得到简体汉字“脏”字对应的繁体字形有两个:“髒”和“臟”。
按照本发明的设计构思,首先判断是否可以由GBK简体编码→GBK繁体编码转换部分207使用朴素贝叶斯分类的方法进行转换。根据统计数据显示,在采用统计数据212的训练集中,“脏”共出现180次,其中转换为“髒”的有180次,转换为“臟”的有0次,而无论哪种转换情况,“脏”字前面出现“心”的次数为0次,后面出现“是”的次数也为0次。在统计数据稀疏的情况下(说明语料库中十分缺少医学类文章),系统将停止使用朴素贝叶斯分类的方法,而通过查找简体→繁体一对多词映射表214进行转换。将“脏”与前后两个字分别组合,得到“心脏”和“脏是”,在该映射表中查找“脏”的词条,在转换为“臟”字的情况下找到词语“心脏”,因此在这个句子中,简体字“脏”应该转换为繁体字“臟”。
随后再度使用贝叶斯分类技术转换来尝试把简体汉字“系”转换成适当的繁体汉字。
从简体→繁体一对多字映射表211得到简体汉字“系”字对应的繁体字形有三个,分别为“系”、“係”和“繫”。
使用朴素贝叶斯分类的方法对其进行转换处理,其中概率的计算使用拉普拉斯定律(Laplace’s law)进行平滑处理。分类算法的公式如下:
根据统计数据显示,在训练集中,“系”共出现47691次。
情况一:转换为“系”
出现次数:25249次,P(系)=25249/47691=0.529429
前面是“环”字的次数:11,P(环|系)=0.00043565
后面是“统”字的次数:14905,P(统|系)=0.590297
P(系)P(环|系)P(统|系)=0.0001361
情况二:转换为“係”
出现次数:17651次,P(係)=17651/47691=0.370112
前面是“环”字的次数:0,P(环|係)=8.4667e-9
后面是“统”字的次数:0,P(统|係)=8.4667e-9
P(係)P(环|係)P(统|係)=2.653e-17
情况三:转换为“繫”
出现次数:24791次,P(繫)=4791/47691=0.100459
前面是“环”字的次数:0,P(环|繫)=3.118833e-9
后面是“统”字的次数:1,P(统|繫)=0.0002087
P(繫)P(环|繫)P(统|繫)=6539e-13
根据分类算法公式可以得到,在这个句子中,简体字“系”应该转换为繁体字“系”。
GBK编码→BIG5编码转换部分208使用GBK→BIG5编码转换映射表来得出需要的BIG5繁体汉字,该繁体汉字与来自简体→繁体词语/术语转换部分206的繁体汉字相结合后由输出部分203作为转换的结果输出。
下面参考图3来说明图2所示的将简体汉字转换成繁体汉字的转换系统的操作过程。
参见图3的流程图,首先输入将要被转换的简体汉字的字符串(步骤S310)。
随后,词语/术语划分部分204根据预定的划分规则对于输入的简体汉字字符串进行划分而“抽取”出组成该字符串的全部简体词语/术语(步骤S320),并将这些词语/术语提供到鉴别-定义部分205。
在接收到每一个简体词语/术语之后,鉴别-定义部分205则将对其进行鉴别和定义,判断其是否属于第一类简体词语/术语,即在标记形式上与繁体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体词语/术语(步骤S330),如果为“是”,则将该简体词语/术语输入到转换部分201的简体→繁体词语/术语转换部分206,由简体→繁体词语/术语转换部分206利用该用户简体→繁体词语/术语映射表209和系统简体→繁体词语/术语映射表210把该第一类简体汉字字符转换成对应繁体汉字字符(步骤S340)。
如果步骤S330的定义结果为“否”,则定义该简体词语/术语 为第二类词语/术语,即在标记形式上与繁体汉字的词语/术语不同且不具有确定对应关系的简体汉字的词语/术语,并将其提供到转换部分201的GBK简体编码→GBK繁体编码转换部分207,通过利用简体→繁体一对多字映射表211、统计数据212、简体→繁体_GBK汉字映射表213和简体→繁体一对多词映射表214,由GBK简体编码→GBK繁体编码转换部分207采用统计分类与映射组合的方法把该简体汉字的词语/术语转换为合理对应的繁体汉字的词/语术语(步骤S350)。
经过GBK编码→BIG5编码转换部分208的转换处理后,将步骤S340和步骤S350获得的繁体汉字词语/术语相结合后,获得与输入的简体汉字字符串对应的繁体汉字字符串,并由输出部分203将其输出(步骤S360)。
因此,通过上述图2的本发明的一个实施例的将简体汉字字符串转换为繁体汉字字符串的系统来实践图3所示的方法,解决了将简体汉字转换成繁体汉字的转换中出现的字的一对多的映射问题。具体地说,本发明的把能够实现一对一映射的简体汉字的词语/术语和不能实现一对一映射的简体汉字的词语/术语,即一对多映射汉字分开处理,使得由可能采用统计特征的技术来用朴素贝叶斯分类方法实现从简体汉字到繁体汉字的一对多映射处理,使得从简体汉字到繁体汉字的一对多映射处理的精确度大大提高。
下面参照图4描述作为本发明的另一个实施例的把繁体汉字转换成简体汉字的转换系统400。虽然图4所示系统执行转换与图2系统所执行的转换相反,但是在原理上它们是相同或相似的。因此那些与图2相同的描述或公式的推导将被简化或省略。
如图4所示,把繁体汉字转换成简体汉字的转换系统400包括:转换部分401、数据输入部分402、输出部分403、词语/术语划分部分404、鉴别-定义部分405。其中的转换部分401中包括繁体→简体词语/术语转换部分406、BIG5繁体编码→GBK繁体编码转换部分407和GBK繁体编码→GBK简体编码转换部分408。在操作上,鉴别-定义部分405、繁体→简体词语/术语转换部分406与用户繁体→简体词 语/术语映射表409和系统繁体→简体词语/术语映射表410相联系;BIG5繁体编码→GBK繁体编码转换部分407与BIG5→GBK编码转换表411相联系;而GBK繁体编码→GBK简体编码转换部分408与统计数据412、繁体→简体一对多字映射表413、异体字映射表414、繁体→简体一对多词映射表415和繁体→简体_GBK汉字映射表416相联系。
输入部分402把将要被转换的繁体汉字字符串,例如BIG5编码的繁体汉字数据流输入到词语/术语划分部分404中。
根据词语/术语划分的控制规则,该词语/术语划分部分404把输入的繁体汉字字符串划分成一个或若干词语/术语,即“抽出”构成繁体汉字字符数据流的各个词语(术语)。划分后形成的词语/术语可以由一个或若干繁体汉字字符构成。这些作为繁体词语/术语划分的结果而产生的全部繁体词语/术语被输入到鉴别-定义部分405。
鉴别-定义部分405对于输入的全部经过划分的繁体词语/术语进行鉴别和定义,其中的鉴别操作是在预定程序的控制下对于输入的繁体词语/术语的合理性进行鉴别,并且可以在控制程序的控制下提供必要的手段(例如显示界面)而使得系统的使用者作出新的词语/术语的定义,并将其输入和存储在与鉴别-定义部分405相联系的用户繁体→简体词语/术语映射表409中。随后,鉴别-定义部分405对于经过鉴定的全部词语/术语进行定义而分成两类:
第一类词语/术语是该繁体汉字的词语/术语在标记形式上与简体汉字的词语/术语相同、或虽然该繁体汉字的词语/术语在标记形式上与简体汉字的词语/术语不同,但该将要被转换的繁体汉字的词语/术语具有与其为确定对应关系的简体汉字的词语/术语。举例来说,“北京”一词在繁体汉字和简体汉字中的标记形式完全相同,因此它属于第一类词语/术语。而繁体汉字中的“電腦軟體”一词与简体汉字中的“计算机软件”一词虽然在标记形式上不同,但是二者之间存在确定的对应关系,因此也它属于第一类词语/术语。
第二类词语/术语是该繁体汉字的词语/术语在标记形式上与简体汉字的词语/术语不同且不具有确定对应关系的繁体汉字的词语/ 术语。例如,繁体汉字的词语“餘”在简体汉字中存在有两个对应的标记形式“余”和“馀”,因此它们之间不仅是标记形式不同,而且不具有确定对应关系。在把繁体汉字的词语“餘”转换成简体汉字时则需要根据具体的使用情况才能决定选择“余”和“馀”的哪一个。因此它属于第二类词语/术语。
从上面的分析可以看出,这种第二类词语/术语具有的特点是在进行转换中的一对多的问题。即一个繁体汉字对应多个简体汉字,使得在进行繁体汉字到简体汉字的转换时发生选择的错误。这也是本发明旨在解决的问题。
把划分形成的繁体汉字的词语/术语定义为两类是为了针对不同类型的繁体汉字的词语/术语实施具有本发明特点的处理手段而实现本发明高精度和高效率的繁体汉字到简体汉字的转换的目的,从下面的描述中将会看到这一点。
随后,转换部分401对于输入的经过定义的两类繁体词语/术语进行从繁体到简体的转换。其中:该繁体→简体词语/术语转换部分406利用用户繁体→简体词语/术语映射表409和系统繁体→简体词语/术语映射表410来对第一类词语/术语执行映射转换;该GBK繁体编码→GBK简体编码转换部分408利用统计数据412、繁体→简体一对多字映射表413、异体字映射表414、繁体→简体一对多词映射表415和繁体→简体_GBK汉字映射表416来对第二类词语/术语执行映射和统计分类方法相结合的转换。从繁体→简体词语/术语转换部分406输出的转换结果的简体汉字和从GBK繁体编码→GBK简体编码转换部分408输出的转换结果的简体汉字相结合而形成期望的简体汉字数据流,并且输出到输出部分403。
下面将对于发生在转换部分401中的各种转换进行更具体的描述,其中着重介绍本发明核心的统计转换技术原理。
在繁体→简体词语/术语转换部分406利用用户繁体→简体词语/术语映射表409和系统繁体→简体词语/术语映射表410而对于第一类繁体词语/术语执行映射转换时,是通过直接查表映射的方法把BIG5编码的繁体字转换为GBK编码的简体字,是一种繁体词语/术语 到简体词语/术语的直接对应的一对一的转换。具体地说,繁体词语/术语到简体词语/术语是指以词为单位进行转换,即通过查找“系统繁体→简体词语/术语映射表”和“用户繁体→简体词语/术语映射表”完成对于输入的繁体汉字数据流的第一类词语/术语到对应的简体汉字数据流的转换。如上面参照图2进行的描述中所说的那样,这种转换具备双向性,即“系统繁体→简体词语/术语映射表”同“系统简体→繁体词语/术语映射表”,“用户繁体→简体词语/术语映射表”同“用户简体→繁体词语/术语映射表”结构相同而可以共用。
在上述用户繁体→简体词语/术语映射表和系统繁体→简体词语/术语映射表中存储有繁体词语中的不能以每个字来对应到简体词语中相应位置上的字的词语和术语。相关的示例可参见上述的表1。
同样应该说明,表1的示例结构仅用于说明的目的,而不是对于用户繁体→简体词语/术语映射表和系统繁体→简体词语/术语映射表的结构进行限制。采用这样最直观的结构的映射表实现繁体→简体词语/术语的转换时,将把输入的将要被转换的每一个繁体“词语/术语”同所有记录的“繁体汉字词语/术语”项进行比较,如果该将要被转换的繁体”词语/术语”存在于该表中,则取出与之对应的该记录的”简体汉字词语/术语”项中内容,做为上述繁体词语/术语的转换结果(简体GBK编码)进行输出。
本领域的技术人员显而易见的是,可以使用其它在结构上不同于表1的映射表和相应的映射方法,例如:Hash检索映射法、2分检索映射法、树检索映射法等,同时根据查找法来生成词语/术语映射表。另外,虽然本示例中的“系统繁体→简体词语/术语映射表”和“用户繁体→简体词语/术语映射表”结构相同,但它们也可以采用不同的结构,而且本示例中的“系统繁体→简体词语/术语映射表”和“用户繁体→简体词语/术语映射表”与前面参照图2描述的示例中的“系统简体→繁体词语/术语映射表”和”用户简体→繁体词语/术语映射表”的结构也可以不同。
例如“系统繁体→简体词语/术语映射表”和“用户繁体→简体词语/术语映射表”其中之一可以采用如表1所示的结构和直观映射 的方法,而另一个可以采用如下的繁体→简体词语/术语映射转换过程,其中把每一个繁体词语/术语当作一个字符串:
1)输入繁体汉字字符串≥繁体汉字子字符串Si=c1c2c3…cn
2)用繁体汉字子字符串Si同映射表中所有记录的”繁体汉字词语/术语”项进行比较,如果繁体汉字子字符串Si的前缀部分(c1c2…cs,s≤n)存在该映射表中,则取出该记录的”简体汉字词语/术语”项中内容,做为上述繁体c1c2…cs(s≤n)子字符串的转换结果(繁体SC编码)进行输出。转到3)。如果不存在,则结束该处理过程。
3)S=S-c1c2…cs
4)转到上述的2)
如上所述,图4中的繁体→简体词语/术语转换部分406利用用户繁体→简体词语/术语映射表409和系统繁体→简体词语/术语映射表410完成对于第一类词语/术语映射转换,即把繁体汉字编码的BIG5繁体字转换为GBK编码的简体字。其中用户繁体→简体词语/术语映射表409是对于用户开放的,并且在执行转换时在搜索顺序上该用户繁体→简体词语/术语映射表409优先该系统繁体→简体词语/术语映射表410。
下面来说明在图4所示的将繁体汉字转换成简体汉字的转换系统的实施例中对于第二类词语/术语,即该繁体汉字的词语/术语在标记形式上与简体汉字的词语/术语不同且不具有确定对应关系的繁体汉字的词语/术语的转换。本发明的特征在于通过统计分类的转换方法来实现了这种转换,从而实现繁体汉字字符到简体汉字字符的一对多映射的准确转换的问题。
操作中,这种对于繁体汉字的词语/术语在标记形式上与简体汉字的词语/术语不同且不具有确定对应关系的繁体汉字的词语/术语的转换主要是由GBK繁体编码→GBK简体编码转换部分408完成。
在把上述的繁体汉字的词语/术语字符串输入到GBK繁体编码→GBK简体编码转换部分408之前,先由BIG5繁体编码→GBK繁体编码转换部分407利用BIG5→GBK编码转换表411将其从BIG5繁体汉字 转换成GBK繁体汉字。
如图所示,统计数据412、繁体→简体一对多字映射表413、异体字映射表414、繁体→简体一对多词映射表415、繁体→简体_GBK汉字映射表416和与该GBK繁体编码→GBK简体编码转换部分408连接。
其中:繁体→简体一对多字映射表413可以具有如下面表3的示例结构:
表3
行号 | 繁 | 简1 | 简2 | 简3 |
1 | 乾 | 乾 | 干 | |
2 | 瞭 | 瞭 | 了 | |
3 | 藉 | 藉 | 借 | |
4 | 徵 | 徵 | 征 | |
5 | 於 | 於 | 于 | |
6 | 餘 | 余 | 馀 | |
7 | 著 | 著 | 着 | |
… | … | … | … | … |
表3中示出7条记录,每一条记录由4个字符组成。例如第六条记录的第一个字符是繁体字“餘”。由于繁体字“餘”不在简体字中出现,所以第二个字符位置没有字符。第三和第四个字符位置分别是简体字中与繁体字“餘”相对应的两个可能的简体字的选择“余”和“馀”。
繁体→简体一对多词映射表415可以具有按照如下的示例规则形成的结构:
1.‘#’号:表示一组“一对多词表数据”的开始,‘#’号后面的汉字为1繁体汉字,该繁体汉字有多个简体汉字对应。
2.‘$’号:表示对应的1个简体汉字的信息。‘$’号后面的汉字为对应的1个TC简体汉字。‘$’号记录下面的记录为包含‘$’ 号后面的简体汉字的词的信息。该记录可以有多个。
3.‘$’号数据记录组会有多个。
4.‘’号:表示一组“一对多词表数据”的结束。
例:繁体汉字“乾”的一对多词表数据组
#乾 繁体汉字“乾”的“一对多词表数据”的开始
$干 繁体汉字“乾”对应简体汉字“干”
乾杯 上述对应时的词表
$乾 繁体汉字“乾”对应简体汉字“乾”
乾坤 上述对应时的词表
乾造
乾宅
繁体汉字“乾”的“一对多词表数据”的结束
由于在繁体汉字中存在有许多异体字,因此在图4的将繁体汉字转换成简体汉字的转换系统中把一个异体字映射表与GBK繁体编码→GBK简体编码转换部分408相连,用于在把繁体汉字向简体汉字转换时把异体字映射为对应的简体汉字。
一个示例性的异体字映射表如下所示:
菴$庵
闇$暗
晻$暗
鞌$鞍
鼇$鳌
翶$翱
覇$霸
栢$柏
粺$稗
岅$坂
…
异体字映射表的结构由“汉字1(SC代码)”+“$”+”汉字2(SC代码)”来构成。“汉字1(SC代码)”是”汉字2(SC代码)”的异体字。在把繁体汉字转换为简体汉字时,利用该表把汉字(SC代码)的异体字映射转换为标准的SC简体汉字。
如果一个繁体字/词能够通过查表映射的方法直接获得确定的简体汉字的转换结果,则将能又快有准确地实现繁体汉字到简体汉字的转换。但是如前所述,由于从繁体汉字转换到简体汉字的一对多的问题,在已有技术的转换方案中都存在转换不准确的缺陷。本发明利用统计分析技术—朴素贝叶斯分类器来实现从繁体汉字到简体汉字的一对多映射的准确转换。应该说明,其它能够实现空间向量的统计分类的方法也可以采用,在此是以朴素贝叶斯分类器进行本发明构思的说明,而不是对本发明的限制。
关于贝叶斯统计分类的原理和朴素贝叶斯分类器的内容可参考上面对于图2的相关描述部分和公式1、公式2、公式3、公式4。
在使用公式3和公式4的朴素贝叶斯分类器算法解决从繁体汉字到简体汉字的转换处理时的一对多的问题时,也需要使用两个语料库:繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC。这两个语料库存放在实施本发明的计算机的预定存储空间位置中。在具体的实施中可以采取两种方式:
第一种方式是把繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC作为图4中的统计数据412。假设繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC已经达到一定的完备程度,在进行针对一对多的繁体汉字到简体汉字字符的转换时,GBK繁体编码→GBK简体编码转换部分408将调用贝叶斯分类统计处理控制程序操作统计数据412中的繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC,按照前面参照图2解释而得到的公式3,获得正确的转换结果。由此可见,在该第一种方式中的该图4的统计数据412应该广义地理解为是繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC,真正的统计数据是在GBK繁体编码→GBK简体编码转换部分408调用贝叶斯分类统 计处理控制程序操作这两个语料库之后获得数据。可以理解到,繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC的完善程度直接影响GBK繁体编码→GBK简体编码转换部分408调用贝叶斯分类统计处理控制程序进行操作的结果的精确度。
第二种方式是,不直接将繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC放置在图4的统计数据412中,而是针对全部所述第二类的繁体汉字到简体汉字转换,即一对多的转换而预先对于繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC执行统计操作,将统计计算的结果放置在图4的统计数据412中。GBK繁体编码→GBK简体编码转换部分408针对一个输入的第二类繁体汉字执行贝叶斯分类统计处理转换时,只需调用预先计算好的结果即可。这将进一步降低系统的资源占用,提高转换速度。
本发明允许用户在规定的条件下不断充实和完善其自身使用的繁体汉字语料库Corpus_TC和与之对应的简体汉字语料库Corpus_SC,使之更适合自身使用的需要。
实际上,上述第一种方式和第二种方式是基于相同的发明构思的两种具体的实施方式,在使用结果上并无实质区别。
通过几个简单的例子来理解从繁体汉字到简体汉字的转换过程并且体会贝叶斯分类法在该转换过程中的作用。
1)BIG5汉字“乾”→GBK汉字“干”(乾杯)
第一步:BIG5繁体编码→GBK繁体编码转换部分407用BIG5→GBK编码转换表411把繁体汉字“乾”从BIG5编码转换为GBK编码。(内码:B0AE→C7AC)
第二步:GBK繁体编码→GBK简体编码转换部分408查找繁体→简体一对多字映射表413,“乾”是一对多繁体字。使用朴素贝叶斯分类方法,得到在词语“乾杯”中,“乾”对应简体字“干”。(内码:C7AC→B8C9)
2)BIG5乾→GBK乾(乾坤)
第一步:BIG5繁体编码→GBK繁体编码转换部分407用BIG5→GBK编码转换表411把繁体汉字“乾”从BIG5编码转换为GBK编码。 (内码:B0AE→C7AC)
第二步:GBK繁体编码→GBK简体编码转换部分408查找繁体→简体一对多字映射表413,“乾”是一对多繁体字。使用朴素贝叶斯分类方法,得到在词语“乾坤”中,“乾”对应简体字“乾”。(内码:C7AC→C7AC)
3)BIG5乾→GBK干(衣服干了)
第一步:BIG5繁体编码→GBK繁体编码转换部分407用BIG5→GBK编码转换表411把繁体汉字“乾”从BIG5编码转换为GBK编码。(内码:B0AE→C7AC)
第二步:GBK繁体编码→GBK简体编码转换部分408查找繁体→简体一对多字映射表413,“乾”是一对多繁体字。“服”和“了”在“乾”字左右的情况在语料库中都没有统计到,此时无法使用朴素贝叶斯分类方法。
将“乾”与前面的字“服”组成二元词语“服乾”,与后面的字“了”组成二元词语“乾了”,查找繁体→简体一对多词映射表415,“服乾”和“乾了”均不在在词表中。此时,本发明的转换系统把“乾”转换为默认简体字“干”。(内码:C7AC→B8C9)
4)BIG5荳→GBK豆
第一步:BIG5繁体编码→GBK繁体编码转换部分407用BIG5→GBK编码转换表411把繁体汉字“荳”从BIG5编码转换为GBK编码。(内码:D75E→C757)
第二步:GBK繁体编码→GBK简体编码转换部分408查找繁体→简体一对多字映射表413,“荳”不是一对多繁体字。查找异体字映射表414,“荳”是异体字,对应简体字“豆”。(内码:C757→B6B9)
5)BIG5國→GBK国
第一步:BIG5繁体编码→GBK繁体编码转换部分407用BIG5→GBK编码转换表411把繁体汉字“國”从BIG5编码转换为GBK编码。(B0EA→87F8)
第二步:GBK繁体编码→GBK简体编码转换部分408查找繁体→简体一对多字映射表413,“國”不是一对多繁体字。查找异体字映 射表414,“國”不是异体字。查找繁体→简体_GBK汉字映射表416,“國”对应简体字“国”。(内码:87F8→B9FA)
GBK繁体编码→GBK简体编码转换部分408输出的简体汉字与来自繁体→简体词语/术语转换部分406的简体汉字相结合后由输出部分403作为转换的结果输出。
下面参考图5来说明图4所示的将繁体汉字转换成简体汉字的转换系统的操作过程。
参见图5的流程图,首先输入将要被转换的繁体汉字的字符串(步骤S510)。
随后,词语/术语划分部分404根据预定的划分规则对于输入的繁体汉字字符串进行划分而“抽取”出组成该字符串的全部繁体词语/术语(步骤S520),并将这些词语/术语提供到鉴别-定义部分405。
在接收到每一个繁体词语/术语之后,鉴别-定义部分405则将对其进行鉴别和定义,判断其是否属于第一类繁体词语/术语,即在标记形式上与简体汉字的词语/术语相同或虽然不同但具有确定对应关系的繁体词语/术语(步骤S530),如果为“是”,则将该繁体词语/术语输入到转换部分401的繁体→简体词语/术语转换部分406,由繁体→简体词语/术语转换部分406利用该用户繁体→简体词语/术语映射表409和系统繁体→简体词语/术语映射表410把该第一类繁体汉字字符转换成对应简体汉字字符(步骤S540)。
如果步骤S530的定义结果为“否”,则定义该繁体词语/术语为第二类词语/术语,即在标记形式上与简体汉字的词语/术语不同且不具有确定对应关系的繁体汉字的词语/术语,并将其提供到转换部分401的BIG5繁体编码→GBK繁体编码转换部分407,利用BIG5→GBK编码转换表411把BIG5繁体汉字转换成GBK繁体汉字,然后送到GBK繁体编码→GBK简体编码转换部分408。通过利用统计数据412、繁体→简体一对多字映射表413、异体字映射表414、繁体→简体一对多词映射表415和繁体→简体_GBK汉字映射表416,GBK繁体编码→GBK简体编码转换部分408采用统计分类与映射组合的方法把该繁体汉字的词语/术语转换为合理对应的简体汉字的词/语术语(步 骤S550)。
将步骤S540和步骤S550获得的简体汉字词语/术语相结合后,获得与输入的繁体汉字字符串对应的简体汉字字符串,并由输出部分403将其输出(步骤S560)。
因此,通过上述图4的本发明的一个实施例的将繁体汉字字符串转换为简体汉字字符串的系统来实践图5所示的方法,解决了将繁体汉字转换成简体汉字的转换中出现的字的一对多的映射问题。具体地说,本发明的把能够实现一对一映射的繁体汉字的词语/术语和不能实现一对一映射的繁体汉字的词语/术语,即一对多映射汉字分开处理,使得由可能采用统计特征的技术来用朴素贝叶斯分类方法实现从繁体汉字到简体汉字的一对多映射处理,使得从繁体汉字到简体汉字的一对多映射处理的精确度大大提高。
根据本发明的上述实施例,通过在实现简体汉字和繁体汉字的相互转换时把其中具有一对多问题的词语/术语做结合了映射变换的统计分类处理,使得在不需要构造庞大的词语/术语映射表的条件下即可实现高准确度的映射。并且不完全依靠词语术语划分的精度。同时允许用户对于词语/术语映射表和统计数据进行修改和变更,使得本发明的系统更能够实现以人为本的个性化,更能适应个人特点和满足专业需要。
应该强调,以上根据本发明实施例对本发明进行的描述无意将本发明拘束或限制在公开的具体形式中。显而易见的是,在公开的实施例的具体描述的基础上,本专业的技术人员可在本发明精神实质的范围内对于本发明进行各种修改。例如:对于本发明的上述系统的各个部分的功能进行重新分配或将不同部分的功能进行顺序的交换、拆解、合并。例如通过计算机硬件和软件的单独操作或它们的结合操作来实现本发明的设计思想的局部或全部、通过修改映射表的结构或其中的内容来实现特定的需要、根据电路的集成度的不同而选择不同的电路组成形式等等。而这些修改和变化均应被考虑为不脱离本发明所附权利要求的本质和范围。
Claims (24)
1.一种在简体汉字和繁体汉字之间进行相互转换的系统,该系统包括:
输入部分,输入将要被转换的简体/繁体汉字字符串;
词语/术语划分部分,将输入的简体/繁体汉字字符串划分成若干个词语/术语;
鉴别-定义部分,鉴别-定义该输入的简体/繁体汉字字符串中的每一个词语/术语,将其中在标记形式上与繁体/简体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体/繁体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与繁体/简体汉字的词语/术语不同且不具有确定对应关系的简体/繁体汉字的词语/术语定义为第二类词语/术语;
映射转换部分,采用映射表将该第一类词语/术语直接映射成与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语;
统计转换部分,采用统计分类方法将第二类词语/术语转换成与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语;
组合输出部分,把采用映射表对该第一类词语/术语直接映射而得到的与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语进行组合,形成与将要被转换的简体/繁体汉字字符串对应的繁体/简体汉字字符串,并将其输出。
2.根据权利要求1的系统,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
3.根据权利要求1的系统,其中所使用的映射表包括用户简体/繁体汉字→繁体/简体汉字词语/术语映射表、系统简体/繁体汉字→繁体/简体汉字词语/术语映射表、简体/繁体汉字→繁体/简体汉字映射表、简体/繁体汉字→繁体/简体汉字一对多映射表。
4.根据权利要求1的系统,其中采用的统计分类方法是朴素贝叶斯统计分类方法。
5.一种在简体汉字和繁体汉字之间进行相互转换的方法,包括步骤:
输入将要被转换的简体/繁体汉字字符串;
将输入的简体/繁体汉字字符串划分成若干个词语/术语;
鉴别-定义该输入的简体/繁体汉字字符串中的每一个词语/术语,将其中在标记形式上与繁体/简体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体/繁体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与繁体/简体汉字的词语/术语不同且不具有确定对应关系的简体/繁体汉字的词语/术语定义为第二类词语/术语;
采用映射表将该第一类词语/术语直接映射成与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语;
采用统计分类方法将第二类词语/术语转换成与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语;
把采用映射表对该第一类词语/术语直接映射而得到的与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语进行组合,形成与将要被转换的简体/繁体汉字字符串对应的繁体/简体汉字字符串,并将其输出。
6.根据权利要求5的方法,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
7.根据权利要求5的方法,其中所使用的映射表包括用户词语/术语映射表、系统词语/术语映射表、简体/繁体汉字→繁体/简体汉字映射表、简体/繁体汉字→繁体/简体汉字一对多映射表。
8.根据权利要求5的方法,其中采用的统计分类方法是朴素贝叶斯统计分类方法。
9.一种将简体汉字转换成繁体汉字的转换系统,该系统包括:
输入部分,输入将要被转换的简体汉字字符串;
词语/术语划分部分,将输入的简体汉字字符串划分成若干个词语/术语;
鉴别-定义部分,鉴别-定义该输入的简体汉字字符串中的每一个词语/术语,将其中在标记形式上与繁体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与繁体汉字的词语/术语不同且不具有确定对应关系的简体汉字的词语/术语定义为第二类词语/术语;
映射转换部分,采用映射表将该第一类词语/术语直接映射成与输入的简体汉字的词语/术语唯一对应的繁体汉字的词语/术语;
统计转换部分,采用统计分类方法将第二类词语/术语转换成与输入的简体汉字的词语/术语合理对应的繁体汉字的词语/术语;
组合输出部分,把采用映射表对该第一类词语/术语直接映射而得到的与输入的简体汉字的词语/术语唯一对应的繁体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的简体汉字的词语/术语合理对应的繁体汉字的词语/术语进行组合,形成与将要被转换的简体汉字字符串对应的繁体汉字字符串,并将其输出。
10.根据权利要求9的系统,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
11.根据权利要求9的系统,其中所使用的映射表包括用户简体→繁体词语/术语映射表、系统简体→繁体词语/术语映射表、简体→繁体汉字映射表、简体→繁体汉字一对多映射表。
12.根据权利要求9的系统,其中采用的统计分类方法是朴素贝叶斯统计分类方法。
13.一种将简体汉字转换成繁体汉字的转换方法,包括步骤:
输入将要被转换的简体汉字字符串;
将输入的简体汉字字符串划分成若干个词语/术语;
鉴别-定义该输入的简体汉字字符串中的每一个词语/术语,将其中在标记形式上与繁体汉字的词语/术语相同或虽然不同但具有确定对应关系的简体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与繁体汉字的词语/术语不同且不具有确定对应关系的简体汉字的词语/术语定义为第二类词语/术语;
采用映射表将该第一类词语/术语直接映射成与输入的简体汉字的词语/术语唯一对应的繁体汉字的词语/术语;
采用统计分类方法将第二类词语/术语转换成与输入的简体汉字的词语/术语合理对应的繁体汉字的词语/术语;
把采用映射表对该第一类词语/术语直接映射而得到的与输入的简体汉字的词语/术语唯一对应的繁体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的简体汉字的词语/术语合理对应的繁体汉字的词语/术语进行组合,形成与将要被转换的简体汉字字符串对应的繁体汉字字符串,并将其输出。
14.根据权利要求13的方法,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
15.根据权利要求13的方法,其中所使用的映射表包括用户简体→繁体词语/术语映射表、系统简体→繁体词语/术语映射表、简体→繁体汉字映射表、简体→繁体汉字一对多映射表。
16.根据权利要求13的方法,其中采用的统计分类方法是朴素贝叶斯统计分类方法。
17.一种将繁体汉字转换成简体汉字的转换系统,该系统包括:
输入部分,输入将要被转换的繁体汉字字符串;
词语/术语划分部分,将输入的繁体汉字字符串划分成若干个词语/术语;
鉴别-定义部分,鉴别-定义该输入的繁体汉字字符串中的每一个词语/术语,将其中在标记形式上与简体汉字的词语/术语相同或虽然不同但具有确定对应关系的繁体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与简体汉字的词语/术语不同且不具有确定对应关系的繁体汉字的词语/术语定义为第二类词语/术语;
映射转换部分,采用映射表将该第一类词语/术语直接映射成与输入的繁体汉字的词语/术语唯一对应的简体汉字的词语/术语;
统计转换部分,采用统计分类方法将第二类词语/术语转换成与输入的繁体汉字的词语/术语合理对应的简体汉字的词语/术语;
组合输出部分,把采用映射表对该第一类词语/术语直接映射而得到的与输入的繁体汉字的词语/术语唯一对应的简体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的繁体汉字的词语/术语合理对应的简体汉字的词语/术语进行组合,形成与将要被转换的繁体汉字字符串对应的简体汉字字符串,并将其输出。
18.根据权利要求17的系统,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
19.根据权利要求17的系统,其中所使用的映射表包括用户繁体→简体词语/术语映射表、系统繁体→简体词语/术语映射表、繁体→简体汉字映射表、繁体→简体汉字一对多映射表和异体字映射表。
20.根据权利要求17的系统,其中采用的统计分类方法是朴素贝叶斯统计分类方法。
21.一种将繁体汉字转换成简体汉字的转换方法,包括步骤:
输入将要被转换的繁体汉字字符串;
将输入的繁体汉字字符串划分成若干个词语/术语;
鉴别-定义该输入的繁体汉字字符串中的每一个词语/术语,将其中在标记形式上与简体汉字的词语/术语相同或虽然不同但具有确定对应关系的繁体汉字的词语/术语定义为第一类词语/术语,并将其中在标记形式上与简体汉字的词语/术语不同且不具有确定对应关系的繁体汉字的词语/术语定义为第二类词语/术语;
采用映射表将该第一类词语/术语直接映射成与输入的繁体汉字的词语/术语唯一对应的简体汉字的词语/术语;
采用统计分类方法将第二类词语/术语转换成与输入的繁体汉字的词语/术语合理对应的简体汉字的词语/术语;
把采用映射表对该第一类词语/术语直接映射而得到的与输入的繁体汉字的词语/术语唯一对应的简体汉字的词语/术语和采用统计分类方法对第二类词语/术语转换而得到的与输入的繁体汉字的词语/术语合理对应的简体汉字的词语/术语进行组合,形成与将要被转换的繁体汉字字符串对应的简体汉字字符串,并将其输出。
22.根据权利要求21的方法,其中的词语/术语包括由单个汉字或多个汉字构成的词语/术语。
23.根据权利要求21的方法,其中所使用的映射表包括用户繁体→简体词语/术语映射表、系统繁体→简体词语/术语映射表、繁体→简体汉字映射表、繁体→简体汉字一对多映射表和异体字映射表。
24.根据权利要求21的方法,其中采用的统计分类方法是朴素贝叶斯统计分类方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101115101A CN101131690B (zh) | 2006-08-21 | 2006-08-21 | 简体汉字和繁体汉字相互转换方法及其系统 |
TW095132203A TW200811673A (en) | 2006-08-21 | 2006-08-31 | Method for conversion between simplified and traditional Chinese characters and system thereof |
JP2007187850A JP5167711B2 (ja) | 2006-08-21 | 2007-07-19 | 簡体字と繁体字とを相互変換する方法及びその変換装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101115101A CN101131690B (zh) | 2006-08-21 | 2006-08-21 | 简体汉字和繁体汉字相互转换方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101131690A CN101131690A (zh) | 2008-02-27 |
CN101131690B true CN101131690B (zh) | 2012-07-25 |
Family
ID=39128960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101115101A Active CN101131690B (zh) | 2006-08-21 | 2006-08-21 | 简体汉字和繁体汉字相互转换方法及其系统 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5167711B2 (zh) |
CN (1) | CN101131690B (zh) |
TW (1) | TW200811673A (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9824071B2 (en) * | 2008-12-03 | 2017-11-21 | Microsoft Technology Licensing, Llc | Viewing messages and message attachments in different languages |
CN102222419A (zh) * | 2011-06-27 | 2011-10-19 | 陈宇慧 | 一种电子文本的显示方法 |
CN103514152B (zh) * | 2012-06-21 | 2017-01-18 | 香港城市大学 | 简繁中文转换中的标识追踪方法及装置 |
CN102929852B (zh) * | 2012-10-15 | 2016-05-04 | 福建榕基软件股份有限公司 | 一种在富文本编辑器内实现简繁体字互转的方法及系统 |
CN103778110B (zh) * | 2012-10-25 | 2016-08-31 | 三星电子(中国)研发中心 | 简繁体汉字的转换方法及系统 |
KR101384139B1 (ko) * | 2012-11-23 | 2014-04-10 | 박선정 | 간체자 학습을 위한 변환 방법, 그를 이용한 학습 방법, 기록매체, 저장매체 및 저장매체를 포함하는 이동통신 단말기 |
CN103853706B (zh) * | 2012-12-06 | 2017-04-12 | 富士通株式会社 | 用于将简体汉语句子转换为繁体汉语句子的方法和设备 |
CN103870442A (zh) * | 2012-12-17 | 2014-06-18 | 鸿富锦精密工业(深圳)有限公司 | 中文简繁体转换系统及方法 |
CN103885941A (zh) * | 2012-12-24 | 2014-06-25 | 鸿富锦精密工业(深圳)有限公司 | 专利申请文件转换系统及方法 |
CN103559178A (zh) * | 2013-05-31 | 2014-02-05 | 武汉中文百科网络有限公司 | 互联网中文简繁字转换系统及方法 |
CN108108337A (zh) * | 2016-11-25 | 2018-06-01 | 北大方正集团有限公司 | 简繁互转方法及装置 |
CN107145244A (zh) * | 2017-04-26 | 2017-09-08 | 北京汉王数字科技有限公司 | 一种异形字符输入方法、装置及电子设备 |
CN108427671B (zh) * | 2018-01-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 信息转换方法和装置、存储介质及电子装置 |
CN109145297B (zh) * | 2018-08-13 | 2022-06-10 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于hash存储的网络词汇语义分析方法和系统 |
CN112199576A (zh) * | 2020-10-20 | 2021-01-08 | 山东浪潮商用系统有限公司 | 一种中文拼音搜索的实现方法和系统 |
CN112949283B (zh) * | 2021-04-26 | 2024-01-23 | 合肥工业大学 | 文本处理方法、装置、非易失性存储介质及处理器 |
CN117252154B (zh) * | 2023-11-20 | 2024-01-23 | 北京语言大学 | 一种基于预训练语言模型的中文简繁字符转换方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1289083A (zh) * | 1999-09-22 | 2001-03-28 | 微软公司 | 简繁体汉字输入系统及其方法 |
US6393445B1 (en) * | 2001-01-04 | 2002-05-21 | Institute For Information Industry | System for transforming Chinese character forms in real-time between a traditional character form and a simplified character form |
CN1369833A (zh) * | 2001-02-16 | 2002-09-18 | 意蓝科技股份有限公司 | 词汇式繁体中文与简体中文的转换系统及转换方法 |
CN1462966A (zh) * | 2002-05-29 | 2003-12-24 | 明日工作室股份有限公司 | 简繁体中文内码转换方法以及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59172032A (ja) * | 1983-03-18 | 1984-09-28 | Photo Composing Mach Mfg Co Ltd | 文字入力装置 |
JPH08263478A (ja) * | 1995-03-24 | 1996-10-11 | Matsushita Electric Ind Co Ltd | 中国語簡繁体字文書変換装置 |
JPH08287046A (ja) * | 1995-04-14 | 1996-11-01 | Sharp Corp | 情報処理装置 |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
JP4294386B2 (ja) * | 2003-06-13 | 2009-07-08 | 株式会社リコー | 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体 |
-
2006
- 2006-08-21 CN CN2006101115101A patent/CN101131690B/zh active Active
- 2006-08-31 TW TW095132203A patent/TW200811673A/zh unknown
-
2007
- 2007-07-19 JP JP2007187850A patent/JP5167711B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1289083A (zh) * | 1999-09-22 | 2001-03-28 | 微软公司 | 简繁体汉字输入系统及其方法 |
US6393445B1 (en) * | 2001-01-04 | 2002-05-21 | Institute For Information Industry | System for transforming Chinese character forms in real-time between a traditional character form and a simplified character form |
CN1369833A (zh) * | 2001-02-16 | 2002-09-18 | 意蓝科技股份有限公司 | 词汇式繁体中文与简体中文的转换系统及转换方法 |
CN1462966A (zh) * | 2002-05-29 | 2003-12-24 | 明日工作室股份有限公司 | 简繁体中文内码转换方法以及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5167711B2 (ja) | 2013-03-21 |
TWI328174B (zh) | 2010-08-01 |
JP2008052720A (ja) | 2008-03-06 |
TW200811673A (en) | 2008-03-01 |
CN101131690A (zh) | 2008-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101131690B (zh) | 简体汉字和繁体汉字相互转换方法及其系统 | |
Samih et al. | Multilingual code-switching identification via lstm recurrent neural networks | |
CN100511215C (zh) | 多语种翻译存储器和翻译方法 | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN102184167B (zh) | 一种文本数据处理方法和装置 | |
CN110046350A (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
CN101950285A (zh) | 利用统计学方法对汉字的本国语读音串转换系统及其方法 | |
Narayan et al. | Stepwise extractive summarization and planning with structured transformers | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
Bhunia et al. | Cross-language framework for word recognition and spotting of Indic scripts | |
CN101004738A (zh) | 文字输入装置、具备该文字输入装置及文字输入方法 | |
WO2004109492A1 (fr) | Procede et appareil de traitement et de representation d'objets | |
CN101894160B (zh) | 一种智能检索方法 | |
CN115587594B (zh) | 网络安全的非结构化文本数据抽取模型训练方法及系统 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN116150361A (zh) | 一种财务报表附注的事件抽取方法、系统及存储介质 | |
CN110147545A (zh) | 文本的结构化输出方法及系统、存储介质和计算机设备 | |
CN101667099B (zh) | 一种连笔键盘文字输入的方法和设备 | |
CN113469163B (zh) | 一种基于智能纸笔的医疗信息记录方法和装置 | |
Sarkar | A hidden markov model based system for entity extraction from social media english text at fire 2015 | |
Feng et al. | Multi-level cross-lingual attentive neural architecture for low resource name tagging | |
CN101382931A (zh) | 一种用于电子、信息及通信系统的交换内码及其应用 | |
CN115906835B (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN105045410B (zh) | 一种形式化拼音和汉字对应识别的方法 | |
CN116108175A (zh) | 基于语义解析和数据构造的语言转化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: Tokyo Patentee after: Fuji film business innovation Co.,Ltd. Address before: Tokyo Patentee before: Fuji Xerox Co.,Ltd. |