CN1558341A - 汉字/拼音/英文翻译方法 - Google Patents

汉字/拼音/英文翻译方法 Download PDF

Info

Publication number
CN1558341A
CN1558341A CNA2004100343582A CN200410034358A CN1558341A CN 1558341 A CN1558341 A CN 1558341A CN A2004100343582 A CNA2004100343582 A CN A2004100343582A CN 200410034358 A CN200410034358 A CN 200410034358A CN 1558341 A CN1558341 A CN 1558341A
Authority
CN
China
Prior art keywords
word
chinese
simplified form
chinese character
traditional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004100343582A
Other languages
English (en)
Inventor
陈彦甫
W・邓斯莫伊尔
约翰·W·邓斯莫伊尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1558341A publication Critical patent/CN1558341A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

公开一种在简体中文字、繁体中文字、拼音字和英文字之间翻译的方法。本发明包括翻译器程序(TP)。TP接受以Big 5、GB2312、ASCII或任何Unicode编码方案的字符或字,并且将所述字符或字翻译为Unicode。TP按照要求将用户输入翻译为繁体中文字、简体中文字、带有音调的拼音字、英文字。TP然后显示繁体中文字、简体中文字、带有音调的拼音字、英文字。如果输入的字符是繁体中文字并且没有相应简体中文字,则TP显示一个消息来指示繁体中文字没有相应简体中文字。

Description

汉字/拼音/英文翻译方法
技术领域
本发明涉及一种用于在简体中文字、繁体中文字、拼音和英文之间翻译的方法。
背景技术
诸如汉语的基于汉藏语系的语言与诸如英语的基于拉丁语系的语言有很大不同。中文不包括字母表。相反,中文包括超过6万个独立汉字。6万个汉字的每个具有不同的含义。认识大约1200个汉字就足够阅读中文报纸。中文学院毕业生认识大约3000个汉字。
中文在字的概念上也与基于拉丁语系的语言不同。在中文中,汉字串不包括空格,一个字结束和另一个开始的理解完全基于上下文。汉字在含义、发音和在它们被书写的方式上非常准确。如果一个汉字在串中向其插入汉字,则增强了第一个汉字的含义,但是通常它不被改变。
汉字总是发单个音节。没有两音节的汉字。每个汉字具有5个基音之一。这5个基音为中文带来了歌唱的质量,因为一些汉字以高音调发音,一些以低音调发音,一些以升调或降调发音。音调对语言是重要的,没有音调,中文将不容易被理解。例如,汉字“ma”根据音调可以或者表示“妈”或“马”或“吗”。在中国有许多方言。从一种方言到另一种方言,口语基本上不可理解。但是,仅仅有一种中文文字。中文文字被所有的方言理解。其它汉藏语系语言,诸如日文、韩语和越南语与中文一样使用多个字符。但是,这些语言没有共同的书写或口语含义,这类似于英语、西班牙语和法语使用公共的字母表但是不可互换的方式。
在1949年中国共产革命之后,共产党对中文作出了几个改变。首先,传统的“从上向下”和“从右向左”的书写中文的方法被屏弃。中华人民共和国(PRC或中国大陆)现在按照西文,“从左向右”然后“从上向下”被书写。其次,选择了单一的方言普通话,它现在在所有的学校中作为基本中文被教授。第三,PRC改变了大约四分之一的汉字以将它们减少到大约几行或几划。这种形式的中文被称为“简体中文”。在PRC,简体中文现在被广泛使用,但是台湾和香港仍然使用称为“繁体中文”的更费事形式的中文。PRC也采用由多数西方国家使用的阿拉伯数字系统,并且因特网的出现正在使得英语出现在许多中文语句中。
PRC也引入了“拼音”,中文的语音版本来帮助孩子学习这种语言。拼音使用英文的26个字母外加在一些元音上的4个音调来指示如何发音汉字。当学生被教授使用汉字时通常从大约4岁到大约7岁使用拼音。拼音对于从外语常用语手册来说汉语的旅游者和商人也是很有益的。另外,拼音对于计算机用户是普及的,因为它是从键盘输入汉字的最简单方式。
在计算机中,所有的汉藏语系语言被16比特的字符表示,而英语和拉丁语系语言被8比特的字符表示。传统上,从每种语言产生独立的编码。英语和其它拉丁语系语言使用ASCII编码。简体中文使用GB2312编码。繁体中文使用Big 5编码,等等。换句话说,使用Big 5编码的计算机不能读取GB2312或ASCII编码的计算机代码。这种编码的多样性是混乱的,并且在不同的编码之间没有标准化。Unicode协会已经开发了一种单一的编码,它并入了世界上所有的主要语言。存在使用Unicode和替代在计算机应用中的所有其它编码的强大动向。Unicode对于在计算机内的每个字符使用16个比特。Unicode具有65,000个不同的字符,并且每种主要语言被映射为这个Unicode范围的不同部分。因此,Unicode可以用作所有的世界语言的单一编码方案。
但是,Unicode的问题之一是可以使用在Unicode内不同的方案来表示独立的字符、字母或符号。两种最常见的编码方案是UTF-8和UCS-2。UTF-8是二进制(基于2)Unicode编码方案,它将每个字符、字母或符号表示为一个、两个或三个字节,每个字节为8个比特。相反,UCS-2是16进制(基于16)的Unicode编码方案,它将每个字符、字母或符号表示为8个16进制数字。一个16进制数字等同于4个比特,1个字节可以由两个16进制数字表达。下面的表1显示在UTF-8和UCS-2之间的差别。
 UCS-2(16进制的)  UTF-8(二进制) 说明
 0000 007F  0xxxxxxx ASCII
 0080 07FF  110xxxxx 10xxxxxx 多达U+07FF
 0800 FFFF  1110xxxx 10xxxxxx 10xxxxxx 其它UCS-2
                             表1
用户可以根据用户期望的需要来选择使用USC-2方案或UTF-8方案来编码。例如,当从一个位置向另一个发送数据时,由于在可变字节流长度(即,1-3字节,如表1所示)中固有的发送效率,UTF-8是优选的编码方案。但是,当在数据库中存储同一信息时,UCS-2是优选的编码方案,因为均匀的数据长度使得可以进行较快的搜索和比较操作(即8个16进制数字,如表1所示)。在UCS-2和UTF-8之间的转换功能是可以获得的,这由在此通过引用而被并入的、题目为“在数据库引擎中的表级Unicode处理”的美国专利申请公布2003/0078921来证明。
在开发Unicode之前,在简体中文和繁体中文之间的计算机化的文字翻译器是不可能的,因为GB2312代码不能明白Big 5代码,反之亦然。需要从简体中文向繁体中文的翻译或从繁体中文向简体中文的翻译的用户被迫查找在印刷的字典中的翻译。如果用户期望计算机实现的翻译,则用户被迫使用拼音、英文或一些其它的语言来作为在简体中文和繁体中文之间的中介。
类似地,现有技术的翻译程序还不能使用正确的音调来显示拼音。带有音调的元音指示适当的音调,是正确地发音元音所必须的。在计算机中,传统上使用ASCII来编码拼音。但是,现有技术的翻译程序不能显示带有音调的拼音,因为ASCII不与Big 5或GB2312兼容。相反,现有技术程序利用由Big 5和GB2312支持的数字和英文元音来产生拼音的混合版本。例如,现有技术已经采用了数字来说明四种类型的音调和无音调。表2显示了现有技术在拼音中使用数字来表示音调。
Figure A20041003435800081
因此,现有技术将字guó显示为guo2,将mā显示为ma1,等等。拼音的现有技术混合版本对于开始的读者难于明白,因为读者必须作出在数字和音调的正确类型和位置之间的认知跳跃。因此需要一种在简体中文、繁体中文、拼音和英文之间翻译的自动方法。这个需要延伸到用于以正确的音调标记来显示拼音的方法。
发明内容
本发明是用于在简体中文字、繁体中文字、拼音字和英文字之间翻译的方法。本发明的软件实施例是可以在万维网网页上工作的计算机程序或作为在独立计算机上的程序的计算机程序。本发明的软件实施例包括翻译机程序(TP)。TP接受Big 5、GB2312、ASCII或任何Unicode编码方案的字符或字,并且将所述字符或字翻译为Unicode。TP然后确定是否用户输入是繁体中文字、简体中文字、拼音或英文字。TP按照需要将用户输入翻译为繁体中文字、简体中文字、带有音调的拼音字和英文字。TP使用简体中文/繁体中文转换表来在简体中文字和繁体中文字之间翻译。TP也使用繁体中文/拼音/英文字典来在繁体中文字、拼音和英文之间翻译。TP然后显示简体中文字、繁体中文字、带有音调的拼音字和英文字。如果被输入的字符是繁体中文字并且没有相应简体中文字,则TP显示一个消息来指示繁体中文字没有简体中文字的等同物。
附图说明
在所附的权利要求中给出了相信具有新颖性的特征。但是,通过下面结合附图详细描述说明性的实施例,本发明本身以及优选使用方式、另外的目的及其优点将最佳地被理解。
图1是用于实现本发明的计算机网络的图示;
图2是用于实现本发明的存储器的图示;
图3是本发明的翻译器程序(TP)的逻辑的图示;
图4是本发明的图形用户界面(GUI)的图示。
具体实施方式
在此使用的术语“带有音调的拼音”指的是中文的拼音语音版本,其中在适当的罗马字母上带有合适的音调。
在此使用的术语“ASCII”是用于信息交换的美国标准代码的缩写,指的是用于在QWERY键盘上提供的罗马字母、阿拉伯数字、控制字符、各种符号的编码语言。
在此使用的术语“Big 5”指的是用于繁体中文字集的编码语言。
在此使用的术语“计算机”指的是能够与用户或其它计算机交互的、包括处理器、存储器和操作系统的机器,应当包括但不限于台式计算机、笔记本计算机、个人数字助理(PDA)、服务器、手持计算机和类似的器件。
在此使用的术语“GB2312”指的是用于简体中文字集的编码语言。
在此使用的术语“混合拼音”指的是中文的拼音语音版本,其中在适当的罗马字母上没有合适的音调,但是相反在字中或尾部带有数字来表示语调标记。
在此使用的术语“没有音调的拼音”指的是中文的拼音语音版本,其中在适当的罗马字母上没有合适的音调。
在此使用的“Unicode”指的是由Unicode协会开发的编码语言,包括世界上多数语言,其中包括简体中文字集和繁体中文字集。
图1是与本发明相关联的计算机网络90。计算机网络90包括与网络96电子连接的本地机器95。本地机器95经由网络96电子连接到远程机器94和远程机器93。本地机器95也经由网络96电子连接到服务器91和数据库92。网络96可以是诸如局域网(LAN)这样的简化网络连接,或者可以是诸如广域网(WAN)或因特网这样的较大网络。而且,图1中所述的计算机网络90意欲作为可以包括本发明的可能操作网络的表示,不意欲作为结构的限定。
包括处理器、存储器和输入/输出器件的连接和定位的计算机的内部配置是本领域内公知的。本发明是可以在计算机程序中实现的方法。参见图2,本发明的方法通过翻译器程序(TP)200以软件实现。在此所述的TP 200可以被存储在图1中所述的任何计算机的存储器中。或者,TP 200可以被存储在外部存储器,诸如可拆卸盘或CD-ROM。存储器100指的是在图1的计算机之一内的存储器。存储器100也包括Unicode翻译器程序102、简体中文/繁体中文转换表104和繁体中文/拼音/英文字典108。本发明可以通过存储器100连接到Unicode翻译器程序102、简体中文/繁体中文转换表104和繁体中文/拼音/英文字典108。作为本发明的一部分,存储器100可以配置TP 200。处理器106可以执行在TP 200内包括的指令。
在替代的实施例中,TP 200可以被存储在其它计算机的存储器中。在其它计算机的存储器中存储TP 200使得处理器工作负荷被分布在多个处理器上而不是单个处理器上。TP 200在各种存储器上的进一步配置是本领域内的技术人员公知的。
在所述优选实施例中,本发明是可以从因特网访问的网页。本发明的TP200的逻辑的流程图被图解在图3中。TP 200是用于在简体中文字、繁体中文字、拼音和英文之间翻译的程序。当用户访问万维网网页时,TP 200开始(202)。用户然后输入用户的输入,包括汉字、拼音或英文字(204)。在步骤204输入的用户输入可以是繁体中文字、简体中文字、带有音调的拼音字、没有音调的拼音字、混合拼音字或英文字。而且,在步骤204的输入可以是以GB2312、Big 5或任何Unicode格式。TP 200接受GB2312、Big 5或Unicode编码(即UTF-8),因为TP 200将字符数据翻译为UCS-2数据(206)。TP 200可以利用图2中的Unicode翻译程序102来将输入的字符翻译为USC-2数据。在混合拼音或无音调的拼音和繁体中文或简体中文之间的翻译程序是本领域内的普通技术人员所公知的。虽然GB2312和Big 5彼此不兼容,但是GB2312和Big 5都与Unicode兼容。换句话说,以GB2312编码的万维网网页不识别Big 5字符,以Big 5编码的万维网网页不识别GB2312字符。但是,以Unicode编码的万维网网页识别GB2312字符和Big 5字符,因为Unicode包括GB2312字符和Big 5字符。
TP 200然后确定用户的输入是否是简体中文字(212)。如果用户的输入不是简体中文字,则TP 200进行到步骤216。如果用户的输入是简体中文字,则TP 200使用简体中文/繁体中文转换表208来确定简体中文字的相应繁体中文字(214)。简体中文/繁体中文转换表208是以Unicode编码的JAVATM散列表,它包括在所有的简体中文字和它们的等同繁体中文字之间的交叉引用。简体中文/繁体中文转换表208可以是类似于图2中的简体中文/繁体中文转换表104。在散列表中的数据是以UCS-2 Unicode格式的。因为存在大约1,250个简体中文字,散列表包括大约2500项-每个用于每个简体中文字和相应繁体中文字。
在步骤214,TP 200也使用繁体中文/拼音/英文字典210来确定繁体中文字的带有音调的拼音和英文翻译。繁体中文/拼音/英文字典210是以Unicode编码的字典,包括用于具有带有音调的拼音和英文翻译的所有繁体中文字的项目。当给定的用户输入具有多个含义时,繁体中文/拼音/英文字典210给出所述用户输入的最常用的字。繁体中文/拼音/英文字典210可以是类似于图2的繁体中文/拼音/英文字典108。TP 200然后进行到步骤230。
返回步骤216,TP 200然后进行确定是否用户输入是繁体中文字(216)。如果用户输入不是繁体中文字,则TP 200进行到步骤220。如果用户输入是繁体中文字,则TP 200使用简体中文/繁体中文转换表208来确定等同于繁体中文字的简体中文字(218)。在步骤218,TP 200也使用繁体中文/拼音/英文字典210来确定繁体中文字的带有音调的拼音和英文翻译。TP 200然后进行到步骤230。如果所输入的字符是繁体中文字并且没有相应简体中文字,则TP 200显示一个消息来指示繁体中文字没有相应简体中文字。
返回步骤220,TP 200确定是否用户输入是拼音字(220)。如果用户输入不是拼音字,则TP 200进行到步骤224。如果用户输入是拼音字,则TP 200使用繁体中文/拼音/英文字典210以确定拼音字的繁体中文字和英文翻译(222)。在步骤222,TP 200也使用简体中文/繁体中文转换表208来确定拼音字的繁体中文字的相应简体中文字。TP 200然后进行到步骤230。
返回步骤224,TP 200然后进行确定是否用户输入是英文字(224)。如果用户输入不是英文字,则TP 200进行到步骤228。如果用户输入是英文字,则TP 200使用繁体中文/拼音/英文字典210来确定所述英文字的繁体中文字和带有音调的拼音翻译(226)。在步骤226,TP 200也使用简体中文/繁体中文转换表208来确定所述英文字的繁体中文字的相应简体中文字。TP 200然后进行到步骤230。
在步骤228,TP 200显示一个差错消息:所输入的字符不是可识别的简体中文字、繁体中文字、拼音字或英文字(228),并且结束(232)。
在步骤230,TP 200显示简体中文字、繁体中文字、拼音字或英文字(230)。TP 200可以选用地首先显示用户输入,然后在用户输入后面显示被翻译的字符和字。TP 200然后结束(232)。
转向图4,其中图解了本发明的图形用户界面(GUI)300的实施例。GUI300是本发明的万维网页面实施例的内容的示例。GUI 300也是在单个计算机上可运行的、本发明的独立计算机程序实施例的显示的示例。GUI 300包括用户输入字段302。用户可以利用计算机的复制和粘贴操作来向用户输入区302中输入字符。在复制和粘贴操作中,用户加亮所期望的字符,从菜单选择“复制”,将光标放置到用户输入区302中,并且从菜单选择“粘贴”。被加亮的字符然后显示在用户输入字段302中。本领域内的普通技术人员知道用于在计算机上实现复制和粘贴操作的方法。用户也可以通过本领域内普通技术人员所知道的方法来向用户输入区302中输入字符。
作为本发明的一部分,当用户使用复制和粘贴操作来向用户输入区302中输入字符时,TP 200将识别所输入的字符而不论在被加亮的“复制”文本中使用的编码格式如何。例如,用户可能正在观看以繁体中文所写的另一个万维网页面,并且遇到用户不认识的一个字。用户可以随后加亮不认识的字,复制所述字,在用户输入区302中粘贴所述字,单击提交按键304来确定与所述繁体字相当的简体字。本发明接受在其他万维网页面中使用的Big 5编码,因为Big 5与Unicode兼容。在另一个示例中,用户可能正在观看以简体中文所写的另一个万维网页面,并且遇到用户不认识的一个字。用户可以随后加亮不认识的字,复制所述字,在用户输入区302中粘贴所述字,单击提交按键304来确定与所述简体字相当的繁体字。本发明接受在其他万维网页面中使用的GB2312编码,因为GB2312与Unicode兼容。如果使用Big 5或GB2312编码来实现本发明,则本发明将依赖于编码语言而被限于简体中文或繁体中文。用户也可以使用复制和粘贴功能来输入ASCII或Unicode格式的英文字、带有语调的拼音、混合拼音或不带有语调的拼音。
在用户已经在用户输入区302中插入了字符或字后,用户可以单击提交按键304。提交按键304指令TP 200分析在用户输入区302中的字符。如图4中所示,用户已经输入了简化中文字符guó,它表示国。TP 200在用户输入区域302下显示简体中文字306、相应繁体中文字308、适当加有音调的拼音310和英文翻译312。用户可以输入所期望的多个字符,并且随意继续利用本发明。
参照上述说明,应当明白,包括大小、材料、形状、形式、功能和操作方式的本发明的部分的最佳空间关系被认为是对于本领域内的技术人员显然和明显的,并且本发明意欲包括附图中所述的内容和说明书中所述的内容的所有等同关系。通过记录或删除在本说明书中包括的一些步骤,本发明的新颖精神仍然可以得到体现。本发明的精神不意欲被以除了由所附的权利要求的适当结构之外的任何方式限定。

Claims (58)

1.一种方法,包括:
使用Unicode来确定简体中文字的相应繁体中文字;
使用Unicode来将简体中文字翻译为带有音调的拼音字和英文字。
2.按照权利要求1的方法,还包括:将简体中文字接受为用户输入,其中以GB2312或Unicode来编码所述简体中文字。
3.按照权利要求1的方法,还包括:将简体中文字从GB2312翻译为Unicode。
4.按照权利要求1的方法,还包括:访问转换表以确定繁体中文字。
5.按照权利要求4的方法,其中所述转换表是JAVA散列表。
6.按照权利要求1的方法,还包括:访问一个字典以确定带有音调的拼音字和英文字。
7.按照权利要求1的方法,其中不使用中间语言来确定繁体中文字。
8.按照权利要求1的方法,还包括:显示简体中文字、繁体中文字、带有音调的拼音字、英文字。
9.一种方法,包括:
使用Unicode来确定繁体中文字的相应简体中文字;
使用Unicode来将繁体中文字翻译为带有音调的拼音字和英文字。
10.按照权利要求9的方法,还包括:将繁体中文字接受为用户输入,其中以Big 5或Unicode来编码所述简体中文字。
11.按照权利要求9的方法,还包括:将繁体中文字从Big 5翻译为Unicode。
12.按照权利要求9的方法,还包括:访问转换表以确定简体中文字。
13.按照权利要求12的方法,其中所述转换表是JAVA散列表。
14.按照权利要求9的方法,还包括:访问一个字典以确定带有音调的拼音字和英文字。
15.按照权利要求9的方法,其中不使用中间语言来确定简体中文字。
16.按照权利要求9的方法,还包括:显示繁体中文字、简体中文字、带有音调的拼音字、英文字。
17.一种方法,包括:使用Unicode来将拼音字翻译为繁体中文字、简体中文字和英文字。
18.按照权利要求17的方法,其中拼音字是未加音调的拼音字到混合拼音字。
19.按照权利要求17的方法,还包括:访问字典以确定繁体中文字和英文字。
20.按照权利要求17的方法,还包括:访问转换表以确定简体中文字。
21.按照权利要求20的方法,其中所述转换表是JAVA散列表。
22.按照权利要求17的方法,其中不使用中间语言来确定简体中文字。
23.按照权利要求17的方法,还包括:显示繁体中文字、简体中文字、带有音调的拼音字、英文字。
24.一种方法,包括:使用Unicode来将英文字翻译为繁体中文字、简体中文字和带有音调的拼音字。
25.按照权利要求24的方法,还包括:访问字典以确定繁体中文字和带有音调的拼音字。
26.按照权利要求24的方法,还包括:访问转换表以确定简体中文字。
27.按照权利要求26的方法,其中所述转换表是JAVA散列表。
28.按照权利要求24的方法,其中不使用中间语言来确定简体中文字。
29.按照权利要求24的方法,还包括:显示英文字、繁体中文字、简体中文字、带有音调的拼音字。
30.一种在计算机上可操作的程序产品,所述程序产品包括:
一种计算机可用介质;
其中所述计算机可用介质包括下述指令:
用于使用Unicode来确定简体中文字的相应繁体中文字的指令;
用于使用Unicode来将简体中文字翻译为带有音调的拼音字和英文字的指令。
31.按照权利要求30的程序产品,还包括:用于将简体中文字接受为用户输入的指令,其中以GB2312或Unicode来编码所述简体中文字。
32.按照权利要求30的程序产品,还包括:用于将简体中文字从GB2312翻译为Unicode的指令。
33.按照权利要求30的程序产品,还包括:用于访问转换表以确定繁体中文字的指令。
34.按照权利要求33的程序产品,其中所述转换表是JAVA散列表。
35.按照权利要求30的程序产品,还包括:用于访问一个字典以确定带有音调的拼音字和英文字的指令。
36.按照权利要求30的程序产品,其中不使用中间语言来确定繁体中文字。
37.按照权利要求30的程序产品,还包括:用于显示简体中文字、繁体中文字、带有音调的拼音字、英文字的指令。
38.一种在计算机上可操作的程序产品,所述程序产品包括:
一种计算机可用介质;
其中所述计算机可用介质包括下述指令:
用于使用Unicode来确定繁体中文字的相应简体中文字的指令;
用于使用Unicode来将繁体中文字翻译为带有音调的拼音字和英文字的指令。
39.按照权利要求38的程序产品,还包括:用于将繁体中文字接受为用户输入的指令,其中以Big 5或Unicode来编码所述简体中文字。
40.按照权利要求38的程序产品,还包括:用于将繁体中文字从Big 5翻译为Unicode的指令。
41.按照权利要求38的程序产品,还包括:用于访问转换表以确定简体中文字的指令。
42.按照权利要求38的程序产品,其中所述转换表是JAVA散列表。
43.按照权利要求38的程序产品,还包括:用于访问一个字典以确定带有音调的拼音字和英文字的指令。
44.按照权利要求38的程序产品,其中不使用中间语言来确定简体中文字。
45.按照权利要求38的程序产品,还包括:用于显示繁体中文字、简体中文字、带有音调的拼音字、英文字的指令。
46.一种在计算机上可操作的程序产品,所述程序产品包括:
一种计算机可用介质;
其中所述计算机可用介质包括下述指令:
有使用Unicode来将拼音字翻译为繁体中文字、简体中文字和英文字的指令。
47.按照权利要求46的程序产品,其中拼音字是未加音调的拼音字到混合拼音字。
48.按照权利要求46的程序产品,还包括:用于访问字典以确定繁体中文字和英文字的指令。
49.按照权利要求46的程序产品,还包括:用于访问转换表以确定简体中文字的指令。
50.按照权利要求49的程序产品,其中所述转换表是JAVA散列表。
51.按照权利要求46的程序产品,其中不使用中间语言来确定简体中文字。
52.按照权利要求46的程序产品,还包括:用于显示繁体中文字、简体中文字、带有音调的拼音字、英文字的指令。
53.一种在计算机上可操作的程序产品,所述程序产品包括:
一种计算机可用介质;
其中所述计算机可用介质包括下述指令:
用于使用Unicode来将英文字翻译为繁体中文字、简体中文字和带有音调的拼音字的指令。
54.按照权利要求53的程序产品,还包括:用于访问字典以确定繁体中文字和带有音调的拼音字的指令。
55.按照权利要求53的程序产品,还包括:用于访问转换表以确定简体中文字的指令。
56.按照权利要求55的程序产品,其中所述转换表是JAVA散列表。
57.按照权利要求53的程序产品,其中不使用中间语言来确定简体中文字。
58.按照权利要求53的程序产品,还包括:用于显示英文字、繁体中文字、简体中文字、带有音调的拼音字的指令。
CNA2004100343582A 2003-07-10 2004-04-12 汉字/拼音/英文翻译方法 Pending CN1558341A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/617,526 US20050010391A1 (en) 2003-07-10 2003-07-10 Chinese character / Pin Yin / English translator
US10/617,526 2003-07-10

Publications (1)

Publication Number Publication Date
CN1558341A true CN1558341A (zh) 2004-12-29

Family

ID=33564985

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004100343582A Pending CN1558341A (zh) 2003-07-10 2004-04-12 汉字/拼音/英文翻译方法

Country Status (2)

Country Link
US (1) US20050010391A1 (zh)
CN (1) CN1558341A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1679614A3 (en) * 2005-01-03 2007-01-10 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
CN100438533C (zh) * 2005-01-18 2008-11-26 大唐微电子技术有限公司 将sim卡电话簿导入智能终端的方法和所用的智能终端
CN103064928A (zh) * 2012-12-21 2013-04-24 北京二六三企业通信有限公司 基于关键词的垃圾文档过滤方法和装置
CN104424180A (zh) * 2013-09-09 2015-03-18 佳能株式会社 文本输入方法及设备
CN104965824A (zh) * 2015-06-11 2015-10-07 胡开标 实时文字语音翻译系统
CN107451129A (zh) * 2017-08-08 2017-12-08 传神语联网网络科技股份有限公司 非常规词语或非常规短句的判断以及翻译方法及其系统
CN109542245A (zh) * 2018-10-19 2019-03-29 杭州来布科技有限公司 一种带辅助外文提示的汉字输入方法及终端

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8137105B2 (en) 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
JP4213570B2 (ja) * 2003-11-20 2009-01-21 シャープ株式会社 文字入力方法、文字入力装置およびプログラム
US7454497B1 (en) * 2004-06-22 2008-11-18 Symantec Corporation Multi-platform and multi-national gateway service library
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
US20080120317A1 (en) * 2006-11-21 2008-05-22 Gile Bradley P Language processing system
CN102016831A (zh) * 2008-08-18 2011-04-13 东北大学兴科中小企业服务中心 文字输入时的自动文字翻译
US20100235163A1 (en) * 2009-03-16 2010-09-16 Cheng-Tung Hsu Method and system for encoding chinese words
TWI423974B (zh) * 2010-02-11 2014-01-21 Hutchison Medipharma Ltd 三氮唑並吡啶和三氮唑並吡嗪化合物及其組合物和應用
CN103577396B (zh) * 2012-08-10 2017-04-12 香港城市大学 生成简繁转换模板及基于模板进行简繁转换的方法、系统
US9195716B2 (en) * 2013-02-28 2015-11-24 Facebook, Inc. Techniques for ranking character searches
CN104699000A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 非特定人外语语音遥控的机器人系统
CN105391514B (zh) * 2014-09-05 2019-02-22 北京奇虎科技有限公司 字符编码解码方法及装置
CN111079489B (zh) * 2019-05-28 2023-04-28 广东小天才科技有限公司 一种内容识别方法及电子设备

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4611996A (en) * 1983-08-01 1986-09-16 Stoner Donald W Teaching machine
US4951202A (en) * 1986-05-19 1990-08-21 Yan Miin J Oriental language processing system
TW268115B (zh) * 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
US5309358A (en) * 1992-02-18 1994-05-03 International Business Machines Corporation Method for interchange code conversion of multi-byte character string characters
IT229678Y1 (it) * 1993-02-26 1999-01-29 Gallone Cesare Dispositivo di protezione contro spruzzi d'acqua per interruttori elet trici e simili
US5444445A (en) * 1993-05-13 1995-08-22 Apple Computer, Inc. Master + exception list method and apparatus for efficient compression of data having redundant characteristics
US5583761A (en) * 1993-10-13 1996-12-10 Kt International, Inc. Method for automatic displaying program presentations in different languages
US5697789A (en) * 1994-11-22 1997-12-16 Softrade International, Inc. Method and system for aiding foreign language instruction
US5525060A (en) * 1995-07-28 1996-06-11 Loebner; Hugh G. Multiple language learning aid
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5873111A (en) * 1996-05-10 1999-02-16 Apple Computer, Inc. Method and system for collation in a processing system of a variety of distinct sets of information
JP3282976B2 (ja) * 1996-11-15 2002-05-20 株式会社キングジム 文字情報処理装置及び方法
US6522330B2 (en) * 1997-02-17 2003-02-18 Justsystem Corporation Character processing system and method
US5897630A (en) * 1997-02-24 1999-04-27 International Business Machines Corporation System and method for efficient problem determination in an information handling system
US6381567B1 (en) * 1997-03-05 2002-04-30 International Business Machines Corporation Method and system for providing real-time personalization for web-browser-based applications
US6022221A (en) * 1997-03-21 2000-02-08 Boon; John F. Method and system for short- to long-term memory bridge
US6023714A (en) * 1997-04-24 2000-02-08 Microsoft Corporation Method and system for dynamically adapting the layout of a document to an output device
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
US6077085A (en) * 1998-05-19 2000-06-20 Intellectual Reserve, Inc. Technology assisted learning
US6094666A (en) * 1998-06-18 2000-07-25 Li; Peng T. Chinese character input scheme having ten symbol groupings of chinese characters in a recumbent or upright configuration
US6266668B1 (en) * 1998-08-04 2001-07-24 Dryken Technologies, Inc. System and method for dynamic data-mining and on-line communication of customized information
US6223150B1 (en) * 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6314469B1 (en) * 1999-02-26 2001-11-06 I-Dns.Net International Pte Ltd Multi-language domain name service
US6224383B1 (en) * 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
US6438515B1 (en) * 1999-06-28 2002-08-20 Richard Henry Dana Crawford Bitextual, bifocal language learning system
US6567973B1 (en) * 1999-07-28 2003-05-20 International Business Machines Corporation Introspective editor system, program, and method for software translation using a facade class
US7051019B1 (en) * 1999-08-17 2006-05-23 Corbis Corporation Method and system for obtaining images from a database having images that are relevant to indicated text
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
JP3917343B2 (ja) * 2000-02-25 2007-05-23 株式会社東芝 マルチプラットフォーム環境における文字コード変換方式および文字コード変換プログラムを記録したコンピュータ読み取り可能な記録媒体
EP1281133B1 (en) * 2000-04-27 2018-11-28 Webfeat, Inc. Method and system for retrieving search results from multiple disparate databases
US20020022953A1 (en) * 2000-05-24 2002-02-21 Bertolus Phillip Andre Indexing and searching ideographic characters on the internet
US20020069047A1 (en) * 2000-12-05 2002-06-06 Pinky Ma Computer-aided language learning method and system
US20020085018A1 (en) * 2001-01-04 2002-07-04 Chien Ha Chun Method for reducing chinese character font in real-time
US20030115040A1 (en) * 2001-02-09 2003-06-19 Yue Xing International (multiple language/non-english) domain name and email user account ID services system
US8001118B2 (en) * 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7040987B2 (en) * 2001-04-11 2006-05-09 Walker Digital, Llc Method and apparatus for remotely customizing a gaming device
US6999916B2 (en) * 2001-04-20 2006-02-14 Wordsniffer, Inc. Method and apparatus for integrated, user-directed web site text translation
US6905340B2 (en) * 2001-07-18 2005-06-14 Mentormate Llc Educational device and method
US20030040899A1 (en) * 2001-08-13 2003-02-27 Ogilvie John W.L. Tools and techniques for reader-guided incremental immersion in a foreign language text
US6829620B2 (en) * 2001-09-20 2004-12-07 International Business Machines Corporation Table-level unicode handling in a database engine
US20030180699A1 (en) * 2002-02-26 2003-09-25 Resor Charles P. Electronic learning aid for teaching arithmetic skills
US7376648B2 (en) * 2004-10-20 2008-05-20 Oracle International Corporation Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1679614A3 (en) * 2005-01-03 2007-01-10 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
US7260780B2 (en) 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
CN1815472B (zh) * 2005-01-03 2011-06-08 微软公司 用于在编码不可用时提供外文文本显示的方法和设备
CN100438533C (zh) * 2005-01-18 2008-11-26 大唐微电子技术有限公司 将sim卡电话簿导入智能终端的方法和所用的智能终端
CN103064928A (zh) * 2012-12-21 2013-04-24 北京二六三企业通信有限公司 基于关键词的垃圾文档过滤方法和装置
CN104424180A (zh) * 2013-09-09 2015-03-18 佳能株式会社 文本输入方法及设备
CN104965824A (zh) * 2015-06-11 2015-10-07 胡开标 实时文字语音翻译系统
CN107451129A (zh) * 2017-08-08 2017-12-08 传神语联网网络科技股份有限公司 非常规词语或非常规短句的判断以及翻译方法及其系统
CN107451129B (zh) * 2017-08-08 2020-09-25 传神语联网网络科技股份有限公司 非常规词语或非常规短句的判断以及翻译方法及其系统
CN109542245A (zh) * 2018-10-19 2019-03-29 杭州来布科技有限公司 一种带辅助外文提示的汉字输入方法及终端

Also Published As

Publication number Publication date
US20050010391A1 (en) 2005-01-13

Similar Documents

Publication Publication Date Title
CN1558341A (zh) 汉字/拼音/英文翻译方法
US8328558B2 (en) Chinese / English vocabulary learning tool
CN1577325A (zh) 繁体中文字/简体中文字翻译方法
US20050027547A1 (en) Chinese / Pin Yin / english dictionary
Josan et al. A Punjabi to Hindi machine transliteration system
Dasgupta et al. A speech enabled Indian language text to Braille transliteration system
Aranta et al. Utilization Of Hexadecimal Numbers In Optimization Of Balinese Transliteration String Replacement Method
Das et al. Multilingual Neural Machine Translation System for Indic to Indic Languages
CN1081353C (zh) 现代汉语单词拉丁化语音码汉字输入法
Gutkin et al. Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities
Joshi et al. A phonemic code based scheme for effective processing of Indian Languages
Starr Design considerations for multilingual web sites
Vojnovski et al. Learning PoS tagging from a tagged Macedonian text corpus
EP1221082B1 (en) Use of english phonetics to write non-roman characters
Dias et al. Development of standards for Sinhala computing
Chaturvedi et al. A Tool for Transliteration of Bilingual Texts Involving Sanskrit
Hussain et al. Developing lexicographic sorting: An example for Urdu
CN1050206C (zh) 正规拼音汉字输入法
Farrugia TTS pre-processing issues for mixed language support
Hussain et al. PAN localization: A study on collation of languages from developing Asia
CN1614539A (zh) 声韵输入法
Курибаяши On the development and utilization of Web-dictionary of Mongolian traditional dictionaries
Baker et al. Mapping multiple South Asian 8-bit character sets to the Unicode Standard
Tedla amLite: Amharic Transliteration Using Key Map Dictionary
Ojha Computing in Indian Languages for Knowledge Management: Technology Perspectives and Linguistic Issues

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication