CN1110802A - 智能拼音输入法 - Google Patents

智能拼音输入法 Download PDF

Info

Publication number
CN1110802A
CN1110802A CN 94103482 CN94103482A CN1110802A CN 1110802 A CN1110802 A CN 1110802A CN 94103482 CN94103482 CN 94103482 CN 94103482 A CN94103482 A CN 94103482A CN 1110802 A CN1110802 A CN 1110802A
Authority
CN
China
Prior art keywords
phonetic
chinese character
sentence
input
intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 94103482
Other languages
English (en)
Inventor
马国华
王政贤
吴军
郭进
孙益寰
卜伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaofan Electronic Sci & Tech Co Ltd Beijing
Original Assignee
Chaofan Electronic Sci & Tech Co Ltd Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaofan Electronic Sci & Tech Co Ltd Beijing filed Critical Chaofan Electronic Sci & Tech Co Ltd Beijing
Priority to CN 94103482 priority Critical patent/CN1110802A/zh
Publication of CN1110802A publication Critical patent/CN1110802A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明智能拼音输入法,属于以“语句”为单位汉 字输入电脑的信息处理技术领域。本发明把拼音到 汉字的自动转换看成一个对应问题,用户只需输入相 应的拼音码,不用选特定的汉字,本发明便根据上下 文自动将相应的汉字选出,并在整个语句的范围内调 整相应的汉字,随时保证语句的正确。本发明减少了 击键次数,并基本实现了盲打,极大地提高汉字输入 速度,只要会汉语拼音,不用学习、训练就能掌握。

Description

本发明智能拼音输入法,属于以“语句”为输入单位汉字输入电脑的信息处理技术领域。
目前国内外已经提出近千种汉字输入方法,但都还没有做到既能快速输入汉字又能很容易的掌握。这些方法可大致分为两类:一类是汉字笔划编码方法,典型的有五笔字型码(“优化五笔字型编码及其键盘”,中国专利8500831),这种基于“拆字”的输入方法,其特点是输入汉字速度快,可以实现盲打。但其要记忆227个字元,熟习输入规则,需要花很长的时间训练才能使用,因而使得一般人难以掌握。既使学会了,如果一段时间不用,就很容易生疏,再加上使用这些输入方法时,要考虑如何拆字,不符合人的用语习惯,实际上无法做到脱稿输入;另一类是各种基于读音(拼音)的输入方法,这类方法容易掌握,因为会汉语拼音的人很多,而且语音是人类相互之间传递信息最自然、最方便和最有效的形式,因此使用拼音输入汉字,符合人们的用语习惯,容易做到脱稿输入。尽管目前这些拼音输入方法速度很慢,仍有许多人在使用它。但是由于它的输入速度太慢,不适合输入长篇的文章。
现有的拼音输入方法之所以速度慢,是因为汉语有一音多字的特点。以《新华字典》收录的汉语读音为准,是412个,而二级国标汉字在考虑一字多音后,相当于有7536个读音,平均每种读音对应18.29个国标汉字。因此已知一个汉字读音后,要从确定是哪个汉字就必须从多音同音字中选出正确的汉字,甚至还要时常翻页,这就大大影响了输入速度。另外,由于注意力放在提示行上,无法实现盲打。因此,提高拼音输入方法的关键在于省去手工选字这一环节,实现根据输入拼音的上下文,自动确定汉字。
目前也有基于词的拼音输入方法,联想编码(“汉字拼音联想编码及双拼键盘”,中国专利85100094),中国科学院的智能联想汉卡,香港金山公司和北大新技术公司联合研制的中文之星中的全拼双音输入法等采用按词录入,这在一定程度上解决了选字的问题,但离盲打的目标仍然甚远,主要表现在:
1.在实际的汉语文本中要大量遇到一字词,如:“是”,“和”,“的”等等。这些仍需要手工选择汉字。
2.对三字以上词基本无法处理。
3.即使是能较好处理二字词,也存在同音词问题,需手工选择。
4.用户实际上不知道哪些词已被收录,可以直接按词输入,而哪些则不可以。因此,常会出现按词输入拼音后,发现词库中没有该词,无端多按了几次键。
本发明的目的就是克服前述输入方法存在的不足,提供一种既有较高的输入速度,能够盲打,又符合人们的用词习惯,容易学习掌握的更好的输入方法。即把一个句子作为一个整体进行考虑,由上下文来确定每一拼音对应的唯一汉字,而不需要手工选字,做到了用拼音盲打输入汉字,输入速度可以接近五笔字型快速输入方法。
拼音输入方法满足人们的用语习惯后,它的速度便可以通过对句子的理解,来实现提高。在实际用语中,如果已知一句话的读音,它所包含的汉字是可以唯一确定的。事实表明,人在听到一句话的读音后就能知道其内容,而不会发生二义性,正说明了这一点。尽管孤立地看一个读音对应很多汉字,但在特定上下文环境中,只有一种选择,也就是说如果考察的上下文足够多,就能把汉语的读音序列(拼音串序列)和汉字一一对应起来。本发明正是鉴于这一点,将一个句子作为一个整体进行考虑,由上下文来唯一确定每一拼音对应的汉字,而省去了手工选字这一环节,真正做到了用拼音盲打输入汉字,并实现真正意义上的智能。
本发明的核心技术特征是拼音到汉字的自动转换。本发明把拼音到汉字的转换看成一个对应问题,就是已知一个句子S的读音S=S(1,S2,…,SN),找出应该对应什么样的汉字词串W=(W1,W2,…,WM)(一句话总可以分成若干个词,包括一个字),根据最大后验概率准则:
W=ArgMaxP(W(j)/S)并转化为:
j
W=ArgMax{P(S/W(j).P(W(j))}
j
=ArgMaxP(S1,S2,…,SN/W1,W2,…WM).P(W1,…WM)
j
其中,W(j)为所输入句子的若干候选句子(词序列)。根据马尔可夫假设和独立输出假设,有:
P ( W 1 , W 2 , W M ) = Π i - 1 M P ( W i / W i - 1 )
P(S1,S2,…,SN/W1,W2…,WM
=P(S1,…,Sn1/W1).P(Sn1+1,…,Sn2/W2
,…,P(SnM-1,…,SN/WM
其中:Snk+1,…,Snk+1对应Wk+1的读音。
当把多音的汉字看成几个不同的一字词后:
Figure 941034828_IMG1
因此,计算式(1)的问题只剩下求P(Wi/Wi-1),它是可以通过对已有的大量文章(语料库)的统计得到。在实现时,事先统计出P(Wi/Wi-1),然后对输入的拼音串算出一个最可能的汉字句子,计算过程是由计算机自动完成。
为了方便更多的使用者在输入拼音时,直接输入完整的拼音即可(其中u用v代替)。当输入一个拼音后,智能拼音输入方法首先给出一个最有可能的汉字(当然在没有更多的汉字输入时,可能是错误的),当输入以后的拼音时,智能拼音通过考察后面的拼音来修正它对应的汉字。同样,当输入了K个拼音后,智能拼音对前面K-1个拼音对应的汉字要进行重新考虑,同时这个音对应什么汉字也有前K-1个音来确定。当一句话结束时,这句话中所有的汉字才最后确定下来。下面举一实例,加以说明:
“中国的首都是北京”这句话输出的拼音串和输出的汉字如下:
输入拼音串  显示的汉字  说明
zhong  中  中"为发"zhong"音中,最常
见汉字。
guo  中国  "中国"为zhong,gou拼音
最可能的组合。
de  中国的  "中国"后面所有为"de的"
的发音中,"的"可能性最大。
shuo  中国的手  当只输入"shou"时,尚无法
知道是哪个字,相对"手"的
可能性最大。
du  中国的首都  出现"都"后把"手"改成了
"首"。
shi  中国的首都市  "首都市"比"首都是"
的可能性大。
bei  中国的首都是被
jing  中国的首都是北京  一句话输入完后,正
确的汉字串就选出来
了。
在整个输入过程中,无需选择汉字,完全实现盲打。
由于这种方法是基于对语料库的统计,而没有使用文法信息,因此不免有一定的错误。错误率为15%,但通常不超过5%。这种方法收录了30000以上条词。最长词为6字,可理解的最长句子为50字。对超过50字的句子,自动分为若干个40至50字之间的句子。
智能输入方法已在北京超凡电子科技有限公司的产品“知音文书机JANET”文字处理系统上实现。
注*:以上错误率以输入报纸上的文章为准。
本发明的主要优点:
1.本发明只需输入拼音或带声调的拼音,不用看提示行选字,所以可以实现盲打输入汉字,并减少了按键次数。
2.不用花太多时间学习训练。本发明中拼音的“拼法”和新华字典上完全一致,因此只要会拼音,不用学习就能使用。
3.本发明符合人类的用语习惯,不用拆字,数笔画,无须记忆码表,大多数人都可以做到快速输入。
4.本发明所具有的自动理解、分析、判断句子的智能功能,避免了输入的字是错别字。

Claims (4)

1、本发明智能拼音输入法,其特征在于把拼音到汉字的转换看成一个对应问题,把一个句子作为一个整体进行考虑,由上下文来确定每一拼音对应的汉字,而不需要手工选字,即已知一个句子S的读音(拼音)S=(S1,S2,…,SN)找出应该对应什么样的汉字词串W=W1,W2,…,WN)。由系统自动完成对句子的输入。
2、根据权利要求1所述,智能拼音输入法的特征是:由拼音到汉字的转换,是通过计算汉语词之间的转移概率P(Wi/Wi-1)来实现的。在实现时,事先统计出P(Wi/Wi-1),然后对输入拼音串算出一个最可能的汉字句子,计算过程由计算机自动完成。
3、根据权利要求1所述,智能拼音输入法的特征是:在输入一个拼音后,智能拼音首先给出一个最有可能的汉字(当然可能是错误的),再输入以后的拼音,智能拼音通过考察后面的拼音来修正它对应的汉字。在输入拼音后,智能拼音对前面K-1个拼音对应的汉字要进行重新考虑,同时这个音对应什么汉字也有前K-1个音来确定。当一句话结束时,这句话中所有的汉字才最后确定下来。
4、根据权利要求1所述,智能拼音输入法的特征是:在语料库收录了30000以上条词,最长词为6个字,可理解的最后句子为2至50字,对超过50字的句子,自动分为若干个40-50之间的句子。
CN 94103482 1994-04-18 1994-04-18 智能拼音输入法 Pending CN1110802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 94103482 CN1110802A (zh) 1994-04-18 1994-04-18 智能拼音输入法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 94103482 CN1110802A (zh) 1994-04-18 1994-04-18 智能拼音输入法

Publications (1)

Publication Number Publication Date
CN1110802A true CN1110802A (zh) 1995-10-25

Family

ID=5031103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 94103482 Pending CN1110802A (zh) 1994-04-18 1994-04-18 智能拼音输入法

Country Status (1)

Country Link
CN (1) CN1110802A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158969B (zh) * 2007-11-23 2010-06-02 腾讯科技(深圳)有限公司 一种整句生成方法及装置
CN105573520A (zh) * 2015-12-15 2016-05-11 上海嵩恒网络科技有限公司 一种五笔的长句连打输入方法及其系统
CN105607753A (zh) * 2015-12-15 2016-05-25 上海嵩恒网络科技有限公司 一种五笔的长句输入方法和长句输入系统
CN105718070A (zh) * 2016-01-16 2016-06-29 上海高欣计算机系统有限公司 一种拼音的长句连打输入方法及其系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158969B (zh) * 2007-11-23 2010-06-02 腾讯科技(深圳)有限公司 一种整句生成方法及装置
CN105573520A (zh) * 2015-12-15 2016-05-11 上海嵩恒网络科技有限公司 一种五笔的长句连打输入方法及其系统
CN105607753A (zh) * 2015-12-15 2016-05-25 上海嵩恒网络科技有限公司 一种五笔的长句输入方法和长句输入系统
CN105573520B (zh) * 2015-12-15 2018-03-30 上海嵩恒网络科技有限公司 一种五笔的长句连打输入方法及其系统
CN105607753B (zh) * 2015-12-15 2018-03-30 上海嵩恒网络科技有限公司 一种五笔的长句输入方法和长句输入系统
CN105718070A (zh) * 2016-01-16 2016-06-29 上海高欣计算机系统有限公司 一种拼音的长句连打输入方法及其系统

Similar Documents

Publication Publication Date Title
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
CN86105459A (zh) 输入处理系统
CN1252575A (zh) 用于机器翻译的中文生成装置
CN85100837A (zh) 优化五笔字型编码法及其键盘
CN1901041A (zh) 语音字典形成方法、语音识别系统及其方法
CN1110802A (zh) 智能拼音输入法
CN1164985C (zh) 计算机音形码汉字输入法
CN1025135C (zh) 汉字元音码计算机输入方法及键盘
CN1025540C (zh) 汉字拼音编码计算机输入的一种键盘方案
CN1111373A (zh) 一种以汉语拼音为基础的计算机汉字输入方案
CN1081811C (zh) 汉字画音码编码输入方法
CN1332402A (zh) 字词句万能组合汉字输入法
CN1256453A (zh) 外语音节输入法
US20040021641A1 (en) Method for inputting a chinese character with phonetic symbols
CN100365550C (zh) 汉语常用字三码输入法
CN1043490C (zh) 叠词变换方法和汉字变换装置
CN1039512C (zh) 计算机中文单笔划输入系统
CN1409193A (zh) 金字塔汉字智能混拼输入法及键盘
Zhang et al. Chinese Pinyin Input Method for Mobile Phone
CN1105463A (zh) 汉字输入码的编码方法
CN1098213A (zh) 笔数码和声形笔数码汉字输入法
CN110956017A (zh) 汉语普通话信息ascii自然语言理解码
CN1061666A (zh) 微机输入汉字音文编码
CN1108553C (zh) 通用普及型音元形音汉字编码输入方法
CN1328282A (zh) 汉字《天然码》输入方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Chaofan Electronic Sci & Tech Co., Ltd., Beijing

Document name: payment instructions

C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Chaofan Electronic Sci & Tech Co., Ltd., Beijing

Document name: Deemed as a notice of withdrawal

C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication