CN1556452A - 数字键盘智能拼音汉字输入方法 - Google Patents

数字键盘智能拼音汉字输入方法 Download PDF

Info

Publication number
CN1556452A
CN1556452A CNA2003101216289A CN200310121628A CN1556452A CN 1556452 A CN1556452 A CN 1556452A CN A2003101216289 A CNA2003101216289 A CN A2003101216289A CN 200310121628 A CN200310121628 A CN 200310121628A CN 1556452 A CN1556452 A CN 1556452A
Authority
CN
China
Prior art keywords
phonetic
chinese character
input
key
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2003101216289A
Other languages
English (en)
Other versions
CN100465860C (zh
Inventor
王晓龙
刘秉权
关毅
王轩
王平
徐志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CNB2003101216289A priority Critical patent/CN100465860C/zh
Publication of CN1556452A publication Critical patent/CN1556452A/zh
Application granted granted Critical
Publication of CN100465860C publication Critical patent/CN100465860C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

数字键盘智能拼音汉字输入方法,以“语句”为单位通过数字键盘将汉字输入到手机、电话机、传真机、或掌上类信息处理设备。使用本输入法,能同时自动处理汉字输入过程中的数字键位歧义、拼音组合歧义、和同音多字歧义。用户只需输入对应汉字拼音的数字键,系统便根据上下文在整个语句范围内调整相应的汉字,保证汉字语句的正确。输入过程中数字拼音的确认可由人工操作,也可由系统自动完成,同时,可处理其他形式的拼音输入。系统能自动学习用户知识,不断提高拼音到汉字转换的准确率。本输入法操作自然,易于学习,可减少拼音输入的击键次数,提高手机类设备的汉字输入速度。

Description

数字键盘智能拼音汉字输入方法
技术领域:本发明涉及一种汉字的输入方法,特别是一种以“语句”为单位通过数字键盘将汉字输入到手机、电话机、传真机、或掌上类电子设备的方法。
背景技术:拼音是汉字的标准音调符号,因其易学易用,成为最受欢迎的汉字输入手段,缺点是由于汉字多音字现象很普遍,因而重码率高,基于字、词的拼音输入往往速度较慢,手机等信息处理设备利用数字键盘进行拼音输入面临的这种问题更加明显。根据上下文建立汉语语言模型,在此基础上以语句为单位进行输入能很好地克服普通汉字输入法的弊端。
数字键盘中,每个按键对应多个英文字母或者汉语拼音字母,在利用拼音进行汉字输入时,存在多种输入歧义,目前的数字键盘拼音汉字输入法通常不能同时消除这些歧义。歧义包括以下几种:
1.数字键位歧义。数字键盘上的每个按键多数对应多个(三~四个)字母(如图1所示),按一次键不能确定唯一的字母,常用的有效方法是根据不同情况多次按相应的键。例如数字键“2”对应三个字母“A”、“B”、和“C”,想分别输入这三个字母,最常用的一种方法是按一次“2”键输入“A”,连续按二次“2”键输入“B”,连续按三次“2”键输入“C”。
2.拼音组合歧义。由第一种歧义引发,一个按键序列(可用数字序列表示)可对应多个汉语拼音。这里每个合法汉语拼音对应的数字序列称之为数字拼音,所以换句话说,一个数字拼音通常对应多个合法的候选标准拼音,如数字拼音“226”对应“ban”、“can”两个合法拼音,而数字拼音“726”则对应“pan”、“pao”、“rao”、“san”、“sao”、“ran”等多达六个合法拼音。
3.同音多字歧义。通过拼音输入汉字,如果以字、词为单位通常存在大量候选,如输入拼音“shi”,其对应的汉字包括“时、使、识、是、…”等,输入拼音“shi shi”,其对应的汉字词包括“实施、逝世、事实、…”等,对应国标GB2313-80中的汉字,同音字最多超过130个,新的国标中,这种现象更为严重。由于一个数字拼音对应多个标准拼音,使用数字拼音输入汉字时的重码现象要严重几倍。以字或词为单位输入汉字,必须有一个用户选择同音字、词的过程,需要时常翻页,大大影响了输入速度。
目前在数字键盘上利用拼音输入汉字的各种方法均不能同时消除以上歧义。
发明内容:本发明的目的在于提供一种在手机、电话机、传真机或掌上类电子产品等主要由数字键构成的小键盘上使用的数字键盘智能拼音汉字输入方法。本发明输入采取连续输入方式,一次输入多个字的拼音信息,这些字通常组合为一个短语或句子,系统对输入信息进行处理,选择具有最大可能的对应汉字结果作为输出,如果该结果正确,用户再输入一个确认学习键结束,否则进入句内编辑方式对该结果进行修改,修改错误完毕后,输入确认学习键结束。本发明输入法可以处理通过数字键盘以各种方式输入的汉语拼音,通过语句级的上下文分析将拼音语句自动转换为汉字语句。以句子为单位输入汉语拼音,由于句子中各汉字或词之间存在语法、语义关系,可以根据上下文自动消除输入过程中的各种歧义,确定正确的同音字。本发明方法具有以更少的按键次数来达到更快输入的优点。
附图说明:图1是目前手机等信息设备中数字键盘字符键的通用布局示意图,图2是数字拼音智能汉字输入处理流程图,图3是音字转换错误修正的流程图,图4是强制学习的一种实现流程图。
具体实施方式一:本发明输入采取连续输入方式,一次输入多个字的拼音信息,这些字通常组合为一个短语或句子,系统对输入信息进行处理,选择具有最大可能的对应汉字结果作为输出,如果该结果正确,用户再输入一个确认学习键结束,否则进入句内编辑方式对该结果进行修改,修改错误完毕后,输入确认学习键结束。
以句子为单位输入汉语拼音,由于句子中各汉字或词之间存在语法、语义关系,可以根据上下文自动消除以上各种歧义,确定正确的同音字。如输入标准拼音串“ha er bin shi ge mei li de cheng shi”,转换系统可将其自动转换为汉语句子“哈尔滨是个美丽的城市”,其同音字的选择由音字转换系统自动进行,大大减轻了用户选字的麻烦,提高了输入速度。
语句级输入是本输入法的基本方式,最能体现智能输入的优越性,为兼容不同语言单位的输入,本输入法可对字、词、短语和任意长的句子或汉字串进行音字转换处理,为用户提供多种可选方式。这些不同方式都可看作语句输入方式的特例。
使用标准计算机键盘输入汉字,直接按上述方式输入字母串即可确定唯一拼音串,进而实现语句级输入。在手机等信息设备中,必须利用数字键盘(小键盘)输入信息。使用本发明输入法,拼音输入仍然可以直接按照小键盘盘面定义的字母输入,一键对应多个字母的只需输入同一键,输入完一个完整拼音后可以输入一个拼音结束确认键,再接着输入下一个拼音,或者省略拼音结束确认键,由系统自动切分拼音,连续输入数字拼音串所产生的数字键位歧义、拼音组合歧义、和同音多字歧义由系统根据语言模型处理。
以数字拼音输入汉字,基本表达形式如下:用数字串代替标准拼音串,根据键盘定义,每个字母按顺序对应一个数字,数字拼音之间显式输入拼音确认键,如用0作为人工确认键,例如输入“哈尔滨是个美丽的城市”,则输入的数字拼音串表示为“420370246074404306340540330243640744”。
数字拼音串到汉字串的转换可以在输入完所有数字拼音并按确认键后一次性转换,也可以在确认输入每一个数字拼音后立即转换已输入的所有数字拼音,这样用户可以随时知道转换结果,便于随时进行错误修改,或在认为输入正确的情况下及时给与确认。这两种处理方式适合各种拼音输入形式。
显式输入拼音确认键是因为相邻两个拼音连续输入时存在界限划分的歧义。比如对标准拼音而言,字符串“shengen”既可切分为“shen”和“gen”,也可切分为“sheng”和“en”。其相应的数字串“7436436”至少可切分为两种结果:“7436”和“436”,或“74364”和“36”。有时一个字符串既可看作一个拼音,也可看作两个拼音,如字符串“xian”,其本身是一个合法拼音,同时也可看作两个拼音“xi”和“an”的组合,其相应的数字拼音也存在同样问题。对数字拼音而言,类似现象更为严重,不同的切分结果可能更多。一个未切分的数字串可以对应多种数字拼音的组合。如根据实验结果,数字串“423724674443634543324364744”可切分为多达189种合法的数字拼音组合。
人工输入拼音确认键,增加了按键信息,本发明可以自动对数字串进行切分,确定最合理的切分结果。
具体实施方式二:连续输入数字拼音,无需用户输入拼音切分确认键。例如输入“哈尔滨是个美丽的城市”,输入的对应数字串为“423724674443634543324364744”。正确地切分数字拼音由系统自动处理。
这种方式的弊端是有时会发生转换错误,此时需要额外的错误修正过程。
具体实施方式三:本实施方式为以上两种实施方式的混合运用。用户根据经验在认为可能出现切分歧义的情况下对数字拼音进行人工确认,即输入确认键(如“0”键),其他情况下由系统自动切分。同时限定在对当前拼音进行切分时,其前面的切分结果不变,即在处理当前拼音时,默认前面的切分结果是正确的,以避免不同转换结果带来的反复修改的麻烦。在用户输入过程中,如果发现拼音切分错误可以及时纠正,这样可以减少后续的拼音切分和拼音汉字转换错误。这种灵活输入方式能在尽量降低击键次数的同时保证输入的准确性。因而这里的混合输入方式是最理想的。
实现语句输入,需要在设备的显示屏幕上开辟出特定区域显示输入信息、待编辑的转换结果和候选提示信息。
以下为使用本实施方式进行汉字输入的例子。
例1:输入“下午开会”。其对应的数字拼音依次为“924”、“98”、“524”、“484”。
输入      输出              说明
924                         已构成一个完整拼音,
                            待切分
9         下                “9”被看作下一个拼音的
                            开始,从此处开始切分
8         下                此时“98”已构成完整拼音
5         下午              “5”被看作下一个拼音的开始,从此
                            处开始切分
24        下午              此时“524”已构成完整拼音
4         下午来            “4”被看作下一个拼音的开始,从此
                            处开始切分
840       下午开会          “484”构成完整拼音,“0”作为拼音结
                            束键,转换出最后结果
0                          整个句子输入确认键。
例2:输入“再就业工作”。其对应的数字拼音依次为“924”、“548”、“93”、“4664”、“986”。
输入          输出         说明
924                        已构成一个完整拼音,
                           待切分
5             在           “5”被看作下一个拼音的开始,从此
                           处开始切分
48            在           此时“548”已构成完整拼音
9             再就         “9”被看作下一个拼音的开始,从此处
                           开始切分
34            再就         此时“934”已构成完整拼音,但不是需
                           要的结果,应在“3”和“4”之间切分
C(删除键)     再就         按删除键删去“4”
0             再就业       按“0”手工切分
4664          再就业       此时“4664”已构成完整
                           拼音
9             再就业工     “9”被看作下一个拼音的开始,从此处
                           开始切分
860           再就业工作   “0”作为拼音结束键,
                           转换出最后结果
0                          整个句子输入结束确认键。
具体实施方式四:当输入一个数字拼音后,系统提示出对应的所有标准拼音,用户确定需要的唯一汉语拼音,这样能提高系统的转换正确率,但确认过程增加了按键信息,降低了语句输入的流畅性。
以上几种实施方式的拼音表达方式都使用了不等长的标准拼音形式,除此之外,每个拼音音节还可以通过以下方式来输入:使用等长的压缩拼音形式,如三键确认一个标准拼音。这种情况下,拼音汉字转换程序可以直接针对标准汉语拼音进行处理,数字键到标准拼音的转换由具体的拼音输入方法处理,与拼音汉字转换程序无关。这种方式由于输入不同拼音的击键数相等,所以无需额外的拼音确认键,也不存在自动切分拼音的难题,可进一步减少拼音输入的击键次数,降低系统的复杂程度,同时由于输入的汉语拼音是确定的,减少了候选汉字的数量,可进一步提高汉字转换结果的准确率。
拼音到汉字转换的方法:
由拼音到汉字的转换(音字转换)通过采用语言模型技术自动完成。这里拼音包括数字拼音在内的各种拼音形式。
音字转换过程能同时自动处理前文所述的各种输入歧义。
给定数字串,得到相应的汉字结果,存在几条途径:
1.给定数字串→得到所有可能的汉字串→找到可能性最大的汉字串作为结果;
2.给定数字串→切分数字拼音(如未切分)→如有切分错误进行手工修正→得到所有可能的汉字串→找到可能性最大的汉字串作为结果;
3.给定数字串→切分数字拼音(如未切分)→如有切分错误进行手工修正→转换为标准汉语拼音串→如存在转换错误则手工选择正确拼音→得到所有可能的汉字串→找到可能性最大的汉字串作为结果。
以上几种方法实现起来,人工干涉依次越来越多,导致汉字候选越来越少,转换精度越来越高。作为折衷,申请人认为第二种方法最理想。理由是:第一种方法转换的汉字串可能不对应正确的数字拼音切分结果,因而不利于错误修改;第三种方法人工干涉过多。在数字拼音切分正确的前提下,一次性转换为汉字,如存在转换错误再去修改可能的错误汉字和拼音,是比较可行的。第二种方法适合前面给定例子。
以上方法中包括几个存在包含关系的子步骤:
1.给定未切分的数字拼音串,得到切分的数字拼音串;
2.给定切分的数字拼音串,得到正确的标准汉语拼音串;
3.给定未切分的数字拼音串,得到标准汉语拼音串;
4.给定未切分的数字拼音串、或切分的数字拼音串、或标准汉语拼音串,得到汉字串。
这些问题的解决可以使用语言模型技术。语言模型包括基于语言知识的规则模型和统计模型。统计语言模型是主流方法,其中最简单有效的是N-gram模型(N-1阶Markov模型):
假设句子s由词串w1w2…wn组成,使用语言模型M,s的概率pM(s)可表示为:
p M ( s ) = p ( w 1 ) Π i = 2 n p ( w i | w 1 · · · w i - 1 ) - - - ( 1 )
由于n值所限,当前词的概率依赖于前面所有词的同现概率在现实中是无法估计的,因此在N-gram模型中,假设当前词的出现概率仅与相邻的前N-1个词有关,此时wi-N+1…wi-1wi称为N元对,通常N小于或等于3,当N值取3时有:
p M ( s ) ≈ p ( w 1 ) p ( w 1 | w 2 ) Π i = 3 n p ( w i | w i - 2 w i - 1 ) - - - ( 2 )
采用最大可能性原理估计N(3)元概率值p(wi|wi-2wi-1):
p ( w i | w i - 2 w i - 1 ) = c ( w i - 2 , w i - 1 , w i ) Σ w i c ( w i - 2 , w i - 1 , w i ) - - - ( 3 )
其中,c(*)表示*在训练语料中出现的次数(频率)。
语言模型应用于智能拼音汉字转换系统,问题的求解转化为给定一拼音串(包括数字拼音),求使pM(s)值为最大的汉字串s。为解决数据稀疏问题,采用线性插值方法进行数据平滑。
模型中的w1w2…wn既可以是词串,也可以是字串。将w1w2…wn看成数字拼音串或标准拼音串,就构成了求解唯一拼音串的数学模型。求解过程可采用Viterbi算法。
为支持本发明的数字拼音切分、数字拼音-标准拼音转换和各种形式的音字转换,需提供以下几个知识库:
1.标准汉语拼音表:汉语拼音字符形式的列表。用于标准拼音的查询,进一步供拼音提示、查找同音字和计算最大可能拼音串使用。
2.数字拼音表:按照现有小键盘上的数字与字母的对应关系定义的数字拼音列表。按从小到大的顺序排序。用于数字拼音的查询和切分。
3.数字拼音到标准汉语拼音的索引表:标明数字拼音到汉语拼音的对应关系。与前两个表一起用于通过数字拼音查询标准拼音。
索引形如:
726->pan,pao,ran,rao,san,sao;
其中对应同一个数字拼音的多个标准拼音按字母顺序排序。
4.带汉语拼音并按拼音排序的汉语字库(国家标准,字可以看作单字词)和词库(几千到几万词条):用于根据拼音串(一个或多个拼音)查找相应字或词并组合所有可能的句子,也用于查找对应某个拼音或拼音串的所有同音字词候选,供提示选择用。为便于查询,按词长不同分别存储。
词条形如:
zhong guo 中国
zhuan li fa 专利法
5.数字拼音统计知识库:包括数字拼音的N元对和其频率信息,它由大规模数字拼音语料统计得到。用于根据N-gram模型计算拼音切分结果。例如:
一元对形式:94664 800
二元对形式:94664 482 350
三元对形式:94664 482 736 60
其中,最后一段整数为频率,前面数字串为数字拼音
6.汉语拼音统计知识库:包括拼音的N元对和其频率信息,它由大规模汉语拼音语料统计得到。用于根据N-gram模型计算最大可能的标准拼音序列。例如:
一元对形式:zhong 400
二元对形式:zhong hua 150
三元对形式:zhong hua ren 30
7.汉语词(单字看作一字词)的统计知识库:包括词的N元对和其频率信息,它由大规模汉字文本语料统计得到。用于根据N-gram模型计算最大可能的汉字转换结果。例如:
一元对形式:中华 300
二元对形式:中华 人民 120
三元对形式:中华 人民 共和国 50
具体实施方式五:本实施方式为给定未切分的数字拼音串,得到正确切分的数字拼音串的处理过程,即自动切分加手工修正过程:
1.给定数字拼音串(通过数字键盘连续输入并按转换确认键);
2.查询“数字拼音表”得到对应输入数字串的所有数字拼音组合;
3.查询“数字拼音统计知识库”,得到相应数字拼音的N元对信息,利用N-gram模型和Viterbi算法计算最大可能的数字拼音切分结果,并显示于屏幕;
4.如果存在切分错误,手工删除错误结果,重新输入相应拼音并手工切分。
(5.转到音字转换过程)
具体实施方式六:本实施方式为给定切分好的数字拼音串(包括用户在前面编辑过程中的错误修改信息),得到相应的汉字结果的处理过程(对应图2中的拼音汉字转换过程):
1.给定已切分好的数字拼音串,同时给定用户在上次编辑过程中的错误修改信息;
2.查找“数字拼音到标准汉语拼音的索引表”得到每个数字拼音对应的标准拼音,如果某数字拼音对应的汉语拼音在前面的句内编辑过程中已被用户唯一选定,则只需要已选定的标准拼音;
3.根据每个可能的标准拼音的连续组合查找“带拼音的词库”获得所有对应的汉字和词,得到结果汉字串的所有可能的字词组合,如果某数字拼音对应的汉字在前面的句内编辑过程中已被用户唯一选定,则只需要已选定的汉字及在相应位置包含这个字的词;
4.查询“汉语词的统计知识库”,获得相应汉字词的N元对信息,利用N-gram模型和Viterbi算法计算最大可能的汉字串,作为音字转换结果。
(5.转到句内编辑过程)
具体实施方式五、具体实施方式六即是系统对输入信息进行处理的主要过程。
具体实施方式七:本实施方式为数字键盘智能拼音汉字输入系统的典型运行过程,其主要步骤如图2所示,例1、例2为其实施例,要点包括:
1.以数字拼音形式输入汉字语句;
2.输入一个数字拼音之后可手工输入拼音确认键,也可以由系统自动切分拼音,自动切分时,前面的切分结果不变,如果发现切分错误,可手动删除错误结果,重新输入数字拼音并手动切分;
3.在确认一个新拼音后,连同之前输入的拼音,系统对其进行音字转换,并显示转换结果,手动确认拼音时,在按确认键后开始音字转换,自动切分拼音时,对切分好的拼音进行音字转换;
4.每次音字转换后,可以接着输入下一个汉字的数字拼音,也可以进入句内编辑状态,或在按确认键后结束本句输入过程;
5.在句内编辑状态,可以按提示选择方式修正音字转换错误,也可以进行拼音插入、删除、修改等操作;
6.句内编辑结束后,可选择强化记忆或自然记忆过程,之后结束本句输入过程;
7.在句内编辑过程中如果对原始输入有修改,必须重新进行音字转换;
8.几种情况下结束本句输入:按强化记忆或自然记忆键后、按结束确认键后。
具体实施方式八:输入法提供对错误的汉字转换结果的编辑程序,编辑包括错误修正和拼音插入、删除、修改等功能。
音字转换并不总是100%正确,当存在各种转换错误时需要对其修正。如例2所示,数字拼音的切分错误最好在其输入过程中随时修正。音字转换之后系统会根据用户指示(通常将光标移动到所要修改的汉字前面)提示出某数字拼音对应的多个标准拼音,或其同音字(这里同音可以针对标准拼音、数字拼音等各种拼音形式),如果用户发现存在转换错误,可以根据提示来选择正确的拼音、字或词,在这之后,系统会将用户选择的拼音或字确认下来重新进行音字转换。如果仍然存在转换错误,则继续修改,直到完全正确为止。
这里错误修正包括拼音的重新选择和汉字词的重新选择两个阶段,一种实现方法是如果有拼音确定错误,则先提示数字拼音对应的多个标准拼音,供用户选择,如果没有拼音确定错误或错误已纠正,则用户判断是否有音字转换错误,如有,则提示同音字或词,供用户进一步选择。
另一种方法是同时提示可选拼音和所有对应汉字,如果选择某拼音,则接着提示该拼音所对应的汉字;或者直接选择汉字,如果当前屏幕没有所需汉字,则使用翻页键翻页。一种实现方案如下例所示:
步骤1.假设键盘输入为“3260”(“0”用来确认拼音),则屏幕首先显示出其转换(根据上下文进行音字转换)结果,假设为“刀”;
步骤2.如果想修改转换结果,将光标移动到“刀”前面,或额外按提示键,则系统可以以3乘3、3乘4或3乘5的矩阵形式同时显示该数字拼音对应的标准拼音(同一数字拼音对应的标准拼音不超过6个,一页足以显示)和候选汉字(),如下所示:
fan  dao  dan
刀   反   到
翻   但   弹拼音显示在前,汉字显示在后,可分别按使用频率的大小进行排列。这种显示方法布局与数字键盘的9个数字键的布局相对应,因此可以方便地通过对应位置的数字键来选择相应的拼音或汉字。
步骤3.拼音或汉字选择。如果按某个拼音对应的键,则系统会接着以同样方式提示该拼音所对应的汉字,如按“2”键,则系统接着以矩阵形式提示“dao”对应的同音汉字:
刀  到  岛
导  盗  倒
稻  捣  蹈
如果按某个汉字对应的键则选择相应的汉字,如果该页没有所选汉字,则按翻页键提示下一页同音字,直到出现所选汉字,按相应数字键进行选择。例如在显示第一个矩阵后按“9”键,得到汉字“弹”,而在显示第二个矩阵后按“9”键则得到汉字“蹈”。
图3给出了按此种方式修正音字转换错误的流程。
以上错误修正可能引起新的转换错误,因此这种错误修正必须按照一定的顺序进行,比如自左向右的顺序,此时当修改某个转换错误时,系统假设其左边的转换是正确的,这样重新进行音字转换时对已转换正确的内容不造成影响。这种处理方法也适合对拼音自动切分错误的修正。也可以采用其它的错误修正顺序。通常修正一个错误重新进行音字转换后可以进一步减少后面的错误。
当用户发现自己的输入存在问题(如拼音拼写错误、切分错误、拼音选择错误、多输入或少输入拼音等)时,系统为用户提供拼音修正、插入、删除等编辑功能。
为完成以上各种句内编辑功能,本方法需设置相应的提示键、光标左右移动键、翻页键、选择键、汉字删除键、插入键、句内编辑结束键(自然记忆学习结束键、强制记忆学习结束键)等功能键。由于数字键盘中按键有限,以上功能键可以复用,根据其所处状态决定其功能。由于插入、删除方法属已有技术,所以在此不再赘述。
具体实施方式九:在对可能的音字转换错误经过修正后,本输入法能够自动学习用户知识,不断提高音字转换的准确率。机器学习区分为两种方式,本实施方式为其中的一种即“自然学习”:在用户输入自然学习命令后,输入法可小幅度地增加相应字、词、或N元词对的频率值,或同时减小其他字、词、或N元词对的频率值,经过一段时间的学习、记忆使特定语言现象(字或词)在候选中的优先性逐步提高。
在“句内编辑”程序之后设置“自然记忆”程序:将程序自动提供的汉字串和修正后的正确汉字串进行对比,对两个汉字串中对应汉字不相等的位置作标记,将修正后的汉字串中包含以上标记的词及其与相邻词构成的N元对的频率分别增加一较小固定值(比如3、4或5)即可。
具体实施方式十:本实施方式为“强制学习”,在经过错误修正后输入强制学习命令,系统可对正确的结果强化记忆,比如大幅增加相应字、词、或N元词对的频率值,或同时大幅减小错误转换结果的频率值,以便下一次输入同样内容的情况下转换正确。图4给出了强制学习的一种实现流程。在绝大多数情况下可以达到强制学习目的,只有当互相竞争的不同候选字、词或N元词对的频率都达到极限值(受存储器内部数值表示范围的限制)时,无法达到此目的。为有效防止或限制这种情况的发生,系统在达到极值的词或词对数达到一个限定值(设置变量记录此值)时,将对整个知识库中的频率信息按比例减值,以预留足够的增值空间。
在“句内编辑”程序之后设置“强化记忆”程序:将程序自动转换的汉字串和修正后的正确汉字串进行对比,对两个汉字串中对应汉字不相等的位置作标记,将修正后的汉字串中包含以上标记的词及其与相邻词构成的N元对的频率分别增加一较大固定值(可以是10~50),然后针对初始输入的数字串系统内部重新进行数字拼音到汉字的转换过程,以此验证“强化记忆”是否达到了目标,此时判断是否仍然存在音字转换错误?否,强制学习结束,当前语句输入过程结束;若仍然存在音字转换错误,则判断相关频率是否已增至系统允许极限值?是,将记录频率达到极限值的词或词对个数的变量增值,强制学习结束,当前语句输入过程结束,否,转到“将程序自动提供的汉字串和修正后的正确结果汉字串进行对比”程序。
系统的知识存储空间有限,因此在记忆一段时间后可以根据先进先出规则“适时地”删去某些记忆信息。这一方面能防止系统知识库规模的无限扩大,另一方面也符合并模拟了人的记忆规律,即人的记忆是有限的,对最近记忆的信息印象最深,这能有效避免记忆知识的冲突。

Claims (5)

1、一种数字键盘智能拼音汉字输入方法,其特征在于:输入采取连续输入方式,一次输入多个字的拼音信息,这些字通常组合为一个短语或句子,系统对输入信息进行处理,选择具有最大可能的对应汉字结果作为输出,如果该结果正确,用户再输入一个确认学习键结束,否则进入句内编辑方式对该结果进行修改,修改错误完毕后,输入确认学习键结束。
2、根据权利要求1所述的数字键盘智能拼音汉字输入方法,其特征在于拼音为不等长标准拼音或者等长的压缩拼音。
3、根据权利要求1所述的数字键盘智能拼音汉字输入方法,其特征在于使用标准拼音输入时,直接按照小键盘盘面定义的字母输入,一键对应多个字母的只需输入同一键即可,输入完一个完整拼音后可以输入一个拼音结束确认键,再接着输入下一个拼音,或者省略拼音结束确认键,由系统自动切分拼音,连续输入数字拼音串所产生的数字键位歧义、拼音组合歧义、和同音多字歧义由系统根据上下文信息自动处理。
4、根据权利要求1所述的数字键盘智能拼音汉字输入方法,其特征在于系统以3乘3、3乘4或3乘5的矩阵形式同时或分别显示输入数字拼音对应的标准拼音和候选汉字,供用户选择,如果按某个拼音对应的键,则系统会接着以同样方式提示该拼音所对应的汉字;如果按某个汉字对应的键则选择相应的汉字,如果当前页没有所选汉字,则按翻页键进行翻页,直到出现所选汉字,按相应数字键进行选择。
5、根据权利要求1所述的数字键盘智能拼音汉字输入方法,其特征在于句内编辑之后,为自然记忆学习或强化记忆学习,在用户按自然学习键后,输入法可通过小幅度地增加相应字、词、或N元词对的频率值,或同时减小其他字、词、或N元词对的频率值,逐步记忆用户知识。在经过错误修正后按强制学习键,系统对正确的结果强化记忆,大幅增加相应字、词、或N元词对的频率值,或同时大幅减小错误转换结果的频率值,以便下一次输入同样内容的情况下转换出正确结果。
CNB2003101216289A 2003-12-31 2003-12-31 数字键盘智能拼音汉字输入方法 Expired - Fee Related CN100465860C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2003101216289A CN100465860C (zh) 2003-12-31 2003-12-31 数字键盘智能拼音汉字输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2003101216289A CN100465860C (zh) 2003-12-31 2003-12-31 数字键盘智能拼音汉字输入方法

Publications (2)

Publication Number Publication Date
CN1556452A true CN1556452A (zh) 2004-12-22
CN100465860C CN100465860C (zh) 2009-03-04

Family

ID=34338501

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101216289A Expired - Fee Related CN100465860C (zh) 2003-12-31 2003-12-31 数字键盘智能拼音汉字输入方法

Country Status (1)

Country Link
CN (1) CN100465860C (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006026908A1 (fr) * 2004-08-25 2006-03-16 Dong Li Procede permettant d'introduire dans un terminal portatif des caracteres chinois a l'aide de lettres phonetiques continues
CN101154226B (zh) * 2006-09-27 2011-02-16 腾讯科技(深圳)有限公司 在输入法词库中添加未登录词的方法及文字输入装置
CN102193639A (zh) * 2010-03-04 2011-09-21 阿里巴巴集团控股有限公司 一种语句生成方法及装置
CN102810095A (zh) * 2011-06-02 2012-12-05 北京搜狗科技发展有限公司 一种学词方法和装置
CN102999170A (zh) * 2011-09-16 2013-03-27 阿比吉特·巴塔查尔吉 键入中文文本的方法和系统
CN104049770A (zh) * 2014-07-03 2014-09-17 任文 一种基于中文语句输入的汉字候选、定位与纠错方案
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1215397C (zh) * 1999-11-12 2005-08-17 中兴通讯股份有限公司 小键盘拼音汉字输入方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006026908A1 (fr) * 2004-08-25 2006-03-16 Dong Li Procede permettant d'introduire dans un terminal portatif des caracteres chinois a l'aide de lettres phonetiques continues
CN101154226B (zh) * 2006-09-27 2011-02-16 腾讯科技(深圳)有限公司 在输入法词库中添加未登录词的方法及文字输入装置
CN102193639A (zh) * 2010-03-04 2011-09-21 阿里巴巴集团控股有限公司 一种语句生成方法及装置
CN102810095A (zh) * 2011-06-02 2012-12-05 北京搜狗科技发展有限公司 一种学词方法和装置
CN102810095B (zh) * 2011-06-02 2016-01-13 北京搜狗科技发展有限公司 一种学词方法和装置
CN102999170A (zh) * 2011-09-16 2013-03-27 阿比吉特·巴塔查尔吉 键入中文文本的方法和系统
CN104049770A (zh) * 2014-07-03 2014-09-17 任文 一种基于中文语句输入的汉字候选、定位与纠错方案
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质

Also Published As

Publication number Publication date
CN100465860C (zh) 2009-03-04

Similar Documents

Publication Publication Date Title
CN1189048C (zh) 通信终端
CN1258132C (zh) 用于进行字母符号输入的小键盘布局
CN1023916C (zh) 简繁五笔字根汉字输入系统
CN1296806C (zh) 去多义性的简化键盘系统
US7395203B2 (en) System and method for disambiguating phonetic input
TWI293455B (en) System and method for disambiguating phonetic input
CN1232226A (zh) 句子处理装置及其方法
CN1834865A (zh) 一种小键盘上数字编码的汉语拼音和注音多字连续输入法
CN100342317C (zh) 字符的输入装置和方法
WO2022143454A1 (zh) 信息修正方法、装置及电子设备
CN1762144A (zh) 字符排布、输入方法以及输入装置
CN1095560C (zh) 修改汉字转换结果的系统
CN101105718A (zh) 数字键盘英汉输入方法
CN101038508A (zh) Gb拼音输入法
CN1256650C (zh) 一种中文整句输入法
CN1556452A (zh) 数字键盘智能拼音汉字输入方法
JP4890551B2 (ja) 文字変換装置、文字変換装置の制御方法
CN1991743A (zh) 一种语音输入法方法及其装置
CN1472626A (zh) 嵌入式智能文字输入解决方法和装置
CN101055499A (zh) 音形汉字输入法
CN1052200A (zh) 音形义字词兼容编码系列及键盘
CN1187677C (zh) 计算机整句汉字局部笔划输入方法
CN1379342A (zh) 汉语输入变换处理装置以及汉语输入变换处理方法
CN1293449C (zh) 数字键盘上选择式中文拼音输入法
CN1126017C (zh) 数字小键盘三键定音汉字输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090304

Termination date: 20121231