CN102999170A - 键入中文文本的方法和系统 - Google Patents

键入中文文本的方法和系统 Download PDF

Info

Publication number
CN102999170A
CN102999170A CN2012103431486A CN201210343148A CN102999170A CN 102999170 A CN102999170 A CN 102999170A CN 2012103431486 A CN2012103431486 A CN 2012103431486A CN 201210343148 A CN201210343148 A CN 201210343148A CN 102999170 A CN102999170 A CN 102999170A
Authority
CN
China
Prior art keywords
keyboard
text character
character
chinese
speech text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103431486A
Other languages
English (en)
Inventor
阿比吉特·巴塔查尔吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN102999170A publication Critical patent/CN102999170A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Input From Keyboards Or The Like (AREA)

Abstract

本发明公开了一种生成动态键盘以键入中文文本的方法和系统。所述方法包括生成用于语音文本的输入的键盘,该键盘包括语音文本字符的列表,其中键盘的一个键仅对应于一个语音文本字符。所述语音文本字符的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集。该方法还包括当接收到语音文本输入时重建键盘。所重建的键盘包括紧随所键入的语音文本输入的所有语音文本字符和关于该语音文本输入的在统计学上最可能的中文文本字符,其中键盘的一个键仅与一个语音文本字符或者仅一个中文文本字符相关联。

Description

键入中文文本的方法和系统
本发明涉及到用于在电子设备上键入中文文本字符的方法和系统。
发明背景
键盘或者触摸板通常是基于微处理器的电子设备,例如,计算机、手机以及其它用户手持设备的组成部分,并且被用于接收用户输入。这些键盘或者触摸板最常见的用途是发短信,此开发出了不同的技术以简化用户的工作。
就目前而言,涉及手机和触摸设备的最优选的键盘是常规的12键键盘,该键盘具有与字母数字字符的不同组合相关联的10个键。使用12键键盘在移动设备上输入文本的、诸如‘多次击键’和‘预测文本键入’的方法已经被广泛使用。然而,这些方法被证实对于用户来说,不仅耗时间且很费劲,而且还存在与用户要记忆待键入的字母有关的模糊性,这使得键入过程易于产生错误。‘QWERTY’键盘的广受欢迎就在于其中每个字母仅与键盘的一个键相对应,这样就解决了12键键盘所面对的限制。然而,对于诸如包括大约3500个简体中文字符以及更多繁体中文字符的中文的语言,在每个键盘上或者显示装置上显示所有字符是几乎不可行的。
为了解决该限制,所设计的方法涉及到两个或者三个步骤。基于语音的方法,例如拼音或者注音,使用语音文本键入并将它们转换为与它们同义的中文字符是已知且流行的。在拼音的情况下,通过罗马字母来表示中文字符,而这些罗马字母在汉语中表示多种可能的发音。对于标准的12键键盘,键与语音拼音字母是相对应的,并随后基于这些拼音字母的键入产生出相关的中文文本字符,由此允许用户从其中挑选他所要选择的字符。
基于语音的方法的限制进一步被复杂化是因为对于大约3500字符仅有数目为大约400个的不同发音或者字,其中这些字的语音发音中的每一个都可以是多音调的。
US 7277732教授了一种基于键输入的语言系统,其中所述语言系统源于用户最可能使用的中文文本字符。例如,为了键入拼音‘ni’,用户可以输入序列‘66444’或者甚至可以键入短序列‘64’,并且随后系统预测出其拼音可以由‘64’表示的所有可能的中文字符,例如其拼音为‘ni’或者‘mi’的字符。按照‘7277732,显示的中文文本字符受到键的可用性的影响,其中最可能的中文字符被分配给第一可用键,第二最可能的字符被分配给第二可用键,等等。通过具体地选定表示了字母表的字母的选择键来索引可用选择,所述字母通常不紧随已键入的语音字符。指定的键被显示在移动设备的显示装置上,且用户可以从键盘选择它们。
然而,因为对应的中文字符的统计预测是多于一个的、用户想要的词,键入中文文本字符的平均击键次数依然很高。即使用户决定多次按键,要键入单个中文字符的击键次数也很多。依赖于统计语言挖掘的现有系统效率很差,因为用户不得不还原到键盘的拼音字母以继续写入中文文本。因此需要提高用户方便性并试图减小中文文本输入击键次数平均值的中文文本键入系统。
附图简述
以下是参考附图的优选实施方式的简述。要理解的是,附图中示出的和参考附图描述的特征并不被理解为是对本发明范围的限制。在附图中:
图1示出了根据本发明的实施方式的键入中文文本字符的系统。
图2示出了根据本发明的实施方式的键入中文文本字符的方法。
图3示出了根据本发明的实施方式的键入中文文本字符的设备。
图4示出了根据本发明的实施方式的、在一个语音文本字符之后的多个语音文本字符的树图。
图5示出了根据本发明的实施方式的、在一个语音文本字符之后的多个语音文本字符的树图。
概述
公开了一种用于键入中文文本的动态键盘生成系统。该动态键盘生成系统包括数据仓,该数据仓包括语音文本字符列表,该列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集。动态键盘生成系统还包括键盘生成模块,该模块被配置为产生用于语音文本输入的键盘,该键盘包括语音文本字符的列表,所述语音文本字符的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集,其中键盘中的一个键仅与一个语音文本字符相对应。动态键盘生成系统还包括显示模块和字符选择模块,显示模块被配置为在显示装置上显示产生的键盘,字符选择模块被配置为从设备的用户接口接收语音文本字符或者中文文本字符的选择。键盘生成模块还被配置为当接收到语音文本输入时重建键盘,被重建的键盘包括紧随该语音文本输入的所有语音文本字符和该语音文本在统计学上输入最可能的中文文本字符,其中键盘中的一个键仅与一个语音文本字符或者中文文本字符相对应。
还公开了一种生成用于键入中文文本的动态键盘的方法。所述方法和系统包括生成语音文本输入的键盘,该键盘包括键盘中的一个键仅对应于一个语音文本字符的语音文本字符列表,语音文本字符的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集。该方法还包括当接收到语音文本输入时重建键盘。被重建的键盘包括紧随所键入的语音文本输入的所有语音文本字符和该语音文本输入在统计学上最可能的中文文本字符,其中键盘中的一个键仅与一个语音文本字符或者仅一个中文文本字符相对应。
还公开了一种用于键入中文文本的设备。所述设备包括存储器,该存储器被配置为用来存储数据仓,该数据仓包括在句子起始处所使用的最可能的语音文本字符的统计明细、紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的最可能的语音文本字符的统计明细、一个或者多个语音文本字符的最可能的语音文本字符的统计明细、紧随一个或者多个中文文本字符的最可能的语音中文文本字符的统计明细、在句子起始处所使用的最可能的中文文本字符的统计明细和关于一个语音词的最可能的中文文本字符的统计明细。所述设备还包括处理器,该处理器被配置为产生键盘,所述键盘包括语音文本字符的列表,所述语音文本字符输入的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集,其中键盘的一个键仅与一个语音文本字符输入相对应。所述设备还包括显示装置,该显示装置被配置为显示所产生的键盘和用户接口,所述用户接口被配置为接收字符选择。该处理器还被配置为当接收到语音文本输入时重建键盘,被重建的键盘包括紧随该语音文本输入的所有语音文本字符和该语音文本输入的在统计学上最可能的中文文本字符。
详细描述
在本说明书中描述的许多功能单元被标记为模块,以便更具体地强调其实现的独立性。例如,模块可以被实施为硬件电路,该硬件电路包括:定制的超大规模集成电路或者栅阵列;现成的半导体,例如逻辑元件、芯片、晶体管或者其它离散的组件。模块还可以在可编程硬件设备,例如现场可编程门阵列、可编程阵列逻辑元件、可编程逻辑设备或者类似物中被实现。
模块还能以软件实现以通过不同类型的处理器来执行。可执行代码的识别模块可以,例如,包括计算机指令的一个或者多个物理块或者逻辑块,其可以例如被组织为对象、过程或者功能。然而,被识别的模块的可执行文件不需要物理地位于一起,但是可以包括储存在不同位置的不同指令,当这些指令结合在一起时,构成模块并实现模块的宣称的目标。
当然,可执行代码的模块可以是单个指令或者许多指令,并且甚至可以是分布在不同程序若干不同代码段上,并跨若干个存储设备。类似地,操作数据可以在模块内被识别和在此示出,并且能够以任意合适的形式体现并且在任意合适的数据结构内组织。操作数据可以被收集为单个数据集,或者可以被分布在包括不同构件磁盘(member disk)的不同位置,并且可以至少部分地仅作为系统或者网络上的电子信号存在。
贯穿本说明书始终,对“一个实施方式”、“一实施方式”或者类似语言的参考意味着,结合实施方式描述的特定的特性部、结构或者特性包含在本发明至少一个实施方式中。因此,贯穿本说明书始终的短语“在一个实施方式中”、“在一实施方式中”和类似语言的出现可以但不必全部都指的是相同的实施方式。
公开了一种生成用于在电子设备上键入中文文本字符的动态键盘的方法。所公开的方法可以在通用计算机、触摸设备、手机或者其它手持设备中使用。当在触摸设备中时,字符可以从动态生成的键盘被直接选定,而在其它设备中时,在动态生成的键盘上显示的字符被映射到一组设备键。
所公开的方法和系统预测在给定情况下在统计学上最可能被使用的语音文本字符和中文文本字符。动态生成的键盘使用统计数据来持续地预测对于一个或者多个先前选定的语音文本字符或者中文文本字符而言在统计学上最可能的语音文本字符或者中文文本字符。例如,所述方法使用统计数据来预测在句子起始处所使用的、紧随一个或者多个语音文本字符的或者紧随一个或者多个先前的中文文本字符的最可能的语音文本字符。类似地,所述方法使用统计数据来预测对于一个或者多个语音文本字符或者紧随一个或者多个先前的中文文本字符而言的最可能的中文文本字符。句子的起始处还包括语音词的起始处。
所公开的方法产生用于键入中文文本字符的动态键盘,并且包括首先生成语音文本输入的键盘,所述语音文本输入包括语音文本字符的列表,该列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集。当接收到语音文本字符选择时,键盘被重建并包括从先前键盘所选定的语音文本字符的在统计学上最可能的语音文本字符、或者从先前键盘所选定的语音文本字符的在统计学上最可能的中文文本字符、或者两者兼有。在多于一个语音文本字符或者中文文本字符被选定处,键盘被生成并包括先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符或者中文文本字符或者两者兼有。语音文本输入指的是用于得到中文文本字符的语音语言。语音文本语言的例子可以包括拼音、注音等等。语音文本输入可以是单个语音文本字符或者多个语音文本字符。如果一个中文文本字符在传统上通过多于一个的语音文本输入得知,那么其可通过多个或者所有这类语音文本输入得到。
通过举例的方式,使用语音文本字符来键入中文文本字符的方法被进一步详细公开,其中一个特定音调的语音文本字符中的每一个可以表示最多十二个中文文本字符。通过特别举例的方式,语音文本字符为例如,‘Jing’、‘Ju’、‘Jian’、‘Jie’、‘Jiao’的中文文本字符可以是5个不同可用音调中的任意一个。更具体地,单单语音文本字符‘Ju’就对应于下列中文文本字符中的任意一个。
据  具 局 举 居 句 剧 巨 距 聚 拒 惧
俱  拘 矩 菊 沮 鞠 锯 炬 橘 驹
然而,以上每个中文文本字符可以从属于以下示出的4个音调中的任何一个:
 ju1   居   拘   鞠   驹
 ju2   局   菊   橘
 ju2   举   矩   沮
 ju4   据   具   句   剧   巨   距   聚   拒   惧   俱   锯   炬
因此,中文文本字符‘具’可以通过键入语音文本字符‘Ju’且随后指示音调标记4,生成大约十二个中文文本字符的列表,从该列表中可以选定合适的中文文本字符来唯一地得到。
根据实施方式,生成动态键盘的方法包括生成语音文本字符的列表,该语音文本字符的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集。当接收到语音文本字符选择时,键盘被重建并包括所有从先前键盘选定的语音文本字符的语音文本字符和从先前键盘选定的语音文本输入的在统计学上最可能的中文文本字符。
根据其他实施方式,当接收到中文文本字符选择时,键盘再次被重建,并且包括从先前键盘选定的中文文本字符的在统计学上最可能的中文文本字符。如果期望的中文文本字符不在所显示的中文文本字符列表中,则用户可以要求更多的中文文本字符或者还原到语音文本字符并再次开始处理。
因此如果用户如此选择的话,当接收到模式改变指令时,系统允许用户还原到语音文本字符层面。否则用户可以保持在中文文本字符层面。系统被配置为预测在两个层面上最可能的字符,并且还被配置为在两个层面之间切换。
根据另一个实施方式,对于其中不能显示整个字符集并且一组最可能的字符最初显示在键盘中的设备而言,如果用户没有找到期望的字符,他可以选择访问下一个字符列表。当接收到下一个请求更多字符的列表时,动态键盘被重建,以包括先前没有呈现的语音文本字符或者先前没有呈现的中文文本字符或者两者兼有。下一个字符列表还包括对于给定字符集的在统计学上最可能的字符。
根据可选择的实施方式,生成动态键盘的方法包括当在至少两个这样的连续的下一列表指令后没有接收任意语音文本输入时,生成在句子起始处所使用的在统计学上最可能的中文文本字符列表。
根据另一个实施方式,其中中文文本字符的语音文本字符不是已知的,用户可以选择直接访问中文文本字符列表。当接收到中文文本字符输入的指令时,动态键盘被重建以包括在句子起始处所使用的或者紧随一个或者多个先前被键入的中文文本字符的在统计学上最可能的中文文本字符的列表。
根据另一个实施方式,当接收到语音文本输入时重建键盘的方法包括使用音调标记过滤器(tonal marks filter)来重建键盘。音调标记过滤器是被配置为将可用中文文本字符的列表限制到任意一个音调的过滤器。音调标记过滤器可以被配置为动态键盘的键(作为音调1、音调2等等),或者能够是以在电子设备例如通信设备上的专用键的形式。通过选择音调标记过滤,语音文本字符或者中文文本字符的在统计学上最可能的中文文本字符的列表可以基于该音调标记被进一步筛选。音调标记过滤可以作为模块来实现。
根据另一个实施方式,当接收到中文文本字符选择时重建键盘的方法包括使用紧随一个或者多个被键入的中文字符的在统计学上最可能的中文字符和音调标记过滤器来重建键盘。
根据另一个实施方式,当接收到形成语音词的语音文本输入时,被重建的键盘包括该语音词的在统计学上最可能的中文文本字符的列表。被重建的键盘还可以包括连同音调标记过滤器一起的语音词的在统计学上最可能的中文字符的列表。根据其他实施方式,当显示完该语音词的全部中文字符时,被重建的键盘包括关于一较大语音词(上述语音词是该较大语音词的一部分)的在统计学上最可能的中文字符的列表。当语音词完全时,被重建的键盘首先包括对所完成的语音词的预测,并且然后才紧随其它字符(对于这些字符而言所键入的语音词仍然不完全)。对于所述较大语音词的在统计学上最可能的中文字符可以在键盘上以和所述语音词的中文字符不同的颜色显示出来。
根据另一个实施方式,当接收到语音文本输入时重建键盘的方法,其中语音文本输入能够形成单个语音词,被重建的键盘包括结合在一起的语音词的剩余语音文本字符。被重建的键盘还可以包括语音词或者与该语音词的在统计学上最可能的中文字符结合在一起的语音词的剩余语音文本字符。
根据其他实施方式,中文文本字符总是连同其音调标记一起被显示。
根据其他实施方式,所生成的键盘中的每个键均被映射到通信设备的物理键。
还公开了用于键入中文文本字符的动态键盘生成系统100,该系统包括数据仓101,数据仓101包括用于词的起始处的最可能语音文本字符的统计明细、紧随一个或者多个先前被键入的语音文本字符的最可能语音文本字符的统计明细以及一个或者多个语音文本字符的最可能中文文本字符的统计明细。系统100还包括键盘生成模块102,该模块被配置为生成键盘,该键盘包括语音文本字符的列表,其中所述语音文本字符的列表包括在统计学上在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的最可能的语音文本字符的所有语音文本字符或者集合,其中键盘中的一个键仅与一个语音文本字符相对应。系统的显示模块103被配置为在设备的显示装置上显示所生成的键盘,而字符选择模块104被配置为从设备的用户接口,例如键盘,接收语音文本字符或者中文文本字符的选择。键盘生成模块102还被配置为当接收到语音文本输入时重建键盘,被重建的键盘包括紧随从先前键盘选定的语音文本字符的所有语音文本字符和在统计学上语音文本输入最可能的中文文本字符,其中键盘中的一个键仅与一个语音文本字符或者中文文本字符相对应。
根据实施方式,数据仓101还可以包括紧随一个或者多个中文文本字符的最可能的中文文本字符的统计明细。根据其他实施方式,数据仓101还可以包括在句子起始处所使用的最可能的中文文本字符的统计明细、语音词的最可能的中文文本字符的统计明细以及关于上述语音词是其一部分的较大语音词的最可能的中文文本字符的统计明细。根据实施方式,数据仓101还可以包括关于中文字符的音调标记。
根据另一个实施方式,键盘生成模块102可以被配置为当接收到中文文本字符输入时重建键盘,所述被重建的键盘包括在统计学上紧随一个或者多个被键入的中文文本字符的最可能的中文文本字符。
根据实施方式,键盘生成模块102可以被配置为当接收到对更多字符或者下一列表指令的请求时重建键盘,被重建的键盘包括先前没有呈现的语音文本字符或者先前没有呈现的中文文本字符或者两者兼有。根据另一个实施方式,键盘生成模块102可以被配置为当在至少两个连续的下一列表指令后没有接受任意语音文本输入时,仅使用在统计学上句子起始处所使用的最可能的中文字符重建键盘。
根据另一个实施方式,键盘生成模块102可以被配置为当接收到模式改变指令时重建语音文本输入的键盘,被重建的键盘包括语音文本字符的列表,其中语音文本字符的列表包括在统计学上紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的最可能的语音文本字符的所有语音文本字符或者子集。
根据另一个实施方式,键盘生成模块102可以被配置为当接收到形成语音词的语音文本输入时重建键盘,被重建的键盘包括在统计学上该语音词的最可能的中文文本字符或者在统计学上连同音调标记过滤器一起的语音词的最可能的中文字符的列表。
根据其他实施方式,键盘生成模块102可以被配置为重建键盘,如果关于一个语音词没有足够的中文文本字符是可用的,则被重建的键盘包括该语音词是其一部分的较大语音词的、在统计学上最可能的中文字符的列表。该较大语音词的在统计学上最可能的中文字符能够以不同于由上述语音词的中文字符的颜色显示出来。
根据另一个实施方式,键盘生成模块102可以被配置为当接收到语音文本输入时重建键盘,其中语音文本输入能够形成单个语音词,则被重建的键盘包括结合在一起的该语音词的剩余语音文本字符或者连同该语音词在统计学上最可能的中文文本字符结合在一起的该语音词的剩余语音文本字符。
根据另一个实施方式,公开了用于键入中文文本字符的动态键盘生成系统100,其中所述键盘的每个键均映射到通信设备的物理键或者键钮。
根据可选择的实施方式,公开了用于键入中文文本的设备300。所述设备300包括存储器301,该存储器301被配置为存储数据仓302,该数据仓302包括在句子起始处所使用的最可能的语音文本字符的统计明细、紧随生成一个或者多个先前被键入的语音文本字符或者中文文本字符的最可能的语音文本字符的统计明细、一个或者多个语音文本字符的最可能的语音文本字符的统计明细、紧随一个或者多个中文文本字符的最可能的语音文本字符的统计明细、在句子起始处所使用的最可能的中文文本字符的统计明细和一个语音词的最可能的中文文本字符的统计明细。设备300还包括处理器303,该处理器303被配置为产生键盘,该键盘包括语音文本字符的列表,该语音文本字符输入的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集,其中键盘的一个键仅与一个语音文本字符输入相对应。设备300的显示装置304被配置为显示被配置为接收字符选择的被生成的键盘和用户接口305,而处理器303还被配置为当接收到语音文本输入时重建键盘,被重建的键盘包括紧随该语音文本输入的所有语音文本字符和在统计学上该语音文本输入的最可能的中文文本字符。
根据实施方式,处理器303还被配置为当接收到中文文本字符输入时重建键盘,被重建的键盘包括紧随一个或者多个被键入的中文文本字符的在统计学上最可能的中文文本字符。
根据实施方式,设备200是通信设备,其具有数字键钮,其中键盘的键被映射到这些键钮。根据其他实施方式,设备200包括关于音调标记的选择的键。
接下来,参考图4和5来说明示范性统计数据以示出所述方法和系统的工作。
参考图4,紧随语音文本字符‘q’的拼音文本字符以树图的形式被示出。根据一个或者多个关于该语音文本字符‘q’的可能的语音词的形成,语音文本字符被分支。根据该语音词是其一部分的一个或者多个较大语音词,该树图被进一步分支以示出语音文本字符。一个或者多个较大语音词可以是另一个较大语音词的一部分。关于语音文本字符‘q’的可能的语音词是‘qi’、‘qia’、‘qian’、‘qiang’、‘qiao’、‘qie’、‘qin’、‘qing’、‘qiong’、‘qiu’、‘qu’、‘quan’、‘que’和‘qun’。参考更具体的例子,如图4(a)中所示出的,对于语音文本字符‘q’,语音文本字符‘i’和‘u’被示出在树图的两个分支节点处。在分支节点‘i’处,树图进一步被分支以示出语音文本字符‘n’、‘a’、‘u’、‘e’和‘o’。因此在分支节点‘i’,形成语音词‘qi’,而其是较大语音词,例如,‘qin’或者‘qiu’的一部分。在以上的例子中,如树图4所示出的,对于所形成的每个语音词,而语音词的终结语音文本字符以下划线示出。在由图4(a)示出的例子中,对于语音文本字符‘i’,语音文本字符‘o’被示出。根据较大语音词‘qiong’的形成,现在紧随语音文本字符‘o’的语音文本字符仅有‘n’,并且紧随‘n’的语音文本字符仅有‘g’。参考图4(b),语音文本字符‘o’、‘n’和‘g’被结合在一起,并且在示出语音文本字符‘i’的树形节点的树形分支上示出为‘ong’,并且标示为‘收缩的(collapsed)’。
参考图5,紧随语音文本字符‘a’的语音文本字符以树图的形式被示出。语音词‘an’虽然是完整的语音词,但其仍是较大语音词的一部分。在示出的图5中,语音词的终结语音文本字符以一种下划线颜色被示出,该下划线颜色不同于该语音词是其一部分的较大语音词的终结语音文本字符的下划线颜色。较大语音词‘ang’的终结语音文本字符‘g’以不同于语音词‘an’的终结语音文本字符‘n’的颜色示出。
接下来参考表1、2、3和4说明示范性统计数据以示出所述方法和系统的工作。所说明的数据是从给定的一组文档中挖掘出的统计信息。在对大量的文本或者不同的一组文档进行挖掘时,概率可能变化是有可能的。然而,普遍认为挖掘统计数据的文本容量越大,系统的精确度和可靠性就越大。统计数据包括语法方面的考虑。
参考表1,在语音词起始处所使用的在统计学上最可能的语音文本字符的列表被列在第1列,而它们在所挖掘的中文语料库中出现的频率被列在第2列。接下来参考表2,第2列示出了紧随如第1列中示出的语音文本字符的语音文本字符的列表,按照它们出现概率的顺序被罗列出来。
接下来参考表3,在第2列中示出了对于一个在第1列中示出的语音词而言在统计学上最可能的中文文本字符的列表。
接下来参考表4,在第1列中示出了紧随先前被键入的中文文本字符的最可能的中文文本字符,而它们在所挖掘的中文语料库中出现的频率在第2列中被示出。
  d   548079
  z   503927
  y   498700
  s   490771
  j   347769
  x   288046
  l   267194
  h   258370
  g   246943
  b   231829
  c   214082
  w   199152
  m   181220
  t   174051
  q   167087
  n   138101
  r   131515
  f   127506
  k   101916
  p   63740
  e   32802
  a   27801
  o   1790
表1
  a   n,i,o
  b   u,a,i,e,o
  c   h,a,i,u,o,e
  d   e,a,i,u,o
  e   r,n,i
  f   a,e,u,o
  g   u,e,a,o
  h   u,a,e,o
j i,u
  k   a,e,u,o
  l   i,e,a,u,v,o
  m   e,i,a,u,o
  n   i,a,e,v,u,o
  o   u
  p   i,a,e,o,u
q i,u
  r   e,u,a,i,o
  s   h,u,i,a,e,o
  t   a,i,o,u,e
  w   e,o,a,u
x i,u
  y   i,o,u,a,e
  z   h,a,i,u,e,o
表2
  a   阿   啊
ai
an
ang   昂   肮
  ao   奥   澳   傲   熬   凹   懊   袄
表3
  一个  32469
  什么  28532
  没有  24397
  自己  21976
  了一  21489
  我们  20701
  他们  18657
  不是  14965
  他的  14800
  我的  13862
  起来  13627
  这个  12941
  知道  12903
  的人  11671
  时候  11467
  是一  11459
  这样  11097
  就是  10890
  已经  10820
  也不  10439
  的一  10297
  怎么  10278
  她的  9872
  现在  9287
  来了  9263
  的时  9102
  有一  9029
  人的  8902
  到了  8678
  出来  8189
表4
参考图2的例子,所述方法被进一步解释。参考图2,示出了根据实施方式的、使用统计数据在手机200上键入中文文本字符的动态生成的键盘。图2(a)示出了具有用于开始句子的最可能的语音文本字符的、被动态生成的键盘。该被动态生成的键盘的语音文本字符被映射到移动设备的键201,‘0’到‘9’、‘*’和‘#’。如该例子所示出的,使用其它可用键,例如中心键202,可以生成其他字符的下一列表。此外,虽然所示的例子是用于开始句子或者构成语音词的语音文本字符,但是类似的实施方式也适用于开始句子的中文文本字符的显示。
参考图2(a),当选择映射到键‘8’的语音文本字符‘j’时,生成新的键盘。如图2(b)示出的被重建的键盘显示了关于被选定的语音文本字符‘j’的所有语音文本字符以及关于被选定的语音文本字符‘j’的最可能的中文文本字符的键盘。被重建的键盘的语音文本字符和中文文本字符类似地映射到设备的键。对于图2(b)的键盘而言,当进一步选择映射到键‘1’的语音文本字符‘i’时,生成新的键盘。如图2(c)所示出的,被重建的键盘显示了关于语音文本输入‘ji’的所有语音文本字符以及关于语音文本输入‘ji’的在统计学上最可能的中文文本字符。另外地,如图2(c)所示出的键盘,显示了映射到键3、8、0和#的可能的音调标记,键入这些音调标记以进一步过滤关于语音文本输入‘ji’的统计的中文文本字符的列表。对于图2(c)的键盘,当再次选择映射到键‘2’的语音文本字符‘n’时,生成了如图2(d)所示的新的键盘。如图2(d)中所示出的,在新的键盘上显示了关于语音文本输入‘jin’的连同音调标记一起的语音文本字符和中文文本字符。对于键盘2(d),当进一步选择映射到键‘1’的语音文本字符‘g’时,生成新的键盘。如图2(e)所示出的,现在完成语音文本输入以形成中文文本字符,图2(e)的新的键盘显示了关于语音文本输入‘jing’的在统计学上最可能的中文文本字符,并且连同有用于进一步过滤关于语音文本输入‘jing’的在统计学上最可能的中文文本字符的列表的音调标记。对于图2(e)的键盘,当选择映射键‘1’的音调标记‘1’时,生成了如图2(f)所示的新的键盘。类似地,对于图2(e)的键盘,当选择映射键‘4’的音调标记‘4’时,生成了如图2(g)所示的新的键盘。当在语音文本输入‘jing’后选择音调标记时,如图2(f)和2(g)分别示出的,新的键盘将显示关于语音文本输入‘jing’和所选定的音调标记‘1’或者‘4’的在统计学上最可能的中文文本字符。对于图2(f)的键盘,当现在选择映射键盘的键‘4’的中文文本字符时,生成如图2(h)所示的新的键盘,图2(h)显示了紧随从先前图2(f)的键盘所选定的中文文本字符的在统计学上最可能的中文文本字符。
在以上的例子中,音调标记过滤器被用于缩短可用中文文本字符的列表,然而用户可以选择在任何时间点请求中文文本字符的下一列表。用户还可以选择不或者可以不必输入完整的拼音字符。被示出的图2(j)显示了当在键入‘jin’后选择下一列表按钮时,包括中文字符列表的键盘。
根据实施方式,当选择中文文本字符时,被重建的键盘包括紧随如图2(i)所示一个或者多个被键入的中文字符的在统计学上最可能的中文字符。
根据实施方式并且如图2(c)所示出的,来自一组紧随一个或者多个语音文本字符的在统计学上最可能的语音文本字符中的最可能的语音文本字符最好映射到与先前选择的键相同的键。
根据实施方式,紧随一个或者多个语音文本字符或者中文文本字符的在统计学上最可能的中文文本字符总是连同其音调标记一起在所生成的键盘上显示,如图2(c)、2(d)、2(e)、2(f)、2(g)和2(h)所示出的。
根据实施方式,语音词的在统计学上最可能的中文文本字符以一种颜色显示,所述颜色与该语音词是其一部分的较大语音词的在统计学上最可能的中文文本字符的颜色不同,如图2(j)所示出的。由图2(j)示出的键盘包括以黑色显示的、关于语音词‘jin’的在统计学上最可能的中文文本字符,以及以蓝色显示的、关于较小语音词‘jin’是其一部分的较大语音词‘jing’的在统计学上最可能的中文文本字符。
工业实用性
所公开的方法和系统针对在电子设备上键入中文文本字符,提供了简单且用户友好的途径。所公开的方法和系统通过减小键入中文文本字符所需要的平均击键数来提高用户便利性。另外地,所公开的方法和系统可以通过连同中文文本字符一起指示音调标记来作为有帮助的学习工具。
此外,所公开的方法和系统还允许在选择特定的文本键入类型时的用户灵活性,并且不为选择中文文本字符强加任何固定的格式。例如,用户可以选择首先输入语音词,而随后选择中文文本字符,或者可以选择输入部分语音词并选择中文文本字符,或者甚至可以使用音调标记过滤器来得到期望的中文字符,或者可以直接选择中文文本字符。在所公开的方法和系统中的这种灵活性为该技术提供了较大的采用率,并且起到鼓励用户的作用。同时不同于其中每个字符被赋予了相等的键入机会的现有系统,本系统和方法仅显示关于输入的在统计学上最可能的字符列表。所描述的方法和系统还不需要在任意设备(例如移动电话)的输入系统(例如键盘)的按键上印上任意特定的字符。该特性允许制造商在电话上支持键入多于一种的语言。例如,这可能意味着在相同的电话上支持拼音键入和注音键入。该系统和方法可以容易地在简单的低端手机以及触摸屏的和高级的计算设备上配置。在图2(k)中示出了用于包括了关于音调标记过滤器的按钮的触摸屏设备的此类系统和方法。同样地,该系统可以配置在显示装置和文本键入系统以独立的物理结构(例如TV和远程系统)来实现的电子设备中。
因此提供了对统计数据或者语言趋势的有效使用,从而以简单且灵活的方式使在电子设备上的文本键入更容易。

Claims (37)

1.一种生成用于键入中文文本的动态键盘的方法,包括:
生成用于语音文本输入的键盘,所述键盘包括语音文本字符的列表,其中所述键盘的一个键仅与一个语音文本字符关联,所述语音文本字符的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集;以及
当接收到语音文本输入时重建所述键盘,所重建的键盘包括紧随所键入的语音文本输入的所有语音文本字符和关于所述语音文本输入的在统计学上最可能的中文字符,其中所述键盘的一个键仅与一个语音文本字符或者仅与一个中文文本字符相关联。
2.如权利要求1所述的方法,其中所述语音文本字符的列表是在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的子集,所述方法包括:当接收到下一个列表指令时重建所述键盘,所重建的键盘具有不包括在所述在统计学上最可能的语音文本字符的所述子集中的语音文本字符的列表。
3.如权利要求2所述的方法,还包括在至少两个连续的下一列表指令之后没有接收到任意语音文本输入时重建所述键盘,所重建的键盘仅具有在句子起始处所使用的在统计学上最可能的中文字符。
4.如权利要求1所述的方法,还包括当接收到下一列表指令时重建所述键盘,所重建的键盘具有关于所述语音文本输入的在统计学上最可能的中文字符的下一列表。
5.如权利要求1所述的方法,其中当接收到语音文本输入时重建所述键盘包括重建具有音调标记过滤器的键盘。
6.如权利要求1所述的方法,还包括当接收到中文字符选择时重建所述键盘,所重建的键盘包括紧随一个或者多个被键入的中文文本字符的在统计学上最可能的中文字符。
7.如权利要求1所述的方法,还包括当接收到中文字符的选择时重建所述键盘,所重建的键盘包括紧随一个或者多个被键入的中文文本字符的在统计学上最可能的中文字符以及音调标记过滤器。
8.如权利要求6或7所述的方法,还包括当接收到下一列表输入时重建所述键盘,所重建的键盘包括关于一个或者多个被键入的中文字符的在统计学上最可能的中文字符的下一列表。
9.如权利要求6所述的方法,还包括当接收到模式改变指令时重建用于语音文本输入的所述键盘,所重建的键盘包括语音文本字符的列表,所述语音文本字符的列表包括紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音字符的所有语音文本字符或者子集。
10.如权利要求1所述的方法,还包括当接收到形成语音词的语音文本输入时重建所述键盘,所重建的键盘具有关于所述语音词的在统计学上最可能的中文文本字符的列表。
11.如权利要求1所述的方法,还包括当接收到形成语音词的语音文本输入时重建所述键盘,所重建的键盘具有关于所述语音词的在统计学上最可能的中文字符的列表以及音调标记过滤器。
12.如权利要求10或11所述的方法,还包括当显示完关于所述语音词的全部中文字符时重建所述键盘,所重建的键盘具有所述语音词是其一部分的较大语音词的、在统计学上最可能的中文字符的列表。
13.如权利要求12所述的方法,其中关于所述较大语音词的在统计学上最可能的中文字符在所述键盘上以不同于所述语音词的中文字符的颜色显示出来。
14.如权利要求1所述的方法,还包括当接收到语音文本输入且其中所述语音文本输入能够形成单个语音词时重建所述键盘,所重建的键盘包括被结合在一起的所述语音词的剩余语音文本字符。
15.如权利要求1所述的方法,还包括当接收到语音文本输入且其中所述语音文本输入能够形成单个语音词时重建所述键盘,所重建的键盘包括所述语音词或被结合在一起的所述语音词的剩余语音文本字符,以及关于所述语音词的在统计学上最可能的中文字符。
16.如前述权利要求中任一项所述的方法,包括当接收到中文文本输入的指令时重建所述键盘,所重建的键盘包括在句子起始处所使用的或者紧随一个或者多个先前被键入的中文文本字符的在统计学上最可能的中文文本字符的列表。
17.如前述权利要求中任一项所述的方法,其中中文文本字符总是连同其音调标记一起被显示。
18.如前述权利要求中任一项所述的方法,其中所述键盘的每个键均被映射到通信设备的物理键。
19.一种用于键入中文文本的动态键盘生成系统,包括:
数据仓,所述数据仓包括在句子起始处所使用的最可能语音文本字符的统计明细、紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的最可能的语音文本字符的统计明细、和一个或者多个语音文本字符的最可能中文文本字符的统计明细;
键盘生成模块,其被配置为产生语音文本输入的键盘,所述键盘包括语音文本字符的列表,所述语音文本字符的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集,其中所述键盘的一个键仅与一个语音文本字符相关联;
显示模块,其被配置为在设备的显示装置上显示所生成的键盘;以及
字符选择模块,其被配置为从所述设备的用户接口接收对语音文本字符或者中文文本字符的选择,以及
所述键盘生成模块还被配置为当接收到所述语音文本输入时重建所述键盘,所重建的键盘包括紧随所述语音文本输入的所有语音文本字符和关于所述语音文本输入的在统计学上最可能的中文文本字符,其中所述键盘的一个键仅与一个语音文本字符或者中文文本字符相关联。
20.如权利要求19所述的用于键入中文文本的动态键盘生成系统,其中所述数据仓还包括紧随一个或者多个中文文本字符的最可能中文文本字符的统计明细、在句子起始处所使用的最可能的中文文本字符的统计明细、语音词的最可能的中文文本字符的统计明细和关于所述语音词是其一部分的较大语音词的最可能的中文文本字符的统计明细。
21.如权利要求19或20所述的用于键入中文文本的动态键盘生成系统,其中所述数据仓还包括中文文本字符的音调标记。
22.如权利要求21所述的动态键盘生成系统,其中所述键盘生成模块还被配置为重建所述键盘,所重建的键盘包括音调标记过滤器。
23.如权利要求19所述的动态键盘生成系统,其中所述键盘生成模块被配置为产生包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的子集的键盘,并且还被配置为当接收到下一个列表指令时重建所述键盘,所重建的键盘包括不包含在所述语音文本字符的所述子集中的语音文本字符的列表。
24.如权利要求23所述的动态键盘生成系统,其中所述键盘生成模块还被配置为在至少两个连续下一列表指令之后没有接收到任意语音文本输入时重建所述键盘,所重建的键盘仅具有在句子起始处所使用的在统计学上最可能的中文字符。
25.如权利要求19所述的动态键盘生成系统,其中所述键盘生成模块还被配置为当接收到下一列表指令时重建所述键盘,所重建的键盘包括关于所述语音文本输入的在统计学上最可能的中文文本字符的下一列表。
26.如权利要求20所述的动态键盘生成系统,其中所述键盘生成模块还被配置为在接收到中文文本字符输入时重建键盘,所重建的键盘包括紧随一个或者多个被键入的中文文本字符的在统计学上最可能的中文文本字符。
27.如权利要求26所述的动态键盘生成系统,其中所述键盘生成模块还被配置为在接收到下一列表指令时重建键盘,所重建的键盘包括关于所述一个或者多个被键入的中文文本字符的在统计学上最可能的中文文本字符的下一列表。
28.如权利要求26所述的动态键盘生成系统,其中所述键盘生成模块还被配置为当接收到模式改变指令时重建用于语音文本输入的键盘,所重建的键盘包括语音文本字符的列表,所述语音文本字符的列表包括紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集。
29.如权利要求21所述的动态键盘生成系统,其中所述键盘生成模块还被配置为在接收到形成语音词的语音文本输入时重建键盘,所重建的键盘包括关于所述语音词的在统计学上最可能的中文文本字符的列表或者连同音调标记过滤器包括关于所述语音词的在统计学上最可能的中文字符的列表。
30.如权利要求29所述的动态键盘生成系统,其中所述键盘生成模块还被配置为如果关于所述语音词没有足够的中文文本字符可用则重建所述键盘,所重建的键盘包括关于所述语音词是其一部分的较大语音词的在统计学上最可能的中文文本字符的列表。
31.如权利要求30所述的动态键盘生成系统,其中所述键盘生成模块还被配置为重建所述键盘,所重建的键盘包括关于所述较大语音词的在统计学上最可能的中文文本字符,且关于所述较大语音词的在统计学上最可能的中文文本字符具有与关于所述语音词的中文文本字符不同的颜色。
32.如权利要求19所述的动态键盘生成系统,其中所述键盘生成模块还被配置为当接收到语音文本输入且其中所述语音文本输入能够形成单个语音词时重建所述键盘,所重建的键盘包括被结合在一起的所述语音词的剩余语音文本字符或者连同关于所述语音词的在统计学上最可能的中文文本字符包括结合在一起的所述语音词的剩余语音文本字符。
33.如权利要求19所述的动态键盘生成系统,其中所述键盘的每个键均被映射到通信设备的物理键。
34.一种用于键入中文文本的设备,包括:
存储器,其被配置为存储数据仓,所述数据仓包括在句子起始处所使用的最可能的语音文本字符的统计明细、紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的最可能的语音文本字符的统计明细、一个或者多个语音文本字符的最可能的中文文本字符的统计明细、紧随一个或者多个中文文本字符的最可能的中文文本字符的统计明细、在句子起始处所使用的最可能的中文文本字符的统计明细、和语音词的最可能的中文文本字符的统计明细;
处理器,其被配置为产生键盘,所述键盘包括语音文本字符的列表,所述语音文本字符输入的列表包括在句子起始处所使用的或者紧随一个或者多个先前被键入的语音文本字符或者中文文本字符的在统计学上最可能的语音文本字符的所有语音文本字符或者子集,其中所述键盘的一个键仅与一个语音文本字符输入相关联;
显示装置,其被配置为显示所生成的键盘;
用户接口,其被配置为接收字符选择;并且所述处理器还被配置为当接收到语音文本输入时重建所述键盘,所重建的键盘包括紧随所述语音文本输入的所有语音文本字符和关于所述语音文本输入的在统计学上最可能的中文文本字符。
35.如权利要求34所述的设备,其中所述处理器还被配置为当接收到中文文本字符输入时重建所述键盘,所重建的键盘包括紧随一个或者多个被键入的中文文本字符的在统计学上最可能的中文文本字符。
36.如权利要求34或35所述的设备,其中所述设备是通信设备,所述通信设备具有数字键钮,其中所述键盘的键映射到所述键钮。
37.如权利要求34、35或36所述的设备,包括关于音调标记选择的键。
CN2012103431486A 2011-09-16 2012-09-14 键入中文文本的方法和系统 Pending CN102999170A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN2688/DEL/2011 2011-09-16
IN2688DE2011 2011-09-16

Publications (1)

Publication Number Publication Date
CN102999170A true CN102999170A (zh) 2013-03-27

Family

ID=47927826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103431486A Pending CN102999170A (zh) 2011-09-16 2012-09-14 键入中文文本的方法和系统

Country Status (1)

Country Link
CN (1) CN102999170A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963671A (en) * 1991-11-27 1999-10-05 International Business Machines Corporation Enhancement of soft keyboard operations using trigram prediction
CN1556452A (zh) * 2003-12-31 2004-12-22 哈尔滨工业大学 数字键盘智能拼音汉字输入方法
CN1637695A (zh) * 2003-12-30 2005-07-13 诺基亚公司 分割式屏幕键盘
CN1672957A (zh) * 2004-03-06 2005-09-28 龚学胜 国际音标方案、华语工具书编排与小键盘单拼输入法
CN101996020A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 虚拟键盘显示方法及装置
CN102129304A (zh) * 2011-03-08 2011-07-20 上海驿创信息技术有限公司 一种基于触摸屏的智能拼音联想

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963671A (en) * 1991-11-27 1999-10-05 International Business Machines Corporation Enhancement of soft keyboard operations using trigram prediction
CN1637695A (zh) * 2003-12-30 2005-07-13 诺基亚公司 分割式屏幕键盘
CN1556452A (zh) * 2003-12-31 2004-12-22 哈尔滨工业大学 数字键盘智能拼音汉字输入方法
CN1672957A (zh) * 2004-03-06 2005-09-28 龚学胜 国际音标方案、华语工具书编排与小键盘单拼输入法
CN101996020A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 虚拟键盘显示方法及装置
CN102129304A (zh) * 2011-03-08 2011-07-20 上海驿创信息技术有限公司 一种基于触摸屏的智能拼音联想

Similar Documents

Publication Publication Date Title
KR100900087B1 (ko) 터치스크린을 이용한 버튼 확장형 문자 입력 방법
WO2009066289A2 (en) Character input system for limited keyboards
CN101398717A (zh) 可变显示键盘及输入方法
CN101283571A (zh) 利用使用者终端机键盘上的符号字符输入多种语言的方法
CN101918996A (zh) 改进的数据录入系统
US8581750B2 (en) Data input system with multi-directional pointing device
JP2009501963A (ja) 3列4行のキーパッドを利用して漢字を入力する方法
ATE243864T1 (de) Texteingabesystem für ideographische sprachen
CN103026320A (zh) 用于输入汉字的方法及装置
CN101398718B (zh) 键盘及其汉字输入方法
KR20120134580A (ko) 성조 선택 기능을 갖는 터치스크린을 이용한 중국어 입력 방법
KR101808774B1 (ko) 가상 키보드 구조, 가상 키패드 기반 문자 입력 방법, 이를 실현하기 위한 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록 매체
CN101661335A (zh) 一种为嵌入式系统设计的中文输入方法及系统
KR20090014074A (ko) 이동통신 단말기의 영문자 입력 시스템
JP5599909B2 (ja) 日本語入力システム
CN101266523A (zh) 一种中文输入法中汉字的快速选择方法
KR20080096218A (ko) 문자 입력 장치 및 방법
CN101118465A (zh) 数字化输入和调用文字信息的新方案
CN102999170A (zh) 键入中文文本的方法和系统
CN1472979A (zh) 移动通信终端设备的日语输入装置和方法
KR19990007739A (ko) 전화기숫자판 - 한글, 영문, 특수문자 입력방식
CN100472408C (zh) 一种利用数字键盘输入字符的装置及方法
CN101388976A (zh) 实现在电视机上输入文字的方法
KR100678196B1 (ko) 키 배열 및 입력방법
KR101099657B1 (ko) 온스크린 키를 이용한 검색기반 영어 단어 입력 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130327