CN102272827A - 利用语音输入解决模糊的手工输入文本输入的方法和装置 - Google Patents
利用语音输入解决模糊的手工输入文本输入的方法和装置 Download PDFInfo
- Publication number
- CN102272827A CN102272827A CN2006800043301A CN200680004330A CN102272827A CN 102272827 A CN102272827 A CN 102272827A CN 2006800043301 A CN2006800043301 A CN 2006800043301A CN 200680004330 A CN200680004330 A CN 200680004330A CN 102272827 A CN102272827 A CN 102272827A
- Authority
- CN
- China
- Prior art keywords
- user
- input
- candidate
- voice
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种数字数据处理设备,从文本输入工具接收固有的模糊的用户输入。不依赖于任何其他的用户输入,设备将所接收的用户输入对照词汇表进行解释,以产生例如单词(由用户输入的单词所组成的完整单词或一部分,例如:词根、词干、音节、词缀),或用户输入的单词所组成的短语的候选。设备显示候选,并向语音用户输入应用语音识别。如果所识别的语音包含一个候选,则选择该候选。如果所识别的语音组成了候选的扩展,则选择该扩展的候选。如果所识别的语音包括其他输入,则采取其他的操作。
Description
技术领域
本发明涉及使用数字数据处理设备的用户手工文本输入。尤其是,本发明涉及计算机驱动的操作,使用语音输入来补充用户固有的模糊的手工文本输入,以消除对用户文本输入的可能的不同解释之间的歧义。
背景技术
很多年以来,便携式计算机已经变得越来越小。无线产业中的巨大发展产生了可靠的、便捷的,并几乎是常用的移动设备,例如蜂窝电话、个人数字助理(PDA)、全球定位系统(GPS)单元等。为了制造真正可用的便携式计算机,最重要的限制尺寸的部件是键盘。
为了不使用标准键盘而在便携式计算机上输入数据,人们已经开发了多个解决方案。一个这种方法是使用具有更少的按键的键盘(“简化按键键盘”)。一些简化的键盘使用了3乘4的按键列,类似按键式电话的排列。尽管在尺寸这点上有好处,但是简化按键键盘出现一些问题。例如,按键列中的每个按键都包含多个字符。例如,按键“2”代表“a”,“b”和“c”。因此,由于每次键击都可以表示一个数字或多个不同的字母,因此,每个用户输入的序列本身是模糊的。
T9文本输入技术是特别用于对例如电话按键的简化键盘提供单词级的歧义消除。T9文本输入技术在多个U.S.专利文件中进行了描述,包括U.S.专利No.5818437。在英语和其他基于字母的单词的情况中,用户按照如下的方式来使用T9文本输入。
当输入单词时,用户按下与组成该单词的字母相对应的按键,而不考虑每个按键都代表多个字母的实际情况。例如,为了输入字母“a”,用户输入按键“2”,而不考虑按键“2”还可以代表“b”和“c”的情况。T9文本输入技术通过判断由用户的按键输入所表示的所有可能的字母组合,并将其与已知单词的词典比较来查看哪个(哪些)是有意义的,以此来找到所需的单词。
除了基本应用,T9文本输入还进行了多个改进。并且,T9文本输入和类似的产品还可以用于使用例如中文的表意字符而不是字母字符的简化键盘设备。尽管如此,T9文本输入还是不可能提供理想的速度级,减轻每个用户所需的数据输入。
作为一种完全不同的方法,一些小型设备使用数字化的表面来接收用户手写。这种方法使用户能够自然书写,尽管是在由便携式电脑的尺寸所允许的小范围区域内。基于用户与数字化表面的接触,手写识别算法分析用户输入的几何字符,以确定每个字符或单词。遗憾的是,当前的手写识别方法还是有问题。一个是,手写通常比打字慢。同时,手写识别的准确度还不能充分可靠地实现。另外,在手写识别算法需要用户观察预定的字符笔划式样和顺序的情况下,一些用户觉得执行很麻烦或很难学会。
一种完全不同的使用不需要全尺寸键盘的小型设备输入数据的方法是使用触摸板,在该触摸板上印刷了一些类型的键盘,或使用上面显示了键盘的触摸屏。用户使用手指或手写笔在与所需的按键或字母相关的区域与面板或显示屏交互。由于这种键盘的整个尺寸很小,因此每个按键可以很小。这使一般的用户很难准确快速地打字。
有很多内建的和附加的产品为触摸屏和之上的键盘提供单词预测。在用户正确地按出单词的第一个字母之后,预测系统显示一列以这些字母开头的最可能的完整单词。但是如果有太多的选择,则用户必须继续按键直到出现所需的单词或用户完成该单词。但是,由于用户必须在每次字母后在触摸屏的键盘和完整单词列之间切换视线,因此文本输入被减慢而不是加快了。因此,一些用户会发现触摸屏和之上的键盘在某种程度上是麻烦的,并且更容易出错。
由于前述的问题,不考虑该领域技术的显著发展,当用户手工在便携式计算机上输入文本时,由于简化键盘、手写数字转换器和触摸屏/之上的键盘固有的限制,依然会遇到困难或错误。
发明内容
数字数据处理设备从文本输入工具接收固有模糊的用户输入。不考虑任何其他的用户输入,该设备在词汇表中将所接收的用户输入进行解释,以产生候选,例如单词(用户输入的该单词形成整个单词或者例如词根、词干、音节、词缀的一部分)或具有用户输入作为一个单词的短语。该设备显示该候选,并提供对用户口头输入的语音识别。如果所识别的语音包含候选中的一个,则选择该候选。如果所识别的语音形成了候选的扩展,则选择扩展的候选。如果所识别的语音包含其他输入,则采取其他的做法。
附图说明
图1是表示使用语音输入来解决模糊的手工输入文本输入的示例性系统的一些部件的方框图;
图2是表示示例性信号承载介质的结构图;
图3是表示不同的示例性信号承载介质的结构图;
图4是示例性逻辑电路的正视图;
图5是示例性数字数据处理装置的方框图;
图6是计算机执行用于使用用户语音输入来解决模糊的手工输入文本输入的顺序的流程图;
图7-11表示接收和处理用户输入的各种示例;
图12是计算机执行用于使用语音输入来解决模糊的表意字符的手工输入的顺序的流程图。
具体实施方式
介绍
所公开的一方面涉及提供了用户操作文本输入工具的手持移动设备。该设备可以由各种硬件部件和相互连接来表达,图1说明了一个示例。图1的手持移动设备包括各种处理子部件,每个子部件都可以由一个或多个硬件设备、软件设备、一个或多个硬件或软件设备的部分或前述的结合来实现。下面将参照示例性数字数据处理装置、逻辑电路和信号承载介质来详细描述这些子部件的组成。
整个结构
图1表示用于使用语音输入来解决模糊的手工输入文本输入的典型系统100。该系统100可以由PDA、蜂窝电话、AM/FM收音机、MP3播放器、GPS、车载电脑或实质上任何其他的具有简化尺寸的键盘或其他便于输入但使用户的文本输入包括一些本身的不清楚的输入方式的设备来实现。为了完整起见,在101表示用户,尽管用户实际上并不构成系统100的一部分。用户101使用用户界面102来输入整个或部分单词、短语、句子或段落。由于每个用户输入可能会表示不同的字母、数字、符号等,因此数据输入本身是不准确的。
用户界面
用户界面102与处理器140相连接,并包括多个部件。至少,界面102包括用户用于语音输入、用户手工输入和向用户输出的设备。为了接收用户手工输入,界面102可以包括一个或多个文本输入工具。一个示例是手写数字转换器102a,例如数字转换器表面。文本输入工具的另一个选择是按键输入102b,例如电话键盘、一组用户可构造的按钮、简化按键键盘或每个按键都代表多个字母数字字符的简化尺寸的键盘。文本输入工具的另一个示例是软键盘,即,由与数字转换器相连电脑所产生的键盘,这样的示例包括软键盘、触摸屏键盘、覆盖键盘、自动校正键盘等。按键输入102b的进一步的示例包括鼠标、滚轮、操纵杆或其他用于手工文本输入的非按键的设备,因此,“按键输入”部件不受任何有意的限制而使用。在以下的参考中描述了操纵杆在手工输入文本中的使用,2004年2月9日提交的申请号为No.10/775,663,申请人为Pim van Meurs,发明名称为“System and Method for Chinese Input Using aJoystick(使用操纵杆用于汉字输入的系统和方法)”的专利申请,在此结合其全部内容作为参考。该按键输入102b可以包括一个或多个前述部件的结合。
固有地,前述文本输入工具包括一些不清楚。例如,手写输入设备不能完全确定地识别出所输入的字符。类似地,在简化按键键盘上输入的字母数字字符可能是模糊的,因为与每个大部分按键相关的通常是三个字母和一个数字。在字符很小或相互太近的情况下键盘会容易不清楚,并且容易让用户出错。
为了向用户101提供输出,界面102包括语音输出102d,例如一个或多个扬声器。用户输出的不同的或附加的选择为显示器102e,例如LCD屏幕、CRT、等离子屏幕或其他用于显示人类可读的字母数字、表意字符和/或图形的设备。
处理器
系统100包括处理器140,其与用户界面102和数字数据存储器150相连。处理器140包括各种工具和其他处理实体,如下所要详细描述的。存储器150包含各种数字数据的部件,下面也会详细描述。一些处理实体(例如下述的工具115)与处理器140一起描述,而其他(例如程序152)与存储器150一起描述。但是,这只是一个示例,本领域技术人员可以改变所给的任何处理实体的实现方式,例如硬编码电路(与处理器140),或从存储器中检索并执行(与存储器150)。
下面描述处理器140和存储器150的部件:
数字转换器105将来自用户101的语音进行数字化,该数字转换器包括例如模拟-数字转换器。可选地,该数字转换器105可以与语音输入特征102c集成。解码器109包括提供声学模型(未示出),以将来自105的数字化的语音信号,即用户的发言,转换为语音数据的设备。音素识别工具134用于识别语音输入中的音素。该音素识别工具可以使用本领域已知的任何技术来提供,例如,与所输入的每个音素相匹配的候选的和有关的可能性的列表。识别工具111基于词典和/或语言学数据库119中的语言模型,例如包括频率和最近的使用、文本缓冲器113中的上下文环境等有选择的分析,来分析来自109的数据。在一个实施例中,工具111产生一个或多个N-最佳假设列表。
系统100的另一个部件是数字转换器107。该数字转换器基于手写输入102a来提供数字输出。笔划/字符识别工具130是执行基于结构、连写、速记、表意字符或数字转换器107的其他手写输出的手写识别的模块。该笔划/字符识别工具130可以使用本领域已知的任何技术来提供对对每个笔划和字符的输入相匹配的候选和有关可能性的列表。
处理器140进一步包括各种消除歧义的工具115,包括在本示例中,单词消除歧义工具115a、短语消除歧义工具115b、上下文消除歧义工具115c和多模式消除歧义工具115d。
该消除歧义工具115基于字典和/或语言学数据库119(下面将描述)中的语言模型来确定手工输入和/或语音输入的可能解释,该语言学数据库可选择包括频率或最近的使用,或该消除歧义工具可选地基于文本缓冲器113中的上下文环境。作为示例,工具115向文本缓冲器113中添加最佳的解释,以经由显示器102e来向用户101显示。所有的解释都可以存储在文本缓冲器113中,以用于之后的选择和校正,并可以经由显示器102e向用户101显示以确认。
该多模式消除歧义工具115d将模糊的输入序列和/或解释与来自识别工具111的最佳或N最佳语音识别解释相比较,并将可修改的解释显示给用户101,以用于通过界面102进行交互确认。在可替换的实施例中,识别工具111结合至消除歧义工具115中,并且产生共同的歧义消除,以作为对每个模式的输入的处理的固有的部分,以提供更多样或更有效的算法。在一个不同的实施例中,工具115的功能可以结合至识别工具111中,在此,模糊输入和矢量或音素标签由于结合的假设搜索而被用于语音识别系统。
在另一实施例中,识别工具111使用来自多模式消除歧义工具115d的模糊的解释来过滤或从语言学数据库119中引用词典,识别工具111使用该解释来产生一个或多个N最佳列表。在另一实施例中,多模式消除歧义工具115d将N最佳列表中的模糊的解释和/或单词的字符(图形)映射至矢量或音素,以使识别工具111解释。
识别和消除歧义工具111、115可以更新一个或多个语言学数据库119来添加用户101已经明确拼出或合成的新单词或短语,或反映用户101输入或更正单词和短语的使用频率和最近时间。工具111、115的这个操作可以自动产生,或在特定用户的指定下产生。
在一个实施例中,工具115包括用于识别和/或消除歧义的过程的不同部分的分离的模块,其在该示例中包括基于单词的消除歧义工具115a,基于短语的识别或消除歧义工具115b,基于上下文的识别或消除歧义工具115c,多模式消除歧义工具115d和其他。在一个示例中,用于识别和消除歧义的部件115a-115d中的一些或全部在语音识别和简化键盘输入的不同输入模块中共享。
在一个实施例中,基于上下文的消除歧义工具115c提供对用户动作的上下文方面的输入的歧义消除。例如,当有多个词汇表156(下面描述)的情况时,工具115c基于选择的用户位置根据情况选择词汇表156中的一个,例如,用户是在工作还是在家;一天中的时间,例如工作时间与空闲时间相比;消息接收等。
存储器
存储器150包括应用程序152、词汇表156、语言学数据库119、文本缓冲器113和操作系统154。应用程序的示例包括单词处理器、消息客户端、外文翻译器、语音合成软件等。
文本缓冲器113包括由设备100所执行的任何或所有程序的一个或多个输入区域的内容。该文本缓冲器113包括已经输入的字符和任何重新编辑该文本所需的支持信息,例如原始手工或有声输入的记录,或用于文本预测或段落格式化。
语言学数据库119包括例如词典、语言模型和其他语言学信息的信息。每个词汇表156都包括或能够生成多个适合于设备100的特定应用的预定的单词、字符、短语或其他语言学的固定用法。词汇表156的一个特定示例利用了单词表156a、短语表156b和语言/音调表156c。当合适的时候,系统100可以包括用于不同应用的词汇表,例如不同语言、不同产业,如医药、法律、零件号码等。“单词”用于指代任何语言对象,例如形成单词、词干、前缀或后缀、音节、缩写、俚语、字符图释、用户ID或其他数据、URL或表意字符序列的标识符的一个或多个字符和符号串。类似地,“短语”用于指代根据语言或应用的惯例,而可以被空格或其他分界符分隔的单词序列。如下所更详细描述地,单词156a还可以包括表意语言字符,并且在这种情况中,短语包含由这种字符的逻辑组所形成的短语。可选地,词汇表单词和/或短语列表可以存储在数据库119中或在数据库119中产生。
在一个示例中,单词列表156a包含一种语言中已知单词的所有形式的列表,这样,在输入形式的之间的词汇表中没有差异。单词表156a可以进一步包括在该语言中对相应单词的使用频率。在一个实施例中,该语言的单词列表156a中不存在的单词被认为是零频率。可替换地,未知的或新添加的单词可以被分配为很小的使用频率。通过对未知的单词使用假设的使用频率,已知的和未知的单词可以以基本相似的方式来进行处理。最近的使用也可以是计算和比较频率中的一个因素。单词表156a可以与基于识别或消除歧义工具115a的单词使用来分类、消除和/或选择基于式样识别工具,例如笔划/字符识别工具130或音素识别部分134,的结果所确定的单词候选,并基于用户输入的一部分来预测完整单词的单词。
类似地,短语列表156b可以包括短语列表和使用频率信息,该短语包含了两个或更多单词,其可以由基于短语的识别或消除歧义工具115b使用,并可用于预测完整短语的单词。
音素/音调表156c包括表、链接的列表、数据库或任何其他各种列出音素信息与表意条目交叉引用的各种条目的数据结构。该表意条目包括表意字符、表意词根、语标字符、词素文字的符号等,其可以在例如单词列表156a中列出。每个音素信息条目包括相关的表意条目的发音和/或一个或多个声调的发音等。表156c是可选的,并且如果系统100仅限于英语或其他非表意应用时,可以从词汇表156中省略。
在一个实施例中,处理器140自动更新词汇表156。在一个示例中,选择模块132当选择时可以在进行/请求更新来跟踪最新使用或添加获取按键单词的操作中更新词汇表,如下所详细描述的。在更普遍的示例中,在安装时,或不断地接收文本消息或其他数据时,或在其他时间,处理器140为了添加到它的词汇表中的单词而扫描信息文件(未示出)。用于扫描这种信息文件的方法在本领域中已知。在本示例中,操作系统154或每个应用152调用文本扫描特性。当在扫描中发现了新的单词时,将其添加至词汇表模块中作为低频单词,同样,其被置于单词相关的单词列表的底部。根据在扫描中给定新单词被检测到的次数,通过在相关的列表中将其提高,而对其分配更高的优先级,从而增加在信息输入中单词选择列表中所出现的该单词的可能性。根据上下文,例如消息或前后的文本中的XML标签,系统可以确定将新单词与之相关联的合适的语言。可以向新单词应用当前或确定的语言标准发音规则,来获得其以后识别所用的音素形式。可选地,处理器140响应于用户配置输入而使额外的词汇表单词在可能单词的列表中最先或最后显示,例如,具有特定的颜色或高亮,或系统可以自动根据哪个词汇表模块提供了最快的之前被接受的或正确的一个或多个单词而改变单词的得分或顺序。
在一个实施例中,词汇表156还包括用于通常拼错的和按键输入错误的替换单词。词汇表156可以在设备100制造、安装、初始配置、重新配置或其他时候进行配置。并且,词汇表156可以当通过网页连接、下载、连接扩展卡、用户输入或其他时候检测到更新信息时自我更新。
示例性数字数据处理装置
如上所述,公开的数据处理实体可以以各种形式来实现。一个示例是数字数据处理装置,例如图5的数字数据处理装置500的硬件部件和相互连接所示。
该装置500包括与数字数据存储器504相连接的处理器502,例如微处理器、个人电脑、工作站、控制器、微控制器、状态机或其他处理机。在本示例中,存储器504包括快速存取存储器506,以及非易失性存储器508。快速存取存储器506可以包括随机存取存储器(“RAM”),并且可以用于存储由处理器502所执行的程序指令。非易失性存储器508可以包括例如电池备份RAM、EEPROM、闪存(flash)PROM、一个或多个磁性数据存储盘,例如硬盘驱动、磁带驱动或任何其他合适的存储设备。该装置500还包括输入/输出510,例如线路、总线、电缆、电磁链路或用于处理器502与装置500的其他外部硬件交换数据的其他装置。
除了上述的特定描述,本领域的普通技术人员(具有本公开的益处)将认识到,上面所讨论的装置可以在不同结构的机器中实现,而不偏离本发明的范围。作为特定示例,部件506、508中的一个可以取消;并且,存储器504、506和/或508可以在处理器502的板上提供,或在装置500外部提供。
信号承载介质
与上述数字数据处理装置不同,本发明的不同方面涉及一个或多个信号承载介质,有形地包含由这种数字处理装置可执行的机器可读指令的程序。在一个示例中,机器可读指令为可执行的来实现各种与本公开有关的功能,例如下面更详细地描述的操作。在另一示例中,执行指令用于在计算机上安装软件程序,其中这种软件程序可独立执行来执行与本公开有关的其他功能,例如下面所述的操作。
在任何情况下,信号承载介质都可以采用各种形式。在图5的环境中,这种信号承载介质可以包括例如存储器504或其他信号承载介质,例如由处理器502直接或非直接访问的光盘300(图3)。无论是存储在存储器506、盘300或别的地方,指令都可以在各种机器可读的数据存储介质上存储。一些示例包括直接存取存储器,例如传统的硬盘驱动、廉价磁盘冗余阵列(“RAID”)或其他直接存储存储设备(“DASD”);串行存取存储器,例如磁盘或光盘,电子非易失性存储器,例如ROM,EPROM,闪存PROM或EEPROM;电池备份RAM、光学存储器,例如CD-ROM、WORM、DVD、数字光盘;或其他合适的信号承载介质。在一个实施例中,机器可读指令可以包括从例如汇编语言,C等语言所编译的软件对象代码。
逻辑电路
与上面讨论的信号承载介质和数字数据处理装置不同,本公开的一个不同实施例使用了逻辑电路而不是计算机可执行的指令来实现本公开的处理实体。根据在速度、费用、工具成本等方面的应用的特定要求,该逻辑可以通过构造具有上千微小集成晶体管的专用集成电路(ASIC)来实现。图4表示电路400的形式的一个示例。这种ASIC可以通过CMOS、TTL、VLSI或其他合适的构造来实现。其他的替换方式包括数字信号处理芯片(DSP)、离散电路(例如电阻器、电容器、二极管、感应器和晶体管)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、可编程逻辑设备(PLD)等。
操作
在已经描述了本公开的结构特征以后,现在将描述本公开的操作方面。如上所述,本公开的操作方面通常涉及各种用于解决在手持移动设备的文本输入工具上所输入的有意地用户输入的不清楚的技术。
操作顺序
图6表示了顺序600,来表示本公开的方法方面的一个示示例。在一个应用中,该顺序用于解决固有的在手持数字数据处理设备的文本输入工具上所输入的用户输入的不清楚。为了便于解释,但不受到任何限制,图6的示例在图1的设备的环境中描述,如上所述。
在步骤602,用户界面102的文本输入工具,例如设备102a和/或102b,接收代表多个可能的字符组合的用户输入。根据该设备的结构,步骤602的一些示例包括通过电话键盘接收用户输入,其中每个按键对应于多个字母数字字符,或通过手写数字转换器来接收输入,或通过计算机显示和同位的数字化表面等来接收输入。
在步骤604,独立于任何其他用户输入,设备将所接收的用户数据在词汇表156和/或语言学数据库119中进行解释,以产生多个单词候选,其还可以称作“输入序列解释”或“选择列表选项”。作为更特别的示例,可以使用单词列表156a。
在一个实施例中,工具130、115a、115b中的一个处理用户输入(步骤604),以确定用户至此的输入的可能解释。每个单词候选都包括以下中的一个:
(1)用户输入的单词所组成的词干、词根、音节或词缀;
(2)用户输入的短语所组成的一个或多个单词或多个单词的一部分;
(3)代表用户输入的完整单词。
这样,术语“单词候选”中的“单词”由于方便解释的原因而使用,而不需要将其限制为技术方面的“单词”。在一些实施例中,用户仅需要输入“词根”单词(步骤602),例如高粘着度的语言和动词中心的短语结构,其附加或前缀有宾语或主语和其他虚词。因此,解释604可以被操作为(1)每个候选都使用与用户输入相对应的字母开头,(2)每个候选包括对应于用户输入的字母,这些字母在候选的开头和结尾字母之间出现等。
在各个实施例中,例如当手工键入102b是在触摸屏设备上显示的自动校正键盘时,该解释604包括字符序列(该明确的解释或“获得点击”序列),该字符序列包含每个为用户输入的最佳解释的字符,例如与每个触摸笔点击的最相关的字符,如果所需的单词不在语言学数据库119中,则用户可以选择(步骤614)。在一些实施例中,例如当手工键入102b是简化键盘,例如标准电话键盘时,该明确的解释是按键序列的两键或多点击解释。在一些实施例中,当用户选择了这种明确的解释后(下面,步骤614),设备自动或当用户请求或确认时,在选择模块132的控制下将该明确的解释添加至词汇表中。
在一个示例中,解释步骤604将例如元音重音的区别字符,放置在每个单词的合适的字符处,而不需用户指示需要区别标记。
在步骤606,工具115、130、115a、115b中的一个或多个根据代表用户意愿的可能性而排列候选单词。该排列操作606可以使用如下的标准:候选单词是否在词汇表156中;在日常使用中候选单词的使用频率;用户使用候选单词的使用频率等。可以从词汇表模块156和/或语言学数据库119中获得使用频率和其他这种用于排列操作606的数据。步骤606是可选的,并且可以为了节省处理精力、时间、存储器等而省略。
在步骤608,处理器140在界面102可视地显示候选,来由用户浏览。在对候选进行了排列(追踪至步骤606)的实施例中,步骤608的表示可以观察到该顺序。可选地,步骤608可以显示排名在前的候选,这样可以将注意力集中在其上,例如,通过将候选插入在显示的指针位置,或使用其他的技术,例如粗体、高亮、下划线等。
在步骤610,处理器140使用显示器102e或音频输出102d来请求用户说出输入。同样在步骤610,处理器140通过语音输入设备102c和前端数字转换器105来接收用户的语音输入。在一个示例中,步骤610包含语音提示,例如合成语音“选择单词”;可视消息,例如显示“读出短语以选择”,图标消息,例如改变指针外观或打开LED;图形消息,例如改变显示主题、颜色等;或其他合适的提示。在一个实施例中,步骤610的用户输入的请求可以省略,在这种情况中,暗示这种请求。
在一个实施例中,设备100请求或允许有限的一组语音发言代表少量唯一的输入;与简化键盘上的按键数量一样少,或与文字中的唯一字母形式数量或口语中的辅音和元音数量一样多。选择小的不同的发言用于低混淆度,从而产生高识别准确度,并使用基于单词和/或基于短语的消除歧义工具来将其转换为文本。在嘈杂的环境或非个人的环境中,这种特性尤其有用,且对限制了使用语音的暂时或永久伤残的人来说非常有用。所识别的语音可以包括口的吸气声和其他不是口头的声音。
在步骤612,语言学式样识别工具111向来自步骤610的代表用户语音输出的数据应用语音识别。在一个示例中,语音识别612使用156a、156b中的单词和/或短语的词汇表。在另一示例中,语音识别612利用有限的词汇表,例如与初始手工输入(来自602)相匹配的最可能的解释,或在步骤608所显示的候选。可替换地,与初始手工输入相匹配的可能的单词和/或短语,或仅仅是最可能的解释,作为语音识别步骤的词汇表。这有助于消除错误和不相关的语音输入的解释。
在一个实施例中,由例如解码器109的部件来执行步骤612,该解码器将声音输入信号转换为数字矢量序列,其与给定他们的环境的潜在的电话相匹配。该解码器109与词典和语言模型的语音形式相匹配,以为每个发言创建N佳单词和/或短语的列表。多模式消除歧义工具115d将其与手工输入滤波,这样只有在两个列表中都出现的单词才会保留。
这样,由于与每个电话按键(例如在键“2”上的“A B C”)相匹配的字母通常在声音上并不相似,因此该系统能够有效地排除否则模糊声音的可能性,例如由于用户按下了键“2”(包含“A B C”)而不是键“7”(包含“P Q RS”),爆破音/b/或/p/组成“p”。类似地,该系统可以当所解决的模糊字符来自在“V B N”的附近而不是“I O P”的附近按击自动校正QWERTY键盘而排除“p”。类似地,该系统可以当模糊的手写字符更接近“B”或“3”而不是“P”或“R”来排除“p”。
可选地,如果用户连续输入多个部分或完整的单词,由适当语言输入例如空格来分隔,则语言学式样识别工具111或多模式消除歧义工具115d使用该信息作为引导来将用户的连续语音分段,并在单词之间查找分界。例如,如果周围音素的解释非常匹配由空格分隔的两个部分输入,则系统确定将连续的发言分成两个独立单词的最佳位置。在另一实施例中,“探测法”规则有助于或超越手工输入解释,以更好的匹配最高得分的语音识别解释,例如为了解决用户偶然在手工输入序列中增加或丢失了字符的情况。
步骤614由例如多模式消除歧义工具115d、选择模块132等部件来执行。步骤614执行以下动作的一个或多个。在一个实施例中,响应于所识别的组成与一个候选相匹配的发言的语音,设备选择候选。也就是说,如果用户说出了所显示的候选中的一个则选择。在另一实施例中,响应于所识别的组成了候选的扩展的语音,则设备选择该扩展的候选。作为其一个示例,当显示的候选列表包括“国家的”时,用户讲出“国籍”,从而使设备选择“国籍”。在另一实施例中,响应于所识别的组成扩展候选中的一个的命令的语音,多模式消除歧义工具115d或部件115、132中的一个从词汇表156或语言学数据库119中检索出一个或多个包括候选作为子部分的单词或短语,并将其可视地向用户显示以从中选择。扩展可以包括将该候选作为前缀、后缀、词根、词干或其他子部分的单词。
可选地,语音识别工具134和语言学式样识别工具111可以使用已知的语音识别特性通过将实际所选择的子序列单词或短语解释与原始语音数据进行比较来提高识别准确度。
操作示例
图7-11表示各种图6的进一步的示例性场景。图7表示显示器701(作为102e的示例)的内容,以表示使用手写来输入字符和使用语音来完成输入。首先,在步骤602,设备接收如下的用户输入:在数字转换器700上手写的字符“tec”。设备100将字符解释(604)和排列(606),并提供排列后的候选的可视输出702/704。由于屏幕尺寸的限制,在列表702/704上没有显示所有的候选。
尽管“tec”在词汇表中不是一个单词,但是该设备将其作为候选单词704之一(步骤604),也就是,“tec”作为“实际按下”的单词选择,例如,每个单独字母的最佳解释。该设备100自动将排名最高的候选(702)以某种方式显示,以将其与其他的区分开。在本示例中,最高排名的候选“the”位于该列表700的首位。
在步骤610,用户讲出/tek/,为了选择在步骤602所输入的单词,而不是系统提出的单词“the”。可替换地,用户可以讲出“第二”(由于“tec”在列表704中为第二个)或另一个输入以从列表704中选择“tec”。设备100接收该单词作为用户的选择(步骤614),并在指针处输入“t-e-c”,如图8所示。作为步骤614的一部分,设备不显示候选列表704。
在不同的实施例中,参考图7,用户已经输入了“t”,“e”,“c”(步骤602),但是仅仅是在输入完整的单词“technology”的过程中。在这个实施例中,设备提供对排名候选的可视输出702/704,并自动在邻近指针处输入排名最高的候选(在702),如图7。但是,与图8不同,用户之后发出/teknolōjē/,以选择这个作为“tec”的扩展。尽管没有在列表702/704中可视地表示,但是单词“technology”包含在候选列表中,并可以通过用户滚动列表而获得。在此,用户没有滚动,而是发出/teknolōjē/,此时,设备接受“technology”作为用户选择(步骤614),并在指针处输入“technology”,如图9所示。作为步骤614的一部分,设备不再显示候选列表704。
图10描述了不同的示例,来表示使用屏幕上的键盘来输入字符和使用语音来完成输入。例如,屏幕上的键盘可以如美国专利No.6081190所指导的来实现。在图10的示例中,用户使用触摸笔按下字母序列“t”,“e”,“c”(步骤602)。作为响应,设备显示(步骤608)单词选择列表1002,即“rev,tec,technology,received,recent,record”。响应于用户对列表1002中的单词的发音(610),例如“technology”(在列表1002中可见)或“technical”(存在于列表1002中但不可见),设备将其接受为用户意愿(步骤614),并在指针处1004输入单词。
图11描述了不同的示例,来表示使用简化按键(其中每个按键对应于多个字母数字字符)的键盘来输入字符,并使用语音来完成输入。在该示例中,用户输入(步骤602)硬键832,表明字母序列“t”,“e”,“c”,作为响应,设备显示(步骤608)单词选择列表1102。响应于用户对列表1102中的单词的发言(610),例如“technology”(在列表1002中可见)或“teachers”(存在于列表1002中但不可见),设备将其接受为用户意愿(步骤614),并在指针处1004输入单词。
表意语言的示例
广泛地,本公开的多个方面适用于在具有简化键盘或手写识别装置的设备上用于使用表意字符的语言的文本输入系统。例如,按下标准电话的按键“7”(其中,拼音字母“P Q R S”被映射至该按键“7”)触发了输入音节“qing”或“ping”;在说出所需的音节/tsing/后,系统能够立即判断出首字母实际上是“q”而不是“p”。类似地,在按击顺序的输入系统,在用户按下了一个或多个代表所需的字符的首击类别的按键之后,语音识别工具能够仅将以这种按击分类的汉字字符开头的发音进行匹配,并能够提供对两者的输入的更好的解释。类似地,使用手写表意字符识别工具开始画出一个或多个字符能够引导或过滤语音解释或减少所要分析的词典。
尽管模糊的按击顺序输入系统或手写识别部分可能不能最终确定需要哪个手写笔划,但是笔划解释和声学解释的结合有效地消除了这两种输入模式的歧义,向用户提供了所需的字符。在本公开的一个实施例中,语音识别的步骤根据在传统的用于表意语言的笔划顺序输入或手写系统的输入顺序,从显示中选择字符、单词或短语。在另一实施例中,语音识别的步骤用于添加音调信息,以用于之后在语音输入系统中消除歧义。下面更详细的描述与表意语言有关的实现细节。
图12表示了顺序1200,用来表示本公开的方法方面的另一个示例。该顺序用于解决本身模糊的用户输入,以便于用户输入包含表意字符的单词和短语。尽管在这些示例中使用了术语“表意的”,但是操作1200可以在许多不同的语标的、表意的、符号的、形声的或其他这种使用字符来表示单个单词、概念、音节、形态等的书写系统中使用。此处的表意字符概念的使用不受到限制,并应当包括汉字象形字、汉字表意特定字、汉字指示符、汉字形声字(phonologogram)、日语字符(Kanji)、韩国字符(Hanja)和其他这种系统。并且,系统100可以以特定标准来实现,例如传统的汉字字符、简化汉字字符或其他标准。为了便于说明,但不受到任何有意的限制,图12的示例在图1的环境中进行描述,如上所述。
在步骤1202,输入设备102a/102b中的一个接收到用户输入,用于识别一个或多个所需的表意字符或子部分。该用户输入可以指定为手写笔划、手写笔划的类型、音节拼法、语音输入等。根据设备100的结构,可以以不同的方式来执行该操作。一个示例涉及通过电话键盘(102b)来接收用户输入,在该电话键盘中每个按键对应于笔划类型。例如,特定的按键可以代表所有下斜笔划。另一个示例涉及通过手写数字转换器(102a)或102的方向输入设备,例如操纵杆,来接收用户输入,其中每个动作都对应于一个笔划类型。在一个示例中,步骤1202涉及界面102接收用户做出的手写笔划输入,以输入所需的一个或多个表意字符。作为另一个选择,步骤1202可以通过自动校正键盘系统(102b)用于触摸表面或小机械按键的排列来实现,其中用户输入大约语音拼法、部分或一个或多个表意字符的笔划中的一些或全部。
通过以下参考文件描述了步骤1202种用于接收输入的各种选择,每个都在此结合作为参考。2003年7月30日提交的发明名称为“System and methodfor Disambiguating Phonetic Input(用于消除语音输入的歧义的系统和方法)”的美国专利申请No.10/631,543。2004年3月17日提交的发明名称为“汉语字符和短语的语音和笔划输入方法”的美国专利申请No.10/803,255。2005年4月25日提交的发明名称为“用于手写的单词和短语预测系统”的美国专利申请No.60/675,059。2004年2月9日提交的发明名称为“具有自动校正的键盘系统”的美国专利申请No.10/775,483。2004年2月9日提交的发明名称为“使用操纵杆用于汉语输入的系统和方法”的美国专利申请No.10/775,663。
同样在步骤1202,不依赖于任何其他的用户输入,设备将所接收的用户输入与第一词汇表进行解释,以产生多个候选,每个候选都至少包括一个表意字符。特别是,该设备对所接收的笔划、笔划类型、拼写、音调或其他手工的用户输入与词汇表156(例如,156a)中的字符列表进行解释,并标识出词汇表中与用户的手工输入一致的候选结果。步骤1202还可选地能够执行式样识别和/或笔划过滤,例如,在手写输入中,识别能够代表至今用户的输入的候选字符。
在步骤1204,该步骤可选,消除歧义工具115根据其与代表用户从他的/她的输入所需的内容的可能性对所确定的候选字符(来自1202)进行排序。该排序可以根据以下信息:(1)在各种书面或口头形式中每个字符的通常的使用频率;(2)用户自己的使用频率或最近的使用;(3)由预测的和/或之后的字符所产生的上下文;(4)其他因素。该频率信息可以暗含的或直接地存储在语言学数据库119中,或可以当需要时进行计算。
在步骤1206,处理器140使显示器102e根据可用的显示空间的尺寸和其他约束来可视地显示候选的一些或全部(从1202或1204)。可选地,设备100可以以滚动列表的形式来表示候选。
在一个实施例中,步骤1206的显示操作在每次新的用户输入之后都会重复,以持续地更新(且在大部分情况中缩小)所显示的候选组(1204、1206),并允许用户或者选择一个候选字符或继续输入(1202)。在另一个实施例中,系统允许在显示任何组成的字符之前(1206)输入(1202)整个单词或短语。
在一个实施例中,步骤1202、1204、1206都可以允许单个和多个字符的候选。在此,如果当前输入的序列代表单词或短语中的多个字符,则步骤1202、1204和1206识别、排序并显示多个字符候选,而不是单个字符候选。为了完成该实施例,步骤1202可以将制定的分界符识别为系统中用户停止他的/她的输入,例如笔划等,以用于在前的字符的信号,并开始将其作为下一个字符进行输入。这种分界符应当清楚地输入(例如空格或其它指定的按键),或从用户输入环境中可以推断出来(例如,通过在不同显示窗或屏幕区域中输入不同字符)。
不需要使用语音识别功能(下面所描述的),用户可以进行操作界面102(步骤1212),来接收在步骤1206所显示的选择中的一个。可替换地,如果用户没有做出任何选择(1212),则自动从步骤1206进入步骤1208,来接收语音输入。作为另一种选择,步骤1206中的界面102可以自动使用语音提示、可视消息、图标消息、图形消息或其他提示来提示用户说话。当用户发言时,顺序1200从1206进入1208。作为另一种替换,界面102可以请求(步骤1206)用户按下“通话”按钮或采取其他动作来启动麦克风并开始语音识别步骤1208。在另一实施例中,手工和语音输入几乎同时或重叠。有效地,用户讲出他或她所正在打字的。
在步骤1208,系统通过前端数字转换器105来接收用户的语音输入,语言学式样识别工具111将语音识别应用于代表用户的语音输入的数据上。在一个实施例中,语言学式样识别工具111将语音形式与音节和单词的词典(存储在语言学数据库119中)进行匹配,以产生每个发音的N最佳音节、单词和/或短语的列表。反过来,消除歧义工具115使用该N最佳列表将来自笔划输入的单个或多个字符候选的语音拼法进行匹配,这样,只有其语音形式也在N最佳列表中出现了的候选才会保留(或在步骤1210中成为最高级)。在另一个实施例中,系统使用手工输入的语音拼写作为词典和语言模型,以识别语音输入。
在一个实施例中,来自手工输入的形式的一些或全部输入仅代表每个音节的第一个字母或仅为每个单词的辅音。系统使用音节和辅音标记来识别和记录语音输入,为单词或短语填入合适的附加字母或元音。例如,为了输入日文文本,每个键盘按键都被对应为50音图中的辅音行,语音识别帮助为每个音节确定合适的元音或“列”。在另一个实施例中,来自手工输入形式的一些或全部输入都是清楚的。这可以减少或消除对图1中的单词消除歧义工具115a的需要,但仍然需要多模式消除歧义工具115d对语音输入进行匹配,以将所需的完整单词或短语的优先级列为在所有其他的可能的完整的词之上,或标记出中间的元音。
并且,在一些语言中,例如印度语,词汇模型可以使用有效的子单词序列的模板来确定哪个单词部分候选是可以或可能指定在前的输入和所考虑的单词候选。在其它语言中,基于词性的发音规则帮助进一步消除了歧义,并识别所需的文本形式。
可以以不同的方式来执行步骤1208。在一个选项中,当所识别的语音组成了包括从1206的候选中的一个的发音的语音时,处理器102选择该候选。在另一选项中,当所使别的语音组成了包含任何候选的语音的发音的语音时,处理器更新该显示(来自1206),以省略掉除这些候选以外的字符。在另一选项中,当所识别的语音是潜在地发出任何一个候选的子集的音,则处理器更新显示,省略除了子集以外的其他。在另一选项中,当所识别的语音是包括与一个或多个候选对应的一个或多个语音特征的发音时,处理器102更新显示(来自1206),以省略除这些候选之外的字符。
在步骤1208之后,步骤1210根据例如语音输入的因素将剩下的候选进行排列。例如,语言式样识别工具111可以提供对多模式消除歧义工具115d有可能的信息,这样,笔划或其他用户输入和语音输入的最可能的解释与每个字符、单词或短语的频率信息相结合,以向用户提供最可能的候选以供选择。作为附加的示例,排列(1210)可以包括不同的或附加的因素,例如:在各种书面或口头形式中每个字符的通常的使用频率;用户自己的使用频率或最近的使用;由之前的和/或之后的字符所产生的上下文环境;等。
在步骤1210之后,重复步骤1206,以显示在步骤1210所准备的字符/短语候选。之后,在步骤1212,设备接收由一些输入装置102a/102c/102b所指示的用户对单个字符或多个字符候选的选择,例如使用触摸笔点击所需的候选。该系统可以通过上述的可视的、语音的或其他方式来提示用户做出选择或输入附加笔划或语音。
在一个实施例中,当用户开始手工输入下一字符序列时,自动选择排列最前的候选。在另一实施例中,如果多模式消除歧义工具115d在步骤1210中将一个候选标记并排列在其他之上,则系统100可以在步骤1212中自动选择该候选,而不需要等待进一步的用户输入。在一个实施例中,所选择的一个或多个表意字符添加在当前应用的文本输入区域的插入处,且输入序列被清除。所显示的候选列表可以之后与最可能的字符结合,以跟在刚选择的字符之后。
其他实施例
虽然前面的公开表示了多个示例性实施例,但是本领域技术人员应当清楚,在不脱离由所附权利要求书所限定的本发明的范围的情况下,可以在此作各种变化和修改。此外,尽管本发明的部件是以单数进行描述和权利要求的,但是,可以预见为多数,除非明确指明了限制为单数。除此之外,本领域的普通技术人员应当认识到,操作顺序为了解释和权利要求的目的必须按照特定的顺序,但是本发明可以产生除这种特定顺序之外的各种变化。
除此之外,相关领域的普通技术人员应当理解,必须使用各种不同的技术和方法来表示信息和信号。例如,在此所涉及的任何数据、指令、命令、信息、信号、比特、符号和芯片都由电压、电流、电磁波、磁场或粒子、光场或粒子、其他条目或上述的组合所表示。
并且,本领域的普通技术人员应当理解,任何在此所示的逻辑块、模块、电路和处理步骤都以电子硬件、计算机软件或两者的结合来实现。为了清楚地表明这种硬件和软件的可交换性,上述的任何示例性部件、块、模块、电路和步骤都是以其功能的方式进行描述的。这种功能是以硬件还是软件来实现,是根据整个系统所使用的特定应用和设计约束。本领域技术人员可以对每个应用以各种方式来实现所描述的功能。但是这种实现方式不应被解释为使其脱离本发明的范围。
在此所公开的实施例中所描述的各种示例性逻辑块、模块和电路都以数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程的逻辑设备、分离门或晶体管逻辑、分离硬件部件或任何设计为执行上述功能的组合来实现或执行的。通常用途的处理器可以是微处理器,但是作为替换,处理器可以是任何传统的处理器、控制器、微控制器或状态机。处理器还可以作为计算设备的结合来实现,例如DSP和微处理器、多个微处理器、一个或多个微处理器与DSP核或任何其他的这种结构的结合。
在此所公开的实施例中描述的方法或算法的步骤可以直接在硬件中、在由处理器所执行的软件模块中或在两者的结合中体现。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可擦除光盘、CD-ROM或任何其他本领域中已知的存储形式中。典型的存储介质与处理器相连接,这样存储器可以从存储器中,或向存储器中读出或写入信息。作为替换,存储介质可以与处理器集成。处理器与存储介质可以位于ASIC中。ASIC可以位于无线通信设备中。作为替换,处理器和存储介质可以位于无线通信设备的分离部件中。
前面提供的对所公开的实施例的描述使任何本领域技术人员能够做出或使用本发明。对这些实施例的各种修改对本领域技术人员来说是很清楚的,且在此所定义的通用原则可以应用于其他的实施例中,而不脱离本发明的精神或范围。因此,本发明不被在此表示的实施例所限制,而是与在此所公开的原则和新特征一致的最宽的范围。
Claims (24)
1.一种数字处理设备,可编程来执行解决通过手工操作的文本输入工具所接收的固有的模糊的用户输入的操作,所述操作包括:
通过手工操作的文本输入工具,接收代表多个不同可能的文本组合的模糊的用户输入;
不依赖于任何其他的用户输入,将所接收的用户输入对照词汇表进行解释,以产生多个至少一个以下类型的候选:(1)用户输入的单词所组成的一个:词根、词干、音节、词缀,(2)用户输入的短语所组成的单词;(3)由用户输入所表示的单词;
可视地显示候选列表,用于由用户观看;
响应于设备接收到语音用户输入,执行语音用户输入的语音识别;以及
执行操作组中的一个或多个操作,包括:
响应于所识别的语音,该语音包含候选中的一个的发音,提供包含该候选的输出。
2.根据权利要求1所述的设备,其特征在于,所述操作组进一步包括:
响应于所识别的包括候选的扩展的语音,提供包含所述候选的扩展的输出。
3.根据权利要求1所述的设备,其特征在于,所述操作组进一步包括以下中的至少一个:
响应于所识别的包含扩展候选中的一个的命令的语音,查找所输入的包括所述候选作为子部分的词汇表,并可视地显示查找到的一个或多个条目;
响应于所识别的组成扩展命令的语音,可视地显示如下列表中的一个或多个候选的至少一个:完整单词、附加词缀、完整短语、具有与候选相同词根的附加单词。
4.根据权利要求1所述的设备,其特征在于,所述操作组进一步包括:
将候选列表与语音识别操作所产生的可能结果的列表相比较,以识别出任何在两个列表中都出现了的候选;
可视地显示识别出的候选的列表。
5.根据权利要求1所述的设备,其特征在于,所述操作组进一步包括:
响应于所识别的包含潜在地发出候选的任何子集的发音的语音,可视地列出子集的候选列表。
6.根据权利要求1所述的设备,其特征在于,所述执行语音识别的操作包括:
利用词汇表执行语音用户输入的语音识别;
重新定义候选,省略没有在语音识别操作中所表示的结果;
可视地显示重新定义的候选列表。
7.根据权利要求1所述的设备,其特征在于,所述执行语音识别的操作包括:
利用基本限制于所述候选的词汇表执行语音用户输入的语音识别。
8.根据权利要求1所述的设备,其特征在于,执行所述解释操作从而每个候选都以对应于用户输入的字母开头。
9.根据权利要求1所述的设备,其特征在于,执行所述解释操作从而使多个候选是包括代表用户输入的字母的单词,而不是单词的开头和结尾位置。
10.根据权利要求1所述的设备,其特征在于,执行所述解释操作从而使候选的类型进一步包括字母数字文本串。
11.根据权利要求1所述的设备,其特征在于,执行所述解释操作从而使类型进一步包括至少一个:字母数字字符、表意字符短语。
12.一种数字数据处理设备,包括:
用户操作的装置,用于手工文本输入;
显示装置,用于可视地表示计算机产生的图像;
处理装置,用于执行操作,包括:
通过所述用户操作的装置,接收代表多种不同可能文本的组合的模糊用户数输入;
不依赖于任何其他的用户输入,将所接收的用户输入对照词汇表进行解释,以产生多个至少一个以下类型的候选:(1)用户输入的单词所组成的一个:词根、词干、音节、词缀,(2)用户输入的短语所组成的单词;(3)由用户输入所表示的单词;
操作显示装置可视地表示候选的列表,用于由用户观看;
响应于接收到语音用户输入,执行语音用户输入的语音识别;和
执行操作组中的一个或多个操作,包括:
响应于所识别的包含候选中的一个的发音的语音,提供包含该候选的输出。
13.一种多个相互连接的电子导体元件的电路,被构造为操作数字数据处理设备来执行用于解决通过手工操作的文本输入工具所接收的固有的模糊的用户输入的操作,所述操作包括:
通过手工操作的文本输入工具,接收代表多个不同的可能的文本组合的模糊的用户输入;
不依赖于任何其他的用户输入,将所接收的用户输入对照词汇表进行解释,以产生多个至少一个以下类型的候选:(1)用户输入的单词所组成的一个:词根、词干、音节、词缀,(2)用户输入的短语所组成的单词;(3)由用户输入所表示的单词;
可视地显示候选列表,用于由用户观看;
响应于接收到的语音用户输入,执行语音用户输入的语音识别;
执行操作组中的一个或多个操作,包括:
响应于所识别的包含候选中的一个的发音的语音,提供包含该候选的输出。
14.一种数字处理设备,可编程为执行用于解决通过手工操作的文本输入工具所接收的固有的模糊的用户输入的操作,所述操作包括:
通过手工操作的文本输入工具,接收模糊的用户输入,该输入代表以下的至少一个:手写笔划、手写笔划的类型、声音拼音、音调输出;
解释用户输入,以产生多个由用户输入可能形成的候选,其中每个候选包括以下一个或多个:一个或多个表意字符、一个或多个表意字符的表意词根;
可视地表示候选列表,以供用户观看;
响应于所接收的语音用户输入,执行语音用户输入的语音识别;
执行一个或多个操作组中的操作,包括:
响应于所识别的包含候选中的一个的发音的语音,提供包含该候选的输出。
15.根据权利要求14所述的设备,其特征在于,操作组进一步包括:
响应于所识别的包括候选的扩展的语音,提供包含所述候选的扩展的输出。
16.根据权利要求14所述的设备,其特征在于,响应于所识别的包含扩展候选中的一个的命令的语音,查找所输入的包括所述候选作为子部分的词汇表,并可视地显示查找到的一个或多个条目。
17.根据权利要求14所述的设备,其特征在于,所述操作组进一步包括:
确定所识别的语音是否包括以下一个:
包括候选中的一个与其他发音的发音、候选中的一个的扩展、候选中的一个的变形;
如果这样,可视地显示相应的以下至少一个中的一个:候选的扩展、候选的变形。
18.根据权利要求14所述的设备,其特征在于,所述操作组进一步包括:
将候选列表与语音识别操作所产生的可能结果的列表相比较,以识别出任何在两个列表中都出现了的候选;
可视地显示识别出的候选的列表。
19.根据权利要求14所述的设备,其特征在于,所述操作组进一步包括:
响应于所识别的包含潜在地发出候选的任何子组的发音的语音,可视地列出子集的候选列表。
20.根据权利要求14所述的设备,其特征在于,所述操作组进一步包括:
响应于所识别的包括对应于候选的子集以外的语音输入的语音,可视地显示子集的候选列表。
21.根据权利要求14所述的设备,其特征在于,
所述设备进一步包括数字数据存储器,包括至少一个包括多个声音信息条目和每个声音信息的条目与一个或多个表意条目之间的交叉参考的数据结构,每个表意条目包括以下至少一个:一个或多个表意字符、一个或多个表意词根;
其中每个声音信息的条目包括以下一个:一个或多个表意条目的发音、一个或多个与所述一个或多个表意条目有关的声调的发音;
执行语音用户输入的语音识别的操作进一步包括根据识别语音的语音信息查找数据结构以识别一个或多个交叉参考的表意条目。
22.根据权利要求14所述的设备,其特征在于,所述执行语音识别的操作包括:
利用基本限制于所述候选的词汇表执行语音用户输入的语音识别。
23.一种数字处理设备,包括:
用户操作的输入工具,用于手工文本输入;
显示装置,用于可视地表示计算机所产生的图像;
处理装置,用于执行操作,包括:
通过用户可操作的装置,接收模糊的用户输入,该输入代表以下的至少一个:手写笔划、手写笔划的类型、声音拼音、音调输出;
解释用户输入,以产生多个由用户输入可能形成的候选,其中每个候选包括以下一个或多个:一个或多个表意字符、一个或多个表意字符的表意词根;
使得显示表示候选列表,以供用户观看;
响应于所接收的语音用户输入,执行语音用户输入的语音识别;
执行一个或多个操作组中的操作,包括:
响应于所识别的包含候选中的一个的发音的语音,提供包含该候选的输出。
24.一种多个相互连接的电子导体元件的电路,被构造为操作数字数据处理设备来执行用于解决通过手工操作的文本输入工具所接收的固有的模糊的用户输入的操作,所述操作包括:
通过手工操作的文本输入工具,接收模糊的用户输入,该输入代表以下的至少一个:手写笔划、手写笔划的类型、声音拼音、音调输出;
解释用户输入,以产生多个由用户输入可能形成的候选,其中每个候选包括以下一个或多个:一个或多个表意字符、一个或多个表意字符的表意词根;
可视地表示候选列表,以供用户观看;
响应于所接收的语音用户输入,执行语音用户输入的语音识别;
执行一个或多个操作组中的操作,包括:
响应于所识别的包含候选中的一个的发音的语音,提供包含该候选的输出。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/143,409 | 2005-06-01 | ||
US11/143,409 US7881936B2 (en) | 1998-12-04 | 2005-06-01 | Multimodal disambiguation of speech recognition |
US11/350,234 | 2006-02-07 | ||
US11/350,234 US7720682B2 (en) | 1998-12-04 | 2006-02-07 | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
PCT/US2006/004501 WO2006086511A2 (en) | 2005-02-08 | 2006-02-08 | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102272827A true CN102272827A (zh) | 2011-12-07 |
CN102272827B CN102272827B (zh) | 2013-07-10 |
Family
ID=45053613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800043301A Active CN102272827B (zh) | 2005-06-01 | 2006-02-08 | 利用语音输入解决模糊的手工输入文本输入的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102272827B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103412645A (zh) * | 2013-08-05 | 2013-11-27 | 步步高教育电子有限公司 | 一种自动获取学习资料信息的扫描笔及系统 |
CN103700367A (zh) * | 2013-11-29 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 实现黏着语文本韵律短语划分的方法及系统 |
CN105988769A (zh) * | 2015-02-12 | 2016-10-05 | 中兴通讯股份有限公司 | 一种混合输入的方法和装置 |
CN106463119A (zh) * | 2014-06-06 | 2017-02-22 | 微软技术许可有限责任公司 | 用于支持改进语音识别的对视觉内容的修改 |
CN108255290A (zh) * | 2016-12-29 | 2018-07-06 | 谷歌有限责任公司 | 移动装置上的模态学习 |
CN109564530A (zh) * | 2016-06-08 | 2019-04-02 | 谷歌有限责任公司 | 提供具有可选择的可遍历的状态机的个人辅助模块 |
CN109804373A (zh) * | 2016-10-21 | 2019-05-24 | 三星电子株式会社 | 用于提供字符输入的推荐词的设备和方法 |
CN111971744A (zh) * | 2018-03-23 | 2020-11-20 | 清晰Xyz有限公司 | 处理语音到文本的转换 |
CN112368709A (zh) * | 2018-08-13 | 2021-02-12 | 奥迪股份公司 | 生成语音通知作为对手写用户输入的反馈的方法以及相应的操作设备和机动车 |
CN112639796A (zh) * | 2018-09-04 | 2021-04-09 | 塞伦妮经营公司 | 具有音频反馈和词完成的多字符文本输入系统 |
CN113393831A (zh) * | 2020-03-13 | 2021-09-14 | 开曼商阿普力特医疗股份有限公司 | 基于至少双音素的语音输入操作方法及电脑程序产品 |
CN113467622A (zh) * | 2012-10-16 | 2021-10-01 | 谷歌有限责任公司 | 递增的多词识别 |
TWI752437B (zh) * | 2020-03-13 | 2022-01-11 | 宇康生科股份有限公司 | 基於至少雙音素的語音輸入操作方法及電腦程式產品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1195409A (zh) * | 1995-07-26 | 1998-10-07 | 蒂吉通信系统公司 | 压缩键盘的明义系统 |
US5937380A (en) * | 1997-06-27 | 1999-08-10 | M.H. Segan Limited Partenship | Keypad-assisted speech recognition for text or command input to concurrently-running computer application |
US5945928A (en) * | 1998-01-20 | 1999-08-31 | Tegic Communication, Inc. | Reduced keyboard disambiguating system for the Korean language |
US20020152075A1 (en) * | 2001-04-16 | 2002-10-17 | Shao-Tsu Kung | Composite input method |
US6684185B1 (en) * | 1998-09-04 | 2004-01-27 | Matsushita Electric Industrial Co., Ltd. | Small footprint language and vocabulary independent word recognizer using registration by word spelling |
US20040049388A1 (en) * | 2001-09-05 | 2004-03-11 | Roth Daniel L. | Methods, systems, and programming for performing speech recognition |
-
2006
- 2006-02-08 CN CN2006800043301A patent/CN102272827B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1195409A (zh) * | 1995-07-26 | 1998-10-07 | 蒂吉通信系统公司 | 压缩键盘的明义系统 |
US5937380A (en) * | 1997-06-27 | 1999-08-10 | M.H. Segan Limited Partenship | Keypad-assisted speech recognition for text or command input to concurrently-running computer application |
US5945928A (en) * | 1998-01-20 | 1999-08-31 | Tegic Communication, Inc. | Reduced keyboard disambiguating system for the Korean language |
US6684185B1 (en) * | 1998-09-04 | 2004-01-27 | Matsushita Electric Industrial Co., Ltd. | Small footprint language and vocabulary independent word recognizer using registration by word spelling |
US20020152075A1 (en) * | 2001-04-16 | 2002-10-17 | Shao-Tsu Kung | Composite input method |
US20040049388A1 (en) * | 2001-09-05 | 2004-03-11 | Roth Daniel L. | Methods, systems, and programming for performing speech recognition |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113467622A (zh) * | 2012-10-16 | 2021-10-01 | 谷歌有限责任公司 | 递增的多词识别 |
CN103412645A (zh) * | 2013-08-05 | 2013-11-27 | 步步高教育电子有限公司 | 一种自动获取学习资料信息的扫描笔及系统 |
CN103700367A (zh) * | 2013-11-29 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 实现黏着语文本韵律短语划分的方法及系统 |
CN103700367B (zh) * | 2013-11-29 | 2016-08-31 | 科大讯飞股份有限公司 | 实现黏着语文本韵律短语划分的方法及系统 |
CN106463119A (zh) * | 2014-06-06 | 2017-02-22 | 微软技术许可有限责任公司 | 用于支持改进语音识别的对视觉内容的修改 |
CN105988769A (zh) * | 2015-02-12 | 2016-10-05 | 中兴通讯股份有限公司 | 一种混合输入的方法和装置 |
CN105988769B (zh) * | 2015-02-12 | 2019-11-12 | 中兴通讯股份有限公司 | 一种混合输入的方法和装置 |
CN109564530B (zh) * | 2016-06-08 | 2023-09-12 | 谷歌有限责任公司 | 提供具有可选择的可遍历的状态机的个人辅助模块 |
CN109564530A (zh) * | 2016-06-08 | 2019-04-02 | 谷歌有限责任公司 | 提供具有可选择的可遍历的状态机的个人辅助模块 |
CN109804373A (zh) * | 2016-10-21 | 2019-05-24 | 三星电子株式会社 | 用于提供字符输入的推荐词的设备和方法 |
CN113900529A (zh) * | 2016-12-29 | 2022-01-07 | 谷歌有限责任公司 | 移动装置上的模态学习 |
CN108255290B (zh) * | 2016-12-29 | 2021-10-12 | 谷歌有限责任公司 | 移动装置上的模态学习 |
CN108255290A (zh) * | 2016-12-29 | 2018-07-06 | 谷歌有限责任公司 | 移动装置上的模态学习 |
CN113900529B (zh) * | 2016-12-29 | 2024-07-09 | 谷歌有限责任公司 | 移动装置上的模态学习 |
CN111971744A (zh) * | 2018-03-23 | 2020-11-20 | 清晰Xyz有限公司 | 处理语音到文本的转换 |
CN112368709A (zh) * | 2018-08-13 | 2021-02-12 | 奥迪股份公司 | 生成语音通知作为对手写用户输入的反馈的方法以及相应的操作设备和机动车 |
CN112639796A (zh) * | 2018-09-04 | 2021-04-09 | 塞伦妮经营公司 | 具有音频反馈和词完成的多字符文本输入系统 |
CN112639796B (zh) * | 2018-09-04 | 2024-05-07 | 塞伦妮经营公司 | 具有音频反馈和词完成的多字符文本输入系统 |
CN113393831A (zh) * | 2020-03-13 | 2021-09-14 | 开曼商阿普力特医疗股份有限公司 | 基于至少双音素的语音输入操作方法及电脑程序产品 |
TWI752437B (zh) * | 2020-03-13 | 2022-01-11 | 宇康生科股份有限公司 | 基於至少雙音素的語音輸入操作方法及電腦程式產品 |
CN113393831B (zh) * | 2020-03-13 | 2023-12-26 | 开曼商阿普力特医疗股份有限公司 | 基于至少双音素的语音输入操作方法及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102272827B (zh) | 2013-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102272827B (zh) | 利用语音输入解决模糊的手工输入文本输入的方法和装置 | |
JP4829901B2 (ja) | マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置 | |
CN1918578B (zh) | 具有自动校正的手写及语音输入 | |
US9786273B2 (en) | Multimodal disambiguation of speech recognition | |
US7395203B2 (en) | System and method for disambiguating phonetic input | |
US7319957B2 (en) | Handwriting and voice input with automatic correction | |
US7881936B2 (en) | Multimodal disambiguation of speech recognition | |
CN101206528B (zh) | 用多种词汇之一以及解析模态对简化用户输入文本的处理 | |
US20050192802A1 (en) | Handwriting and voice input with automatic correction | |
CN102455845B (zh) | 一种文字输入方法和装置 | |
US20080180283A1 (en) | System and method of cross media input for chinese character input in electronic equipment | |
JP2005202917A (ja) | 表音入力の曖昧さを除くためのシステムおよび方法 | |
WO2006115825A2 (en) | Abbreviated handwritten ideographic entry phrase by partial entry | |
CN1965349A (zh) | 多形式的非歧意性语音识别 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |