CN102378951A - 用于观察符号映射的组合语音和触摸输入 - Google Patents

用于观察符号映射的组合语音和触摸输入 Download PDF

Info

Publication number
CN102378951A
CN102378951A CN2010800148085A CN201080014808A CN102378951A CN 102378951 A CN102378951 A CN 102378951A CN 2010800148085 A CN2010800148085 A CN 2010800148085A CN 201080014808 A CN201080014808 A CN 201080014808A CN 102378951 A CN102378951 A CN 102378951A
Authority
CN
China
Prior art keywords
text
user
input
assembly
typing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800148085A
Other languages
English (en)
Other versions
CN102378951B (zh
Inventor
布鲁斯·维林斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Symbol Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Symbol Technologies LLC filed Critical Symbol Technologies LLC
Publication of CN102378951A publication Critical patent/CN102378951A/zh
Application granted granted Critical
Publication of CN102378951B publication Critical patent/CN102378951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及实现组合的语音和触摸输入用于观察符号映射的系统和或方法。更特别地,本创新利用触摸屏显示器文本录入和基于语音识别的文本录入的共性来提高经由移动设备的文本录入的速度和准确性。触摸屏设备经常包含可使得用户难以按压想要的字符的小且紧密聚集的键区,通过组合基于触摸屏的文本录入和基于语音识别的文本录入,可以有效且方便地克服上述限制。

Description

用于观察符号映射的组合语音和触摸输入
背景技术
最近几年移动通信和计算技术经历了明显的进步。这种进步导致移动计算系统更加精密和复杂。更强的计算能力使得移动计算设备能够经由多种技术捕获信息和数据。相比于标准电话,移动通信设备现在更类似于计算机,并且包括从相机到精密操作系统的每一样功能。
在小型手持移动装设备上使用触摸屏显示器的虚拟键区变得越发普及。这种触摸屏经常用于文本录入,但是由于它们尺寸小,用户不能在屏幕上敲击精确的字符位置,所以准确的文本录入很难。同时,这类小型手持移动设备经常集成了用于电话的音频功能以及用于电话拨号的基本的自动语音识别(ASR)。通常,这种设备不能高质量、大词汇量地进行语音文本转换,并且在高噪声环境中容易遭受频繁的ASR错误。此外,这种设备在噪声环境中容易出现频繁的ASR错误。
考虑到这些很小且功能强大的触摸屏设备的变化趋势,用户现在试图输入更重要的消息。但是,经由触摸屏键区录入长消息可能是耗时且易错的。目前的解决方案包括诸如拼写检查这样的技术。但是,这些方案可能较慢,且经常需要用户交互。因此,希望有一种同时提高移动计算设备的文本录入的准确性和效率的技术。
发明内容
下面提出简单概要,以提供所公开实施例的一些方面的基本理解。该概要不是广泛概述,而且意图既不是标识关键或重要的元件,也不是描述这些实施例的范围。其目的是以简单的形式给出描述的实施例的一些概念,作为后面给出的更详细描述的前序。
根据主题创新的一个或多个方面,关于用于观察符号映射的组合的语音和触摸输入描述各种方面。根据有关的方面,提供一种用于移动设备文本录入的系统。该系统包括:文本识别组件,从文本录入组件中获得输入集合,并基于所述输入产生观察集合;声音识别组件,从音频捕获组件中获得音频数据,并基于所述音频数据产生观察集合;以及预测组件,将来自所述文本识别组件和所述声音识别组件的观察组合为串接的观察序列,并基于所述串接的观察序列产生文本输出。
另一方面涉及一种用于移动设备文本录入的方法。该方法包括:基于经由第一输入设备获得的用户输入产生第一观察集合;基于经由第二输入设备获得的用户输入产生第二观察集合;将所述第一观察集合与所述第二观察集合组合,以产生组合的观察集合;以及至少部分地基于所述组合的观察产生文本输出。
又一方面涉及一种用于移动设备文本录入的系统。该系统包括:用于基于经由触摸屏显示器获得的用户输入产生第一观察集合的部件,所述触摸屏显示器提供图形键界面,其中用户通过在所述界面上按压字符来选择至少一个字符;用于基于经由音频捕获设备获得的用户输入产生第二观察集合的部件;用于将所述第一观察集合和所述第二观察集合组合以产生串接观察集合的部件;以及通过利用隐马尔科夫模型或者维特比解码器的至少其中之一,基于所述串接的观察产生文本输出的部件。
为了实现前述和相关的目的,一个或多个实施例包括在下面完整描述并在权利要求书中特别指出的特征。下面的描述和附图详细阐述某些说明性方面,并且是实施例的原理可采用的各种方式的少数几个的指示。当结合附图考虑时,根据下面的详细描述,其他优点和新颖特征将变得明显,并且所公开的实施例旨在包括所有这些方面和它们的等同物。
附图说明
图1示出根据主题说明书的一个或多个方面的示例性移动设备。
图2示出根据主题说明书的一个或多个方面的示例性移动设备。
图3示出根据主题说明书的方面,经由触摸屏显示器的文本录入的示例性方框图。
图4是示出根据主题创新说明书的方面,从语音得到的文本录入的示例性方框图。
图5是示出根据主题说明书的方面,利用基于触摸屏的文本录入和基于语音的文本录入的共性的技术的方框图。
图6示出根据主题说明书的方面,组合语音和触摸输入用于观察符号映射的示例性系统。
图7示出根据主题说明书的方面的示例性语音录入序列和文本录入序列。
图8示出根据主题说明书,组合语音和触摸输入用于观察符号映射的示例性系统。
图9示出根据本说明书的采用有助于使一个或多个特征自动化的人工智能组件的系统。
图10示出可操作用于执行本文公开的一个或多个实施例的示例性设备。
具体实施方式
现在参考附图描述各种实施例。在下面的描述中,为了说明的目的,阐述了多种特定细节,以提供对一个或多个实施例的完整理解。但是显然,没有这些特定细节也可以实践各种实施例。在其他示例中,以方框图的形式示出公知的结构和设备,以助于描述这些实施例。
如同本申请中所使用的,术语“组件”、“模块”、“系统”等等旨在表示计算机相关实体,或者是硬件、硬件与软件的组合、软件,或者是执行中的软件。例如,组件可以是,但是不限于在处理器上运行的处理、处理器、对象、可执行文件、执行的线程、程序和/或计算机。通过图示的方式,在服务器上运行的应用程序和服务器两者都可以是组件。一个或多个组件可以驻留在处理和/或执行的线程中,并且可将组件设置在一个计算机上和/或分配在两个或更多个计算机之间。
这里使用单词“示例性”表示充当示例、实例或例证。不必将这里描述为“示例性”的任何方面或设计解释为比其他方面或设计更加优选或有利。此外,可将一个或多个实施例实施为方法、装置或使用标准程序制造的物品和/或产生软件、固件、硬件或它们的任意组合来控制计算机实施公开的实施例的工程技术。这里使用的术语“制造的物品”(或“计算机程序产品”)旨在涵盖可以从任何计算机可读设备、载波或介质获得的计算机程序。例如,计算机可读介质可包括但不限于磁存储设备(例如硬盘、软盘、磁带…)、光盘(例如压缩盘(CD)、数字通用盘(DVD)…)、智能卡以及闪存设备(例如卡、棒)。此外应当理解,可采用载波来承载计算机可读电子数据,诸如在传输和接收电子邮件或访问例诸如互联网或局域网(LAN)的网络时使用的电子数据。当然,本领域技术人员会认识到,在不脱离所公开的实施例的范围的情况下,对所述构造可做出很多修改。
关于包括多个组件、模块等的系统可给出各种实施例。应当理解和领会,各种系统可包括额外的组件、模块等,并且/或者可以不包括结合附图讨论的组件、模块等。也可以使用这些方法的组合。
图1示出根据主题创新的方面的示例性移动设备。移动设备102可包括但不限于蜂窝电话、智能电话、笔记本电脑、手持通信设备、手持计算设备、卫星无线电、全球定位系统、PDA等等。移动设备102包括显示器104、键区106以及麦克风(mic)108。显示器可以是液晶二极管显示器(LCD)、等离子体显示器、视频图形阵列(VGA)等等。例如,显示器104可包括触摸屏显示器,触摸屏显示器可提供界面集合,并从用户获得输入。
此外,键区106可以是向用户提供与移动设备102交互的按钮、键、控制器等等的集合。例如,键区106可以是小数字键区,具有计算器式的按钮布置,允许用户输入诸如电话号码这样的信息。键区106可以进一步是QWERTY式键盘,允许向移动设备102录入字母数字信息。另外地或者可替代地,键区106可以是在显示器104上提供的图形显示(例如键楔形器等等)。例如,在显示器104包括触摸屏界面(如上所述)的情况下,可显示键区106以助于用户输入。
麦克风108可以几乎是任何合适的音频输入设备,并且可以耦合到扬声器(例如音频输出设备),或者充当扬声器,用于音频数据的传播。例如,麦克风108可以使得用户能够记录消息,或者利用移动设备102的电话服务。此外,麦克风108可以耦合自动语音识别(在下面更详细地讨论)。应当领会,为了说明的简洁而示出移动设备102。但是,基于这里提供的描述,可采用移动设备来实现与本创新相关的功能的方式对本领域技术人员将是显而易见的。
现在转到图2,示出根据主题创新的方面的示例性移动设备。如上所述,移动设备202可以是蜂窝电话、智能电话、笔记本电脑、手持通信设备、手持计算设备、卫星无线电、全球定位系统、PDA等等。移动设备202包括触摸屏显示器204、文本识别组件206、麦克风208以及语音识别组件210。
触摸屏显示器204可以几乎是任何适合于显示数据(例如用户界面等等)和经由触摸屏界面从用户接收输入的显示器。例如,触摸屏显示器204可以向用户显示QWERTY式键盘的图形表示,其中用户可以用他们的手指、触笔等在触摸屏显示器204上通过按压、接触或者触摸字母或一系列字母的近似位置来打出消息。触摸屏显示器204上每个字母的位置可以在X-Y位置(例如X-Y坐标)方面来表示。
文本识别组件206可以确定在触摸屏显示器204上用户接触的X-Y位置。例如,字母Q的中心可位于X-Y位置(0,0),其中如果用户在某一预定的阈值(例如10)内近似按压(0,0),则文本识别组件206确定用户意图按Q。此外,文本识别组件206可以提供可能想要的用户输入。例如,如果文本识别组件206确定第一字母是Q,并且用户的下一按压在字母Y的X-Y位置中,则文本识别组件206可以确定用户实际上可能意图按压字母U。文本识别组件206可以基于在QWERTY式键区上字母U接近字母Y以及字母Y或U跟随字母Q的概率作出这种确定。
麦克风208可以包括允许用户向移动设备202输入音频数据(例如讲话等等)的几乎任何合适的音频输入设备。结合移动设备202的电话服务,麦克风208可用于记录声音消息或者从语音得到文本录入。语音识别组件210从经由麦克风208捕获的音频数据得到特征组(例如能量、频谱等等),并试图将特征组映射到单词和/或单词的成分(例如音素)。例如,用户可以向麦克风208讲述短语,其中语音识别组件将短语采样,并将其映射到单词以产生文本录入。
典型地,移动设备202用户具有经由触摸屏显示器204或麦克风208录入文本的选择。经由触摸屏显示器204的文本录入可能是困难的和耗时的。特别地,触摸屏显示器上的键经常必须相互靠近,使得难以实现按压想要的键。此外,经由麦克风208的文本录入对环境噪声以及普通语音干扰非常敏感。但是,通过组合这些技术,本创新可以利用它们的优势,产生更有效和更便利的技术用于文本录入(在下面更详细地讨论)。
图3是示出根据主题创新的一个或多个方面,经由触摸屏显示器的文本录入的示例性方框图。在302,将触摸屏键区被示出为具有多个位于各个预定的X-Y位置(例如X-Y坐标)的字符(例如26个)。例如,在图中字符“W”的中心可位于位置(50,0)。用户可以用他们的手指、触笔等在触摸屏显示器上通过按压、接触或者触摸字符的近似位置来选择“W”。
在304,获得、捕获或观察用户选择的数字化的X-Y坐标。例如,希望录入字符W的用户试图尽可能按压靠近W(例如50,0)的中心。只要用户在字符中心周围的预定的阈值内按压,就能容易地将其识别为想要的字符。预定的阈值例如可以是触摸屏显示器上字符的图形表示(例如区域)的尺寸。
在306,基于数字化的坐标来确定键按压。键盘显示布局308可用于将数字化的坐标映射到字符。返回到前一示例,如果键按压的数字化的坐标是(51,1)则利用键盘显示布局308,可将键按压确定为字符“W”。在310,可以显示按压的文本或字符,并且/或者由移动设备上操作的应用程序或处理来使用按压的文本或字符。
但是,字符区域内的坐标不总是指示用户要选择的字符。例如,很多触摸屏设备具有相对较小的显示器,因此,字符可能很小和/或相互靠近聚集。因此,要按压第一字符的用户可能不慎按压相邻的第二字符,并且由于字符的尺寸和聚集,坐标可能正好在第二字符的区域内。
图4是示出根据主题创新的一个或多个方面,从语音得到文本录入的示例性方框图。在402,经由音频捕获设备从一个或多个用户捕获、获取或获得语音。例如,音频捕获设备可以包括麦克风和放大器,其中用户向麦克风讲话。用户可以说出命令、单词、声音(例如笑声、尖叫等)等等,它们可以被捕获(例如记录、采样等)。在404,将捕获的音频从它初始的模拟状态转换为数字状态。例如,可经由本领域公知的模数转换器实现该转换。
在406,数字化的音频经受语音向量化。与经由触摸屏的文本录入(如上所述)不同,语音识别通过分析从采样的数字音频产生的特征组(例如能量、语音、向量等)来操作,并试图将这些特征映射到单词或单词的成分。例如,可将数字化的音频映射到对应的音素,其中音素是声音的最小的设定的语言学区别单位。
如图3和图4所示,基于触摸屏的文本录入和基于语音的文本录入都产生临时观察序列集合。这些观察序列以某一概率表示状态或状态序列。由于语音和文本录入的性质,到其他状态的状态转移以某一有限的概率(例如转移矩阵)发生。最后,基于触摸屏的文本录入和基于语音的文本录入都将假定的状态/转移映射(例如转换)到文本(例如,单词,单词的成分等)。
现在参考图5,示出了根据本创新的方面,说明利用基于触摸屏的文本录入和基于语音的文本录入的共性的技术的方框图。在502,经由诸如麦克风(例如mic)这样的音频捕获设备捕获、获取或获得语音。如上所述,可基于捕获的音频产生临时观察序列OS(见图4)。
在506,获得、捕获或观察触摸屏上用户选择的数字化的X-Y坐标。例如,触摸屏可以显示位于各个预定的X-Y位置(例如X-Y坐标)的多个字符,其中用户可以用手指、触笔等在触摸屏显示器上通过按压、接触或者触摸字符的近似位置来选择字符(见图3)。在508,可利用数字化的坐标提供临时观察序列OT,如上所述。
在504和508两种情况下,都存在统计概率观察集合,根据该统计概率观察,计算设备试图确定用户尝试录入的文本。在510,将语音录入、文本录入这两者的观察序列OS和OT串接起来,以提高确定的准确性。例如,将隐马尔科夫模型(HMM)应用于自动语音识别(ASR)是常见的实践。HMM是双随机的,因为观察符号是状态的统计/概率的可观察的状态指示,并且状态到状态的转移具有某一关联的概率模型(例如状态转移矩阵)。通过组合触摸屏和语音这两者的观察序列,可以提高HMM-ASR模型中将观察符号映射到特定状态的统计映射的准确性。如图所示,可将观察序列504和508同步,以助于串接。
在512,执行状态和最终文本的确定。例如,可经由HMM、最大似然维特比解码算法等来实现状态和最终文本的确定。此外,可使用训练序列514的集合来帮助确定。在516,输出最终文本。例如,可以在触摸屏界面上显示文本和/或由设备上执行的另一应用或处理来使用文本。
图6示出根据主题创新的实施例,组合语音和触摸输入用于观察符号映射的示例性系统。系统600包括:具有文本录入组件604的移动设备602、文本识别组件606、音频捕获组件608、语音识别组件610以及预测组件612。如上所述,移动设备602可包括但不限于蜂窝电话、智能电话、笔记本电脑、手持通信设备、手持计算设备、卫星无线电、全球定位系统、PDA等等。
文本录入组件604使得用户能够将文本、字符等录入移动设备602。文本录入组件604可包括触摸屏显示器、键区、键盘等等。例如,文本录入组件604可以是触摸屏显示器,该触摸屏显示器提供图形键楔形器(graphical key wedge)(例如,虚拟键盘),键楔形器具有位于各个预定的X-Y位置(例如X-Y坐标)的多个字符。用户可以用他们的手指、触笔等在触摸屏显示器上通过按压、接触或者触摸字符的近似位置来选择一个或多个字符。
此外,文本识别组件606可获得、观察或确定数字化的X-Y坐标的集合用于用户选择。例如,希望录入特定字符的用户试图尽可能按压靠近字符(例如X,Y)的中心。文本识别组件606可基于数字化的X-Y坐标产生临时观察序列614(例如OT)的集合。
可以经由音频捕获组件608从一个或多个用户捕获、获取或获得用户语音。例如,音频捕获设备可包括麦克风和放大器,其中用户对麦克风讲话。用户可以说出命令、单词、声音(例如笑声、尖叫等等)等等,它们可以被捕获(例如记录、采样等)。经由模数转换器616(例如转换器)可将捕获的音频从它初始的模拟状态转换为数字状态。
语音识别组件610分析数字音频的特征组,例如能量、频谱、语音向量等等。例如,可将数字化的音频映射到单词和/或单词的成分,例如对应的音素(如上所述)。基于临时观察序列的语音向量化,可产生OS
文本识别组件606和语音识别组件610两者都产生统计的、概率的观察集合,根据该统计的、概率的观察,移动设备602试图确定用户试图录入的文本。预测组件612将来自文本识别组件606(例如OT 614)和语音识别组件610(例如OS 618)两者的观察序列串接,以提高确定的准确性。通过组合两个序列的观察,可以提高将观察符号统计地映射到特定状态的准确性。例如,预测组件612可包括将观察映射到特定状态的隐马尔科夫模型(HMM)和/或最大似然维特比解码算法。
在操作中,用户可相对同时经由文本录入组件604(例如键入)和讲话来录入文本。效果是当用户变得不太关注确定字符的确切位置(例如X-Y位置)时帮助更快地触摸录入。因此,经由文本录入组件604的文本录入变得不太困难,并且变得更加接近打字的形式。此外,系统600可使得用户能够录入字符,而无需切换字符集。简单地转到图7,示出根据本创新的方面的示例性语音录入序列702以及文本录入序列704,其中用户可以讲短语“是否你在那问号(are you there question mark)”,且几乎同时键入“你在那q(are you there q)”。返回参考图6,利用口头短语“问号(question mark)”并结合键入的字母“q”(或者“q”附近的字母),预测组件612可以明确录入并正确输出如用户所期望的文本“你在那吗?(are you there?)”。
此外,系统600能够实现选择性混合声音/触摸系统。例如,用户可以不向音频捕获组件608讲出每个单词。用户可以只说出可能无法经由文本录入组件604立即可见的特殊字符,诸如要求使用特定键(例如上档、功能等)的字符,或者要求改变显示为提供特殊字符的屏幕。例如,文本录入组件604可包括指定用于口头/口述的字符的输入端,其中用户压住或按压该指定的输入端并讲出字符(例如问号(question mark))。应当领会,这只是为了说明的简洁而示出的示例;但是,对本领域技术人员而言容易识别多个等同的实施例。例如,文本录入组件604和音频捕获组件608可以是任何多个合适的输入设备,并且可以有多个来自协同工作的其他感测设备产生的其他观察以提高文本录入的准确性。
如上所述,图7示出根据本创新的方面的示例性语音录入序列702和文本录入序列704。除了上述特征之外,图7还示出用户将他们的讲话节奏702自然地调节为他们能够经由文本录入组件录入文本的速度的方式。此外,语音识别系统可能在检测音素或单词边界时经常会有困难,而键入的文本有清楚的指示符,诸如空格键、标点符号等等。因此,本创新可利用文本录入704将音频观察划界。
参考图8,示出根据主题创新的实施例的组合语音和触摸输入用于观察符号映射的示例性系统。如上所述,该系统包括文本录入组件804和键区等等,文本录入组件804使得用户能够经由触摸屏录入文本。此外,用户可以几乎同时向音频捕获组件808讲出期望的文本消息。文本识别组件806和语音识别组件810可以提供统计的、概率的观察集合,根据该统计的、概率的观察,移动设备802试图确定用户试图录入的文本。预测组件812例如使用隐马尔科夫模型,将文本识别组件806和语音识别组件810的观察组合,以提高确定的准确性,隐马尔科夫模型提供观察到特定状态(例如单词、单词的成分、字符等)的统计映射。
此外,系统800可包括存储器818,存储器818可操作地耦合到文本录入组件804、文本识别组件806、音频捕获组件808、语音识别组件810以及预测组件812,并存储与文本录入和识别、语音录入和识别、预测算法相关的信息以及与移动设备802相关的任何其他合适的信息。处理器820可操作地耦合到文本录入组件804、文本识别组件806、音频捕获组件808、语音识别组件810以及预测组件812(和/或存储器818),有助于为了观察符号映射而组合语音和触摸输入等等。应当领会,处理器820可以是专用于为了观察符号映射而组合语音和触摸输入的处理器、控制系统800的一个或多个组件的处理器和/或分析和产生通过移动设备802接收的信息并控制系统的一个或多个组件的处理器。
图9示出根据主题创新的系统900,系统900采用有助于使一个或多个特征自动化的人工智能(AI)组件902。主题创新(例如与推测有关)可采用用于实现其各种方面的各种基于AI的方案。例如,经由自动分类器系统和处理可帮助用于将观察符号映射到特定状态的处理。
分类器是将输入属性向量x=(x1,x2,x3,x4,xn)映射到输入属于一类别的置信度的函数,即f(x)=confidence(class)。这种分类可采用基于概率和/或统计学的分析(例如分解为分析效用和成本),以预测或推测用户希望自动执行的动作。
支持向量机(SVM)是可以采用的分类器的示例。SVM通过在可能输入的空间中寻找超曲面来操作,其中超曲面试图将触发标准与非触发事件分开。直观地讲,这样使得对于在训练数据附近但是不等同于训练数据的测试数据可以正确分类。其他定向的和不定向的模型分类方法例如包括:朴素贝叶斯、贝叶斯网络、决策树、神经网络、模糊逻辑模型以及提供能够采用的独立性的不同方式的概率分类模型。这里使用的分类也包括用于开发优先级的模型的统计回归。此外,如上所述,A.I.组件902可包括隐马尔科夫模型、最大似然维特比解码算法等等。
如根据主题说明书将容易领会的,主题创新可采用显式训练(例如经由一般训练数据)的以及隐式训练(例如经由观察用户行为,接收外部信息)的分类器。例如,经由分类器构造器以及特征选择模块中的学习或训练阶段来配置SVM。因此,分类器可用于自动学习和执行多种功能,包括但不限于根据预定的标准确定何时更新或简化前面推断的模式,基于被处理的数据的种类(例如金融相对非金融、个人相对非个人)以及一天中何时实施更紧的标准控制(例如在晚上,当系统性能不太受影响时)约束关于推断算法的标准。
现在参考图10,示出根据本发明方面的便携手持终端设备1000的示意性方框图,其中处理器1002负责控制设备1000的一般操作。为了实现这里描述的各种功能,将处理器1002编程以控制和操作设备1000中的各种组件。处理器1002可以是任何多个合适的处理器中的一个或多个。基于这里提供的描述,对于本领域普通技术人员而言,可将处理器1002编程以实现关于本发明的功能的方式将非常显而易见。
连接到处理器1002的存储器1004用于存储由处理器1002执行的程序代码,并充当存储部件,用于存储诸如用户证书以及接收交易信息等的信息。存储器1004可以是适合于存储所显示的至少信息的完整集合的非易失性存储器。因此,存储器1004可包括用于通过处理器1002高速访问的RAM或闪存和/或大容量存储器,例如能够存储吉字节数据(包括文本、图像、音频和视频内容)的微型驱动器。根据一个方面,存储器1004具有足够存储多组信息的存储容量,并且处理器1002可包括用于在显示信息的各个组之间交替或循环的程序。
显示器1006经由显示器驱动器系统1008耦合到处理器1002。显示器1006可以是彩色液晶显示器(LCD)、等离子显示器等等。在本示例中,显示器1006是具有16级灰度的1/4VGA显示器。显示器1006用于提供数据、图形或其他信息内容。例如,显示器1006可显示消费者信息集合,消费者信息被显示给操作员并可以通过系统骨干(未示出)传输。此外,显示器1006可显示控制设备1000的执行的各种功能。显示器1006能显示字母数字和图形字符。
通过板载电力系统1010(例如电池组)将电力提供给处理器1002和形成手持设备1000的其他组件。在电力系统1010失效或变得与设备1000断开连接的情况下,可采用辅助电源1012向处理器1002提供电力并向板载电力系统1010充电。设备1000的处理器1002引入睡眠模式,以在检测到预期电力故障时减少电流消耗。
终端1000包括通信子系统1014,通信子系统1014包括数据通信端口1016,采用通信端口1016将处理器1002互连到远程计算机。端口1016可包括通用串行总线(USB)和IEEE 13104串联通信能力的至少其中之一。也可以包括其他技术,例如利用红外数据端口的红外通信。
设备1000还可以包括射频(RF)收发器部分1018,可操作为与处理器1002通信。RF部分1018包括RF接收器1020,RF接收器1020经由天线1022从远程设备接收RF信号,并对信号进行解调,以获得在其中调制的数字信息。RF部分1018还包括RF发射器1024,用于例如响应于经由用户输入设备1026(例如键区)手动用户输入,或者自动地响应于交易的完成或其他预定的和编程的标准,向远程设备发送信息。收发器部分1018有助于例如或者被动或者主动地与发射机应答器系统通信,发射机应答器系统用于具有RF标签的产品或物品。处理器1002经由收发器1018向远程发射机应答器系统发信号(或脉冲),并检测返回的信号,以读取标签存储器的内容。在一个实施方式中,RF部分1018进一步有助于利用设备1000的电话通信。在其促进下,提供受处理器1002控制的音频I/O部分1028,以处理来自麦克风(或类似的音频输入设备)的声音输入以及音频输出信号(来自扬声器或类似的音频输出设备)。
在另一个实施方式中,设备1000可提供声音识别能力,使得当装置1000简单用作声音记录器时,处理器1002可有助于将声音信号高速转换为文本内容,用于本地编辑和查看,和/或之后下载到远程系统,诸如计算机文字处理器。类似地,转换的声音信号可用于控制设备1000,而不是经由键区1026的手动录入。例如,声音识别可用于实现从一般模式切换到付款模式(或者从付款模式切换到一般模式)。应当领会,这只是一个示例,并且多个安全措施,诸如计量生物学可用于实现切换,包括但不限于指纹检测、脸部识别、虹膜识别等等。
在设备1000的外壳中还可以提供板载外设,诸如打印机1030、签名板1032以及磁条读取器1034,或者通过一个或多个外部端口接口1016容纳在外部。
设备1000还可以包括图像捕获系统1036,使得用户可以记录图像和/或短电影,用于由设备1000存储并通过显示器1006来呈现。此外,数据格式读取系统1038被包括用来扫描数据格式。应当领会,这些成像系统(1036和1038)可以是能执行两种功能的单一系统。
以上所述包括本发明的示例。当然不可能为了描述主题发明而描述组件或方法的所有想得到的组合,但是本领域普通技术人员可以认识到,本发明的很多进一步的组合和变换都是可以的。因此,本发明旨在涵盖落入所附权利要求书精神和范围的所有这样的变化、修改和改变。此外,就在详细描述中或者在权利要求书中使用术语“包括”而言,由于在采用作为权利要求书中的过渡单词时解释了“包含”,所以该术语旨在以类似于术语“包含”的方式来包括。

Claims (20)

1.一种用于移动设备文本录入的系统,包括:
文本识别组件,所述文本识别组件从文本录入组件获得输入集合,并且基于所述输入产生观察集合;
声音识别组件,所述声音识别组件从音频捕获组件获得音频数据,并且基于所述音频数据产生观察集合;以及
预测组件,所述预测组件将来自所述文本识别组件和所述声音识别组件的所述观察组合为串接的观察序列,并且基于所述串接的观察序列产生文本输出。
2.根据权利要求1所述的系统,其中所述文本录入组件是触摸屏显示器。
3.根据权利要求2所述的系统,其中所述触摸屏显示器提供虚拟键集合,用于用户输入字符集合。
4.根据权利要求1所述的系统,其中所述预测组件采用隐马尔可夫模型来产生所述文本输出。
5.根据权利要求4所述的系统,其中所述预测组件包括维特比解码器,所述维特比解码器处理所述串接的观察序列。
6.根据权利要求2所述的系统,其中所述文本录入组件在所述音频捕获组件获得所述音频数据的同时获得所述输入。
7.根据权利要求1所述的系统,其中所述用户经由所述文本录入组件来触发输入,所述文本录入组件启用辅助输入模式,其中所述辅助输入模式包括语音识别。
8.根据权利要求1所述的系统,进一步包括人工智能组件,所述人工智能组件有助于使所述系统的一个或多个特征的自动化。
9.一种用于移动设备文本录入的方法,包括:
基于经由第一输入设备获得的用户输入产生第一观察集合;
基于经由第二输入设备获得的用户输入产生第二观察集合;
将所述第一观察集合与所述第二观察集合组合,以产生组合的观察集合;以及
至少部分地基于所述组合的观察产生文本输出。
10.根据权利要求9所述的方法,其中所述第一输入设备或第二输入设备中的至少一个是提供图形键楔形器的触摸屏显示器,所述图形键楔形器使得用户能够通过在所述显示器上触摸字符来选择至少一个所述字符。
11.根据权利要求9所述的方法,其中所述第一输入设备或第二输入设备中的至少一个是音频捕获设备。
12.根据权利要求9所述的方法,进一步包括:使用隐马尔可夫模型来产生所述文本输出。
13.根据权利要求12所述的方法,进一步包括:经由维特比解码器处理所述组合的观察。
14.根据权利要求9所述的方法,进一步包括:几乎同时地经由所述第一输入设备和第二输入设备获得所述输入。
15.根据权利要求9所述的方法,进一步包括:触发启用替换输入模式的输入。
16.根据权利要求15所述的方法,其中所述替换输入模式包括语音识别。
17.根据权利要求15所述的方法,进一步包括:使得所述用户能够经由所述替换输入模式访问不是当前可用的输入。
18.根据权利要求9所述的方法,进一步包括:经由人工智能使所述系统的一个或多个特征自动化。
19.一种用于移动设备文本录入的系统,包括:
用于基于经由触摸屏显示器获得的用户输入来产生第一观察集合的部件,所述触摸屏显示器提供图形键界面,其中用户通过在所述界面上按压字符来选择至少一个所述字符;
用于基于经由音频捕获设备获得的用户输入来产生第二观察集合的部件;以及
用于将所述第一观察集合和所述第二观察集合组合以产生串接观察集合的部件;以及
用于通过利用维特比解码器或者隐马尔可夫模型中的至少一个基于所述串接观察来产生文本输出的部件。
20.根据权利要求19所述的系统,进一步包括以下中的至少一个:几乎同时经由所述触摸屏显示器和音频捕获设备获得所述用户输入,或者触发启用替换输入模式的输入,其中所述替换的输入模式向所述用户提供不是当前可用的输入选项。
CN201080014808.5A 2009-03-30 2010-03-16 用于观察符号映射的组合语音和触摸输入 Active CN102378951B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/413,683 2009-03-30
US12/413,683 US9519353B2 (en) 2009-03-30 2009-03-30 Combined speech and touch input for observation symbol mappings
PCT/US2010/027389 WO2010117562A1 (en) 2009-03-30 2010-03-16 Combined speech and touch input for observation symbol mappings

Publications (2)

Publication Number Publication Date
CN102378951A true CN102378951A (zh) 2012-03-14
CN102378951B CN102378951B (zh) 2016-02-03

Family

ID=42306672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080014808.5A Active CN102378951B (zh) 2009-03-30 2010-03-16 用于观察符号映射的组合语音和触摸输入

Country Status (4)

Country Link
US (1) US9519353B2 (zh)
EP (1) EP2414914A1 (zh)
CN (1) CN102378951B (zh)
WO (1) WO2010117562A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708862A (zh) * 2012-04-27 2012-10-03 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN103064530A (zh) * 2012-12-31 2013-04-24 华为技术有限公司 输入处理方法和装置
CN104756184A (zh) * 2012-08-30 2015-07-01 谷歌公司 选择用于自动话音识别的语言的技术
CN107533380A (zh) * 2015-04-10 2018-01-02 谷歌公司 用于键盘输入解码的神经网络

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8294683B2 (en) * 2009-09-25 2012-10-23 Mitac International Corp. Method of processing touch commands and voice commands in parallel in an electronic device supporting speech recognition
US20120188164A1 (en) * 2009-10-16 2012-07-26 Prasenjit Dey Gesture processing
JP5642809B2 (ja) * 2010-03-12 2014-12-17 ニュアンス コミュニケーションズ, インコーポレイテッド 携帯電話のタッチスクリーンとの使用等のためのマルチモーダルテキスト入力システム
US8788273B2 (en) * 2012-02-15 2014-07-22 Robbie Donald EDGAR Method for quick scroll search using speech recognition
WO2013170383A1 (en) 2012-05-16 2013-11-21 Xtreme Interactions Inc. System, device and method for processing interlaced multimodal user input
US9244906B2 (en) * 2013-06-21 2016-01-26 Blackberry Limited Text entry at electronic communication device
JP6192104B2 (ja) * 2013-09-13 2017-09-06 国立研究開発法人情報通信研究機構 テキスト編集装置及びプログラム
CN104536717A (zh) * 2014-12-15 2015-04-22 深圳市金立通信设备有限公司 一种语音输入方法
US9412394B1 (en) * 2015-03-09 2016-08-09 Jigen Labs, LLC Interactive audio communication system
US10048842B2 (en) 2015-06-15 2018-08-14 Google Llc Selection biasing
WO2017210785A1 (en) 2016-06-06 2017-12-14 Nureva Inc. Method, apparatus and computer-readable media for touch and speech interface with audio location

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131687A1 (en) * 2003-09-25 2005-06-16 Canon Europa N.V. Portable wire-less communication device
CN1892819A (zh) * 2005-06-30 2007-01-10 佳能株式会社 语音识别方法和语音识别设备
CN101082836A (zh) * 2007-06-29 2007-12-05 华中科技大学 一种整合语音输入和手写输入功能的汉字输入系统
US20080282154A1 (en) * 2006-09-11 2008-11-13 Nurmi Mikko A Method and apparatus for improved text input
US20090055174A1 (en) * 2007-08-20 2009-02-26 Samsung Electronics Co., Ltd. Method and apparatus for automatically completing text input using speech recognition

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US7844914B2 (en) * 2004-07-30 2010-11-30 Apple Inc. Activating virtual keys of a touch-screen virtual keyboard
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
WO2000074240A1 (en) * 1999-05-27 2000-12-07 America Online Keyboard system with automatic correction
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US20050240406A1 (en) * 2004-04-21 2005-10-27 David Carroll Speech recognition computing device display with highlighted text
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7886233B2 (en) * 2005-05-23 2011-02-08 Nokia Corporation Electronic text input involving word completion functionality for predicting word candidates for partial word inputs
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US7904298B2 (en) * 2006-11-17 2011-03-08 Rao Ashwin P Predictive speech-to-text input
US8571862B2 (en) * 2006-11-30 2013-10-29 Ashwin P. Rao Multimodal interface for input of text
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8782556B2 (en) * 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131687A1 (en) * 2003-09-25 2005-06-16 Canon Europa N.V. Portable wire-less communication device
CN1892819A (zh) * 2005-06-30 2007-01-10 佳能株式会社 语音识别方法和语音识别设备
US20080282154A1 (en) * 2006-09-11 2008-11-13 Nurmi Mikko A Method and apparatus for improved text input
CN101082836A (zh) * 2007-06-29 2007-12-05 华中科技大学 一种整合语音输入和手写输入功能的汉字输入系统
US20090055174A1 (en) * 2007-08-20 2009-02-26 Samsung Electronics Co., Ltd. Method and apparatus for automatically completing text input using speech recognition

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708862A (zh) * 2012-04-27 2012-10-03 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN102708862B (zh) * 2012-04-27 2014-09-24 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN104756184A (zh) * 2012-08-30 2015-07-01 谷歌公司 选择用于自动话音识别的语言的技术
CN104756184B (zh) * 2012-08-30 2018-12-18 谷歌有限责任公司 选择用于自动话音识别的语言的技术
CN103064530A (zh) * 2012-12-31 2013-04-24 华为技术有限公司 输入处理方法和装置
TWI552008B (zh) * 2012-12-31 2016-10-01 華為技術有限公司 輸入處理方法和裝置
CN103064530B (zh) * 2012-12-31 2017-03-08 华为技术有限公司 输入处理方法和装置
CN107533380A (zh) * 2015-04-10 2018-01-02 谷歌公司 用于键盘输入解码的神经网络
US10671281B2 (en) 2015-04-10 2020-06-02 Google Llc Neural network for keyboard input decoding
US11150804B2 (en) 2015-04-10 2021-10-19 Google Llc Neural network for keyboard input decoding
US11573698B2 (en) 2015-04-10 2023-02-07 Google Llc Neural network for keyboard input decoding

Also Published As

Publication number Publication date
US9519353B2 (en) 2016-12-13
CN102378951B (zh) 2016-02-03
WO2010117562A1 (en) 2010-10-14
EP2414914A1 (en) 2012-02-08
US20100250248A1 (en) 2010-09-30

Similar Documents

Publication Publication Date Title
CN102378951A (zh) 用于观察符号映射的组合语音和触摸输入
US20190237077A1 (en) Auto-complete methods for spoken complete value entries
CN101227669B (zh) 具有触摸屏的移动终端
CN104020943B (zh) 字符串替换
CN100587660C (zh) 一种手写字符预测识别的方法和装置
EP2412150B1 (en) Methods, systems, and apparatus for selecting an application in power-off mode
CN102483666B (zh) 用于移动装置的压敏用户接口
CN101907972B (zh) 移动终端以及在移动终端中显示信息的方法
KR101418249B1 (ko) Rf id 기능을 갖는 단말기 및 그 정보 처리 방법
CN103154875A (zh) 便携式电子设备的告警显示
US20110151846A1 (en) Sign language recognition system and method
CN104281316B (zh) 电子设备的输入设备及使用所述输入设备的输入方法
CN103547983A (zh) 用于手写输入的用户界面
CN103547980A (zh) 知晓上下文的输入引擎
CN102236525A (zh) 移动终端以及控制移动终端的操作的方法
CN101484907A (zh) 用于手写体符号的识别的方法和设备
CN103430232A (zh) 利用设备停靠情境的语音识别
CN103155428A (zh) 便携式终端中用于自适应手势识别的装置和方法
CN103685727A (zh) 信息传输方法和系统、及设备
CA2911850A1 (en) Portable electronic device and method of controlling display of selectable elements
WO2006061852A1 (en) System, method, and apparatus for triggering recognition of a handwritten shape
CN104769530A (zh) 用于字符串替换的键盘手势
CN103870133A (zh) 用于滚动显示装置的屏幕的方法和设备
US20140053098A1 (en) Secure text entry methods for portable electronic devices
CN205541169U (zh) 多功能pos终端机

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: American New York

Patentee after: MOTOROLA SOLUTIONS INC

Address before: American New York

Patentee before: Symbol Technologies Inc.