CN104471639A - 语音和手势识别增强 - Google Patents
语音和手势识别增强 Download PDFInfo
- Publication number
- CN104471639A CN104471639A CN201380038701.8A CN201380038701A CN104471639A CN 104471639 A CN104471639 A CN 104471639A CN 201380038701 A CN201380038701 A CN 201380038701A CN 104471639 A CN104471639 A CN 104471639A
- Authority
- CN
- China
- Prior art keywords
- user
- word
- regulation
- gesture
- computing equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 43
- 238000005728 strengthening Methods 0.000 claims description 24
- 230000009471 action Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 description 25
- 238000004891 communication Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 19
- 238000013461 design Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 12
- 230000009467 reduction Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 238000013179 statistical model Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
增强了对计算设备的用户输入的识别。用户输入是语音或通过用户作出屏幕接触手势而输入的手写数据,或者是用户所说的一个或多个规定单词以及用户所作出的一个或多个规定屏幕接触手势的组合,或者用户所说的一个或多个规定单词以及用户所作出的一个或多个规定非屏幕接触手势的组合。
Description
背景
移动计算设备的计算能力和功能持续地快速增长。现在,可购买到各种类型的移动计算设备,它们使用户在移动时能够担负得起并且方便地执行完全胜任的计算和数据通信活动。如今的移动计算设备通常集成各种功能,包括多个不同无线数据通信能力、触敏显示屏、一个或多个话筒、以及一个或多个摄像机。智能电话和平板计算机是这类移动计算设备的两个热门示例。对于移动计算设备用户可用的移动计算应用的数目和类型也持续地快速增长,经常使用移动计算设备来执行他们的在线计算和信息管理任务的人的数目也是如此。事实上,移动计算设备已经成为许多人的主要计算设备。
基于如今的移动计算设备(诸如智能电话和平板计算机)的紧凑尺寸和手持性质,这些设备不包括全尺寸的物理键盘或鼠标。因此,如今的移动计算设备用户经常使用设备的触摸显示屏、话筒和摄像机来与他们的移动计算设备交互。换言之,移动计算设备用户经常利用他们的移动计算设备的触摸显示屏、话筒和摄像机来将命令和数据输入到设备中。
另外,其它类型的个人计算设备(诸如膝上型计算机和台式计算机)普遍包括一个或多个话筒,并且可配备有触敏显示屏和一个或多个摄像机。平面计算机(也称为台面计算机)也包括触敏显示屏和一个或多个摄像机,并且可配备有一个或多个话筒。这类个人计算设备或平面计算机的用户能够利用设备/计算机的触敏显示屏、话筒和摄像机来将命令和数据输入到设备/计算机中。事实上,即将到来的一代计算设备操作系统将包括对于这类“替代”类型的命令和数据输入的增强的支持。
概述
提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
此处描述的语音和手势识别增强技术实施例一般地涉及对计算设备的用户输入的识别的增强。在一个示例性实施例中,计算设备既支持语音又支持触摸,并且用户输入是包括用户所说出的一个或多个单词的语音,或者包括通过用户作出屏幕接触手势而手写的一系列字符的手写数据。在接收到用户输入之后,因用户而异的补充数据上下文被用于缩减用户输入识别子系统的词汇表,其中只要用户输入是语音用户输入识别子系统就是语音识别子系统,而只要用户输入是手写数据用户输入识别子系统就是手写识别子系统。用户输入识别子系统以及经缩减的词汇表随后被用于将用户输入转换成可识别文本,该可识别文本形成用户输入识别子系统所预测的对应于用户输入的单词或单词序列,其中经缩减的词汇表用于最大化这一转换的准确度。
在另一示例性实施例中,计算设备既支持语音又支持触摸,并且用户输入是用户所说出的一个或多个规定单词以及用户作出的一个或多个规定屏幕接触手势的组合。在接收用户输入之后,用户输入被解释。该解释随后被用来实施与单词和手势的组合相关联的适当的命令,其中这一组合允许用户以自然和高效的方式与计算设备交互并控制计算设备。
在又一示例性实施例中,计算设备既支持语音又支持视觉,并且用户输入是用户所说出的一个或多个规定单词以及用户作出的一个或多个规定非屏幕接触手势的组合。在接收用户输入之后,用户输入被解释。该解释随后被用来实施与单词和手势的组合相关联的适当的命令,其中这一组合允许用户以自然和高效的方式与计算设备交互并控制计算设备。
附图简述
参考以下描述、所附权利要求书以及附图,将更好地理解此处所描述的语音和手势识别增强技术实施例的具体特征、方面和优点,附图中:
图1是以简化的形式示出常规语音识别子系统的示例性实施例的示图。
图2是以简化的形式示出常规在线手写识别子系统的示例性实施例的示图。
图3是以简化形式示出用于增强对于计算设备的用户输入的识别的过程的示例性实施例的流程图,其中用户输入是语音或者手写数据中的任意一种。
图4是以简化形式示出用于使用因用户而异的补充数据上下文来缩减用户输入识别子系统的词汇表的过程的一个实施例的流程图。
图5是以简化形式示出用于使用因用户而异的补充数据上下文来缩减用户输入识别子系统的词汇表的过程的另一实施例的流程图。
图6是以简化形式示出用于增强对用户输入到支持语音且支持触摸的计算设备的命令的识别的过程的示例性实施例的流程图。
图7是以简化形式示出用于增强对用户输入到支持语音且支持视觉的计算设备的命令的识别的过程的示例性实施例的流程图。
图8是以简化的形式示出由用户形成的下划线空中手势的示例性实施例的示图。
图9是示出其上可实现本文所述的语音和手势识别增强技术的各实施方式和元素的通用计算机系统的简化示例的示图。
具体实施方式
在以下对语音和手势识别增强技术实施例(此后简称为“识别增强技术实施例”)的描述中,对附图进行了参考,附图形成了实施例的一部分且在其中作为说明示出了可在其中实践该识别增强技术的具体实施例。可以理解,可以使用其它实施例并且可以做出结构上的改变而不背离识别增强技术实施例的范围。
还应注意,出于清楚的目的,在描述此处所描述的识别增强技术实施例中将依靠具体的术语,但并不意味着这些实施例被限制于所选择的具体术语。此外,应当理解的是,每个具体术语包括以宽泛地类似方式工作以实现类似目的的所有其技术等同物。此处提及“一个实施例”、或“另一实施例”、或“示例性实施例”、或“替代实施例”、或“一个实施方式”、或“另一实施方式”、或“示例性实施方式”、或“替代实施方式”意味着结合实施例或实施方式描述的特定特征、结构或特性可被包括在识别增强技术的至少一个实施例中。在本说明书中各个地方出现短语“在一个实施例中”、“在另一实施例中”、“在示例性实施例中”、“在替代实施例中”、“在一个实施方式中”、“在另一实施方式中”、“在示例性实施方式中”、“在替代实施方式中”不一定全都指同一实施例或实施方式,也不是与其他实施例/实施方式互斥的单独或替换实施例/实施方式。此外,表示识别增强技术的一个或多个实施例或实施方式的过程流的顺序并不固有地指示任何特定顺序,也不暗示对识别增强技术的任何限制。
术语“屏幕接触手势”在此处用于指代由用户经由给定的手写模态(诸如由用户握持的笔或指示笔、或用户的手指,诸如此类)直接在计算设备的触敏显示屏上作出的物理轻击或敲击、或复合敲击中的任意一者。术语“支持触摸的计算设备”在此处用于指代包括触敏显示屏的计算设备,该触敏显示屏能够检测用户在显示屏上作出的屏幕接触手势的存在、位置以及移动路径(如果适用的话)并随后解释该手势。术语“支持语音的计算设备”在此处用于指代包括音频输入设备(诸如一个或多个话筒等)的计算设备,该音频输入设备能够捕捉用户表述的语音并随后解释该语音。音频输入设备可以被集成在计算设备内,也可以是外部连接到计算设备的外围设备。术语“在线文档”在此处用于指代数字信息内容的特定项目,该项目包括文本并且还可包括一种或多种其它类型的数字信息,诸如图像、动画、音频、视频等等。
术语“非屏幕接触手势”在此处用于指代由计算设备的用户所作的不与计算设备的显示屏接触的任何类型的手势。可以理解的是,用户能够使用各种模态作出给定的非屏幕接触手势。作为示例而非限制,在此处所描述的识别增强技术的一个实施例中,用户可使用他们的凝视(例如,用户可看着显示在计算设备的显示屏上的给定图标)来作出给定的非屏幕接触手势。在识别增强技术的另一实施例中,用户可使用他们的一个或两个手来形成规定的空中手势(既可以大体上是静止的,也可以大体上是移动的)来作出给定的非屏幕接触手势。
术语“支持视觉的计算设备”在此处用于指代包括面向用户的视频输入设备的计算设备,该视频输入设备能够检测用户作出的非屏幕接触手势的存在并随后解释这些手势。视频输入设备可以用各种方式来实现,包括但不限于以下方式。视频输入设备可以是常规可见光摄像机,其生成包括用户的彩色图像流的视频数据,也可以是常规光场相机(也被称为“全光相机”),其生成用户的彩色光场图像流。视频输入设备还可以是与常规红外摄像机相组合的常规红外结构化光投影仪(也称为“结构化光3D扫描仪”),该常规红外摄像机匹配于该投影仪,其中这种投影仪/相机组合生成包括用户的红外图像流的视频数据。视频输入设备还可以是常规单色摄像机,其生成包括用户的单色图像流的视频数据,或是常规飞行时间相机,其生成包括用户的深度图图像流以及用户的彩色图像流的视频数据。视频输入设备可以被集成在计算设备内,或是外部连接到计算设备的外围设备。
如客户端计算设备领域中所理解的,如今的支持触摸的计算设备中的许多也是支持语音且支持视觉的。类似地,如今的支持语音的计算设备中的许多也是支持触摸且支持视觉的。此处描述的识别增强技术实施例对于任何类型的支持触摸和/或支持语音和/或支持视觉的计算设备都是可用的,这些计算设备的示例包括但不限于常规手持计算设备(诸如智能电话、个人数字助理(PDA)等)、常规平板计算机、常规膝上型计算机(也称为笔记本计算机)、常规台式计算机、以及常规平面计算机。
1.0语音识别
本节以简化形式呈现常规语音识别技术的高级概览。如计算和声音信号处理领域所理解的,语音识别是一种能够被实现为在支持语音的计算设备的控制下运行的子系统的技术。一般来说,并且如语音识别领域所理解的,语音识别子系统将给定用户所表述的说出来的单词转换成用户可识别且计算机可识别的文本(此后简称为“可识别文本”),该文本形成被预测为对应于所说出来的单词的单词或单词序列。这一经识别的文本随后可被显示或存储,或者被进一步处理等,或者以上的任意组合。给定语音识别子系统的性能一般以语音转换速度和语音转换准确度的形式来测量。计算技术已经发展到一定地步,如今的常规支持语音的计算设备普遍具有足够计算能力来实现语音识别子系统以及足够快地执行语音转换以与典型用户的说话同步。语音识别子系统的语音转换准确度可以各种方式来测量,诸如单词转换错误率以及命令成功率等。
语音识别子系统可以用各种方式来分类。作为示例而非限制,语音识别子系统可被分类为依赖于说话者或者独立于说话者。在依赖于说话者的语音识别子系统中,子系统针对特定用户训练,其中这一训练可以各种方式来实施。作为示例而非限制,在一个情形中,可通过该特定用户说规定的孤立的单词和/或单词短语(此处有时简称为“短语”)并且子系统分析每个被说出来的单词/短语以便将语音识别与该特定用户的语音特性校准来预训练子系统。这类语音特性可包括但不限于该特定用户的口音、发音、咬字、声调、音量、说话速度、以及分词。在另一情形中,子系统不是预训练的,而是在进行中的基础上使用持续的学习方法来将语音识别与特定用户的语音特性相校准。在又一情形中,预训练可以与持续的学习方法组合来将语音识别与特定用户的语音特性相校准。在独立于说话者的语音识别子系统中,子系统不针对特定用户训练,而是子系统尝试将任意用户的语音转换成可识别文本。
语音识别子系统还可根据它们识别的词汇表的大小来分类。小(即有限的)词汇表的语音识别子系统普遍用于其中用户想要说规定的一个小集合的孤立单词和/或简单且孤立单词短语以便命令和/或控制其计算设备的应用场合。大词汇表的语音识别子系统普遍用于其中用户想要通过说包括范围宽泛得多的单词的多个句子来生成在线文档的应用场合。注意,此处所描述的识别增强技术实施例与任何类型的语音识别子系统兼容。
图1以简化的形式示出常规语音识别子系统的示例性实施例。如图1中例示的,用户100说了一个或多个单词到音频输入设备102中。音频输入设备102通过将由说出的单词所引起的气压变化转换成相应的电波形来捕捉语音。电波形由数字化仪104处理,其使用数字采样来将波形转换成数字音频数据流。数字音频数据流由语音特征提取引擎106处理,其使用一组代表用户100正说的语言的各种发声的统计模型来从该数字音频数据流中提取特定的明显特征。语音特征提取引擎106所使用的统计模型普遍使用隐式马尔科夫模型框架来构造。注意,这些统计模型也可使用其它建模框架来构造。语音特征提取引擎106输出包括从该数字音频数据流中提取的特征的语音特征向量序列。语音特征向量序列由语音识别引擎108处理,其使用与语音特征提取引擎106相同的统计模型来分析该语音特征向量并且预测最可能对应于所说出的单词的单词或单词序列。语音识别引擎108输出对应于所预测的单词或单词序列的可识别文本流。
如语音识别领域中所理解的并且再次参照图1,语音识别引擎108可使用包括在各种类型的语音数据库110中的信息来协助处理语音特征向量序列,由此增强语音识别引擎所作出的单词预测的准确度。语音数据库110可包括但不限于音位规则数据库112、因素模型数据库114、一个或多个词汇表数据库116、以及一个或多个语法规则数据库118。注意,词汇表数据库116可既包括孤立单词也包括多词短语。此外,这些数据库112/114/116/118可被专门化以支持不同语言和/或语音识别应用等。这些数据库112/114/116/118是语音识别领域所公知的,因此不需要被进一步描述。在语音识别子系统如至此描述的那样来训练的情况下,训练过程将向音素模型数据库114提供数据。
2.0手写识别
本节以简化形式呈现常规手写识别技术的高级概览。如计算和字符识别领域所理解的,手写识别是一种能够被实现为在支持触摸的计算设备的控制下运行的子系统的技术。一般来说,并且如手写识别领域所理解的,手写识别子系统将给定用户所手写的字符(此处也称为“手写数据”)转换成可识别文本,该可识别文本形成被预测为对应于所手写的字符的单词或单词序列。这一可识别文本随后可被显示或存储,或者被进一步处理等,或者以上的任意组合。可以理解的是,手写的字符可包括手写字母(连体形式、或孤立形式、或连体和孤立形式的组合)、数字、标点、规定符号、规定形状等。给定手写识别子系统的性能一般以手写转换速度和手写转换准确度的形式来测量。
手写识别子系统可以用各种方式来分类。作为示例而非限制,手写识别子系统可被分类为依赖于用户或者独立于用户。在依赖于用户的手写识别子系统中,子系统针对特定用户训练,其中这一训练可以各种方式来实施。作为示例而非限制,在一个情形中,可通过该特定用户手写规定字符和/或字符串并且子系统分析每个手写字符或串以便将手写识别与该特定用户的手写风格校准来预训练该子系统。在另一情形中,子系统不是预训练的,而是在进行中的基础上使用持续的学习方法来将手写识别与特定用户的手写风格相校准。在又一情形中,预训练可以与持续的学习方法组合来将手写识别与特定用户的手写风格相校准。在独立于用户的手写识别子系统中,子系统不针对特定用户训练,而是子系统尝试将任意用户的手写转换成可识别文本。
手写识别子系统还可被分类为以离线方式工作或者以在线方式工作。在离线手写识别子系统中,子系统尝试将已由给定用户在过去的某时生成的手写转换成可识别文本。因此,离线手写识别子系统尝试将静态手写(通常是纸件文档的形式)以批处理模式转换成可识别文本。在在线手写识别子系统中,子系统尝试在给定用户生成每个手写字符时将该给定用户的手写动态地转换成可识别文本。计算技术已经发展到一定地步,如今的常规支持触摸的计算设备普遍具有足够计算能力来实现在线手写识别子系统以及足够快地执行手写转换以与典型用户的手写同步。注意,此处所描述的识别增强技术实施例与任何类型的手写识别子系统兼容。
图2以简化的形式示出常规在线手写识别子系统的示例性实施例。如图2中所例示的,用户200在触敏显示屏202上手写一系列字符,其中该一系列字符构成一个或多个单词。手写字符中的每一个由以上提到的由用户200直接在显示屏202上物理地作出的屏幕接触手势中的一个或多个的组合组成。屏幕接触手势中的每一个可以是具有规定轮廓线的轻击或敲击,或是由两个或更多个敲击片段序列构成的复合敲击等等,在复合敲击中,每个敲击片段具有规定轮廓线,并且敲击序列中的每个相邻的敲击片段对在转折点(即屏幕接触手势中对应于其方向上的明显变化的点)处相互连接。显示屏202将手写字符数字化并输出包括代表该屏幕接触手势的一系列x和y坐标集的电子墨水数据流。电子墨水数据流由墨水预处理引擎204处理,该墨水预处理引擎204能够对构成该电子墨水数据流的x和y坐标集执行一种或多种类型的预处理。预处理的示例性类型包括缩放和平滑化等。
墨水预处理引擎204输出经处理的墨水数据流,该墨水数据流由手写特征提取引擎206处理。手写特征提取引擎206使用一组代表用户200正写的语言中的各种字符的图案的统计模型来从该经处理的墨水数据流中提取特定的明显特征。手写特征提取引擎206所使用的统计模型普遍使用隐式马尔科夫模型框架来构造。注意,这些统计模型也可使用其它建模框架来构造。手写特征提取引擎206输出包括从该经处理的墨水数据流中提取的特征的手写特征向量序列。手写特征向量序列由手写识别引擎208处理,手写识别引擎208使用与手写特征提取引擎206相同的统计模型来分析该手写特征向量并且预测最可能对应于该手写字符的单词或单词序列。手写识别引擎208输出对应于所预测的单词或单词序列的可识别文本流。
如手写识别领域中所理解的并且再次参照图2,手写识别引擎208可使用包括在各种类型的手写数据库210中的信息来协助处理手写特征向量序列,由此增强手写识别引擎所作出的单词预测的准确度。手写数据库210可包括但不限于字符手势图案数据库212、一个或多个词汇表数据库216、以及一个或多个语法规则数据库214。可以理解的是,字符手势图案数据库212可包括与各种类型的字符相关联的手写手势图案,字符诸如字母(连体形式、或孤立形式、或两者)、数字、标点、规定符号、规定形状等。词汇表数据库216可既包括孤立单词也包括多词短语。此外,这些数据库212/214/216可被专门化以支持不同语言和/或手写识别应用等。这些数据库212/214/216是手写识别领域所公知的,因此不需要被进一步描述。在手写识别子系统如至此描述的那样来训练的情况下,训练过程将向字符手势图案数据库212提供数据。
3.0语音和屏幕接触手势识别增强
一般来说并且如将在以下章节中更详细描述的,此处所描述的识别增强技术实施例涉及用于增强对用户输入到支持语音的计算设备的语音的识别的各种方法。识别增强技术实施例还涉及用于增强对用户输入到支持触摸的计算设备的屏幕接触手势的识别的各种方法。识别增强技术实施例还涉及用于增强对用户输入到支持视觉的计算设备的非屏幕接触手势的识别的各种方法。出于包括但不限于以下方式的各种原因,此处所描述的识别增强技术实施例是有益的。一般来说并且如将从以下更详细的描述中领会的,识别增强技术实施例优化了在任何支持语音的计算设备上运行的任何语音识别子系统的性能和语音转换准确度。识别增强技术实施例还优化了在任何支持触摸的计算设备上运行的任何手写识别子系统的性能和手写转换准确度。
识别增强技术实施例在其中多个不同声音同时发声(诸如用户的声音、环境背景噪声、其他人的声音等等)的嘈杂环境下特别有效。识别增强技术实施例特别好地适用于紧凑尺寸的、支持触摸和/或支持语音的计算设备,这类计算设备不具有全尺寸键盘并且可能甚至完全不具有任何物理键盘。这类设备的示例包括上文提到的手持计算设备和平板计算机等。这些设备中的一种的用户通常使用屏幕接触手势或他们的声音或两者的组合来将命令和数据输入到设备中。将被理解的是,当用户使用屏幕接触手势来将手写字符输入到设备中时,手写字符的几何朝向可能是歪斜的,因为用户可能正用一只手握持设备而用他们的另一只手写字符。用户还可能在物理上正在移动(即,正步行或坐在移动中的交通工具中,诸如此类),因此在用户写字符时,设备可能在物理上轻微移动,这可导致手写字符的几何朝向的额外歪斜,并且还可导致手写模态短暂地放松与设备的触敏屏幕的接触。
3.1使用上下文进行识别增强
这一章节描述了此处所描述的识别增强技术的示例性实施例,该实施例一般使用因用户而异的补充数据上下文来增强对用户输入到支持语音且支持触摸的计算设备中的语音和手写数据两者的识别。
图3以简化形式示出用于增强对于支持语音且支持触摸的计算设备的用户输入的识别的过程的示例性实施例,其中用户输入是由用户所说的一个或多个单词构成的语音,或者由通过用户作出屏幕接触手势而手写的一系列字符构成的手写数据。如图3中所例示的,该过程始于框300,在此接收用户输入。因用户而异的补充数据上下文随后被用于缩减用户输入识别子系统的词汇表(即限制方案空间)(框302),其中只要用户输入是语音该用户输入识别子系统就是语音识别子系统,而只要用户输入是手写数据该用户输入识别子系统就是手写识别子系统。以下将更详细地描述可被使用的因用户而异的补充数据上下文的示例性类型。用户输入识别子系统以及经缩减的词汇表随后被用于将用户输入转换成可识别文本,该可识别文本形成用户输入识别子系统所预测的对应于用户输入的单词或单词序列(框304)。如将从以下的更详细描述中理解的,对用户输入识别子系统的词汇表的缩减能够显著地缩减其大小,这有助于最大化这一用户输入转换的准确度。该可识别文本随后可被显示或存储,或者被进一步处理等,或者以上的任意组合(框306)。
图4以简化形式示出用于使用因用户而异的补充数据上下文来缩减用户输入识别子系统的词汇表的过程的一个实施例。如图4中所例示的,该过程始于框400,在此分析补充数据上下文以便学习因上下文而异的词汇表。因上下文而异的词汇表随后被用于缩减用户输入识别子系统的词汇表(框402)。
图5以简化形式示出用于使用因用户而异的补充数据上下文来缩减用户输入识别子系统的词汇表的过程的另一实施例。如图5中所例示的,该过程始于框500,在此缩减补充数据上下文以便只包括与一个或多个规定属性相关联的数据。换言之,可通过考虑补充数据上下文的不同的可能属性并且仅选择与一个或多个规定属性相关联的数据来可选地缩减补充数据上下文。作为示例而非限制,补充数据上下文可被缩减成只包括与用户的当前职业相关联的数据(与用户过去的职业相关联的数据可被忽略)。补充数据上下文还可被缩减成只包括与工作有关的数据(与个人有关的数据可被忽略)。一旦补充数据上下文被缩减,随后对经缩减的数据上下文进行分析以便学习经缩减的因上下文而异的词汇表(框502)。经缩减的因上下文而异的词汇表随后被用于缩减用户输入识别子系统的词汇表(框504)。
各种类型的因用户而异的补充数据上下文可被用于图3中例示的识别增强技术实施例中。可以各种方式来对这些补充数据上下文归类。作为示例而非限制,如从以下的更详细描述中可理解的,这些补充数据上下文可被分组到以下的三个类别:用户之前已完成的计算活动,用户当前正从事的计算活动,以及用户将在将来从事的计算活动。现在将描述因用户而异的补充数据上下文的示例性类型。
在图3中例示的识别增强技术实施例的一个实施方式中,因用户而异的补充数据上下文是用户当前正工作的在线文档的内容,并且因上下文而异的词汇表就是当前文档词汇表。换言之,用户当前正工作的在线文档的内容被分析以便学习当前文档词汇表(即,学习用在这一文档中的词汇)。
在图3中例示的识别增强技术实施例的另一实施方式中,因用户而异的补充数据上下文是用户执行过的在线搜索的搜索结果的内容,并且因上下文而异的词汇表就是搜索结果词汇表。换言之,用户执行过的在线搜索的搜索结果的内容被分析以便学习搜索结果词汇表(即,学习用在该搜索结果中的词汇)。
在图3中例示的识别增强技术实施例的又一实施方式中,因用户而异的补充数据上下文是当前被指派给用户的任务,并且因上下文而异的词汇表就是当前任务词汇表。换言之,当前被指派给用户的任务被分析以便学习当前任务词汇表(即,学习用于详细说明这些任务的词汇)。将会理解的是,这些任务可以各种类型的数据(诸如用户的待完成列表、或者项目管理数据库等)来详细说明,这些数据被存储在用户的计算设备上或者可经由通信网络访问的另一计算设备上。
在图3中例示的识别增强技术实施例的又一实施方式中,因用户而异的补充数据上下文是与用户当前参与的活动(诸如用户当前出席的会议或课程等)相关联的用户的日历数据,并且因上下文而异的词汇表就是当前活动词汇表。换言之,与用户当前参与的活动相关联的用户的日历数据被分析以便学习当前活动词汇表(即,学习用于详细说明这一活动的词汇)。将被理解的是,这一日历数据可被存储在用户的计算设备上或可经由通信网络访问的另一计算设备上。
在图3中例示的识别增强技术实施例的又一实施方式中,因用户而异的补充数据上下文是用户先前发送的消息或者用户先前接收的消息中的一条或多条消息的内容,并且因上下文而异的词汇表就是消息词汇表。换言之,用户先前发送的消息或者用户先前接收的消息中的一条或多条消息的内容被分析以便学习消息词汇表(即,学习用在这些消息中的词汇)。将被理解的是,这些消息可以是电子邮件消息或文本消息,或诸如此类,或者这些的任意组合。还将被理解的是,这些消息可被存储在用户的计算设备上或可经由通信网络访问的另一计算设备上。
在图3中例示的识别增强技术实施例的又一实施方式中,因用户而异的补充数据上下文是用户先前存储(在用户的计算设备上或可经由通信网络访问的另一计算设备上)的在线文档的内容,并且因上下文而异的词汇表就是先前文档词汇表。换言之,用户先前存储的在线文档的内容被分析以便学习先前文档词汇表(即,学习用在这些文档中的词汇)。将被理解的是,这些文档可以是用户自己生成的文档,也可以是由另一人提供给用户的文档,或两者的组合。
在图3中例示的识别增强技术实施例的又一实施方式中,因用户而异的补充数据上下文是用户的联系人数据,并且因上下文而异的词汇表就是联系人词汇表。换言之,用户的联系人数据被分析以便学习联系人词汇表(即,学习用在这一联系人数据中的词汇)。将被理解的是,这一联系人数据可被存储在用户的计算设备上或可经由通信网络访问的另一计算设备上。还将被理解的是,联系人数据一般包括人和地点的名称(即,专有名词)。因此,图3中例示的识别增强技术实施例的这一特定实施方式优化了用户输入设备子系统的识别专有名词的能力,如语音和手写识别领域所理解的,这对于常规识别子系统而言是困难的。
在图3中例示的识别增强技术实施例的又一实施方式中,因用户而异的补充数据上下文是用户先前存储(在用户的计算设备上或可经由通信网络访问的另一计算设备上)的基于语音的音频录音的内容,并且因上下文而异的词汇表就是先前音频词汇表。换言之,用户先前存储的基于语音的音频录音的内容被分析以便学习先前音频词汇表(即,学习用在这些音频录音中的词汇)。将被理解的是,这些音频录音可以是任何类型的在线数据,该在线数据包括能够使用语音识别子系统来分析(即转换)的基于语音的音频数据。这类音频录音的示例包括语音、演讲以及口述等。
在图3中例示的识别增强技术实施例的又一实施方式中,因用户而异的补充数据上下文是用户先前向其发送消息的人或者用户先前从其接收消息的人中的一个或多个,并且因上下文而异的词汇表就是接收者/发送者词汇表。换言之,用户先前向其发送消息的人或者用户先前从其接收消息的人中的一个或多个被分析以便学习接收者/发送者词汇表(即,学习用户向其发送消息或从其接收消息(或任意组合)的人和/或组织的名称等)。将被理解的是,这些发送和接收的消息可以是被存储在用户的计算设备上或可经由通信网络访问的另一计算设备上的任何类型的消息,该消息包括但不限于电子邮件消息和文本消息。由于这些消息的接收者和发送者是有名字的人/组织以及诸如此类(即专有名词),因此图3中例示的识别增强技术实施例的这一特定实施方式也优化了用户输入设备子系统的识别专有名词的能力。
一般来说并且如语音和手写识别领域所理解的,语音和手写识别子系统通常采用加权/排名的词汇表,其中相对权重被指派给识别子系统的词汇表中的不同单词和单词短语。这些相对权重用于对识别子系统的词汇表中的单词/短语排名(具有越高相对权重的单词/短语排名越高)。在语音/手写转换过程期间,语音/手写识别引擎通过选择识别子系统的词汇表中的排名最高的单词/短语来预测最有可能对应于用户输入的单词或单词序列。相应地,因上下文而异的词汇表可如下被用于缩减用户输入识别子系统的词汇表。对于因上下文而异的词汇表中的每个单词/短语,可将增强的权重加给用户输入识别子系统的词汇表中的单词/短语的相对权重,由此提高该单词/短语的排名。类似地,经缩减的因上下文而异的词汇表可如下被用于缩减用户输入识别子系统的词汇表。对于经缩减的因上下文而异的词汇表中出现的每个单词/短语,可将增强的权重加给用户输入识别子系统的词汇表中的单词/短语的相对权重。
3.2组合语音和屏幕接触手势用于增强的命令识别
如至此描述的,支持语音的计算设备的用户可通过说规定的单词或单词短语到计算设备的音频输入设备中来将想要的命令输入到计算设备中。类似地,支持触摸的计算设备的用户可通过在计算设备的触敏显示屏上作规定的屏幕接触手势来将想要的命令输入到计算设备中。这一章节描述了此处所描述的识别增强技术的示例性实施例,该实施例一般将语音和屏幕接触手势组合来增强对用户输入到支持语音且支持触摸的计算设备中的命令的识别。
图6以简化形式示出用于增强对用户输入到支持语音且支持触摸的计算设备的命令的识别的过程的示例性实施例。如图6中例示的,该过程始于框600,在此接收用户输入,该用户输入是由用户说出的一个或多个规定单词以及由用户作出的一个或多个规定屏幕接触手势的组合。在用户输入被接收(框600)之后,该用户输入被解释(框602),并且该解释被用于实施与接收的单词和手势的组合相关联的适当的命令(框604)。如从以下的更详细描述中可理解的,接收的单词和手势的组合允许用户以自然的(例如直观的)并且高效的(例如快速和容易的)方式与计算设备交互并控制计算设备。换言之,图6中所例示的识别增强技术实施例提供了增强的用户命令和对计算设备的控制。
语音和屏幕接触手势的各种组合可被用于图6中例示的识别增强技术实施例中。换言之,可以诸如以下的各种方式来生成用户输入。在一种情形下,用户可首先说一个或多个规定单词,然后作出一个或多个规定的屏幕接触手势。在另一情形下,用户可首先作出一个或多个规定的屏幕接触手势,然后说一个或多个规定单词。在又一情形下,用户可说一个或多个规定单词中的给定一个单词,并基本并发地(即在大致相同时间)作出一个或多个规定的屏幕接触手势中给定的一个屏幕接触手势。现在将描述这些情形中的每一个的示例性实施方式。
在图6中例示的识别增强技术实施例的一个实施方式中,用户可首先说与想要的命令相关联的规定单词或单词短语(例如,用户可正在工作于一文档,并且在选中文档中的一部分文本之后,用户可以说“斜体”)。用户随后可作出与想要的命令相关联的规定屏幕接触手势(例如,在说“斜体”之后,用户可轻击显示在触敏显示屏上并且与斜体命令相关联的给定图标)。计算设备将解释(即识别和转换)说出的单词/短语和手势两者,并随后使用这两个解释来实施想要的命令(例如,计算设备将使文档中的选中文本斜体)。在这一特定实施方式中,手势用于加强并确认对说出的单词/短语的识别。替代实施方式也是可能的,其中用户可首先作出规定的屏幕接触手势,随后说出规定的单词或单词短语,在这种情况下,说出的单词/短语用于加强并确认对手势的识别。另一替代实施方式也是可能的,其中用户可说出规定的单词或单词短语并且基本并发地作出规定的屏幕接触手势,在这种情况下,说出的单词/短语以及手势用于加强并确认对彼此的识别。
在图6中例示的识别增强技术实施例的另一实施方式中,用户可首先说与想要的一类命令相关联的规定单词或单词短语(例如,用户可以说“打开”)。用户随后可作出用于提供针对说出的单词/短语的特定上下文的规定屏幕接触手势(例如,在说“打开”之后,用户可轻击显示在触敏显示屏上并且与给定文件相关联的给定图标)。计算设备将解释说出的单词/短语和手势的组合,并随后使用该解释来实施与这一组合相关联的适当的命令(例如,计算设备将打开该文件)。替代实施方式也是可能的,其中用户可说出规定单词或单词短语并且基本并发地作出规定屏幕接触手势。
在图6中例示的识别增强技术实施例的又一实施方式中,用户可首先作出与想要的一类命令相关联的规定屏幕接触手势(例如,用户可正在工作于一文档,该文档显示在触敏显示屏上,并且用户可在文档中的想要的一部分文本上的屏幕上作出敲击以便选中这一文本)。该用户可随后说出指明该类内的想要的命令的规定单词或单词短语(例如,在作出敲击之后,用户可以说“加粗”)。计算设备将解释手势和说出的单词/短语的组合,并随后使用该解释来实施与这一组合相关联的适当的命令(例如,计算设备将使选中的文本的字体加粗)。在这种情况下,对于说出的单词/短语的识别被增强,因为事实上识别被限于与该手势相关联的那类命令的上下文。替代实施方式也是可能的,其中用户可作出规定屏幕接触手势并且基本并发地说出规定单词或单词短语。
在图6中例示的识别增强技术实施例的又一实施方式中,用户可首先作出与想要的一类命令相关联的第一规定屏幕接触手势(例如,用户可正在工作于一文档,该文档显示在触敏显示屏上,并且用户可在文档中的想要的一部分文本上的屏幕上作出敲击以便选中这一文本)。用户随后可作出与想要的命令子类相关联的第二规定屏幕接触手势(例如,在作出敲击之后,用户可轻击显示在屏幕上并且与文本的字体相关联的给定字段)。该用户可随后说出指明该子类内的想要的命令的规定单词或单词短语(例如,在作出敲击并且轻击字体字段之后,用户可以说“Arial”)。计算设备将解释这两个手势和说出的单词/短语的组合,并随后使用该解释来实施与这一组合相关联的适当的命令(例如,计算设备将使选中的文本的字体变为Arial)。替代实施方式也是可能的,其中用户可作出第二规定屏幕接触手势并且基本并发地说出规定单词或单词短语。
在图6中例示的识别增强技术实施例的又一实施方式中,用户可首先作出与想要的一类命令相关联的规定屏幕接触手势(例如,用户可正在工作于一文档,该文档显示在触敏显示屏上,并且用户可在文档中的想要的一部分文本上的屏幕上作出敲击以便选中这一文本)。该用户可随后说出指明想要的命令子类的第一规定单词或单词短语(例如,在作出敲击之后,用户可以说“颜色”)。该用户可随后说出指明该子类内的想要的命令的第二规定单词或单词短语(例如,在作出敲击并说“颜色”之后,用户可以说“红色”)。计算设备将解释手势和两个说出的单词/短语的组合,并随后使用该解释来实施与这一组合相关联的适当的命令(例如,计算设备将使选中的文本的颜色变为红色)。替代实施方式也是可能的,其中用户可作出规定屏幕接触手势并且基本并发地说出第一规定单词或单词短语。
3.3组合语音和非屏幕接触手势用于增强的命令识别
如至此描述的,支持语音的计算设备的用户可通过说规定的单词或单词短语到计算设备的音频输入设备中来将想要的命令输入到计算设备中。类似地,支持视觉的计算设备的用户可通过在计算设备的视频输入设备前作规定的非屏幕接触手势来将想要的命令输入到计算设备中。这一章节描述了此处所描述的识别增强技术的示例性实施例,该实施例一般将语音和非屏幕接触手势组合来增强对用户输入到支持语音且支持视觉的计算设备中的命令的识别。
图7以简化形式示出用于增强对用户输入到支持语音且支持视觉的计算设备的命令的识别的过程的示例性实施例。如图7中例示的,该过程始于框700,在此接收用户输入,该用户输入是由用户说出的一个或多个规定单词以及由用户作出的一个或多个规定非屏幕接触手势的组合。如至此所描述的,这些一个或多个规定非屏幕接触手势可以是一个或多个凝视,或是由用户的一只手或双手形成的一个或多个空中手势。在用户输入被接收(框700)之后,该用户输入被解释(框702),并且该解释被用于实施与接收的单词和手势的组合相关联的适当的命令(框704)。如从以下的更详细描述中可理解的,接收的单词和手势的组合允许用户以自然的并且高效的方式与计算设备交互并控制计算设备。换言之,图7中所例示的识别增强技术实施例提供了增强的用户命令和对计算设备的控制。
将理解,计算设备可用取决于正被用户用来作出手势的特定模态的各种方式来解释用户作出的非屏幕接触手势。作为示例而非限制,在其中用户使用他们的凝视来作出给定手势的情形中,由计算设备的视频输入设备生成的视频数据可使用常规眼睛追踪图像处理方法来处理,以便确定用户当前凝视的点(例如,确定用户当前正看着的计算设备的显示屏幕上的特定部分,或者用户当前正看着的显示屏幕上显示的特定信息项等)。在其中用户使用他们的手来形成给定空中手势的另一情形中,由视频输入设备生成的视频数据可使用常规图案识别图像处理方法来处理,以便标识手势,并且在手势是指向显示屏幕的情况下,还确定手势当前正指向的显示屏幕的特定部分,或者手势当前正指向的显示屏幕上显示的特定信息项。
语音和非屏幕接触手势的各种组合可被用于图7中例示的识别增强技术实施例中。换言之,可以诸如以下的各种方式来生成用户输入。在一种情形下,用户可首先说一个或多个规定单词,然后作出一个或多个规定的非屏幕接触手势。在另一情形下,用户可首先作出一个或多个规定的非屏幕接触手势,然后说一个或多个规定单词。在又一情形下,用户可说一个或多个规定单词中给定的一个单词,并基本并发地作出一个或多个规定的非屏幕接触手势中给定的一个非屏幕接触手势。现在将描述这些情形中的每一个的示例性实施方式。
在图7中例示的识别增强技术实施例的一个实施方式中,用户可首先说与想要的命令相关联的规定单词或单词短语(例如,用户可正在工作于一文档,并且在选中文档中的一部分文本之后,用户可以说“下划线”)。用户可随后作出也与该想要的命令相关联的规定非屏幕接触手势(例如,在说“下划线”之后,用户可盯着或用他们的手来形成指向显示在显示屏幕上并且与下划线命令相关联的给定图标的空中手势,或者替代的,用户可使用他们的手来形成下划线空中手势,诸如图8中所例示的手势)。计算设备将解释(即识别和转换)说出的单词/短语和手势两者,并随后使用这两个解释来实施想要的命令(例如,计算设备将对文档中的选中文本加下划线)。在这一特定实施方式中,手势用于加强并确认对说出的单词/短语的识别。替代实施方式也是可能的,其中用户可首先作出规定的非屏幕接触手势,随后说出规定的单词或单词短语,在这种情况下,说出的单词/短语用于加强并确认对手势的识别。另一替代实施方式也是可能的,其中用户可说出规定的单词或单词短语并且基本并发地作出规定的非屏幕接触手势,在这种情况下,说出的单词/短语以及手势用于加强并确认对彼此的识别。
在图7中例示的识别增强技术实施例的另一实施方式中,用户可首先说与想要的一类命令相关联的规定单词或单词短语(例如,用户可以说“打开”)。用户随后可作出用于提供针对说出的单词/短语的特定上下文的规定非屏幕接触手势(例如,在说“打开”之后,用户可盯着或用他们的手形成指向显示在显示屏幕上并且与给定文件相关联的给定图标的空中手势)。计算设备将解释说出的单词/短语和手势的组合,并随后使用该解释来实施与这一组合相关联的适当的命令(例如,计算设备将打开该文件)。替代实施方式也是可能的,其中用户可说出规定单词或单词短语并且基本并发地作出规定非屏幕接触手势。
在图7中例示的识别增强技术实施例的又一实施方式中,用户可首先作出与想要的一类命令相关联的规定的非屏幕接触手势(例如,用户可正在工作于一文档,该文档显示在显示屏幕上,并且用户可盯着或用他们的手形成指向文档中的想要的一部分文本的空中手势以便选中这一文本)。该用户可随后说出指明该类内的想要的命令的规定单词或单词短语(例如,在作出手势之后,用户可以说“斜体”)。计算设备将解释手势和说出的单词/短语的组合,并随后使用该解释来实施与这一组合相关联的适当的命令(例如,计算设备将使选中的文本变为斜体)。在这一特定实施方式中,对于说出的单词/短语的识别被增强,因为事实上识别被限于与该手势相关联的那类命令的上下文。替代实施方式也是可能的,其中用户可作出规定的非屏幕接触手势并且基本并发地说出规定单词或单词短语。
在图7中例示的识别增强技术实施例的又一实施方式中,用户可首先作出与想要的一类命令相关联的第一规定的非屏幕接触手势(例如,用户可正在工作于一文档,该文档显示在显示屏幕上,并且用户可盯着或用他们的手形成指向文档中的想要的一部分文本的空中手势以便选中这一文本)。用户随后可作出与想要的命令子类相关联的第二规定非屏幕接触手势(例如,在作出第一手势之后,用户可盯着或用他们的手形成指向显示在屏幕上并且与文本的字体相关联的给定字段的空中手势)。该用户可随后说出指明该子类内的想要的命令的规定单词或单词短语(例如,在作出第一和第二手势之后,用户可以说“Calibri”)。计算设备将解释这两个手势和说出的单词/短语的组合,并随后使用该解释来实施与这一组合相关联的适当的命令(例如,计算设备将使选中的文本的字体变为Calibri)。替代实施方式也是可能的,其中用户可作出第二规定非屏幕接触手势并且基本并发地说出规定单词或单词短语。
在图7中例示的识别增强技术实施例的又一实施方式中,用户可首先作出与想要的一类命令相关联的规定的非屏幕接触手势(例如,用户可正在工作于一文档,该文档显示在显示屏幕上,并且用户可盯着或用他们的手形成指向文档中的想要的一部分文本的空中手势以便选中这一文本)。该用户可随后说出指明想要的命令子类的第一规定单词或单词短语(例如,在作出手势之后,用户可以说“高亮”)。该用户可随后说出指明该子类内的想要的命令的第二规定单词或单词短语(例如,在作出手势并说“高亮”之后,用户可以说“黄色”)。计算设备将解释手势和这两个说出的单词/短语的组合,并随后使用该解释来实施与这一组合相关联的适当的命令(例如,计算设备将使选中的文本以黄色高亮)。替代实施方式也是可能的,其中用户可作出规定非屏幕接触手势并且基本并发地说出第一规定单词或单词短语。
4.0附加实施例
尽管具体参考各实施例描述了识别增强技术,但可以理解,可对这些实施例作出变化和修改而不背离识别增强技术的真正精神和范围。作为示例而非限制,支持触摸的计算设备的替代实施例是可能的,其中常规数字化平板(也被称为图形平板或绘画平板等)被连接到计算设备。在这一替代实施例中,也可由用户在该数字化平板上作出此处所描述的各种屏幕接触手势。类似于触敏显示屏,数字化平板对在其上作出的任何屏幕接触手势进行数字化并输出包括代表该手势的一系列x和y坐标集的电子墨水数据流。
还应当注意,可以按所需的任何组合来使用上述实施例的任一个或全部以形成另外的混合实施例。尽管用对结构特征和/或方法动作专用的语言描述了各识别增强技术实施例,但可以理解,所附权利要求书中定义的主题不必限于至今所述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。
5.0计算环境
本文描述的识别增强技术实施例可在多种通用或专用计算系统环境或配置内操作。图9示出其上可实现本文所描述的识别增强技术的各实施例和元素的通用计算机系统的简化示例。注意,图9中由折线或虚线所表示的任何框表示简化计算设备的替换实施方式,并且以下描述的这些替换实施方式中的任一个或全部可以结合贯穿本文所描述的其他替换实施方式来使用。
例如,图9示出了总系统图,其示出简化计算设备900。这样的计算设备通常可以在具有至少某种最小计算能力的设备中找到,这些设备包括但不限于个人计算机(PC-此处也被称为“台式计算机”)、服务器计算机、手持式计算设备(诸如智能电话、个人数字助理(PDA)等)、膝上型计算机、平板计算机,其它类型的移动计算机、平面计算机、诸如蜂窝电话之类的通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、以及音频或视频媒体播放器。
为允许设备实现本文描述的识别增强技术实施例,该设备应当具有足够的计算能力和系统存储器以启用基本计算操作。具体而言,如图9所示,计算能力一般由一个或多个处理单元910示出,并且还可包括一个或多个图形处理单元(GPU)915,这两者中的任一个或全部与系统存储器920通信。注意,处理单元910可以是专用微处理器(诸如数字信号处理器(DSP)、甚长指令字(VLIW)处理器、或其他微控制器)或者可以是具有一个或多个处理核的常规中央处理单元(CPU),处理核包括但不限于多核CPU中的专用的基于GPU的核。
另外,图9的简化计算设备900还可包括其他组件,诸如通信接口930等。图9的简化计算设备900还可包括一个或多个常规计算机输入设备940(例如定点设备、键盘、数字化平板、音频输入设备、视频输入设备、其它类型的触觉输入设备、用于接收有线或无线数据传输的设备等)。图9的简化计算设备900还可包括其他光学组件,诸如例如一个或多个常规计算机输出设备950(例如可以是触敏的且因此还可用作输入设备的显示设备955、音频输出设备、视频输出设备、用于传送有线或无线数据传输的设备等)。注意,通用计算机的典型的通信接口930、输入设备940、输出设备950、以及存储设备960对本领域技术人员而言是公知的,并且在此不会详细描述。
图9的简化计算设备900还可包括各种计算机可读介质。计算机可读介质可以是可由计算机900经由存储设备960访问的任何可用介质,并且包括是可移动970和/或不可移动980的易失性和非易失性介质,该介质用于存储诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据等信息。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括但不限于:计算机或机器可读介质或存储设备,诸如数字多功能盘(DVD)、紧致盘(CD)、软盘、磁带驱动器、硬盘驱动器、光盘驱动器、固态存储器设备、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、磁带盒、磁带、磁盘存储或其他磁存储设备、或可用于存储所需信息并且可由一个或多个计算设备访问的任何其他设备。
诸如计算机可读或计算机可执行指令、数据结构、程序模块等信息的存储还可通过使用各种上述通信介质中的任一种来编码一个或多个已调制数据信号或载波或其他传输机制或通信协议来实现,并且包括任何有线或无线信息传递机制。注意,术语“已调制数据信号”或“载波”一般指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。例如,通信介质包括诸如有线网络或直接线连接等携带一个或多个已调制数据信号的有线介质,以及诸如声学、射频(RF)、红外线、激光和其他无线介质等用于传送和/或接收一个或多个已调制数据信号或载波的无线介质。上述通信介质的任一组合也应包括在通信介质的范围之内。
此外,可以按计算机可执行指令或其他数据结构的形式存储、接收、传送或者从计算机或机器可读介质或存储设备和通信介质的任何所需组合中读取具体化本文所描述的识别增强技术的各种实施方式中的部分或全部的软件、程序和/或计算机程序产品或其各部分。
最终,此处描述的识别增强技术实施例还可在由计算设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。识别增强技术实施例还可以在其中任务由通过一个或多个通信网络链接的一个或多个远程处理设备执行或者在该一个或多个设备的云中执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括媒体存储设备在内的本地和远程计算机存储介质中。另外,上述指令可以部分地或整体地作为可以包括或不包括处理器的硬件逻辑电路来实现。
Claims (10)
1.一种用于增强对用户输入到支持语音且支持触摸的计算设备的命令的识别的计算机实现的过程,包括:
使用所述计算设备来执行以下过程动作:
接收用户输入,所述用户输入是由所述用户说出的一个或多个规定单词和由所述用户作出的一个或多个规定屏幕接触手势的组合;
解释所述用户输入;以及
使用所述解释来实施与所述单词和手势的组合相关联的适当的命令,其中所述组合允许用户以自然和高效的方式与所述计算设备交互并控制所述计算设备。
2.如权利要求1所述的过程,其特征在于,所述用户首先说出所述一个或多个规定单词,随后作出所述一个或多个规定屏幕接触手势。
3.如权利要求1所述的过程,其特征在于,所述用户首先作出所述一个或多个规定屏幕接触手势,随后说出所述一个或多个规定单词。
4.如权利要求1所述的过程,其特征在于,所述用户说出所述一个或多个规定单词中的给定的一个单词,并基本并发地作出所述一个或多个规定屏幕接触手势中给定的一个屏幕接触手势。
5.一种用于增强对用户输入到支持语音且支持视觉的计算设备的命令的识别的计算机实现的过程,包括:
使用所述计算设备来执行以下过程动作:
接收用户输入,所述用户输入是由所述用户说出的一个或多个规定单词和由所述用户作出的一个或多个规定非屏幕接触手势的组合;
解释所述用户输入;以及
使用所述解释来实施与所述单词和手势的组合相关联的适当的命令,其中所述组合允许用户以自然和高效的方式与所述计算设备交互并控制所述计算设备。
6.如权利要求5所述的过程,其特征在于,所述一个或多个规定非屏幕接触手势包括一个或多个凝视。
7.如权利要求5所述的过程,其特征在于,所述一个或多个规定非屏幕接触手势包括由所述用户的一只手或双手形成的一个或多个空中手势。
8.如权利要求5所述的过程,其特征在于,所述用户首先说出所述一个或多个规定单词,随后作出所述一个或多个规定非屏幕接触手势。
9.如权利要求5所述的过程,其特征在于,所述用户首先作出所述一个或多个规定非屏幕接触手势,随后说出所述一个或多个规定单词。
10.如权利要求5所述的过程,其特征在于,所述用户说出所述一个或多个规定单词中给定的一个单词,并基本并发地作出所述一个或多个规定非屏幕接触手势中给定的一个非屏幕接触手势。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/554,513 | 2012-07-20 | ||
US13/554,513 US9093072B2 (en) | 2012-07-20 | 2012-07-20 | Speech and gesture recognition enhancement |
PCT/US2013/051172 WO2014015201A1 (en) | 2012-07-20 | 2013-07-19 | Speech and gesture recognition enhancement |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104471639A true CN104471639A (zh) | 2015-03-25 |
Family
ID=48914454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380038701.8A Pending CN104471639A (zh) | 2012-07-20 | 2013-07-19 | 语音和手势识别增强 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9093072B2 (zh) |
EP (1) | EP2875509A1 (zh) |
CN (1) | CN104471639A (zh) |
WO (1) | WO2014015201A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104952447A (zh) * | 2015-04-30 | 2015-09-30 | 深圳市全球锁安防系统工程有限公司 | 一种老龄人安康服务智能穿戴设备及语音识别方法 |
CN107534764A (zh) * | 2015-04-30 | 2018-01-02 | 深圳市大疆创新科技有限公司 | 增强图像分辨率的系统及方法 |
CN110018746A (zh) * | 2018-01-10 | 2019-07-16 | 微软技术许可有限责任公司 | 通过多种输入模式来处理文档 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106030697B (zh) * | 2014-02-26 | 2019-10-25 | 三菱电机株式会社 | 车载控制装置及车载控制方法 |
KR102193029B1 (ko) * | 2014-05-09 | 2020-12-18 | 삼성전자주식회사 | 디스플레이 장치 및 그의 화상 통화 수행 방법 |
KR102265143B1 (ko) * | 2014-05-16 | 2021-06-15 | 삼성전자주식회사 | 입력 처리 장치 및 방법 |
US20160103655A1 (en) * | 2014-10-08 | 2016-04-14 | Microsoft Corporation | Co-Verbal Interactions With Speech Reference Point |
DK3689401T3 (da) * | 2014-10-21 | 2024-05-21 | Sanofi Aventis Deutschland | Optagelse af dosisdata fra lægemiddelinjektionsanordninger under anvendelse af optisk tegngenkendelse (ocr) |
KR102302844B1 (ko) * | 2014-10-23 | 2021-09-16 | 삼성전자주식회사 | 정맥 패턴을 이용한 사용자 인증 방법 및 장치 |
US20160322044A1 (en) * | 2015-04-01 | 2016-11-03 | Elwha Llc | Networked User Command Recognition |
US20170032783A1 (en) * | 2015-04-01 | 2017-02-02 | Elwha Llc | Hierarchical Networked Command Recognition |
US20180197438A1 (en) | 2017-01-10 | 2018-07-12 | International Business Machines Corporation | System for enhancing speech performance via pattern detection and learning |
KR20200103236A (ko) * | 2019-02-22 | 2020-09-02 | 삼성전자주식회사 | 수기에 기반한 입력을 디스플레이하기 위한 방법 및 장치 |
US10783323B1 (en) * | 2019-03-14 | 2020-09-22 | Michael Garnet Hawkes | Analysis system |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006474A1 (en) * | 2002-02-07 | 2004-01-08 | Li Gong | Dynamic grammar for voice-enabled applications |
CN1969249A (zh) * | 2004-06-18 | 2007-05-23 | 托比技术有限公司 | 基于眼跟踪控制计算机装置的装置、方法及计算机程序 |
CN1981257A (zh) * | 2004-07-08 | 2007-06-13 | 皇家飞利浦电子股份有限公司 | 在用户和系统之间进行通信的方法和系统 |
CN1997976A (zh) * | 2002-02-07 | 2007-07-11 | Sap股份公司 | 多模态同步结构中的用户接口和动态语法 |
CN101079262A (zh) * | 2006-05-25 | 2007-11-28 | 三星电子株式会社 | 导航终端的目的地设置方法及设备 |
CN101119680A (zh) * | 2005-02-18 | 2008-02-06 | 皇家飞利浦电子股份有限公司 | 医疗设备的自动控制 |
CN101136198A (zh) * | 2006-08-29 | 2008-03-05 | 爱信艾达株式会社 | 语音识别方法及语音识别装置 |
US20080177530A1 (en) * | 2005-06-16 | 2008-07-24 | International Business Machines Corporation | Synchronizing Visual And Speech Events In A Multimodal Application |
CN101557432A (zh) * | 2008-04-08 | 2009-10-14 | Lg电子株式会社 | 移动终端及其菜单控制方法 |
CN102221881A (zh) * | 2011-05-20 | 2011-10-19 | 北京航空航天大学 | 基于仿生代理与视线追踪兴趣区域分析的人机交互方法 |
CN102428440A (zh) * | 2009-03-18 | 2012-04-25 | 罗伯特·博世有限公司 | 用于多模式输入的同步和消歧的系统和方法 |
CN202261388U (zh) * | 2011-04-22 | 2012-05-30 | 喜讯无限(北京)科技有限责任公司 | 基于带有通信模块的触控屏移动设备远程手势识别与传输实现系统 |
CN102495959A (zh) * | 2011-12-05 | 2012-06-13 | 无锡智感星际科技有限公司 | 一种基于位置映射的增强现实平台系统及应用方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7881936B2 (en) | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US6167376A (en) | 1998-12-21 | 2000-12-26 | Ditzik; Richard Joseph | Computer system with integrated telephony, handwriting and speech recognition functions |
JP2002123279A (ja) * | 2000-10-16 | 2002-04-26 | Pioneer Electronic Corp | 施設検索装置ならびにその方法 |
US7242752B2 (en) * | 2001-07-03 | 2007-07-10 | Apptera, Inc. | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application |
US7467089B2 (en) | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US20030191639A1 (en) * | 2002-04-05 | 2003-10-09 | Sam Mazza | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition |
US7506271B2 (en) | 2003-12-15 | 2009-03-17 | Microsoft Corporation | Multi-modal handwriting recognition correction |
US8019602B2 (en) | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US7812860B2 (en) * | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
CA2573002A1 (en) * | 2004-06-04 | 2005-12-22 | Benjamin Firooz Ghassabian | Systems to enhance data entry in mobile and fixed environment |
JP4416643B2 (ja) | 2004-06-29 | 2010-02-17 | キヤノン株式会社 | マルチモーダル入力方法 |
US7941316B2 (en) | 2005-10-28 | 2011-05-10 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
US8077975B2 (en) | 2008-02-26 | 2011-12-13 | Microsoft Corporation | Handwriting symbol recognition accuracy using speech input |
US20100088096A1 (en) * | 2008-10-02 | 2010-04-08 | Stephen John Parsons | Hand held speech recognition device |
US8239129B2 (en) * | 2009-07-27 | 2012-08-07 | Robert Bosch Gmbh | Method and system for improving speech recognition accuracy by use of geographic information |
CN102770910B (zh) * | 2010-03-30 | 2015-10-21 | 三菱电机株式会社 | 声音识别装置 |
-
2012
- 2012-07-20 US US13/554,513 patent/US9093072B2/en active Active
-
2013
- 2013-07-19 WO PCT/US2013/051172 patent/WO2014015201A1/en active Application Filing
- 2013-07-19 CN CN201380038701.8A patent/CN104471639A/zh active Pending
- 2013-07-19 EP EP13744909.6A patent/EP2875509A1/en not_active Ceased
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1997976A (zh) * | 2002-02-07 | 2007-07-11 | Sap股份公司 | 多模态同步结构中的用户接口和动态语法 |
US20040006474A1 (en) * | 2002-02-07 | 2004-01-08 | Li Gong | Dynamic grammar for voice-enabled applications |
CN1969249A (zh) * | 2004-06-18 | 2007-05-23 | 托比技术有限公司 | 基于眼跟踪控制计算机装置的装置、方法及计算机程序 |
CN1981257A (zh) * | 2004-07-08 | 2007-06-13 | 皇家飞利浦电子股份有限公司 | 在用户和系统之间进行通信的方法和系统 |
CN101119680A (zh) * | 2005-02-18 | 2008-02-06 | 皇家飞利浦电子股份有限公司 | 医疗设备的自动控制 |
US20080177530A1 (en) * | 2005-06-16 | 2008-07-24 | International Business Machines Corporation | Synchronizing Visual And Speech Events In A Multimodal Application |
CN101079262A (zh) * | 2006-05-25 | 2007-11-28 | 三星电子株式会社 | 导航终端的目的地设置方法及设备 |
CN101136198A (zh) * | 2006-08-29 | 2008-03-05 | 爱信艾达株式会社 | 语音识别方法及语音识别装置 |
CN101557432A (zh) * | 2008-04-08 | 2009-10-14 | Lg电子株式会社 | 移动终端及其菜单控制方法 |
CN102428440A (zh) * | 2009-03-18 | 2012-04-25 | 罗伯特·博世有限公司 | 用于多模式输入的同步和消歧的系统和方法 |
CN202261388U (zh) * | 2011-04-22 | 2012-05-30 | 喜讯无限(北京)科技有限责任公司 | 基于带有通信模块的触控屏移动设备远程手势识别与传输实现系统 |
CN102221881A (zh) * | 2011-05-20 | 2011-10-19 | 北京航空航天大学 | 基于仿生代理与视线追踪兴趣区域分析的人机交互方法 |
CN102495959A (zh) * | 2011-12-05 | 2012-06-13 | 无锡智感星际科技有限公司 | 一种基于位置映射的增强现实平台系统及应用方法 |
Non-Patent Citations (1)
Title |
---|
SORIN DUSA等: ""Multimodal Interaction on PDA’s Integrating Speech and Pen Inputs"", 《EUROPEAN CONFERENCE ON SPEECH COMMUNICATION & TECHNOLOGY》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104952447A (zh) * | 2015-04-30 | 2015-09-30 | 深圳市全球锁安防系统工程有限公司 | 一种老龄人安康服务智能穿戴设备及语音识别方法 |
CN107534764A (zh) * | 2015-04-30 | 2018-01-02 | 深圳市大疆创新科技有限公司 | 增强图像分辨率的系统及方法 |
US10488500B2 (en) | 2015-04-30 | 2019-11-26 | SZ DJI Technology Co., Ltd. | System and method for enhancing image resolution |
CN107534764B (zh) * | 2015-04-30 | 2020-03-17 | 深圳市大疆创新科技有限公司 | 增强图像分辨率的系统及方法 |
CN104952447B (zh) * | 2015-04-30 | 2020-03-27 | 深圳市全球锁安防系统工程有限公司 | 一种老龄人安康服务智能穿戴设备及语音识别方法 |
US11249173B2 (en) | 2015-04-30 | 2022-02-15 | SZ DJI Technology Co., Ltd. | System and method for enhancing image resolution |
CN110018746A (zh) * | 2018-01-10 | 2019-07-16 | 微软技术许可有限责任公司 | 通过多种输入模式来处理文档 |
CN110018746B (zh) * | 2018-01-10 | 2023-09-01 | 微软技术许可有限责任公司 | 通过多种输入模式来处理文档 |
Also Published As
Publication number | Publication date |
---|---|
WO2014015201A1 (en) | 2014-01-23 |
US20140022184A1 (en) | 2014-01-23 |
EP2875509A1 (en) | 2015-05-27 |
US9093072B2 (en) | 2015-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104471639A (zh) | 语音和手势识别增强 | |
CN107077841B (zh) | 用于文本到语音的超结构循环神经网络 | |
EP3183728B1 (en) | Orphaned utterance detection system and method | |
US9026428B2 (en) | Text/character input system, such as for use with touch screens on mobile phones | |
CN108700994B (zh) | 用于数字墨水交互性的系统和方法 | |
JP5802292B2 (ja) | 共有された言語モデル | |
KR102168504B1 (ko) | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 | |
EP3091535A2 (en) | Multi-modal input on an electronic device | |
KR101474854B1 (ko) | 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법 | |
US20070040811A1 (en) | Navigational interface providing auxiliary character support for mobile and wearable computers | |
CN104813275A (zh) | 用于预测文本的方法和系统 | |
JP7179123B2 (ja) | 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体 | |
CN105637507A (zh) | 文本跨度的智能选择 | |
CN111241245B (zh) | 人机交互处理方法、装置及电子设备 | |
US20220147835A1 (en) | Knowledge graph construction system and knowledge graph construction method | |
CN107407975A (zh) | 连续手势输入期间的建议选择 | |
CN114047900A (zh) | 业务处理方法、装置、电子设备及计算机可读存储介质 | |
KR20220109185A (ko) | 단어 간의 유사도 판단 장치 및 그 방법 | |
CN113901841A (zh) | 翻译方法、装置以及存储介质 | |
Jüngling et al. | Innovation Potential for Human Computer Interaction Domains in the Digital Enterprise | |
KR102426079B1 (ko) | 모바일 플랫폼을 이용한 온라인 광고방법 | |
CN114048726B (zh) | 一种计算机图形界面交互方法及系统 | |
US20240121206A1 (en) | Electronic device for identifying image combined with text in multimedia content and method thereof | |
EP4250285A1 (en) | Speech recognition method and apparatus | |
JP2011243011A (ja) | 入力支援装置、抽出方法、プログラム、及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20171017 Address after: Washington State Applicant after: Micro soft technique license Co., Ltd Address before: Washington State Applicant before: Microsoft Corp. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150325 |
|
RJ01 | Rejection of invention patent application after publication |