CN1449558A - 用于上下文语音识别的眼睛凝视 - Google Patents
用于上下文语音识别的眼睛凝视 Download PDFInfo
- Publication number
- CN1449558A CN1449558A CN01814689A CN01814689A CN1449558A CN 1449558 A CN1449558 A CN 1449558A CN 01814689 A CN01814689 A CN 01814689A CN 01814689 A CN01814689 A CN 01814689A CN 1449558 A CN1449558 A CN 1449558A
- Authority
- CN
- China
- Prior art keywords
- text
- around
- district
- user interface
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Abstract
一种区分语音命令情形和语音口述情形的方法,包括:识别用户界面中的焦点;确定围绕焦点的环绕区;识别环绕区中的用户界面对象;在识别的用户界面对象中,进一步识别配置成接受语音口授文本的那些用户界面对象和未被配置成接受语音口授文本的那些用户界面对象;根据已被进一步识别为配置成接受语音口授文本的那些用户界面对象和已被进一步识别为未配置成接受语音口授文本的那些用户界面对象,计算概率;接收语音输入;根据计算的所述概率,使语音输入是语音命令还是语音口述的判断偏向一方。另外,该方法还可包括:识别位于用户界面之外的焦点;根据默认概率,使语音输入是语音命令还是语音口述的判断偏向一方。
Description
技术领域
本发明涉及语音识别,更具体地说,涉及增强用户口授、用户语音命令和文本之间的区别的方法。
背景技术
语音识别是计算机把麦克风接收的声信号转换成文本的过程。识别的文本随后可在各种计算机应用软件中用于诸如文档准备、数据输入和命令及控制之类的用途。语音口授系统还向用户提供一种不需用手的计算机系统操作方法。
就电子文档准备来说,目前可用的语音识别系统提供使用户能够选择电子文档中一部分文本的用户语音命令。这种用户语音命令一般采用诸如“SELECT<文本>”之类的语法,这里用户语音命令“SELECT”表示在该命令之后的文本应被选择或突出显示。在选择一部分文本之后,用户可对选择的文本进行一系列后续操作中的任意操作。
从而,如果用户说“SELECT how are you”,则语音口授系统将在电子文档的文本主体内搜索文本短语“how are you”。一旦在文本主体中确定该短语的位置,则可选择或突出显示该短语。随后,用户可对选择的文本进行操作,例如删除操作,加粗/倾斜/下划线操作或者校正操作。就进一步举例说明来说,一旦突出显示文本“how areyou”,则可用来源于后续用户话语的不同文本替换用户选择的文本部分。按照这种方式,用户可以不用手校正电子文档。
目前,“SELECT”命令,或者用于选择文本的其它类似用户语音命令的已知实现方式存在几个缺点。一个缺点是文本主体内,用户想选择的短语或单词可能多次出现。例如,在文本主体内,可能多次出现单词“the”。从而,如果用户说“SELECT the”,则语音口授系统不能确定用户想要选择单词“the”的哪一次出现。
就解决该问题而论,常规的语音口授系统依赖于确定用户想要选择哪一次出现的用户所需单词或短语的一套规则。例如,语音口授系统可从活动窗口的顶部开始,选择该单词或短语的第一次出现。但是,如果用户不想选择该单词或短语的第一次出现,则常规的语音口授系统可向用户提供选择该单词的另一次出现的能力。特别地,某些常规语音口授系统提供诸如“NEXT”或者“PREVIOUS”之类的导航语音命令。
通过发出语音命令“NEXT”,用户指示语音口授系统定位并选择所需单词或短语的下一次出现。类似地,命令“PREVIOUS”指示语音口授系统定位并选择所需单词或短语的上一次出现。虽然这样的常规系统使用户能够到达特定单词或短语的所需出现位置,但是用户必须研究到达所需出现位置的策略。这会导致时间的浪费和使用户受挫,尤其是在用户发觉语音口授系统不准确或者效率不高的情况下。
常规的语音口授系统内,常规的文本选择方法的另一缺点是当搜索用户指定的单词或短语时,这种语音口授系统一般搜索出现在用户屏幕上的整个文本主体。在语音口授系统语法中,出现在用户屏幕上的每个单词被激活,在语音口授系统看来是可能性相同的候选者。由于用户只需要单个单词或短语,激活并搜索出现在用户屏幕上的整个文本主体效率不高。此外,该技术会增大发生误识别的概率。
常规语音口授系统内,常规的文本选择方法的又一缺点是,对于语音口授系统来说,用户是在语音口授过程中发音一个单词还是在发出一个语音命令,例如激活下拉菜单的语音命令,常常不太明显。例如,如果用户发出单词“File”,根据情况,用户可能打算激活菜单条中的File菜单或者在电子文档中插入单词“File”。因此,对于常规的语音口授系统来说,用户话语是语音命令还是语音口述并不总是很明显。
因此,尽管目前可用的语音口授系统提供与计算机交互作用,从而以语音方式命令应用程序、提供电子文档中的语音口述以及选择电子文档内的文本的方法,但是仍然需要一种区别用户语音命令、用户口述、文本和它们的组合的改进方法。
发明内容
于是,这里公开的本发明提供一种通过结合语音口授系统利用眼睛跟踪系统,区分电子文档中文本的不同出现位置,以及区分语音命令情形和语音口述情形的方法和设备。本发明的方法和设备可包括和语音口授系统协同使用,以便在语音口授系统中确定用户凝视的焦点的眼睛跟踪系统(ETS)。特别地,ETS与语音口授系统的协同应用可提高“SELECT”用户语音命令功能,或者在语音口授系统中用于选择文本主体内一部分文本的其它任意用户语音命令的准确性。本发明中ETS的应用还可通过简化用户口述和语音命令的区分来提高系统的性能。
相应地,在第一方面,本发明提供一种在电子文档中搜索匹配文本的方法,所述方法可包括识别用户界面中的焦点,并且确定焦点周围的环绕区。特别地,环绕区可包括配置成接收语音口授文本的用户界面对象内的文本主体。另外,该方法还可包括接收用于选择电子文档内的指定文本的语音命令,搜索包含在环绕区中的文本主体以匹配所述指定文本。重要的是,搜索可局限于该环绕区中的文本主体。
如果在搜索步骤中,在文本主体中没有找到指定文本的匹配文本,则搜索电子文档中的匹配文本的方法最好还可包括扩展环绕区,使之包括用户界面中的附加区域。特别地,借助所述扩展包括进来的附加区域可包括附加文本。因此,可搜索所述附加文本,寻找所述指定文本的匹配文本。最后,如前所述,搜索可局限于所述文本主体和所述附加文本。
扩展步骤最好可包括把环绕区从焦点向外扩大预定的增量。或者,扩展步骤可包括把环绕区扩大固定数量的与文本主体相邻的文本。最后,扩展步骤可包括把环绕区从焦点向外扩大一个可变的增量。
相应地,在第二方面,本发明提供一种区分语音命令情形和语音口述情形的方法,可包括识别用户界面中的焦点;确定焦点周围的环绕区;识别环绕区中的用户界面对象;在所识别的用户界面对象中,进一步识别配置成接受语音口授文本的那些用户界面对象和未被配置成接受语音口授文本的那些用户界面对象;根据已被进一步识别为配置成接受语音口授文本的那些用户界面对象,和已被进一步识别为未配置成接受语音口授文本的那些用户界面对象,计算概率;接收语音输入;和根据计算的概率,使语音输入是语音命令还是语音口述的决定倾向一方。另外,该方法可包括在用户界面之外确定一个焦点;并且根据默认概率,使语音输入是语音命令还是语音口述的决定倾向一方。
相应地,在第三方面,本发明提供一种机器可读的存储器,所述存储器上保存有用于在电子文档中搜索匹配文本的计算机程序,所述计算机程序具有可由机器执行的,使机器执行下述步骤的若干代码段:识别用户界面中的焦点;确定所述焦点周围的环绕区,所述环绕区包括配置成接收语音口授文本的用户界面对象内的文本主体;接收在电子文档内选择指定文本的语音命令;和在环绕区中的所述文本主体中搜索所述指定文本的匹配文本,所述搜索局限于所述环绕区中的所述文本主体。
相应地,在第四方面,本发明提供一种机器可读的存储器,所述存储器上保存有用于区分语音命令情形和语音口述情形的计算机程序,所述计算机程序具有可由机器执行的,使机器执行下述步骤的若干代码段:识别用户界面中的焦点;确定所述焦点周围的环绕区;识别所述环绕区中的用户界面对象;进一步在所述识别的用户界面对象中,识别配置成接受语音口授文本的那些用户界面对象和未被配置成接受语音口授文本的那些用户界面对象;根据已被进一步识别为配置成接受语音口授文本的那些用户界面对象,和已被进一步识别为未配置成接受语音口授文本的那些用户界面对象,计算概率;接收语音输入;和根据计算的概率,使所述语音输入是语音命令还是语音口述的决定偏向一方。
相应地,在第五方面,本发明提供一种计算机程序产品,所述计算机程序产品包括保存在计算机可读存储介质上的计算机程序代码,当在计算机上被执行时,所述计算机程序代码执行如上所述的方法。
附图说明
下面将参考附图中图解说明的本发明的优选实施例,举例说明本发明,其中:
图1是与这里公开的本发明交互作用的用户的例证描述。
图2是图解说明适合于本发明之用的计算机系统的方框图。
图3是表示图1的计算机系统的典型高级架构的方框图。
图4是表示包括语音识别引擎的典型组件的方框图。
图5A和5B一起构成图解说明通过结合语音口授系统,利用眼睛跟踪系统,区别电子文档中文本的不同出现和区别语音命令情形和语音口述情形的方法的流程图。
具体实施方式
结合语音口授系统使用眼睛跟踪系统(ETS)可改进语音口授系统的性能。具体地说,根据本发明的方案,ETS可帮助语音口授系统区别文本主体内文本的多次出现。另外,ETS可帮助语音口授系统分析语音输入,从而区别语音命令和语音口述。可通过在ETS中检测用户凝视的焦点的屏幕位置实现这种改进。有利的是,屏幕位置(在或不在屏幕上)可被传送给语音口授系统。根据用户凝视焦点的位置,可确定焦点周围的区域(称为“环绕区”),该区域可帮助区分语音输入是语音命令还是语音口述。另外,环绕区可用于识别用户指定选择的文本的特定出现。
图1举例描述了与这里公开的发明交互作用的用户。在图1中,用户凝视视频显示终端(VDT)32上的某一位置。用位于VDT32的屏幕上的星号表示用户凝视的焦点。图中另外还描述了具有头戴式硬件接口29的ETS。在眼睛跟踪和测量领域中,ETS众所周知。ETS目前可从市场上购得,比如由Virginia的Fairfax的LC Technologies公司生产的THE EYEGAZE DEVELOPMENT SYSTEM,以及均由Massachusetts,Boston的SensoMotoric Instruments公司(“SensoMotoric Instruments”是SensoMotoric Instruments公司的商标)生产的EYEMOUSE(“Eyemouse”是SensoMotoricInstruments公司的商标)和EYELINK(“Eyelink”是SR ResearchLtd公司的商标)。
ETS的配置可包括眼睛跟踪硬件接口29和图像处理系统34。眼睛跟踪硬件接口29可以是可从LC Technologies公司获得的桌面安装装置。图2中表示了例证的桌面安装的眼睛跟踪装置。或者,眼睛跟踪硬件接口29可以是可从SensoMotoric Instruments公司获得的如图1中所示的头戴式装置。无论是桌面安装装置还是头戴式装置,眼睛跟踪硬件接口29均可把关于用户眼睛的信息传送给图像处理系统34。
图像处理系统可以是独立的图像处理系统,或者可存在于常规的计算机之内。在图像处理系统存在于常规的计算机之内的情况下,常规计算机可利用图像处理电路和图像处理软件的组合完成图像处理系统的功能。本领域的技术人员应认识到本发明并不受选用的ETS的限制。相反,可采用能够把用户凝视焦点的位置传送给计算机的任何适当的ETS。
图2图解说明了当图像处理系统34是基于常规计算机的图像处理系统时的情况。特别地,图像处理系统34可包括常规计算机20,常规计算机20包括中央处理器(CPU),一个或多个存储器和相关电路。常规计算机20可包括计算机存储器27,存储器27最好由电子随机存取存储器27A和诸如磁盘驱动器之类的批量数据存储介质27B组成。最后,计算机20可包括指示器21,例如鼠标,以及与之工作连接的至少一个用户界面显示器32,例如视频数据终端(VDT)。
特别地,计算机20可被配置成执行语音识别及文本-语音(TTS)转换。因此,计算机20还可包括音频输入装置30,例如麦克风。另外,计算机20可包括音频输出装置23,例如扬声器。音频输入装置30和音频输出装置23都可通过适当的接口电路或“声卡(Soundboard)”(未示出)与计算机20工作连接。这样,通过音频输入装置30,用户语音可被接收到计算机20中,通过音频输出装置23,可向用户提供合成语音及其它音频。利用可从市场上购得的多种高速多媒体个人计算机中的任意一种,可满足关于如上所述的常规计算机20的各种硬件要求。
根据本发明,计算机20还可包括通过计算机20的通信端口(未示出)与计算机20工作连接,并且通过适当的图像处理电路和软件与计算机20通信链接的眼睛跟踪硬件接口29(这里图示的是桌面型)。具体地说,图像处理电路和软件可确定用户凝视焦点的位置,并且可把该信息传送给与图像处理软件通信连接的计算机应用程序。本发明中,语音口授系统可与图像处理软件通信连接,语音口授系统可从所述图像处理软件接收指示用户凝视焦点的位置的数据。
图3图解说明了包含ETS的有语音能力的计算机系统的典型架构,其中计算机系统被配置成区分电子文档中文本的不同出现,以及区分语音命令情形和语音口述情形。如图3所示,计算机系统20在存储器27中可包括操作系统24、语音口授系统26和眼睛跟踪系统22。在所示例子中,还提供了语音文本处理应用程序28。但是,本发明并不局限于这方面,语音口授系统26可和有语音能力的任何应用程序一起使用。
图2中,语音口授系统26、语音文本处理程序28和眼睛跟踪系统22被表示成单独的应用程序。但是,应注意本发明并不局限于此,这些不同的应用程序可被实现成单一的更复杂的应用程序。例如,语音口授系统26可与语音文本处理应用程序28结合,或者和与语音口授系统一起使用的其它任意应用程序结合。另外,眼睛跟踪系统22可作为包含在计算机20中的应用程序,或者可存在于能够通过数据链路与计算机20通信的独立ETS之内。系统还可包括语音导航应用程序(未示出),以便针对其它应用程序的语音操作协调语音口授系统的操作,不过对这里所述的本发明的操作来说不是必需的。
图4是表示举例说明语音口授系统26中语音信号的语音-文本转换的典型组件的方框图。一般来说,通过如图2中所示的音频输入装置可接收模拟语音信号,并在音频电路中将其处理成数字语音信号。具体地说,通过以固定的频率,一般为每10-20毫秒对语音信号采样,可把语音信号转换成数字化数据集。随后,音频电路可把数字化的语音信号传送给语音口授系统26。
“表达”方框35可接收数字化的语音信号,并且能够产生数字化语音信号的表达,所述表达可在语音识别过程的后续阶段中用于确定一部分语音信号对应于特定语音事件的概率。该过程用来强调从操作系统接收的语音信号的对知觉重要的、和扬声器无关的特征。
在“建立模型/分类”方框36中,算法可进一步处理语音信号,使和扬声器无关的声学模型适应当前扬声器的声学模型。最后,在搜索方框38中,使用搜索算法把搜索引擎引导到对应于语音信号的最可能单词。在声学模型40、词汇模型42、语言模型44和训练数据46的帮助下,进行搜索方框38中的搜索过程。
最好,本发明提供一种区分电子文档中文本的不同出现,以及区分语音命令情形和语音口述情形的方法和设备。本发明的方法和设备可包括ETS和语音口授系统的协同应用。特别地,这种组合可提高语音口授系统中“SELECT”用户语音命令功能,或者在文本主体内选择一部分文本的其它任意用户语音命令的精度。通过帮助语音口授系统把语音输入解释为语音口述或语音命令,这种组合还可提高语音口授系统性能。
通过根据检测到的用户凝视焦点,计算时间上最接近用户凝视的语音输入是语音口述或语音命令之一的概率,实现对语音口授系统的上述提高。计算的概率可用于使语音口授系统倾向于把语音输入解释为语音口述或语音命令之一。具体地说,语音口授系统可确定环绕所检测到的焦点的一个可调整屏幕区(“环绕区”),其结果是语音口授系统可连续捕捉并更新和位于环绕区内的文本和对象有关的信息。
当接收语音输入时,语音口授系统可确定环绕区是否主要包含用户界面对象或者文本输入区。如果环绕区主要包含文本输入区,则语音口授系统可推断语音输入应被理解为插入文本输入区的语音口授。相反,如果环绕区主要包括用户界面对象,则语音口授系统可把语音输入理解为语音命令。最后,在语音输入被理解为在文本输入区中选择文本主体中的文本的语音命令的情况下,语音口授系统可根据环绕区中的文本,而不是文本输入区中的整个文本确定要选择的文本。按照这种方式,可更高效地把语音口授系统资源专用于较小的文本区域,而不是电子文档中的整个文本主体。
图5A和5B一起构成图解说明区分电子文档中文本的不同出现,以及区分语音命令情形和语音口述情形的方法的流程图。可结合为语音口授系统和ETS的使用而配置的计算机系统执行所述方法。图5A开始于步骤50,在步骤50中,在向语音口授系统提供语音输入的同时,用户自然地凝视VDT32上的不同位置(在屏幕上)或者凝视在VDT32之外(脱离屏幕)。
在步骤55中,ETS确定用户凝视的焦点的位置。借助图像处理电路和软件的帮助,ETS确定用户凝视的焦点是在屏幕上的位置还是在屏幕之外。无论如何,ETS把该信息传送给语音口授系统。在步骤60中,语音口授系统从ETS接收用户的焦点位置。如果用户凝视焦点的位置在屏幕上,则系统进行到步骤70。否则,系统进行到步骤65。
如果在步骤60中确定焦点的位置在屏幕上,则ETS已确定用户凝视焦点的屏幕位置。从而,在步骤70中,可在焦点周围确定一个环绕区。在一个代表性的实施例中,可根据从焦点向外延伸的规定半径,用周界确定该环绕区。或者,可通过把预定的几何区域覆盖在焦点上来确定环绕区。
同样,本发明并不局限于计算环绕区的上述方法。相反,计算环绕区的任意适当方法都可满足本发明的目的。此外,本领域的技术人员要认识到,和如何确定环绕区或者环绕区的最终形状无关,外周界内的区域的默认面积或大小可以是用户可调整的数值。例如,用户可指定默认面积,或者另一方面,用户可规定环绕区从焦点向外延伸的半径。
在步骤75中,在确定环绕区之后,可捕捉和环绕区内的文本和对象相关的信息,供确定语音输入应被理解为语音口述还是理解为语音命令之用,以及供识别电子文档中指定文本的特定出现之用。特别地,捕捉的信息可包括,例如专用于显示不适于接收语音口述文本的用户界面对象的象素的数目,以及专用于显示适于接收语音口述文本的用户界面对象的象素的数目。应认识到,通过确定语音口授系统可将其资源投入其中的有限区域,语音口授系统可实现更高的效率。例如,语音口授系统只需激活包含在环绕区内找到的文本的部分语音口授文法,而不是整个语音口授语法。
在步骤80中,可根据哪个语音口述可被理解为语音命令或者语音口述,计算概率。具体地说,可通过计算环绕区的可口授面积和环绕区的总面积的比值,计算概率。例如,如果70%的环绕区可接收用户口授,则概率为70%或者0.70。同样,本发明并不局限于计算概率的上述特定方式。事实上,概率的其它计算可以基于例如环绕区内的文本或者口授单词的数目和环绕区内适合于用户语音命令的对象的数目的比值。但是,无论如何计算概率,都应认识到概率最好既不为零,又不为1(指示后续用户话语绝对是用户口述或者用户语音命令)。禁止这种极端概率值使得当用户凝视屏幕之外时,希望向语音口授系统口授语音成为可能。
如果在判定步骤60中,确定用户凝视的焦点在屏幕之外,在步骤65中,系统可向概率赋予默认值。该默认值被称为默认概率,并可由用户预先配置。默认概率指示当用户凝视屏幕之外时,后续语音输入是语音口述或语音命令之一的统计可能性。因此,基于默认概率的统计分析可指示当用户注视屏幕之外时,用户打算使语音输入被理解为语音口授的可能性。
默认概率可具有从零(0.00)到1(1.00)变化的可调数值。特别地,本领域的技术人员应认识到向默认概率赋予较高的数值表示在语音口授过程中,用户不需注视屏幕的假定。但是,默认值最好不指示当用户注视屏幕之外时提供的语音输入应被绝对理解为语音口述或者语音命令。这样的确定概率会在语音口授系统内导致错误。
在步骤85中,在计算概率或者依赖默认概率之后,可接收语音输入。根据在ETS的帮助下得到的概率,可分析语音输入,从而确定语音输入是应被理解为语音口述还是应被理解为语音命令。随后,该方法可继续处理该语音输入,通过跳转圆圈A到达图5B的判定步骤95。
在判定步骤95中,可确定在步骤85中接收的语音输入是“SELECT”语音命令还是在电子文档内选择文本的其它类似语音命令。如果语音输入未被理解为SELECT命令,则该方法进行到步骤97,在步骤97中可发生两种操作之一。首先,如果语音输入,虽然不是SELECT语音命令,但被确定为另一语音命令,则可如同在常规的有语音功能的应用程序中那样执行该语音命令。其次,如果语音输入被确定为语音口述,则语音识别引擎可把该语音输入转换成文本。随后,可把转换文本插入配置成接收转换文本的用户界面对象中。在任一种情况下,该方法都可通过跳转圆圈C返回图5A的步骤50,重复上述过程。
返回判定步骤95。如果确定在步骤85接收的语音输入是SELECT语音命令或者在电子文档内选择文本的其它类似语音命令,则在步骤100中,可确定SELECT命令指定的文本是否位于包含在环绕区中的文本主体中。例如,如果语音输入已被理解为SELECT命令“SELECT mouse”,则可确定包含在环绕区中的文本主体是否包括单词“mouse”。如果对于指定文本,在步骤100中找到了匹配,则方法可前进到步骤105。否则,方法可在步骤110中继续。
如果根据步骤100找到了指定文本的匹配,则在步骤105中,可选择指定文本的最恰当的匹配。更具体地说,如果在环绕区中的文本主体内只存在一个匹配,则可选择该文本的所述单一匹配文本,一般通过突出显示该文本的匹配出现来实现。相反,如果在环绕区中的文本主体内多次出现匹配文本,则可确定环绕区中文本主体内指定文本的哪一次出现最接近焦点。从而用户凝视的焦点可用于确定应选择哪一个匹配文本。同样,本发明并不局限于此,也可采用在匹配文本的多次出现中选择一个匹配文本的其它适当方法。这样的备选方法包括在环绕区中的文本主体内选择首先出现的匹配文本。
一旦确定了指定文本的适当出现,则可选定被确定的文本,一般通过在视觉上突出显示该文本来实现。应认识到在选择了指定文本的不正确或不合乎需要的出现的情况下,可使用诸如“PREVIOUS”或者“NEXT”之类常规语音命令定位到环绕区中指定文本的其它出现位置。在任何情况下,该方法可通过跳转圆圈C返回图5A的步骤50,重新开始该过程。从而,通过重复该过程,该方法可再次计算环绕区,确定随后接收的语音输入是语音口述还是语音命令的概率。
现在返回判定步骤110,如果在环绕区中的文本主体内没有找到任何匹配,则可确定环绕区是否包括被配置成接收语音口授的整个可视用户界面。如果是,则可确定在屏幕上的文本主体中不存在任何匹配,可如步骤115中那样通知用户。在未在图5B中描述的另一实施例中,在屏幕上不存在任何匹配的情况下,系统可向用户提供继续以及进一步扩展针对用户指定文本的搜索的附加选择。例如,可询问用户是否希望搜索当前打开的电子文档的其它部分。或者,可向用户提供更多的有针对性的选择,例如在环绕区之前或者之后使环绕区扩展预定或者用户可调数目的单词或段落。在任何情况下,随后方法可通过跳转圆圈C返回图5A的步骤50,重新开始该过程。
相反,如果在步骤100中确定环绕区不包含被配置成接收语音口授的整个可视用户界面,则不能假定在屏幕上的文本主体中不存在任何匹配。从而,继续进行步骤120,可扩展环绕区所覆盖的面积以便包括更多的文本。执行环绕区的扩展的任意适当方法都可满足需要。例如,可从用户焦点沿所有方向把环绕区的外周界向外延伸相同的预定的或者动态计算的数值。或者,可从焦点把环绕区向外延伸一个代表一面积值的预定数值。
在本发明的一个实施例中,默认预定值可用于确定扩展的程度。默认值可以是可调的,以便提供微调能力。按照这种方式,用户可规定在重复搜索过程中,环绕区应增长多大。以前一例子为例,如果在环绕区中的文本主体内没有找到用户指定的文本“mouse”,则可从焦点沿所有方向把环绕区的周界向外扩大1厘米。或者,可把环绕区扩大5平方厘米或者特定数目的象素的预定面积。
在扩大环绕区之后,在步骤125中,可计算、收集并保存和新扩大的环绕区内的对象和文本有关的信息,以供本发明的方法未来之用。另外,在语音口授系统文法内,可激活新扩大的环绕区内的新的文本主体。另外,可确定存在于新扩大的环绕区内的对象的属性。在识别新扩大的环绕区内的文本和对象之后,通过跳转圆圈B从步骤100开始,可重复文本主体中匹配文本的搜索。按照这种方式,该方法可系统地并且递增地把对文本主体内用户指定文本的搜索扩大到并超出文本主体的屏幕部分之外。
特别地,可用硬件、软件或者硬件和软件的组合实现本发明。可在一个计算机系统中以集中方式实现本发明,或者按照其中不同的部件分散在几个互连计算机系统中的分布方式实现本发明。适合于执行这里描述的方法的任意类型的计算机系统或其它设备都是适宜的。硬件和软件的典型组合可以是一个通用计算机系统加上计算机程序,当程序被加载并被执行时,其控制计算机系统,使其执行这里描述的方法。
本发明还可嵌入计算机程序产品中,所述计算机程序产品包括使这里描述的方法的实现成为可能的所有特征,并且当被载入计算机系统时,能够执行这些方法。本文中,计算机程序方法或计算机程序意指一组指令的采用任何语言、代码或符号的任何表达,所述一组指令用来使具有信息处理能力的系统直接或者在下述任一或两种操作之后执行特定功能:a)转换为另一语言、代码或符号;b)以不同的材料形式复制。
虽然上面的说明书举例说明了本发明的优选实施例,但是要明白本发明并不局限于这里公开的具体结构。在不脱离本质属性的情况下,可以其它具体形式体现本发明。因此,本发明的范围只应由下述权利要求限定,而不是由前述说明书限定。
Claims (15)
1、一种在电子文档中搜索匹配文本的方法,包括:
识别用户界面中的焦点;
确定一个围绕所述焦点的环绕区,所述环绕区包括配置成接收语音口授文本的用户界面对象内的文本主体;
接收选择电子文档内的指定文本的语音命令;和
在包含在所述环绕区中的所述文本主体中搜索所述指定文本的匹配文本,所述搜索局限于所述环绕区中的所述文本主体。
2、按照权利要求1所述的方法,还包括:
如果在所述搜索步骤中,在所述文本主体中没有找到所述指定文本的匹配,则扩展所述环绕区,使之包括所述用户界面的一个附加区域,所述附加区域包括附加文本;和
在所述附加文本中搜索所述指定文本的匹配,所述搜索局限于所述文本主体和所述附加文本。
3、按照权利要求2所述的方法,其中所述扩展步骤包括:
从所述焦点把所述环绕区向外扩大预定的增量。
4、按照权利要求2所述的方法,其中所述扩展步骤包括:
把所述环绕区扩大固定数量的与所述文本主体相邻的文本。
5、按照权利要求2所述的方法,其中所述扩展步骤包括:
从所述焦点把所述环绕区向外扩大一个可变的增量。
6、一种区分语音命令情形和语音口述情形的方法,包括:
识别用户界面中的焦点;
确定一个围绕所述焦点的环绕区;
识别所述环绕区中的用户界面对象;
在所述识别的用户界面对象中,进一步识别配置成接受语音口授文本的那些用户界面对象和未被配置成接受语音口授文本的那些用户界面对象;
根据已被进一步识别为配置成接受语音口授文本的那些用户界面
对象和已被进一步识别为未配置成接受语音口授文本的那些用户界面
对象,计算概率;
接收语音输入;和
根据计算的所述概率,使所述语音输入是语音命令还是语音口述的判断偏向一方。
7、按照权利要求6所述的方法,还包括:
识别位于所述用户界面之外的焦点;和
根据默认概率,使所述语音输入是语音命令还是语音口述的决定偏向一方。
8、一种机器可读存储器,所述存储器上保存有用于在电子文档中搜索匹配文本的计算机程序,所述计算机程序具有可由机器执行的,使机器执行下述步骤的若干代码段:
识别用户界面中的焦点;
确定一个围绕所述焦点的环绕区,所述环绕区包括配置成接收语音口授文本的用户界面对象内的文本主体;
接收在电子文档内选择指定文本的语音命令;和
在包含在所述环绕区中的所述文本主体中搜索所述指定文本的匹配,所述搜索局限于所述环绕区中的所述文本主体。
9、按照权利要求8所述的机器可读存储器,还包括:
如果在所述搜索步骤中,在所述文本主体中没有找到所述指定文本的匹配,则扩展所述环绕区,使之包括所述用户界面的一个附加区域,所述附加区域包括附加文本;和
在所述附加文本中搜索所述指定文本的匹配,所述搜索局限于所述文本主体和所述附加文本。
10、按照权利要求9所述的机器可读存储器,其中所述扩展步骤包括:
从所述焦点把所述环绕区向外扩大预定的增量。
11、按照权利要求9所述的机器可读存储器,其中所述扩展步骤包括:
把所述环绕区扩大固定数量的与所述文本主体相邻的文本。
12、按照权利要求9所述的机器可读存储器,其中所述扩展步骤包括:
从所述焦点把所述环绕区向外扩大一个可变的增量。
13、一种机器可读存储器,所述存储器上保存有用于区分语音命令情形和语音口述情形的计算机程序,所述计算机程序具有可由机器执行的,使机器执行下述步骤的若干代码段:
识别用户界面中的焦点;
确定围绕所述焦点的环绕区;
识别所述环绕区中的用户界面对象;
在所述识别的用户界面对象中,进一步识别配置成接受语音口授文本的那些用户界面对象和未被配置成接受语音口授文本的那些用户界面对象;
根据已被进一步识别为配置成接受语音口授文本的那些用户界面对象和已被进一步识别为未配置成接受语音口授文本的那些用户界面对象,计算概率;
接收语音输入;和
根据计算的所述概率,使所述语音输入是语音命令还是语音口述的判断偏向一方。
14、按照权利要求13所述的机器可读存储器,还包括:
识别位于所述用户界面之外的焦点;和
根据默认概率,使所述语音输入是语音命令还是语音口述的判断偏向一方。
15、一种包括保存在计算机可读存储介质上的计算机程序代码的计算机程序产品,当在计算机上被执行时,所述计算机程序代码执行按照权利要求1-7任一所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/665,939 | 2000-09-20 | ||
US09/665,939 US6795806B1 (en) | 2000-09-20 | 2000-09-20 | Method for enhancing dictation and command discrimination |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1449558A true CN1449558A (zh) | 2003-10-15 |
CN1205602C CN1205602C (zh) | 2005-06-08 |
Family
ID=24672168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB018146899A Expired - Lifetime CN1205602C (zh) | 2000-09-20 | 2001-09-13 | 用于上下文语音识别的眼睛凝视 |
Country Status (14)
Country | Link |
---|---|
US (2) | US6795806B1 (zh) |
EP (1) | EP1320848B1 (zh) |
JP (1) | JP3943492B2 (zh) |
KR (1) | KR100586286B1 (zh) |
CN (1) | CN1205602C (zh) |
AT (1) | ATE336779T1 (zh) |
AU (1) | AU2001286090A1 (zh) |
CA (1) | CA2420093A1 (zh) |
DE (1) | DE60122352T2 (zh) |
ES (1) | ES2269449T3 (zh) |
HK (1) | HK1057940A1 (zh) |
IL (1) | IL154852A0 (zh) |
TW (1) | TW521262B (zh) |
WO (1) | WO2002025637A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258534A (zh) * | 2012-02-21 | 2013-08-21 | 联发科技股份有限公司 | 语音命令识别方法和电子装置 |
CN103729059A (zh) * | 2013-12-27 | 2014-04-16 | 北京智谷睿拓技术服务有限公司 | 交互方法及装置 |
CN106251870A (zh) * | 2015-06-08 | 2016-12-21 | 罗伯特·博世有限公司 | 识别语音控制用的语境的方法、求出语音控制用的语音控制信号的方法及实施该方法的设备 |
CN106462249A (zh) * | 2014-06-13 | 2017-02-22 | 索尼公司 | 便携式电子设备和操作用户界面的方法 |
CN106527729A (zh) * | 2016-11-17 | 2017-03-22 | 科大讯飞股份有限公司 | 非接触式输入方法和装置 |
CN107567611A (zh) * | 2015-03-20 | 2018-01-09 | 脸谱公司 | 通过将眼睛跟踪与语音辨别组合而精细控制的方法 |
CN107957779A (zh) * | 2017-11-27 | 2018-04-24 | 海尔优家智能科技(北京)有限公司 | 一种利用眼部动作控制信息搜索的方法及装置 |
US11830289B2 (en) | 2017-12-11 | 2023-11-28 | Analog Devices, Inc. | Multi-modal far field user interfaces and vision-assisted audio processing |
Families Citing this family (160)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6968333B2 (en) | 2000-04-02 | 2005-11-22 | Tangis Corporation | Soliciting information based on a computer user's context |
US6920616B1 (en) * | 1998-12-18 | 2005-07-19 | Tangis Corporation | Interface for exchanging context data |
US9183306B2 (en) | 1998-12-18 | 2015-11-10 | Microsoft Technology Licensing, Llc | Automated selection of appropriate information based on a computer user's context |
US7225229B1 (en) | 1998-12-18 | 2007-05-29 | Tangis Corporation | Automated pushing of computer user's context data to clients |
US7779015B2 (en) * | 1998-12-18 | 2010-08-17 | Microsoft Corporation | Logging and analyzing context attributes |
US6513046B1 (en) | 1999-12-15 | 2003-01-28 | Tangis Corporation | Storing and recalling information to augment human memories |
US7046263B1 (en) | 1998-12-18 | 2006-05-16 | Tangis Corporation | Requesting computer user's context data |
US6801223B1 (en) | 1998-12-18 | 2004-10-05 | Tangis Corporation | Managing interactions between computer users' context models |
US6791580B1 (en) | 1998-12-18 | 2004-09-14 | Tangis Corporation | Supplying notifications related to supply and consumption of user context data |
US6842877B2 (en) | 1998-12-18 | 2005-01-11 | Tangis Corporation | Contextual responses based on automated learning techniques |
US8181113B2 (en) | 1998-12-18 | 2012-05-15 | Microsoft Corporation | Mediating conflicts in computer users context data |
US7231439B1 (en) | 2000-04-02 | 2007-06-12 | Tangis Corporation | Dynamically swapping modules for determining a computer user's context |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7464153B1 (en) | 2000-04-02 | 2008-12-09 | Microsoft Corporation | Generating and supplying user context data |
US20020054130A1 (en) * | 2000-10-16 | 2002-05-09 | Abbott Kenneth H. | Dynamically displaying current status of tasks |
EP1215658A3 (en) * | 2000-12-05 | 2002-08-14 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
GB2388209C (en) | 2001-12-20 | 2005-08-23 | Canon Kk | Control apparatus |
US7881493B1 (en) * | 2003-04-11 | 2011-02-01 | Eyetools, Inc. | Methods and apparatuses for use of eye interpretation information |
US20040268216A1 (en) * | 2003-06-24 | 2004-12-30 | Jacobs Paul E | Method and apparatus for transferring a document into a folder |
US7629989B2 (en) * | 2004-04-02 | 2009-12-08 | K-Nfb Reading Technology, Inc. | Reducing processing latency in optical character recognition for portable reading machine |
KR100716438B1 (ko) * | 2004-07-27 | 2007-05-10 | 주식회사 현대오토넷 | 차량용 텔레매틱스 시스템에서 음성 사용자 인터페이스를제공하는 장치 및 방법 |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US20070150916A1 (en) * | 2005-12-28 | 2007-06-28 | James Begole | Using sensors to provide feedback on the access of digital content |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8036917B2 (en) * | 2006-11-22 | 2011-10-11 | General Electric Company | Methods and systems for creation of hanging protocols using eye tracking and voice command and control |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8689203B2 (en) * | 2008-02-19 | 2014-04-01 | Microsoft Corporation | Software update techniques based on ascertained identities |
US20090248397A1 (en) * | 2008-03-25 | 2009-10-01 | Microsoft Corporation | Service Initiation Techniques |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US8416715B2 (en) * | 2009-06-15 | 2013-04-09 | Microsoft Corporation | Interest determination for auditory enhancement |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8600732B2 (en) * | 2010-11-08 | 2013-12-03 | Sling Media Pvt Ltd | Translating programming content to match received voice command language |
US20120124467A1 (en) * | 2010-11-15 | 2012-05-17 | Xerox Corporation | Method for automatically generating descriptive headings for a text element |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9361718B2 (en) * | 2011-09-08 | 2016-06-07 | Intel Corporation | Interactive screen viewing |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9423870B2 (en) * | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
EP2871640B1 (en) * | 2012-07-09 | 2021-01-06 | LG Electronics, Inc. | Speech recognition apparatus and method |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9265458B2 (en) | 2012-12-04 | 2016-02-23 | Sync-Think, Inc. | Application of smooth pursuit cognitive testing paradigms to clinical drug development |
CN103885743A (zh) * | 2012-12-24 | 2014-06-25 | 大陆汽车投资(上海)有限公司 | 结合注视跟踪技术的语音文本输入方法和系统 |
US9380976B2 (en) | 2013-03-11 | 2016-07-05 | Sync-Think, Inc. | Optical neuroinformatics |
US9436287B2 (en) * | 2013-03-15 | 2016-09-06 | Qualcomm Incorporated | Systems and methods for switching processing modes using gestures |
KR20140132246A (ko) * | 2013-05-07 | 2014-11-17 | 삼성전자주식회사 | 오브젝트 선택 방법 및 오브젝트 선택 장치 |
US20140350942A1 (en) * | 2013-05-23 | 2014-11-27 | Delphi Technologies, Inc. | Vehicle human machine interface with gaze direction and voice recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105264524B (zh) | 2013-06-09 | 2019-08-02 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
US9412363B2 (en) | 2014-03-03 | 2016-08-09 | Microsoft Technology Licensing, Llc | Model based approach for on-screen item selection and disambiguation |
US9966079B2 (en) * | 2014-03-24 | 2018-05-08 | Lenovo (Singapore) Pte. Ltd. | Directing voice input based on eye tracking |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10317992B2 (en) | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
WO2016151396A1 (en) * | 2015-03-20 | 2016-09-29 | The Eye Tribe | Method for refining control by combining eye tracking and voice recognition |
FR3034215B1 (fr) * | 2015-03-27 | 2018-06-15 | Valeo Comfort And Driving Assistance | Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
JP6553418B2 (ja) * | 2015-06-12 | 2019-07-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 表示制御方法、表示制御装置及び制御プログラム |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9934782B2 (en) * | 2015-09-22 | 2018-04-03 | Meshrose Ltd. | Automatic performance of user interaction operations on a computing device |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9886958B2 (en) | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US20170345410A1 (en) * | 2016-05-26 | 2017-11-30 | Tyler Murray Smith | Text to speech system with real-time amendment capability |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10223067B2 (en) | 2016-07-15 | 2019-03-05 | Microsoft Technology Licensing, Llc | Leveraging environmental context for enhanced communication throughput |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10142686B2 (en) | 2017-03-30 | 2018-11-27 | Rovi Guides, Inc. | System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10366691B2 (en) | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
US10795671B2 (en) * | 2017-11-21 | 2020-10-06 | International Business Machines Corporation | Audiovisual source code documentation |
US10467335B2 (en) | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
US11488602B2 (en) | 2018-02-20 | 2022-11-01 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
US10657954B2 (en) * | 2018-02-20 | 2020-05-19 | Dropbox, Inc. | Meeting audio capture and transcription in a collaborative document context |
US11157075B2 (en) * | 2018-05-01 | 2021-10-26 | Dell Products, L.P. | Gaze-activated voice services for interactive workspaces |
CN111833846B (zh) * | 2019-04-12 | 2023-06-02 | 广东小天才科技有限公司 | 一种根据意图启动听写状态的方法和装置,及存储介质 |
US11689379B2 (en) | 2019-06-24 | 2023-06-27 | Dropbox, Inc. | Generating customized meeting insights based on user interactions and meeting media |
CN111090473A (zh) * | 2019-07-29 | 2020-05-01 | 广东小天才科技有限公司 | 一种基于电子设备的听写启动方法及电子设备 |
JP7402322B2 (ja) * | 2020-05-15 | 2023-12-20 | 株式会社Nttドコモ | 情報処理システム |
US20230065847A1 (en) * | 2021-08-31 | 2023-03-02 | International Business Machines Corporation | Network bandwidth conservation during video conferencing |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3530591B2 (ja) | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
US5777614A (en) * | 1994-10-14 | 1998-07-07 | Hitachi, Ltd. | Editing support system including an interactive interface |
ATE196560T1 (de) | 1994-12-23 | 2000-10-15 | Siemens Ag | Verfahren zur umwandlung von sprachlich eingegebenen informationen in maschinenlesbare daten |
US5799279A (en) | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US6078310A (en) * | 1996-06-26 | 2000-06-20 | Sun Microsystems, Inc. | Eyetracked alert messages |
US6351273B1 (en) * | 1997-04-30 | 2002-02-26 | Jerome H. Lemelson | System and methods for controlling automatic scrolling of information on a display or screen |
US6393136B1 (en) * | 1999-01-04 | 2002-05-21 | International Business Machines Corporation | Method and apparatus for determining eye contact |
DE50104533D1 (de) | 2000-01-27 | 2004-12-23 | Siemens Ag | System und verfahren zur blickfokussierten sprachverarbeitung |
-
2000
- 2000-09-20 US US09/665,939 patent/US6795806B1/en not_active Expired - Lifetime
-
2001
- 2001-08-14 TW TW90119955A patent/TW521262B/zh not_active IP Right Cessation
- 2001-09-13 AU AU2001286090A patent/AU2001286090A1/en not_active Abandoned
- 2001-09-13 DE DE2001622352 patent/DE60122352T2/de not_active Expired - Lifetime
- 2001-09-13 CN CNB018146899A patent/CN1205602C/zh not_active Expired - Lifetime
- 2001-09-13 CA CA 2420093 patent/CA2420093A1/en not_active Abandoned
- 2001-09-13 ES ES01965449T patent/ES2269449T3/es not_active Expired - Lifetime
- 2001-09-13 EP EP01965449A patent/EP1320848B1/en not_active Expired - Lifetime
- 2001-09-13 WO PCT/GB2001/004092 patent/WO2002025637A1/en active IP Right Grant
- 2001-09-13 IL IL15485201A patent/IL154852A0/xx unknown
- 2001-09-13 JP JP2002529757A patent/JP3943492B2/ja not_active Expired - Lifetime
- 2001-09-13 KR KR1020037003790A patent/KR100586286B1/ko not_active IP Right Cessation
- 2001-09-13 AT AT01965449T patent/ATE336779T1/de not_active IP Right Cessation
-
2004
- 2004-01-31 HK HK04100682A patent/HK1057940A1/xx not_active IP Right Cessation
- 2004-05-20 US US10/849,663 patent/US20040216049A1/en not_active Abandoned
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258534A (zh) * | 2012-02-21 | 2013-08-21 | 联发科技股份有限公司 | 语音命令识别方法和电子装置 |
US9691381B2 (en) | 2012-02-21 | 2017-06-27 | Mediatek Inc. | Voice command recognition method and related electronic device and computer-readable medium |
CN103258534B (zh) * | 2012-02-21 | 2017-07-07 | 联发科技股份有限公司 | 语音命令识别方法和电子装置 |
CN103729059A (zh) * | 2013-12-27 | 2014-04-16 | 北京智谷睿拓技术服务有限公司 | 交互方法及装置 |
CN106462249A (zh) * | 2014-06-13 | 2017-02-22 | 索尼公司 | 便携式电子设备和操作用户界面的方法 |
CN107567611A (zh) * | 2015-03-20 | 2018-01-09 | 脸谱公司 | 通过将眼睛跟踪与语音辨别组合而精细控制的方法 |
CN106251870A (zh) * | 2015-06-08 | 2016-12-21 | 罗伯特·博世有限公司 | 识别语音控制用的语境的方法、求出语音控制用的语音控制信号的方法及实施该方法的设备 |
CN106527729A (zh) * | 2016-11-17 | 2017-03-22 | 科大讯飞股份有限公司 | 非接触式输入方法和装置 |
CN107957779A (zh) * | 2017-11-27 | 2018-04-24 | 海尔优家智能科技(北京)有限公司 | 一种利用眼部动作控制信息搜索的方法及装置 |
US11830289B2 (en) | 2017-12-11 | 2023-11-28 | Analog Devices, Inc. | Multi-modal far field user interfaces and vision-assisted audio processing |
Also Published As
Publication number | Publication date |
---|---|
JP2004510239A (ja) | 2004-04-02 |
ATE336779T1 (de) | 2006-09-15 |
JP3943492B2 (ja) | 2007-07-11 |
AU2001286090A1 (en) | 2002-04-02 |
CN1205602C (zh) | 2005-06-08 |
US6795806B1 (en) | 2004-09-21 |
DE60122352D1 (de) | 2006-09-28 |
US20040216049A1 (en) | 2004-10-28 |
TW521262B (en) | 2003-02-21 |
EP1320848A1 (en) | 2003-06-25 |
WO2002025637A1 (en) | 2002-03-28 |
HK1057940A1 (en) | 2004-04-23 |
KR20030046453A (ko) | 2003-06-12 |
EP1320848B1 (en) | 2006-08-16 |
KR100586286B1 (ko) | 2006-06-07 |
IL154852A0 (en) | 2003-10-31 |
CA2420093A1 (en) | 2002-03-28 |
ES2269449T3 (es) | 2007-04-01 |
DE60122352T2 (de) | 2007-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1205602C (zh) | 用于上下文语音识别的眼睛凝视 | |
US6256610B1 (en) | Header/footer avoidance for reading system | |
US6173253B1 (en) | Sentence processing apparatus and method thereof,utilizing dictionaries to interpolate elliptic characters or symbols | |
US8255216B2 (en) | Speech recognition of character sequences | |
US9177545B2 (en) | Recognition dictionary creating device, voice recognition device, and voice synthesizer | |
US20150227510A1 (en) | System for speaker diarization based multilateral automatic speech translation system and its operating method, and apparatus supporting the same | |
US20070033037A1 (en) | Redictation of misrecognized words using a list of alternatives | |
US7496513B2 (en) | Combined input processing for a computing device | |
EP1286252A2 (en) | Multimodal user interface | |
US20020173956A1 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
KR20170014353A (ko) | 음성 기반의 화면 내비게이션 장치 및 방법 | |
CN105283914A (zh) | 用于识别语音的系统和方法 | |
KR20170033152A (ko) | 음성 인식 서버 및 그 제어 방법 | |
CN1254787C (zh) | 使用离散语言模型的语音识别方法和设备 | |
CN106205613B (zh) | 一种导航语音识别方法及系统 | |
JP4100243B2 (ja) | 映像情報を用いた音声認識装置及び方法 | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
JP4868170B2 (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
US20050288933A1 (en) | Information input method and apparatus | |
KR20010064061A (ko) | 음성 인식 기능을 갖는 검색 엔진 | |
CN107180027B (zh) | 语音控制业务分类方法及装置 | |
CN110010131B (zh) | 一种语音信息处理的方法和装置 | |
US20200243092A1 (en) | Information processing device, information processing system, and computer program product | |
CN112802460B (zh) | 一种基于语音处理的空间环境预报系统 | |
JP2001109740A (ja) | 中国語文書作成装置及び中国語文書作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: NEW ANST COMMUNICATION CO.,LTD. Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP. Effective date: 20090911 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20090911 Address after: Massachusetts, USA Patentee after: Nuance Communications Inc Address before: American New York Patentee before: International Business Machines Corp. |
|
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20050608 |