CN105122353B

CN105122353B - 用于语音识别的计算装置和用于计算装置上的语音识别的方法

Info

Publication number: CN105122353B
Application number: CN201380075764.0A
Authority: CN
Inventors: W.德利厄夫
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-05-20
Filing date: 2013-05-20
Publication date: 2019-07-09
Anticipated expiration: 2033-05-20
Also published as: WO2014189486A1; US9607612B2; CN109584868A; US10198069B2; US20230376108A1; US12099651B2; US20160063989A1; US20210072825A1; US20220083136A1; US10684683B2; US20170177080A1; CN109584868B; US20190227623A1; CN105122353A; US11609631B2; US11181980B2

Abstract

自然语言与虚拟个人助理系统交互的技术包含配置成捕获音频输入、使音频输入失真以产生若干失真的音频变化并对音频输入和失真的音频变化执行语音识别的计算装置。计算装置基于上下文信息从大量潜在语音识别结果中选择结果。计算装置可通过使用眼睛跟踪传感器确定用户是否在视觉上聚焦在由虚拟个人助理再现的化身上来测量用户的参与级别。可基于用户参与级别在不参与状态、准备状态或参与状态再现化身。在不参与状态，化身可被再现为半透明，并且在准备状态或参与状态可降低透明度。描述并要求保护其它实施例。

Description

用于语音识别的计算装置和用于计算装置上的语音识别的方法

背景技术

虚拟个人助理是响应于来自用户的自然语言请求而在计算装置上执行任务的人工智能系统。例如，虚拟个人助理可处理用户的日历、提醒和消息传递任务。为了与虚拟个人助理交互，用户通常在计算装置上输入预先定义的输入序列，例如，按压专用硬件按钮或说预先定义的码字。用户可通过常规文本输入或通过语音识别输入自然语言请求。

为了进一步实现自然交互，许多虚拟个人助理显示类人人物，也成为化身，以充当与用户交互的主要点。化身可占据或模糊计算装置显示器的重要部分。另外，化身可干扰计算装置上其它应用的使用，具体地说，当用户不打算激活化身时。甚至当显示类人化身时，典型系统可不完全对自然人交互建模，并且相反可要求常规人机交互，诸如按钮按压、鼠标点击等。

语音识别系统将用户所说的话转换成文本的计算机可读表示。典型的语音识别系统尝试确定给定音频输入的单个最可能语音识别结果。此类系统可过滤出噪声或者以别的方式尝试增强音频输入信号，以便改进语音识别结果。一些系统可提供少量备选结果；然而，这些结果通常仅关于彼此有微小变化。典型的语音识别引擎可实现为本地计算装置的组件，或者由服务器计算装置提供的服务。

附图说明

本文描述的概念在附图中作为示例而非作为限制图示。为了图示的简洁和清晰起见，在附图中图示的元素不一定按比例绘制。在合适的情况下，附图标记在各图之间已经被重复以指示对应或类似元素。

图1是与虚拟个人助理自然交互的计算装置的至少一个实施例的简化框图；

图2是图1的计算装置的环境的至少一个实施例的简化框图；

图3是与虚拟个人助理自然交互的系统的至少一个实施例的简化框图；

图4是可由图1和图2的计算装置执行的用于引入音频失真以改进语音识别的方法的至少一个实施例的简化流程图；

图5是可由图4的语音识别服务器执行的用于引入音频失真以改进语音识别的方法的至少一个实施例的简化流程图；以及

图6A和6B是可由图1和图2的计算装置执行的用于与虚拟个人助理自然交互的方法的至少一个实施例的简化流程图。

具体实施方式

虽然本公开的概念易受到各种修改和备选形式，但其特定实施例已经在附图中作为示例示出，并且将在本文中详细描述。然而，应该理解，没有意图将本公开的概念局限于所公开的具体形式，而是相反，本发明覆盖与本公开和所附权利要求书一致的所有修改、等效和备选。

在说明书中提到“一个实施例”、“实施例”、“说明性实施例”等指示所描述的实施例可包含具体特征、结构或特性，但每一个实施例可以一定或者可以不一定包含该具体特征、结构或特性。而且，此类短语不一定是指同一实施例。另外，当结合实施例描述具体特征、结构或特性时，认为结合不管是否明确描述的其它实施例实现此类特征、结构或特性在本领域技术人员的知识范围内。

所公开的实施例在一些情况下可用硬件、固件、软件或它们的任何组合来实现。所公开的实施例也可实现为由易失性或非易失性机器可读(例如计算机可读)介质携带或存储在其上的指令，其可由一个或多个处理器读取和执行。机器可读存储介质可实施为用于存储或传送由机器(例如易失性或非易失性存储器、媒体盘或其它媒体装置)可读形式的信息的任何存储装置、机制或其它物理结构。

在附图中，一些结构或方法特征可按特定布置和/或排序示出。然而，应该认识到，可能不需要此类特定布置和/或排序。而是，在一些实施例中，此类特征可按与在说明性附图中示出的不同的方式和/或次序布置。此外，在具体附图中包含结构或方法特征不打算暗示此类特征在所有实施例中是需要的，并且在一些实施例中，可能不被包含或者可与其它特征组合。

现在参考图1，用于与虚拟个人助理自然交互的说明性计算装置100包含处理器120、I/O子系统122和存储器124。计算装置100捕获音频输入，并从语音识别引擎获得基于施加到音频输入的失真的语音识别结果。施加的失真可导致音频输入的多个语义上截然不同的变化。提供多个变化可允许语音识别引擎产生许多更潜在的语音识别结果，这又可增大语音识别准确性。语音识别引擎可操作在计算装置100上，或者在一些实施例中，可操作在远程语音识别服务器上，如下面更详细讨论的。语音识别结果可用于控制虚拟个人助理。虚拟个人助理通过跟踪用户的视觉焦点和/或通过解释用户的语音来对用户的参与(engagement)级别建模。对用户参与建模可允许虚拟个人助理从事更自然的人交互；例如，虚拟个人助理可更好地确定用户何时寻址它或者用户何时已经移动到某一其它任务。虚拟个人助理可通过调整显示屏上化身的大小、位置和/或透明度来表示用户的参与级别。以这种方式再现参与级别也可通过允许用户更好地理解虚拟个人助理的状态来实现自然交互，无需不必要地中断用户的其它工作。

计算装置100可被实施为能够执行本文描述的功能的任何类型装置。例如，计算装置100可实施为(而非限制)：智能电话、蜂窝电话、平板计算机、笔记本计算机、膝上型计算机、台式计算机、分布式计算系统、微处理器系统、消费电子装置、智能电器和/或能够识别所说用户命令的任何其它计算装置。如图1中所示，说明性计算装置100包含处理器120、I/O子系统122、存储器124和数据存储装置126。当然，在其它实施例中，计算装置100可包含其它或附加组件，诸如在便携计算机中发现的组件(例如各种输入/输出装置)。此外，在一些实施例中，其中一个或多个说明性组件可结合在另一组件中，或另外来自另一组件的一部分。例如，在一些实施例中，存储器124或其部分可结合在处理器120中。

处理器120可实施为当前已知或者将来开发的并且能够执行本文描述的功能的任何类型处理器。例如，处理器可实施为单核或多核处理器、数字信号处理器、微控制器或其它处理器或处理/控制电路。类似地，存储器124可实施为当前已知或将来开发的并且能够执行本文描述的功能的任何类型易失性或非易失性存储器或数据存储装置。在操作中，存储器124可存储在计算装置100操作期间使用的各种数据和软件，诸如操作系统、应用、程序、库以及驱动。存储器124以通信方式经由I/O子系统122耦合到处理器120，I/O子系统104可实施为电路和/或组件以便于与计算装置100的处理器120、存储器124和/或其它组件的输入/输出操作。例如，I/O子系统122可实施为或以别的方式包含存储器控制器集线器、输入/输出控制集线器、固件装置、通信链路(即，点对点链路、总线链路、导线、电缆、光导、印刷电路板迹线等)和/或其它组件和子系统以便于输入/输出操作。在一些实施例中，I/O子系统122可形成片上系统(SoC)的一部分，并与计算装置100的处理器120、存储器124和其它组件一起结合在单个集成电路芯片上。

数据存储装置126可实施为配置用于数据的短期存储或长期存储的任何类型装置，诸如例如存储器装置和电路、存储卡、硬盘驱动器、固态驱动器或其它数据存储装置。数据存储装置126可存储与虚拟个人助理相关的程序和数据文件，并且可充当由计算装置100捕获的音频数据的临时或永久存储装置。

计算装置100还包含显示器128、音频传感器130和眼睛跟踪传感器132。计算装置100的显示器128可实施为能够显示数字信息的任何类型显示器，诸如液晶显示器(LCD)、发光二极管(LED)、等离子显示器、阴极射线管(CRT)或其它类型显示装置。在一些实施例中，显示器128可耦合到触摸屏以接收用户输入。

音频传感器130可实施为能够捕获音频信号的任何传感器，诸如麦克风、线路输入插孔、模数转换器(ADC)或其它类型音频传感器。音频传感器130可由计算装置100用于检测由用户发出的语音命令，如下面所描述的。

眼睛跟踪传感器132可实施为能够确定用户的眼睛聚焦在的计算装置100显示器128上的区域的任一个或多个传感器。例如，眼睛跟踪传感器132可实施为能够跟踪用户的注视焦点的数字相机或数字深度相机。在其它实施例中，眼睛跟踪传感器132可实施为能够随时间跟踪用户的眼睛移动的有源红外传送器和红外检测器。在那些实施例中，眼睛跟踪传感器132可捕获从用户的眼睛的各种内部和外部特征反射的红外光，并且由此计算用户的注视方向。眼睛跟踪传感器132还可能能够确定用户的头部在三维空间中的位置。在一些实施例中，眼睛跟踪传感器132诸如深度相机可能能够直接确定头部位置数据。在其它实施例中，眼睛跟踪传感器132可与另一传感器诸如摄像机一起用于计算用户的头部位置。

在一些实施例中，计算装置100还可包含一个或多个外围装置134。外围装置134可包含任何数量的附加传感器、输入/输出装置、接口装置和/或其它外围装置。例如，在一些实施例中，外围装置134可包含触摸屏、图形电路、键盘、鼠标、扬声器系统、接口装置和/或其它输入/输出装置。在一些实施例中，外围装置134可与眼睛跟踪传感器132和/或音频传感器130一起用于确定用户的参与级别。作为另一示例，在一些实施例中，外围装置134可包含能够实现计算装置100与其它远程服务器和/或装置之间通信的通信电路、装置或它们的集合。

现在参考图2，在一个实施例中，计算装置100在操作期间建立环境200。说明性实施例200包含语音识别模块202、音频输入模块204、虚拟个人助理208和参与模块214。环境200的各种模块可实施为硬件、固件、软件或它们的组合。

语音识别模块202配置成对从音频输入模块204接收的音频输入数据执行语音识别。语音识别模块202对语音识别结果进行排列和滤波，以产生单个结果或可能结果的排列列表。语音识别模块202可使用由应用(诸如虚拟个人助理208)提供的语音识别语法来对语音识别结果进行排列和滤波。在一些实施例中，语音识别模块202可在听写或自由语音模式识别语音。听写或自由语音模式可使用全自然语言词汇和语法来识别结果，并且从而可产生附加可能的语音识别结果。

音频输入模块204从音频传感器130捕获音频输入数据，并向音频输入数据施加音频失真，以产生音频输入的多个变化。音频失真可修改音频输入的幅度、频率、持续时间和/或其它特性，以产生失真的音频变化之间的语义变化。音频输入模块204向语音识别模块202提供失真的音频变化。在一些实施例中，那些功能可由子模块(例如失真模块206)执行。附加地，在一些实施例中，语音识别模块202和/或失真模块206的功能性可由远程服务器(例如云服务)执行，如下面结合图3所描述的。

虚拟个人助理208响应于说出的用户命令，并在显示器128上显示化身，以提供有关虚拟个人助理208的状况的信息。虚拟个人助理208可维护定义可从用户接受的说出的命令的语音识别语法，包含命令词汇和句法。化身是虚拟个人助理208的字符或其它视觉表示。化身可包含类人特性，诸如面部特征或人形。那些类人特征可便于与用户的自然交互。在一些实施例中，那些功能可由子模块(例如命令模块210或化身模块212)执行。在一些实施例中，可使用虚拟个人助理208，无需语音识别；也就是，虚拟个人助理208可响应于非语音输入，诸如键入的输入或输入手势。

参与模块214基于从眼睛跟踪传感器132和/或音频传感器130接收的传感器数据确定用户与虚拟个人助理208的参与级别。例如，参与模块214可基于用户的眼睛聚焦在化身上多久或多久一次来确定参与级别。在一些实施例中，参与模块214也可分析来自语音识别模块202的语音识别结果，以确定用户的参与级别。参与模块214向虚拟个人助理208提供参与级别，允许虚拟个人助理208相应地修改化身。

现在参考图3，在一些实施例中，语音识别模块202和/或失真模块206可实施在远程语音识别服务器300中。语音识别服务器300配置成提供服务，包含对在网络302上从计算装置100传送的音频输入执行语音识别分析。语音识别服务器300可实施为能够执行本文描述的功能的任何类型的服务器计算装置或装置集合。像这样，语音识别服务器300可包含类似于计算装置100的组件和特征，诸如处理器、I/O子系统、存储器、数据存储装置、通信电路和各种外围装置，为了本描述的清晰，未在图3中图示它们。另外，语音识别服务器300可实施为单个服务器计算装置或服务器和关联装置的集合。例如，在一些实施例中，语音识别服务器300可实施为从分布在网络上并操作在公用或私用云中的多个计算装置形成的“虚拟服务器”。相应地，尽管语音识别服务器300在图3中图示，并在下面被描述为单个服务器计算装置，但应该认识到，语音识别服务器300可实施为多个装置一起合作来实现下面描述的功能性。

如上面所讨论的，语音识别模块202，在一些实施例中还有音频失真模块206，被建立在语音识别服务器300(即，而不是计算装置100，或除此之外)上。计算装置100包含音频输入模块204、虚拟个人助理208、参与模块214，在一些实施例中还有失真模块206。语音识别服务器300和计算装置100的各种模块执行与上面结合图2描述的模块相同的功能，并且可实施为硬件、固件、软件或它们的组合。

图3的说明性计算装置100还包含语音分析模块304。语音分析模块304配置成向语音识别服务器300传送音频输入，在一些实施例中还有失真的音频变化。语音分析模块304还配置成从语音识别服务器300接收语音识别结果，并可基于上下文信息从语音识别结果中选择结果。

在语音识别模块202和失真模块206位于语音识别服务器300上的实施例中，计算装置100的音频输入模块204从音频传感器130捕获音频输入，并且语音分析模块304向语音识别服务器300发送音频输入。在此类实施例中，语音识别服务器300的失真模块206接收音频输入，并向音频输入施加音频失真以产生音频输入的多个变化，如上面相对于计算装置100所描述的。音频输入和失真的音频变化被提供给语音识别服务器300的语音识别模块202，其执行上面所描述的语音识别。语音识别模块202随后将语音识别结果传送回到计算装置100。语音识别模块202可传送语音识别结果列表，或者可传送单个结果。

备选地，在仅语音识别模块202位于语音识别服务器300上的实施例中，计算装置100的音频输入模块204从音频传感器130捕获音频输入，并且计算装置100的失真模块206向音频输入数据施加音频失真，以产生音频输入的多个变化，如上面所描述的。在此类实施例中，计算装置100向语音识别服务器300传送音频输入和失真的音频变化。音频输入和失真的音频变化由语音识别服务器300的语音识别模块202接收，其执行上面所描述的语音识别。语音识别模块202将语音识别结果传送回到计算装置100。语音识别模块202可传送语音识别结果列表，或者可传送单个结果。

现在参考图4，在使用中，计算装置100可执行用于引入音频失真以改进语音识别的方法400。方法400开始于块402，其中计算装置100使用音频传感器130捕获音频输入。音频输入可以适合于进一步分析和操纵的任何格式存储，包含压缩格式或未压缩格式。音频捕获可基于来自用户的请求或基于来自计算装置100的组件的请求发起。例如，当用户激活或参与虚拟个人助理208时，可发起音频捕获，如下面进一步所描述的。

在块404，在一些实施例中，计算装置100可预处理捕获的音频输入。作为预处理的一部分，计算装置100可对捕获的音频输入执行语音识别。来自预处理的语音识别结果可用于控制音频输入的失真，如下面所描述的。

在块406，计算装置100使音频输入失真以产生音频输入的多个失真的变化。以可产生音频输入的不同且语义上变化的版本的方式使音频输入失真。失真例如可修改音频输入的幅度、定时、音调或任何其它突出特性。计算装置100可单独或以各种组合施加失真。每个变化可被存储为单独音频数据，或者计算装置100可根据需要向原始音频输入施加失真。

例如，在一些实施例中，在块408，计算装置100可从音频输入中移除安静的音频片段。为了这么做，计算装置100可标识具有在阈值幅度以下的幅度的音频输入的内部片段(也就是，不在音频输入的开始或结尾的片段)，并从音频输入中删除那些内部片段。在移除安静片段之后，在安静片段任一侧上形成的音频输入的片段都被附加在一起，或者以别的方式在一起运行。因此，这个失真可消除用户所说的话语之间的暂停，这可将话语组合成单个单词。

在一些实施例中，在块410，计算装置100可扩大音频输入中的安静音频片段。为了这么做，计算装置100可标识具有在阈值幅度以下的幅度的音频输入的片段，并增大那些片段的持续时间。在扩大安静片段之后，进一步分隔开音频输入的相邻片段。因此，这个失真可增大用户所说的话语之间的暂停持续时间，这可将话语分割成两个截然不同的单词。

在一些实施例中，在块412，计算装置100可在预处理中标识的音频输入中的一个或多个语音分割点插入暂停。与安静语音片段扩大一样，这个失真可将用户的话语分割成截然不同的单词。不像安静的音频扩大，这个失真不需要现有暂停或安静音频片段。

在一些实施例中，在块414，计算装置100可修改音频输入的回放速度；也就是，计算装置100可加速或减慢音频输入。在一些实施例中，在块416，计算装置100可向音频输入施加其它音频变换。例如，计算装置100可更改音频输入的音调，或将音频输入与随机噪声混合。此类失真可在语音识别结果中产生变化。当然，计算装置100可向音频输入施加附加或其它失真。

在块418，在语音识别模块202位于远程语音识别服务器300上的实施例中，计算装置100可向语音识别服务器300传送音频输入和多个失真的音频变化。如上面所描述的，语音识别服务器可提供语音识别服务。将语音识别任务卸载到语音识别服务器300可改进具有有限计算能力的计算装置100(例如智能电话)的效率。

在施加各种失真以产生音频输入的多个变化之后，在块420，计算装置100基于音频输入和所有多个失真的音频变化获得语音识别结果。例如，在语音识别模块202位于移动计算装置100上的实施例中，装置100可本地执行语音识别。在那些实施例中，在块404，计算装置100可再用或参考在预处理音频输入时创建的语音识别结果，并在块420，仅对失真的音频变化执行语音识别。在语音识别模块202位于语音识别服务器300上的实施例中，计算装置100可从语音识别服务器300接收语音识别结果。然而，获得语音识别结果，语音识别过程产生多个语音识别结果；也就是，捕获的音频输入的多个潜在解释。在一些实施例中，语音识别过程可产生大量语音识别结果；例如，可产生数百或数千的语音识别结果。在一些实施例中，可使用重复或并行提供有音频输入的多个变化的常规语音识别引擎生成语音识别结果。

在块422，在一些实施例中，计算装置100可从在块420中产生的全语音识别结果当中确定语义相关的语音识别结果。换句话说，计算装置100可分析语音识别结果以找到它“理解”的结果，并拒绝没“有意义”的结果。例如，计算装置100的应用诸如虚拟个人助理208可包含语音识别语法。语音识别语法可包含应用理解的一组动作、数据对象和其它命令。计算装置100可通过仅接受满足语音识别语法的那些结果来确定语义相关语音识别结果。

在块424，计算装置100基于上下文信息从语音识别结果中选择结果。在一些实施例中，可从在块422中确定的一组较小的语义相关语音识别结果中选择结果。选择的结果可以是与用户和/或计算装置100的当前上下文最相关的语音识别结果。最相关的语音识别结果最有可能是用户预计的结果。上下文信息包含可揭示用户意图的任何信息，并且可包含当前正在计算装置100上执行的任何应用(诸如万维网浏览器、生产力应用或虚拟个人助理208)的状态。上下文信息还可包含与用户关联的上下文信息，诸如日历、联系人列表、电子邮件账户或其它个性化数据。上下文信息可还包含计算装置100的基本上下文信息，诸如数据、时间或位置。尽管图示为从语音识别结果中选择单个结果，但在一些实施例中，计算装置100可产生语音识别结果的列表，该列表可基于上下文信息分类。在选择结果之后，方法400完成，并且控制可被传递到可在语音识别结果上操作的调用方法。例如，如下面所描述的，虚拟个人助理208可对语音识别结果起作用。

现在参考图5，在语音识别模块202和/或失真模块206位于语音识别服务器300上的实施例中，语音识别服务器300可执行用于引入音频失真以改进语音识别的方法500。方法500开始于块502，其中语音识别服务器300确定是否已经从计算装置100接收到对于语音识别的请求。如果否，则方法500循环回到块502，以继续侦听语音识别请求。然而，如果已经接收到请求，则方法500前进到块504，在此语音识别服务器300从计算装置100接收音频输入。音频输入之前由计算装置100使用音频传感器130捕获。音频输入可以适合于进一步分析和操纵的任何格式存储，包含压缩格式或未压缩格式。

在块506，在一些实施例中，语音识别服务器300可预处理接收的音频输入。作为预处理的一部分，语音识别服务器300可参与收的音频输入执行语音识别。来自预处理的语音识别结果可用于控制音频输入的失真，如下面所描述的。

在块508，语音识别服务器300使音频输入失真以产生音频输入的多个失真的变化。以可产生音频输入的不同且语义上变化的版本的方式使音频输入失真。失真例如可修改音频输入的幅度、定时、音调或任何其它突出特性。语音识别服务器300可单独或以各种组合施加失真。每个变化可被存储为单独音频数据，或者语音识别服务器300可根据需要向原始音频输入施加失真。

例如，在一些实施例中，在块510，语音识别服务器300可从音频输入中移除安静的音频片段，在块512，扩大音频输入中的安静的音频片段，在块514，在预处理中标识的音频输入中的一个或多个语音分割点插入暂停，在块516，修改音频输入的回放速度，和/或在块518，向音频输入施加其它音频变换，如上面相对于计算装置100和方法400的块406所详细描述的。当然，语音识别服务器300可向音频输入施加附加或其它失真。不管怎样，在施加各种失真以产生音频输入的多个变化之后，在块520，语音识别服务器300对音频输入和所有多个失真的音频变化执行语音识别。在一些实施例中，在块506，语音识别服务器300可再用或参考在预处理音频输入时创建的语音识别结果，并在块520，仅对失真的音频变化执行语音识别。语音识别过程产生多个语音识别结果；也就是，捕获的音频输入的多个潜在解释。在一些实施例中，语音识别过程可产生大量语音识别结果；例如，可产生数百或数千的语音识别结果。在一些实施例中，可使用重复或并行提供有音频输入的多个变化的常规语音识别引擎生成语音识别结果。

在块522，在一些实施例中，语音识别服务器300可从在块520中产生的全语音识别结果当中确定语义相关的语音识别结果。换句话说，语音识别服务器300可分析语音识别结果以找到它“理解”的结果，并拒绝没“有意义”的结果。例如，计算装置100的应用诸如虚拟个人助理208可包含语音识别语法。语音识别语法可包含应用理解的一组动作、数据对象和其它命令。语音识别服务器300可通过仅接受满足虚拟个人助理208的语音识别语法的那些结果来确定语义相关语音识别结果。

在块524，在一些实施例中，语音识别服务器300可基于上下文信息从语音识别结果中选择结果。例如，在一些实施例中，可从在块522中确定的一组较小的语义相关语音识别结果中选择结果。选择的结果可以是与用户和/或计算装置100的当前上下文最相关的语音识别结果。最相关的语音识别结果最有可能是用户预计的结果。上下文信息可包含可揭示用户意图的任何信息，并且可包含当前正在计算装置100上执行的任何应用(诸如万维网浏览器、生产力应用或虚拟个人助理208)的状态。上下文信息还可包含与用户关联的上下文信息，诸如日历、联系人列表、电子邮件账户或其它个性化数据。上下文信息可还包含计算装置100的基本上下文信息，诸如数据、时间或位置。尽管图示为从语音识别结果中选择单个结果，但在一些实施例中，语音识别服务器300可产生语音识别结果的列表，该列表可基于上下文信息分类。

在块526，语音识别服务器300将语音识别结果或多个语音识别结果传送回到计算装置100。计算装置100然后可使用语音识别结果或多个语音识别结果控制应用，诸如虚拟个人助理208。在传送之后，方法500循环回到块502，以侦听来自计算装置100的另外语音识别请求。

现在参考图6A，在使用中，计算装置100可执行用于与虚拟个人助理208自然交互的方法600。方法600开始于块602，其中虚拟个人助理208的化身在不参与状态(disengagedstate)被显示在计算装置100的显示器128上。如上面所描述的，化身是虚拟个人助理208的视觉表示。化身包含可便于与用户自然交互的类人或拟人特征。例如，化身可包含包括眼睛或一对眼睛的动画人物或类人脸。当处于不参与状态时，以指示虚拟个人助理208空闲和/或不主动侦听指令的方式显示化身。例如，化身可表示为休眠或将视线从用户身上移开。

在一些实施例中，在块604中，化身可在不参与状态被显示为半透明，允许计算装置100的后台应用透过化身。当半透明时，化身可保持对用户可见，同时仍允许所有显示器128由其它应用可用，并且至少对用户部分可见。半透明的外观可通过α混合化身和其它应用，合成场景，或者由用于半透明的任何其它可比拟技术来实现。在一些实施例中，在块606，可在不参与状态以相对小的大小或者在远离计算装置100的当前活动的应用的位置显示化身。例如，可在显示器128的角落以较小大小再现化身，允许用户继续工作在活动应用中，没有分心。在其它实施例中，计算装置100可在不参与状态将化身再现为完全不可见。在那些实施例中，所有显示器128都可对于其它应用可用；然而，可能没给用户呈现任何视觉提示，指示虚拟个人助理208可用。

在块608，计算装置100监视用户对虚拟个人助理208的激活。在一些实施例中，在块610，计算装置100可从眼睛跟踪传感器132接收眼睛跟踪数据。计算装置100解释眼睛跟踪数据，以确定显示器128上用户的注视位置。用户可通过聚焦在当前在不参与状态显示的化身位置来指示虚拟个人助理208的激活。计算装置100可对眼睛跟踪数据进行滤波，以移除在化身处的简短或虚假注视。在一些实施例中，在块612，计算装置100可从音频传感器130接收音频输入。计算装置100解释音频输入以确定用户是否已经说出用于激活虚拟个人助理208的码字。例如，码字可实施为虚拟个人助理208的名称，或诸如“助理”或“计算机”的常用词。

在块614，计算装置100确定用户是否已经请求激活虚拟个人助理208。如上面所描述的，当用户的注视已经聚焦在化身上比某一阈值更长的时间长度时，或者当已经检测到码字时，可请求激活。如果用户未请求激活，则方法600循环回到块602，使化身保持在不参与状态，并且继续监视激活。如果用户已经请求激活，则方法600前进到块616。

在块616，计算装置100在准备状态显示化身。准备状态向用户指示虚拟个人助理208可用，并准备好对用户输入进行响应。在块618，在一些实施例中，计算装置100可将化身再现为与用户进行目光接触。目光接触是可向用户自然传达虚拟个人助理208为输入做好准备的有力提示。在一些实施例中，计算装置100可将化身简单地再现为直接面对显示器128，因为用户通常位于显示器128的前面。在一些实施例中，计算装置100可使用从眼睛跟踪传感器132接收的眼睛跟踪数据来确定用户的眼睛的位置，并将化身再现为看用户的眼睛。计算装置100可使用拟人提示来再现目光接触以模拟自然交互；例如，计算装置100可将化身再现为定期将视线从用户身上移开，这可使用户不太可能将化身解释为起始于用户。在一些实施例中，在块620，可通过减小化身的透明度，也就是，通过使化身看起来更坚实，来在准备状态显示化身。虽然仍允许后台应用透过，但化身的越来越坚实的外观可指示虚拟个人助理208准备好接收命令。在块622，在一些实施例中，计算装置100可通过调整化身的位置、大小和/或可见度来在准备状态显示化身。例如，化身可朝显示器128上的活动应用移动，并且可在大小上增大，或者可变得可见。

虽然在准备状态显示化身，但在块624，计算装置100确定用户的参与级别，也就是，用户在化身中表现出的兴趣度。通过确定用户的参与级别，计算装置100可以自然方式确定用户是否打算激活虚拟个人助理208。在一些实施例中，在块626，计算装置100可从眼睛跟踪传感器132接收眼睛跟踪数据。计算装置100可分析眼睛跟踪数据以确定用户是否已经在视觉上聚焦在化身上。在视觉上聚焦在化身上可指示相对高的参与级别，而远离化身聚焦可指示相对低的参与级别。计算装置100可要求用户在视觉上聚焦在化身上比阈值时间更大的时间段，以便过滤出虚假注视。类似地，计算装置100可忽略从化身移开的短期注视，以改进识别性能，实质上向眼睛跟踪数据施加低通滤波器。在一些实施例中，在块628，计算装置100可从音频传感器130接收音频输入。计算装置100可分析音频输入以确定用户是否正在寻址虚拟个人助理208。在一些实施例中，计算装置100可对音频输入执行语音识别。

在块630，计算装置100确定用户是否与化身参与。计算装置100可通过将在624中确定的用户参与级别与阈值参与级别相比较来确定是否参与用户。如果否，即确定未参与用户，则方法600循环回到602，以在不参与状态再现化身。为了概况那个交互，化身已经不引人注意地向用户指示它准备好交互，确定用户未与化身参与，并且然后从用户的注意中撤退。从而，那个交互可模拟自然人交互。再次回头参考块630，如果用户与化身参与,则方法600前进到块632，在图6B中图示。

现在参考图6B，在块632，计算装置100在参与状态(engaged state)显示化身。参与状态向用户指示虚拟个人助理208主动解释用户发出的命令。例如，在一些实施例中，在块634，计算装置100可将化身再现为与用户进行目光接触。如上面结合块618所描述的，计算装置100可从眼睛跟踪传感器132接收眼睛跟踪数据，并将化身再现为朝用户的眼睛看。附加地或备选地，在一些实施例中，在块636，计算装置100可减小化身的透明度。例如，在一些实施例中，计算装置100可将化身再现为完全不透明。另外，在一些实施例中，在块638，计算装置100可调整化身的大小和/或位置。例如，可在显示器128上靠近当前活动的应用或在其前面再现化身，或者可增大化身大小。在一些实施例中，尽管化身被显示为不透明，并且在显示器128上在其它应用前面，但化身不拦截或以别的方式干扰用户输入，允许用户继续与计算装置100工作。

虽然在参与状态显示化身，但方法600的执行并行进行到块640和644。在块640，当化身处于参与状态时，计算装置100对从音频传感器130接收的音频输入执行语音识别。在一些实施例中，计算装置100可当处于参与状态时执行更准确或者计算上更密集的语音识别方法，因为有可能用户直接寻址虚拟个人助理208。例如，计算装置100可执行上面结合图4描述的引入失真的语音识别方法，或者任何其它语音识别技术。

在块642，计算装置100确定是否已经接收到可由虚拟个人助理208执行的命令。计算装置100可向虚拟个人助理208的语音识别语法施加在块640中确定的语音识别的结果，以确定是否已经发出有效命令。如果未接收到命令，则方法600循环回到块640，以继续执行语音识别。如果已经接收到命令，则方法600前进到块652，如下面所描述的。

如上面所描述的，方法600将块644与块640并行执行。在块644，计算装置100监视当处于参与状态时用户参与级别。如上面结合块624所描述的，计算装置100确定用户在化身中表现出的兴趣度，这可允许有更多的自然交互。在一些实施例中，在块646，计算装置100可从眼睛跟踪传感器132接收眼睛跟踪数据。如上面相对于块626所描述的，计算装置100可基于用户的眼睛是否聚焦在化身上来确定参与级别。在一些实施例中，在块648，计算装置100可从音频传感器130接收音频输入。如上面结合块628所描述的，计算装置100可分析音频输入以确定用户是否正在寻址虚拟个人助理208。在一些实施例中，计算装置100可使用来自块640的语音识别结果来确定用户是否正在寻址虚拟个人助理208。

在块650，计算装置100确定用户是否与化身参与。如上面结合块630所描述的，计算装置100可将在块644确定的用户参与级别与阈值参与级别相比较。如果用户与化身参与，则方法600循环回到块644以继续监视用户参与级别。为了概况那个交互，如果用户保持主动与化身参与，例如通过从事与化身的目光接触，化身也保持在参与状态。当保持对话时，那个交互可模拟自然交互。如果在块650计算装置100确定用户不参与，则方法600循环回到图6A的块602，以在不参与状态再现化身。为了概况那个交互，如果在参与的某一时间之后不再参与用户，例如通过转回到其它工作，则化身也离开或者开始离开参与状态。当一个人完成对话时，那个交互可模拟自然交互。

当方法600从块642前进到块652或者从块650循环回到块602时，计算装置100遇到任务同步边界，在图6B中由粗线图示。任务同步边界确保仅方法600的一个任务在计算装置100中保持活动。例如，当基于接收的语音命令从块642前进到块652时，计算装置100可终止任务执行块644，使计算装置100停止监视用户参与级别。类似地，当从块650循环回到块602时，计算装置100可终止任务执行块640，使计算装置100停止执行语音识别。另外，尽管图示为并行执行，但在其它实施例中，可顺序地或以交织方式执行语音识别和监视用户参与级别的任务。

在块652，计算装置100在工作状态显示化身。工作状态向用户指示虚拟个人助理208当前正在执行任务。在一些实施例中，工作状态包含正在执行的任务的表示，例如，执行任务的化身的应用图标或表示。在一些实施例中，在工作状态显示的化身可类似于或等同于在不参与状态显示的化身；也就是，在工作状态显示的化身可以是不引人注目的，并且可不干扰用户在计算装置100上执行其它工作。在一些实施例中，在块654，计算装置100可增大化身在显示器128上的透明度。在一些实施例中，在块656，计算装置100可调整化身的大小和/或位置。例如，计算装置100可减小化身的大小，或在显示器128上将化身从当前活动的应用移开。

在块658，当在工作状态显示化身时，计算装置100执行从用户接收的命令。该命令可由虚拟个人助理208或者由受虚拟个人助理208控制的计算装置100的各种其它应用执行。另外，在一些实施例中，虽然在工作状态显示化身，但计算装置100可监视用户激活该助理，类似于上面结合图4所描述的。监视激活可允许用户中断当前执行的命令，或发起新命令。

在完成命令之后，在块660，计算装置100确定是否通知用户完成。例如，如果执行产生可显示结果或错误消息的命令，则计算装置100可确定通知用户。如果计算装置100确定通知用户，则方法600循环回到图6A的块616，以在准备状态再现化身。为了概况那个交互，化身不引人注目地在后台对任务工作某一时间，并且然后通知用户以自然方式完成。用户然后可与化身交互，如上所述，以接收通知。如果在块660，计算装置100确定不通知用户，则方法600循环回到图6A的块602，以在不参与状态显示化身，并等待进一步激活。为了概况那个交互，化身不引人注目地在后台对任务工作某一时间，并且然后返回到不参与状态，以自然方式向用户指示虚拟个人助理208是自由的，以便进一步交互。

在前面的说明性图示中，用户参与已经被描述为二元值——参与或者不参与。然而，在其它实施例中，可在连续体上测量用户参与级别。在那些实施例中，化身可被显示有反映用户参与级别值的属性。例如，化身的透明度可在值范围上平滑调整，以指示用户参与级别。类似地，化身的大小或位置也可在值范围上平滑调整，以指示用户参与级别。

示例

下面提供了本文公开的装置、系统和方法的说明性示例。装置、系统和方法的实施例可包含下面描述的示例中的任一个或多个以及它们的组合。

示例1包含一种用于语音识别的计算装置，所述计算装置包括：音频传感器；音频输入模块，用于：使用所述音频传感器捕获音频输入，以及使所述音频输入失真以产生多个失真的音频变化；以及语音识别模块，用于：对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果；以及基于上下文信息从所述语音识别结果中选择结果。

示例2包含示例1的主题，并且其中使所述音频输入失真包括移除所述音频输入的内部片段。

示例3包含示例1和示例2中任一个的主题，并且其中音频输入的内部片段包括具有与幅度阈值具有预定义关系的幅度的片段。

示例4包含示例1-3中任一个的主题，其中使音频输入失真包括扩大具有与幅度阈值具有预定义关系的幅度的音频输入的片段的长度。

示例5包含示例1-4中任一个的主题，其中具有与幅度阈值具有预定义关系的幅度的片段包括具有在幅度阈值以下的幅度的片段。

示例6包含示例1-5中任一个的主题，并且其中使音频输入失真包括在通过对音频输入执行语音识别所标识的音频输入的语音分割点插入暂停。

示例7包含示例1-6中任一个的主题，并且其中使音频输入失真包括如下至少一项：(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。

示例8包含示例1-7中任一个的主题，并且其中所述多个语音识别结果包括至少一百个语音识别结果。

示例9包含示例1-8中任一个的主题，并且还包括具有语音识别语法的一个或多个应用；其中所述语音识别模块还基于所述一个或多个应用的所述语音识别语法确定所述语音识别结果的语义相关结果；并且其中从所述语音识别结果中选择所述结果包括从所述语义相关结果中选择结果。

示例10包含示例1-9中任一个的主题，并且其中所述一个或多个应用包括虚拟个人助理。

示例11包含一种用于语音识别的计算装置，所述计算装置包括：音频传感器；音频输入模块，用于：使用音频传感器捕获音频输入，以及使所述音频输入失真以产生多个失真的音频变化；以及语音分析模块，用于：将所述音频输入和所述失真的音频变化从所述计算装置传送到语音识别模块；基于所述音频输入和所述失真的音频变化从所述语音识别模块接收多个语音识别结果；以及基于上下文信息从所述语音识别结果中选择结果。

示例12包含示例11的主题，并且其中语音识别模块位于远离所述计算装置的服务器上。

示例13包含示例11和示例12中任一个的主题，并且其中使所述音频输入失真包括移除所述音频输入的内部片段。

示例14包含示例11-13中任一个的主题，并且其中音频输入的内部片段包括具有与幅度阈值具有预定义关系的幅度的片段。

示例15包含示例11-14中任一个的主题，其中使音频输入失真包括扩大具有与幅度阈值具有预定义关系的幅度的音频输入的片段的长度。

示例16包含示例11-15中任一个的主题，并且其中具有与幅度阈值具有预定义关系的幅度的片段包括具有在幅度阈值以下的幅度的片段。

示例17包含示例11-16中任一个的主题，并且其中使音频输入失真包括在通过对音频输入执行语音识别所标识的音频输入的语音分割点插入暂停。

示例18包含示例11-17中任一个的主题，并且其中使音频输入失真包括如下至少一项：(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。

示例19包含示例11-18中任一个的主题，并且其中所述多个语音识别结果包括至少一百个语音识别结果。

示例20包含一种用于语音识别的语音识别服务器，所述语音识别服务器包括：失真模块，用于：接收由计算装置捕获的音频输入；以及使所述音频输入失真以产生多个失真的音频变化；以及语音识别模块，用于：对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果；以及将所述多个语音识别结果传送到所述计算装置。

示例21包含示例20的主题，并且其中使所述音频输入失真包括移除所述音频输入的内部片段。

示例22包含示例20和示例21中任一个的主题，并且其中音频输入的内部片段包括具有与幅度阈值具有预定义关系的幅度的片段。

示例23包含示例20-22中任一个的主题，其中使音频输入失真包括扩大具有与幅度阈值具有预定义关系的幅度的音频输入的片段的长度。

示例24包含示例20-23中任一个的主题，并且其中具有与幅度阈值具有预定义关系的幅度的片段包括具有在幅度阈值以下的幅度的片段。

示例25包含示例20-24中任一个的主题，并且其中使音频输入失真包括在通过对音频输入执行语音识别所标识的音频输入的语音分割点插入暂停。

示例26包含示例20-25中任一个的主题，并且其中使音频输入失真包括如下一项：(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。

示例27包含示例20-26中任一个的主题，并且其中所述多个语音识别结果包括至少一百个语音识别结果。

示例28包含一种计算装置,所述计算装置包括:显示器；虚拟个人助理，用于在不参与状态、准备状态和参与状态将所述虚拟个人助理的化身显示在所述显示器上；以及参与模块，用于：确定当在所述不参与状态显示所述化身时所述计算装置的用户是否已经请求激活所述虚拟个人助理；以及确定当在所述准备状态显示所述化身时所述用户的参与级别；其中所述虚拟个人助理：响应于确定所述用户已经请求激活所述虚拟个人助理而在所述准备状态显示所述化身；响应于确定所述用户具有大于阈值级别的参与级别而在所述参与状态显示所述化身；以及响应于确定所述用户具有小于所述阈值级别的参与级别而在所述不参与状态显示所述化身。

示例29包含示例28的主题，并且其中所述参与模块还监视当在所述参与状态显示所述化身时所述用户的所述参与级别。

示例30包含示例28-29中任一个的主题，并且还包括眼睛跟踪传感器，其中确定所述用户是否已经请求激活所述虚拟个人助理包括：从所述眼睛跟踪传感器接收眼睛跟踪数据；以及基于所述眼睛跟踪数据确定所述用户是否已经聚焦在所述化身上。

示例31包含示例28-30中任一个的主题，并且还包括音频传感器，其中确定所述用户是否已经请求激活所述虚拟个人助理包括：从音频传感器接收音频输入；以及基于音频输入检测由用户发出的码字。

示例32包含示例28-31中任一个的主题，并且还包括眼睛跟踪传感器，其中确定所述用户的所述参与级别包括：从所述眼睛跟踪传感器接收眼睛跟踪数据；基于所述眼睛跟踪数据确定所述用户是否已经在视觉上聚焦在所述化身上大于阈值时间的时间段；响应于确定所述用户已经在视觉上聚焦在所述化身上大于所述阈值时间的时间段而确定所述用户具有大于所述阈值级别的参与级别；以及响应于确定所述用户未在视觉上聚焦在所述化身上大于所述阈值时间的时间段而确定所述用户具有小于所述阈值级别的参与级别。

示例33包含示例28-32中任一个的主题，并且其中确定用户是否已经在视觉上聚焦在化身上大于阈值时间的时间段包括忽略远离所述化身的瞥视第二时间段，所述第二时间段小于第二阈值时间。

示例34包含示例28-33中任一个的主题，并且还包括音频传感器，其中确定用户的参与级别包括从音频传感器接收音频输入。

示例35包含示例28-34中任一个的主题，并且其中在准备状态显示化身包括：显示化身与用户的目光接触的拟人表示；以及在参与状态显示化身包括显示化身与用户的目光接触的拟人表示。

示例36包含示例28-35中任一个的主题，并且还包括眼睛跟踪传感器，其中显示目光接触的所述拟人表示包括：从所述眼睛跟踪传感器接收眼睛跟踪数据或头部位置数据中的至少一项；以及显示所述化身跟随所述用户的目光的拟人表示。

示例37包含示例28-36中任一个的主题，并且其中：在所述不参与状态显示所述虚拟个人助理的所述化身包括：将所述化身显示为半透明，以允许所述计算装置的用户接口元件透过所述化身；在所述准备状态显示所述化身包括减小所述化身的透明度；以及在所述参与状态显示所述化身包括减小所述化身的透明度或者消除所述化身的透明度中的一项。

示例38包含示例28-37中任一个的主题，并且其中：在不参与状态显示虚拟个人助理的化身包括：在显示器上在远离计算装置活动应用的位置显示化身；在准备状态显示化身包括：在显示器上将化身移动到更靠近计算装置活动应用的位置；以及在参与状态显示化身包括：在显示器上将化身移动到计算装置活动应用上面的位置，没有阻止从用户到活动应用的输入。

示例39包含示例28-38中任一个的主题，并且还包括眼睛跟踪传感器，其中：在准备状态显示化身包括：基于从眼睛跟踪传感器接收的眼睛跟踪数据，在显示器上将化身移动到更靠近用户聚焦的位置的位置；以及在参与状态显示化身包括：基于从眼睛跟踪传感器接收的眼睛跟踪数据，在显示器上将化身移动到更靠近用户聚焦的位置的位置。

示例40包含示例28-39中任一个的主题，并且其中：在不参与状态显示虚拟个人助理的化身包括：将化身显示为不可见；以及在准备状态显示化身包括将化身显示为不可见。

示例41包含示例28-40中任一个的主题，并且其中虚拟个人助理还将：当所述化身处于所述参与状态时执行语音识别；基于所述语音识别确定所述用户是否已经发出命令；以及响应于确定所述用户已经发出所述命令而在工作状态显示所述化身。

示例42包含示例28-41中任一个的主题，并且其中在工作状态显示化身包括如下至少一项：(i)增大化身的透明度；或者(ii)在显示器上将化身移动到远离计算装置活动应用的位置。

示例43包含一种用于计算装置上的语音识别的方法，所述方法包括：使用所述计算装置的音频传感器捕获音频输入；使所述音频输入失真以产生多个失真的音频变化；对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果；以及基于上下文信息从所述语音识别结果中选择结果。

示例44包含示例43的主题，并且其中使所述音频输入失真包括移除所述音频输入的内部片段。

示例45包含示例43和示例44中任一个的主题，并且其中移除音频输入的内部片段包括：移除具有与幅度阈值具有预定义关系的幅度的所述音频输入的片段。

示例46包含示例43-45中任一个的主题，并且其中移除内部片段包括移除具有在幅度阈值以下的幅度的片段。

示例47包含示例43-46中任一个的主题，并且其中使音频输入失真包括扩大具有与幅度阈值具有预定义关系的幅度的音频输入的片段的长度。

示例48包含示例43-47中任一个的主题，并且其中扩大片段的长度包括扩大具有在幅度阈值以下的幅度的片段的长度。

示例49包含示例43-48中任一个的主题，并且其中使音频输入失真包括在通过对音频输入执行语音识别所标识的音频输入的语音分割点插入暂停。

示例50包含示例43-49中任一个的主题，并且其中使音频输入失真包括执行如下至少一项：(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。

示例51包含示例43-50中任一个的主题，并且其中对音频输入和失真的音频变化执行语音识别以产生多个语音识别结果包括：对音频输入和失真的音频变化执行语音识别，以产生至少一百个语音识别结果。

示例52包含示例43-51中任一个的主题，并且还包括：基于计算装置的一个或多个应用的语音识别语法确定语音识别结果的语义相关结果；其中从所述语音识别结果中选择所述结果包括从所述语义相关结果中选择结果。

示例53包含示例43-52中任一个的主题，并且其中基于一个或多个应用的语音识别语法确定语义相关结果包括：基于计算装置的虚拟个人助理的语音识别语法确定语义相关结果。

示例54包含一种用于计算装置上的语音识别的方法，所述方法包括：使用所述计算装置的音频传感器捕获音频输入；在计算装置上使音频输入失真以产生多个失真的音频变化；将所述音频输入和所述失真的音频变化从所述计算装置传送到语音识别模块；基于所述音频输入和所述失真的音频变化从所述语音识别模块接收多个语音识别结果；以及在计算装置上基于上下文信息从所述语音识别结果中选择结果。

示例55包含示例54的主题，并且其中：向语音识别模块传送音频输入和失真的音频变化包括：将所述音频输入和所述失真的音频变化传送到位于远离所述计算装置的服务器上的语音识别模块；以及从所述语音识别模块接收所述多个语音识别结果包括从位于所述服务器上的语音识别模块接收所述多个语音识别结果。

示例56包含示例54和示例55中任一个的主题，并且其中使所述音频输入失真包括移除所述音频输入的内部片段。

示例57包含示例54-56中任一个的主题，并且其中移除音频输入的内部片段包括移除具有与幅度阈值具有预定义关系的幅度的音频输入的片段。

示例58包含示例54-57中任一个的主题，并且其中移除内部片段包括移除具有在幅度阈值以下的幅度的片段。

示例59包含示例54-58中任一个的主题，并且其中使音频输入失真包括扩大具有与幅度阈值具有预定义关系的幅度的音频输入的片段的长度。

示例60包含示例54-59中任一个的主题，并且其中扩大片段的长度包括扩大具有在幅度阈值以下的幅度的片段的长度。

示例61包含示例54-60中任一个的主题，并且其中使音频输入失真包括在通过对音频输入执行语音识别所标识的音频输入的语音分割点插入暂停。

示例62包含示例54-61中任一个的主题，并且其中使音频输入失真包括执行如下至少一项：(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。

示例63包含示例54-62中任一个的主题，并且其中对音频输入和失真的音频变化执行语音识别以产生多个语音识别结果包括：对音频输入和失真的音频变化执行语音识别，以产生至少一百个语音识别结果。

示例64包含一种用于语音识别服务器上的语音识别的方法，所述方法包括：在语音识别服务器上接收由计算装置捕获的音频输入；在所述语音识别服务器上使所述音频输入失真以产生多个失真的音频变化；在所述语音识别服务器上对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果；以及将所述多个语音识别结果传送到所述计算装置。

示例65包含示例64的主题，并且其中使所述音频输入失真包括移除所述音频输入的内部片段。

示例66包含示例64和示例65中任一个的主题，并且其中移除音频输入的内部片段包括移除具有与幅度阈值具有预定义关系的幅度的音频输入的片段。

示例67包含示例64-66中任一个的主题，并且其中移除内部片段包括移除具有在幅度阈值以下的幅度的片段。

示例68包含示例64-67中任一个的主题，并且其中使音频输入失真包括扩大具有与幅度阈值具有预定义关系的幅度的音频输入的片段的长度。

示例69包含示例64-68中任一个的主题，并且其中扩大片段的长度包括扩大具有在幅度阈值以下的幅度的片段的长度。

示例70包含示例64-69中任一个的主题，并且其中使音频输入失真包括在通过对音频输入执行语音识别所标识的音频输入的语音分割点插入暂停。

示例71包含示例64-70中任一个的主题，并且其中使音频输入失真包括执行如下至少一项：(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。

示例72包含示例64-71中任一个的主题，并且其中对音频输入和失真的音频变化执行语音识别以产生多个语音识别结果包括：对音频输入和失真的音频变化执行语音识别，以产生至少一百个语音识别结果。

示例73包含一种用于与计算装置上的虚拟个人助理交互的方法，所述方法包括：在所述计算装置的显示器上在不参与状态显示所述虚拟个人助理的化身；在所述计算装置上确定所述计算装置的用户是否已经请求激活所述虚拟个人助理；响应于确定所述用户已经请求激活所述虚拟个人助理而在所述计算装置上在准备状态显示所述化身；在所述计算装置上确定当所述化身处于所述准备状态时所述用户的参与级别；响应于所述用户具有大于阈值级别的参与级别而在所述计算装置上在参与状态显示所述图像；以及响应于所述用户具有小于所述阈值级别的参与级别而在所述计算装置上在所述不参与状态显示所述图像。

示例74包含示例73的主题，并且还包括监视当化身处于参与状态时用户的参与级别。

示例75包含示例73和示例74中任一个的主题，并且其中确定所述用户是否已经请求激活所述虚拟个人助理包括：从计算装置的眼睛跟踪传感器接收眼睛跟踪数据；以及基于所述眼睛跟踪数据确定所述用户是否已经聚焦在所述化身上。

示例76包含示例73-75中任一个的主题，并且其中确定所述用户是否已经请求激活所述虚拟个人助理包括：从计算装置的音频传感器接收音频输入；以及基于音频输入检测由用户发出的码字。

示例77包含示例73-76中任一个的主题，并且其中确定用户的参与级别包括：从计算装置的眼睛跟踪传感器接收眼睛跟踪数据；基于所述眼睛跟踪数据确定所述用户是否已经在视觉上聚焦在所述化身上大于阈值时间的时间段；响应于确定所述用户已经在视觉上聚焦在所述化身上大于所述阈值时间的时间段而确定所述用户具有大于所述阈值级别的参与级别；以及响应于确定所述用户未在视觉上聚焦在所述化身上大于所述阈值时间的时间段而确定所述用户具有小于所述阈值级别的参与级别。

示例78包含示例73-77中任一个的主题，并且其中确定用户是否已经在视觉上聚焦在化身上大于阈值时间的时间段包括忽略远离所述化身的瞥视第二时间段，所述第二时间段小于第二阈值时间。

示例79包含示例73-78中任一个的主题，并且其中确定用户的参与级别包括从计算装置的音频传感器接收音频输入。

示例80包含示例73-79中任一个的主题，并且其中：在准备状态显示化身包括显示化身与用户的目光接触的拟人表示；以及在参与状态显示化身包括显示与用户的目光接触的拟人表示。

示例81包含示例73-80中任一个的主题，并且其中显示目光接触的所述拟人表示包括：从所述计算装置的眼睛跟踪传感器接收眼睛跟踪数据或头部位置数据中的至少一项；以及显示所述化身跟随所述用户的目光的拟人表示。

示例82包含示例73-81中任一个的主题，并且其中：在不参与状态显示虚拟个人助理的化身包括：将化身显示为半透明，允许计算装置的用户接口元件透过图像；在所述准备状态显示所述化身包括减小所述化身的透明度；以及在所述参与状态显示所述化身包括减小所述化身的透明度或者消除所述化身的透明度中的一项。

示例83包含示例73-82中任一个的主题，并且其中：在不参与状态显示虚拟个人助理的化身包括在显示器上远离计算装置活动应用的位置显示化身；在准备状态显示化身包括在显示器上将化身移动到更靠近计算装置活动应用的位置；以及在参与状态显示化身包括：在显示器上将化身移动到计算装置活动应用上面的位置，没有阻止从用户到活动应用的输入。

示例84包含示例73-83中任一个的主题，并且其中，在准备状态显示化身包括：基于从计算装置的眼睛跟踪传感器接收的眼睛跟踪数据，在显示器上将化身移动到更靠近用户聚焦的位置的位置；以及在参与状态显示化身包括：基于从计算装置的眼睛跟踪传感器接收的眼睛跟踪数据，在显示器上将化身移动到更靠近用户聚焦的位置的位置。

示例85包含示例73-84中任一个的主题，并且其中：在不参与状态显示虚拟个人助理的化身包括：将化身显示为不可见；以及在准备状态显示化身包括将化身显示为不可见。

示例86包含示例73-85中任一个的主题，并且还包括：当所述化身处于所述参与状态时，执行语音识别，；基于所述语音识别确定所述用户是否已经发出命令；以及响应于确定所述用户已经发出命令而在工作状态显示化身。

示例87包含示例73-86中任一个的主题，并且其中在工作状态显示化身包括如下至少一项：(i)增大化身的透明度；或者(ii)在显示器上将化身移动到远离计算装置活动应用的位置。

示例88包含计算装置，计算装置包括：处理器；以及存储器，其中存储有多个指令，所述指令当由处理器执行时使计算装置执行示例43-87中任一个的方法。

示例89包含一个或多个机器可读存储介质，其包括其上存储的多个指令，所述指令响应于被执行而导致计算装置执行示例43-87中任一个的方法。

示例90包含包括用于执行示例43-87中任一示例的方法的部件的电子装置。

Claims

1.一种用于语音识别的计算装置，所述计算装置包括：

音频传感器；

音频输入模块，用于：

使用所述音频传感器捕获音频输入；以及

使所述音频输入失真以产生多个失真的音频变化；以及

语音识别模块，用于：

对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果；以及

基于上下文信息从所述语音识别结果中选择结果。

2.如权利要求1所述的计算装置，其中使所述音频输入失真包括如下至少一项：(i)移除具有与幅度阈值具有预定义关系的幅度的所述音频输入的内部片段；或者(ii)扩大具有与幅度阈值具有预定义关系的幅度的所述音频输入的片段的长度。

3.如权利要求1所述的计算装置，其中使所述音频输入失真包括在通过对所述音频输入执行语音识别所标识的所述音频输入的语音分割点插入暂停。

4.如权利要求1所述的计算装置，其中使所述音频输入失真包括如下至少一项：(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。

5.如权利要求1所述的计算装置，还包括具有语音识别语法的一个或多个应用；

其中所述语音识别模块还将基于所述一个或多个应用的所述语音识别语法确定所述语音识别结果的语义相关结果；并且

其中从所述语音识别结果中选择结果包括从所述语义相关结果中选择结果。

6.如权利要求5所述的计算装置，其中所述一个或多个应用包括虚拟个人助理。

7.一种用于计算装置上的语音识别的方法，所述方法包括：

使用所述计算装置的音频传感器捕获音频输入；

使所述音频输入失真以产生多个失真的音频变化；

基于上下文信息从所述语音识别结果中选择结果。

8.如权利要求7所述的方法，其中使所述音频输入失真包括如下至少一项：(i)移除具有与幅度阈值具有预定义关系的幅度的所述音频输入的内部片段；或者(ii)扩大具有与幅度阈值具有预定义关系的幅度的所述音频输入的片段的长度。

9.如权利要求7所述的方法，其中使所述音频输入失真包括在通过对所述音频输入执行语音识别所标识的音频输入的语音分割点插入暂停。

10.如权利要求7所述的方法，其中使所述音频输入失真包括执行如下至少一项：(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。

11.如权利要求7所述的方法，还包括：基于所述计算装置的一个或多个应用的语音识别语法确定所述语音识别结果的语义相关结果；

12.如权利要求11所述的方法，其中基于所述一个或多个应用的所述语音识别语法确定所述语义相关结果包括：基于所述计算装置的虚拟个人助理的语音识别语法确定所述语义相关结果。

13.一种计算机可读介质，其上存储有指令，所述指令在被执行时使得计算机执行如权利要求7-12中的任一个所述的方法。

14.一种用于语音识别的计算装置，所述计算装置包括：

用于使用所述计算装置的音频传感器捕获音频输入的部件；

用于使所述音频输入失真以产生多个失真的音频变化的部件；

用于对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果的部件；以及

用于基于上下文信息从所述语音识别结果中选择结果的部件。

15.如权利要求14所述的计算装置，其中用于使所述音频输入失真的所述部件包括如下至少一项：(i)用于移除具有与幅度阈值具有预定义关系的幅度的所述音频输入的内部片段的部件；或者(ii)用于扩大具有与幅度阈值具有预定义关系的幅度的所述音频输入的片段的长度的部件。

16.如权利要求14所述的计算装置，其中用于使所述音频输入失真的所述部件包括用于在通过对所述音频输入执行语音识别所标识的音频输入的语音分割点插入暂停的部件。

17.如权利要求14所述的计算装置，其中用于使所述音频输入失真的所述部件包括如下至少一项：(i)用于加速所述音频输入的部件；(ii)用于减慢所述音频输入的部件；(iii)用于调整所述音频输入的音调的部件；或者(iv)用于向所述音频输入引入噪声的部件。

18.如权利要求14所述的计算装置，还包括：用于基于所述计算装置的一个或多个应用的语音识别语法确定所述语音识别结果的语义相关结果的部件；

其中用于从所述语音识别结果中选择所述结果的所述部件包括用于从所述语义相关结果中选择结果的部件。

19.如权利要求18所述的计算装置，其中用于基于所述一个或多个应用的所述语音识别语法确定所述语义相关结果的所述部件包括用于基于所述计算装置的虚拟个人助理的语音识别语法确定所述语义相关结果的部件。