CN105009202A

CN105009202A - 分为两部分的语音识别

Info

Publication number: CN105009202A
Application number: CN201380074058.4A
Authority: CN
Inventors: C·帕金森; J·J·雅各布森; S·A·庞伯; D·B·弗格森
Original assignee: Kopin Corp
Current assignee: Kopin Corp
Priority date: 2013-01-04
Filing date: 2013-12-27
Publication date: 2015-10-28
Anticipated expiration: 2033-12-27
Also published as: JP6420769B2; JP2016505897A; WO2014107413A1; US20140195247A1; CN105009202B; EP2941769A1; EP2941769B1; US9620144B2

Abstract

呈现了针对用于控制装置的语音识别系统的改进。特征包括两级确认，两级受限语音识别模式以及用于语音驱动的应用和系统的两级唤醒。一种头戴式计算机装置包括这种分级的确认操作。

Description

分为两部分的语音识别

相关申请

本申请要求2013年1月4日提交的美国临时申请号61/749,243的权益。下文具有与2008年1月8日提交的美国申请号12/008,114、2008年1月8日提交的美国申请号12/008,104，和2012年5月10日提交的美国申请号13/468,207相关的主题。上述申请以其全部内容并入本文。

背景技术

语音识别(ASR)系统用于控制装置。对于多数情况，ASR系统工作良好并允许用户以高精确度操纵并控制系统。

然而，存在高精确度不足的且只有100％的精度是可接受的一些情景，或者存在这样一些情景，即，我们完全不能让ASR由于噪音而意外地触发，或将说出的对话误解译为真实的命令。

发明内容

本发明解决现有技术中的上述问题和缺点。为应对上述情况，申请人设计了两级确认处理。

具体地，本发明的ASR实施例提供如下特征：

两级确认；

两级受限语音识别模式，和/或

针对语音驱动系统的两级唤醒。

在一个优选实施例中，本发明涉及计算机应用中语音控制的方法，其中，提供了具有麦克风和显示器的头戴式计算机，其经由麦克风接收声音输入，使用耦合到头戴式计算机的语音识别引擎来处理声音输入。作为该处理的部分，语音识别引擎用于解译声音输入，以确定其是否为针对具有关键性水平的动作的命令，该关键性水平满足或超过阈值关键性水平，即，所谓的关键性命令。如果确定命令是关键性命令，则第一对话框被显示在显示器上并且在用户处，并使与命令相关联的动作表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。在另一个实施例中，在本段上文中描述的方法进一步涉及具有自动超时能力的第一对话框，或关键性命令是头戴式计算机从低功耗睡眠模式或受限语音识别模式中解除的命令。

在另一个优选实施例中，方法进一步涉及经由麦克风接收对应于第一对话框中的提示的第一确定性表述；以及响应于对第一确定性表述的接收，在显示器上显示第二对话框，头戴式计算机使所述动作的表现取决于所述用户做出对应于所述第二对话框中的提示的第二确定性表述。在其他实施例中，本段上文中描述的方法发进一步涉及具有自动超时能力的第二对话框，或关键性命令是令头戴式计算机从低功耗睡眠模式或受限语音识别模式中解除的命令。在又另一个实施例中，第一确定性表述和第二确定性表述彼此不同。

计算机系统、头戴式计算机、装置和设备可以实施上述方法。实现上述方法的另外其它实施例包括计算机程序产品。

在一个优选实施例中，本发明涉及语音控制装置，其提供了具有显示器和麦克风头戴式计算机，麦克风配置为接收声音输入；包括语音识别引擎，配置为解译声音输入，并作为解译的部分，确定声音输入是否为具有关键性水平的动作的命令，该关键性水平满足或超过阈值关键性水平，所述命令为关键性命令；以及处理器，其通信地耦合到语音识别引擎。响应于语音识别引擎对声音输入是关键性命令的确定，处理器配置为在显示器上显示第一对话框，使动作的头戴式计算机表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。在另一实施例中，本段上文描述的语音控制装置进一步涉及具有自动超时能力的第一对话框或关键性命令是令头戴式计算机从低功耗睡眠模式或受限语音识别模式中解除的命令。

在另一个优选实施例中，装置进一步涉及经由麦克风接收第一确定性表述，其对应于第一对话框中的提示；并响应于对第一确定性表述的接收，在显示器上显示第二对话框，头戴式计算机使所述动作的表现取决于所述用户做出对应于所述第二对话框中的提示的第二确定性表述。在又另一个实施例中，本段上文描述的装置进一步包括具有自动超时能力的第二对话框或关键性命令是令头戴式计算机从低功耗睡眠模式或受限语音识别模式中解除的命令。在又另一个实施例中，第一确定性表述和第二确定性表述彼此不同。

在又另一个优选实施例中，本发明涉及头戴式计算机，其包括显示器；接收声音输入的麦克风；语音识别引擎，其被配置为解译声音输入，并作为解译的部分，确定声音输入是否为具有关键性水平的动作的命令，该关键性水平满足或超过阈值关键性水平，所述命令为关键性命令；以及处理器，其通信地耦合到语音识别引擎。响应于语音识别引擎对声音输入是关键性命令的确定，处理器被配置为在显示器上显示第一对话框，并使所述动作的头戴式计算机表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。

附图说明

通过下面对如附图中所描述的本发明的示例实施例的更为具体描述，上述内容将更清楚，其中贯穿不同视图的相同参考标记指代相同部件。附图不一定按比例，而是为了说明本发明的实施例而进行了强调。

图1是体现本发明的计算机网络的示意图。

图2是图1的实施例中的计算机节点的框图。

图3是实施根据本发明的ASR中两级确认的头戴式计算机的示意图。

图4是具有两级受限语音识别的语音驱动系统用户界面的示意性图示。

图5是根据本发明的具有两级确认的用户界面的示意图性图示。

图6是语音驱动系统中两级唤醒的示意性图示。

图7是实施根据本发明的ASR中两级确认的头戴式计算机的框图。

具体实施方式

下文是对本发明示例实施例的描述。

图1图示了本发明可被实施的多种计算机网络或类似的数字处理环境中的一种。图1描绘了客户端计算机/装置50和服务器计算机60，其可提供与执行应用程序等相关联的处理、存储和输入/输出装置。这些装置经由链路(例如，链路107)被连接到网络70。网络70可以是远程访问网络、全球网络(例如，互联网)、全球范围的计算机集合、局域网或广域网、或网关，或者其一部分，其当前采用各自的协议(TCP/IP、蓝牙等)相互通信。其它电子装置/计算机网络架构是适合的。网络70可相应地经由链路111连接到一个或多个额外的网络，诸如互联网210。链路107和111可采用多种物理形式，例如，有线的和无线的，并可采用多种信号和协议执行通信。

在实施例中，客户端计算机/装置50被佩戴在头上并使用运动和语音命令来控制信息的显示，以及远程装置等，如由申请人申请的申请号为12/008,114、12/008,104和13/468,207的美国专利申请中所详细说明的，并且将其作为参考并入本文。这些头戴计算装置可采用多种形式，如头部配戴计算机、头部固定显示器装置和头戴式计算机。这些头部配戴计算装置在此被称为“头戴式计算装置”或HSC100，并且将在下文进一步描述HSC 100的实施例。

HSC 100可以多种方式被配置并使用。在一些实施例中，HSC100可直接连接到计算机网络70。在其它实施例中，如图1中描绘的，HSC 100经由远程主机计算装置200连接到计算机网络70，HSC100经由链路150与远程主机计算装置200通信。在操作中，HSC 100可以被用作例如从远程主机计算装置200接收的流视频信号的远程显示器。

多种装置可用作远程主机计算装置200，包括例如笔记本PC、智能电话、平板装置或具有比无线计算头戴式装置100更小和更大计算复杂性的其它计算装置，如基于云的网络资源。主机200可进一步直接或由网络70连接到额外网络，诸如互联网210、有线电视网络、第三方数据网络等。

多种链路150可被用于使能头戴式HSC 100和主机200之间的通信。在实施例中，链路150是无线链路，并且通信经由一个或多个无线协议，诸如、WiFi、WiMAX或4G LTE(Bluetooth是5209Lake Washington Boulevard，Kirkland，Washington 98033的Bluetooth Sig,Inc.的注册商标)。在示例实施例中，如图1中描述，主机200经由连接109连接到网络70，连接109可以是无线连接，且网络70也可以连接到互联网210或其它基于云的网络资源，以使得主机200可以作为无线中继。在其它实施例中，主机200被直接连接到互联网210或其它基于云的资源。此外，HSC 100的一些示例实施例可以无线连接到互联网和基于云的网络资源而不使用主机无线中继。

客户端计算机/装置50、HSC 100和主机200可以通过通信网络70链接到其它计算装置，包括其它客户端装置/处理器50、服务器计算机60、HSC 100和主机200。

图2是图1的示例性计算机网络中计算机(例如，客户端处理器/装置50、100、200或服务器计算机60)的内部机构的框图，即下文中的计算机50、60、100、200。计算机50、60、100、200包含系统总线79，其中总线是用于在计算机或处理系统的组件间传递数据的硬件线路的集合。系统总线79本质上是连接计算机系统的不同元件(例如处理器、磁盘存储装置、存储器、输入/输出接口、网络接口等)的共享通道，其使能元件之间的信息传输。如图2所示，若干元件附接到系统总线79。

输入/输出(I/O)装置接口82将各种输入和输出装置(例如键盘、鼠标、显示器、打印机、扬声器等)连接到计算机50、60、100、200。中央处理器单元84提供计算机指令的执行。网络接口86允许计算机50、60、100、200连接到附接到网络(例如，图1的网络70)的各种其它装置。存储器90为计算机软件指令提供易失性存储装置，诸如处理器例程92和用于实施本发明实施例的相关数据94(例如下文详细描述的两级语音识别引擎，用户界面和支持代码)。磁盘存储装置95为用于实施本发明实施例的计算机软件指令(如OS程序97和相关联的数据99)提供非易失性存储装置。

在一个实施例中，处理器例程92和相关数据94是计算机程序产品(总体上标记为92)，包括计算机可读介质(例如，非可移除和可移除存储介质，诸如一个或多个DVD-ROM、CD-ROM、软磁盘、磁带等)，其提供用于本发明系统的至少部分软件指令。计算机程序产品92可通过如本领域已知的任何适当的软件安装程序安装。

在另一个实施例中，至少部分软件指令也可通过线缆、通信和/或无线连接下载。在其它实施例中，本发明的程序是计算机程序传播的信号产品107，其体现在传播介质上的传播信号上(例如无线电波、红外波、激光波、声波或通如互联网或其他网络传播的电波)。这种载体介质或信号提供用于本发明的例程/程序92的至少部分软件指令。

在其它实施例中，传播信号是在传播介质上承载的模拟载波或数字信号。例如，传播信号可以为在全球网络(例如互联网)、电信网络或其它网络上传播的数字化信号。在一个实施例中，传播的信号是在时间段内在传播介质上传递的信号，诸如在毫秒、秒、分或更长时段在网络上以包发送的软件应用的指令。

在又一实施例中，计算机程序产品92的计算机可读介质是计算机系统50可以诸如通过接收传播介质并识别体现在传播介质内的传播信号来接收并读取的传播介质，如上文计算机程序传播信号产品所描述。

一般来说，术语“载体介质”或暂态载体包括前述的暂态信号、传播信号、传播介质、存储介质等。

在实施例中，存储在存储器90或磁盘存储装置95内的处理例程程序指令或其它操作92实现根据本发明原理的具有两级确认的语音识别引擎。图3至7用于说明。

图3是示出了头戴式计算机100的实施例一些细节的透视图。HSC 100的实施例一般性地包含框架1000、带子1002、后壳体1004、扬声器1006、具有内置麦克风1015的悬臂(也称为臂或吊杆1008)以及具有显示器元件1011的微显示器子组件1010。

头部配戴框架1000和带子1002一般被配置使得用户可以在用户头上配戴HSC 100。后壳体1004一般是低外形单元，其容纳电子装置，诸如微处理器、存储器或其它存储装置，以及其它相关电路。扬声器1006向用户提供音频输出，以使得用户可以听到信息。麦克风1015允许用户提供音频输入并优选地被配置为接近用户的嘴以最大化信噪比，并且在一些实施例中可以采用方向性的麦克风。

微显示器子组件1010用于经由显示器元件1011向用户传递视觉信息，如高分辨率(VGA或更好)微显示器元件。也可使用其它显示器元件。子组件1010耦合到臂1008。尽管图3中所描述的是单眼微显示器，其呈现通过悬臂吊杆支撑在用户面部上的单个固定显示器元件，但应理解，用于远程控制显示器装置100的其它机械配置是可能的。

臂1008一般性地提供物理支撑，以使得微显示器子组件能够被定位在用户视野内，优选在用户眼前或优选地在略低于或高于眼睛的外围视线内。臂1008还提供在微显示器子组件1010和容纳在壳体单元1004内的控制电路之间的电子或光学连接。根据将在下文中更详细地阐述的方面，HSC 100允许用户在由显示器元件1011的虚拟显示器限定的更大区域内选择视野。用户通常可以控制视野的位置、延伸(例如，X-Y或3D范围)和/或放大倍率。

通常位于头戴式计算装置100壳体内的是各种电子电路，包括微型计算机(单核或多核处理器)、一个或多个有线和/或无线通信接口、存储器或存储装置、各种传感器和外围安装架或，如“热靴”的安装架。这些未单独的详细显示在图3中。

HSC 100可以包括除上文中针对图3所描述的那些之外或代替那些的广泛的多种装置和特征。这些包含广泛的多种音频输入和/或输出装置，包括一个或多个麦克风、输入和输出扬声器、地理位置传感器(GPS)、三到九轴自由度定向传感器、气压传感器、健康状况传感器、数字指南针、压力传感器、环境传感器、能量传感器、加速度传感器，位置、高度、运动、速度和/或光学传感器、摄像机(可见光，红外等)，多个无线收音机、辅助照明设备、测距仪或类似，和/或传感器阵列，其嵌入和/或集成到头戴式装置和/或通过一个或多个外围接口附接到该装置(未在图3中详细示出)。

HSC 100的示例实施例可通过感测语音命令、头部运动和手势或其组合接收用户输入。陀螺仪、加速计或其它微-机电系统传感器可被集成到HSC 100并用于跟踪用户头部运动以提供用户输入命令。摄像机或其它移动跟踪传感器可被用于监视用户输入命令的用户手势。这种用户界面克服了其它移动装置的依赖于手的形式。

在示例性HSC装置100的操作中，装置从用户接收一个或多个广泛的多种输入，如(a)通过麦克风1015来自用户的语音输入，(b)经由位置和方向传感器，或经由摄像机或光学传感器的手部移动输入或身体姿势输入，以及(c)经由诸如3轴到9轴自由度定向传感之类的头部跟踪电路的头部移动输入。在优选实施例中。输入的至少一个输入是语音输入。

这些输入通过HSC装置100内的软件翻译成键盘和/或鼠标命令，其随后通过蓝牙或其它无线接口150被发送到主机200。主机200随后根据其自身操作系统/应用软件解译这些翻译的命令，以执行各种功能。在命令中，存在一个在虚拟显示器内选择视野并将选择的屏幕数据返回到HSC装置100的命令。因此，应理解，非常大幅的虚拟显示区域可以与主机200上运行的应用软件或操作系统相关联。然而，视野内仅部分的该较大虚拟显示区域被返回到HSC装置100的微显示器1011并被其实际显示。

在一个实施例中，HSC 100可以采用共同在审的美国专利公开号2011/0187640中所描述的HSC的形式，其全部内容作为参考被并入本文。在另一个实施例中，本发明涉及使用头部固定显示器(HMD)的概念，诸如1010和1011结合外部“智能”装置200(如智能电话或平板电脑)，以为用户提供不需要手的信息和控制。本发明需要小量数据的传送，提供了实时运行的更为可靠的数据传输方法。

因此在这个意义上，通过连接150将被传送的数据量较小，仅仅是如何布局屏幕，哪些文本显示于屏幕和其它风格化信息，如绘画箭头或背景颜色、包括的图像等的简单指令。附加数据可以通过相同的150或其它连接流传输并显示在屏幕(诸如显示器元件1011)上，诸如如果主机200需要的视频流。

在实施例中，麦克风1015可操作地耦合或优选地集成到HSC100中，并可以被用于捕获语音命令，其随后被数字化并使用自动语音识别技术将其处理。

应当理解，一些命令(如果被执行)可能导致不可逆的后果，诸如删除文件。因此，需要保证这种命令不被错误地执行。

错误的源可以包括被系统100正确或不正确地识别为触发命令的例如伪音频输入(例如背景噪音)。用户也可能非故意地向麦克风1015提供音频/语音/声音输入，如与其他人进行对话而没有关闭或停用头戴式100上的语音命令。错误的另一个源是数字信号到被识别的语音内容的错误处理。语音识别引擎不总是可靠地将语音翻译为文本。这对于有口音的用户(相对于编程者预期的语音和语音模式)以及还未用他们声音“训练”语音引擎的用户会更有问题。

在可以使用HSC 100的环境和情况下，这些错误的源可能尤其严重。在紧急情况下，例如，如车辆事故情况、火灾、急诊室设置或包括在战斗中的军事设置，将在一定程度的背景噪音中穿戴装置。此外，精神压力可以改变语法和语音模式，这使语音识别更加困难。此外，HSC 100由第一响应者穿戴，其可与若干其它个体共享装置，降低了用户已“训练”语音识别引擎的相似性。在很多设置中，希望在一旦穿上后，将穿戴HSC 100达延长的时间段，例如在延长时间段的紧急情况、武装战斗、军事操作、手术和连续语音和/或视频通信的能力是需要的或关键的任何情况期间。因此，当直接与在他周围的其他人谈话时，用户可能不移开HSC 100，并且可能忽视关闭、禁用或将装置置于安全模式，以使得用户的语音没有被解译为意图的命令输入。

语音引擎的错误率也可取决于使用的麦克风的质量，用户的清晰度，是否存在背景噪音和语音引擎采用的算法和启发方法。在一些情况下，即使针对于文本的结论是推测的，但语音引擎仍可被编程以提供输出。而在很多情况下，尽管巧妙的推测可能是需要的，但其也可能增加命令或其它活动的非故意执行率。

本发明的方面涉及降低由语音/声音/音频输入造成的命令或其它活动委托的造成的非故意执行率，包括来自用户，来自头戴式计算机100的这种输入。在语音驱动的HSC 100的容易操作和经由声音输入的避免非故意操作之间可存在平衡。在一个极端，可以对一些类型的确认处理做出所有命令。在另一极端，对确认不做出任何命令。在一些情况下，较好方法是系统使用ASR引擎来处理音频输入，确定音频(基于声音)输入是否被识别为语音命令，并且如果被识别为语音命令，则评估与语音命令相关的动作的关键性。规则、表格或数据库查找表或其它数据结构94和程序配置可以储存在存储器90(图2)，9120(图7)中并被采用以实施动作关键性的评估。评估的与将被执行的命令相关联的动作的关键性确定在执行命令前由HSC 100所要求的确认的程度。

例如，关键动作可能是不易于撤销或如果被错误执行将造成特别不希望后果的动作。示例可包含将导致文件永久删除、保密或敏感材料传输、周边装置激活等动作。在军事设置中，其中HSC 100用于激活能够引起破坏的系统或装置，包括潜在的致命系统，对于意外语音激活的保护的需要特别强烈。同时在这种设置中，需要不妨碍系统的使用(例如，动作的条件和/或延迟点火/实施/完成)，除非完全需要避免潜在的灾难后果。

因此，根据本发明的方面，需要系统能够评估与推定地被识别地命令相关联的动作的关键性，并且如果关键，请求确认性输入。由本发明的方面寻求的确认可以以多种方式实现。

现转到图4至图6，呈现了根据本发明的在ASR应用中实施两级确认的用户界面屏幕视图的三个示例实施例。首先讨论示例1，其对应于图4的图示。示例2随后，其对应于图5的图示。最后呈现示例3，其对应于图6的图示。

示例1。在一个方面，本发明涉及语音驱动系统的一级或两级确认处理。例如，HSC 100可能解译并将语音声波输入识别为用于“删除文件”的命令。与该命令相关的动作是文件删除，并且这种未决工作可以被系统评估为关键。作为响应，如图4描绘的示例，在对话框410中对用户呈现屏幕上的选项，提供诸如“删除文件”或“取消”的选项。在这点上，ASR接管以监听两个命令“删除文件”或“取消”中的一个。在备选方案中，该动作可为标准操作程序，而不是仅响应于如上文描述被视为“关键”的未决动作而被请求。

然而，即使在这种使用一级确认的情况，仍存在ASR将意外将背景噪声或不意图作为命令的语音处理为由第一级对话框询问的确认或其它确认模式，并且执行不意图的动作的风险。在实践中，如果存在很多背景噪声，或系统对用户所说的内容进行误解译，以及出于可能导致首先需要包括确认屏幕的原因时，这可能发生。因此，为了使系统对任何主要动作是防误操作的，第二对话框420可以被置入以确认未决操作是有意的并且是用户希望的。

该第二对话框420可以额外包含自动超时或可选持续时间，如例如10秒。如果在该时间段内没有接收到可辨识的答复，则“取消”按钮将以编程方式被按下，对话框被消除且用户动作被取消。第二确定性对话框的外观也可以取决于未决动作被评估的关键性。

这有效阻止了由于噪音引发的意外触发。例如，在第一实例中，ASR可能将噪音误解译为“删除文件”命令。这虽不太可能，但会发生。在这一点上，系统100响应地采用第一对话框410后跟第二对话框420，以两级方式分段地询问确认。现在ASR将非常不可能在10秒的窗口内被噪音触发。如果10秒到时，“取消”动作将接着发生，将用户返回到他们的操作屏幕。

在另一方面，如果动作是如用户说出所意图的，则易于操控后跟第二确认框(屏幕视图)420的初始命令(对话框410)。

示例2。在另一方面，本发明涉及语音-驱动系统的一级或两级受限ASR模式。

HSC 100可被置于受限ASR模式，其中其不识别全部说出的命令或对其反应。这允许将ASR置于受限操作模式，该模式阻止其对我们说出词语做出反应。在我们具有不想改变的充满数据的屏幕而在观看屏幕的同时将加入到对话中的情况下，这将特别有用。在正常情况下，我们的活动对话会出发ASR，导致屏幕上的信息改变。

虽然这种受限ASR模式可以提供保护以免受偶然激活，但仍存在系统从该状态偶然解除的风险，诸如当解除由语音命令触发时。在此情况，环境噪音或不意图作为对HSC 100的命令的用户语音可能被ASR解译为解除命令，并触发从受限模式的偶然解除。

我们希望避免由于噪音或ASR误解译性的对话造成的意外唤醒，所以我们可以发出命令以将装置设为受限ASR模式，并随后依靠装置忽略全部说出的短语直到发出正确的双命令序列。例如，如果用户经由装置打电话，那么装置将可能想要切换到受限ASR模式，并提供用户单一的言语命令以“挂断电话”。

为了确定用户的确希望挂断电话，而不是在用户对话期间意外触发，可以使用如上文描述的两级确认。

例如，在受限ASR模式中，全部可用当前语音命令可以被仅一个诸如“计算机唤醒”之类的短语所替代。这可以通过参考图5看出，其示出了根据本发明方面的示例性对话框510、520。上文描述的相同一个短语或两个短语方式可以结合使装置从受限ASR模式恢复而使用。

通过识别触发词，对话框510提示用户确认用户希望系统从受限模式解除。可选地，如果用户说出提示短语(此处为“唤醒”)，则唤醒按钮512可以变为激活形式，如例如强调或加粗，以确认输入已被接收和识别。如之前说明的，第二对话框520出现，以通过说出第二词，诸如“确认”(与按钮522相关联)来允许用户确认希望从受限模式中唤醒。备选地，用户可以发出“取消”(按钮524)，来结束解除进程。也可以包括超时特征。

示例3。在本发明的另一方面，相同的两阶段方法可被用于使装置从低功率睡眠模式中恢复。在该睡眠模式中，我们可以关闭未使用的外围设备，降低主CPU速度，降低屏幕亮度或关闭屏幕并利用仅一个诸如“计算机唤醒”之类的短语替换全部可用当前语音命令。然而，我们不将装置设为完全睡眠模式；我们仅令ASR运行，监听唤醒短语。

如图6所示，在该模式中，我们现在仅听取一个唤醒命令，如对话框610所提示的，其可在睡眠模式操作期间永久地显示在屏幕的一部分内，或可响应于来自麦克风的音频输入而出现。如果对话框610提供的词(此处为“唤醒”(按钮612))被说出，在装置完全唤醒前(触发脱离睡眠/低功率模式)使用第二级对话框。第二对话框(屏幕视图)620包含确认指令和用户可选择的选项(例如“确定”按钮622和“取消”按钮624)。如果ASR基于噪音或随机对话触发第一短语，第二级确认将很可能不被触发，特别是当被编程以在10秒后超时的情况下(经由按钮624自动“取消”)，将装置返回到其低功率睡眠模式。

应当意识到可以使用额外的方法和处理来降低音频输入被无意地识别为命令输入并像这样被处理的可能性。这些方法便于HSC 100在多种环境下操作，包括嘈杂环境和延长的使用时间段。在一些环境中，用户组使用HSC 100头戴装置，例如，头戴装置可彼此通信或与中央计算机通信，从而关于音频输入的信息可被共享，并且该共享的信息可被用于标识为背景噪音的声音。例如，其中相似声音同时被多个HSC麦克风接收，该声音可能为背景噪音，而不是用户的语音。

此外，背景噪音消减的形式可被用于改进语音音频信号质量。单个或多个HSC 100可装配有多个麦克风以检测背景噪音。该噪音随后被从置于HSC上以接收语音命令的麦克风中检测到的信号中减去。例如，两个麦克风可以被安装在相同的HSC 100上，一个位于和/或指向用户的嘴处，而另一个一般性地位于/指向远离用户的嘴，并通过第二麦克风检测实质上的背景噪音。该背景噪音同样可以是在第一麦克风处检测到的信号的分量，所以来自第二麦克风的信号可以从来自第一麦克风的信号中被减去以增强音频信号的语音分量的质量。

图7示出了示例性非限制无线免手持视频计算头戴装置，HSC100，其配置为在语音命令下操作，并示出了示意性模块。在该实施例中，头戴式装置包含微型显示器9010、扬声器9006和麦克风9020。麦克风9020被绘述为在臂9013的端部。在备选方案中，麦克风9012可被安装到连接到微型显示器9010的臂。

在HSC 100的操作中，用户可被呈现以微显示器9010上的图像，例如，如上文提到的作为由主机计算机200应用的输出。用户也可经由扬声器9006接收音频输出并经由麦克风9012提供语音输入9090。对于语音输入，当用户对麦克风9012讲话时，麦克风在模块9021a将模拟音频(声音)信号转换为数字信号。随后数字化的音频信号被语音识别引擎9035a处理以将数字化音频信号翻译为单词或其它符号。翻译后的信号随后可被用作处理器(诸如运行应用92的处理器84)的输入，其确定语音输入是否对应于命令，如果是，则触发适当的动作。特别地，处理器84确定与命令相关联的动作，评估相关联动作的关键性，并且对于超过阈值的被评估的关键性，将动作表现保持或条件化直到成功完成分级的(一个或多个)确认。例如，关键性阈值水平可以是在存储器9120中储存的、预设(预定义)参数(常量)。

对于语音驱动的应用中两级确认的情况，控制器9100访问两级确认模块9036，其可以本地地位于每个HSC 100或HMD或远程地位于主机200处。两级确认软件模块9036包含指令，以对用户显示相关信息框等的图像，诸如下文示例中提供的和在图4至图6中详细描述的。图形转换模块9040转换经由总线9103从两级确认模块9036接收到的图像指令并将指令转换为图形以显示在单眼显示器9010上。

同时，文本到语音模块9035b转换从两级确认软件模块9036接收到的指令以创建表示将被图像的内容的声音。指令被转换为数字声音，其表示对应的文本到语音模块9035b馈送到数模转换器9021b的图像内容，其进而被馈送给扬声器9006以将音频呈现给用户。

两级确认软件模块9036可被本地存储在存储器9120或远程储存在主机200处。用户可以说出/表达来自图像的命令选择并且用户的语音9090在麦克风9020处被接收。接收到的语音随后在模数转换器9021a处从模拟信号转换为数字信号。一旦语音从模拟转换为数字信号，语音识别模块9035a将语音处理为识别语音。识别出的语音与已知语音和根据指令9036的两级确认模块进行比较。

HSC 100或HMD的用户可以使用两级确认软件模块9036，其位于本地或来自远程主机200，其中用户被呈现有信息框、文本框或对话框的图像(例如图4至图6的420、520、620)，要求在微型显示器9010上的用户确认和通过头戴式计算机100的扬声器9006传递的相同用户确认的音频。因为头戴式计算机100同样装配有麦克风9020，用户可表达确认单词或短语(命令选择)。或者头戴式计算机可以如上文图4至图6的示例所描述的在确定性操作上自动超时。超时设置可以被储存在例如存储器9120中。

虽然参照其实施例具体示出并描述了本发明，但本领域技术人员应理解，在不背离随附权利要求覆盖的本发明的范围的情况下，可以在其中在形式上和细节上进行多种改变。

Claims

1.一种计算机应用中语音控制的方法，包括：

在被提供有具有麦克风和显示器的头戴式计算机时，经由所述麦克风接收声音输入；

使用耦合到所述头戴式计算机的语音识别引擎处理所述声音输入，所述处理包括所述语音识别引擎将所述声音输入解译为针对具有关键性水平的动作的命令，所述关键性水平满足或超过阈值关键性水平；以及

响应于经处理的所述声音输入：

(i)在所述显示器上显示第一对话框，以及

(ii)使所述动作的头戴式计算机表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。

2.根据权利要求1所述的方法，其中所述第一对话框的显示能够自动超时。

3.根据权利要求1所述的方法，其中所述命令是令所述头戴式计算机从低功耗睡眠模式中解除的命令。

4.根据权利要求1所述的方法，其中所述命令是令所述头戴式计算机从受限语音识别模式中解除的命令。

5.根据权利要求1所述的方法，进一步包括步骤：

经由所述麦克风接收所述第一确定性表述，所述第一确定性表述对应于所述第一对话框中的所述提示；以及

响应于对所述第一确定性表述的接收，在所述显示器上显示第二对话框，所述头戴式计算机使所述动作的表现取决于所述用户做出对应于所述第二对话框中的提示的第二确定性表述。

6.根据权利要求5所述的方法，其中所述第二对话框的显示能够自动超时。

7.根据权利要求5所述的方法，其中所述命令是令所述头戴式计算机从低功耗睡眠模式中解除的命令。

8.根据权利要求5所述的方法，其中所述命令是令所述头戴式计算机从受限语音识别模式中解除的命令。

9.根据权利要求5所述的方法，其中所述第一确定性表述和所述第二确定性表述彼此不同。

10.一种语音控制设备，包括：

提供的具有显示器和麦克风的头戴式计算机，所述麦克风被配置为接收声音输入；

语音识别引擎，被配置为解译所述声音输入，并作为所述解译的部分来确定所述声音输入是否为针对具有关键性水平的动作的命令，所述关键性水平满足或超过阈值关键性水平，所述命令是关键命令；以及

处理器，通信地耦合到所述语音识别引擎，并响应于所述语音识别引擎对声音输入是关键命令的确定，而被配置为：

(i)在所述显示器上显示器第一对话框，以及

(ii)使所述动作的头戴式计算机取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。

11.根据权利要求10所述的设备，其中所述第一对话框能够自动超时。

12.根据权利要求10所述的设备，其中所述命令是所述头戴式计算机从低功耗睡眠模式中解除的命令。

13.根据权利要求10所述的设备，其中所述命令是令所述头戴式计算机从受限语音识别模式中解除的命令。

14.根据权利要求10所述的设备，所述处理器进一步被配置为：

15.根据权利要求14所述的设备，其中所述第二对话框能够自动超时。

16.根据权利要求14所述的设备，其中所述命令是所述头戴式计算机从低功耗睡眠模式中解除的命令。

17.根据权利要求14所述的设备，其中所述命令是所述头戴式计算机从受限语音识别模式中解除的命令。

18.根据权利要求14所述的设备，其中所述第一确定性表述和所述第二确定性表述彼此不同。

19.一种头戴式计算机，包括：

显示器；

麦克风，所述麦克风接收声音输入；

语音识别引擎，被配置为解译所述声音输入，并作为所述解译的部分来确定所述声音输入是否为具有关键性水平的动作的命令，所述关键性水平满足或超过阈值关键性水平，所述命令是关键命令；以及

(i)在所述显示器上显示器第一对话框，以及

20.根据权利要求19所述的头戴式计算机，所述处理器进一步被配置为：