CN105940371A

CN105940371A - 用户可配置的话音命令

Info

Publication number: CN105940371A
Application number: CN201480073190.8A
Authority: CN
Inventors: C·帕金森
Original assignee: Kopin Corp
Current assignee: Kopin Corp
Priority date: 2013-12-26
Filing date: 2014-12-17
Publication date: 2016-09-14
Also published as: WO2015100107A1; JP6545174B2; CN114760555A; JP2017508193A; US9830909B2; US9640178B2; US20170206902A1; US20150187352A1

Abstract

话音识别方法和系统使能用户可配置的话音命令。针对给定话音命令，话音识别引擎提供了供终端用户选择要在替代给定话音命令时使用的话音命令词语的机制。该话音识别引擎或者其模块从用户选择的话音命令词语针对该给定话音命令形成替换命令。该话音识别引擎随后如同用户发出/讲出相关联配对的给定话音命令一样针对该替换命令的用户的讲话作出同义响应。

Description

用户可配置的话音命令

技术领域

本申请要求于2013年12月26日提交的美国临时申请No.61/920,926的权益，其全部教导通过引用结合于此。

背景技术

诸如膝上计算机或笔记本PC、智能电话以及平板计算设备的移动计算设备是目前用于在商务和个人生活中产生、分析、通信和消费数据的常用工具。随着高速无线通信技术变得无所不在，用户由于访问数字信息的便利性提高而持续拥抱移动数字生活方式。移动计算设备的流行使用包括显示大量的高分辨率计算机图形信息和视频内容，它们经常无线地流传输至设备。虽然这些设备通常包括显示屏，但是优选的高分辨率、大格式显示的视觉体验无法轻易地在这样的移动设备中复制，因为这样的设备的物理尺寸受到限制以促进其移动性。以上提到的设备类型的另一缺陷在于，用户接口是依赖于手的，这通常要求用户使用键盘(物理或虚拟的)或触摸屏显示器来输入数据或进行选择。作为结果，消费者目前正在寻找免提、高质量、便携式的彩色显示器解决方案以增强或替代他们的手部依赖的移动设备。

发明内容

近期研发的微型显示器可以以非常小的形状系数提供大格式、高分辨率的彩色图片和流视频。针对这样的显示器的一种应用可以被集成到佩戴于用户头上的无线头戴式耳机计算机中，其具有处于用户视场内的显示器，形式类似于眼镜、头戴式音频耳机或视频眼罩。

在这里也被称作头戴式耳机计算机(HSC)或头部安装显示器(HMD)的“无线计算头戴式耳机”设备包括一个或多个小的、高分辨率的微型显示器以及用于放大图像的相关联的光学器件。高分辨率的微型显示器可以提供超视频图形阵列(SVGA)(800×600)分辨率或扩展图形阵列(XGA)(1024×768)分辨率，或者本领域已知的更高分辨率。

无线计算头戴式耳机包含使能数据和流视频能力的一个或多个无线计算和通信接口，并且提供相比手部依赖的设备的更大的便利性和移动性。

关于这样的设备的更多信息参见于2009年1月5日提交的题为“Mobile Wireless Display Software Platform for Controlling OtherSystems and Devices”的共同未决专利申请—美国申请No.12/348,648，于2009年3月27日提交的题为“Handheld WirelessDisplay Devices Having High Resolution Display Suitable For Use as aMobile Internet Device”的PCT国际申请No.PCT/US09/38601，以及于2012年4月25日提交的题为“Improved Headset Computer”的美国申请No.61/638,419，它们均通过引用全文结合于此。

如这里使用的，“HSC”头戴式耳机计算机、“HMD”头部安装显示设备和“无线计算头戴式耳机”设备可以被互换使用。

在一个方面，本发明是一种头戴式耳机计算机，其包括耦合至处理器的微型显示器，耦合至该处理器的麦克风以及话音识别引擎。该话音识别引擎对用户向该麦克风中的讲话作出响应。该话音识别引擎被配置为使得动作在识别出预设话音命令时被执行，并且支持用户可配置的话音命令。

在一个实施例中，该话音识别引擎进一步被配置为向该头戴式耳机计算机的用户呈现该预设话音命令以及相关联字段。该相关联字段被呈现给该用户从而允许该用户输入替代话音命令。该替代话音命令可以被解释为导致与识别出该预设话音命令时执行的相同动作。该话音识别引擎可以在识别出该预设话音命令或该替代话音命令时执行该动作，或者其可以仅在识别出该预设话音命令或该替代话音命令中的一个或另一个时执行该动作。该特定动作可以通过用户输入进行选择。

在另一个实施例中，该话音识别引擎在识别出该替代话音命令时使得第一动作被执行。该第一动作对应于该预设话音命令。在另一个实施例中，该第一动作仅在该话音识别引擎识别出该替代话音命令时被执行。在一个实施例中，该第一动作在该话音识别引擎识别出该替代话音命令时或者该话音识别引擎识别出该预设话音命令时被执行。

在另一个实施例中，在该相关联字段中输入的替代话音命令在预定时间间隔内有效，而在该预定时间间隔之后仅该预设话音命令有效。在另一个实施例中，在该相关联字段中输入的替代话音命令仅针对提交该替代命令的用户有效。

一个实施例进一步包括话音命令配置模块，其操作地耦合至该话音识别引擎。该话音命令配置模块可以使得终端用户能够选择话音命令词语以在针对给定话音命令的替代中使用。用户选择的话音命令词语可以形成针对给定话音命令的替代命令。

另一个实施例进一步包括话音命令配置模块，其被配置为接收来自用户的替代话音命令，其中该替代话音命令对应于该预设话音命令。该话音命令配置模块进一步被配置为将该替代话音命令与要在识别出预设话音命令时执行的动作相关联。该话音命令配置模块被配置为在识别出该替代话音命令时执行该动作。在一个实施例中，该话音命令配置模块进一步被配置为在识别出该预设话音命令时执行该动作。

在另一个方面，本发明是一种话音识别方法，其包括识别用户的讲话，使得动作在该讲话被识别为预设话音命令时被执行，并且支持用户可配置的话音命令。

一个实施例进一步包括向头戴式耳机计算机的用户呈现该预设话音命令以及相关联字段，并且接收输入至该相关联字段中的替代话音命令。

另一个实施例进一步包括在识别出该替代话音命令时使得第一动作被执行。该第一动作对应于该预设话音命令。另一个实施例进一步包括仅在该话音识别引擎识别出该替代话音命令时执行该第一动作。再一个实施例进一步包括在该话音识别引擎识别出该替代话音命令时或者该话音识别引擎识别出该预设话音命令时执行该第一动作。

在一个实施例中，在该相关联字段中输入的替代话音命令在预定时间间隔内有效，而在该预定时间间隔之后仅该预设话音命令有效。

在另一个实施例中，在该相关联字段中输入的替代话音命令仅针对提交该替代命令的用户有效。

在另一个方面，本发明是一种用于识别话音的非瞬态计算机可读介质。该非瞬态计算机可读介质包括存储于其上的计算机软件指令。该计算机软件指令在被至少一个处理器执行时使得计算机系统识别用户的讲话。该计算机软件指令进一步使得动作在该讲话被识别为预设话音命令时被执行。该计算机软件指令进一步使得支持用户可配置的话音命令。

附图说明

根据以下对如附图中图示的本发明的示例实施例进行的更为具体的描述以上内容将是显而易见的，附图中同样的附图标记贯穿不同视图而指代相同的部分。附图并非必然依比例绘制，而是强调对本发明的实施例进行图示。

图1A-1B是根据本发明原理的与主机计算机(例如，智能电话、膝上计算机等)协同操作的头戴式耳机计算机的示意性图示。

图2是图1A-1B的实施例中的数据和控制流程的框图。

图3是实施例中的ASR(自动话音识别)子系统的框图。

图4图示了根据本发明的话音识别方法的一个实施例。

具体实施方式

对本发明的示例实施的描述如下。

对这里引用的所有专利、公开申请和参考文献的教导都通过引用全文结合于此。

图1A和1B示出了无线计算头戴式耳机设备100(其在这里也被称作头戴式耳机计算机(HSC)或头部安装显示器(HMD))的示例实施例，其整合有高分辨率(VGA或更好的)微型显示器部件1010以及以下描述的其它特征。

HSC 100可以包括音频输入和/或输出设备，包括一个或多个麦克风、输入和输出扬声器、地理定位传感器(GPS)、三至九轴自由度的方位传感器、大气传感器、健康状况传感器、数字罗盘、压力传感器、环境传感器、能量传感器、加速传感器、位置、姿态、运动、速度和/或光学传感器、相机(可见光、红外等)、多个无线电装置、辅助照明、或测距仪等，和/或嵌入和/或集成到头戴式耳机中和/或经由一个或多个外部端口1020(图1B)附接至该设备的传感器阵列。

通常位于头戴式耳机计算设备100的外壳内的是各种电子电路，包括微型计算机(单核或多核处理器)、一个或多个有线和/或无线通信接口、存储器或存储设备、各种传感器以及诸如“热靴”的外部配件或配件。

HSC 100的示例实施例可以通过感测语音命令、头部移动110、111、112以及手部手势113或者它们的任意组合而接收用户输入。操作地耦合至HSC 100或者集成于HSC 100中的麦克风(或多个麦克风)可以被用来捕捉话音命令，话音命令随后使用自动话音识别技术而被数字化和处理。陀螺仪、加速计和其它微型电机械系统传感器可以被集成到HSC 100中并且被用来跟踪用户的头部移动110、111、112以提供用户输入命令。相机和运动跟踪传感器可以被用来监视针对用户输入命令的用户的手部手势113。这样的用户接口可以克服其它移动设备中存在的手部依赖形式的缺陷。

HSC 100可以以各种方式使用。其可以被用作用于显示由远程主机计算设备200(图1A所示)接收和处理的视频信号的外部显示器。主机200例如可以是笔记本PC、智能电话、平板设备，或者具有比无线计算头戴式耳机设备100更小或更大计算复杂度的其它计算设备，诸如基于云的网络资源。头戴式耳机计算设备100和主机200可以经由一种或多种无线协议进行无线通信，上述无线协议诸如 WiFi、WiMAX、4G LTE或者其它无线的无线电链路150。(蓝牙是华盛顿州98033，Kirkland，5209Lake Washington Boulevard的Bluetooth Sig公司的注册商标)。

在示例实施例中，主机200可以进一步连接至其它网络，诸如通过无线连接而连接至互联网或其它基于云的网络资源，使得主机200可以充当HSC 100和网络210之间的无线中继。可替换地，HSC100的一些实施例可以在不使用主机无线中继的情况下直接建立到互联网(或者其它基于云的网络资源)的无线连接。在这样的实施例中，HSC 100和主机200的组件可以被组合到单个设备中。

图1B是示出头戴式耳机计算机100的示例实施例的一些细节的透视图。示例实施例中的HSC 100通常包括框架1000、头带(strap)1002、后部壳体1004、扬声器1006、具有内建式麦克风的悬臂或者可替换地被称作臂或吊杆1008，以及微型显示器配件1010。

头部佩戴的框架1000和头带1002通常被配置为使得用户可以将头戴式耳机计算机设备100佩戴于用户的头上。壳体1004通常是容纳电子器件的低位(profile)单元，上述电子器件诸如微处理器、存储器或其它存储设备以及其它相关联的电路。扬声器1006向用户提供音频输出，使得用户可以听到信息。微型显示器配件1010被用来向用户呈现视觉信息。其耦合至臂1008。臂1008通常提供物理支持，使得微型显示器配件能够位于用户的视场300内(图1A)，优选地处于用户眼睛的前面或者优选地稍低于或高于眼睛而位于其外部视野内。臂1008还提供微型显示器配件1010和容纳于壳体单元1004内的控制电路之间的电气或光学连接。

根据以下将更为详细地进行解释的多个方面，HSC显示设备100允许用户在由虚拟显示器400定义的明显更大的区域内选择视场300。用户通常可以控制视场300的位置、程度(例如，X-Y或3D范围)和/或放大率。

虽然图1A和1B中示出的是呈现利用悬臂吊杆支撑在用户脸上的单个固定显示部件的单眼式微型显示器，但是应当理解的是，用于远程控制显示设备100的其它机械配置是可能的，诸如具有两个分开的微型显示器(例如，每只眼睛一个)的双眼式显示器或者被布置为由双眼可观看的单个微型显示器。

图2是示出HSC或HMD设备100、主机200以及它们之间传输的数据的实施例的更多细节的框图。HSC或HMD设备100经由麦克风接收来自用户的语音输入，经由位置或方位传感器、相机或(多个)光学传感器接收手部移动或身体姿态，并且经由诸如3轴至9轴自由度方位感测的头部跟踪电路接收头部移动输入。这些被HSC或HMD设备100中的软件(处理器)转换为键盘和/或鼠标命令，键盘和/或鼠标命令随后通过蓝牙或其它无线接口150而被发送至主机200。主机200随后根据其自己的操作系统/应用软件对这些转换的命令进行解释以执行各种功能。命令中有用于在虚拟显示器内选择视场300并且将该选择的屏幕数据返回至HSC或HMD设备100的命令。因此，应当理解的是，非常大格式的虚拟显示区域可能与主机200上运行的应用软件或操作系统相关联。然而，仅该大的虚拟显示区域400中处于视场300内的部分被返回并且实际被HSC或HMD设备100的微型显示器1010显示。

在一个实施例中，HSC 100可以采用共同未决的美国专利公开号2011/0187640中描述的设备的形式，其因此通过引用全文结合于此。

在另一个实施例中，本发明涉及结合外部“智能”设备200(诸如智能电话或平板计算机)使用头部安装显示器(HMD)1010从而以免提方式向用户提供信息和控制的构思。本发明要求少量数据的传输，提供了实时运行的更为可靠的数据传输方法。

因此，在该意义上，要通过连接150进行传送的数据的数量是有关如何布局屏幕、显示哪些文本，以及诸如绘制箭头的其它样式信息或者背景颜色、要包括的图像等等的小型简单指令。

另外的数据可以通过前述连接150或另一连接进行流传输并且在屏幕1010上进行显示，诸如在主机200要求的情况下的视频流。

话音识别(ASR)系统被用来控制设备。针对大部分部件，ASR系统工作良好并且允许用户以高准确度对系统进行导航和控制。

系统设计人员将大量时间和工作花费在选择命令或关键字上，其对即将进行的任务加以描述并且也是“话音识别友好”的命令。例如，由于ASR系统工作的方式，与动词处于主语之前的格式“关闭窗口”相比，典型的英语讲话者在使用主谓命令“窗口关闭”时将实现明显更大的识别准确度。

然而，即使当命令集已经针对最优识别率进行了高度调谐时，仍然将会存在该命令集无法针对其使用的用户。例如，一些讲方言的人或者具有讲话障碍的用户可能发现某些命令难以正确发音，并且这将会导致无法使用的ASR系统。

本发明的实施例(例如，HSC 100的软件系统)使得系统的终端用户能够利用更适用于用户讲话模式的命令来覆盖或以其它方式替代ASR命令。该任务例如可以在一些实施例中经由图形用户界面(GUI)控制面板来实施，GUI控制面板列出了所有当前的系统ASR命令(或者其任意子集)。每个系统命令可以被选择并且被如由用户指定的任意命令替代。以这种方式，HSC系统100针对用户被定制以实现最优识别率。

在一些实施例中，用户可以针对当前的ASR命令提供可选项(alternative)而不是替代。例如，参考以上阐述的示例，针对当前的ASR命令“窗口关闭”，用户可以引入命令“关闭窗口”，使得讲出“窗口关闭”或“关闭窗口”都将会导致窗口关闭。

在一些实施例中，当用户引入替代或可选命令时，该改变将会是持久的(即，将保持有效直至被用户或其它维护动作明确改变)。在其它实施例中，该改变可以仅在预定时间间隔内保持有效(例如，在一天、一周、一月的剩余时间内，或者在诸如60分钟、24小时或5天的明确时间段内)。

在一些实施例中，该替代或可选命令可以仅针对作出该改变的用户有效。在其它实施例中，该改变可以针对系统的所有用户有效。

图3示出了根据本发明的一个实施例的处在语音命令下的无线免提视频计算头戴式耳机100的示例实施例。可以在微型显示器9010上向用户呈现例如由以上提到的主机计算机200的应用输出的图像。HMD 100的用户可以采用本地或者来自远程主机200的联合的头部跟踪和语音命令文本选择软件模块9036，其中用户在微型显示器9010上被呈现以实施免提文本选择的屏幕视图的序列并且通过头戴式耳机计算机100的扬声器9006而被呈现以其音频。由于头戴式耳机计算机100还配备有麦克风9020，所以用户可以如接下来关于本发明的实施例阐述的那样讲出语音命令(例如，以便作出命令选择)。

图3示出了图示头戴式耳机计算机100的模块的示意图。图3包括头戴式耳机计算机100的操作模块的示意图。

针对话音驱动的应用中的话音命令替换的情形，控制器9100访问用户命令配置模块9036，用户命令配置模块9036可以位于每个HMD 100本地或者远程位于主机200(图1A-1B)。

用户可配置话音命令或话音命令替换软件模块9036包含向用户显示相关请求对话框等的图像的指令。图形转换器模块9040将经由总线9103从话音命令模块9036接收的图像指令进行转换并且将该指令转换为图形以在单眼式显示器9010上进行显示。

文本至话音模块9035b可以与以上描述的图形显示同时将来自文本选择软件模块9036的指令转换为对应于要显示的屏幕视图410的内容的数字声音表示。文本至话音模块9035b将该数字声音表示馈送至数模转换器9021b，数模转换器9021b进而对扬声器9006进行馈送以向用户呈现音频输出。

话音命令替换/用户重新配置软件模块9036可以被本地存储在存储器9120或者远程存储在主机200(图1A)。用户可以说出/讲出根据图像的替换命令选择并且用户的话音9090在麦克风9020被接收。接收的话音随后在模数转换器9021a从模拟信号转换为数字信号。一旦话音从模拟转换为数字信号，话音识别模块9035a就将该话音处理为识别话音。

识别话音与已知话音(存储在存储器9120中)进行比较并且被用来根据模块9036的指令选择并替代话音命令替换。模块9036可以执行替代的2步骤确认(用户选择的话音命令替换词语)。模块9036还可以将用户选择的替换命令与原始话音命令(即，被替换命令)进行交叉引用或以其它方式进行关联，使得未来讲出的替换命令词语被话音识别模块9035a识别，这可以使得与原始命令相关联的动作被执行。

如这里提到的，用户选择的命令可以是针对现有命令的替换或可选项。在与可替换命令的情形相关联的实施例中，话音识别模块9035a可以识别原始命令或可选命令，并且在任一种情况下可以导致与原始命令相关联的动作被执行。

图4图示了话音识别方法的一个实施例，其包括识别402用户的讲话，使得404动作在该讲话被识别为预设话音命令时被执行，支持406一个或多个用户可配置的话音命令，并且向头戴式耳机计算机的用户呈现408预设话音命令和相关联字段，并且接收输入至该相关联字段中的替代话音命令。

将要意识到的是，这里描述的一个或多个实施例可以以许多不同形式的软件和硬件来实施。被用来实施这里描述的实施例的软件代码和/或专用硬件并不对这里描述的发明的实施例进行限制。因此，实施例的操作和行为在并不参考具体软件代码和/或专用硬件的情况下被描述—所理解的是，将能够设计软件和/或硬件以实施基于这里的描述的实施例。

另外，这里描述的示例实施例中的某些实施例可以被实施为执行一种或多种功能的逻辑。该逻辑可以是基于硬件的、基于软件的，或者是基于硬件和基于软件的组合。该逻辑中的一些或全部可以被存储在一个或多个有形的非瞬态计算机可读存储介质上，并且可以包括可以由控制器或处理器执行的计算机可执行指令。该计算机可执行指令可以包括实施本发明的一个或多个实施例的指令。该有形的非瞬态计算机可读存储介质可以是易失性的或非易失性的，并且例如可以包括闪存、动态存储器、可移除盘和非可移除盘。

虽然已经参考其示例实施例特别示出并描述了本发明，但是本领域技术人员将会理解的是，可以对其形式和细节进行各种变化而并不背离如所附权利要求涵盖的本发明的范围。

Claims

1.一种头戴式耳机计算机，包括：

耦合至处理器的微型显示器；

耦合至所述处理器的麦克风；以及

话音识别引擎，其由所述处理器执行并且对用户向所述麦克风中的讲话作出响应，所述话音识别引擎被配置为(i)使得动作在识别出预设话音命令时被执行，并且(ii)支持用户可配置的话音命令。

2.根据权利要求1所述的头戴式耳机计算机，其中所述话音识别引擎进一步被配置为向所述头戴式耳机计算机的用户呈现所述预设话音命令以及相关联字段，所述相关联字段被呈现以用于输入替代话音命令。

3.根据权利要求2所述的头戴式耳机计算机，其中所述话音识别引擎在识别出所述替代话音命令时使得第一动作被执行，其中所述第一动作对应于所述预设话音命令。

4.根据权利要求3所述的头戴式耳机计算机，其中所述第一动作仅在所述话音识别引擎识别出所述替代话音命令时被执行。

5.根据权利要求3所述的头戴式耳机计算机，其中所述第一动作在所述话音识别引擎识别出所述替代话音命令时或者所述话音识别引擎识别出所述预设话音命令时被执行。

6.根据权利要求2所述的头戴式耳机计算机，其中在所述相关联字段中输入的替代话音命令在预定时间间隔内有效，而在所述预定时间间隔之后仅所述预设话音命令有效。

7.根据权利要求2所述的头戴式耳机计算机，其中在所述相关联字段中输入的替代话音命令仅针对提交所述替代命令的用户有效。

8.根据权利要求1所述的头戴式耳机计算机，进一步包括话音命令配置模块，其操作地耦合至所述话音识别引擎，所述话音命令配置模块使能终端用户选择话音命令词语以在针对给定话音命令的替代中使用，所述用户选择的话音命令词语形成针对所述给定话音命令的替代命令。

9.根据权利要求1所述的头戴式耳机计算机，进一步包括话音命令配置模块，其被配置为：

(i)接收来自所述用户的替代话音命令，所述替代命令对应于所述预设话音命令；

(ii)将所述替代话音命令与要在识别出预设话音命令时被执行的动作相关联；

(iii)在识别出所述替代话音命令时执行所述动作。

10.根据权利要求9所述的头戴式耳机计算机，其中所述话音命令配置模块进一步被配置为在识别出所述预设话音命令时执行所述动作。

11.一种话音识别方法，包括：

在数字处理设备中：

(i)识别用户的讲话；

(ii)使得动作在所述讲话被识别为预设话音命令时被执行；以及

(iii)支持用户可配置的话音命令。

12.根据权利要求11所述的方法，进一步包括向头戴式耳机计算机的用户呈现所述预设话音命令以及相关联字段，并且接收输入至所述相关联字段中的替代话音命令。

13.根据权利要求12所述的方法，进一步包括在识别出所述替代话音命令时使得第一动作被执行，其中所述第一动作对应于所述预设话音命令。

14.根据权利要求13所述的方法，进一步包括仅在所述话音识别引擎识别出所述替代话音命令时执行所述第一动作。

15.根据权利要求13所述的方法，进一步包括在所述话音识别引擎识别出所述替代话音命令时或者所述话音识别引擎识别出所述预设话音命令时执行所述第一动作。

16.根据权利要求12所述的方法，其中在所述相关联字段中输入的替代话音命令在预定时间间隔内有效，而在所述预定时间间隔之后仅所述预设话音命令有效。

17.根据权利要求12所述的方法，其中在所述相关联字段中输入的替代话音命令仅针对提交所述替代命令的用户有效。

18.一种用于识别话音的非瞬态计算机可读介质，所述非瞬态计算机可读介质包括存储于其上的计算机软件指令，所述计算机软件指令在被至少一个处理器执行时使得计算机系统：

(i)识别用户的讲话；

(iii)支持用户可配置的话音命令。

19.根据权利要求18所述的非瞬态计算机可读介质，所述计算机软件指令在被至少一个处理器执行时进一步使得计算机系统向头戴式耳机计算机的用户呈现所述预设话音命令以及相关联字段，并且接收输入至所述相关联字段中的替代话音命令。

20.根据权利要求18所述的非瞬态计算机可读介质，所述计算机软件指令在被至少一个处理器执行时进一步使得所述计算机系统在识别出所述替代话音命令时使得第一动作被执行，其中所述第一动作对应于所述预设话音命令。