CN111492426B

CN111492426B - 注视启动的语音控制

Info

Publication number: CN111492426B
Application number: CN201880082999.5A
Authority: CN
Inventors: O.翁特埃克
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2017-12-22
Filing date: 2018-12-21
Publication date: 2024-02-02
Anticipated expiration: 2038-12-21
Also published as: CN111492426A; US11423896B2; US20200380977A1; BR112020010376A2; WO2019123425A1; EP3729421A1

Abstract

一种装置通过注视检测来启动语音控制。所述装置检测用户正注视着注视目标。响应于该检测，装置捕获音频并执行对所捕获的音频的自动话音识别以将音频转变成文本。所述装置对文本执行自然语言理解以确定应用特定的命令。所述装置针对应用特定的命令执行应用特定的处理。

Description

注视启动的语音控制

对相关申请的交叉引用

本申请要求2017年12月22日提交的、号码为62/609,959的美国临时申请的权益，其特此通过引用而被结合。

技术领域

本发明的实施例涉及媒体装置领域；并且更特定地，涉及注视启动的语音控制。

背景技术

语音控制在媒体流播装置和智能扬声器中被提供，并且正变得随处可见。在用于大多数常规现代语音处理的流水线的前面部分的是“唤醒”或“热”词（本文称为“唤醒词”）检测。装置在处理随后说出的词之前侦听唤醒词。此启动过程在本文被称为“唤醒词启动”。用于启动语音控制的另一方法是按压（例如，在遥控器上的）按钮，这在本文被称为“按钮启动”。

当前存在某个（某些）挑战。用于语音控制的唤醒词启动是麻烦的，并且可能变得令用户烦恼。唤醒词启动对长期采用语音控制范例造成了障碍。按钮启动引入了一个附加步骤，并且充满了不确定性（人们不知道是短暂地按压按钮还是在说话时保持按钮被按压）。按钮启动还需要用户仅仅为了语音控制启动而拿起并拿着遥控器。

发明内容

本公开的某些方面及其实施例可以提供对于在背景技术中标识的挑战或其它挑战的解决方案。

在实施例中，在检测用户正注视着注视目标之前，所述装置检测由用户进行的运动。

在实施例中，在检测用户正注视着注视目标之前，所述装置执行校准步骤，在所述校准步骤中确定到注视目标的注视方向。

在实施例中，所捕获的音频仅被本地存储在所述装置上。

在实施例中，注视目标位于与检测装置不同的装置上。

在实施例中，注视目标位于与检测装置相同的装置上。

在实施例中，注视目标是电视或显示器，并且检测装置是机顶盒。

在实施例中，应用特定的处理特定于电视或流播装置。

在实施例中，检测用户正注视着注视目标包括分析用户的一个或多个图像以确定用户是否正注视着注视目标。在实施例中，分析用户的一个或多个图像以确定用户是否正注视着注视目标包括从通过计算机或人工智能视觉技术所计算的面部对准数据来推断用户是否正注视着注视目标。

附图说明

通过参考用于示出本发明的实施例的以下描述和附图，可以最好地理解本发明。在附图中：

图1是示出根据实施例的、用于注视启动的语音控制的解决方案的组件的框图。

图2是示出根据实施例的、用于注视启动的语音控制的解决方案的示例性步骤的流程图。

图3示出了根据实施例的、检测装置与注视目标分离的实施例。

图4示出了根据实施例的、注视目标在检测装置上的实施例。

图5示出了推断用户正相对于捕获了面部图像的（一个或多个）摄像机相对直地向前看的面部的面部对准数据。

图6示出了推断用户正相对于捕获了面部图像的（一个或多个）摄像机向左看的面部的面部对准数据。

具体实施方式

描述了注视启动的语音控制。该解决方案完全消除了对用于语音控制的唤醒词或按钮按压的需要。替代地，注视检测被采用作为语音控制启动。该解决方案检测用户正看着目标以启动语音控制，并且将随后说出的词处理成命令。例如，对于对电视的语音控制，用户可以简单地看着电视并说出命令。

该解决方案的本质是用计算机语音控制/交互的自然启动代替经由唤醒词或按钮按压的计算机语音控制/交互的不自然启动；注视着要被控制和/或要与之交互的对象。在实施例中，注视目标（用户看着以控制的装置）位于与检测用户正注视着所述注视目标的装置不同的装置上。在另一实施例中，注视目标位于检测用户正注视着所述注视目标的相同装置上。在实施例中，注视目标可以包括提供对象特定的命令/交互处理。

本文提出了解决本文所公开的问题中的一个或多个问题的各种实施例。

某些实施例可以提供以下（一个或多个）技术优点中的一个或多个。通过注视来启动语音控制是自然的，因为它反映人类如何启动与彼此的通信。为了与人说话，一个人（通常）首先看着那个人。在用于电视控制的实施例中，其中按压遥控器上的按钮是通常的启动方法，存在另一优点；通过不需要按钮按压，遥控器可以完全消失。因此，在实施例中，不需要遥控器来启动语音命令。

因此，本文描述的是用于启动计算机语音控制或语音交互的新方法；用于启动计算机语音控制或语音交互的新方法，该新方法不需要检测装置是注视的目标；用于提供对象特定的计算机语音控制或语音交互的新方法；和/或用于不需要物理遥控器的TV或流播装置控制的新方法。

现在将参照附图更完整地描述本文所设想的实施例中的一些。然而，其它实施例被包含在本文所公开的主题的范围内，所公开的主题不应该被解释为仅限于本文所阐述的实施例；而是这些实施例作为示例而被提供，以向本领域技术人员传达主题的范围。

该解决方案使用注视检测替代唤醒词检测或按钮按压以用于语音控制启动。一旦启动了语音控制，就进入语音处理流水线，所述语音处理流水线可以包括自动话音识别（ASR）、自然语言理解（NLU）和/或应用特定的处理步骤。通过计算机视觉或AI视觉处理（包括对从人类面部的摄像机图像导出的面部度量数据进行操作）来完成注视检测。

总体解决方案包括物理摄像机，并且可以包括能够进行快速视觉处理的处理器（诸如GPU或VPU）。

在实施例中，可选的运动检测步骤在注视检测步骤之前。这最小化了功耗，因为相比注视检测，运动检测更不计算密集。在检测到运动之后，执行注视检测。

该解决方案指定多个可能的注视目标，所述注视目标被定义为用户需要正看着以启动语音控制的3D空间中的对象。例如，注视目标A可以是包含捕获用户的面部的（一个或多个）摄像机——并且可能包含捕获用户的语音的麦克风——并且表面上执行注视检测和语音处理步骤两者的装置。作为另一示例，注视目标B可以是3D空间中的任何其它对象或点或封闭体积。虽然注视目标A是明显的注视目标，但注视目标B不是明显的注视目标。作为示例，考虑注视目标A是机顶盒（STB）并且注视目标B是TV（被连接到STB）。用户想要控制TV而不管如何完成这种控制。要看着然后以启动语音控制的自然对象是注视目标B（TV），而不是注视目标A（STB）。该解决方案可以包括当注视目标B是期望的注视目标时的校准步骤。例如，在STB设置期间，可以请求用户看着他们的电视。STB然后记住此注视方向并将其登记为注视目标。

可以存在多个注视目标。进一步地，特定目标可以具有与它们关联的特定语音动作。例如，如果注视目标不但被记录，而且还被语义地标记（“这是我的TV”，“这是我的烤面包机”）或在视觉上推断——在设置步骤中或实时地通过单独的计算机/AI视觉过程，则被标记或识别的对象的上下文可以通知语音命令的处理。例如，特定语音命令可以仅与特定目标一起工作或者执行不同的功能（取决于目标）。

图1是示出根据实施例的解决方案的组件的框图。装置100包括：应用130，其可以特定于正通过音频输入来控制的装置；语音控制120，其处置用于应用130的语音控制；音频硬件140，其处理从一个或多个麦克风145接收的音频；处理电路150（例如，GPU、VPU、CPU），其处理从一个或多个摄像机155接收的图像和/或视频；以及可选的运动检测硬件160，其处理从可选的运动检测器165接收的运动检测。装置100可以是媒体计算装置（例如，智能电视、STB、智能扬声器、流播装置）、游戏装置（例如，游戏控制台）、或其它计算装置。（一个或多个）麦克风145、（一个或多个）摄像机155、和/或可选的运动检测器165可被集成到装置100中或者可以被连接到装置100。装置100是检测装置并且可以是注视目标，如将在本文更完整描述的。

图2是示出根据实施例的解决方案的示例性步骤的流程图。将针对图1的示例性实施例来描述图2的步骤，然而，图2的步骤可以由与针对图1所描述的那些实施例不同的实施例来执行，并且图1的实施例可以执行与针对图2所描述的那些步骤不同的步骤。

在步骤210（其在实施例中是可选的），检测装置100检测是否存在运动。在实施例中，检测装置分析由检测装置100上或与检测装置100连接的一个或多个摄像机155拍摄的图像（例如，相对低分辨率图像），以确定是否存在运动。例如，检测装置100可以将先前图像与当前图像比较以确定是否存在差异。可以使用执行运动检测的其它方式，诸如使用红外线、无线电、光、或声。在此可选步骤中，当检测到存在运动时，则执行步骤215。否则，所述方法包括等待检测到运动。可选的运动检测步骤最小化了检测装置100的功耗，因为相比注视检测，运动检测本身更不计算密集（并且因此具有更少的功耗）。

在步骤215，检测装置100确定是否存在注视着注视目标的用户。注视目标可以是检测装置100或检测装置100的一部分。注视目标可以是与检测装置100不同的装置。注视目标可以是3D空间中的任何其它对象或空间区域。例如，检测装置100可以是STB，并且注视目标可以是TV或其它显示器。作为另一示例，检测装置100可以是TV，该TV也是注视目标。作为另一示例，检测装置可以是STB，并且注视目标可以是STB。图3示出了检测装置100与注视目标315分离的实施例。检测装置100检测用户305是否正注视着注视目标315。图4示出了注视目标位于检测装置上的实施例。检测装置和注视目标410检测用户405是否正注视着检测装置和注视目标410。

在实施例中，用户是否正注视着注视目标可以通过计算机和/或AI视觉技术从面部对准数据来推断。例如，检测装置100可以分析（由一个或多个摄像机155周期性地拍摄的）一个或多个图像以推断用户是否正注视着注视目标。这些（一个或多个）图像可以是周期性（例如，每5秒一次）拍摄的（一个或多个）相对高分辨率图像。作为另一示例，在拍摄高分辨率图像之前，检测装置100可以分析低分辨率图像以在执行完整的注视检测过程之前确定用户是否正大致看向注视目标的方向。例如，如果人在检测装置前行走但明显未看着注视目标（例如，他们的背部面向注视目标），则可以避免完整的注视检测过程。

面部对准数据包括鼻子的尖部和瞳孔的位置，并且可以包括面部的边界框内的其它位置信息，诸如嘴部信息。例如，图5和6分别示出了面部510和610的示例性图像。在面部510的边界框515内，面部对准数据包括五个面部标志：右眼标志520、左眼标志525、鼻子标志530、右嘴角标志535、和左嘴角标志540。类似地，如图6中示出的，在面部610的边界框615内，面部对准数据包括五个面部标志：右眼标志620、左眼标志625、鼻子标志630、右嘴角标志635、和左嘴角标志640。面部标志是示例性的；并且可以使用不同的、更少的、或更多的面部标志。如图5中示出的，面部510的面部对准数据推断用户正相对于捕获了面部510的图像的（一个或多个）摄像机155相对直地向前看。如图6中示出的，面部610的面部对准数据推断用户正相对于捕获了面部610的图像的（一个或多个）摄像机155向左看。

注视检测是多级过程。在接收到图像和/或视频之后，第一步骤是使检测装置100通过面部对准参数计算来确定面部对准数据，以确定用户的注视方向。在实施例中，使用面部对准数据来确定用户的注视方向。例如，如果以高精确度确定眼睛的边界框，则所述边界框用于确定每只眼睛的角度，然后所述角度用于导出注视方向。如果没有以高精确度确定在边界框的框架内的瞳孔的位置，则使用鼻子尖部和在面部的边界框的框架内的瞳孔的位置来导出注视方向。存在用于计算面部对准参数的若干种方式。一种方式是基于神经网络的方法，诸如在多任务级联卷积网络（MTCNN）中使用的。MTCNN使用具有三级卷积网络的级联架构以粗略到精细的方式预测面部和标志位置。另一种方式是两级级联可变形形状模型。另一种方式基于树与部分的共享池的混合，其中面部标志被建模为部分，并且全局混合被用于捕获由于视点引起的拓扑改变。另一种方式是经由卷积神经网络拟合于图像的3D面部模型，称为3D密集面部对准（3DFFA）。另一种方式是通过多任务学习，其使用具有逐任务的提前停止的任务约束深度模型来促进学习收敛。

确定面部对准数据之后的下一步骤是使检测装置100确定所述数据是否指示用户正注视着目标。注视目标可以被登记在检测装置上。例如，如果注视目标不位于检测装置上（例如，它位于3D空间中的另一对象或空间区域上），则可能已经执行了记住到被登记的注视目标的注视方向的校准步骤。检测装置将所确定的注视方向与注视目标比较。例如，如果注视目标在拍摄图像的装置的左侧30度，则检测装置确定所确定的注视方向是否在拍摄图像的装置的左侧30度的容差内。容差可以是几度（正或负）。

在实施例中，在确定用户是否正注视着注视目标之前或之后，检测装置100基于面部识别来确定用户是否是识别的用户。确定用户是否是识别的用户可以被进行以用于认证目的。例如，在实施例中，如果用户未被识别，则检测装置可以不执行从用户接收的命令，或者不执行至少某些命令。确定用户是否是识别的用户也可以被进行以用于访问用户的简档。

如果检测装置100确定用户正注视着注视目标，则步骤在步骤220继续；否则，方法返回到步骤210（在实施例中）或继续在步骤215等待用户注视着注视目标。

在步骤220，检测装置捕获音频并执行自动话音识别（ASR）。ASR将原始语音数据转换成文本。在实施例中，检测装置仅在检测到用户正注视着注视目标之后启用一个或多个麦克风并开始记录音频。因此，替代使用唤醒词或按钮按压作为语音处理的触发，注视检测被用作语音处理的触发。ASR可以采用若干种不同的方式来执行。例如，深度前馈神经网络（DNN）或其它神经网络可用于ASR。作为另一示例，隐马尔可夫模型（HMM）可用于ASR。

在实施例中，ASR在检测装置100上本地执行。也就是说，原始音频样本不通过因特网传送到另一装置或传送到云中。

接下来，在步骤225，检测装置执行自然语言理解（NLU）。NLU从文本中导出结构化信息（诸如意图和其它语义）。意图是应用特定的。例如，如果应用是TV，则意图可能与TV有关，诸如节目标题、改变频道、购买节目等。因此，NLU过程可以将来自ASR过程的文本数据转变成应用特定的命令。

接下来，在步骤230，检测装置执行应用特定的处理。尽管原始语音数据，以及在一些实施例中从原始语音数据导出的文本，可以不被传送到远程装置，诸如云中的服务器，但是从NLU过程生成的（一个或多个）命令可以取决于命令的类型而被发送到远程服务器。例如，如果命令可以由检测装置本地处理（例如，改变音量、改变频道），则命令通常将不被发送到远程服务器。然而，如果命令不能由检测装置本地处理（例如，购买视频资产），则命令可以被传送到远程服务器以用于处理。

尽管检测装置可以包括用于执行注视检测的GPU或VPU，但是在另一实施例中，也可以包括以下项中的一项或多项的组合：微处理器；控制器；微控制器；中央处理单元；数字信号处理器；专用集成电路；现场可编程门阵列；或可操作以提供注视检测的任何其它适合的计算装置，资源，或硬件、软件和/或经编码逻辑的组合。例如，处理电路可以执行存储在装置可读介质中或存储在处理电路内的存储器中的指令。此类功能性可以包括提供本文讨论的各种特征、功能或益处中的任一个。在一些实施例中，处理电路可以包括片上系统（SOC）。装置可读介质可以包括任何形式的易失性或非易失性计算机可读存储器，包括但不限于持久性存储装置、固态存储器、远程安装的存储器、磁介质、光介质、随机存取存储器（RAM）、只读存储器（ROM）、海量存储介质（例如，硬盘）、可移除存储介质（例如，闪速驱动器）、和/或存储可以由处理电路使用的信息、数据和/或指令的任何其它易失性或非易失性、非暂时性装置可读和/或计算机可执行存储器装置。装置可读介质可以存储任何适合的指令、数据或信息，包括计算机程序、软件、应用、和/或能够由处理电路执行并由检测装置利用的其它指令，所述计算机程序、软件、应用包括逻辑、规则、代码、表等中的一个或多个。装置可读介质可以用于存储由处理电路进行的任何计算和/或经由接口接收的任何数据。在一些实施例中，处理电路和装置可读介质可以被认为是集成的。

一般地，本文使用的所有术语要根据它们在相关技术领域中的普通含义来解释，除非明显给出不同含义和/或从上下文（在其中使用所述不同含义）被暗示。对一（a/an）/该元件、设备、组件、部件、步骤等的所有参考要被开放式地解释为指所述元件、设备、组件、部件、步骤等的至少一个实例，除非以其它方式明确陈述。本文公开的任何方法的步骤不必须以公开的确切顺序来执行，除非步骤被明确描述为在另一步骤之后或之前和/或在所述步骤中暗示步骤必须在另一步骤之后或之前。在任何适当的情况下，本文所公开的实施例中的任一个实施例的任一特征可以应用于任何其它实施例。同样地，实施例中的任一个实施例的任一优点可以应用于任何其它实施例，并且反之亦然。所附实施例的其它目的、特征和优点将从以下描述中是明白的。

缩略词

在本公开中可以使用以下缩略词中的至少一些。如果缩略词之间存在不一致性，则应该对在上面如何使用它给出优选。如果在下面多次列示，则对于任何随后的（一个或多个）列示，第一列示都应该是优选的。

ASR 自动话音识别

NLU 自然语言理解

GPU 图形处理单元

VPU 视觉处理单元，用于计算机视觉的专用处理器

HW 硬件

STB 机顶盒

Claims

1.一种由装置(100)执行的用于通过注视检测来启动语音控制的方法，所述方法包括：

检测(215)用户(305)正注视着注视目标(315)，包括：通过分析低分辨率图像确定所述用户是否正大致看向所述注视目标的方向，以及在确定所述用户正大致看向所述注视目标的方向之后，通过分析高分辨率图像推断所述用户正注视着所述注视目标；

响应于检测到所述用户(305)正注视着所述注视目标(315)，

捕获(220)音频并执行对所捕获的音频的自动话音识别以将所述音频转变成文本；

对所述文本执行(225)自然语言理解以确定应用特定的命令；以及

针对所述应用特定的命令执行(230)应用特定的处理。

2.根据权利要求1所述的方法，其中在检测(215)所述用户(305)正注视着所述注视目标(315)之前，检测(210)存在由所述用户(305)进行的运动。

3.根据权利要求1所述的方法，其中在检测(215)所述用户(305)正注视着所述注视目标(315)之前，执行校准步骤，在所述校准步骤中，确定到所述注视目标(315)的注视方向。

4.根据权利要求1所述的方法，其中所捕获的音频仅被本地存储在所述装置(100)上。

5.根据权利要求1-4中任一项所述的方法，其中所述注视目标(315)位于不同的装置上。

6.根据权利要求1-4中任一项所述的方法，其中所述注视目标(315)是显示器，并且所述装置(100)是媒体计算装置或游戏装置。

7.根据权利要求1-4中任一项所述的方法，其中所述应用特定的处理特定于电视或流播装置。

8.根据权利要求1-4中任一项所述的方法，其中检测(215)所述用户(305)正注视着所述注视目标(315)包括分析所述用户(305)的一个或多个图像以确定所述用户(305)是否正注视着所述注视目标(315)。

9.根据权利要求8所述的方法，其中分析所述用户(305)的所述一个或多个图像以确定所述用户(305)是否正注视着所述注视目标(315)包括从通过计算机或人工智能视觉技术所计算的面部对准数据来推断所述用户(305)是否正注视着所述注视目标(315)。

10.一种用于通过注视检测启动语音控制的装置(100)，所述装置(100)包括：

处理电路，所述处理电路配置成执行以下步骤：

响应于所述用户(305)正注视着所述注视目标(315)的检测，使得(220)音频硬件捕获音频并执行对所捕获的音频的自动话音识别以将所述音频转变成文本；

针对所述应用特定的命令执行(230)应用特定的处理。

11.根据权利要求10所述的装置(100)，其中所述处理电路还配置成执行以下步骤：在所述用户(305)正注视着所述注视目标(315)的检测(215)之前，检测(210)存在由所述用户(305)进行的运动。

12.根据权利要求10所述的装置(100)，其中所述处理电路还配置成执行以下步骤：在所述用户(305)正注视着所述注视目标(315)的检测(215)之前，执行校准步骤，在所述校准步骤中，确定到所述注视目标(315)的注视方向。

13.根据权利要求10所述的装置(100)，其中所捕获的音频将仅被本地存储在所述装置(100)上。

14.根据权利要求10-13中任一项所述的装置(100)，其中所述注视目标(315)位于不同的装置上。

15.根据权利要求10-13中任一项所述的装置(100)，其中所述注视目标(315)是显示器，并且所述装置(100)是媒体计算装置或游戏装置。

16.根据权利要求10-13中任一项所述的装置(100)，其中所述应用特定的处理特定于电视或流播装置。

17.根据权利要求10-13中任一项所述的装置(100)，其中所述用户(305)正注视着所述注视目标(315)的检测(215)包括所述处理电路将分析所述用户(305)的一个或多个图像以确定所述用户(305)是否正注视着所述注视目标(315)。

18.根据权利要求17所述的装置(100)，其中对所述用户(305)的所述一个或多个图像进行分析以确定所述用户(305)是否正注视着所述注视目标(315)包括所述处理电路将从通过计算机或人工智能视觉技术所计算的面部对准数据来推断所述用户(305)是否正注视着所述注视目标(315)。

19.一种包括计算机程序代码的机器可读介质，所述计算机程序代码在由计算机执行时执行权利要求1-9中任一项所述的方法步骤。