CN111492426B - 注视启动的语音控制 - Google Patents

注视启动的语音控制 Download PDF

Info

Publication number
CN111492426B
CN111492426B CN201880082999.5A CN201880082999A CN111492426B CN 111492426 B CN111492426 B CN 111492426B CN 201880082999 A CN201880082999 A CN 201880082999A CN 111492426 B CN111492426 B CN 111492426B
Authority
CN
China
Prior art keywords
user
looking
gaze
target
gaze target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880082999.5A
Other languages
English (en)
Other versions
CN111492426A (zh
Inventor
O.翁特埃克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN111492426A publication Critical patent/CN111492426A/zh
Application granted granted Critical
Publication of CN111492426B publication Critical patent/CN111492426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种装置通过注视检测来启动语音控制。所述装置检测用户正注视着注视目标。响应于该检测,装置捕获音频并执行对所捕获的音频的自动话音识别以将音频转变成文本。所述装置对文本执行自然语言理解以确定应用特定的命令。所述装置针对应用特定的命令执行应用特定的处理。

Description

注视启动的语音控制
对相关申请的交叉引用
本申请要求2017年12月22日提交的、号码为62/609,959的美国临时申请的权益,其特此通过引用而被结合。
技术领域
本发明的实施例涉及媒体装置领域;并且更特定地,涉及注视启动的语音控制。
背景技术
语音控制在媒体流播装置和智能扬声器中被提供,并且正变得随处可见。在用于大多数常规现代语音处理的流水线的前面部分的是“唤醒”或“热”词(本文称为“唤醒词”)检测。装置在处理随后说出的词之前侦听唤醒词。此启动过程在本文被称为“唤醒词启动”。用于启动语音控制的另一方法是按压(例如,在遥控器上的)按钮,这在本文被称为“按钮启动”。
当前存在某个(某些)挑战。用于语音控制的唤醒词启动是麻烦的,并且可能变得令用户烦恼。唤醒词启动对长期采用语音控制范例造成了障碍。按钮启动引入了一个附加步骤,并且充满了不确定性(人们不知道是短暂地按压按钮还是在说话时保持按钮被按压)。按钮启动还需要用户仅仅为了语音控制启动而拿起并拿着遥控器。
发明内容
本公开的某些方面及其实施例可以提供对于在背景技术中标识的挑战或其它挑战的解决方案。
一种装置通过注视检测来启动语音控制。所述装置检测用户正注视着注视目标。响应于该检测,装置捕获音频并执行对所捕获的音频的自动话音识别以将音频转变成文本。所述装置对文本执行自然语言理解以确定应用特定的命令。所述装置针对应用特定的命令执行应用特定的处理。
在实施例中,在检测用户正注视着注视目标之前,所述装置检测由用户进行的运动。
在实施例中,在检测用户正注视着注视目标之前,所述装置执行校准步骤,在所述校准步骤中确定到注视目标的注视方向。
在实施例中,所捕获的音频仅被本地存储在所述装置上。
在实施例中,注视目标位于与检测装置不同的装置上。
在实施例中,注视目标位于与检测装置相同的装置上。
在实施例中,注视目标是电视或显示器,并且检测装置是机顶盒。
在实施例中,应用特定的处理特定于电视或流播装置。
在实施例中,检测用户正注视着注视目标包括分析用户的一个或多个图像以确定用户是否正注视着注视目标。在实施例中,分析用户的一个或多个图像以确定用户是否正注视着注视目标包括从通过计算机或人工智能视觉技术所计算的面部对准数据来推断用户是否正注视着注视目标。
附图说明
通过参考用于示出本发明的实施例的以下描述和附图,可以最好地理解本发明。在附图中:
图1是示出根据实施例的、用于注视启动的语音控制的解决方案的组件的框图。
图2是示出根据实施例的、用于注视启动的语音控制的解决方案的示例性步骤的流程图。
图3示出了根据实施例的、检测装置与注视目标分离的实施例。
图4示出了根据实施例的、注视目标在检测装置上的实施例。
图5示出了推断用户正相对于捕获了面部图像的(一个或多个)摄像机相对直地向前看的面部的面部对准数据。
图6示出了推断用户正相对于捕获了面部图像的(一个或多个)摄像机向左看的面部的面部对准数据。
具体实施方式
描述了注视启动的语音控制。该解决方案完全消除了对用于语音控制的唤醒词或按钮按压的需要。替代地,注视检测被采用作为语音控制启动。该解决方案检测用户正看着目标以启动语音控制,并且将随后说出的词处理成命令。例如,对于对电视的语音控制,用户可以简单地看着电视并说出命令。
该解决方案的本质是用计算机语音控制/交互的自然启动代替经由唤醒词或按钮按压的计算机语音控制/交互的不自然启动;注视着要被控制和/或要与之交互的对象。在实施例中,注视目标(用户看着以控制的装置)位于与检测用户正注视着所述注视目标的装置不同的装置上。在另一实施例中,注视目标位于检测用户正注视着所述注视目标的相同装置上。在实施例中,注视目标可以包括提供对象特定的命令/交互处理。
本文提出了解决本文所公开的问题中的一个或多个问题的各种实施例。
某些实施例可以提供以下(一个或多个)技术优点中的一个或多个。通过注视来启动语音控制是自然的,因为它反映人类如何启动与彼此的通信。为了与人说话,一个人(通常)首先看着那个人。在用于电视控制的实施例中,其中按压遥控器上的按钮是通常的启动方法,存在另一优点;通过不需要按钮按压,遥控器可以完全消失。因此,在实施例中,不需要遥控器来启动语音命令。
因此,本文描述的是用于启动计算机语音控制或语音交互的新方法;用于启动计算机语音控制或语音交互的新方法,该新方法不需要检测装置是注视的目标;用于提供对象特定的计算机语音控制或语音交互的新方法;和/或用于不需要物理遥控器的TV或流播装置控制的新方法。
现在将参照附图更完整地描述本文所设想的实施例中的一些。然而,其它实施例被包含在本文所公开的主题的范围内,所公开的主题不应该被解释为仅限于本文所阐述的实施例;而是这些实施例作为示例而被提供,以向本领域技术人员传达主题的范围。
该解决方案使用注视检测替代唤醒词检测或按钮按压以用于语音控制启动。一旦启动了语音控制,就进入语音处理流水线,所述语音处理流水线可以包括自动话音识别(ASR)、自然语言理解(NLU)和/或应用特定的处理步骤。通过计算机视觉或AI视觉处理(包括对从人类面部的摄像机图像导出的面部度量数据进行操作)来完成注视检测。
总体解决方案包括物理摄像机,并且可以包括能够进行快速视觉处理的处理器(诸如GPU或VPU)。
在实施例中,可选的运动检测步骤在注视检测步骤之前。这最小化了功耗,因为相比注视检测,运动检测更不计算密集。在检测到运动之后,执行注视检测。
该解决方案指定多个可能的注视目标,所述注视目标被定义为用户需要正看着以启动语音控制的3D空间中的对象。例如,注视目标A可以是包含捕获用户的面部的(一个或多个)摄像机——并且可能包含捕获用户的语音的麦克风——并且表面上执行注视检测和语音处理步骤两者的装置。作为另一示例,注视目标B可以是3D空间中的任何其它对象或点或封闭体积。虽然注视目标A是明显的注视目标,但注视目标B不是明显的注视目标。作为示例,考虑注视目标A是机顶盒(STB)并且注视目标B是TV(被连接到STB)。用户想要控制TV而不管如何完成这种控制。要看着然后以启动语音控制的自然对象是注视目标B(TV),而不是注视目标A(STB)。该解决方案可以包括当注视目标B是期望的注视目标时的校准步骤。例如,在STB设置期间,可以请求用户看着他们的电视。STB然后记住此注视方向并将其登记为注视目标。
可以存在多个注视目标。进一步地,特定目标可以具有与它们关联的特定语音动作。例如,如果注视目标不但被记录,而且还被语义地标记(“这是我的TV”,“这是我的烤面包机”)或在视觉上推断——在设置步骤中或实时地通过单独的计算机/AI视觉过程,则被标记或识别的对象的上下文可以通知语音命令的处理。例如,特定语音命令可以仅与特定目标一起工作或者执行不同的功能(取决于目标)。
图1是示出根据实施例的解决方案的组件的框图。装置100包括:应用130,其可以特定于正通过音频输入来控制的装置;语音控制120,其处置用于应用130的语音控制;音频硬件140,其处理从一个或多个麦克风145接收的音频;处理电路150(例如,GPU、VPU、CPU),其处理从一个或多个摄像机155接收的图像和/或视频;以及可选的运动检测硬件160,其处理从可选的运动检测器165接收的运动检测。装置100可以是媒体计算装置(例如,智能电视、STB、智能扬声器、流播装置)、游戏装置(例如,游戏控制台)、或其它计算装置。(一个或多个)麦克风145、(一个或多个)摄像机155、和/或可选的运动检测器165可被集成到装置100中或者可以被连接到装置100。装置100是检测装置并且可以是注视目标,如将在本文更完整描述的。
图2是示出根据实施例的解决方案的示例性步骤的流程图。将针对图1的示例性实施例来描述图2的步骤,然而,图2的步骤可以由与针对图1所描述的那些实施例不同的实施例来执行,并且图1的实施例可以执行与针对图2所描述的那些步骤不同的步骤。
在步骤210(其在实施例中是可选的),检测装置100检测是否存在运动。在实施例中,检测装置分析由检测装置100上或与检测装置100连接的一个或多个摄像机155拍摄的图像(例如,相对低分辨率图像),以确定是否存在运动。例如,检测装置100可以将先前图像与当前图像比较以确定是否存在差异。可以使用执行运动检测的其它方式,诸如使用红外线、无线电、光、或声。在此可选步骤中,当检测到存在运动时,则执行步骤215。否则,所述方法包括等待检测到运动。可选的运动检测步骤最小化了检测装置100的功耗,因为相比注视检测,运动检测本身更不计算密集(并且因此具有更少的功耗)。
在步骤215,检测装置100确定是否存在注视着注视目标的用户。注视目标可以是检测装置100或检测装置100的一部分。注视目标可以是与检测装置100不同的装置。注视目标可以是3D空间中的任何其它对象或空间区域。例如,检测装置100可以是STB,并且注视目标可以是TV或其它显示器。作为另一示例,检测装置100可以是TV,该TV也是注视目标。作为另一示例,检测装置可以是STB,并且注视目标可以是STB。图3示出了检测装置100与注视目标315分离的实施例。检测装置100检测用户305是否正注视着注视目标315。图4示出了注视目标位于检测装置上的实施例。检测装置和注视目标410检测用户405是否正注视着检测装置和注视目标410。
在实施例中,用户是否正注视着注视目标可以通过计算机和/或AI视觉技术从面部对准数据来推断。例如,检测装置100可以分析(由一个或多个摄像机155周期性地拍摄的)一个或多个图像以推断用户是否正注视着注视目标。这些(一个或多个)图像可以是周期性(例如,每5秒一次)拍摄的(一个或多个)相对高分辨率图像。作为另一示例,在拍摄高分辨率图像之前,检测装置100可以分析低分辨率图像以在执行完整的注视检测过程之前确定用户是否正大致看向注视目标的方向。例如,如果人在检测装置前行走但明显未看着注视目标(例如,他们的背部面向注视目标),则可以避免完整的注视检测过程。
面部对准数据包括鼻子的尖部和瞳孔的位置,并且可以包括面部的边界框内的其它位置信息,诸如嘴部信息。例如,图5和6分别示出了面部510和610的示例性图像。在面部510的边界框515内,面部对准数据包括五个面部标志:右眼标志520、左眼标志525、鼻子标志530、右嘴角标志535、和左嘴角标志540。类似地,如图6中示出的,在面部610的边界框615内,面部对准数据包括五个面部标志:右眼标志620、左眼标志625、鼻子标志630、右嘴角标志635、和左嘴角标志640。面部标志是示例性的;并且可以使用不同的、更少的、或更多的面部标志。如图5中示出的,面部510的面部对准数据推断用户正相对于捕获了面部510的图像的(一个或多个)摄像机155相对直地向前看。如图6中示出的,面部610的面部对准数据推断用户正相对于捕获了面部610的图像的(一个或多个)摄像机155向左看。
注视检测是多级过程。在接收到图像和/或视频之后,第一步骤是使检测装置100通过面部对准参数计算来确定面部对准数据,以确定用户的注视方向。在实施例中,使用面部对准数据来确定用户的注视方向。例如,如果以高精确度确定眼睛的边界框,则所述边界框用于确定每只眼睛的角度,然后所述角度用于导出注视方向。如果没有以高精确度确定在边界框的框架内的瞳孔的位置,则使用鼻子尖部和在面部的边界框的框架内的瞳孔的位置来导出注视方向。存在用于计算面部对准参数的若干种方式。一种方式是基于神经网络的方法,诸如在多任务级联卷积网络(MTCNN)中使用的。MTCNN使用具有三级卷积网络的级联架构以粗略到精细的方式预测面部和标志位置。另一种方式是两级级联可变形形状模型。另一种方式基于树与部分的共享池的混合,其中面部标志被建模为部分,并且全局混合被用于捕获由于视点引起的拓扑改变。另一种方式是经由卷积神经网络拟合于图像的3D面部模型,称为3D密集面部对准(3DFFA)。另一种方式是通过多任务学习,其使用具有逐任务的提前停止的任务约束深度模型来促进学习收敛。
确定面部对准数据之后的下一步骤是使检测装置100确定所述数据是否指示用户正注视着目标。注视目标可以被登记在检测装置上。例如,如果注视目标不位于检测装置上(例如,它位于3D空间中的另一对象或空间区域上),则可能已经执行了记住到被登记的注视目标的注视方向的校准步骤。检测装置将所确定的注视方向与注视目标比较。例如,如果注视目标在拍摄图像的装置的左侧30度,则检测装置确定所确定的注视方向是否在拍摄图像的装置的左侧30度的容差内。容差可以是几度(正或负)。
在实施例中,在确定用户是否正注视着注视目标之前或之后,检测装置100基于面部识别来确定用户是否是识别的用户。确定用户是否是识别的用户可以被进行以用于认证目的。例如,在实施例中,如果用户未被识别,则检测装置可以不执行从用户接收的命令,或者不执行至少某些命令。确定用户是否是识别的用户也可以被进行以用于访问用户的简档。
如果检测装置100确定用户正注视着注视目标,则步骤在步骤220继续;否则,方法返回到步骤210(在实施例中)或继续在步骤215等待用户注视着注视目标。
在步骤220,检测装置捕获音频并执行自动话音识别(ASR)。ASR将原始语音数据转换成文本。在实施例中,检测装置仅在检测到用户正注视着注视目标之后启用一个或多个麦克风并开始记录音频。因此,替代使用唤醒词或按钮按压作为语音处理的触发,注视检测被用作语音处理的触发。ASR可以采用若干种不同的方式来执行。例如,深度前馈神经网络(DNN)或其它神经网络可用于ASR。作为另一示例,隐马尔可夫模型(HMM)可用于ASR。
在实施例中,ASR在检测装置100上本地执行。也就是说,原始音频样本不通过因特网传送到另一装置或传送到云中。
接下来,在步骤225,检测装置执行自然语言理解(NLU)。NLU从文本中导出结构化信息(诸如意图和其它语义)。意图是应用特定的。例如,如果应用是TV,则意图可能与TV有关,诸如节目标题、改变频道、购买节目等。因此,NLU过程可以将来自ASR过程的文本数据转变成应用特定的命令。
接下来,在步骤230,检测装置执行应用特定的处理。尽管原始语音数据,以及在一些实施例中从原始语音数据导出的文本,可以不被传送到远程装置,诸如云中的服务器,但是从NLU过程生成的(一个或多个)命令可以取决于命令的类型而被发送到远程服务器。例如,如果命令可以由检测装置本地处理(例如,改变音量、改变频道),则命令通常将不被发送到远程服务器。然而,如果命令不能由检测装置本地处理(例如,购买视频资产),则命令可以被传送到远程服务器以用于处理。
尽管检测装置可以包括用于执行注视检测的GPU或VPU,但是在另一实施例中,也可以包括以下项中的一项或多项的组合:微处理器;控制器;微控制器;中央处理单元;数字信号处理器;专用集成电路;现场可编程门阵列;或可操作以提供注视检测的任何其它适合的计算装置,资源,或硬件、软件和/或经编码逻辑的组合。例如,处理电路可以执行存储在装置可读介质中或存储在处理电路内的存储器中的指令。此类功能性可以包括提供本文讨论的各种特征、功能或益处中的任一个。在一些实施例中,处理电路可以包括片上系统(SOC)。装置可读介质可以包括任何形式的易失性或非易失性计算机可读存储器,包括但不限于持久性存储装置、固态存储器、远程安装的存储器、磁介质、光介质、随机存取存储器(RAM)、只读存储器(ROM)、海量存储介质(例如,硬盘)、可移除存储介质(例如,闪速驱动器)、和/或存储可以由处理电路使用的信息、数据和/或指令的任何其它易失性或非易失性、非暂时性装置可读和/或计算机可执行存储器装置。装置可读介质可以存储任何适合的指令、数据或信息,包括计算机程序、软件、应用、和/或能够由处理电路执行并由检测装置利用的其它指令,所述计算机程序、软件、应用包括逻辑、规则、代码、表等中的一个或多个。装置可读介质可以用于存储由处理电路进行的任何计算和/或经由接口接收的任何数据。在一些实施例中,处理电路和装置可读介质可以被认为是集成的。
一般地,本文使用的所有术语要根据它们在相关技术领域中的普通含义来解释,除非明显给出不同含义和/或从上下文(在其中使用所述不同含义)被暗示。对一(a/an)/该元件、设备、组件、部件、步骤等的所有参考要被开放式地解释为指所述元件、设备、组件、部件、步骤等的至少一个实例,除非以其它方式明确陈述。本文公开的任何方法的步骤不必须以公开的确切顺序来执行,除非步骤被明确描述为在另一步骤之后或之前和/或在所述步骤中暗示步骤必须在另一步骤之后或之前。在任何适当的情况下,本文所公开的实施例中的任一个实施例的任一特征可以应用于任何其它实施例。同样地,实施例中的任一个实施例的任一优点可以应用于任何其它实施例,并且反之亦然。所附实施例的其它目的、特征和优点将从以下描述中是明白的。
缩略词
在本公开中可以使用以下缩略词中的至少一些。如果缩略词之间存在不一致性,则应该对在上面如何使用它给出优选。如果在下面多次列示,则对于任何随后的(一个或多个)列示,第一列示都应该是优选的。
ASR 自动话音识别
NLU 自然语言理解
GPU 图形处理单元
VPU 视觉处理单元,用于计算机视觉的专用处理器
HW 硬件
STB 机顶盒

Claims (19)

1.一种由装置(100)执行的用于通过注视检测来启动语音控制的方法,所述方法包括:
检测(215)用户(305)正注视着注视目标(315),包括:通过分析低分辨率图像确定所述用户是否正大致看向所述注视目标的方向,以及在确定所述用户正大致看向所述注视目标的方向之后,通过分析高分辨率图像推断所述用户正注视着所述注视目标;
响应于检测到所述用户(305)正注视着所述注视目标(315),
捕获(220)音频并执行对所捕获的音频的自动话音识别以将所述音频转变成文本;
对所述文本执行(225)自然语言理解以确定应用特定的命令;以及
针对所述应用特定的命令执行(230)应用特定的处理。
2.根据权利要求1所述的方法,其中在检测(215)所述用户(305)正注视着所述注视目标(315)之前,检测(210)存在由所述用户(305)进行的运动。
3.根据权利要求1所述的方法,其中在检测(215)所述用户(305)正注视着所述注视目标(315)之前,执行校准步骤,在所述校准步骤中,确定到所述注视目标(315)的注视方向。
4.根据权利要求1所述的方法,其中所捕获的音频仅被本地存储在所述装置(100)上。
5.根据权利要求1-4中任一项所述的方法,其中所述注视目标(315)位于不同的装置上。
6.根据权利要求1-4中任一项所述的方法,其中所述注视目标(315)是显示器,并且所述装置(100)是媒体计算装置或游戏装置。
7.根据权利要求1-4中任一项所述的方法,其中所述应用特定的处理特定于电视或流播装置。
8.根据权利要求1-4中任一项所述的方法,其中检测(215)所述用户(305)正注视着所述注视目标(315)包括分析所述用户(305)的一个或多个图像以确定所述用户(305)是否正注视着所述注视目标(315)。
9.根据权利要求8所述的方法,其中分析所述用户(305)的所述一个或多个图像以确定所述用户(305)是否正注视着所述注视目标(315)包括从通过计算机或人工智能视觉技术所计算的面部对准数据来推断所述用户(305)是否正注视着所述注视目标(315)。
10.一种用于通过注视检测启动语音控制的装置(100),所述装置(100)包括:
处理电路,所述处理电路配置成执行以下步骤:
检测(215)用户(305)正注视着注视目标(315),包括:通过分析低分辨率图像确定所述用户是否正大致看向所述注视目标的方向,以及在确定所述用户正大致看向所述注视目标的方向之后,通过分析高分辨率图像推断所述用户正注视着所述注视目标;
响应于所述用户(305)正注视着所述注视目标(315)的检测,使得(220)音频硬件捕获音频并执行对所捕获的音频的自动话音识别以将所述音频转变成文本;
对所述文本执行(225)自然语言理解以确定应用特定的命令;以及
针对所述应用特定的命令执行(230)应用特定的处理。
11.根据权利要求10所述的装置(100),其中所述处理电路还配置成执行以下步骤:在所述用户(305)正注视着所述注视目标(315)的检测(215)之前,检测(210)存在由所述用户(305)进行的运动。
12.根据权利要求10所述的装置(100),其中所述处理电路还配置成执行以下步骤:在所述用户(305)正注视着所述注视目标(315)的检测(215)之前,执行校准步骤,在所述校准步骤中,确定到所述注视目标(315)的注视方向。
13.根据权利要求10所述的装置(100),其中所捕获的音频将仅被本地存储在所述装置(100)上。
14.根据权利要求10-13中任一项所述的装置(100),其中所述注视目标(315)位于不同的装置上。
15.根据权利要求10-13中任一项所述的装置(100),其中所述注视目标(315)是显示器,并且所述装置(100)是媒体计算装置或游戏装置。
16.根据权利要求10-13中任一项所述的装置(100),其中所述应用特定的处理特定于电视或流播装置。
17.根据权利要求10-13中任一项所述的装置(100),其中所述用户(305)正注视着所述注视目标(315)的检测(215)包括所述处理电路将分析所述用户(305)的一个或多个图像以确定所述用户(305)是否正注视着所述注视目标(315)。
18.根据权利要求17所述的装置(100),其中对所述用户(305)的所述一个或多个图像进行分析以确定所述用户(305)是否正注视着所述注视目标(315)包括所述处理电路将从通过计算机或人工智能视觉技术所计算的面部对准数据来推断所述用户(305)是否正注视着所述注视目标(315)。
19.一种包括计算机程序代码的机器可读介质,所述计算机程序代码在由计算机执行时执行权利要求1-9中任一项所述的方法步骤。
CN201880082999.5A 2017-12-22 2018-12-21 注视启动的语音控制 Active CN111492426B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762609959P 2017-12-22 2017-12-22
US62/609959 2017-12-22
PCT/IB2018/060536 WO2019123425A1 (en) 2017-12-22 2018-12-21 Gaze-initiated voice control

Publications (2)

Publication Number Publication Date
CN111492426A CN111492426A (zh) 2020-08-04
CN111492426B true CN111492426B (zh) 2024-02-02

Family

ID=65278417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880082999.5A Active CN111492426B (zh) 2017-12-22 2018-12-21 注视启动的语音控制

Country Status (5)

Country Link
US (1) US11423896B2 (zh)
EP (1) EP3729421A1 (zh)
CN (1) CN111492426B (zh)
BR (1) BR112020010376A2 (zh)
WO (1) WO2019123425A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7263505B2 (ja) 2018-05-04 2023-04-24 グーグル エルエルシー ホットワードを用いない自動アシスタント機能の適応
CN112236738A (zh) 2018-05-04 2021-01-15 谷歌有限责任公司 基于检测到的手势和凝视调用自动化助理功能
EP3596584B1 (en) * 2018-05-04 2021-03-24 Google LLC Adapting automated assistant based on detected mouth movement and/or gaze
CN110335603A (zh) * 2019-07-12 2019-10-15 四川长虹电器股份有限公司 应用于电视场景的多模态交互方法
US11553265B2 (en) * 2019-07-24 2023-01-10 Google Llc Compact home assistant having a controlled sound path
US11609627B2 (en) * 2019-12-09 2023-03-21 Lenovo (Singapore) Pte. Ltd. Techniques for processing audible input directed to second device based on user looking at icon presented on display of first device
CN112073668B (zh) * 2020-08-25 2023-10-31 恒峰信息技术有限公司 一种远程教室互动方法、系统、装置和存储介质
US11928263B2 (en) 2020-12-07 2024-03-12 Samsung Electronics Co., Ltd. Electronic device for processing user input and method thereof
US11449149B2 (en) 2021-02-03 2022-09-20 Google Llc Assistant device arbitration using wearable device data
US20230230583A1 (en) * 2022-01-19 2023-07-20 Google Llc Mitigating false positives and/or false negatives in hot word free adaptation of automated assistant

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128281A (ja) * 2008-11-28 2010-06-10 Waseda Univ 対話活性化システム及び対話活性化ロボット
CN103076876A (zh) * 2012-11-22 2013-05-01 西安电子科技大学 基于视线跟踪与语音识别的字符输入装置和方法
CN106782524A (zh) * 2016-11-30 2017-05-31 深圳讯飞互动电子有限公司 一种混合唤醒方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
US9250703B2 (en) 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
US7783077B2 (en) * 2006-12-01 2010-08-24 The Boeing Company Eye gaze tracker system and method
US20150109191A1 (en) * 2012-02-16 2015-04-23 Google Inc. Speech Recognition
US9423870B2 (en) 2012-05-08 2016-08-23 Google Inc. Input determination method
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
US20130342672A1 (en) * 2012-06-25 2013-12-26 Amazon Technologies, Inc. Using gaze determination with device input
US9671864B2 (en) 2013-03-21 2017-06-06 Chian Chiu Li System and methods for providing information
WO2015001547A1 (en) 2013-07-01 2015-01-08 Inuitive Ltd. Aligning gaze and pointing directions
TWI532377B (zh) * 2013-10-18 2016-05-01 原相科技股份有限公司 影像感測系統、影像感測方法以及眼球追蹤系統、眼球追蹤方法
US10228904B2 (en) * 2014-11-12 2019-03-12 Lenovo (Singapore) Pte. Ltd. Gaze triggered voice recognition incorporating device velocity
FR3034215B1 (fr) 2015-03-27 2018-06-15 Valeo Comfort And Driving Assistance Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
US20170038837A1 (en) * 2015-08-04 2017-02-09 Google Inc. Hover behavior for gaze interactions in virtual reality
US20170235361A1 (en) * 2016-01-20 2017-08-17 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Interaction based on capturing user intent via eye gaze
US10768693B2 (en) * 2017-04-19 2020-09-08 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system
US10453451B2 (en) * 2017-07-05 2019-10-22 Comcast Cable Communications, Llc Methods and systems for using voice to control multiple devices
US10860096B2 (en) * 2018-09-28 2020-12-08 Apple Inc. Device control using gaze information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128281A (ja) * 2008-11-28 2010-06-10 Waseda Univ 対話活性化システム及び対話活性化ロボット
CN103076876A (zh) * 2012-11-22 2013-05-01 西安电子科技大学 基于视线跟踪与语音识别的字符输入装置和方法
CN106782524A (zh) * 2016-11-30 2017-05-31 深圳讯飞互动电子有限公司 一种混合唤醒方法及系统

Also Published As

Publication number Publication date
CN111492426A (zh) 2020-08-04
US11423896B2 (en) 2022-08-23
US20200380977A1 (en) 2020-12-03
BR112020010376A2 (pt) 2020-11-24
WO2019123425A1 (en) 2019-06-27
EP3729421A1 (en) 2020-10-28

Similar Documents

Publication Publication Date Title
CN111492426B (zh) 注视启动的语音控制
TWI646444B (zh) 一種喚醒智慧機器人的方法及智慧機器人
US9390726B1 (en) Supplementing speech commands with gestures
US8666751B2 (en) Audio pattern matching for device activation
US20150279369A1 (en) Display apparatus and user interaction method thereof
US9703940B2 (en) Managed biometric identity
US10083710B2 (en) Voice control system, voice control method, and computer readable medium
US9899025B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
CN110047487A (zh) 车载语音设备的唤醒方法、装置、车辆以及机器可读介质
US10015385B2 (en) Enhancing video conferences
US11076091B1 (en) Image capturing assistant
JP6562790B2 (ja) 対話装置および対話プログラム
KR20210011146A (ko) 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법
KR20200085696A (ko) 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
CN115206306A (zh) 语音交互方法、装置、设备及系统
CN109413470B (zh) 一种待检测图像帧的确定方法和终端设备
CN109986553B (zh) 一种主动交互的机器人、系统、方法及存储装置
CN111768785A (zh) 一种智能手表的控制方法及智能手表
KR20130054131A (ko) 디스플레이장치 및 그 제어방법
US11743588B1 (en) Object selection in computer vision
CN114449320A (zh) 一种播放控制方法、装置、存储介质及电子设备
CN109862425A (zh) 一种电视伴音调整方法、存储介质以及智能电视
JP2023534889A (ja) 自動アシスタントコマンドによる条件付きカメラ制御

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant