CN107085510A - 情境性暂停用于启动语音命令输入的唤醒词 - Google Patents

情境性暂停用于启动语音命令输入的唤醒词 Download PDF

Info

Publication number
CN107085510A
CN107085510A CN201610819344.4A CN201610819344A CN107085510A CN 107085510 A CN107085510 A CN 107085510A CN 201610819344 A CN201610819344 A CN 201610819344A CN 107085510 A CN107085510 A CN 107085510A
Authority
CN
China
Prior art keywords
wake
word
sensor
voice command
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610819344.4A
Other languages
English (en)
Other versions
CN107085510B (zh
Inventor
阿诺德·S·韦克斯勒
约翰·卡尔·梅谢
纳林·J·彼得森
拉塞尔·斯佩格特·范布恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN107085510A publication Critical patent/CN107085510A/zh
Application granted granted Critical
Publication of CN107085510B publication Critical patent/CN107085510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明涉及情境性暂停用于启动语音命令输入的唤醒词。一方面,公开了下述装置和方法:所述装置和方法用于接收至少来自一个传感器的至少一个信号,并且基于对所述至少一个信号的分析来情境性暂停对接收用于启动计算机的语音命令输入的唤醒词的需要。

Description

情境性暂停用于启动语音命令输入的唤醒词
技术领域
本申请总体上涉及情境性暂停计算机的语音命令输入的唤醒词式启动。
背景技术
除了使用可操作按钮以外,可能需要唤醒词来启动计算机的语音输入。然而,要求用户说出唤醒词可能不方便。
发明内容
如本文所理解的,唤醒词在某些情境下可能有用,但在其他情境下并非有用。
因此,一方面,一种装置包括:处理器、能够被处理器访问的麦克风以及能够被处理器访问的存储器。存储器承载有指令,所述指令能够由处理器执行以:响应于指示第一情境的第一传感器输入,来要求接收通过麦克风接收的用于启动语音命令输入的预定唤醒词。指令还能够被执行以:响应于指示第二情境的第二传感器输入,来暂停对接收通过麦克风接收的用于启动语音命令输入的预定唤醒词的需要,并且相反立即处理通过至少一个麦克风接收的命令,而无需首先接收唤醒词。
在一些示例中,传感器输入来自于至少一个相机。在一些示例中,传感器输入来自于至少一个麦克风。在其他示例中,传感器输入来自于至少一个蓝牙接收器。在另外的示例中,传感器输入来自于至少一个运动传感器。在又一实施方式中,传感器输入来自于至少一个车辆乘员传感器。传感器输入可以来自于上述传感器中的任何两个或者更多个传感器的组合。
在另一方面中,一种不是暂态信号的计算机可读存储介质包括指令,所述指令能够由处理器执行以:接收来自至少一个传感器的信号;确定该信号是否指示多个人的存在;响应于确定该信号指示多个人的存在来启动语音命令输入的唤醒词式启动;以及响应于确定该信号并非指示多个人的存在来禁止语音命令输入的唤醒词式启动。
在又一方面中,一种方法包括:从至少一个传感器接收至少一个信号;以及基于对所述至少一个信号的分析来情境性暂停对接收用于启动计算机的语音命令输入的唤醒词的需要。
附图说明
参照附图可以最佳地理解本原理的关于其结构和操作二者的细节,在附图中同样的附图标记指代同样的部件,并且在附图中:
图1是根据本原理的示例系统的框图;
图2是根据本原理的装置的网络的框图;
图3至图7是符合本原理的示例逻辑的流程图;以及
图8是符合原理的可以使用的示例用户接口。
具体实施方式
关于本文所论述的任何计算机系统,系统可以包括下述服务器部件和客户端部件:服务器部件和客户端部件通过网络相连,以使得数据可以在客户端部件与服务器部件之间交换。客户端部件可以包括一个或者更多个计算装置,计算装置包括电视(例如,智能TV、可接入因特网的TV)、计算机(如台式计算机、膝上型计算机和平板计算机)、所谓的可折叠装置(例如,具有平板配置和膝上型配置)以及包括智能电话的其他移动装置。作为非限制性示例,这些客户端装置可以采用来自苹果、谷歌或微软的操作系统。可以使用Unix操作系统或类似的例如Linux操作系统。这些操作系统可以运行一个或者更多个浏览器(如由微软或谷歌或谋智(Mozilla)制作的浏览器)或者可以通过网络(如因特网、本地内部网或虚拟专用网络)来访问由因特网服务器托管的网页应用的其他浏览器程序。
如本文所使用的,指令指代用于处理系统中的信息的由计算机实现的步骤。可以以软件、固件或硬件来实现指令;因此,根据说明性的部件、块、模块、电路以及步骤的功能来对他们进行阐述。
处理器可以是能够借助于各种线(如地址线、数据线和控制线)以及寄存器和移位寄存器来执行逻辑的任何常规的通用单芯片处理器或多芯片处理器。此外,除通用处理器以外,可以由或以被设计成执行本文描述的功能的数字信号处理器(DSP)、现场可编程门阵列(FPGA)或其他可编程逻辑装置(如专用集成电路(ASIC)、分立门或晶体管逻辑、分立硬件部件)或前述任何组合来实现或执行本文描述的任何逻辑块、模块以及电路。可以通过控制器或状态机或计算装置的组合来实现处理器。
本文通过流程图的方式描述的任何软件和/或应用和/或用户接口可以包括各种子例程、程序等。要理解的是,可以将描述为由例如模块执行的逻辑重新分配给其他软件模块,以及/或者将所述逻辑一起组合于单个模块中,以及/或者使得所述逻辑能够在可共享的库中获得。
当以软件来实现逻辑时,可以用适当的语言例如但不限于C#或C++来编写逻辑,并且逻辑可以被存储在计算机可读存储介质(例如,可以不是暂态信号的计算机可读存储介质)上或通过计算机可读存储介质被传送,计算机可读存储介质如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、致密盘只读存储器(CD-ROM)或其他光盘存储器如数字多功能光盘(DVD)、磁盘存储器或包括可移除的拇指驱动器的其他磁存储装置等。连接可以建立计算机可读介质。作为示例,这样的连接可以包括硬连线电缆,其中,硬连线电缆包括光纤和同轴线以及双绞线。这样的连接可以包括无线通信连接,其中,无线通信连接包括红外线和无线电。
在示例中,处理器可以通过其输入线来访问来自数据存储器(如计算机可读存储介质)的信息,以及/或者处理器可以通过激活用于发送和接收数据的无线收发器来无线地访问来自因特网服务器的信息。通常,在接收数据时由天线与处理器的寄存器之间的电路系统将数据从模拟信号转换成数字信号,并且在发送数据时将数据从数字信号转换成模拟信号。然后,处理器通过其移位寄存器来处理数据,以在输出线上输出经计算的数据,用于在装置上呈现经计算的数据。
包括在一个实施方式中的部件可以以任何适当组合的形式用在其他实施方式中。例如,可以将本文描述的和/或附图中描绘的各种部件中的任何部件进行组合、互换或者从其他实施方式中排除。
“具有A、B和C中至少之一的系统”(同样地,“具有A、B或C中至少之一的系统”以及“具有A、B、C中至少之一的系统”)包括:仅具有A的系统、仅具有B的系统、仅具有C的系统、具有A和B的系统、具有A和C的系统、具有B和C的系统和/或具有A、B和C的系统等。
“具有A、B和C中的一个或者更多个的系统”(同样地,“具有A、B或C中的一个或者更多个的系统”以及“具有A、B、C中的一个或者更多个的系统”)包括:仅具有A的系统、仅具有B的系统、仅具有C的系统、具有A和B的系统、具有A和C的系统、具有B和C的系统和/或具有A、B和C的系统等。
可以在摘要、说明书和/或权利要求中使用术语“电路”或“电路系统”。如本领域所周知的,术语“电路系统”包括所有级别的可用集成,例如从分立逻辑电路到最高级别的电路集成如VLSI,并且术语“电路系统”包括被编程以执行实施方式的功能的可编程逻辑部件以及利用指令进行编程以执行那些功能的通用处理器或专用处理器。
现在具体地参照图1,示出了信息处理系统和/或计算机系统100的示例框图。注意,在一些实施方式中,系统100可以是台式计算机系统,如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的系列或系列个人计算机之一,或者系统100可以是工作站计算机,如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的YogaTM系列可折叠计算机或然而,根据本文的描述明显的是,根据本原理的客户端装置、服务器或其他机器可以包括其他特征或系统100的特征中的仅一些特征。另外,系统100可以例如是游戏控制台,如或者,系统100可以包括无线电话、笔记本式计算机或其他便携式计算机化装置。
如图1所示,系统100可以包括所谓的芯片组110。芯片组指的是被设计成一起工作的一组集成电路或芯片。芯片组通常作为单个产品销售(例如,考虑以等品牌销售的芯片组)。
在图1的示例中,芯片组110具有可以取决于品牌或制造商而在某种程度上变化的特定体系架构。芯片组110的体系架构包括核与存储器控制组120以及I/O控制器集线器150,核与存储器控制组120以及I/O控制器集线器150经由例如直接管理接口或直接媒体接口(DMI)142或链路控制器144来交换信息(例如,数据、信号、命令等)。在图1的示例中,DMI142是芯片至芯片的接口(有时被称为“北桥”与“南桥”之间的链路)。
核与存储器控制组120包括一个或者更多个处理器122(例如,单核或多核等)以及存储器控制器集线器126,一个或者更多个处理器122以及存储器控制器集线器126经由前端总线(FSB)124交换信息。如本文所描述的,例如可以将核与存储器控制组120的各个部件集成在单个处理器裸片上,用来制造代替传统的“北桥”式体系架构的芯片。
存储器控制器集线器126与存储器140对接。例如,存储器控制器集线器126可以为DDR SDRAM存储器(例如,DDR、DDR2、DDR3等)提供支持。通常,存储器140是一类随机存取存储器(RAM)。通常将其称为“系统存储器”。
存储器控制器集线器126还可以包括低压差分信号接口(LVDS)132。LVDS 132可以是用于支持显示装置192(例如,CRT、平板、投影仪、触控显示器等)的所谓LVDS显示接口(LDI)。块138包括可以经由LVDS接口132来支持的技术的一些示例(例如,串行数字视频、HDMI/DVI、显示端口)。例如,存储器控制器集线器126还包括用于支持独立显卡136的一个或者更多个PCI-express接口(PCI-E)134。使用PCI-E接口的独立显卡已成为加速图形端口(AGP)的替代方法。例如,存储器控制器集线器126可以包括用于外部的基于PCI-E的显卡(包括例如更多个GPU之一)的16路(x16)PCI-E端口。示例系统可以包括用于支持图形的AGP或PCI-E。
在被使用的示例中,I/O控制器集线器150可以包括各种接口。图1中的示例包括SATA接口151、一个或者更多个PCI-E接口152(可选地,一个或者更多个传统PCI接口)、一个或者更多个USB接口153、LAN接口154(更一般地,用于在一个或者更多个处理器122的指示下通过诸如因特网、WAN、LAN等的至少一种网络来通信的网络接口)、通用I/O接口(GPIO)155、低引脚数(LPC)接口170、电力管理接口161、时钟发生器接口162、音频接口163(例如,供扬声器194来输出音频)、操作总成本(TCO)接口164、系统管理总线接口(例如,多主机串行计算机总线接口)165,以及串行外围闪存/控制器接口(SPI闪存)166,在图1的示例中,SPI闪存166包括BIOS 168和启动代码190。关于网络连接,I/O控制器集线器150可以包括与PCI-E接口端口多路复用的集成千兆以太网控制器线。其他网络特征可以独立于PCI-E接口来操作。
I/O控制器集线器150的接口可以支持与各种装置、网络等的通信。例如,在使用时,SATA接口151支持在一个或者更多个驱动器180(如HDD、SDD或前述组合)上读出信息、写入信息或读出并写入信息,但在任何情况下,驱动器180被理解为例如可以不是暂态信号的有形计算机可读存储介质。I/O控制器集线器150还可以包括高级主机控制器接口(AHCI),以支持一个或者更多个驱动器180。PCI-E接口152允许与装置、网络等的无线连接182。USB接口153支持输入装置184如键盘(KB)、鼠标以及各种其他装置(例如,相机、电话、存储器、媒体播放器等)。其他输入装置可以包括车辆乘员传感器如座椅传感器,座椅传感器响应于感测到的重量来生成指示人正坐在座椅上的信号。在这种情况下,信号可以被发送至车辆的引擎控制模块(ECM),并且由ECM根据下面的论述来使用以启动或禁止唤醒词语音输入,或者ECM可以经由例如蓝牙将信号发送至CE装置的处理器,以使CE装置处理器能够根据下面的原理来启动或禁止唤醒词控制。
输入装置184还可以例如是用于接收语音输入的麦克风、在一些示例中可以包括在运动传感器系统中的红外(IR)传感器和/或用于根据本原理来使用的热像仪。
在图1的示例中,LPC接口170支持使用一个或者更多个ASIC 171、可信平台模块(TPM)172、超级I/O 173、固件集线器174、BIOS支持175以及各种类型的存储器176(如ROM177、闪存178以及非易失性RAM(NVRAM)179)。对于TPM 172,该模块可以采用可以用于认证软件和硬件装置的芯片的形式。例如,TPM可以能够执行平台认证并且可以用于验证寻求访问的系统为期望的系统。
系统100在加电时可以被配置成执行在SPI闪存166内存储的、用于BIOS 168的启动代码190,并且之后,系统100在(例如,存储在系统存储器140中的)一个或者更多个操作系统和应用软件的控制下处理数据。操作系统可以被存储在多种位置中的任何位置处,并且例如根据BIOS 168的指令被访问。
此外,系统100还可以包括至少一个电池组191,其包含至少一个电池。电池组191可以是卷芯形式或软包电池形式,并且电池组191可以是锂离子电池。电池组191电耦接至系统100并且对系统100供电,并且电池组191还可以电耦接至至少一个无线电荷接收器193,该无线电荷接收器193被配置成用于使用例如感应无线充电原理和/或谐振感应耦合原理来经由磁场从无线电荷发送器(未示出)接收无线电荷。因此,接收器193可以包括多个线圈195。线圈195可以分别包括布置在磁体周围的至少一条线,并且线圈195可以被配置成用于经由由无线电荷发送器在被激活时生成的磁场/电磁场来从发送器接收电力。接收器193还可以包括至少一个电路197(在一些实施方式中可以仅包括一个电路,而在其他实施方式中可以包括多个电路),所述电路197被配置成用于从线圈195接收电流并且执行以下至少之一:向系统100提供电流,以对系统100供电;以及向电池组191提供电流,以对电池组191中的至少一个电池充电。电路197可以是Rx电路,以及/或者电路197可以包括(一个或者更多个)变流器、(一个或者更多个)稳压器和/或(一个或者更多个)通信装置中的一个或者更多个。
另外,系统100可以包括:陀螺仪192,用于感测和/或测量系统100的定向,并且向处理器122提供有关输入;加速计196,用于感测系统100的加速度和/或移动,并且向处理器122提供有关输入;以及相机198,用于收集一个或者更多个图像,并且向处理器122提供有关输入。相机可以是热成像相机、数字相机如网络摄像机、三维(3D)相机以及/或者以其它方式集成在系统100中并且可以由处理器122控制以收集图片/图像和/或视频的相机。另外,系统100可以包括GPS收发器199,GPS收发器199被配置成从至少一个卫星接收地理位置信息,并且将该信息提供给处理器122。然而,要理解的是,根据本原理可以使用除GPS接收器之外的其它适当的位置接收器来确定系统100的位置。
要理解的是,示例客户端装置或其他机器/计算机可以包括比图1的系统100中示出的特征更少或更多的特征。在任何情况下,至少基于前述内容要理解的是,系统100被配置成实施本原理。
现在转到图2,图2示出了根据本原理的通过网络200如因特网进行通信的示例装置。要理解的是,参照图2描述的装置中的每个装置可以包括上面所描述的系统100的特征、部件和/或元件中的至少一些。
图2示出了笔记本式计算机和/或可折叠计算机202、台式计算机204、可穿戴装置206如智能手表、智能电视(TV)208、智能电话210、平板计算机212以及服务器214如因特网服务器,该因特网服务器可以提供可以被装置202至212访问的云存储。
图2还示出了无线电荷发送器216,其被配置成用于使用例如感应无线充电原理和/或谐振感应耦合原理经由磁场来向无线电荷接收器提供无线电荷。因此,无线电荷发送器216可以包括至少一个线圈,并且无线电荷发送器216可以与壁装插座或其他电源接合(例如,导电地耦接)。要理解的是,装置202至216被配置成通过网络200彼此进行通信。
图3至图7示出了示例逻辑,其可以实现为用于由上述处理器中的任何处理器执行的计算机存储器上的指令。
现在参考图3,在块300处,从相机如上述相机接收传感器信号。传感器信号可以包括一个或者更多个人脸图像。在判定菱形302处确定该信号是否指示多个人是否存在。这可以通过对信号执行图像识别引擎以确定图像中有多少个人脸来完成。多个人脸的存在可以引起结果“是”。在一些实施方式中,测试还可以包括使用在初始化阶段加载到装置存储器中的装置的特定用户的图像来确定是否存在除特定用户之外的人。在这样的实施方式中,测试还可以包括通过例如确定由相机成像的其他人脸的绝对大小或者其他人脸相对于用户的脸的大小的相对大小来推断其他人脸中的任何人脸是否处在特定用户的预定范围内。只有在推断出另外的人处在特定用户的预定范围内的情况下,才返回结果“是”。
如果在菱形302处的判定返回结果“否”,则逻辑可以进行至块304,以执行通过装置的麦克风接收到的任何语音命令,而无需首先接收唤醒词。要理解的是,使用语音识别引擎将语音信号处理为命令。
相比之下,如果在菱形302处返回结果“是”,则逻辑可以移动至块306,以禁止将通过麦克风接收到的语音信号作为命令来执行,除非首先在通常例如接收到随后的语音命令之前的若干秒的预定开端时段内接收到预定唤醒词,其中,预定唤醒词可以由制造商设定或者由用户在初始化期间建立。虽然这样的语音信号可以被记录,但是将不会作为命令被执行,除非在开端时段内接收到唤醒词。
现在参考图4,在块400处从麦克风如上述麦克风接收传感器信号。传感器信号可以包括一个或者更多个语音。在判定菱形402处确定该信号是否指示多个人是否存在。这可以通过对该信号执行语音识别引擎以确定图像中有多少语音来完成。多个语音的存在可以引起结果“是”。在一些实施方式中,测试还可以包括使用在初始化阶段加载到装置存储器中的装置的特定用户的语音指纹来确定是否存在除特定用户之外的人。在这样的实施方式中,测试还可以包括通过例如确定其他语音的音量的绝对幅度或者其他语音相对于用户的语音的幅度的相对幅度来推断其他语音中的任何语音是否处在特定用户的预定范围内。只有在推断出另外的人处在特定用户的预定范围内的情况下,才返回结果“是”。
如果在菱形402处的判定返回结果“否”,则逻辑可以进行至块404,以执行通过装置的麦克风接收到的任何语音命令,而无需首先接收唤醒词。相比之下,如果在菱形402处返回结果“是”,则逻辑可以移动至块406,以禁止将通过麦克风接收到的语音信号作为命令来执行,除非首先在通常例如在接收到随后的语音命令之前的若干秒的预定开端时段内接收到预定唤醒词,其中,预定唤醒词可以由制造商设定或者由用户在初始化期间建立。虽然这样的语音信号可以被记录,但是将不会作为命令被执行,除非在开端时段内接收到唤醒词。
现在参考图5,在块500处,从与装置相关联的蓝牙接收器接收传感器信号。传感器信号可以包括一个或者更多个蓝牙配对信号。在判定菱形502处确定该信号是否指示多个人是否存在。这可以通过确定装置是否与另外的装置配对来完成。另外的配对装置的存在可以引起结果“是”。在一些实施方式中,测试还可以包括通过例如确定与执行图5的逻辑的装置配对的任何装置的蓝牙信号强度来推断其他人中的任何人是否处在特定用户的预定范围内。只有在推断出其它人(使用他的配对装置作为代表)处在特定用户的预定范围内的情况下,才返回结果“是”。
如果在菱形502处的判定返回结果“否”,则逻辑可以进行至块504,以执行通过装置的麦克风接收到的任何语音命令,而无需首先接收唤醒词。相比之下,如果在菱形502处返回结果“是”,则逻辑可以移动至块506,以禁止将通过麦克风接收到的语音信号作为命令来执行,除非首先在通常例如在接收到随后的语音命令之前的若干秒的预定开端时段内接收到预定唤醒词,其中,预定唤醒词可以由制造商设定或者由用户在初始化期间建立。虽然这样的语音信号可以被记录,但是将不会作为命令被执行,除非在开端时段内接收到唤醒词。
现在参考图6,在块600处,接收来自车辆乘员传感器的通过例如ECM——该ECM与执行逻辑的装置的处理器配对——中继的传感器信号,或者当ECM本身执行逻辑时从通常安装在车辆的座椅上的乘员传感器接收传感器信号。在判定菱形504处,确定该信号是否指示多个人是否存在。这可以通过确定多个乘员传感器是否指示存在人来完成。另外的人的存在可以引起结果“是”。
在一些实施方式中,测试还可以包括通过例如确定执行指令的装置的用户就座的座椅的位置以及与指示人正坐在座椅上的乘员传感器相关联的座椅的位置来推断其他人中的任何人是否处在特定用户的预定范围内。例如,如果用户正在驾驶并且其他乘员传感器指示人仅在后座,则可以返回结果“否”,然而如果乘客乘员传感器指示人在其上,则可以返回结果“是”。只有在推断出另外的人(使用他的乘员传感器作为代表)处在特定用户的预定范围内的情况下,才返回结果“是”。
如果在菱形602处的判定返回结果“否”,则逻辑可以进行至块604,以执行通过装置的麦克风接收到的任何语音命令,而无需首先接收唤醒词。相比之下,如果在菱形602处返回结果“是”,则逻辑可以移动至块606,以禁止将通过麦克风接收到的语音信号作为命令来执行,除非首先在通常例如在接收到随后的语音命令之前的若干秒的预定开端时段内接收到预定唤醒词,其中,预定唤醒词可以由制造商设定或者由用户在初始化期间建立。虽然这样的语音信号可以被记录,但是将不会作为命令被执行,除非在开端时段内接收到唤醒词。
现在参考图7,在块700处,从运动传感器如上述运动传感器接收传感器信号。信号可以包括一个或者更多个对象正在传感器附近移动的信息。在判定菱形702处,确定该信号是否指示多个人是否存在。这可以通过确定多少对象被感测为正在移动来完成。多个对象的存在可以引起结果“是”。
在一些实施方式中,测试还可以包括确定是否存在除了特定用户以外的对象。在这样的实施方式中,测试还可以包括通过例如确定其他对象的绝对大小或者其他对象相对于用户的大小的相对大小来推断其他对象中的任何对象是否处在特定用户的预定范围内。只有在推断出另外的人处在特定用户的预定范围内的情况下,才返回结果“是”。
如果在菱形702处的判定返回结果“否”,则逻辑可以进行至块704,以执行通过装置的麦克风接收到的任何语音命令,而无需首先接收唤醒词。相比之下,如果在菱形702处返回结果“是”,则逻辑可以移动至块706,以禁止将通过麦克风接收到的语音信号作为命令来执行,除非首先在通常例如在接收到随后的语音命令之前的若干秒的预定开端时段内接收到预定唤醒词,其中,预定唤醒词可以由制造商设定或者由用户在初始化期间建立。虽然这样的语音信号可以被记录,但是将不会作为命令被执行,除非在开端时段内接收到唤醒词。
注意,可以使用除上述情境之外的情境来自动地启动和禁止语音命令输入的唤醒词式启动。例如,可以期望一天中的某些时候(例如,午夜)发现用户是单独的,在这种情况下,禁止唤醒词初始化并且将由装置接收到的所有语音信号视作语音命令,而不必首先接收唤醒词。可以期望一天的其他时候(例如,中午)发现用户有人陪伴,在这种情况下,启动语音命令输入的唤醒词初始化。
或者,可以使用由装置的GPS接收器确定的位置来自动地启动和禁止语音命令输入的唤醒词初始化。例如,某些位置如办公建筑物可以指示特定用户并非单独的,从而启动语音命令输入的唤醒词初始化,然而,其他位置如特定用户的家可以引起自动禁止唤醒词初始化,在这种情况下,将由装置接收到的所有语音信号视作语音命令,而不必首先接收唤醒词。
图8示出了可以向用户提供以下选择:使用用户接口(UI)800来接受或不接受上述情境式唤醒词式启动。如所示出的,UI 800可以包括否选择器802,否选择器802用于拒绝使用自动的基于情境的唤醒词式启动。UI 800还可以包括是选择器804,是选择器804用于接受使用自动的基于情境(如上述情境中的任何情境)的唤醒词式启动。如果选择了是,则指示器806可以提示用户输入初始化参数如用户的语音或图像用于前述目的。
在结束之前,要理解的是,虽然用于实施本原理的软件应用可以与装置如系统100一起出售,但是本原理适用于通过网络如因特网将这样的应用从服务器下载至装置的实例。此外,本原理适用于将这样的应用包括在正被出售和/或提供的计算机可读存储介质中的实例,其中,计算机可读存储介质本身不是暂态信号和/或信号。
尽管本文示出且详细描述了特定的“情境性暂停用于启动语音命令输入的唤醒词”,但要理解的是,本申请所包含的主题仅由所附权利要求来限定。

Claims (12)

1.一种电子设备,包括:
处理器;
麦克风,其能够被所述处理器访问;以及
存储器,其能够被所述处理器访问并且承载有指令,所述指令能够由所述处理器执行以:
响应于指示第一情境的第一传感器输入,要求接收通过所述麦克风接收的用于启动语音命令输入的预定唤醒词;以及
响应于指示第二情境的第二传感器输入,暂停对接收通过所述麦克风接收的用于启动语音命令输入的预定唤醒词的需要,并且相反立即处理通过至少一个麦克风接收的命令,而无需首先接收所述唤醒词。
2.根据权利要求1所述的电子设备,其中,所述传感器输入来自于至少一个相机。
3.根据权利要求1所述的电子设备,其中,所述传感器输入来自于所述麦克风。
4.根据权利要求1所述的电子设备,其中,所述传感器输入来自于至少一个蓝牙接收器。
5.根据权利要求1所述的电子设备,其中,所述传感器输入来自于至少一个运动传感器。
6.根据权利要求1所述的电子设备,其中,所述传感器输入来自于至少一个车辆乘员传感器。
7.根据权利要求1所述的电子设备,包括传感器,从所述传感器中接收到所述第一传感器输入和所述第二传感器输入中的至少一个。
8.一种方法,包括:
从至少一个传感器接收至少一个信号;以及
基于对所述至少一个信号的分析来情境性暂停对接收用于启动计算机的语音命令输入的唤醒词的需要。
9.根据权利要求8所述的方法,包括:
根据所述至少一个信号确定用户是单独的;以及
响应于确定所述用户是单独的来暂停对接收用于启动语音命令输入的所述唤醒词的需要,并且启动语音命令输入,而无需接收所述唤醒词。
10.根据权利要求8或9中的任一项所述的方法,包括:
根据所述至少一个信号确定用户并非是单独的;以及
响应于确定所述用户并非是单独的来仅响应于接收到所述唤醒词才启动语音命令输入。
11.根据权利要求8所述的方法,其中,所述分析包括:
确定所述信号是否指示多个人的存在;
响应于确定所述信号指示多个人的存在,启动语音命令输入的唤醒词式启动;以及
响应于确定所述信号并未指示多个人的存在,禁止语音命令输入的唤醒词式启动。
12.根据权利要求8所述的方法,包括:
从麦克风、数字相机以及热像仪中的至少一个来接收所述至少一个信号。
CN201610819344.4A 2015-10-01 2016-09-12 情境性暂停用于启动语音命令输入的唤醒词 Active CN107085510B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/872,587 2015-10-01
US14/872,587 US9542941B1 (en) 2015-10-01 2015-10-01 Situationally suspending wakeup word to enable voice command input

Publications (2)

Publication Number Publication Date
CN107085510A true CN107085510A (zh) 2017-08-22
CN107085510B CN107085510B (zh) 2020-06-23

Family

ID=57571140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610819344.4A Active CN107085510B (zh) 2015-10-01 2016-09-12 情境性暂停用于启动语音命令输入的唤醒词

Country Status (4)

Country Link
US (1) US9542941B1 (zh)
CN (1) CN107085510B (zh)
DE (1) DE102016118680B4 (zh)
GB (1) GB2544865B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182939A (zh) * 2017-12-13 2018-06-19 苏州车萝卜汽车电子科技有限公司 用于自助服务的语音处理方法及装置
CN109427333A (zh) * 2017-08-25 2019-03-05 三星电子株式会社 激活语音识别服务的方法和用于实现所述方法的电子装置
CN112292724A (zh) * 2018-08-21 2021-01-29 谷歌有限责任公司 用于调用自动助理的动态和/或场境特定热词

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) * 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US10074364B1 (en) * 2016-02-02 2018-09-11 Amazon Technologies, Inc. Sound profile generation based on speech recognition results exceeding a threshold
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US11003417B2 (en) 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10102856B2 (en) * 2017-01-20 2018-10-16 Essential Products, Inc. Assistant device with active and passive experience modes
DE102017207038A1 (de) * 2017-04-26 2018-10-31 Bayerische Motoren Werke Aktiengesellschaft Spracheingabe bei einem Kraftfahrzeug
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
US10847149B1 (en) * 2017-09-01 2020-11-24 Amazon Technologies, Inc. Speech-based attention span for voice user interface
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
US10777195B2 (en) 2018-05-31 2020-09-15 International Business Machines Corporation Wake command nullification for digital assistance and voice recognition technologies
KR102523982B1 (ko) 2018-08-21 2023-04-20 구글 엘엘씨 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10777186B1 (en) * 2018-11-13 2020-09-15 Amazon Technolgies, Inc. Streaming real-time automatic speech recognition service
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN112581969A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
CN112669831B (zh) * 2019-09-29 2022-10-21 百度在线网络技术(北京)有限公司 语音识别控制方法、装置、电子设备和可读存储介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11735181B2 (en) * 2020-02-05 2023-08-22 Canon Kabushiki Kaisha Voice input apparatus, control method thereof, and storage medium for executing processing corresponding to voice instruction
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN111681655A (zh) * 2020-05-21 2020-09-18 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
US11769501B2 (en) * 2021-06-02 2023-09-26 International Business Machines Corporation Curiosity based activation and search depth
US11804018B2 (en) 2021-09-02 2023-10-31 International Business Machines Corporation Management of devices in a smart environment
WO2023056026A1 (en) * 2021-09-30 2023-04-06 Sonos, Inc. Enabling and disabling microphones and voice assistants

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102582523A (zh) * 2012-03-09 2012-07-18 深圳市领华卫通数码科技有限公司 具备语音识别功能的车内后视镜及语音识别的方法
US20130339028A1 (en) * 2012-06-15 2013-12-19 Spansion Llc Power-Efficient Voice Activation
US9100694B1 (en) * 2013-03-14 2015-08-04 Google Inc. TV mode change in accordance with number of viewers present

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US9307490B2 (en) * 2012-11-30 2016-04-05 Mediatek Inc. Method for controlling bluetooth device for power conservation
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US9256269B2 (en) * 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US9112984B2 (en) * 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9865255B2 (en) * 2013-08-29 2018-01-09 Panasonic Intellectual Property Corporation Of America Speech recognition method and speech recognition apparatus
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US8719039B1 (en) * 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US10102848B2 (en) * 2014-02-28 2018-10-16 Google Llc Hotwords presentation framework
US9286892B2 (en) * 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9424841B2 (en) * 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102582523A (zh) * 2012-03-09 2012-07-18 深圳市领华卫通数码科技有限公司 具备语音识别功能的车内后视镜及语音识别的方法
US20130339028A1 (en) * 2012-06-15 2013-12-19 Spansion Llc Power-Efficient Voice Activation
US9100694B1 (en) * 2013-03-14 2015-08-04 Google Inc. TV mode change in accordance with number of viewers present

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109427333A (zh) * 2017-08-25 2019-03-05 三星电子株式会社 激活语音识别服务的方法和用于实现所述方法的电子装置
CN109427333B (zh) * 2017-08-25 2024-04-16 三星电子株式会社 激活语音识别服务的方法和用于实现所述方法的电子装置
CN108182939A (zh) * 2017-12-13 2018-06-19 苏州车萝卜汽车电子科技有限公司 用于自助服务的语音处理方法及装置
CN112292724A (zh) * 2018-08-21 2021-01-29 谷歌有限责任公司 用于调用自动助理的动态和/或场境特定热词

Also Published As

Publication number Publication date
DE102016118680A1 (de) 2017-04-06
GB201616703D0 (en) 2016-11-16
GB2544865A (en) 2017-05-31
GB2544865B (en) 2020-04-15
DE102016118680B4 (de) 2021-11-04
US9542941B1 (en) 2017-01-10
CN107085510B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN107085510A (zh) 情境性暂停用于启动语音命令输入的唤醒词
CN107643921A (zh) 用于激活语音助手的设备、方法和计算机可读存储介质
US10103699B2 (en) Automatically adjusting a volume of a speaker of a device based on an amplitude of voice input to the device
CN110800279B (zh) 用于显示信息的电子设备和方法
US9706304B1 (en) Systems and methods to control audio output for a particular ear of a user
US10664533B2 (en) Systems and methods to determine response cue for digital assistant based on context
US10620437B2 (en) Systems and methods for presentation of images from camera concurrently with presentation of virtual reality content
US20170237848A1 (en) Systems and methods to determine user emotions and moods based on acceleration data and biometric data
US10282908B2 (en) Systems and methods for presenting indication(s) of whether virtual object presented at first device is also presented at second device
US20160304042A1 (en) Method and apparatus for providing vehicle service
CN107643922A (zh) 用于语音辅助的设备、方法及计算机可读存储介质
CN104915163B (zh) 基于设备的配置呈现元素
US20180324703A1 (en) Systems and methods to place digital assistant in sleep mode for period of time
US10897687B2 (en) Electronic device and method for identifying location by electronic device
US9811707B2 (en) Fingerprint reader on a portion of a device for changing the configuration of the device
US10283117B2 (en) Systems and methods for identification of response cue at peripheral device
KR20160143173A (ko) 전자 장치 및 전자 장치의 제어 방법
CN105049932A (zh) 检测音频视频观看中的噪声或对象打断并基于此改变呈现
US10252154B2 (en) Systems and methods for presentation of content at headset based on rating
US9807499B2 (en) Systems and methods to identify device with which to participate in communication of audio data
CN106451593B (zh) 无线充电装置及方法、以及无线充电接收器
CN107040649A (zh) 用于信息呈现的装置和方法
CN108804897A (zh) 屏幕控制方法、装置、计算机设备及存储介质
US20170220358A1 (en) Identification and presentation of element at a first device to control a second device
CN107666161B (zh) 增加电池的充电速率的设备、方法和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant