CN111028826B - 多个设备上的热词检测 - Google Patents

多个设备上的热词检测 Download PDF

Info

Publication number
CN111028826B
CN111028826B CN201911100052.5A CN201911100052A CN111028826B CN 111028826 B CN111028826 B CN 111028826B CN 201911100052 A CN201911100052 A CN 201911100052A CN 111028826 B CN111028826 B CN 111028826B
Authority
CN
China
Prior art keywords
computing device
hotword
audio data
utterance
particular predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911100052.5A
Other languages
English (en)
Other versions
CN111028826A (zh
Inventor
马修·谢里菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=54330874&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN111028826(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Google LLC filed Critical Google LLC
Priority to CN201911100052.5A priority Critical patent/CN111028826B/zh
Publication of CN111028826A publication Critical patent/CN111028826A/zh
Application granted granted Critical
Publication of CN111028826B publication Critical patent/CN111028826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及多个设备上的热词检测。公开了多个设备上的热词检测的方法、系统和装置,包括在计算机存储介质上进行编码的计算机程序。在一个方面,一种方法包括由第一计算设备接收对应于话语的音频数据的动作。该动作进一步包括确定与该话语包括热词的可能性相对应的第一值。该动作进一步包括接收与该话语包括热词的可能性相对应的由第二计算设备确定的第二值。该动作进一步包括将该第一值与该第二值进行比较。该动作进一步包括基于对该第一值与该第二值进行比较,发起对该音频数据的语音识别处理。

Description

多个设备上的热词检测
分案说明
本申请属于申请日为2015年9月29日的中国发明专利申请201580008549.8的分案申请。
技术领域
本说明书一般地涉及用于识别人正在说的词语的系统和技术,其还被称作语音识别。
背景技术
支持语音的住所或其它环境—也就是用户在其中仅需要出声地讲出查询或命令并且基于计算机的系统将处理并应答该查询和/或使得命令得以执行的住所或其它环境—的现实正在到来。支持语音的环境(例如住所、工作场所、学校等)能够使用分布在该环境的各个房间或区域各处的被连接的麦克风设备的网络来实现。通过这样的麦克风的网络,用户有能力从基本上该环境中的任何地方口头查询系统而无需在他/她的前方或者甚至在其附近具有计算机或其它设备。例如,当在厨房中烹饪时,用户可以询问系统“三杯是多少毫升?”,并且作为响应而从系统接收到回答,例如以合成语音输出的形式的回答。替选地,用户可以询问系统诸如“离我最近的加油站什么时候关门”或者在准备离开房子时询问“我今天应当穿外套吗?”。
此外,用户可以询问系统的查询和/或发出命令,所述查询或命令涉及用户的个人信息。例如,用户可以询问系统“我与John何时会面?”或者命令系统“当我回家时提醒我给John打电话。”
发明内容
对于支持语音的系统,用户与系统交互的方式被设计为主要—如果不是专门地—凭借语音输入来进行。因此,可能拾取到周围环境中所发出的包括并非指向系统的那些话语在内的所有话语的系统必须以某些方式来辨别任何给定的话语何时是指向该系统而不是例如指向出现在环境中的个人。一种实现该目的的方式是使用热词,该热词通过环境中的用户间的协定被预留作为预定的词语,其被讲出以唤起系统的注意。在一个示例环境中,用来唤起系统的注意的热词是词语“OK computer(好的,计算机)”。因此,每次词语“OKcomputer”被讲出时,其就被麦克风所拾取,传达至系统,该系统执行语音识别技术来确定热词是否被讲出,并且如果是,则等待随后的命令或查询。因此,指向系统的话语采用[热词][查询]的一般形式,其中本示例中的“热词”是“OK computer”并且“查询”能够是任何问题、命令、声明、或者能够由系统单独或者经由网络与服务器结合来进行语音识别、解析、以及按照其实施动作的其它请求。
根据本说明书中所描述的主题的一个创新方面,一种用户设备接收用户所讲出的话语。该用户设备确定该话语是否包括热词并且计算指示该话语包括热词的热词置信度分值。该用户设备将该分值传送至在附近近邻区域中的其它用户设备。该其它用户设备很可能接收到相同的话语。该其它用户设备计算热词置信度分值并且将它们的分值传送至该用设备。该用户设备比较热词置信度分值。如果该用户设备具有最高的热词置信度分值,则该用户设备保持活动并且准备处理附加音频。如果该用户设备不具有最高热词置信度分值,则该用户设备不处理附加音频。
大体上,本说明书中所描述的主题的另一个创新方面可以包含在一种方法中,所述方法包括以下动作:由第一计算设备接收对应于话语的音频数据;确定与该话语包括热词的可能性相对应的第一值;接收与该话语包括热词的可能性相对应的由第二计算设备确定的第二值;将该第一值与该第二值进行比较;以及基于对该第一值与该第二值进行比较,发起对该音频数据的语音识别处理。
这些和其它实施例均能够可选地包括以下特征的一个或多个。该动作进一步包括:确定该第一值满足热词分值阈值。该动作进一步包括:将该第一值传送至第二计算设备。该动作进一步包括:基于对该第一值与该第二值进行比较来确定第一计算设备的激活状态。基于对该第一值与该第二值进行比较来确定第一计算设备的激活状态的所述动作进一步包括:确定该激活状态为活动状态。该动作进一步包括:由第一计算设备接收对应于附加话语的附加音频数据;确定与该附加话语包括热词的可能性相对应的第三值;接收与话语包括热词的可能性相对应的第四值,该第四值由第三计算设备确定;将该第一值与该第二值进行比较;并且基于对该第一值与该第二值进行比较,确定该第一计算设备的激活状态为非活动状态。
将该第一值传送至第二计算设备的所述动作进一步包括:通过本地网络或者通过短距离无线电来将该第一值传送至服务器。接收与该话语包括热词的可能性相对应的由第二计算设备确定的第二值的所述动作进一步包括:通过本地网络或者通过短距离无线电从该服务器接收由第二计算设备确定的第二值。该动作进一步包括:识别该第二计算设备;以及确定该第二计算设备被配置来对包括热词的话语进行响应。将该第一值传送至该第二计算设备的所述动作进一步包括:传送该第一计算设备的第一标识符。该接收与该话语包括热词的可能性相对应的由第二计算设备确定的第二值的所述动作进一步包括:接收该第二计算设备的第二标识符。确定该激活状态为活动状态的所述动作进一步包括:确定自从接收到对应于话语的音频数据起已经流逝特定时间量。该动作进一步包括:基于该激活状态为活动状态来继续在特定时间量内继续传送该第一值。
该方面的其它实施例包括对应的系统、装置、以及记录在计算机存储设备上的计算机程序,它们均被配置为执行该方法的操作。
本说明书中所描述的主题的特定实施例能够被实现以便实现以下优势中的一种或多种。多个设备能够检测热词并且仅一个设备将对热词进行响应。
在附图和以下的描述中阐述了本说明书中所描述主题的一个或多个实施例的细节。该主题的其它特征、方面、和优势从说明书、附图、和权利要求书将变得显而易见。
附图说明
图1是用于热词检测的示例系统的示图。
图2是用于热词检测的示例过程的示图。
图3示出了计算设备和移动计算设备的示例。
各图中相似的附图标记和名称指示相似的要素。
具体实施方式
在不久的将来,有可能许多设备可以连续地收听热词。当单个用户具有被训练以对他们的语音作出响应的多个设备(例如,电话、平板计算机、电视等)时,可能期望在用户不太可能向其说话的设备上抑制对热词作出响应。例如,当用户朝向一个设备讲出热词时,如果所述用户的任何其它设备在附近,则它们也将很可能触发语音搜索。在许多情况下,这并不是用户的意图。因此,如果仅有单个设备特别是用户正在对其话语的设备会触发,则可能是有利的。本说明书解决了选择正确的设备以用于对热词作出反应并且在其它设备上抑制对该热词的反应的问题。
图1是用于热词检测的示例系统100的示图。总体上,系统100图示了讲出话语104的用户102,该话语104被计算设备106、108、和110的麦克风检测到。计算设备106、108、和110对话语104进行处理以确定话语104包括热词的可能性。计算设备106、108、和110均互相传送指示话语104包括热词的可能性的数据。计算设备106、108、和110均对该数据进行比较,并且计算出话语104包括热词的最高可能性的计算设备发起对话语104的语音识别。没有计算出话语104包括热词的最高可能性的计算设备发起对话语104之后的语音的语音识别。
在向另一个计算设备传送指示话语104对应于热词的数据之前,位于彼此附近的计算设备互相进行识别。在一些实施方式中,计算设备通过在本地网络上搜索被配置为对热词作出响应的其它设备来互相识别。例如,计算设备106可以在局域网上搜索被配置为对热词作出响应的其它设备并且识别出计算设备108和计算设备110。
在一些实施方式中,计算设备通过识别登录到每个设备的用户来识别附近被配置为对热词作出响应的其它计算设备。例如,用户102登录到计算设备106、108、和110。用户102在其手中具有计算设备106。计算设备108放在桌上,而计算设备110则位于附近的墙上。计算设备106检测到计算设备108和110并且每个计算设备共享与登录到该计算设备的用户相关的信息,诸如用户标识符。在一些实施方式中,计算设备可以通过利用说话者识别对被配置为对热词作出响应的计算设备进行识别来识别被配置为在相同用户讲出该热词时作出响应的其它附近的计算设备。例如,用户102配置了:计算设备106、108和110在用户102讲出热词时均对用户102的语音作出响应。该计算设备通过向彼此提供用户102的用户标识符来共享说话者识别信息。在一些实施方式中,计算设备可以通过短距离无线电来识别被配置为对热词作出响应的其它计算设备。例如,计算设备106可以通过短距离无线电传送信号,所述信号搜索被配置为对热词作出响应的其它计算设备。计算设备可以采用这些技术中的一个或者它们的组合来识别被配置为对热词作出响应的其它计算设备。
一旦计算设备106、108、和110已经识别出被配置为对热词作出响应的其它计算设备,则计算设备106、108、和110共享并存储所识别计算设备的设备标识符。该标识符可以基于设备的类型、设备的IP地址、MAC地址、用户对设备所给出的名称,或者任何类似的唯一标识符。例如,计算设备106的设备标识符112可以是“电话”。计算设备108的设备标识符114可以是“平板计算机”。设备110的设备标识符116可以是“恒温器”。计算设备106、108、和110存储被配置为对热词作出响应的其它计算设备的设备标识符。每个计算设备具有该计算设备将设备标识符存储在其中的设备群组。例如,计算设备106具有设备群组118,其将“平板电脑”和“恒温器”列为将接收到如计算设备106所计算的音频数据包括热词的可能性的两个设备。计算设备108具有设备群组120,其列出“电话”和“恒温器”作为将接收到如计算设备108所计算的音频数据包括热词的可能性的两个设备。计算设备110具有设备群组122,其将“电话”和“平板电脑”列为将接收到如计算设备110所计算的音频数据包括热词的可能性的两个设备。
当用户102讲出话语104“OK computer(好的,计算机)”时,具有处于用户102邻近区域中的麦克风的每个计算设备都检测到该话语104并对其进行处理。每个计算设备通过诸如麦克风的音频输入设备来检测话语104。每个麦克风将音频数据提供至相应的音频子系统。相应的音频子系统对该音频数据进行缓冲、滤波、和数字化。在一些实施方式中,每个计算设备可以对音频数据执行端点指示(endpointing)和说话者识别。该音频子系统将经处理的音频数据提供至热词器。该热词器将经处理的音频数据与已知热词数据进行比较并且计算出指示话语104对应于热词的可能性的置信度分值。热词器可以从经处理的音频数据中提取音频特征,诸如滤波器组能量或Mel频率倒谱系数。热词器可以使用分类窗口来处理这些音频特征,诸如通过使用支持向量机或神经网络来进行处理。基于对音频特征的处理,热词器124计算出置信度分值0.85,热词器126计算出置信度分值0.6,并且热词器128计算出置信度分值0.45。在一些实施方式中,置信度分值可以被标准化到0至1的范围,其中越高的数字指示话语104包括热词的置信度越大。
每个计算设备将相应的置信度分值数据分组传送至设备群组中的其它计算设备。每个置信度分值数据分组包括相应的置信度分值以及计算设备的相应设备标识符。例如,计算设备106将包括置信度分值0.85和设备标识符“电话”的置信度分值数据分组130传送至设备群组118中的计算设备—计算设备108和110。计算设备108将包括置信度分值0.6和设备标识符“平板计算机”的置信度分值数据分组132传送至设备群组120中的计算设备—计算设备106和110。计算设备110将包括置信度分值0.45和设备标识符“恒温器”的置信度分值数据分组134传送至设备群组118中的计算设备—计算设备106和108。
在一些实施方式中,如果置信度分值满足热词分值阈值,则计算设备可以传送置信度分值数据分组。例如,如果热词分值阈值为0.5,则计算设备110将不会向设备群组122中的其它计算设备传送置信度分值数据分组134。计算设备106和108仍然将分别向计算设备群组118和120中的计算设备传送置信度分值数据分组130和132。
在一些实施方式中,传送置信度分值数据分组的计算设备可以向其它计算设备直接传送置信度分值数据分组。例如,计算设备106可以通过短距离无线电来向计算设备108和110传送置信度分值数据分组130。两个计算设备之间的通信协议可以是通用即插即用。在一些实施方式中,传送置信度分值数据分组的计算设备可以广播该置信度分值数据分组。在此实例下,置信度分值数据分组可以被设备群组中的计算设备接收以及被其它计算设备接收。在一些实施方式中,传送置信度分值数据分组的计算设备可以将置信度分值数据分组传送至服务器,并且之后该服务器将该置信度分值数据分组传送至数据群组中的计算设备。服务器可以位于计算设备的局域网内或者可通过互联网访问。例如,计算设备108将置信度分值数据分组132以及设备群组120中的计算设备的列表发送至服务器。该服务器将该置信度分值数据分组132传送至计算设备106和110。在计算设备正向另一个计算设备传送置信度分值数据分组的实例中,进行接收的计算设备可以发回进行接收的计算设备接收到置信度分值数据分组的确认。
每个计算设备使用分值比较器来比较该计算设备已经接收到的热词置信度分值。例如,计算设备106计算出热词置信度分值0.85并且接收到热词置信度分值0.6和0.45。在此实例中,分值比较器136对三个分数进行比较并且识别出分值0.85为最高。对于计算设备118和110而言,分值比较器138和140得出类似的结论,识别出与计算设备106相对应的分值0.85为最高。
确定它自己的热词置信度分值为最高的计算设备发起对热词话语之后的语音数据的语音识别。例如,用户可以讲出“OK computer”并且计算设备106可以确定其具有最高的热词置信度分值。计算设备106将发起对在热词之后所接收到的音频数据的语音识别。如果用户讲出“call Alice(给Alice打电话)”,则计算设备106将对该话语进行处理并且执行适当命令。在一些实施方式中,接收到热词可以使得接收到该热词的计算设备从休眠状态激活。在实例中,具有最高的热词置信度分值的计算设备保持处于唤醒状态,而不具有最高热词置信度分值的其它计算设备则不处理热词话语之后的语音数据并且进入休眠状态。
如图1所示,分值比较器136识别出与计算设备106相对应的热词置信度分值为最高。因此,设备状态142为“唤醒”。分值比较器138和140也识别出与计算设备106相对应的热词置信度分值为最高。因此,设备状态138和140“休眠”。在一些实施方式中,计算设备的激活状态可以不受影响。例如,用户102可能在计算设备108上观看电影并且在其手中具有计算设备106。当用户102讲出“OK computer”时,计算设备106依靠具有最高的热词置信度分值来发起对该热词之后的音频数据的语音识别。计算设备108不发起对该热词之后的音频数据的语音识别,并且继续播放电影。
在一些实施方式中,确定其具有最高热词置信度分值的计算设备在开始对热词之后的语音执行语音识别之前等待特定时间量。这样做允许计算出最高热词置信度分值的计算设备在没有等待到更高热词置信度分值的情况下开始对热词之后的语音执行语音识别。为了进行说明,计算设备106的分值比较器136分别从计算设备108和110接收到热词置信度分值0.6和0.45,以及来自热词器124的热词置信度分值0.85。从热词器124计算“OKcomputer”音频数据的热词置信度分值的时间起,计算设备106在对该热词之后的语音执行语音识别之前等待五百毫秒。在分值比较器接收到更高分值的实例中,计算设备可以在将设备状态设置为“休眠”之前不等待特定时间量。例如,计算设备108的热词器126计算出热词置信度分值0.6并且接收到热词置信度分值0.85和0.45。一旦计算设备108接收到热词置信度分值0.85,则计算设备108能够将设备状态144设置为“休眠”。这假设了:计算设备108在热词器126计算出热词置信度分值0.6之后的特定时间量内接收到热词置信度分值0.85。
在一些实施方式中,当计算设备具有最高的热词置信度分值时,该计算设备可以在特定时间量内继续广播置信度分值数据分组以确保其它计算设备接收到该置信度分值数据分组。此策略在计算设备从另一个计算设备接收到置信度分值数据分组时确实发回确认的实例中能够得到最多应用。因此,如果计算设备106向数据群组118中的计算设备传送置信度分值数据分组130并且在诸如五百毫秒的特定时间量之前接收到确认,则计算设备106可以开始对热词之后的语音执行语音识别。在计算设备广播其置信度分值数据分组而且并不期望确认的实例中,计算设备可以在诸如五百毫秒的特定时间量内继续广播其热词置信度分值,或者继续广播其热词置信度分值直至计算设备接收到更高的热词置信度分值为止,以较早者为准。例如,计算设备110计算出热词置信度分值0.45并且开始广播置信度分值数据分组134。在三百毫秒之后,计算设备110接收到置信度分值数据分组130并且停止广播置信度分值数据分组134,因为来自置信度分值数据分组130的热词置信度分值0.85比热词置信度分值0.45更高。作为另一个广播示例,计算设备106计算出热词置信度分值0.45并且开始广播置信度分值数据分组130。在五百毫秒之后,计算设备106停止广播置信度分值数据分组130并且开始对热词之后的语音执行语音识别。计算设备106可以在已经流逝五百毫秒之前接收到置信度分值数据分组132和134,但是因为置信度分值数据分组132和134中的热词置信度分值比0.85更低,所以该计算设备继续等待直至已经流逝五百毫秒。
在一些实施方式中,计算设备可以开始对热词之后的语音执行语音识别直至该计算设备接收到更高的热词置信度分值。热词器计算热词置信度分值并且如果该热词置信度分值满足阈值,则计算设备对热词之后的语音执行语音识别。该计算设备可以在没有向用户显示语音识别的任何指示的情况下执行语音识别。这可以是所期望的,因为这样做给用户留下该计算设备没有活动的印象而同时还允许该计算设备与该计算设备已经等待直至该计算设备确认其计算出了最高的热词分值的情况相比更快地向用户显示基于语音识别的结果。作为示例,计算设备106计算出热词置信度分值0.85并且开始对热词之后的语音执行语音识别。计算设备106接收到置信度分值数据分组132和134并且确定热词置信度分值0.85为最高。计算设备106继续对热词之后的语音执行语音识别并且将结果呈现给用户。对于计算设备108而言,热词器126计算出热词置信度分值0.6,并且计算设备108在没有向用户显示数据的情况下开始对热词之后的语音执行语音识别。一旦计算设备108接收到包括热词置信度0.85的置信度分值数据分组130,则该计算设备停止执行语音识别。没有向用户显示数据,并且用户很可能留下了计算设备108保持着“休眠”状态的印象。
在一些实施方式中,为了避免讲出热词之后的任何延时,分值能够在热词结束之前从热词器被报告,例如对于部分热词进行报告。例如,在用户讲出“OK Computer”时,计算设备能够在用户已经完成讲出“OK comp”时就计算部分热词置信度分值。之后,计算设备能够将该部分热词置信度分值与其它计算设备共享。具有最高的部分热词置信度分值的计算设备能够继续处理用户的语音。
在一些实施方式中,计算设备可以在该计算设备确定热词置信度分值满足阈值时发出可听或不可听的声音,例如特定频率或频率模式的声音。该声音将用信号向其它计算设备通知该计算设备将继续处理热词之后的音频数据。其它计算设备将接收到该声音并且停止处理音频数据。例如,用户讲出“OK Computer”。计算设备中的一个计算出大于或等于阈值的热词置信度分值。一旦该计算设备确定该热词置信度分值大于或等于阈值,则该计算设备发射18千赫的声音。处于用户的邻近区域中的其它计算设备也可以计算热词置信度分值,并且在其它计算设备接收到该声音时可能正在计算热词置信度分值当中。当其它计算设备接收到该声音时,其它计算设备停止对用户语音的处理。在一些实施方式中,计算设备可以将热词置信度分值编码在可听或不可听的声音之中。例如,如果热词置信度分值为0.5,则计算设备可以生成包括对分值0.5进行编码的频率模式的可听或不可听的声音。
在一些实施方式中,计算设备可以使用不同的音频量度来选择用于继续处理用户语音的计算设备。例如,计算设备可以使用响度来确定哪个计算设备将继续处理用户的语音。检测到最响语音的计算设备可以继续处理用户的语音。作为另一个示例,当前正在使用或者具有活动显示的计算设备可以在检测到热词后向其它计算设备通知其将继续处理用户的语音。
在一些实施方式中,在用户正在讲话的同时处于用户的邻近区域中的每个计算设备接收音频数据并且将该音频数据发送至服务器以改进语音识别。每个计算设备能够接收到对应于用户语音的音频数据。虽然仅有一个计算设备将在用户看来是正在处理该用户的语音,但是每个计算设备都能够向服务器传送音频数据。然后,因为服务器能够对与相同话语相对应的不同音频样本进行比较,所以服务器能够使用从每个计算设备所接收的音频数据来改进语音识别,。例如,用户说“Ok computer,remind me to buy milk(好的计算机,提醒我买牛奶)”。一旦用户讲完“Ok computer”,则附近的计算设备将很可能已经确定哪个计算设备具有最高的热词置信度分值并且该计算设备将在用户讲出“remind me to buymilk”时对那些词语进行处理和响应。其它计算设备也将会接收到“remind me to buymilk”。虽然所述其它计算设备将不对“remind me to buy milk”的话语作出响应,但是其它计算设备能够将与“remind me to buy milk”相对应的音频数据发送至服务器。对“remind me to buy milk”作出响应的计算设备也能够将其音频数据发送至服务器。因为服务器具有来自不同计算设备的与相同“remind me to buy milk”话语相对应的不同音频样本,所以服务器能够处理音频数据以改进语音识别。
图2是用于热词检测的示例过程200的示图。过程200可以由诸如图1的计算设备108的计算设备执行。处理200计算与话语包括热词的可能性相对应的值,并且将该值与其它计算设备所计算的其它值进行比较以确定是否对该热词之后的话语的部分执行语音识别。
计算设备接收对应于话语的音频数据(210)。用户讲出话语并且计算设备的麦克风接收到该话语的音频数据。计算设备通过对该音频数据进行缓冲、滤波、端点指示、和数字化来对该音频数据进行处理。作为示例,用户可以说出“Ok,computer”并且计算设备的麦克风将接收到对应于“Ok,computer”的音频数据。计算设备的音频子系统将对该音频数据进行采样、滤波、和端点指示以用于由计算设备进一步进行处理。
该计算设备确与该话语包括热词的可能性相对应的第一值(220)。该计算设备通过将该话语的音频数据与包括热词的音频样本群组进行比较或者通过分析该话语的音频数据的音频特征来确定该第一值,所述第一值可以被称作热词置信度分值。该第一值可以被标准化到0至1的范围,其中1指示该话语包括热词的最高可能性。在一些实施方式中,该计算设备识别第二计算设备并且确定该第二计算设备被配置为对包括热词的话语进行响应以及被用户配置为对热词作出响应。该用户可以登录到该计算设备和第二计算设备这两者。该计算设备和第二计算设备两者都可以被配置为对用户的语音作出响应。该计算设备和第二计算设备可以连接至相同的局域网。该计算设备和第二计算设备两者都可以位于如GPS或信号强度所确定的特定距离之内,诸如十米之内。例如,计算设备可以通过短距离无线电进行通信。该计算设备可以检测到第二计算设备所传送的信号的强度为5dBm并且转换为对应的距离,诸如五米。
计算设备接收与话语包括热词的可能性相对应的第二值,该第二值由第二计算设备确定(230)。该第二计算设备通过该第二计算设备的麦克风来接收该话语。该第二计算设备对所接收的对应于该话语的音频数据进行处理并且确定第二值或第二热词置信度分值。该第二热词置信度分值反映出如第二计算设备所计算的该话语包括热词的可能性。在一些实施方式中,该计算设备使用以下技术中的一种或多种来将该第一值传送至该第二计算设备。该计算设备可以通过可通过互联网访问的服务器、通过位于局域网上的服务器、或者直接通过局域网或短距离无线电来将该第一值传送至该第二计算设备。该计算设备可以仅将该第一值传送至第二计算设备,或者该计算设备可以广播该第一值以使得其它计算设备也可以接收到该第一值。该计算设备可以使用与该计算设备传送第一数相同或不同的技术来从第二计算设备接收第二值。
在一些实施方式中,计算设备可以计算话语的响度分值或话语的信噪比。该计算设备可以将该响度分值、信噪比、和热词置信度分值进行组合来确定新的值以用于与来自其它计算设备的类似值进行比较。例如,计算设备可以计算热词置信度分值和信噪比。然后,该计算设备可以将那两个分值进行组合并且与来自其它计算设备的以相似方式所计算的分值进行比较。在一些实施方式中,计算设备可以计算不同分值并且将每个分值传送至其它计算设备以用于比较。例如,计算设备可以计算话语的响度分值以及热词置信度分值。然后,该计算设备可以将那些分值传送至其它计算设备以用于比较。
在一些实施方式中,该计算设备可以将第一标识符与第一值一起传送。该标识符可以基于计算设备的地址、用户所给出的该计算设备的名称、或者该计算设备的位置中的一个或多个。例如,标识符可以是“69.123.132.43”或“电话”。类似地,第二计算设备可以将第二标识符与第二值一起传送。在一些实施方式中,计算设备可以将第一标识符传送至特定计算设备,该计算设备先前已经将所述特定计算设备识别为被配置来对热词作出响应。例如,计算设备先前可能已经将第二计算设备识别为被配置来对热词作出响应,因为除了能够对热词作出响应之外,该计算设备的相同的用户登录到了第二计算设备。
计算设备将第一值与第二值进行比较(240)。之后,该计算设备基于所述比较的结果来发起对音频数据的语音识别处理(250)。在一些实施方式中,例如,计算设备在第一值大于或等于第二值时发起语音识别。如果用户讲出“ok computer,call Carol(好的计算机,给Carol打电话)”,则该计算设备由于第一值大于或等于第二值而将开始通过对“callCarol”执行语音识别来对“call Carol”进行处理。在一些实施方式中,计算设备设置激活状态。在第一值大于或等于第二值的实例中,则计算设备将激活状态设置为活动或“唤醒”。在“唤醒”状态下,计算设备显示来自语音识别的结果。
在一些实施方式中,计算设备将第一值与第二值进行比较并且确定第一值小于第二值。基于确定第一值小于第二值,该计算设备将激活状态设置为非活动或“休眠”。在“休眠”状态下,计算设备并不对用户表现为活动或者正对音频数据进行处理。
在一些实施方式中,当计算设备确定第一值大于或等于第二值时,该计算设备可以在将激活状态设置为活动之前等待特定时间量。该计算设备可以等待特定时间量以增加该计算设备将不从另一个计算设备接收到更高值的概率。该特定时间量可以是固定的或者可以依赖于该计算设备传送和接收值的技术而变化。在一些实施方式中,当计算设备确定第一值大于或等于第二值时,该计算设备可以在特定时间量内继续传送该第一值。通过在特定时间量内传送第一值,该计算设备增加了第一值被其它计算设备接收到的概率。在计算设备确定第一值小于第二值的实例中,该计算设备可以停止传送第一值。
在一些实施方式中,计算设备可以在确定是否执行热词之后的命令时考虑附加信息。附加信息的一个示例可以是热词之后的话语部分。通常,热词之后的音频数据对应于针对计算设备的命令,诸如“call Sally(给Sally打电话)”、“play Halloween Movie(播放好莱坞电影)”、或“set heat to 70degrees(将温度设置为70度)”。该计算设备可以识别处理该类型的请求或者能够处理该请求的典型设备。基于预编程的典型使用或者基于设备用户的使用模式,通常将由电话来处理给他人打电话的请求。如果用户通常在平板计算机上观看电影,则平板计算机可以处理播放电影的请求。如果恒温器能够调节温度,则恒温器可以处理温度调节。
为了计算设备能考虑热词之后的话语的部分,该计算设备将必须在其很可能识别出热词时发起对音频数据的语音识别。该计算设备可以对话语的命令部分进行归类并且计算该类别中的命令的频率。该计算设备可以将该频率连同热词置信度分值一起传送至其它计算设备。每个计算设备可以使用该频率和热词置信度分值来确定是否执行热词之后的命令。
例如,如果用户说出“OK computer,play Michael Jackson(好的计算机,播放Michael Jackson)”,则如果计算设备是用户以其20%的时间来听音乐的电话,则该计算设备可以将该信息连同热词置信度分值一起传送。诸如用户使用5%的时间用来听音乐的平板计算机的计算设备可以将信息连同热词置信度分值一起传送至其它计算设备。该计算设备可以使用热词置信度分值与播放音乐的时间百分比的组合来确定是否执行该命令。
图3示出了能够被用来实现这里所描述的技术的计算设备300和移动计算设备350。计算设备300意图表示各种形式的数字计算机,诸如膝上型电脑、桌面计算机、工作站、个人数字助理、服务器、刀片服务器、大型主机、或其它适当的计算机。移动计算设备350意图表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话、和其它类似计算设备。这里所示的组件、其连接和关系、以及其功能仅意图作为示例性,而并不意味着作为限制。
计算设备300包括处理器302、存储器304、存储设备306、连接到存储器304和高速扩展端口310的高速接口308、以及连接到低速扩展端口314和存储设备306的低速接口312。处理器302、存储器304、存储设备306、高速接口308、高速扩展端口310、和低速接口312中的每一个都使用各种总线互连,并且可以安装在公用主板上或者以其它适当方式进行安装。处理器302能够对用于在计算设备300内执行的指令进行处理,所述指令包括存储在存储器304中或存储设备306上以显示用于外部输入/输出设备上的GUI的图形信息的指令,所述外部输入/输出设备诸如耦合到高速接口308的显示器316。在其它实施方式中,可以视情况使用多个处理器和/或多个总线,连同多个存储器以及多种类型的存储器。而且,可以连接多个计算设备,其中每个设备提供必要操作的一部分(例如作为服务器组、刀片服务器群、或者多处理器系统)。
存储器304存储计算设备300内的信息。在一些实施方式中,存储器304是一个或多个易失性存储单元。在一些实施方式中,存储器304是一个或多个非易失性存储单元。存储器304还可以是另一形式的计算机可读介质,诸如磁盘或光盘。
存储设备306能够提供用于计算设备300的大型存储。在一些实施方式中,存储设备306可以是计算机可读介质或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储器设备、或者设备阵列,包括在存储区域网络或其它配置中的设备。指令能够被存储在信息载体中。该指令当被一个或多个处理设备(例如处理器302)执行时执行诸如以上所描述的那些的一种或多种方法。该指令还能够由诸如计算机或机器可读介质的一个或多个存储设备(例如存储器304、存储设备306、或者处理器302上的存储器)来存储。
高速接口308对计算设备300的带宽密集型操作进行管理,而低速控制器312对较低带宽密集型操作进行管理。这样的功能分配仅是示例性的。在一些实施方式中,高速接口308耦合到存储器304、显示器316(例如通过图形处理器或加速器来耦合),并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口310。在所述实施方式中,低速接口312耦合到存储设备306和低速扩展端口314。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口314可以耦合到诸如键盘、指示设备、扫描仪的一个或多个输入/输出设备,或者例如通过网络适配器耦合到诸如交换机或路由器的联网设备。
如图所示,可以以多种不同形式来实现计算设备300。例如,计算设备300可以被实现为标准服务器320,或者多次被实现在这样的服务器的群组中。此外,计算设备300可以在诸如膝上型计算机322的个人计算机中实现。计算设备300也可以被实现为机架式服务器系统324的一部分。替选地,来自计算设备300的组件可以与诸如移动计算设备350的移动设备(未示出)中的其它组件进行组合。这样的设备中的每一个可以包含计算设备300和移动计算设备350中的一个或多个,并且整个系统可以由相互通信的多个计算设备组成。
除其它组件之外,移动计算设备350包括处理器352、存储器364、诸如显示器354的输入/输出设备、通信接口366、以及收发器368。设备350还可以被提供有诸如微型驱动器或其它设备的存储设备,以提供额外的存储。处理器352、存储器364、显示器354、通信接口366、和收发器368中的每一个使用各种总线互连,并且组件中的若干可以被安装在共用主板上或者以其它适当方式安装。
处理器352能够执行计算设备350内的指令,包括存储在存储器364中的指令。处理器可以被实现为包括单独的和多个模拟和数字处理器的芯片的芯片组。例如,处理器352可以提供对设备350的其它组件的协调,诸如对用户接口、移动计算设备350所运行的应用、以及移动计算设备350所进行的无线通信的控制。
处理器352可以通过耦合到显示器354的控制接口358和显示接口356与用户进行通信。例如,显示器354可以是TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或者其它适当的显示技术。显示接口356可以包括用于驱动显示器354以向用户呈现图形和其它信息的适当电路。控制接口358可以接收来自用户的命令并且对该命令进行转换以用于向处理器352提交。此外,可以提供与处理器352通信的外部接口362,以使得设备350能够与其它设备进行近区域通信。例如,以太接口363在一些实施方式中可以提供有线通信,或者在其它实施方式中提供无线通信,并且还可以使用多个接口。
存储器364存储移动计算设备350内的信息。存储器364可以被实现为一个或多个计算机可读介质或媒体、一个或多个易失性存储单元、或者一个或多个非易失性存储单元。也可以提供扩展存储器374并通过扩展接口372连接至设备350,例如所述扩展接口可以包括SIMM(单列直插内存模块)卡接口。扩展存储器374可以为移动计算设备350提供额外的存储空间,或者还可以存储用于移动计算设备350的应用和其它信息。具体地,扩展存储器374可以包括指令以执行或补充以上所描述的过程,并且还可以包括安全信息。因此,例如,扩展存储器374可以作为移动计算设备350的安全模块来提供,并且可以被编程有许可对移动计算设备350进行安全使用的指令。此外,安全应用连同附加信息可以经由SIMM卡来被提供,诸如以不可非法侵入的方式在SIMM卡上设置识别信息。
如以下所讨论的,例如,存储器可以包括闪存和/或NVRAM存储器(非易失性随机存取存储器)。在一些实施方式中,指令被存储在信息载体中。该指令当被一个或多个处理设备(例如处理器352)执行时,执行诸如以上所描述的那些方法中的一种或多种方法。该指令还能够被诸如一个或多个计算机可读或机器可读介质的一个或多个存储设备(例如存储器364、扩展存储器374、或者处理器352上的存储器)所存储。在一些实施方式中,例如,该指令能够通过收发器368或外部接口362来以传播信号的方式被接收。
在必要的情况下,移动计算设备350可以通过通信接口366来无线地通信,所述通信接口366可以包括数字信号处理电路。通信接口366可以提供在各种模式或协议下的通信,除其它之外,诸如GSM语音通话(全球移动通信系统)、SMS(短消息服务)、EMS(增强型消息服务)、或MMS(多媒体消息服务)消息发送、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000、或GPRS(通用分组无线电服务)。例如,这样的通信可以通过收发器368使用射频来发生。此外,诸如使用蓝牙、WiFi、或其它这样的收发器(未示出)可以发生短距离通信。此外,GPS(全球定位系统)接收器模块370可以向移动计算设备350提供附加的导航相关和位置相关的无线数据,所述无线数据可由在移动计算设备350上运行的应用程序视情况使用。
移动计算设备350还可以使用音频编解码器360可听地通信,所述音频编解码器360可以接收来自用户的语音信息并将其转换为可使用的数字信息。同样,音频编解码器360可一诸如通过例如移动计算设备350的送受话器中的扬声器为用户生成可听的声音。这样的声音可以包括来自语音电话呼叫的声音,可以包括已记录的声音(例如,语音消息、音乐文件等),并且还可以包括在移动计算设备350上操作的应用所生成的声音。
如图所示,可以以多种不同形式来实现移动计算设备350。例如,移动计算设备350可以被实现为蜂窝电话380。移动计算设备350还可以被实现为智能电话382、个人数字助理、或其它类似移动设备的一部分
这里所描述的系统和技术的各种实施方式可以以数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或以上的组合来实现。这些各种实施方式可以包括一个或多个计算机程序中的实施方式,所述计算机程序可以在包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备的可编程系统上执行和/或解释,所述可编程处理器是专用或通用的,被耦合以从存储系统接收数据和指令并且向所述存储系统传送数据和指令。
这些计算机程序(也被称作程序、软件、软件应用程序、或代码)包括用于可编程处理器的机器指令,并且可以以高级程序语言和/或面向对象的编程语言、和/或汇编/机器语言来实现。如本文所使用的,术语机器可读介质和计算机可读介质是指被用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(PLD)),包括接收作为机器可读信号的机器指令的机器可读介质。术语机器可读信号指代用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,这里所描述的系统和技术可在具有下述的计算机上实现::用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器),以及用户通过其可以向计算机提供输入的键盘和指示设备(例如,鼠标或轨迹球)。还能够使用其它类型的设备来提供与用户的交互;例如,提供给用户的反馈可以为任何形式的感官反馈(例如,视觉反馈、听觉反馈、或触觉反馈);并且可以以任何形式来接收来自用户的输入,所述形式包括以声音、语音、或触觉输入。
这里所描述的系统和技术能够以计算系统来实现,所述计算系统包括:后端组件(例如作为数据服务器),或者包括中间组件(例如应用服务器),或者包括前端组件(例如,具有用户通过其可以与这里所描述的系统和技术的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机),或者这样的后端、中间件、或前端组件的组合。所述系统的组件能够通过任何形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(LAN)、广域网(WAN)、和互联网。
计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系依靠在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。
虽然上文中已经详细描述了一些实施方式,但是其它修改也是可能的。例如,虽然客户端应用被描述为访问(一个或多个)委托,但是在其它实施方式中,(一个或多个)委托可以被一个或多个处理器所实现的其它应用所采用,所述其他应用诸如在一个或多个服务器上执行的应用。此外,在图中所描绘的逻辑流不需要所示出的特定顺序或连续顺序来实现所期望的结果。此外,可以提供其它动作,或者可以从所描述的流中消除动作,并且可以向所描述的系统添加其他组件或者从其去除其他组件。因此,其它实施方式在以下权利要求书的范围之内。

Claims (81)

1.一种用于热词检测的计算机实现的方法,包括:
由(i)处于休眠模式以及(ii)被配置为在接收到特定的预定热词时禁用休眠模式并且对语音命令进行响应的第一计算设备接收与之前为所述特定的预定热词的语音命令的话语相对应的音频数据;
当所述第一计算设备保持处于所述休眠模式时,并且响应于接收与之前为所述特定的预定热词的语音命令的话语相对应的音频数据,由所述第一计算设备向(i)与所述第一计算设备短距离电子通信以及(ii)也被配置为对之前为所述特定的预定热词的语音命令进行响应的第二计算设备传送消息;以及
至少基于传送所述消息,尽管接收到与之前为所述特定的预定热词的语音命令的话语相对应的音频数据,由所述第一计算设备确定保持处于所述休眠模式并且不对所述语音命令进行响应。
2.根据权利要求1所述的方法,包括:
从所述第二计算设备接收附加消息,
其中,确定保持处于所述休眠模式并且不对所述语音命令进行响应至少部分地基于来自所述第二计算设备的所述附加消息。
3.根据权利要求1所述的方法,包括:
确定基于与之前为所述特定的预定热词的语音命令的话语相对应的音频数据的热词分值,
其中,所述消息包括所述热词分值。
4.根据权利要求1所述的方法,包括:
确定基于与之前为所述特定的预定热词的语音命令的话语相对应的音频数据的热词分值,
确定所述热词分值满足阈值,
其中,传送所述消息基于确定所述热词满足所述阈值。
5.根据权利要求1所述的方法,其中,在不对与之前为所述特定的预定热词的语音命令的话语相对应的音频数据执行语音识别的情况下,所述第一计算设备传送所述消息。
6.根据权利要求1所述的方法,包括:
确定所述第二计算设备被配置为对之前为所述特定的预定热词的语音命令进行响应,
其中,传送所述消息基于确定所述第二计算设备被配置为对之前为所述特定的预定热词的语音命令进行响应。
7.根据权利要求1所述的方法,其中,所述第一计算设备在特定的时间量内传送所述消息。
8.根据权利要求1所述的方法,包括:
确定基于与之前为所述特定的预定热词的语音命令的话语相对应的音频数据的热词分值;
从所述第二计算设备接收包括由所述第二计算设备确定的附加热词分值的附加消息;以及
将所述热词分值与所述附加热词分值进行比较,
其中,确定保持处于所述休眠模式并且不对所述语音命令进行响应基于将所述热词分值与所述附加热词分值进行比较。
9.一种用于热词检测的系统,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行操作,所述操作包括:
由(i)处于休眠模式以及(ii)被配置为在接收到特定的预定热词时禁用休眠模式并且对语音命令进行响应的第一计算设备接收与之前为所述特定的预定热词的语音命令的话语相对应的音频数据;
当所述第一计算设备保持处于所述休眠模式时,并且响应于接收与之前为所述特定的预定热词的语音命令的话语相对应的音频数据,由所述第一计算设备向(i)与所述第一计算设备短距离电子通信以及(ii)也被配置为对之前为所述特定的预定热词的语音命令进行响应的第二计算设备传送消息;以及
至少基于传送所述消息,尽管接收到与之前为所述特定的预定热词的语音命令的话语相对应的音频数据,由所述第一计算设备确定保持处于所述休眠模式并且不对所述语音命令进行响应。
10.根据权利要求9所述的系统,其中,所述操作进一步包括:
从所述第二计算设备接收附加消息,
其中,确定保持处于所述休眠模式并且不对所述语音命令进行响应至少部分地基于来自所述第二计算设备的所述附加消息。
11.根据权利要求9所述的系统,其中,所述操作进一步包括:
确定基于与之前为所述特定的预定热词的语音命令的话语相对应的音频数据的热词分值,
其中,所述消息包括所述热词分值。
12.根据权利要求9所述的系统,其中,所述操作进一步包括:
确定基于与之前为所述特定的预定热词的语音命令的话语相对应的音频数据的热词分值;以及
确定所述热词分值满足阈值,
其中,传送所述消息基于确定所述热词满足所述阈值。
13.根据权利要求9所述的系统,其中,在不对与之前为所述特定的预定热词的语音命令的话语相对应的音频数据执行语音识别的情况下,所述第一计算设备传送所述消息。
14.根据权利要求9所述的系统,其中,所述操作进一步包括:
确定所述第二计算设备被配置为对之前为所述特定的预定热词的语音命令进行响应,
其中,传送所述消息基于确定所述第二计算设备被配置为对之前为所述特定的预定热词的语音命令进行响应。
15.根据权利要求9所述的系统,其中,所述第一计算设备在特定的时间量内传送所述消息。
16.根据权利要求9所述的系统,其中,所述操作进一步包括:
确定基于与之前为所述特定的预定热词的语音命令的话语相对应的音频数据的热词分值;
从所述第二计算设备接收包括由所述第二计算设备确定的附加热词分值的附加消息;以及
将所述热词分值与所述附加热词分值进行比较,
其中,确定保持处于所述休眠模式并且不对所述语音命令进行响应基于将所述热词分值与所述附加热词分值进行比较。
17.一种存储软件的非暂时性计算机可读介质,所述软件包括能够由一个或多个计算机执行的指令,所述指令在这样的执行时使所述一个或多个计算机执行操作,包括:
由(i)处于休眠模式以及(ii)被配置为在接收到特定的预定热词时禁用休眠模式并且对语音命令进行响应的第一计算设备接收与之前为所述特定的预定热词的语音命令的话语相对应的音频数据;
当所述第一计算设备保持处于所述休眠模式时,并且响应于接收到与之前为所述特定的预定热词的语音命令的话语相对应的音频数据,由所述第一计算设备向(i)与所述第一计算设备短距离电子通信以及(ii)也被配置为对之前为所述特定的预定热词的语音命令进行响应的第二计算设备传送消息;以及
至少基于传送所述消息,尽管接收到与之前为所述特定的预定热词的语音命令的话语相对应的音频数据,由所述第一计算设备确定保持处于所述休眠模式并且不对所述语音命令进行响应。
18.根据权利要求17所述的介质,其中,所述操作进一步包括:
从所述第二计算设备接收附加消息,
其中,确定保持处于所述休眠模式并且不对所述语音命令进行响应至少部分地基于来自所述第二计算设备的所述附加消息。
19.根据权利要求17所述的介质,其中,所述操作进一步包括:
确定基于与之前为所述特定的预定热词的语音命令的话语相对应的音频数据的热词分值,
其中,所述消息包括所述热词分值。
20.根据权利要求17所述的介质,其中,所述操作进一步包括:
确定基于与之前为所述特定的预定热词的语音命令的话语相对应的音频数据的热词分值,
确定所述热词分值满足阈值,
其中,传送所述消息基于确定所述热词满足所述阈值。
21.一种用于热词检测的计算机实现的方法,包括:
由处于休眠模式并且被配置为在使用设备上热词检测器检测到特定的预定热词的话语时退出休眠模式的计算设备接收对应于特定的预定热词的话语的音频数据;
在所述计算设备保持处于所述休眠模式时并且响应于接收到对应于所述特定的预定热词的所述话语的所述音频数据,由所述计算设备向被配置为在检测到所述特定的预定热词的话语时退出休眠模式的另一计算设备传送使用所述设备上热词检测器处理所述音频数据的输出;
在所述计算设备保持处于休眠模式时,由所述计算设备从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的附加输出;以及
在传送使用所述设备上热词检测器处理所述音频数据的输出之后并且在从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的附加输出之后,由所述计算设备确定保持处于所述休眠模式。
22.根据权利要求21所述的方法,
其中,确定保持处于所述休眠模式至少部分地基于从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的所述附加输出。
23.根据权利要求21所述的方法,包括:
确定基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的可能性的热词置信度分值,
其中,使用所述设备上热词检测器处理所述音频数据的输出包括所述热词置信度分值。
24.根据权利要求21所述的方法,包括:
确定基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的可能性的热词置信度分值;以及
确定所述热词置信度分值满足阈值,
其中,传送使用所述设备上热词检测器处理所述音频数据的输出基于确定所述热词置信度分值满足所述阈值。
25.根据权利要求21所述的方法,其中,在不对与所述特定的预定热词的话语相对应的音频数据执行语音识别的情况下,所述计算设备传送使用所述设备上热词检测器处理所述音频数据的输出。
26.根据权利要求21所述的方法,其中:
所述计算设备在特定的时间量内传送使用所述设备上热词检测器处理所述音频数据的输出,以及
在特定的时间量内传送使用所述设备上热词检测器处理所述音频数据的输出之后,所述计算设备确定保持处于所述休眠模式。
27.根据权利要求21所述的方法,包括:
确定基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的可能性的热词置信度分值,
其中,由所述计算设备从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的附加输出包括由所述计算设备从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的附加可能性的热词置信度分值,
其中,所述方法包括将所述热词置信度分值与附加热词置信度分值进行比较,以及
其中,确定保持处于所述休眠模式基于将所述热词置信度分值与所述附加热词置信度分值进行比较。
28.根据权利要求21所述的方法,其中:
所述另一计算设备处于所述计算设备附近;
所述计算设备通过所述计算设备的麦克风接收所述特定的预定热词的话语;
所述另一计算设备通过所述计算设备的另一麦克风接收所述特定的预定热词的话语;
处理所述音频数据的所述附加输出基于所述另一计算设备对由所述另一计算设备接收的所述特定预定热词的话语的处理。
29.一种用于热词检测的系统,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行操作,所述操作包括:
由处于休眠模式并且被配置为在使用设备上热词检测器检测到特定的预定热词的话语时退出休眠模式的计算设备接收对应于特定的预定热词的话语的音频数据;
在所述计算设备保持处于所述休眠模式时并且响应于接收到对应于所述特定的预定热词的所述话语的所述音频数据,由所述计算设备向被配置为在检测到所述特定的预定热词的话语时退出休眠模式的另一计算设备传送使用所述设备上热词检测器处理所述音频数据的输出;
在所述计算设备保持处于休眠模式时,由所述计算设备从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的附加输出;以及
在传送使用所述设备上热词检测器处理所述音频数据的输出之后并且在从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的附加输出之后,由所述计算设备确定保持处于所述休眠模式。
30.根据权利要求29所述的系统,
其中,确定保持处于所述休眠模式至少部分地基于从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的所述附加输出。
31.根据权利要求29所述的系统,其中,所述操作进一步包括:
确定基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的可能性的热词置信度分值,
其中,使用所述设备上热词检测器处理所述音频数据的输出包括所述热词置信度分值。
32.根据权利要求29所述的系统,其中,所述操作进一步包括:
确定基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的可能性的热词置信度分值;以及
确定所述热词置信度分值满足阈值,
其中,传送使用所述设备上热词检测器处理所述音频数据的输出基于确定所述热词置信度分值满足所述阈值。
33.根据权利要求29所述的系统,其中,在不对与所述特定的预定热词的话语相对应的音频数据执行语音识别的情况下,所述计算设备传送使用所述设备上热词检测器处理所述音频数据的输出。
34.根据权利要求29所述的系统,其中:
所述计算设备在特定的时间量内传送使用所述设备上热词检测器处理所述音频数据的输出,以及
在特定的时间量内传送使用所述设备上热词检测器处理所述音频数据的输出之后,所述计算设备确定保持处于所述休眠模式。
35.根据权利要求29所述的系统,其中,所述操作进一步包括:
确定基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的可能性的热词置信度分值,
其中,由所述计算设备从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的附加输出包括由所述计算设备从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的附加可能性的热词置信度分值,
其中,所述操作进一步包括将所述热词置信度分值与附加热词置信度分值进行比较,以及
其中,确定保持处于所述休眠模式基于将所述热词置信度分值与所述附加热词置信度分值进行比较。
36.一种存储软件的非暂时性计算机可读介质,所述软件包括能够由一个或多个计算机执行的指令,所述指令在这样的执行时使所述一个或多个计算机执行操作,包括:
由处于休眠模式并且被配置为在使用设备上热词检测器检测到特定的预定热词的话语时退出休眠模式的计算设备接收对应于特定的预定热词的话语的音频数据;
在所述计算设备保持处于所述休眠模式时并且响应于接收到对应于所述特定的预定热词的所述话语的所述音频数据,由所述计算设备向被配置为在检测到所述特定的预定热词的话语时退出休眠模式的另一计算设备传送使用所述设备上热词检测器处理所述音频数据的输出;
在所述计算设备保持处于休眠模式时,由所述计算设备从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的附加输出;以及
在传送使用所述设备上热词检测器处理所述音频数据的输出之后并且在从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的附加输出之后,由所述计算设备确定保持处于所述休眠模式。
37.根据权利要求36所述的介质,
其中,确定保持处于所述休眠模式至少部分地基于从被配置为在检测到所述特定的预定热词的话语时退出休眠模式的所述另一计算设备接收处理所述音频数据的所述附加输出。
38.根据权利要求36所述的介质,其中,所述操作进一步包括:
确定基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的可能性的热词置信度分值,
其中,使用所述设备上热词检测器处理所述音频数据的输出包括所述热词置信度分值。
39.根据权利要求36所述的介质,其中,所述操作进一步包括:
确定基于与所述特定的预定热词的话语相对应的音频数据并且反映所述音频数据包括所述特定的预定热词的可能性的热词置信度分值;以及
确定所述热词置信度分值满足阈值,
其中,传送使用所述设备上热词检测器处理所述音频数据的输出基于确定所述热词置信度分值满足所述阈值。
40.根据权利要求36所述的介质,其中,在不对与所述特定的预定热词的话语相对应的音频数据执行语音识别的情况下,所述计算设备传送使用所述设备上热词检测器处理所述音频数据的输出。
41.根据权利要求36所述的介质,其中:
所述计算设备在特定的时间量内传送使用所述设备上热词检测器处理所述音频数据的输出,以及
在特定的时间量内传送使用所述设备上热词检测器处理所述音频数据的输出之后,所述计算设备确定保持处于所述休眠模式。
42.一种用于热词检测的计算机实现的方法,包括:
由处于休眠模式的计算设备接收包括特定的预定热词的话语的音频数据;
在所述计算设备保持处于所述休眠模式时并且响应于接收到包括所述特定的预定热词的所述话语的所述音频数据,由所述计算设备传送消息;
在所述计算设备保持处于所述休眠模式的同时,由所述计算设备接收附加消息;以及
基于所述消息和所述附加消息,由所述计算设备确定退出所述休眠模式。
43.根据权利要求42所述的方法,包括:
基于所述消息和所述附加消息,由所述计算设备对所述音频数据执行自动语音识别处理。
44.根据权利要求42所述的方法,其中,接收附加消息包括:
由所述计算设备从处于休眠模式的附加计算设备接收所述附加消息。
45.根据权利要求44所述的方法,其中:
所述计算设备被配置为响应于检测到所述特定的预定热词的话语而退出所述休眠模式,以及
所述附加计算设备被配置为响应于检测到所述特定的预定热词的话语而退出所述休眠模式。
46.根据权利要求42所述的方法,包括:
在不对所述音频数据执行自动语音识别处理的情况下,由所述计算设备确定所述音频数据包括特定的预定热词的话语。
47.根据权利要求42所述的方法,包括:
由所述计算设备确定热词分值,所述热词分值反映所述音频数据包括所述特定的预定热词的话语的可能性,
其中,所述消息包括所述热词分值。
48.根据权利要求42所述的方法,包括:
由所述计算设备确定热词分值,所述热词分值反映所述音频数据包括所述特定的预定热词的话语的可能性;以及
由所述计算设备确定所述热词分值满足阈值,
其中,传送所述消息是基于确定所述热词分值满足所述阈值。
49.根据权利要求42所述的方法,包括:
由所述计算设备将所述消息与所述附加消息进行比较;
基于将所述消息与所述附加消息进行比较,确定退出所述休眠模式。
50.根据权利要求42所述的方法,其中,所述计算设备在特定的时间量内传送所述消息。
51.一种用于热词检测的系统,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行操作,所述操作包括:
由处于休眠模式的计算设备接收包括特定的预定热词的话语的音频数据;
在所述计算设备保持处于所述休眠模式时并且响应于接收到包括所述特定的预定热词的所述话语的所述音频数据,由所述计算设备传送消息;
在所述计算设备保持处于所述休眠模式的同时,由所述计算设备接收附加消息;以及
基于所述消息和所述附加消息,由所述计算设备确定退出所述休眠模式。
52.根据权利要求51所述的系统,其中,所述操作包括:
基于所述消息和所述附加消息,由所述计算设备对所述音频数据执行自动语音识别处理。
53.根据权利要求51所述的系统,其中,接收附加消息包括:
由所述计算设备从处于休眠模式的附加计算设备接收所述附加消息。
54.根据权利要求53所述的系统,其中:
所述计算设备被配置为响应于检测到所述特定的预定热词的话语而退出所述休眠模式,以及
所述附加计算设备被配置为响应于检测到所述特定的预定热词的话语而退出所述休眠模式。
55.根据权利要求51所述的系统,其中,所述操作包括:
在不对所述音频数据执行自动语音识别处理的情况下,由所述计算设备确定所述音频数据包括特定的预定热词的话语。
56.根据权利要求51所述的系统,其中,所述操作包括:
由所述计算设备确定热词分值,所述热词分值反映所述音频数据包括所述特定的预定热词的话语的可能性,
其中,所述消息包括所述热词分值。
57.根据权利要求51所述的系统,其中,所述操作包括:
由所述计算设备确定热词分值,所述热词分值反映所述音频数据包括所述特定的预定热词的话语的可能性;以及
由所述计算设备确定所述热词分值满足阈值,
其中,传送所述消息是基于确定所述热词分值满足所述阈值。
58.根据权利要求51所述的系统,其中,所述操作包括:
由所述计算设备将所述消息与所述附加消息进行比较;
基于将所述消息与所述附加消息进行比较,确定退出所述休眠模式。
59.根据权利要求51所述的系统,其中,所述计算设备在特定的时间量内传送所述消息。
60.一种存储软件的非暂时性计算机可读介质,所述软件包括能够由一个或多个计算机执行的指令,所述指令在这样的执行时使所述一个或多个计算机执行操作,包括:
由处于休眠模式的计算设备接收包括特定的预定热词的话语的音频数据;
在所述计算设备保持处于所述休眠模式时并且响应于接收到包括所述特定的预定热词的所述话语的所述音频数据,由所述计算设备传送消息;
在所述计算设备保持处于所述休眠模式的同时,由所述计算设备接收附加消息;以及
基于所述消息和所述附加消息,由所述计算设备确定退出所述休眠模式。
61.根据权利要求60所述的介质,其中,所述操作包括:
基于所述消息和所述附加消息,由所述计算设备对所述音频数据执行自动语音识别处理。
62.一种用于热词检测的计算机实现的方法,包括:
由计算设备接收音频数据;
由所述计算设备确定所述音频数据可能包括特定的预定热词的话语;
响应于确定所述音频数据可能包括所述特定的预定热词的话语,由所述计算设备向附加计算设备传送数据;
响应于向所述附加计算设备传送所述数据,由所述计算设备从所述附加计算设备接收附加数据;以及
基于所述附加数据,由所述计算设备确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令。
63.根据权利要求62所述的方法,包括:
由所述计算设备基于所述音频数据生成所述数据。
64.根据权利要求62所述的方法,其中,确定所述音频数据可能包括所述特定的预定热词的话语包括:
在不对所述音频数据执行自动语音识别的情况下,确定所述音频数据可能包括所述特定的预定热词的话语。
65.根据权利要求62所述的方法,包括:
通过确定执行包括在所述话语中的在所述特定的预定热词之后的所述命令来确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令;
由所述计算设备对所述音频数据执行自动语音识别;
基于对所述音频数据执行自动语音识别,由所述计算设备识别包括在所述话语中的所述命令;以及
由所述计算设备执行所述命令。
66.根据权利要求62所述的方法,包括:
通过在所述计算设备处于休眠模式的同时接收所述音频数据,来接收所述音频数据;
通过确定绕过执行包括在所述话语中的在所述特定的预定热词之后的命令,确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令;以及
基于确定绕过执行包括在所述话语中的在所述特定的预定热词之后的命令,将所述计算设备维持在所述休眠模式。
67.根据权利要求62所述的方法,包括:
由所述计算设备基于包括所述特定的预定热词的话语的所述音频数据的一部分来生成所述数据。
68.根据权利要求62所述的方法,其中,来自所述附加计算设备的所述附加数据指示所述音频数据包括所述特定的预定热词的话语的可能性。
69.一种用于热词检测的系统,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行操作,所述操作包括:
由计算设备接收音频数据;
由所述计算设备确定所述音频数据可能包括特定的预定热词的话语;
响应于确定所述音频数据可能包括所述特定的预定热词的话语,由所述计算设备向附加计算设备传送数据;
响应于向所述附加计算设备传送所述数据,由所述计算设备从所述附加计算设备接收附加数据;以及
基于所述附加数据,由所述计算设备确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令。
70.根据权利要求69所述的系统,其中,所述操作包括:
由所述计算设备基于所述音频数据生成所述数据。
71.根据权利要求69所述的系统,其中,确定所述音频数据可能包括所述特定的预定热词的话语包括:
在不对所述音频数据执行自动语音识别的情况下,确定所述音频数据可能包括所述特定的预定热词的话语。
72.根据权利要求69所述的系统,其中,所述操作包括:
通过确定执行包括在所述话语中的在所述特定的预定热词之后的所述命令来确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令;
由所述计算设备对所述音频数据执行自动语音识别;
基于对所述音频数据执行自动语音识别,由所述计算设备识别包括在所述话语中的所述命令;以及
由所述计算设备执行所述命令。
73.根据权利要求69所述的系统,其中,所述操作包括:
通过在所述计算设备处于休眠模式的同时接收所述音频数据,来接收所述音频数据;
通过确定绕过执行包括在所述话语中的在所述特定的预定热词之后的命令,确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令;以及
基于确定绕过执行包括在所述话语中的在所述特定的预定热词之后的命令,将所述计算设备维持在所述休眠模式。
74.根据权利要求69所述的系统,其中,所述操作包括:
由所述计算设备基于包括所述特定的预定热词的话语的所述音频数据的一部分来生成所述数据。
75.根据权利要求69所述的系统,其中,来自所述附加计算设备的所述附加数据指示所述音频数据包括所述特定的预定热词的话语的可能性。
76.一种存储软件的非暂时性计算机可读介质,所述软件包括能够由一个或多个计算机执行的指令,所述指令在这样的执行时使所述一个或多个计算机执行操作,包括:
由计算设备接收音频数据;
由所述计算设备确定所述音频数据可能包括特定的预定热词的话语;
响应于确定所述音频数据可能包括所述特定的预定热词的话语,由所述计算设备向附加计算设备传送数据;
响应于向所述附加计算设备传送所述数据,由所述计算设备从所述附加计算设备接收附加数据;以及
基于所述附加数据,由所述计算设备确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令。
77.根据权利要求76所述的介质,其中,确定所述音频数据可能包括所述特定的预定热词的话语包括:
在不对所述音频数据执行自动语音识别的情况下,确定所述音频数据可能包括所述特定的预定热词的话语。
78.根据权利要求76所述的介质,其中,所述操作包括:
通过确定执行包括在所述话语中的在所述特定的预定热词之后的所述命令来确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令;
由所述计算设备对所述音频数据执行自动语音识别;
基于对所述音频数据执行自动语音识别,由所述计算设备识别包括在所述话语中的所述命令;以及
由所述计算设备执行所述命令。
79.根据权利要求76所述的介质,其中,所述操作包括:
通过在所述计算设备处于休眠模式的同时接收所述音频数据,来接收所述音频数据;
通过确定绕过执行包括在所述话语中的在所述特定的预定热词之后的命令,确定是否执行包括在所述话语中的在所述特定的预定热词之后的命令;以及
基于确定绕过执行包括在所述话语中的在所述特定的预定热词之后的命令,将所述计算设备维持在所述休眠模式。
80.根据权利要求76所述的介质,其中,所述操作包括:
由所述计算设备基于包括所述特定的预定热词的话语的所述音频数据的一部分来生成所述数据。
81.根据权利要求76所述的介质,其中,来自所述附加计算设备的所述附加数据指示所述音频数据包括所述特定的预定热词的话语的可能性。
CN201911100052.5A 2014-10-09 2015-09-29 多个设备上的热词检测 Active CN111028826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911100052.5A CN111028826B (zh) 2014-10-09 2015-09-29 多个设备上的热词检测

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201462061830P 2014-10-09 2014-10-09
US62/061,830 2014-10-09
US14/675,932 2015-04-01
US14/675,932 US9318107B1 (en) 2014-10-09 2015-04-01 Hotword detection on multiple devices
CN201580008549.8A CN106030699B (zh) 2014-10-09 2015-09-29 多个设备上的热词检测
PCT/US2015/052860 WO2016057268A1 (en) 2014-10-09 2015-09-29 Hotword detection on multiple devices
CN201911100052.5A CN111028826B (zh) 2014-10-09 2015-09-29 多个设备上的热词检测

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580008549.8A Division CN106030699B (zh) 2014-10-09 2015-09-29 多个设备上的热词检测

Publications (2)

Publication Number Publication Date
CN111028826A CN111028826A (zh) 2020-04-17
CN111028826B true CN111028826B (zh) 2024-02-06

Family

ID=54330874

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201911100052.5A Active CN111028826B (zh) 2014-10-09 2015-09-29 多个设备上的热词检测
CN201580008549.8A Active CN106030699B (zh) 2014-10-09 2015-09-29 多个设备上的热词检测

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580008549.8A Active CN106030699B (zh) 2014-10-09 2015-09-29 多个设备上的热词检测

Country Status (7)

Country Link
US (8) US9318107B1 (zh)
EP (5) EP3139378B1 (zh)
JP (7) JP6208376B2 (zh)
KR (2) KR101832648B1 (zh)
CN (2) CN111028826B (zh)
DE (1) DE202015010012U1 (zh)
WO (1) WO2016057268A1 (zh)

Families Citing this family (359)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) * 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
KR20160023089A (ko) * 2014-08-21 2016-03-03 엘지전자 주식회사 디지털 디바이스 및 그 제어 방법
US10748539B2 (en) * 2014-09-10 2020-08-18 Crestron Electronics, Inc. Acoustic sensory network
US10204622B2 (en) 2015-09-10 2019-02-12 Crestron Electronics, Inc. Acoustic sensory network
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102505347B1 (ko) * 2015-07-16 2023-03-03 삼성전자주식회사 사용자 관심 음성 알림 장치 및 방법
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10783888B2 (en) * 2015-09-10 2020-09-22 Crestron Electronics Inc. System and method for determining recipient of spoken command in a control system
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
US9653075B1 (en) * 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10026401B1 (en) 2015-12-28 2018-07-17 Amazon Technologies, Inc. Naming devices via voice commands
US10185544B1 (en) * 2015-12-28 2019-01-22 Amazon Technologies, Inc. Naming devices via voice commands
US10127906B1 (en) 2015-12-28 2018-11-13 Amazon Technologies, Inc. Naming devices via voice commands
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9779735B2 (en) * 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US10229687B2 (en) * 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9948479B2 (en) * 2016-04-05 2018-04-17 Vivint, Inc. Identification graph theory
JP2019518985A (ja) * 2016-05-13 2019-07-04 ボーズ・コーポレーションBose Corporation 分散したマイクロホンからの音声の処理
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) * 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10810212B2 (en) * 2016-07-29 2020-10-20 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Validating provided information in a conversation
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CA3117645C (en) 2016-09-19 2023-01-03 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
TWI606390B (zh) * 2016-09-23 2017-11-21 元鼎音訊股份有限公司 可自動調整聲音輸出之方法及電子裝置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
WO2018067528A1 (en) * 2016-10-03 2018-04-12 Google Llc Device leadership negotiation among voice interface devices
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10592611B2 (en) * 2016-10-24 2020-03-17 Conduent Business Services, Llc System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
EP3637414B1 (en) * 2016-11-07 2024-01-03 Google LLC Recorded media hotword trigger suppression
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10311875B2 (en) * 2016-12-22 2019-06-04 Soundhound, Inc. Full-duplex utterance processing in a natural language virtual assistant
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
EP3580999B1 (en) * 2017-02-07 2021-03-17 Lutron Technology Company LLC Audio-based load control system
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10810510B2 (en) 2017-02-17 2020-10-20 International Business Machines Corporation Conversation and context aware fraud and abuse prevention agent
US10102868B2 (en) * 2017-02-17 2018-10-16 International Business Machines Corporation Bot-based honeypot poison resilient data collection
US10757058B2 (en) 2017-02-17 2020-08-25 International Business Machines Corporation Outgoing communication scam prevention
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
KR102622356B1 (ko) * 2017-04-20 2024-01-08 구글 엘엘씨 장치에 대한 다중 사용자 인증
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
IL252071A0 (en) * 2017-05-03 2017-07-31 Google Inc Contextual language translation
CN108235745B (zh) * 2017-05-08 2021-01-08 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) * 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10665232B2 (en) * 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
KR102052510B1 (ko) * 2017-08-03 2019-12-05 에스케이브로드밴드주식회사 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
JP6513749B2 (ja) * 2017-08-09 2019-05-15 レノボ・シンガポール・プライベート・リミテッド 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
KR102486912B1 (ko) * 2017-08-10 2023-01-11 에스케이텔레콤 주식회사 음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US20190065608A1 (en) * 2017-08-29 2019-02-28 Lenovo (Singapore) Pte. Ltd. Query input received at more than one device
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10403288B2 (en) 2017-10-17 2019-09-03 Google Llc Speaker diarization
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
US10867623B2 (en) * 2017-11-14 2020-12-15 Thomas STACHURA Secure and private processing of gestures via video input
US10999733B2 (en) 2017-11-14 2021-05-04 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening device
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
US10276175B1 (en) * 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10102858B1 (en) * 2017-11-29 2018-10-16 International Business Machines Corporation Dynamically changing audio keywords
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
WO2019112625A1 (en) * 2017-12-08 2019-06-13 Google Llc Signal processing coordination among digital voice assistant computing devices
CN116705020A (zh) * 2017-12-08 2023-09-05 谷歌有限责任公司 使设备与环境中的多个设备隔离以响应口头助理调用
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
CN111512365B (zh) * 2017-12-31 2023-06-13 美的集团股份有限公司 对多个家庭装置进行控制的方法和系统
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
KR102679107B1 (ko) * 2018-02-23 2024-06-27 삼성전자주식회사 세탁 기기 및 그의 제어 방법
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
CN110574105B (zh) 2018-03-07 2024-01-23 谷歌有限责任公司 用于基于语音发起定制装置动作的系统和方法
US11087752B2 (en) * 2018-03-07 2021-08-10 Google Llc Systems and methods for voice-based initiation of custom device actions
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US11240057B2 (en) * 2018-03-15 2022-02-01 Lenovo (Singapore) Pte. Ltd. Alternative output response based on context
US11163377B2 (en) * 2018-03-22 2021-11-02 Adobe Inc. Remote generation of executable code for a client application based on natural language commands captured at a client device
US10755706B2 (en) * 2018-03-26 2020-08-25 Midea Group Co., Ltd. Voice-based user interface with dynamically switchable endpoints
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11151991B2 (en) * 2018-03-30 2021-10-19 Verizon Media Inc. Electronic message transmission
WO2019198132A1 (ja) * 2018-04-09 2019-10-17 マクセル株式会社 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
SG11201912053XA (en) * 2018-04-16 2020-01-30 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
EP4254402A3 (en) 2018-04-16 2023-12-20 Google LLC Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
EP3564949A1 (en) * 2018-04-23 2019-11-06 Spotify AB Activation trigger processing
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN108615526B (zh) * 2018-05-08 2020-07-07 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10692496B2 (en) * 2018-05-22 2020-06-23 Google Llc Hotword suppression
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN111954868A (zh) * 2018-05-31 2020-11-17 江苏树实科技有限公司 一种多语音助手控制方法、装置、系统及计算机可读存储介质
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US11437029B2 (en) 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
GB2574803B (en) * 2018-06-11 2022-12-07 Xmos Ltd Communication between audio devices
US10783886B2 (en) * 2018-06-12 2020-09-22 International Business Machines Corporation Cognitive agent disambiguation
US11348586B2 (en) * 2018-06-21 2022-05-31 Dell Products L.P. Systems and methods for extending and enhancing voice assistant and/or telecommunication software functions to a remote endpoint device
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN108922528B (zh) * 2018-06-29 2020-10-23 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
US11373640B1 (en) * 2018-08-01 2022-06-28 Amazon Technologies, Inc. Intelligent device grouping
KR102570301B1 (ko) * 2018-08-02 2023-08-25 삼성전자주식회사 전자 장치 및 그 제어 방법
EP4280579A3 (en) * 2018-08-09 2024-02-28 Google LLC Hotword recognition and passive assistance
JP7018850B2 (ja) * 2018-08-20 2022-02-14 ヤフー株式会社 端末装置、決定方法、決定プログラム及び決定装置
CN112292724A (zh) 2018-08-21 2021-01-29 谷歌有限责任公司 用于调用自动助理的动态和/或场境特定热词
CN112272846A (zh) 2018-08-21 2021-01-26 谷歌有限责任公司 用于调用自动助理的动态的和/或特定于场境的热词
KR20230145521A (ko) 2018-08-23 2023-10-17 구글 엘엘씨 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기
KR20200024068A (ko) * 2018-08-27 2020-03-06 삼성전자주식회사 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템
US11514917B2 (en) * 2018-08-27 2022-11-29 Samsung Electronics Co., Ltd. Method, device, and system of selectively using multiple voice data receiving devices for intelligent service
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
CN109391528A (zh) * 2018-08-31 2019-02-26 百度在线网络技术(北京)有限公司 语音智能设备的唤醒方法、装置、设备及存储介质
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
KR102146524B1 (ko) * 2018-09-19 2020-08-20 주식회사 포티투마루 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램
WO2020060311A1 (en) 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11119725B2 (en) * 2018-09-27 2021-09-14 Abl Ip Holding Llc Customizable embedded vocal command sets for a lighting and/or other environmental controller
US11152003B2 (en) * 2018-09-27 2021-10-19 International Business Machines Corporation Routing voice commands to virtual assistants
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10777186B1 (en) * 2018-11-13 2020-09-15 Amazon Technolgies, Inc. Streaming real-time automatic speech recognition service
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074680A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 단말 장치 및 이의 제어 방법
KR20200074690A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111415657A (zh) * 2019-01-07 2020-07-14 成都启英泰伦科技有限公司 一种去中心化设备、多设备系统及其语音控制方法
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
CN113728380A (zh) 2019-02-07 2021-11-30 托马斯·斯塔胡拉 用于智能扬声器的隐私装置
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11195518B2 (en) 2019-03-27 2021-12-07 Sonova Ag Hearing device user communicating with a wireless communication device
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
US11361765B2 (en) * 2019-04-19 2022-06-14 Lg Electronics Inc. Multi-device control system and method and non-transitory computer-readable medium storing component for executing the same
CN110136707B (zh) * 2019-04-22 2021-03-02 云知声智能科技股份有限公司 一种用于进行多设备自主决策的人机交互系统
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
WO2020222539A1 (en) * 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
KR20220001522A (ko) 2019-05-29 2022-01-06 엘지전자 주식회사 장치 정보에 기반하여, 다른 장치를 제어할 수 있는 인공 지능 장치
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
CN110148401B (zh) * 2019-07-02 2023-12-15 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110364151B (zh) * 2019-07-15 2024-01-30 华为技术有限公司 一种语音唤醒的方法和电子设备
EP4220631B1 (en) * 2019-07-29 2024-02-28 Samsung Electronics Co., Ltd. System and method for registering device for voice assistant service
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
JP2022542113A (ja) * 2019-07-30 2022-09-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数装置の起動ワード検出
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质
KR102243325B1 (ko) * 2019-09-11 2021-04-22 넷마블 주식회사 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램
CN110660390B (zh) * 2019-09-17 2022-05-03 百度在线网络技术(北京)有限公司 智能设备唤醒方法、智能设备及计算机可读存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
DE102019215099B4 (de) * 2019-10-01 2022-09-29 Audi Ag Verfahren zum Bereitstellen einer aktuellen lokalen Umgebungszustandskarte für ein Kraftfahrzeug sowie Kraftfahrzeug zum Durchführen eines derartigen Verfahrens
KR102629796B1 (ko) * 2019-10-15 2024-01-26 삼성전자 주식회사 음성 인식의 향상을 지원하는 전자 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110890092B (zh) * 2019-11-07 2022-08-05 北京小米移动软件有限公司 唤醒控制方法及装置、计算机存储介质
US11315551B2 (en) * 2019-11-07 2022-04-26 Accent Global Solutions Limited System and method for intent discovery from multimedia conversation
US11061958B2 (en) 2019-11-14 2021-07-13 Jetblue Airways Corporation Systems and method of generating custom messages based on rule-based database queries in a cloud platform
US11450325B1 (en) 2019-12-12 2022-09-20 Amazon Technologies, Inc. Natural language processing
US11551681B1 (en) * 2019-12-13 2023-01-10 Amazon Technologies, Inc. Natural language processing routing
US11380308B1 (en) 2019-12-13 2022-07-05 Amazon Technologies, Inc. Natural language processing
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111048086B (zh) * 2019-12-24 2022-10-21 思必驰科技股份有限公司 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
KR20210098250A (ko) * 2020-01-31 2021-08-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
EP3866157B1 (de) 2020-02-13 2024-04-03 Deutsche Telekom AG Elektronische assistenzvorrichtung und betriebsverfahren
US12073827B2 (en) 2020-02-26 2024-08-27 Google Llc Pre-emptively limiting responsiveness of various assistant devices in an environment using an inaudible tone or other rendered output
JP7460794B2 (ja) * 2020-04-08 2024-04-02 グーグル エルエルシー ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャ
KR20210136463A (ko) 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11887589B1 (en) * 2020-06-17 2024-01-30 Amazon Technologies, Inc. Voice-based interactions with a graphical user interface
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11670293B2 (en) 2020-09-02 2023-06-06 Google Llc Arbitrating between multiple potentially-responsive electronic devices
US11727925B2 (en) * 2020-10-13 2023-08-15 Google Llc Cross-device data synchronization based on simultaneous hotword triggers
US11798530B2 (en) 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112652310B (zh) * 2020-12-31 2024-08-09 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US20220284883A1 (en) * 2021-03-05 2022-09-08 Comcast Cable Communications, Llc Keyword Detection
US12014734B2 (en) * 2021-07-22 2024-06-18 International Business Machines Corporation Dynamic boundary creation for voice command authentication
US12039267B2 (en) * 2021-09-30 2024-07-16 Intuit Inc. Automated categorization of data by generating unity and reliability metrics
CN115547337B (zh) * 2022-11-25 2023-03-03 深圳市人马互动科技有限公司 语音识别方法及相关产品
KR20240092249A (ko) * 2022-12-14 2024-06-24 삼성전자주식회사 전자 장치 및 이의 동작 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1425158A (zh) * 1999-11-23 2003-06-18 高通股份有限公司 语音控制外语翻译设备用的方法和装置
CN101588418A (zh) * 2008-05-23 2009-11-25 埃森哲环球服务有限公司 用于处理多个流式语音信号的方法及设备
ES2409530A2 (es) * 2011-10-14 2013-06-26 Telefónica, S.A. Método para gestionar el reconocimiento del habla de llamadas de audio
CN103430232A (zh) * 2011-01-21 2013-12-04 谷歌公司 利用设备停靠情境的语音识别
CN103971685A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 语音命令识别方法和系统

Family Cites Families (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS59180599A (ja) * 1983-03-31 1984-10-13 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
US5659665A (en) * 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP3522421B2 (ja) 1995-10-31 2004-04-26 株式会社リコー 話者認識システムおよび話者認識方法
US5895448A (en) 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
SE511418C2 (sv) 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US6076055A (en) 1997-05-27 2000-06-13 Ameritech Speaker verification method
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JPH1152976A (ja) * 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
JP3524370B2 (ja) * 1998-02-19 2004-05-10 富士通テン株式会社 音声起動システム
JP2000075954A (ja) 1998-09-02 2000-03-14 Sony Corp 電子機器制御装置
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6744860B1 (en) * 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
US6671672B1 (en) * 1999-03-30 2003-12-30 Nuance Communications Voice authentication system having cognitive recall mechanism for password verification
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP3357629B2 (ja) * 1999-04-26 2002-12-16 旭化成株式会社 設備制御システム
DE10015960C2 (de) * 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US6567775B1 (en) 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6826159B1 (en) 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
EP1168736A1 (en) * 2000-06-30 2002-01-02 Alcatel Telecommunication system and method with a speech recognizer
US7016833B2 (en) 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6973426B1 (en) 2000-12-29 2005-12-06 Cisco Technology, Inc. Method and apparatus for performing speaker verification based on speaker independent recognition of commands
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
JP4086280B2 (ja) 2002-01-29 2008-05-14 株式会社東芝 音声入力システム、音声入力方法及び音声入力プログラム
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2003345391A (ja) 2002-05-23 2003-12-03 Denso Corp 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム
US20030231746A1 (en) 2002-06-14 2003-12-18 Hunter Karla Rae Teleconference speaker identification
TW200409525A (en) * 2002-11-26 2004-06-01 Lite On Technology Corp Voice identification method for cellular phone and cellular phone with voiceprint password
EP1429314A1 (en) 2002-12-13 2004-06-16 Sony International (Europe) GmbH Correction of energy as input feature for speech processing
US7222072B2 (en) * 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US7571014B1 (en) 2004-04-01 2009-08-04 Sonos, Inc. Method and apparatus for controlling multimedia players in a multi-zone system
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US20070198262A1 (en) 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
US20050165607A1 (en) * 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
US8214447B2 (en) 2004-06-08 2012-07-03 Bose Corporation Managing an audio network
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8521529B2 (en) 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
JP2006227634A (ja) * 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
CN1996847B (zh) 2006-12-27 2010-05-19 中国科学院上海技术物理研究所 基于协作网格的图像及多媒体数据通信与存储系统
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8385233B2 (en) 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
JP2009104020A (ja) 2007-10-25 2009-05-14 Panasonic Electric Works Co Ltd 音声認識装置
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8676586B2 (en) * 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9922640B2 (en) * 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8209174B2 (en) 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN101923853B (zh) 2009-06-12 2013-01-23 华为技术有限公司 说话人识别方法、设备和系统
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
JP2011232521A (ja) 2010-04-27 2011-11-17 On Semiconductor Trading Ltd 音声認識装置
KR101672212B1 (ko) 2010-06-15 2016-11-04 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
US8719018B2 (en) 2010-10-25 2014-05-06 Lockheed Martin Corporation Biometric speaker identification
US8874773B2 (en) 2010-11-30 2014-10-28 Gary W. Grube Obtaining group and individual emergency preparedness communication information
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
WO2013078388A1 (en) * 2011-11-21 2013-05-30 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance
US8825020B2 (en) * 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US20140006825A1 (en) 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
JP6131537B2 (ja) 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US8983836B2 (en) * 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
WO2014064324A1 (en) 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US8996372B1 (en) * 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
JP2014092777A (ja) 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動
US20140156281A1 (en) * 2012-12-03 2014-06-05 Qualcomm Incorporated Voice-controlled configuration of an automation system
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
JP2014130445A (ja) * 2012-12-28 2014-07-10 Toshiba Corp 情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラム
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US9256269B2 (en) 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9312826B2 (en) * 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US8768687B1 (en) * 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9380654B2 (en) 2013-07-11 2016-06-28 General Electric Company Light emitting diode (LED) lamp replacement driver for linear fluorescent lamps
US20150032238A1 (en) * 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
WO2015025330A1 (en) 2013-08-21 2015-02-26 Kale Aaditya Kishore A system to enable user to interact with an electronic processing device using voice of the user
US9865255B2 (en) * 2013-08-29 2018-01-09 Panasonic Intellectual Property Corporation Of America Speech recognition method and speech recognition apparatus
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
CN103745731B (zh) * 2013-12-31 2016-10-19 科大讯飞股份有限公司 一种语音识别效果自动化测试系统及测试方法
US8938394B1 (en) 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9639854B2 (en) 2014-06-26 2017-05-02 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
JP6754184B2 (ja) 2014-12-26 2020-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10506068B2 (en) 2015-04-06 2019-12-10 Microsoft Technology Licensing, Llc Cloud-based cross-device digital pen pairing
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
JP6943656B2 (ja) 2017-07-12 2021-10-06 日立造船株式会社 コイン形電池およびその製造方法
JP2021184030A (ja) 2020-05-21 2021-12-02 キヤノン株式会社 単焦点レンズおよび撮像装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1425158A (zh) * 1999-11-23 2003-06-18 高通股份有限公司 语音控制外语翻译设备用的方法和装置
CN101588418A (zh) * 2008-05-23 2009-11-25 埃森哲环球服务有限公司 用于处理多个流式语音信号的方法及设备
CN103430232A (zh) * 2011-01-21 2013-12-04 谷歌公司 利用设备停靠情境的语音识别
ES2409530A2 (es) * 2011-10-14 2013-06-26 Telefónica, S.A. Método para gestionar el reconocimiento del habla de llamadas de audio
CN103971685A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 语音命令识别方法和系统

Also Published As

Publication number Publication date
US20170084277A1 (en) 2017-03-23
EP3084759B1 (en) 2019-08-14
KR20170004956A (ko) 2017-01-11
EP3171359A1 (en) 2017-05-24
JP2017227912A (ja) 2017-12-28
US11557299B2 (en) 2023-01-17
CN111028826A (zh) 2020-04-17
EP3139378A1 (en) 2017-03-08
JP2023174674A (ja) 2023-12-08
CN106030699A (zh) 2016-10-12
US20230147222A1 (en) 2023-05-11
US20160217790A1 (en) 2016-07-28
JP2017520008A (ja) 2017-07-20
EP3627503B1 (en) 2024-01-10
JP6893951B2 (ja) 2021-06-23
US20240169992A1 (en) 2024-05-23
US10909987B2 (en) 2021-02-02
US11915706B2 (en) 2024-02-27
KR20160101198A (ko) 2016-08-24
US20190130914A1 (en) 2019-05-02
EP4280210A2 (en) 2023-11-22
KR101752119B1 (ko) 2017-06-28
JP2017072857A (ja) 2017-04-13
JP7022733B2 (ja) 2022-02-18
US9514752B2 (en) 2016-12-06
JP6530023B2 (ja) 2019-06-12
KR101832648B1 (ko) 2018-02-26
EP3171359B1 (en) 2020-07-01
JP6208376B2 (ja) 2017-10-04
JP7354210B2 (ja) 2023-10-02
JP2019133198A (ja) 2019-08-08
EP3627503A1 (en) 2020-03-25
EP3139378B1 (en) 2019-12-04
EP4280210A3 (en) 2024-01-10
US10593330B2 (en) 2020-03-17
EP3084759A1 (en) 2016-10-26
US9318107B1 (en) 2016-04-19
CN106030699B (zh) 2019-12-10
DE202015010012U1 (de) 2023-03-01
JP2020034952A (ja) 2020-03-05
JP6427549B2 (ja) 2018-11-21
US20160104480A1 (en) 2016-04-14
US20210118448A1 (en) 2021-04-22
US10134398B2 (en) 2018-11-20
US20200058306A1 (en) 2020-02-20
WO2016057268A1 (en) 2016-04-14
JP2022017569A (ja) 2022-01-25

Similar Documents

Publication Publication Date Title
CN111028826B (zh) 多个设备上的热词检测
CN111105784B (zh) 多个设备上的热词检测
CN118016067A (zh) 多设备上的热词检测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant