CN108351872A - 用于提供响应的设备选择 - Google Patents

用于提供响应的设备选择 Download PDF

Info

Publication number
CN108351872A
CN108351872A CN201680054589.0A CN201680054589A CN108351872A CN 108351872 A CN108351872 A CN 108351872A CN 201680054589 A CN201680054589 A CN 201680054589A CN 108351872 A CN108351872 A CN 108351872A
Authority
CN
China
Prior art keywords
equipment
audio signal
language
user
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680054589.0A
Other languages
English (en)
Other versions
CN108351872B (zh
Inventor
J·D·迈耶斯
A·迪恩
月·刘
A·曼达尔
D·米勒
S·S·普拉温钱德拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of CN108351872A publication Critical patent/CN108351872A/zh
Application granted granted Critical
Publication of CN108351872B publication Critical patent/CN108351872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

一种系统,可使用多个语音接口设备来通过语音与用户交互。所述语音接口设备中的全部或部分可检测用户话语并且可启动语音处理以确定所述话语的意思或意图。在所述语音处理内,可采用仲裁来选择所述多个语音接口设备中的一个来对所述用户话语作出响应。仲裁可部分地基于直接地或间接地指示所述用户与所述设备的接近度的元数据,并且可选择被认为最靠近所述用户的所述设备来对所述用户话语作出响应。

Description

用于提供响应的设备选择
相关申请的交叉引用
本申请要求2015年9月21日提交的美国专利申请号14/860,400的优先权。所述专利申请的全部内容特此以引用的方式并入本文。
背景
随着对设备和相关联的支持服务可用的处理能力继续增加,以新的方式与用户交互变得实际。具体地,通过语音与用户交互变得实际。许多设备(包括个人计算机、智能电话、平板设备、媒体设备、娱乐设备、工业系统、基于话音的助理等等)现能够接收话音命令并且对话音命令作出响应。本文描述的是当扩展这些系统时面对的问题的技术解决方案。
附图简述
参考附图来描述详细说明。在图中,参考数字最左侧的数字标识所述参考数字首次出现的图。在不同的图中使用的相同参考编号指示类似或相同的部件或特征。
图1是示出从多个语音接口设备接收用户话语的示例性基于语音的系统的方框图。
图2是示出处理来自多个语音接口设备的多个音频信号的示例性方法的流程图。
图3是示出可由语音接口设备中的一个执行以处理接收的音频信号的另一个示例性方法的流程图。
图4是示出在两个语音设备之间仲裁的示例性方法的流程图。
图5是示出可由语音接口设备执行以向语音服务提供音频信号和伴随的元数据的示例性方法的流程图。
图6-8展示可当根据图3的方法处理来自不同语音接口设备的音频信号时,由不同解决方案引起的动作的从顶部到底部的时间序列的示例。
图9是展示示例性语音接口设备的相关部件的方框图。
图10是展示可被部分地使用来实现诸如本文描述的语音服务的示例性服务器的相关部件的方框图。
详细描述
基于语音的系统可被配置来通过语音与用户交互以从用户接收指令并且为用户提供服务。在某些实施方案中,所述系统可包括放置在房间、房屋或另一个环境内的不同位置处的多个语音接口设备。每个语音接口设备具有用于接收用户语音的麦克风,并且在一些实施方案中,可与整合的或相关联的扬声器一起起作用以便播放响应性系统语音。
每个设备的某些功能和性能可至少部分地由基于网络的服务提供,设备可通过数据通信网络(包括互联网)访问所述基于网络的服务。具体地,基于网络的服务可向设备提供语音处理和交互性能,包括自动语音识别(ASR)、自然语言理解(NLU)、响应生成和文本到语音(TTS)功能性。在确定由用户语音表述的意图之后,基于网络的服务使用语音接口设备执行功能和/或产生音频。
在某些实施方案中,语音接口设备可包括麦克风和扬声器两者。在其他实施方案中,语音接口设备可包括用于接收用户语音的麦克风,其中响应性系统生成的语音由扩音器设备提供。这种扩音器设备可受语音接口设备的控制并且可播放由语音接口设备提供的音频。可替代地,扩音器设备可从基于网络的服务接收响应性语音音频。
在多个语音接口设备彼此靠近的情境中(诸如在单一房间内或在邻近的房间中),语音接口设备中的每一个可接收用户话语并且每个设备可独立地试图处理用户话语并且对用户话语作出响应,就好像它是两个单独话语一样。下列公开涉及除其他之外用于避免这类重复努力和响应的技术。
在描述的实施方案中,每个语音接口设备检测用户正在讲出的命令并且将表示所讲出的命令的音频信号流式传输给基于网络的语音服务。基于网络的语音服务接收音频信号,执行ASR和NLU以确定由命令表述的意图并且向语音接口设备中的一个提供响应。例如,所述响应可包括生成表示响应于用户命令将要作为声音由语音接口设备产生的字词(word)的数据。作为另一个示例,所述响应可包括针对语音接口的指令以开始播放音乐或执行另一个功能。
当从住宅内的多个语音接口设备接收音频信号时,所述系统选择设备中的将要对用户命令作出响应(例如,提供可听响应或响应于用户命令以其他方式起作用)的一个。所述选择可基于与音频信号相关联的元数据进行。作为一个示例,所述系统可试图确定用户与不同语音接口设备的接近度并且选择最靠近用户的语音接口设备。接近度可包括时间和物理接近度,并且可由元数据属性(诸如音频信号幅值、在音频信号中检测的话音存在的水平、用户语音由语音接口设备检测的相对时间以及可由语音接口设备产生或提供的其他属性)指示。例如,在第一语音接口设备处相对于第二语音接口设备的更高的音频信号幅值可指示用户比第二语音接口设备更靠近于第一语音接口。作为另一个示例,首先检测或识别用户语音的语音接口设备可以是最靠近用户的设备。
接近度还可由借助于基于网络的语音服务产生的属性(诸如ASR和NLU置信度水平)指示。在一些情况下,接近度分值可基于多个属性创建,并且对应于不同音频信号的接近度分值可进行比较来选择具有最高元数据分值的音频信号。
在一些情况下,选择多个语音处理设备中的哪一个将对接收的用户语音作出响应,可基于在其内讲出命令的情境进行。例如,新接收的命令可与同特定语音接口设备针对其作出响应的先前的命令相同的主题相关,并且相同的语音接口设备可因此被选择来对新接收的命令作出响应。作为另一个示例,最近的有源语音接口设备可被选择来响应于用户命令而提供动作或语音。作为另一个示例,在语音接口设备中的一个具有用于对语音命令提供适当响应的性能并且所述设备中的另一个不具有所述性能的情况下,具有所述性能的设备可被选择用于提供所述响应。作为又一个示例,语音命令可与语音接口设备中的一个当前正在执行,并且语音接口设备可因此被选择来对语音命令起作用或作出响应的活动相关。在一些情况下,可发生的是,第一设备响应于先前的用户命令而执行活动,并且修改这一活动的新的命令由第二设备检测。在这种情况下,基于网络的语音服务可确定新的命令与第一设备的当前活动相关,并且可选择第一设备来对用户命令作出响应。
在一些实施方案中,表示语音命令的音频信号可由第一语音接口设备提供并且第二语音接口设备可未能检测或发送语音命令,即使可使命令与第二语音接口设备当前正在执行的活动相关。例如,第二设备可在第一设备接收命令“停止”时播放音乐。所述系统可确定由第一设备接收的命令与由第二设备正在执行的活动相关,并且可检测对第二设备而不是对第一设备的响应。在这个示例中,将“停止”命令引导至第二设备,并且第二设备通过使音乐回放停止来作出响应。
图1展示基于口头命令提供服务的示例性系统100。系统具有多个语音接口设备102。语音接口设备102将在本文中被简单地称为设备102。出于论述的目的,展示两个设备102(a)和102(b),但是系统100可以包括多于两个设备102。每个设备102具有用来捕获用户语音的一个或更多个麦克风以及用来播放语音和内容的一个或更多个扩音器。在一些实施方案中,设备102可被设计成从固定位置进行操作。在其他实施方案中,设备102可以是便捷式的。例如,设备102可包括手持式设备或其他移动设备,诸如智能电话、平板计算机、媒体播放器、个人计算机、可穿戴设备、各种类型的附件等等。
用户104被展示为通过设备102与系统100交互。设备102可定位成足够靠近于彼此,使得设备102中的两者可检测用户104的话语。
在某些实施方案中,用户与语音接口设备102的交互的主要模式可以是通过语音。例如,语音接口设备102可接收来自用户104的口头命令并且可响应于所述命令来提供服务。用户104可讲出预定义的触发表述(例如,“醒来”),所述触发表述之后可以是指令或号令(例如,“我想要去看电影。请告诉我当地电影院正在播放什么影片。”)。所提供的服务可包括执行动作或活动、呈现媒体、获取和/或提供信息、通过由语音接口设备102生成或合成的语音提供信息、代表用户104启动基于互联网的服务等等。
对应于口头的用户请求106的声音由设备102中的每一个接收。在某些实现方式中,用户请求106可以用户104讲出的唤醒字词或其他触发表述开头以指示后续用户语音意图由设备102中的一个接收并且对所述设备102中的一个起作用。设备102可检测唤醒字词并且当后续的用户语音被引导至设备102时解释所述后续的用户语音。在某些实施方案中,唤醒字词可以是由语音接口设备102本地地检测的保留关键词。在检测到关键词之后,语音接口设备102可开始向远程的基于网络的语音识别系统提供音频信号以便检测后续的用户话语并且对后续的用户话语作出响应。
在某些实现方式中,每个设备102可具有表述检测器,所述表述检测器分析由设备102的麦克风产生的音频信号以检测唤醒字词,所述唤醒字词通常可以是预定义的字词、短语或其他声音。例如,这种表述检测器可使用关键词测位技术实现。关键词测位仪是功能部件或算法,其评估音频信号以检测音频信号中预定义的字词或表述的存在。不是产生语音的字词的转录,关键词测位仪生成真/假的输出以指示预定义的字词或表述是否在音频信号中被表示。
在某些实施方案中,音频设备102的表述检测器可被配置来分析音频信号以产生指示唤醒字词在音频信号中被表示的可能性的分值。表述检测器然后将所述分值与阈值进行比较来确定唤醒字词将是否被断言为已经被讲出。
在一些情况下,键词测位仪可使用简化的ASR(自动语音识别)技术。例如,表述检测器可使用执行音频信号的声学建模并且将音频信号的HMM模型与通过训练特定触发表述创建的一个或更多个参考HMM模型进行比较的隐马尔科夫模型(HMM)识别器。HMM模型将字词表示为一系列状态。通常,音频信号的一部分通过将其HMM模型与触发表述的HMM模型进行比较来分析,从而得到表示音频信号模型与触发表述模型的类似性的特征分值。
实际上,HMM识别器可产生对应于HMM模型的不同特征的多个特征分值。表述检测器可使用接收由HMM识别器产生的一个或更多个特征分值的支持向量机(SVM)分类器。SVM分类器产生指示音频信号包含触发表述的可能性的置信度分值。将置信度分值与置信度阈值进行比较以作出关于音频信号的特定部分是否表示触发表述的话语的最后的决定。在断言音频信号表示触发表述的话语之后,音频设备102开始将音频信号传输给远程的基于网络的话语识别系统以便检测后续的用户话语并且对所述后续的用户话语作出响应。
每个设备102接收用户请求106并且产生对应的音频信号108和相关联的元数据110。具体地,第一语音接口设备102(a)产生对应的音频信号108(a)和相关联的元数据110(a),并且第二语音接口设备102(b)产生对应的音频信号108(b)和相关联的元数据110(b)。音频信号108(a)和108(b)中的每一个表示对应于用户请求106的相同的用户话语。
元数据110可包括可用来确定或推断用户104相对于相应设备102的接近度并且更一般地可用来确定应将语音响应和其他动作引导至设备102中的哪一个的各种信息。在这一类环境中的接近度可对应于物理接近度和时间接近度中的任一者或两者。例如,第一元数据110(a)可包括指示用户语音106由第一语音接口设备102(a)接收的时间的第一时间戳,并且第二元数据110(b)可包括指示用户语音106由第二语音接口设备102(a)接收的时间的第二时间戳。元数据110可包括如由语音接口设备102检测的其他信息,诸如音频信号108的信号能量和/或在音频信号108中的话音存在的水平。
将音频信号108和相关联的元数据110提供给语音服务112以用于分析和响应性动作。在一些情况下,语音服务112可以是由支持许多不同用户的住宅或其他楼宇中的设备102的多个服务器计算机实现的网络可访问的服务。设备102可通过广域网(诸如互联网)与语音服务112通信。可替代地,设备102中的一个或更多个可包括或提供语音服务112。
语音服务112基于可由语音服务112本身产生的元数据110和其他元数据来确定语音接口设备102中的哪一个应接收并且执行对用户请求106的响应114。这以反映用户104的可能的意图以对语音接口设备102中的特定一个讲话的方式完成。将在下文描述用于确定用户104最可能想要设备102中的哪一个对用户请求106作出响应的各种技术。
通常,语音服务112通过首先确定从设备102接收的音频信号是否表示相同话语来起作用,所述确定从设备102接收的音频信号是否表示相同话语可通过比较设备102接收用户语音的时间来执行。如果音频信号表示相同话语,诸如可被认为是接收用户语音的设备102在时间上彼此接近,那么执行仲裁来确定设备102中的哪一个应被用来提供对由音频信号表示的用户请求的响应。
语音服务112被配置来使用相应的语音处理流水线实例116(a)和116(b)来处理音频信号108(a)和108(b)。每个流水线实例116对应于设备102中的一个和由流水线实例提供的信号108。在示出的示例中,第一语音处理流水线实例116(a)对应于第一设备102(a)和对应的第一音频信号108(a)。第二语音处理流水线实例116(b)对应于第二设备102(b)和对应的第二音频信号108(b)。
每个语音处理流水线实例116具有被配置来处理接收的音频信号108的有序系列的流水线处理部件。第一语音处理流水线实例116(a)处理从第一设备102(a)接收的第一音频信号108(a)和对应的第一元数据110(a)。第二语音处理流水线实例116(b)处理从第二设备102(b)接收的第二音频信号108(b)和对应的第二元数据110(b)。每个流水线实例116可由语音服务112的不同服务器实现。
每个语音处理流水线实例116的处理部件包括被配置来分析接收的音频信号108的自动语音识别(ASR)部件118以确定口头的用户请求106的字词。处理部件还包括在流水线实例中定位在ASR部件118之后的自然语言理解(NLU)部件120。NLU部件120被配置来分析由ASR部件118产生的用户请求106的字词以确定由用户请求106表述的意图。处理部件还包括定位在流水线实例中NLU部件120之后的响应分配器122。响应分配器122被配置来基于由NLU部件120确定的意图来确定和指定对应于用户请求106的意图的语音响应或其他动作,并且向对应的设备102提供响应或指导对应的设备102响应于用户请求106而执行动作。
每个流水线实例116从对应的设备102接收音频信号108并且除非流水线实例如下文所述被中断,否则提供对相同设备102的响应114。在操作时,流水线实例116中的一个之外的全部在完成之前被中断,使得流水线实例116中的仅单一个将响应114返回至其对应的设备102。
每个流水线实例116中的处理部件包括在流水线实例116中定位在ASR部件118之前的第一源仲裁器124(a),在流水线实例116中定位在ASR部件118之后和NLU部件120之前的第二源仲裁器124(b),以及在流水线实例116中定位在NLU部件120之后和响应分配器122之前的第三源仲裁器124(c)。更具体地,第一源仲裁器124(a)定位在流水线实例116中,使得它在启动ASR之前的时间处被调用,并且使得ASR部件由于第一源仲裁器124(a)产生输出而被启动。第二源仲裁器124(b)定位在流水线实例116中,使得它在完成ASR之后并且在启动NLU之前的时间处被调用。因此,第二源仲裁器124(b)基于ASR部件118产生输出而被启动,并且NLU部件120基于第二源仲裁器124(b)产生输出而被启动。第三源仲裁器124(c)定位在流水线实例116中,使得它在完成NLU之后并且在调用响应分配器122之前被调用。因此,第三源仲裁器124(c)基于NLU部件120产生输出而被启动,并且响应分配器122基于第三源仲裁器124(c)产生输出而被启动。
每个源仲裁器124被配置来确定是否满足一个或更多个判据,其中所述判据与对应于流水线实例116的设备102是否应或将是用来提供对用户请求106的响应的装置相关并且指示其。判据可至少部分地基于从对应的设备102接收的元数据110。尽管结合本文的一些实施方案展示和论述了三个仲裁器,但是其他实施方案可包括一个、两个或更多个仲裁器和/或类似于结合源仲裁器124(a)、124(b)和/或124(c)论述的功能性或提供所述功能性的子集起作用的其他设备。
作为一个示例,第一元数据110(a)可包括对应于用户请求106由第一设备102(a)接收的时间的第一时间戳,并且第二元数据110(b)可包括对应于用户请求106由第二设备102(b)接收的时间的第二时间戳。第一流水线实例116(a)的每个仲裁器124可被配置来响应于(a)确定第一时间戳与第二时间戳之间的差小于阈值,从而指示表示用户请求106的声音由设备102(a)和102(b)几乎同时接收,和(b)确定第一时间戳大于第二时间戳,从而指示接收或检测用户话语的第一设备102(a)晚于第二设备102(b)而中断流水线实例116(a)。需注意,在这些示例中,时间戳可对应于开头的唤醒字词由相应的设备102检测的时间。
作为另一个示例,元数据110可包括一个或更多个信号属性。例如,信号属性可指示音频信号的幅值、音频信号的信噪比、在音频信号中检测的话音存在的水平、在音频信号中检测的唤醒字词具有的置信度水平、用户104距设备102的物理距离等等。第一流水线实例116(a)的每个仲裁器124可被配置来将关于第一音频信号108(a)的属性与第二音频信号108(b)的对应的属性进行比较并且作为否定的比较的结果而中断第一流水线实例116(a)。例如,如果第一音频信号108(a)比第二音频信号108(b)具有更低的幅值,那么可中断第一流水线实例116(a)。类似地,如果第一音频信号比第二音频信号108(b)具有更低的信噪比、话音存在、唤醒检测置信度水平或用户距离,那么可中断第一流水线实例116(a)。
作为特定示例,在第一音频设备和第二音频设备分别提供第一音频信号和第二音频信号的情况下,确定第一音频设备和第二音频信号中的哪一个将对用户话语作出响应,可包括以下中的一个或更多个:
确定第一音频信号和第二音频信号中的哪一个具有更高的强度或幅值;
确定第一设备和第二设备中的哪一个检测到更高水平的话音存在或第一音频信号和第二音频信号中的哪一个表示更高水平的话音存在;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一设备和所述第二设备中的哪一个检测到具有更高水平的置信度的触发表述;
确定所述第一设备和所述第二设备中的哪一个检测到所述触发表述;
确定第一设备和第二设备中的哪一个具有特定性能;
确定第一音频信号和第二音频信号中的哪一个内字词被识别出具有更高水平的置信度;
确定在第一音频信号和第二音频信号中的哪一个内由字词表述的意图被确定具有更高水平的置信度;
确定所述第一设备和所述第二设备中的哪一个物理地更靠近用户;
确定第一设备和第二设备中的哪一个先接收对话语作出的响应;或
确定所述第一设备和所述第二设备中的哪一个先接收所述话语。
更一般地,源仲裁器124中的每一个可在确定与流水线实例116相关联的设备102不是应将响应提供给的所述设备102之后中断其流水线实例116。当处理流水线实例的操作被中断时,中断的流水线实例并不将响应114提供给对应的设备102。中断的流水线实例还可向设备102提供指示设备102将并不用来提供对用户请求的响应的消息。作为响应,设备可停止将音频信号108提供给语音服务112。作为实例,消息或其他指示可包括数据,所述数据包括引起或导致设备进入收听模式的指令。收听模式是设备并不将音频信号108发送至语音服务112和设备监测其环境以检测唤醒字词的另外的话语的模式。在一些情况下,可将对应于终端的流水线实例的错误响应返回至设备102。在一些情况下,设备可被指导来播放音调,产生LED照明或采取一些其他动作,从而指示设备并不将要对用户请求作出响应。
语音服务112可在许多不同用户的住宅中支持语音接口设备102。在这一类描述中,假设用户104已经提供指示一组设备102与彼此相关联并且以本文所述的方式共同地被处置的配置信息。例如,用户104可将他的或她的设备102中的每一个或被共同地定位的这类设备的集合记录为与单一用户或家庭账户相关联。更具体地,用户可利用提供语音服务112和支持许多不同语音接口设备的操作的基于网络的服务提供商维护账户。账户可被配置来存储针对对应于不同家庭成员的多个用户配置文件的信息。每个用户配置文件可指示特定用户的特性和偏好。用户或家庭可将许多不同类型的设备记录为与账户相关联。账户可被配置来存储支付信息、购买信息、预订情况、联系人信息等。账户还可被配置来存储关于家庭内的语音接口设备的信息,诸如它们的位置、它们相关联的配置文件等。
本文所描述的动作关于以诸如此的方式与彼此相关联的一组设备102执行。此外,尽管本文的描述在两个设备102的情境中被给定,但是可以相同的方式使用和处置两个或更多个任意数目的设备102。
语音服务112可以是通过互联网(诸如有时被称为“云”服务)维护和访问的一个或更多个网络可访问的计算平台的一部分。通常,在语音接口设备102与语音服务112之间的通信可通过各种类型的数据通信网络(包括局域网、广域网和/或公共网络,所述公共网络可包括各种类型的无线网络,包括Wi-Fi、蓝牙网络和蜂窝通信网络)的组合实现。
图2展示在多个语音接口设备102可试图处理相同用户话语并且对所述相同用户话语作出响应所处的环境中提供对话语(诸如用户请求106)的响应的示例性方法200。图2的动作可由对设备102提供支持的网络服务(诸如图1中所示的语音服务112)的一个或更多个服务器和/或一个或更多个语音处理流水线实例116共同地实现。
动作202包括接收由第一设备102(a)产生的第一音频信号108(a),其中第一音频信号108(a)表示第一用户话语。动作202还包括接收与第一音频信号108(a)相关联的第一元数据110(a)。在图1的情境中,第一音频信号108(a)和第一元数据110(a)可由第一处理流水线实例116(a)接收。元数据110可包括如上文描述的各种属性,所述各种属性可与对应的音频信号、提供音频信号的设备和/或与用户104相关。
动作204包括接收由第二设备102(b)产生的第二音频信号108(b),其中第二音频信号108(b)表示第二用户话语。动作204还包括接收与第二音频信号108(b)相关联的第二元数据110(b)。在图1的情境中,第二音频信号108(b)和第二元数据110(b)可由第二处理流水线实例116(b)接收。第一处理流水线实例116(a)和第二处理流水线实例116(b)可由语音服务112的不同服务器实现。也就是说,设备102中的每一个可与语音服务112的不同服务器通信并且从所述不同服务器接收支持。
在某些实施方案中,第一元数据110(a)可包括指示接收用户话语的第一时间或接收用户话语前面的唤醒字词的第一时间的第一时间戳。类似地,第二元数据110(b)可包括指示接收用户话语的第二时间或接收用户话语前面的唤醒字词的第二时间的第二时间戳。
动作206包括确定从其已经接收第一音频信号108(a)和第二音频信号108(b)的第一设备102(a)和第二设备102(b)是否与相同用户或家庭账户相关联。如果不相关联,那么动作208执行处理音频信号108(a)和108(b)中的两者并且对所述音频信号108(a)和108(b)中的两者作出响应,其中设备102(a)和102(b)中的每一个用来响应于其相应地接收的用户话语而提供语音响应或其他动作。
如果第一设备102(a)和第二设备102(b)与相同用户或家庭账户相关联,那么执行动作210。动作210(其可在对应于设备102(a)和102(b)中的任一个或两个的处理流水线实例内执行多次)包括确定第一音频信号和第二音频信号是否表示相同用户话语。在一些实施方案中,这可通过将分别与第一音频信号和第二音频信号相关联的第一时间戳和第二时间戳进行比较来确定。更具体地,在第一时间戳与第二时间戳之间的差可被计算并且与阈值进行比较。如果差小于阈值,那么第一音频信号和第二音频信号被断言表示相同话语。如果差高于阈值,那么第一音频信号和第二音频信号被断言表示不同话语。
动作210还可使用其他判据来确定第一音频信号108(a)和第二音频信号108(b)是否表示相同话语。例如,音频信号可彼此进行比较以确定他们是否类似于彼此。具体地,动作210可包括计算第一音频信号108(a)与第二音频信号108(b)之间的互相关性。如果在信号之间存在强的互相关性,具体地,如果互相关性超过预定阈值,那么信号被断言表示相同话语。作为另一个示例,可比较关于第一音频信号108(a)和第二音频信号108(b)的ASR结果来确定音频信号是否表示匹配的字词序列。如果针对两个音频信号的ASR是完全相同的或类似的,那么两个音频信号可被认为表示相同话语。作为又一个示例,关于第一音频信号108(a)和第二音频信号108(b)的NLU结果可彼此比较。如果NLU结果指示对应于第一音频信号108(a)和第二音频信号108(b)的语音表示共同意图,那么两个音频信号可被认为表示相同话语。
动作210可使用所描述的多于一个的判据。例如,音频信号可需要满足两个或更多个判据,以便被断言为表示相同的用户话语。此外,变化了超过预定量的具有相关联的时间戳的信号可被认为表示两个不同的用户话语,而不管信号的任何其他类似性、关于信号的ASR结果或关于信号的NLU结果如何。
如果动作210确定第一音频信号108(a)和第二音频信号108(b)不表示相同用户话语,那么动作208执行处理所述音频信号中的两者并且对所述音频信号中的两者作出响应,其中设备102(a)和102(b)中的每一个用来响应于其相应地接收的用户话语而提供语音响应或其他动作。
如果动作210确定第一音频信号108(a)和第二音频信号108(b)表示相同用户话语,那么动作212在对应的设备102(a)与102(b)之间执行仲裁以确定设备中的哪一个将提供对由设备102(a)和102(b)中的两者检测和提供的单一用户话语的响应。动作212可包括比较由元数据110指示的针对音频信号108中的每一个的属性。将音频信号108具有最强属性集合的设备选择为仲裁的获胜者。
如果第一设备102(a)赢得仲裁,那么动作214执行对第一音频信号108(a)进行处理并作出响应,包括由第一设备102(a)对由第一音频信号108(a)表示的用户命令产生适当的响应。动作216包括取消对第二音频信号108(b)的处理并且取消可基于第二音频信号108(b)以其他方式提供的任何响应,包括可由设备102(b)以其他方式给定的任何响应。在一些实现方式中,将消息发送给设备102(b)从而通知设备102(b)不要从语音服务112期望另外的响应。需注意,动作214和216可并行执行或以与所示出的不同的次序执行。例如,动作216可在动作214之前执行。
如果第二设备102(b)赢得仲裁,那么动作218执行对第二音频信号108(b)进行处理并作出响应,包括由第二设备102(b)对由第二音频信号108(b)表示的用户命令产生适当的响应。动作220包括取消对第一音频信号108(a)的处理并且取消可基于第一音频信号108(a)以其他方式提供的任何响应,包括可由第一设备102(a)以其他方式给定的任何响应。在一些实现方式中,将消息发送给设备102(a)从而通知设备102(a)不要从语音服务112期望另外的响应。需注意,动作218和220可并行执行或以与所示出的不同的次序执行。例如,动作220可在动作218之前执行。
仲裁动作212可至少部分地基于第一元数据110(a)和第二元数据110(b)执行,所述第一元数据110(a)和第二元数据110(b)可包括分别与第一音频信号108(a)和第二音频信号108(b)相关的一个或更多个属性。元数据110除上文所提及的时间戳之外可指示用户104相对于对应的设备102的接近度。例如,设备102可具有用于基于由麦克风阵列的空间上独立的麦克风元件产生的麦克风信号来执行声音源定位(SSL)的性能。SSL可被实现以便基于对应于用户104的语音的接收的声音来确定用户104的距离。仲裁动作212可包括确定设备102(a)和102(b)中哪一个物理地或在声学上最靠近用户104并且选择最靠近的设备来提供对用户请求106的响应。
可替代地,每个设备102可提供可作为代理用于用户相对于设备的实际距离测量的其他元数据。例如,与音频信号108相关联的元数据110可包括音频信号108的幅值,并且动作212可包括选择产生具有最高幅值的音频信号108的设备102。元数据110可包括或可指示在音频信号108中检测的人类话音存在的水平,并且动作212可包括选择产生具有最高水平的检测的话音存在的音频信号108的设备102。类似地,元数据可包括或可指示音频信号108的信噪比,并且动作212可包括选择提供具有最高信噪比的音频信号108的设备102。作为另一个示例,元数据110可包括或指示唤醒字词或其他触发表述由设备102检测具有的置信度水平,并且动作212可包括选择检测触发表述具有最高置信度水平的设备102。作为又一个示例,元数据110可包括指示触发表述由提供音频信号的设备102检测的时间的时间戳,并且动作212可包括选择产生与最早时间戳相关联的音频信号的设备102。
在某些实施方案中,元数据可指示提供音频信号的设备的特殊性能,诸如并非所有设备具有的专用性能,并且动作212可包括选择设备102中的能够对用户请求106作出响应的那个。例如,第一设备102(a)可能够播放视频而第二设备102(b)不能。响应于播放视频的用户请求,动作212可选择第一设备102(a),因为第二设备102(b)并不支持所请求的动作或活动。
在一些情况下,元数据110可指示设备102中的应对用户请求106作出响应的那个的特定用户名称。例如,用户请求本身可口头地辨识设备102中的一个,或用户可先前已经使所述设备配置来具有相关性质,使得设备102中的一个用于对用户请求作出响应。在这种情况下,动作212可包括选择用户已经被命名来对用户请求106作出响应的设备。
作为另一个示例,动作212可至少部分地基于设备102中的哪一个先接收对用户请求106的响应114,由此选择先接收响应114的设备102来指示或实现响应114,而其他设备忽略或取消它接收的响应。
元数据110可指示对应的设备102最后有源的时间。设备102可在它提供语音响应、播放音乐、提供通知、执行动作等时被认为是有源的。在这种情况下,动作212可包括选择最近有源的设备。
在这种情况下,动作212可包括确定新的用户话语是与设备102中的一个对其作出响应的先前用户话语相关的请求并且选择相同设备102来对新的用户话语作出响应。例如,先前的用户话语可以是第一设备102(a)对其作出响应的针对天气报道的请求。新的用户话语可以是关于天气的更加特定的请求,诸如针对5天的预报的请求。因为先前相关的请求由第一设备102(a)作出响应,所以动作208还可选择第一设备102(a)来对相关的新的请求作出响应。
在一些情况下,动作208可包括确定用户请求106与当前正在由设备102中的一个执行的活动相关并且选择相同设备102来对请求106作出响应。例如,第一设备102(a)可正在播放音乐,并且用户请求可包括“停止”命令。用户请求可被解释为与第一设备102(a)的当前活动相关,并且第一设备102(a)因此被选择为应对“停止”请求作出响应的设备。
在一些实现方式中,动作212还可基于其他元数据,诸如在每个处理流水线实例116内产生的元数据。例如,流水线实例116的ASR部件118可产生关于ASR结果的ASR置信度分值或水平。动作212可包括选择产生最高ASR置信度水平的设备102。类似地,NLU部件120可产生关于NLU结果的NLU置信度分值或水平。动作212可包括选择产生最高NLU置信度水平的设备102。
更一般地,动作212可基于涉及多个类型的元数据和其他信息的多个判据。例如,每个判据可与元数据的特定项相关,所述判据可被加权来针对每个设备102产生复合元数据分值,并且可将具有最高元数据分值的设备102选择为对用户请求106作出响应的设备。
关于图1中所示的实现方式,每个流水线实例116实现仲裁器124的若干实例,其中每个仲裁器实例124实现类似于动作210和212或与动作210和212完全相同的动作。然而,当每个流水线实例116与单一对应的设备102相关联时,单个流水线实例116内的仲裁器124仅确定在该流水线实例内并且关于对应的设备102的处理是否应该继续,并且并不关于其他流水线实例116或其他设备102中的任一个采取任何直接动作。换句话说,每个仲裁器124可起作用来中断或取消对所述仲裁器124包含在其内的流水线实例的处理,而不是中断或取消对可与不同设备102相关联的任何其他流水线实例116的处理。
处理用户请求106的不同流水线实例通常彼此不同步。因此,流水线实例116中的一个可在已经启动流水线实例中的另一个之前前进通过其部件或操作中的一个或更多个。类似地,处理单一用户请求106的两个流水线实例116可由于音频信号108的不同到达时间而在不同时间处由语音服务启动。在任何特定时间处,流水线实例中的每一个可前进至其操作的另一个。
在与单个语音接口设备102相关联的单个流水线实例116内,仲裁器124基于当前可用的信息而继续/中断决定。在一些情况下,可能仅由相关联的设备102供应的元数据当前可用。在其他情况下,出于比较,与其他设备102相关联、与其他流水线实例116相关联的元数据也可用。元数据(诸如与ASR和NLU相关的置信度分值)在任何给定时间处可能可用或可能不可用,这取决于在每个流水线实例内的进程。
图3展示了示出可关于由分别对应的语音接口设备102提供的多个接收的音频信号108中的每一个执行的一系列动作的示例性方法300。方法300由图1的语音处理的流水线实例116中的每一个执行。方法300响应于从对应的语音接口设备102接收音频信号108来启动。出于论述的目的,由方法300分析的音频信号将被称为“对象”音频信号302。由方法300的其他实例并行分析的由其他设备102提供的音频信号将被称为“其他”音频信号。类似地,与对象音频信号302相关联的元数据将被称为对象设备元数据304。提供对象音频信号302的语音接口设备102将被称为对象设备。
动作306包括接收表示用户话语(诸如口头用户请求106)的对象音频信号302。动作306还包括接收对象设备元数据304。对象设备元数据304可包括对象音频信号302的属性,诸如如上文参考图2的动作210和212所论述的信号强度、检测的话音水平、信噪比等。对象设备元数据304可包括诸如用户104距设备102的物理距离、对应于用户话语被接收或唤醒字词被检测的时间的时间戳、配置信息、连接性信息等的信息。
响应于接收对象音频信号302和对象设备元数据304执行的动作308包括将对象设备元数据304高速缓存在方法300的多个实例可访问(诸如语音服务112的多个服务器和多个处理流水线实例116可访问)的存储位置中。将方法300的所有实例高速缓存在共同存储位置中,使得每个实例能够访问由其他实例高速缓存的元数据。
也响应于接收音频信号302和设备元数据304执行的动作310(a)包括执行重复仲裁。通常,在方法300中的不同点处执行的类似的或完全相同的动作310(a)、310(b)和310(c)包括相比较于先前已经由方法300的其他实例高速缓存的其他音频信号的元数据,评估与对象音频信号302相关的对象设备元数据304和其他元数据。评估被执行以便确定当处于对象设备与其他设备中的每一个之间时,对象设备是否应对由对象音频信号302表示的话语作出响应。如果不是,那么动作312执行中断对应于对象设备的流水线实例,意味着没有方法300的另外的动作关于对象音频信号302被执行。动作312通知对象设备流水线实例已经被终止并且对象设备不应期望对对象音频信号302作出响应。在一些情况下,动作312还可包括指导对象设备停止向语音服务发送对象音频信号302。
图4示出可用来实现动作310(a)、310(b)和310(c)的示例性方法400。方法400的动作402包括获得对象音频信号302的对象设备元数据304。然后针对或关于针对其已经启用方法300的实例的其他音频信号中的每一个执行动作404的集合。
动作404包括针对或关于一个或更多个其他音频信号中的每一个执行的程序环路,其中术语“其他音频信号”用来指代不同于对象音频信号的每个多个音频信号。每个其他音频信号与其自己的元数据和已经生成另一个音频信号的对应的设备102相关联。针对其他音频信号中的每一个已经或将要启动方法300的实例。尽管如所述程序环路404针对其他音频信号中的每一个重复进行除非到达中断决定,但是它将被描述为关于其他音频信号中的单个执行。
动作406包括获得与其他音频信号相关联的元数据,诸如先前由于其他音频信号相关联的方法300的实例高速缓存的元数据。其他音频信号的元数据可包括本文描述的元数据或信息中的任一个,诸如设备元数据110和在与其他音频信号相关联的流水线实例116内产生的任何其他元数据。
动作408包括确定对象音频信号302和其他音频信号是否表示相同用户话语。动作408可使用如上文参考图2的动作210描述的相同技术执行。如果两个音频信号并不表示相同用户话语,那么关于其他音频信号并不采取另外的动作,并且动作404的集合针对其他音频信号中的不同的一个继续,如由方框410所指示。
如果两个音频信号并不表示相同用户话语,那么执行动作412。动作412包括确定方法300的另一个实例是否已经使其相关联的设备102承诺对用户话语作出响应。如果是,那么动作414执行中断与对象音频信号相关联的方法300的实例。中断方法300意味着关于对象音频信号302不采取另外的动作并且对象设备并不提供响应。此外,环路404终止。
如果另一个设备尚未承诺对用户话语作出响应,那么动作416执行确定当前对象音频信号和其他音频信号可用的元数据是否满足中断判据中的一个或更多个。中断判据可包括在对象音频信号的元数据与其他音频信号之间的关系,如上文参考图2的动作210所述。如果一个或更多个判据被满足,那么动作414执行中断与对象音频信号302相关联的方法的实例。如果中断判据未被满足,那么动作404的集合针对其他音频信号中的不同的一个重复进行,如由方框418所指示。
返回图3,动作310(a)导致决定中断或继续。如果决定被中断,那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。对象设备可被引导来停止发送对象音频信号302。
如果动作310(a)的决定继续,那么执行动作314,其包括对对象音频信号302执行自动语音识别(ASR)。ASR 314产生由对象音频信号302表示的任何用户语音的字词的文本表示。ASR还可产生指示确定用户语音的字词具有的置信度水平的ASR置信度水平。动作316包括高速缓存ASR置信度水平作为ASR元数据以与音频信号302相关联。
在ASR 314之后,执行另外的重复仲裁动作310(b),其类似于动作310(a)或与310(a)完全相同。如果310(b)的决定被中断,那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。
如果动作310(b)的决定继续,那么执行动作318,其包括对由ASR314产生的字词的文本表示执行自然语言理解(NLU)。动作318确定由用户语音表述的可能意图并且还可产生指示确定所述意图具有的置信度水平的NLU置信度水平。动作320包括高速缓存NLU置信度水平作为NLU元数据以与音频信号302相关联。
在NLU 318之后,执行又一个重复仲裁动作310(c),其可类似于动作310(a)和310(b)或与310(a)和310(b)完全相同。如果310(c)的决被定中断,那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。
如果动作310(c)的决定继续,那么动作322执行使对象设备承诺对用户查询作出响应。这一承诺通过执行如下动作324得知:高速缓存承诺标记,指示对对象音频信号的处理已经前进至响应于由对象音频信号表示的意图而将动作分配至对象设备的点,并且对其他音频信号的处理应被中断。当方法300的其他实例执行重复仲裁310时它们可读取这一标记,并且可基于这一标记的存在而中断它们自己。例如,图4的动作412可通过检查这一标记来执行。
动作326包括分配动作,其可包括生成和提供对对象设备的响应。动作326还可包括响应于确定的用户请求来执行其他动作,所述确定的用户请求包括除了产生语音或除其之外,向对象设备102提供指令以执行动作,诸如播放音乐、停止音乐回放、启用定时器等。
图5示出可由设备102中的每一个实现以便响应于检测的用户语音502(其可对应于用户请求106)而向语音服务112提供音频信号108和相关联的元数据110的示例性方法500。
动作504包括执行音频波束形成以产生多个定向音频信号,其中每个定向音频信号加强来自相对于设备102的不同方向的声音。动作504可使用到达时间差(TDOA)技术,诸如使用麦克风对并且使来自麦克风中的一个的信号延迟等于声音穿行麦克风之间的距离的时间的量,由此加强与两个麦克风对齐的声音源来执行。可以此方式使用不同的麦克风对以获得多个音频信号,所述多个音频信号中的每一个对应于不同方向。
动作506包括执行话音活动检测(VAD)以检测话音在定向音频信号中的存在。在定向音频信号中的一个中检测到话音存在之后,关于定向音频信号执行后续动作。在一些实施方案中,图5的后续动作关于具有最高话音存在的定向音频信号执行。
VAD通过分析音频信号的一部分来评估音频信号的特征(诸如信号能量和频率分布)来确定音频信号中话音存在的水平。所述特征被量化并且与对应于已知包含人类语音的参考信号的参考特征进行比较。所述比较产生对应于音频信号的特征与参考特征之间的类似度的分值。所述分值用作对音频信号中语音存在的检测的或可能水平的指示。
动作508包括对在其内已经检测到话音活动的定向音频信号或在其内已经检测到最高话音活动水平的定向音频信号执行唤醒字词检测。如上文所提及,预定义的字词、表述或其他声音可用作由设备102接收用户意图后续语音并且对其起作用的信号。
在描述的实施方案中,例如,唤醒字词检测可使用关键词测位技术实现。关键词测位仪是功能部件或算法,其评估音频信号以检测音频信号中预定义的字词或表述的存在。不是产生语音的字词的转录,关键词测位仪生成真/假的输出以指示预定义的字词或表述是否在音频信号中被表示。
在一些情况下,键词测位仪可使用简化的ASR(自动语音识别)技术。例如,唤醒字词检测可使用执行音频信号的声学建模并且将HMM模型与通过训练特定触发表述创建的一个或更多个参考HMM模型进行比较的隐马尔科夫模型(HMM)识别器。HMM模型将字词表示为一系列状态。通常,音频信号的一部分通过将其HMM模型与触发表述的HMM模型进行比较来分析,从而得到表示音频信号模型与触发表述模型的类似性的特征分值。实际上,HMM识别器可产生对应于HMM模型的不同特征的多个特征分值。
唤醒字词检测还可使用接收由HMM识别器产生的一个或更多个特征分值的支持向量机(SVM)分类器。SVM分类器产生指示音频信号包含触发表述的可能性的置信度分值。
动作510包括执行接近度检测以确定用户距设备102的距离。例如,接近度检测可结合二维麦克风阵列使用声音源定位(SSL)技术来实现。这类SSL技术分析在麦克风阵列的相应麦克风处接收的声音的到达时间差以便确定接收的声音所源自的方位。可替代地,设备102可具有摄像头或专用传感器以便确定用户相对于设备102的方位。
方法500的动作中的任一个可产生元数据110的事项。例如,VAD 506可产生话音存在水平,指示人在设备102附近讲话的可能性。VAD 506还可产生信噪比测量值。唤醒字词可产生唤醒字词置信度水平,对应于用户104说出的唤醒字词的可能性。唤醒字词检测508还可产生指示检测到唤醒字词的时间的时间戳。接近度检测512可产生距离参数,指示用户104距设备102的距离。
动作512包括向语音服务112发送音频信号108和元数据110。音频信号108可包括定向音频信号中的一个,诸如在其中检测语音和在其中检测唤醒字词的定向音频信号。
图6-8示出所描述的方法可导致设备102(a)和102(b)中的一个或另一个对用户请求106作出响应的方式的示例。在这些图中的每一个中,展示了由第一设备和相关联的第一流水线实例执行的动作,以及由第二设备和相关联的第二流水线实例执行的动作,以及以从顶部至底部按序列次序展示的动作。还示出与集中式高速缓存的交互。每个示例假设由第一设备和第二设备提供的信号表示共同用户话语。也就是说,动作408通过使用两个音频信号最可能表示相同用户话语的描述的技术来确定。在一些实施方案中,这可意味着与音频信号相关联的时间戳的差小于预定义阈值。图6-8中所示的事件通常对应于图3中所示的动作。
图6表示在其中音频信号由第一流水线实例和第二流水线实例几乎同时接收的情境。在这个示例中,假设由第一设备提供的音频信号比由第二设备提供的音频信号具有更高的元数据分值。例如,第一音频信号的信噪比或信号幅值可高于第二音频信号的信噪比和信号幅值。因为音频信号和伴随的元数据几乎同时被接收,所以由第二流水线实例执行的第一仲裁能够访问与第一音频信号相关联的高速缓存的元数据并且能够确定第一音频信号比第二音频信号具有更高的元数据分值。基于这一确定,第二流水线实例在启动ASR之前中断其本身,并且并不执行在删除线文本中所展示的动作。相反,第一流水线实例执行直至完成并且提供对第一设备的响应。
图7表示在其中第二流水线实例接收其音频信号显著地晚于第一流水线实例接收其音频信号的情境。更具体地,在第一流水线实例的ASR部件分析其音频信号之后,第二流水线实例接收其音频信号。图7还假设由第二设备提供的音频信号比由第一音频设备提供的音频信号具有更高的元数据分值。在这种情况下,由第一流水线实例执行的第一仲裁不能够访问关于第二音频信号的任何高速缓存的元数据,因为尚未到达第二音频信号。相反,第一流水线实例的第二仲裁能够访问与第二音频信号相关联的高速缓存的元数据,并且此时中断第一流水线实例。在这个示例中,第二流水线实例继续完成并且提供对第二设备的响应。
图8表示在其中第二流水线实例接收其音频信号显著地晚于第一流水线实例接收其音频信号的情境。在这种情况下,第二流水线实例在第一流水线会理已经承诺对用户话语作出响应之后接收第二音频信号。在这种情况下,由第二流水线实例执行的第一仲裁确定第一流水线实例已经承诺对用户话语作出响应并且在执行ASR之前中断其本身,即使第二音频信号可能已经与比第一音频信号更高的元数据分值相关联。
图9展示了示例性语音接口设备102的相关部件。语音接口设备102具有促进与用户104的音频交互的麦克风阵列902和一个或更多个语音扬声器904。麦克风阵列902产生表示来自语音接口设备102的环境的音频(诸如由用户104说出的声音)的麦克风音频信号。由麦克风阵列902产生的麦克风音频信号可包括定向音频信号或可用来产生定向音频信号,其中定向音频信号中的每一个加强来自相对于麦克风阵列902的不同径向方向的音频。
尽管语音接口设备102被描述为具有一个或更多个整合的扬声器904,但在其他实施方案中,语音接口设备102可不包括扬声器。例如,语音接口设备102可包括用户向其中发出命令的麦克风设备或可包括用于连接到另一个装置(诸如电视机)的设备。替代整合的扬声器,诸如这一类的实施方案可使用其他设备(包括具有扬声器和不同类型的专有扬声器部件的其他语音接口设备)的扬声器性能。作为一个示例,语音接口设备102可产生驱动外部扬声器的音频输出信号。作为另一个示例,语音接口设备102可通过无线数据连接(诸如蓝牙连接)驱动或控制外部扬声器。在其他情境中,语音接口设备102可结合从语音服务102而不是从语音接口设备102接收音频信号和其他指令的扬声器设备使用。在这种情况下,可将图1的响应114提供至诸如扬声器设备而不是语音接口设备102。
语音接口设备102可包括处理单元906和相关联的存储器908。处理单元906可包括一个或更多个处理器,所述一个或更多个处理器可包括通用处理器、专用处理器、处理器核心、数字信号处理器等。取决于语音接口设备102的配置,存储器908可以是非暂时性计算机存储介质类型并且可包括易失性和非易失性存储器。存储器908可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术。存储器908可包括可移除或可拆卸存储器,并且还可包括网络可访问的存储器。存储器908可包括便捷式存储介质,诸如闪存驱动器。
可以使用存储器908来存储任何数目的软件部件,所述软件部件可通过处理单元906执行。存储在存储器908中的软件部件可包括被配置来管理处于语音接口设备102内并且耦合到语音接口设备102的硬件和服务的操作系统910。此外,由存储器908存储的可执行部件可包括被配置来使用麦克风阵列902产生音频信号的音频处理部件912。音频处理部件912可包括用于处理由麦克风阵列902生成的麦克风音频信号和/或提供给扬声器904的输出音频信号的功能性。作为示例,音频处理部件912可包括用于减少由麦克风阵列902与扬声器904之间的声学耦合生成的声学回声的声学回声消除或抑制部件914。音频处理部件912还可包括用于减少所接收音频信号中的噪声(诸如麦克风音频信号而非用户语音的元素)的噪声减少部件916。
音频处理部件912可包括被配置来生成在不同方向上聚焦的定向音频信号的一个或更多个音频波束形成器或波束形成部件916。更具体地,波束形成部件916可响应于来自空间上隔开的麦克风阵列902的麦克风元件的音频信号以产生加强源自语音接口设备102的环境的不同区域或源自相对于语音接口设备102的不同方向的声音的定向音频信号。在一些情况下,波束形成部件916可产生可在仲裁中使用的元数据。例如,波束形成部件916可指示对应于每个定向音频信号的话音活动水平的信号强度。
存储在存储器908中并且由处理器906执行的可执行部件可包括监测定向音频信号中的一个或更多个以检测触发表述的系统的用户话语的唤醒字词检测部件920。如上文所述,例如,唤醒字词检测可使用关键词测位技术实现。唤醒字词检测部件920可产生元数据,诸如对应于检测唤醒字词具有的置信度的置信度分值或水平。
软件部件还可包括被配置来监测由波束形成部件918产生的定向音频信号中话音存在的水平的话音活动检测器922。出于如上文所论述的仲裁的目的,话音存在的水平可用作元数据。
设备102的软件部件还可包括可用来确定用户104距设备102的距离的声音源定位(SSL)部件924。SSL部件924被配置来分析在麦克风阵列902的相应麦克风处接收的声音的到达时间差以便确定接收的声音所源自的方位。例如,SSL部件924可使用到达时间差(TDOA)技术来确定声音源的方位或方向。出于执行如上文所论述的仲裁的目的,所确定的方位可用作元数据。
设备102可具有用来确定用户104相对于设备102的方位的接近度检测部件或系统926(诸如摄像头、测距设备或其他传感器)。而且,出于仲裁的目的,以此方式产生的方位信息可用作元数据。
语音接口设备102还具有各种硬件部件(未示出),诸如通信部件、功率部件、I/O部件、信号处理部件、指示器、控制按钮、放大器等。
语音接口设备102可具有用于通过各种类型的网络(包括广域网、局域网、私用网络、公用网络等)与语音服务112通信的通信接口928,诸如无线或Wi-Fi网络通信接口、以太网通信接口、蜂窝网络通信接口、蓝牙通信接口等。在无线通信接口的情况下,这类接口可包括用于实现适当通信协议的无线电收发器和相关联的控制电路和逻辑。
图10示出可用来实现语音服务112的服务器1000的相关逻辑或功能部件的示例。通常,语音服务112可以由一个或更多个服务器1000来实现,其中各种功能性以各种方式重复或分布在不同的服务器中。服务器可以定位在一起或独立地定位,并且被组织成虚拟服务器、服务器库和/或服务器群。可以通过单一实体或企业的服务器来提供本文描述的功能性,或可以利用多个实体或企业的服务器和/或服务。此外,所描述的语音服务可以是向多个用户提供各种类型的功能和服务(不限于本文所描述的功能和服务)的更大基础设施的一部分。
在非常基本的配置中,示例性服务器1000可以包括处理单元1002和相关联的存储器1004。处理单元1002可包括一个或更多个处理器,所述一个或更多个处理器可包括通用处理器、专用处理器、处理器核心、数字信号处理器等。取决于服务器1000的配置,存储器1004可以是非暂时性计算机存储介质类型并且可包括易失性和非易失性存储器。存储器1004可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术。存储器1004可包括可移除或可拆卸存储器,并且还可包括网络可访问的存储器。存储器1004可包括便捷式存储介质,诸如闪存驱动器。
可以使用存储器1004来存储任何数目的软件部件,所述软件部件可通过处理单元1002执行。存储在存储器1004中的软件部件可包括被配置来管理处于服务器1000内并且耦合到服务器1000的硬件和服务的操作系统1006。此外,由存储器1004存储的可执行软件部件可包括支持语音接口设备102的基于语音的操作的服务部件1008。服务器1000还可具有用于与其他服务器1000、其他联网部件以及与位于许多不同用户的住宅或其他楼宇中的多个语音接口设备102通信的通信接口1010(诸如以太网通信适配器)。
服务部件1008的部件接收由音频处理部件912处理的一个或更多个音频信号并且执行各种类型的处理以便理解由用户语音表述的意图或意思。通常,语音部件1008被配置来(a)接收表示用户语音的信号,(b)分析信号以识别用户语音,(c)分析用户语音以确定用户语音的意思,和(d)生成响应于用户语音的意思的输出语音。
服务部件1008可包括识别接收的音频信号中的人类语音的自动语音识别(ASR)部件1012。ASR部件1012创建在定向音频信号中表示的字词的转录。服务部件1008还可包括被配置来基于用户104的所识别的语音确定用户意图的自然语言理解(NLU)部件1014。NLU部件1014分析由ASR部件1012提供的字词流并且产生字词流的意思的表示。例如,NLU部件1014可使用解析器和相关联的语法规则来分析语句和以正式定义的语言产生语句的意思的表示,所述正式定义的语言以由计算机容易地处理的方式传输概念。所述意思可语义地表示为时隙和时隙值的分层集合或框架,其中每个时隙对应于语义地定义的概念。NLU还可使用由训练数据以利用典型语音中的字词之间的统计学相关性生成的统计学模型和模式。
服务部件1008可通过将文本转换成音频以便在扬声器904处生成的文本到语音或语音生成部件1016来部分地实现。
服务部件1008还可包括负责响应于由NLU部件1014确定的用户语音的意思传导与用户104的语音对话的对话管理部件1018。对话管理部件1018可包括用来分析用户语音的意思并且确定如何对用户语音作出响应的域逻辑。对话管理部件1018可定义与不同信息或话题域(诸如新闻、交通、天气、要做的事情列表、购物列表、引用、家用自动化、零售服务等等)的规则和行为。域逻辑将口头用户陈述映射给相应的域并且负责确定对话响应和/或动作以执行响应于用户话语。
服务部件1008可包括至少部分地基于关于如上文所描述的其他音频信号的高速缓存的元数据来确定是否应将响应提供给表示用户语音的接收的音频信号的仲裁器部件1020。
服务部件1008可用来形成语音处理流水线实例116并且用于执行图3的方法300。
存储器1004可包括元数据高速缓存1024,在所述元数据高速缓存1024中元数据可由实现不同处理流水线实例的多个服务器1000高速缓存。实际上,元数据高速缓存可由多个服务器1000可访问的存储服务器和由服务器1000实现的多个语音处理流水线实例实现。
考虑到以下条款,也可理解上述内容。
1.一种系统,其包括:
第一语音处理流水线实例,所述第一语音处理流水线实例从第一语音接口设备接收第一音频信号,所述第一音频信号表示语音话语,所述第一语音处理流水线实例还接收指示第一时间的第一时间戳,在所述第一时间处唤醒字词由所述第一语音接口设备检测;
第二语音处理流水线实例,所述第二语音处理流水线实例从第二语音接口设备接收第二音频信号,所述第二音频信号表示所述语音话语,所述第二语音处理流水线还接收指示第二时间的第二时间戳,在所述第二时间处所述唤醒字词由所述第二语音接口设备检测;
所述第一语音处理流水线实例具有一系列处理部件,所述一系列处理部件包括:
自动语音识别(ASR)部件,所述自动语音识别(ASR)部件被配置来分析所述第一音频信号以确定所述语音话语的字词;
自然语言理解(NLU)部件,所述自然语言理解(NLU)部件在所述第一语音处理流水线实例中定位在所述ASR部件之后,所述NLU部件被配置来分析所述语音话语的所述字词以确定由所述语音话语表述的意图;
响应分配器,所述响应分配器在所述第一语音处理流水线实例中定位在所述NLU部件之后,所述响应分配器被配置来指定对所述语音话语作出的语音响应;
第一源仲裁器,所述第一源仲裁器在所述第一语音处理流水线实例中定位在所述ASR部件之前,所述第一源仲裁器被配置来(a)确定由在所述第一时间戳与所述第二时间戳之间的差表示的时间量小于阈值;(b)确定所述第一时间戳大于所述第二时间戳;并且(c)中断所述第一语音处理流水线实例。
2.如条款1所述的系统,其中:
所述第一语音处理流水线实例在所述ASR部件分析所述第一音频信号之后接收所述第一音频信号;并且
所述一系列处理部件包括第二源仲裁器,所述第二源仲裁器在所述第一语音处理流水线实例中定位在所述ASR部件之后,所述第二源仲裁器被配置来(a)确定由在所述第一时间戳与所述第二时间戳之间的所述差表示的所述时间量小于所述阈值;(b)确定所述第一时间戳大于所述第二时间戳;并且(c)中断所述第一语音处理流水线实例。
3.如条款1所述的系统,所述系统被配置来向所述第一语音接口设备发送所述第一语音接口设备将对所述话语不作出响应的指示。
4.如条款3所述的系统,其中所述指示包括致使所述第一语音接口设备停止向所述第一语音处理流水线实例提供所述第一音频信号并且进入所述第一语音接口设备检测所述唤醒字词的另外话语的收听模式的数据。
5.如条款1所述的系统,其中:
所述第一语音处理流水线实例还接收所述第一音频信号的第一信号属性,其中所述第一信号属性指示以下各项中的一个或更多个:
在所述第一音频信号中检测的话音存在的水平;
唤醒字词由所述第一语音接口设备检测具有的置信度;
所述第一音频信号的幅值;
所述第一音频信号的信噪比测量值;或
用户距所述第一语音接口设备的距离;
所述第二语音处理流水线实例还接收所述第二音频信号的第二信号属性,其中所述第二信号属性指示以下各项中的一个或更多个:
在所述第二音频信号中检测的话音存在的水平;
所述唤醒字词由所述第二语音接口设备检测具有的置信度;
所述第二音频信号的幅值;
所述第二音频信号的第二信噪比测量值;或
所述用户距所述第二语音接口设备的距离;并且
所述第一源仲裁器进一步被配置来将所述第一信号属性与所述第二信号属性进行比较以(a)确定与所述第一用户接口设备相比,所述用户更接近所述第二用户接口设备并且(b)中断所述第一语音处理流水线实例。
6.一种方法,其包括:
接收由第一设备产生的第一音频信号;
接收由第二设备产生的第二音频信号;
确定所述第一音频信号表示话语;
确定所述第二音频信号表示所述话语;
接收与所述第一音频信号相关联的一个或更多个第一属性;
接收与所述第二音频信号相关联的一个或更多个第二属性;以及
至少部分地基于所述一个或更多个第一属性和所述一个或更多个第二属性来确定所述第一设备将对所述话语作出响应。
7.如条款6所述的方法,其还包括向所述第一设备发送指定将由所述第一设备产生的语音的数据。
8.如条款7所述的方法,其还包括向所述第二设备发送包括导致所述第一设备进入收听模式的指令的数据。
9.如条款6所述的方法,其还包括接收指示所述第一设备与所述第二设备之间的关联性的配置信息。
10.如条款6所述的方法,其还包括确定所述第一设备和所述第二设备与用户账户相关联。
11.如条款6所述的方法,其中:
接收所述一个或更多个第一属性包括接收通过所述第一设备与所述话语相关联的第一时间;
接收所述一个或更多个第二属性包括接收通过所述第二设备与所述话语相关联的第二时间;以及
确定所述第二音频信号表示所述话语包括确定由所述第一时间与所述第二时间之间的差表示的时间小于阈值。
12.如条款6所述的方法,其还包括:
对所述第一音频信号执行自动语音识别(ASR)以确定所述话语中的一个或更多个字词;
对所述话语中的所述一个或更多个字词执行自然语言理解(NLU)以确定由所述话语表述的意图。
13.如条款6所述的方法,其中接收所述一个或更多个第一属性包括接收用户相对于所述第一设备的接近度。
14.如条款6所述的方法,其中确定所述第一设备将对所述话语作出响应包括以下各项中的一个或更多个:
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的幅值;
确定所述第一设备和所述第二设备中的哪一个检测到更高水平的话音存在;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一设备和所述第二设备中的哪一个检测到具有更高水平的置信度的触发表述;
确定所述第一设备和所述第二设备中的哪一个检测到所述触发表述;
确定所述第一设备和所述第二设备中的哪一个具有性能;
确定所述第一音频信号和所述第二音频信号中的哪一个内字词被识别出具有更高水平的置信度;或
确定在所述第一音频信号和所述第二音频信号中的哪一个内由所述字词表述的意图被确定具有更高水平的置信度。
15.如条款6所述的方法,其中确定所述第一设备将对所述话语作出响应包括确定通过所述第一设备与所述话语相关联的第一时间先于通过所述第二设备与所述话语相关联的第二时间。
16.一种系统,其包括:
一个或更多个处理器;
一个或更多个非暂时性计算机可读介质,其存储计算机可执行指令,所述计算机可执行指令当在所述一个或更多个处理器上执行时,致使所述一个或更多个处理器执行包括以下项的动作:
接收由第一设备产生的第一音频信号;
接收由第二设备产生的第二音频信号;
确定所述第一音频信号表示话语;
确定所述第二音频信号表示所述话语;
接收与所述第一音频信号相关联的第一属性;
接收与所述第二音频信号相关联的第二属性;以及
至少部分地基于所述第一属性和所述第二属性来确定所述第一设备将对所述话语作出响应。
17.如条款16所述的系统,其中确定所述第二音频信号表示所述话语包括确定所述第一设备在所述第二设备接收所述话语的预定义时间内接收到所述话语。
18.如条款16所述的系统,其中确定所述第二音频信号表示所述话语包括计算在所述第一音频信号与所述第二音频信号之间的互相关性。
19.如条款16所述的系统,其中确定所述第二音频信号表示所述话语包括确定所述第一音频信号和所述第二音频信号表示字词的匹配序列。
20.如条款16所述的系统,其中确定所述第二音频信号表示所述话语包括:
确定所述第一音频信号表示第一用户语音;
确定所述第二音频信号表示第二用户语音;以及
确定所述第一用户语音和所述第二用户语音对应于共同意图。
21.如条款16所述的系统,其中确定所述第一设备将对所述话语作出响应包括以下各项中的一个或更多个:
确定所述第一设备和所述第二设备中的哪一个物理地更靠近用户;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信号幅值;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一音频信号和所述第二音频信号中的哪一个表示更高水平的话音存在;
确定所述第一设备和所述第二设备中的哪一个先接收对所述话语作出的响应;以及
确定所述第一设备和所述第二设备中的哪一个先接收所述话语。
尽管已用特定于结构特征的语言描述了主题,但是将理解,所附权利要求中定义的主题不必限于所描述的具体特征。实际上,具体特征作为实施权利要求的说明性形式来公开。

Claims (15)

1.一种方法,包括:
接收由第一设备产生的第一音频信号;
接收由第二设备产生的第二音频信号;
确定所述第一音频信号表示话语;
确定所述第二音频信号表示所述话语;
接收与所述第一音频信号相关联的一个或更多个第一属性;
接收与所述第二音频信号相关联的一个或更多个第二属性;以及
至少部分地基于所述一个或更多个第一属性和所述一个或更多个第二属性来确定所述第一设备将对所述话语作出响应。
2.如权利要求1所述的方法,还包括:
向所述第一设备发送指定将由所述第一设备产生的语音的数据。
3.如权利要求2所述的方法,还包括向所述第二设备发送包括导致所述第二设备进入收听模式的指令的数据。
4.如任一前述权利要求所述的方法,还包括:
接收指示所述第一设备与所述第二设备之间的关联性的配置信息;以及
确定所述第一设备和所述第二设备与用户账户相关联。
5.如任一前述权利要求所述的方法,其中:
接收所述一个或更多个第一属性包括接收通过所述第一设备与所述话语相关联的第一时间;
接收所述一个或更多个第二属性包括接收通过所述第二设备与所述话语相关联的第二时间;以及
确定所述第二音频信号表示所述话语包括确定由所述第一时间与所述第二时间之间的差表示的时间小于阈值。
6.如任一前述权利要求所述的方法,还包括:
对所述第一音频信号执行自动语音识别(ASR)以确定所述话语的一个或更多个字词;以及
对所述话语的所述一个或更多个字词执行自然语言理解(NLU)以确定由所述话语表述的意图。
7.如任一前述权利要求所述的方法,其中接收所述一个或更多个第一属性包括接收用户相对于所述第一设备的接近度。
8.如任一前述权利要求所述的方法,其中确定所述第一设备将对所述话语作出响应包括以下一个或更多个:
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的幅值;
确定所述第一设备和所述第二设备中的哪一个检测到更高水平的话音存在;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一设备和所述第二设备中的哪一个检测到具有更高水平的置信度的触发表述;
确定所述第一设备和所述第二设备中的哪一个检测到所述触发表述;
确定所述第一设备和所述第二设备中的哪一个具有性能;
确定所述第一音频信号和所述第二音频信号中的哪一个内字词被识别出具有更高水平的置信度;或
确定在所述第一音频信号和所述第二音频信号中的哪一个内由所述字词表述的意图被确定具有更高水平的置信度。
9.如任一前述权利要求所述的方法,其中确定所述第一设备将对所述话语作出响应包括确定通过所述第一设备与所述话语相关联的第一时间先于通过所述第二设备与所述话语相关联的第二时间。
10.一种系统,包括:
一个或更多个处理器;
一个或更多个非暂时性计算机可读介质,其存储计算机可执行指令,所述计算机可执行指令当在所述一个或更多个处理器上执行时,致使所述一个或更多个处理器执行动作,所述动作包括:
接收由第一设备产生的第一音频信号;
接收由第二设备产生的第二音频信号;
确定所述第一音频信号表示话语;
确定所述第二音频信号表示所述话语;
接收与所述第一音频信号相关联的第一属性;
接收与所述第二音频信号相关联的第二属性;以及
至少部分地基于所述第一属性和所述第二属性来确定所述第一设备将对所述话语作出响应。
11.如权利要求10所述的系统,其中确定所述第二音频信号表示所述话语包括确定所述第一设备在所述第二设备接收所述话语的预定义时间内接收到所述话语。
12.如权利要求10所述的系统,其中确定所述第二音频信号表示所述话语包括计算在所述第一音频信号与所述第二音频信号之间的互相关性。
13.如权利要求10所述的系统,其中确定所述第二音频信号表示所述话语包括确定所述第一音频信号和所述第二音频信号表示字词的匹配序列。
14.如权利要求10所述的系统,其中确定所述第二音频信号表示所述话语包括:
确定所述第一音频信号表示第一用户语音;
确定所述第二音频信号表示第二用户语音;以及
确定所述第一用户语音和所述第二用户语音对应于共同意图。
15.如权利要求10所述的系统,其中所述确定所述第一设备将对所述话语作出响应包括以下一个或更多个:
确定所述第一设备和所述第二设备中的哪一个物理地更靠近用户;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信号幅值;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一音频信号和所述第二音频信号中的哪一个表示更高水平的话音存在;
确定所述第一设备和所述第二设备中的哪一个先接收对所述话语作出的响应;以及
确定所述第一设备和所述第二设备中的哪一个先接收所述话语。
CN201680054589.0A 2015-09-21 2016-09-20 用于响应用户语音的方法和系统 Active CN108351872B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/860,400 US9875081B2 (en) 2015-09-21 2015-09-21 Device selection for providing a response
US14/860,400 2015-09-21
PCT/US2016/052688 WO2017053311A1 (en) 2015-09-21 2016-09-20 Device selection for providing a response

Publications (2)

Publication Number Publication Date
CN108351872A true CN108351872A (zh) 2018-07-31
CN108351872B CN108351872B (zh) 2021-09-28

Family

ID=58282770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680054589.0A Active CN108351872B (zh) 2015-09-21 2016-09-20 用于响应用户语音的方法和系统

Country Status (6)

Country Link
US (2) US9875081B2 (zh)
EP (1) EP3353677B1 (zh)
JP (2) JP6671466B2 (zh)
KR (1) KR102098136B1 (zh)
CN (1) CN108351872B (zh)
WO (1) WO2017053311A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136722A (zh) * 2019-04-09 2019-08-16 北京小鸟听听科技有限公司 语音信号处理方法、装置、设备及系统
CN110349578A (zh) * 2019-06-21 2019-10-18 北京小米移动软件有限公司 设备唤醒处理方法及装置
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
CN110517676A (zh) * 2019-08-21 2019-11-29 Oppo广东移动通信有限公司 一种语音唤醒方法及终端、服务器、存储介质
CN110660389A (zh) * 2019-09-11 2020-01-07 北京小米移动软件有限公司 语音响应方法、装置、系统及设备
CN111354336A (zh) * 2018-12-20 2020-06-30 美的集团股份有限公司 分布式语音交互方法、装置、系统及家电设备
CN111667843A (zh) * 2019-03-05 2020-09-15 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、系统、电子设备、存储介质
CN112908318A (zh) * 2019-11-18 2021-06-04 百度在线网络技术(北京)有限公司 智能音箱的唤醒方法、装置、智能音箱及存储介质
CN114207712A (zh) * 2019-07-30 2022-03-18 杜比实验室特许公司 多设备唤醒词检测
CN115605949A (zh) * 2020-10-30 2023-01-13 谷歌有限责任公司(Us) 跨多个助理设备的同时声学事件检测
CN115605948A (zh) * 2020-09-02 2023-01-13 谷歌有限责任公司(Us) 在多个潜在响应的电子装置之间的仲裁

Families Citing this family (357)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8572513B2 (en) 2009-03-16 2013-10-29 Apple Inc. Device, method, and graphical user interface for moving a current position in content at a variable scrubbing rate
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10706096B2 (en) 2011-08-18 2020-07-07 Apple Inc. Management of local and remote media items
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9922646B1 (en) * 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR102060661B1 (ko) * 2013-07-19 2020-02-11 삼성전자주식회사 통신 방법 및 이를 위한 디바이스
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9721570B1 (en) * 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
JP6356779B2 (ja) * 2014-02-19 2018-07-11 帝人株式会社 情報処理装置および情報処理方法
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
EP3149554B1 (en) 2014-05-30 2024-05-01 Apple Inc. Continuity
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
WO2016036510A1 (en) 2014-09-02 2016-03-10 Apple Inc. Music user interface
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
EP3193328B1 (en) * 2015-01-16 2022-11-23 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN106572418A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种语音助手的扩展设备及其工作方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10109294B1 (en) * 2016-03-25 2018-10-23 Amazon Technologies, Inc. Adaptive echo cancellation
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670622A1 (en) 2016-06-12 2018-02-12 Apple Inc User interfaces for transactions
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US11042541B2 (en) * 2016-10-03 2021-06-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
EP4220630A1 (en) * 2016-11-03 2023-08-02 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
US10127908B1 (en) * 2016-11-11 2018-11-13 Amazon Technologies, Inc. Connected accessory for a voice-controlled device
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
WO2018097969A1 (en) * 2016-11-22 2018-05-31 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10565989B1 (en) * 2016-12-16 2020-02-18 Amazon Technogies Inc. Ingesting device specific content
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10971157B2 (en) * 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
WO2018147687A1 (en) 2017-02-10 2018-08-16 Samsung Electronics Co., Ltd. Method and apparatus for managing voice-based interaction in internet of things network system
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
US10403276B2 (en) * 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
KR101925034B1 (ko) * 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
US10373630B2 (en) * 2017-03-31 2019-08-06 Intel Corporation Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10355931B2 (en) * 2017-04-17 2019-07-16 Essential Products, Inc. Troubleshooting voice-enabled home setup
US10176807B2 (en) 2017-04-17 2019-01-08 Essential Products, Inc. Voice setup instructions
US10353480B2 (en) 2017-04-17 2019-07-16 Essential Products, Inc. Connecting assistant device to devices
KR102392297B1 (ko) * 2017-04-24 2022-05-02 엘지전자 주식회사 전자기기
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) * 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
US20220279063A1 (en) 2017-05-16 2022-09-01 Apple Inc. Methods and interfaces for home media control
DK179560B1 (en) * 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10665232B2 (en) * 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10564928B2 (en) * 2017-06-02 2020-02-18 Rovi Guides, Inc. Systems and methods for generating a volume- based response for multiple voice-operated user devices
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10847163B2 (en) * 2017-06-20 2020-11-24 Lenovo (Singapore) Pte. Ltd. Provide output reponsive to proximate user input
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
JP6513749B2 (ja) * 2017-08-09 2019-05-15 レノボ・シンガポール・プライベート・リミテッド 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10984788B2 (en) * 2017-08-18 2021-04-20 Blackberry Limited User-guided arbitration of speech processing results
US10964318B2 (en) 2017-08-18 2021-03-30 Blackberry Limited Dialogue management
US10497370B2 (en) 2017-08-18 2019-12-03 2236008 Ontario Inc. Recognition module affinity
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US10546583B2 (en) 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10957313B1 (en) * 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10699706B1 (en) * 2017-09-26 2020-06-30 Amazon Technologies, Inc. Systems and methods for device communications
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
EP3688751B1 (en) * 2017-09-28 2022-12-28 Harman International Industries, Incorporated Method and device for voice recognition
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102417524B1 (ko) * 2017-10-13 2022-07-07 현대자동차주식회사 음성 인식 기반의 자동차 제어 방법
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
KR102455199B1 (ko) * 2017-10-27 2022-10-18 엘지전자 주식회사 인공지능 디바이스
US10152966B1 (en) * 2017-10-31 2018-12-11 Comcast Cable Communications, Llc Preventing unwanted activation of a hands free device
KR102552486B1 (ko) * 2017-11-02 2023-07-06 현대자동차주식회사 차량의 음성인식 장치 및 방법
US11360736B1 (en) * 2017-11-03 2022-06-14 Amazon Technologies, Inc. System command processing
JP7057647B2 (ja) * 2017-11-17 2022-04-20 キヤノン株式会社 音声制御システム、制御方法及びプログラム
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10510340B1 (en) * 2017-12-05 2019-12-17 Amazon Technologies, Inc. Dynamic wakeword detection
CN110678922A (zh) 2017-12-06 2020-01-10 谷歌有限责任公司 闪避和擦除来自附近设备的音频
US10971173B2 (en) 2017-12-08 2021-04-06 Google Llc Signal processing coordination among digital voice assistant computing devices
CN109903758B (zh) 2017-12-08 2023-06-23 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
WO2019112625A1 (en) 2017-12-08 2019-06-13 Google Llc Signal processing coordination among digital voice assistant computing devices
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10536287B1 (en) * 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10536288B1 (en) 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10536286B1 (en) * 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10374816B1 (en) * 2017-12-13 2019-08-06 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
JP6947004B2 (ja) 2017-12-20 2021-10-13 トヨタ自動車株式会社 車載音声出力装置、音声出力装置、音声出力方法、及び音声出力プログラム
JP6988438B2 (ja) 2017-12-20 2022-01-05 トヨタ自動車株式会社 車載制御装置、制御装置、制御方法、制御プログラム、及び発話応答方法
JP2019117324A (ja) 2017-12-27 2019-07-18 トヨタ自動車株式会社 音声出力装置、音声出力方法、及び音声出力プログラム
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
JP6984420B2 (ja) 2018-01-09 2021-12-22 トヨタ自動車株式会社 対話装置
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
JP2019124977A (ja) 2018-01-11 2019-07-25 トヨタ自動車株式会社 車載音声出力装置、音声出力制御方法、及び音声出力制御プログラム
JP7197272B2 (ja) 2018-01-11 2022-12-27 トヨタ自動車株式会社 音声出力システム、音声出力方法、及びプログラム
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145298B2 (en) * 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US10878824B2 (en) * 2018-02-21 2020-12-29 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
US10616726B1 (en) 2018-02-22 2020-04-07 Amazon Technologies, Inc. Outputing notifications using device groups
US10425781B1 (en) * 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10425780B1 (en) * 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10762900B2 (en) * 2018-03-07 2020-09-01 Microsoft Technology Licensing, Llc Identification and processing of commands by digital assistants in group device environments
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10679629B2 (en) 2018-04-09 2020-06-09 Amazon Technologies, Inc. Device arbitration by multiple speech processing systems
CN116959420A (zh) * 2018-04-16 2023-10-27 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
EP3557439A1 (en) 2018-04-16 2019-10-23 Tata Consultancy Services Limited Deep learning techniques based multi-purpose conversational agents for processing natural language queries
CN110390931B (zh) * 2018-04-19 2024-03-08 博西华电器(江苏)有限公司 语音控制方法、服务器及语音交互系统
US11145299B2 (en) 2018-04-19 2021-10-12 X Development Llc Managing voice interface devices
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10803864B2 (en) * 2018-05-07 2020-10-13 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US11308947B2 (en) 2018-05-07 2022-04-19 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11487501B2 (en) 2018-05-16 2022-11-01 Snap Inc. Device control using audio data
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10762896B1 (en) 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
CN117316150A (zh) * 2018-06-28 2023-12-29 搜诺思公司 用于将回放设备与语音助理服务相关联的系统和方法
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10698582B2 (en) * 2018-06-28 2020-06-30 International Business Machines Corporation Controlling voice input based on proximity of persons
CN110164446B (zh) * 2018-06-28 2023-06-30 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
KR102025566B1 (ko) * 2018-07-27 2019-09-26 엘지전자 주식회사 인공지능을 이용한 홈어플라이언스 및 음성 인식 서버 시스템과, 이의 제어 방법
EP3642837B1 (en) 2018-08-23 2024-03-13 Google LLC Regulating assistant responsiveness according to characteristics of a multi-assistant environment
US11514917B2 (en) 2018-08-27 2022-11-29 Samsung Electronics Co., Ltd. Method, device, and system of selectively using multiple voice data receiving devices for intelligent service
KR20200024068A (ko) * 2018-08-27 2020-03-06 삼성전자주식회사 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
NO20181210A1 (en) * 2018-08-31 2020-03-02 Elliptic Laboratories As Voice assistant
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US10878812B1 (en) * 2018-09-26 2020-12-29 Amazon Technologies, Inc. Determining devices to respond to user requests
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10978062B1 (en) * 2018-09-27 2021-04-13 Amazon Technologies, Inc. Voice-controlled device switching between modes based on speech input
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
KR20200045851A (ko) * 2018-10-23 2020-05-06 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 시스템
US11508378B2 (en) 2018-10-23 2022-11-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
KR20200052804A (ko) * 2018-10-23 2020-05-15 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11238850B2 (en) 2018-10-31 2022-02-01 Walmart Apollo, Llc Systems and methods for e-commerce API orchestration using natural language interfaces
US11404058B2 (en) 2018-10-31 2022-08-02 Walmart Apollo, Llc System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions
US11145306B1 (en) * 2018-10-31 2021-10-12 Ossum Technology Inc. Interactive media system using audio inputs
US11183176B2 (en) * 2018-10-31 2021-11-23 Walmart Apollo, Llc Systems and methods for server-less voice applications
US11195524B2 (en) 2018-10-31 2021-12-07 Walmart Apollo, Llc System and method for contextual search query revision
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11830485B2 (en) * 2018-12-11 2023-11-28 Amazon Technologies, Inc. Multiple speech processing system with synthesized speech styles
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
DE102018221751A1 (de) * 2018-12-14 2020-06-18 BSH Hausgeräte GmbH System und Verfahren zum Betrieb einer Mehrzahl von elektrischen Geräten
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US20220130378A1 (en) * 2018-12-27 2022-04-28 Telepathy Labs, Inc. System and method for communicating with a user with speech processing
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111415657A (zh) * 2019-01-07 2020-07-14 成都启英泰伦科技有限公司 一种去中心化设备、多设备系统及其语音控制方法
US10963385B2 (en) * 2019-01-18 2021-03-30 Silicon Motion Technology (Hong Kong) Limited Method and apparatus for performing pipeline-based accessing management in a storage server with aid of caching metadata with cache module which is hardware pipeline module during processing object write command
KR102584588B1 (ko) 2019-01-21 2023-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
WO2020162930A1 (en) * 2019-02-06 2020-08-13 Google Llc Voice query qos based on client-computed content metadata
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
KR20200109140A (ko) * 2019-03-12 2020-09-22 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11482215B2 (en) 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
US11538482B2 (en) * 2019-04-25 2022-12-27 Lg Electronics Inc. Intelligent voice enable device searching method and apparatus thereof
US11657800B2 (en) 2019-04-26 2023-05-23 Lg Electronics Inc. Electronic device with wakeup word determined multi-mode operation
US11120794B2 (en) * 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
WO2020231181A1 (en) * 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Method and device for providing voice recognition service
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US10904029B2 (en) 2019-05-31 2021-01-26 Apple Inc. User interfaces for managing controllable external devices
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK201970533A1 (en) 2019-05-31 2021-02-15 Apple Inc Methods and user interfaces for sharing audio
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11620103B2 (en) 2019-05-31 2023-04-04 Apple Inc. User interfaces for audio media control
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US20200380389A1 (en) * 2019-05-31 2020-12-03 Apple Inc. Sentiment and intent analysis for customizing suggestions using user-specific information
US10996917B2 (en) 2019-05-31 2021-05-04 Apple Inc. User interfaces for audio media control
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11545148B2 (en) * 2019-06-18 2023-01-03 Roku, Inc. Do not disturb functionality for voice responsive devices
CN110347248B (zh) * 2019-06-24 2023-01-24 歌尔科技有限公司 交互处理方法、装置、设备及音频设备
US10841756B1 (en) * 2019-06-27 2020-11-17 Amazon Technologies, Inc. Managing communications sessions based on restrictions and permissions
CN110415694A (zh) * 2019-07-15 2019-11-05 深圳市易汇软件有限公司 一种多台智能音箱协同工作的方法
EP4004911A1 (en) * 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Multi-modal smart audio device system attentiveness expression
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
WO2021022032A1 (en) * 2019-07-31 2021-02-04 Sonos, Inc. Locally distributed keyword detection
US20220343909A1 (en) * 2019-09-06 2022-10-27 Lg Electronics Inc. Display apparatus
US11176940B1 (en) * 2019-09-17 2021-11-16 Amazon Technologies, Inc. Relaying availability using a virtual assistant
WO2021060570A1 (ko) * 2019-09-23 2021-04-01 엘지전자 주식회사 가전 기기 및 서버
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR102629796B1 (ko) * 2019-10-15 2024-01-26 삼성전자 주식회사 음성 인식의 향상을 지원하는 전자 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
WO2021081744A1 (zh) * 2019-10-29 2021-05-06 深圳市欢太科技有限公司 语音信息处理方法、装置、设备及存储介质
KR20210069977A (ko) * 2019-12-04 2021-06-14 엘지전자 주식회사 기기 제어 방법 및 이를 이용한 제어 가능한 장치
US11295741B2 (en) 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111091828B (zh) * 2019-12-31 2023-02-14 华为技术有限公司 语音唤醒方法、设备及系统
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11790902B2 (en) * 2020-02-04 2023-10-17 Amazon Technologies, Inc. Speech-processing system
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111312240A (zh) * 2020-02-10 2020-06-19 北京达佳互联信息技术有限公司 数据控制方法、装置、电子设备及存储介质
US11626106B1 (en) * 2020-02-25 2023-04-11 Amazon Technologies, Inc. Error attribution in natural language processing systems
US11355112B1 (en) * 2020-03-03 2022-06-07 Amazon Technologies, Inc. Speech-processing system
KR20210130024A (ko) * 2020-04-21 2021-10-29 현대자동차주식회사 대화 시스템 및 그 제어 방법
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
KR20210147678A (ko) * 2020-05-29 2021-12-07 엘지전자 주식회사 인공 지능 장치
US11893984B1 (en) * 2020-06-22 2024-02-06 Amazon Technologies, Inc. Speech processing system
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11670322B2 (en) * 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN112201239B (zh) * 2020-09-25 2024-05-24 海尔优家智能科技(北京)有限公司 目标设备的确定方法及装置、存储介质、电子装置
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
KR20220099831A (ko) * 2021-01-07 2022-07-14 삼성전자주식회사 전자 장치 및 전자 장치에서 사용자 발화 처리 방법
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11915708B2 (en) * 2021-03-18 2024-02-27 Samsung Electronics Co., Ltd. Methods and systems for invoking a user-intended internet of things (IoT) device from a plurality of IoT devices
US11882415B1 (en) * 2021-05-20 2024-01-23 Amazon Technologies, Inc. System to select audio from multiple connected devices
US11847378B2 (en) 2021-06-06 2023-12-19 Apple Inc. User interfaces for audio routing
US12046234B1 (en) * 2021-06-28 2024-07-23 Amazon Technologies, Inc. Predicting on-device command execution
CN115602150A (zh) * 2021-07-07 2023-01-13 艾锐势企业有限责任公司(Us) 能够进行语音控制的电子设备、方法、系统、介质及程序
US12014727B2 (en) 2021-07-14 2024-06-18 Google Llc Hotwording by degree
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
CN113921016A (zh) * 2021-10-15 2022-01-11 阿波罗智联(北京)科技有限公司 语音处理方法、装置、电子设备以及存储介质
CN116798419A (zh) * 2022-03-14 2023-09-22 追觅创新科技(苏州)有限公司 设备的语音控制方法和装置、存储介质及电子装置
US20230419099A1 (en) * 2022-06-28 2023-12-28 International Business Machines Corporation Dynamic resource allocation method for sensor-based neural networks using shared confidence intervals
NO20221245A1 (en) 2022-11-18 2024-05-20 Elliptic Laboratories Asa Communication method and system for electronic devices
US11838582B1 (en) * 2022-12-12 2023-12-05 Google Llc Media arbitration

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
CN1643571A (zh) * 2002-03-27 2005-07-20 艾黎弗公司 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置
US20110093261A1 (en) * 2009-10-15 2011-04-21 Paul Angott System and method for voice recognition
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
US20130029684A1 (en) * 2011-07-28 2013-01-31 Hiroshi Kawaguchi Sensor network system for acuiring high quality speech signals and communication method therefor
US20140025380A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation System, method and program product for providing automatic speech recognition (asr) in a shared resource environment
CN104145304A (zh) * 2012-03-08 2014-11-12 Lg电子株式会社 用于多个装置语音控制的设备和方法
US20150032456A1 (en) * 2013-07-25 2015-01-29 General Electric Company Intelligent placement of appliance response to voice command

Family Cites Families (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
JPS57124626A (en) * 1981-01-23 1982-08-03 Toshiba Corp Cooker
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
JP3363283B2 (ja) * 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6314393B1 (en) * 1999-03-16 2001-11-06 Hughes Electronics Corporation Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder
JP2001013994A (ja) 1999-06-30 2001-01-19 Toshiba Corp 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US6453290B1 (en) * 1999-10-04 2002-09-17 Globalenglish Corporation Method and system for network-based speech recognition
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
US6591239B1 (en) * 1999-12-09 2003-07-08 Steris Inc. Voice controlled surgical suite
US6895380B2 (en) * 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
CA2407855C (en) * 2000-05-10 2010-02-02 The Board Of Trustees Of The University Of Illinois Interference suppression techniques
US6725193B1 (en) * 2000-09-13 2004-04-20 Telefonaktiebolaget Lm Ericsson Cancellation of loudspeaker words in speech recognition
JP3838029B2 (ja) 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
US6662137B2 (en) * 2000-12-19 2003-12-09 Hewlett-Packard Development Company, L.P. Device location discovery by sound
US7996232B2 (en) * 2001-12-03 2011-08-09 Rodriguez Arturo A Recognition of voice-activated commands
KR100438838B1 (ko) * 2002-01-29 2004-07-05 삼성전자주식회사 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
JP4086280B2 (ja) * 2002-01-29 2008-05-14 株式会社東芝 音声入力システム、音声入力方法及び音声入力プログラム
JP3715584B2 (ja) 2002-03-28 2005-11-09 富士通株式会社 機器制御装置および機器制御方法
US7319959B1 (en) * 2002-05-14 2008-01-15 Audience, Inc. Multi-source phoneme classification for noise-robust automatic speech recognition
US8244536B2 (en) * 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
KR100576736B1 (ko) * 2004-08-21 2006-05-03 학교법인 포항공과대학교 시스톨릭 배열 구조를 가지는 미지 신호 분리 장치
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US7697827B2 (en) * 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US9489431B2 (en) * 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
JP4821489B2 (ja) * 2006-08-04 2011-11-24 トヨタ自動車株式会社 ロボット装置及びロボット装置の制御方法
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8625819B2 (en) * 2007-04-13 2014-01-07 Personics Holdings, Inc Method and device for voice operated control
JP5134876B2 (ja) * 2007-07-11 2013-01-30 株式会社日立製作所 音声通信装置及び音声通信方法並びにプログラム
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8407049B2 (en) * 2008-04-23 2013-03-26 Cogi, Inc. Systems and methods for conversation enhancement
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8983640B2 (en) * 2009-06-26 2015-03-17 Intel Corporation Controlling audio players using environmental audio analysis
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
JP5411807B2 (ja) * 2010-05-25 2014-02-12 日本電信電話株式会社 チャネル統合方法、チャネル統合装置、プログラム
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
US9183843B2 (en) * 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US8898065B2 (en) * 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US20130024196A1 (en) * 2011-07-21 2013-01-24 Nuance Communications, Inc. Systems and methods for using a mobile device to deliver speech with speaker identification
US9148742B1 (en) * 2011-07-29 2015-09-29 Google Inc. Proximity detection via audio
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
JP5866728B2 (ja) * 2011-10-14 2016-02-17 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
US20180032997A1 (en) * 2012-10-09 2018-02-01 George A. Gordon System, method, and computer program product for determining whether to prompt an action by a platform in connection with a mobile device
KR101641448B1 (ko) * 2012-03-16 2016-07-20 뉘앙스 커뮤니케이션즈, 인코포레이티드 사용자 전용 자동 음성 인식
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9736604B2 (en) * 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
KR20130140423A (ko) * 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input
US8600746B1 (en) * 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
US9576574B2 (en) * 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9092415B2 (en) * 2012-09-25 2015-07-28 Rovi Guides, Inc. Systems and methods for automatic program recommendations based on user interactions
US20140095172A1 (en) * 2012-10-01 2014-04-03 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
WO2014064324A1 (en) * 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
US9477925B2 (en) * 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9185199B2 (en) * 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
US9196262B2 (en) * 2013-03-14 2015-11-24 Qualcomm Incorporated User sensing system and method for low power voice command activation in wireless communication systems
IL226056A (en) * 2013-04-28 2017-06-29 Verint Systems Ltd Keyword Finding Systems and Methods by Adaptive Management of Multiple Template Matching Algorithms
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US9286897B2 (en) 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
US9698999B2 (en) 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US8719032B1 (en) * 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
US9336767B1 (en) * 2014-03-28 2016-05-10 Amazon Technologies, Inc. Detecting device proximities
KR102146462B1 (ko) 2014-03-31 2020-08-20 삼성전자주식회사 음성 인식 시스템 및 방법
US20150364143A1 (en) * 2014-06-12 2015-12-17 Samsung Electronics Co., Ltd. Method and apparatus for transmitting audio data
US9691385B2 (en) * 2014-06-19 2017-06-27 Nuance Communications, Inc. Methods and apparatus for associating dictation with an electronic record
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20160044394A1 (en) * 2014-08-07 2016-02-11 Nxp B.V. Low-power environment monitoring and activation triggering for mobile devices through ultrasound echo analysis
CN106797512B (zh) * 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
US9354687B2 (en) * 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US9293134B1 (en) * 2014-09-30 2016-03-22 Amazon Technologies, Inc. Source-specific speech interactions
US9693375B2 (en) * 2014-11-24 2017-06-27 Apple Inc. Point-to-point ad hoc voice communication
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US10567477B2 (en) * 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
JP6739907B2 (ja) 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
US9811376B2 (en) * 2015-06-29 2017-11-07 Amazon Technologies, Inc. Virtual machine instance migration using a triangle approach
US9706300B2 (en) * 2015-09-18 2017-07-11 Qualcomm Incorporated Collaborative audio processing
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
KR20170086814A (ko) 2016-01-19 2017-07-27 삼성전자주식회사 음성 인식 기능을 제공하는 전자 장치 및 그 동작 방법
US20180122372A1 (en) 2016-10-31 2018-05-03 Soundhound, Inc. Distinguishable open sounds
US10621980B2 (en) 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
US10902855B2 (en) 2017-05-08 2021-01-26 Motorola Mobility Llc Methods and devices for negotiating performance of control operations with acoustic signals
US10573171B2 (en) 2017-05-23 2020-02-25 Lenovo (Singapore) Pte. Ltd. Method of associating user input with a device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
CN1643571A (zh) * 2002-03-27 2005-07-20 艾黎弗公司 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置
US20110093261A1 (en) * 2009-10-15 2011-04-21 Paul Angott System and method for voice recognition
US20130029684A1 (en) * 2011-07-28 2013-01-31 Hiroshi Kawaguchi Sensor network system for acuiring high quality speech signals and communication method therefor
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
CN104145304A (zh) * 2012-03-08 2014-11-12 Lg电子株式会社 用于多个装置语音控制的设备和方法
US20140025380A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation System, method and program product for providing automatic speech recognition (asr) in a shared resource environment
US20150032456A1 (en) * 2013-07-25 2015-01-29 General Electric Company Intelligent placement of appliance response to voice command

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354336B (zh) * 2018-12-20 2023-12-19 美的集团股份有限公司 分布式语音交互方法、装置、系统及家电设备
CN111354336A (zh) * 2018-12-20 2020-06-30 美的集团股份有限公司 分布式语音交互方法、装置、系统及家电设备
CN111667843A (zh) * 2019-03-05 2020-09-15 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、系统、电子设备、存储介质
CN111667843B (zh) * 2019-03-05 2021-12-31 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、系统、电子设备、存储介质
CN110136722A (zh) * 2019-04-09 2019-08-16 北京小鸟听听科技有限公司 语音信号处理方法、装置、设备及系统
CN110349578A (zh) * 2019-06-21 2019-10-18 北京小米移动软件有限公司 设备唤醒处理方法及装置
CN114207712A (zh) * 2019-07-30 2022-03-18 杜比实验室特许公司 多设备唤醒词检测
CN110517676A (zh) * 2019-08-21 2019-11-29 Oppo广东移动通信有限公司 一种语音唤醒方法及终端、服务器、存储介质
US11295740B2 (en) 2019-08-22 2022-04-05 Beijing Xiaomi Intelligent Technology Co., Ltd. Voice signal response method, electronic device, storage medium and system
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
CN110660389A (zh) * 2019-09-11 2020-01-07 北京小米移动软件有限公司 语音响应方法、装置、系统及设备
CN112908318A (zh) * 2019-11-18 2021-06-04 百度在线网络技术(北京)有限公司 智能音箱的唤醒方法、装置、智能音箱及存储介质
CN115605948A (zh) * 2020-09-02 2023-01-13 谷歌有限责任公司(Us) 在多个潜在响应的电子装置之间的仲裁
CN115605949A (zh) * 2020-10-30 2023-01-13 谷歌有限责任公司(Us) 跨多个助理设备的同时声学事件检测

Also Published As

Publication number Publication date
EP3353677A1 (en) 2018-08-01
EP3353677B1 (en) 2020-11-04
US9875081B2 (en) 2018-01-23
JP2018537700A (ja) 2018-12-20
KR102098136B1 (ko) 2020-04-08
KR20180042376A (ko) 2018-04-25
US20180210703A1 (en) 2018-07-26
JP2020016890A (ja) 2020-01-30
US20170083285A1 (en) 2017-03-23
US11922095B2 (en) 2024-03-05
EP3353677A4 (en) 2019-10-23
WO2017053311A1 (en) 2017-03-30
JP6671466B2 (ja) 2020-03-25
CN108351872B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN108351872A (zh) 用于提供响应的设备选择
US12033632B2 (en) Context-based device arbitration
US11138977B1 (en) Determining device groups
US11875820B1 (en) Context driven device arbitration
KR102543693B1 (ko) 전자 장치 및 그의 동작 방법
US11949818B1 (en) Selecting user device during communications session
JP6549715B2 (ja) 音声ベースシステムにおけるアプリケーションフォーカス
US10212066B1 (en) Reporting operational metrics in speech-based systems
US11355098B1 (en) Centralized feedback service for performance of virtual assistant
CN108228699A (zh) 协作性语音控制装置
US11862153B1 (en) System for recognizing and responding to environmental noises
US20240071408A1 (en) Acoustic event detection
US12125483B1 (en) Determining device groups
US20240079007A1 (en) System and method for detecting a wakeup command for a voice assistant

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant