CN108351872A - 用于提供响应的设备选择 - Google Patents
用于提供响应的设备选择 Download PDFInfo
- Publication number
- CN108351872A CN108351872A CN201680054589.0A CN201680054589A CN108351872A CN 108351872 A CN108351872 A CN 108351872A CN 201680054589 A CN201680054589 A CN 201680054589A CN 108351872 A CN108351872 A CN 108351872A
- Authority
- CN
- China
- Prior art keywords
- equipment
- audio signal
- language
- user
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 title claims abstract description 132
- 238000000034 method Methods 0.000 claims abstract description 89
- 238000013459 approach Methods 0.000 claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims description 349
- 230000009471 action Effects 0.000 claims description 117
- 238000005259 measurement Methods 0.000 claims description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 33
- 238000012545 processing Methods 0.000 description 48
- 238000001514 detection method Methods 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 230000002618 waking effect Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- KVCQTKNUUQOELD-UHFFFAOYSA-N 4-amino-n-[1-(3-chloro-2-fluoroanilino)-6-methylisoquinolin-5-yl]thieno[3,2-d]pyrimidine-7-carboxamide Chemical compound N=1C=CC2=C(NC(=O)C=3C4=NC=NC(N)=C4SC=3)C(C)=CC=C2C=1NC1=CC=CC(Cl)=C1F KVCQTKNUUQOELD-UHFFFAOYSA-N 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- RTZKZFJDLAIYFH-UHFFFAOYSA-N Diethyl ether Chemical compound CCOCC RTZKZFJDLAIYFH-UHFFFAOYSA-N 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036279 refractory period Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
一种系统,可使用多个语音接口设备来通过语音与用户交互。所述语音接口设备中的全部或部分可检测用户话语并且可启动语音处理以确定所述话语的意思或意图。在所述语音处理内,可采用仲裁来选择所述多个语音接口设备中的一个来对所述用户话语作出响应。仲裁可部分地基于直接地或间接地指示所述用户与所述设备的接近度的元数据,并且可选择被认为最靠近所述用户的所述设备来对所述用户话语作出响应。
Description
相关申请的交叉引用
本申请要求2015年9月21日提交的美国专利申请号14/860,400的优先权。所述专利申请的全部内容特此以引用的方式并入本文。
背景
随着对设备和相关联的支持服务可用的处理能力继续增加,以新的方式与用户交互变得实际。具体地,通过语音与用户交互变得实际。许多设备(包括个人计算机、智能电话、平板设备、媒体设备、娱乐设备、工业系统、基于话音的助理等等)现能够接收话音命令并且对话音命令作出响应。本文描述的是当扩展这些系统时面对的问题的技术解决方案。
附图简述
参考附图来描述详细说明。在图中,参考数字最左侧的数字标识所述参考数字首次出现的图。在不同的图中使用的相同参考编号指示类似或相同的部件或特征。
图1是示出从多个语音接口设备接收用户话语的示例性基于语音的系统的方框图。
图2是示出处理来自多个语音接口设备的多个音频信号的示例性方法的流程图。
图3是示出可由语音接口设备中的一个执行以处理接收的音频信号的另一个示例性方法的流程图。
图4是示出在两个语音设备之间仲裁的示例性方法的流程图。
图5是示出可由语音接口设备执行以向语音服务提供音频信号和伴随的元数据的示例性方法的流程图。
图6-8展示可当根据图3的方法处理来自不同语音接口设备的音频信号时,由不同解决方案引起的动作的从顶部到底部的时间序列的示例。
图9是展示示例性语音接口设备的相关部件的方框图。
图10是展示可被部分地使用来实现诸如本文描述的语音服务的示例性服务器的相关部件的方框图。
详细描述
基于语音的系统可被配置来通过语音与用户交互以从用户接收指令并且为用户提供服务。在某些实施方案中,所述系统可包括放置在房间、房屋或另一个环境内的不同位置处的多个语音接口设备。每个语音接口设备具有用于接收用户语音的麦克风,并且在一些实施方案中,可与整合的或相关联的扬声器一起起作用以便播放响应性系统语音。
每个设备的某些功能和性能可至少部分地由基于网络的服务提供,设备可通过数据通信网络(包括互联网)访问所述基于网络的服务。具体地,基于网络的服务可向设备提供语音处理和交互性能,包括自动语音识别(ASR)、自然语言理解(NLU)、响应生成和文本到语音(TTS)功能性。在确定由用户语音表述的意图之后,基于网络的服务使用语音接口设备执行功能和/或产生音频。
在某些实施方案中,语音接口设备可包括麦克风和扬声器两者。在其他实施方案中,语音接口设备可包括用于接收用户语音的麦克风,其中响应性系统生成的语音由扩音器设备提供。这种扩音器设备可受语音接口设备的控制并且可播放由语音接口设备提供的音频。可替代地,扩音器设备可从基于网络的服务接收响应性语音音频。
在多个语音接口设备彼此靠近的情境中(诸如在单一房间内或在邻近的房间中),语音接口设备中的每一个可接收用户话语并且每个设备可独立地试图处理用户话语并且对用户话语作出响应,就好像它是两个单独话语一样。下列公开涉及除其他之外用于避免这类重复努力和响应的技术。
在描述的实施方案中,每个语音接口设备检测用户正在讲出的命令并且将表示所讲出的命令的音频信号流式传输给基于网络的语音服务。基于网络的语音服务接收音频信号,执行ASR和NLU以确定由命令表述的意图并且向语音接口设备中的一个提供响应。例如,所述响应可包括生成表示响应于用户命令将要作为声音由语音接口设备产生的字词(word)的数据。作为另一个示例,所述响应可包括针对语音接口的指令以开始播放音乐或执行另一个功能。
当从住宅内的多个语音接口设备接收音频信号时,所述系统选择设备中的将要对用户命令作出响应(例如,提供可听响应或响应于用户命令以其他方式起作用)的一个。所述选择可基于与音频信号相关联的元数据进行。作为一个示例,所述系统可试图确定用户与不同语音接口设备的接近度并且选择最靠近用户的语音接口设备。接近度可包括时间和物理接近度,并且可由元数据属性(诸如音频信号幅值、在音频信号中检测的话音存在的水平、用户语音由语音接口设备检测的相对时间以及可由语音接口设备产生或提供的其他属性)指示。例如,在第一语音接口设备处相对于第二语音接口设备的更高的音频信号幅值可指示用户比第二语音接口设备更靠近于第一语音接口。作为另一个示例,首先检测或识别用户语音的语音接口设备可以是最靠近用户的设备。
接近度还可由借助于基于网络的语音服务产生的属性(诸如ASR和NLU置信度水平)指示。在一些情况下,接近度分值可基于多个属性创建,并且对应于不同音频信号的接近度分值可进行比较来选择具有最高元数据分值的音频信号。
在一些情况下,选择多个语音处理设备中的哪一个将对接收的用户语音作出响应,可基于在其内讲出命令的情境进行。例如,新接收的命令可与同特定语音接口设备针对其作出响应的先前的命令相同的主题相关,并且相同的语音接口设备可因此被选择来对新接收的命令作出响应。作为另一个示例,最近的有源语音接口设备可被选择来响应于用户命令而提供动作或语音。作为另一个示例,在语音接口设备中的一个具有用于对语音命令提供适当响应的性能并且所述设备中的另一个不具有所述性能的情况下,具有所述性能的设备可被选择用于提供所述响应。作为又一个示例,语音命令可与语音接口设备中的一个当前正在执行,并且语音接口设备可因此被选择来对语音命令起作用或作出响应的活动相关。在一些情况下,可发生的是,第一设备响应于先前的用户命令而执行活动,并且修改这一活动的新的命令由第二设备检测。在这种情况下,基于网络的语音服务可确定新的命令与第一设备的当前活动相关,并且可选择第一设备来对用户命令作出响应。
在一些实施方案中,表示语音命令的音频信号可由第一语音接口设备提供并且第二语音接口设备可未能检测或发送语音命令,即使可使命令与第二语音接口设备当前正在执行的活动相关。例如,第二设备可在第一设备接收命令“停止”时播放音乐。所述系统可确定由第一设备接收的命令与由第二设备正在执行的活动相关,并且可检测对第二设备而不是对第一设备的响应。在这个示例中,将“停止”命令引导至第二设备,并且第二设备通过使音乐回放停止来作出响应。
图1展示基于口头命令提供服务的示例性系统100。系统具有多个语音接口设备102。语音接口设备102将在本文中被简单地称为设备102。出于论述的目的,展示两个设备102(a)和102(b),但是系统100可以包括多于两个设备102。每个设备102具有用来捕获用户语音的一个或更多个麦克风以及用来播放语音和内容的一个或更多个扩音器。在一些实施方案中,设备102可被设计成从固定位置进行操作。在其他实施方案中,设备102可以是便捷式的。例如,设备102可包括手持式设备或其他移动设备,诸如智能电话、平板计算机、媒体播放器、个人计算机、可穿戴设备、各种类型的附件等等。
用户104被展示为通过设备102与系统100交互。设备102可定位成足够靠近于彼此,使得设备102中的两者可检测用户104的话语。
在某些实施方案中,用户与语音接口设备102的交互的主要模式可以是通过语音。例如,语音接口设备102可接收来自用户104的口头命令并且可响应于所述命令来提供服务。用户104可讲出预定义的触发表述(例如,“醒来”),所述触发表述之后可以是指令或号令(例如,“我想要去看电影。请告诉我当地电影院正在播放什么影片。”)。所提供的服务可包括执行动作或活动、呈现媒体、获取和/或提供信息、通过由语音接口设备102生成或合成的语音提供信息、代表用户104启动基于互联网的服务等等。
对应于口头的用户请求106的声音由设备102中的每一个接收。在某些实现方式中,用户请求106可以用户104讲出的唤醒字词或其他触发表述开头以指示后续用户语音意图由设备102中的一个接收并且对所述设备102中的一个起作用。设备102可检测唤醒字词并且当后续的用户语音被引导至设备102时解释所述后续的用户语音。在某些实施方案中,唤醒字词可以是由语音接口设备102本地地检测的保留关键词。在检测到关键词之后,语音接口设备102可开始向远程的基于网络的语音识别系统提供音频信号以便检测后续的用户话语并且对后续的用户话语作出响应。
在某些实现方式中,每个设备102可具有表述检测器,所述表述检测器分析由设备102的麦克风产生的音频信号以检测唤醒字词,所述唤醒字词通常可以是预定义的字词、短语或其他声音。例如,这种表述检测器可使用关键词测位技术实现。关键词测位仪是功能部件或算法,其评估音频信号以检测音频信号中预定义的字词或表述的存在。不是产生语音的字词的转录,关键词测位仪生成真/假的输出以指示预定义的字词或表述是否在音频信号中被表示。
在某些实施方案中,音频设备102的表述检测器可被配置来分析音频信号以产生指示唤醒字词在音频信号中被表示的可能性的分值。表述检测器然后将所述分值与阈值进行比较来确定唤醒字词将是否被断言为已经被讲出。
在一些情况下,键词测位仪可使用简化的ASR(自动语音识别)技术。例如,表述检测器可使用执行音频信号的声学建模并且将音频信号的HMM模型与通过训练特定触发表述创建的一个或更多个参考HMM模型进行比较的隐马尔科夫模型(HMM)识别器。HMM模型将字词表示为一系列状态。通常,音频信号的一部分通过将其HMM模型与触发表述的HMM模型进行比较来分析,从而得到表示音频信号模型与触发表述模型的类似性的特征分值。
实际上,HMM识别器可产生对应于HMM模型的不同特征的多个特征分值。表述检测器可使用接收由HMM识别器产生的一个或更多个特征分值的支持向量机(SVM)分类器。SVM分类器产生指示音频信号包含触发表述的可能性的置信度分值。将置信度分值与置信度阈值进行比较以作出关于音频信号的特定部分是否表示触发表述的话语的最后的决定。在断言音频信号表示触发表述的话语之后,音频设备102开始将音频信号传输给远程的基于网络的话语识别系统以便检测后续的用户话语并且对所述后续的用户话语作出响应。
每个设备102接收用户请求106并且产生对应的音频信号108和相关联的元数据110。具体地,第一语音接口设备102(a)产生对应的音频信号108(a)和相关联的元数据110(a),并且第二语音接口设备102(b)产生对应的音频信号108(b)和相关联的元数据110(b)。音频信号108(a)和108(b)中的每一个表示对应于用户请求106的相同的用户话语。
元数据110可包括可用来确定或推断用户104相对于相应设备102的接近度并且更一般地可用来确定应将语音响应和其他动作引导至设备102中的哪一个的各种信息。在这一类环境中的接近度可对应于物理接近度和时间接近度中的任一者或两者。例如,第一元数据110(a)可包括指示用户语音106由第一语音接口设备102(a)接收的时间的第一时间戳,并且第二元数据110(b)可包括指示用户语音106由第二语音接口设备102(a)接收的时间的第二时间戳。元数据110可包括如由语音接口设备102检测的其他信息,诸如音频信号108的信号能量和/或在音频信号108中的话音存在的水平。
将音频信号108和相关联的元数据110提供给语音服务112以用于分析和响应性动作。在一些情况下,语音服务112可以是由支持许多不同用户的住宅或其他楼宇中的设备102的多个服务器计算机实现的网络可访问的服务。设备102可通过广域网(诸如互联网)与语音服务112通信。可替代地,设备102中的一个或更多个可包括或提供语音服务112。
语音服务112基于可由语音服务112本身产生的元数据110和其他元数据来确定语音接口设备102中的哪一个应接收并且执行对用户请求106的响应114。这以反映用户104的可能的意图以对语音接口设备102中的特定一个讲话的方式完成。将在下文描述用于确定用户104最可能想要设备102中的哪一个对用户请求106作出响应的各种技术。
通常,语音服务112通过首先确定从设备102接收的音频信号是否表示相同话语来起作用,所述确定从设备102接收的音频信号是否表示相同话语可通过比较设备102接收用户语音的时间来执行。如果音频信号表示相同话语,诸如可被认为是接收用户语音的设备102在时间上彼此接近,那么执行仲裁来确定设备102中的哪一个应被用来提供对由音频信号表示的用户请求的响应。
语音服务112被配置来使用相应的语音处理流水线实例116(a)和116(b)来处理音频信号108(a)和108(b)。每个流水线实例116对应于设备102中的一个和由流水线实例提供的信号108。在示出的示例中,第一语音处理流水线实例116(a)对应于第一设备102(a)和对应的第一音频信号108(a)。第二语音处理流水线实例116(b)对应于第二设备102(b)和对应的第二音频信号108(b)。
每个语音处理流水线实例116具有被配置来处理接收的音频信号108的有序系列的流水线处理部件。第一语音处理流水线实例116(a)处理从第一设备102(a)接收的第一音频信号108(a)和对应的第一元数据110(a)。第二语音处理流水线实例116(b)处理从第二设备102(b)接收的第二音频信号108(b)和对应的第二元数据110(b)。每个流水线实例116可由语音服务112的不同服务器实现。
每个语音处理流水线实例116的处理部件包括被配置来分析接收的音频信号108的自动语音识别(ASR)部件118以确定口头的用户请求106的字词。处理部件还包括在流水线实例中定位在ASR部件118之后的自然语言理解(NLU)部件120。NLU部件120被配置来分析由ASR部件118产生的用户请求106的字词以确定由用户请求106表述的意图。处理部件还包括定位在流水线实例中NLU部件120之后的响应分配器122。响应分配器122被配置来基于由NLU部件120确定的意图来确定和指定对应于用户请求106的意图的语音响应或其他动作,并且向对应的设备102提供响应或指导对应的设备102响应于用户请求106而执行动作。
每个流水线实例116从对应的设备102接收音频信号108并且除非流水线实例如下文所述被中断,否则提供对相同设备102的响应114。在操作时,流水线实例116中的一个之外的全部在完成之前被中断,使得流水线实例116中的仅单一个将响应114返回至其对应的设备102。
每个流水线实例116中的处理部件包括在流水线实例116中定位在ASR部件118之前的第一源仲裁器124(a),在流水线实例116中定位在ASR部件118之后和NLU部件120之前的第二源仲裁器124(b),以及在流水线实例116中定位在NLU部件120之后和响应分配器122之前的第三源仲裁器124(c)。更具体地,第一源仲裁器124(a)定位在流水线实例116中,使得它在启动ASR之前的时间处被调用,并且使得ASR部件由于第一源仲裁器124(a)产生输出而被启动。第二源仲裁器124(b)定位在流水线实例116中,使得它在完成ASR之后并且在启动NLU之前的时间处被调用。因此,第二源仲裁器124(b)基于ASR部件118产生输出而被启动,并且NLU部件120基于第二源仲裁器124(b)产生输出而被启动。第三源仲裁器124(c)定位在流水线实例116中,使得它在完成NLU之后并且在调用响应分配器122之前被调用。因此,第三源仲裁器124(c)基于NLU部件120产生输出而被启动,并且响应分配器122基于第三源仲裁器124(c)产生输出而被启动。
每个源仲裁器124被配置来确定是否满足一个或更多个判据,其中所述判据与对应于流水线实例116的设备102是否应或将是用来提供对用户请求106的响应的装置相关并且指示其。判据可至少部分地基于从对应的设备102接收的元数据110。尽管结合本文的一些实施方案展示和论述了三个仲裁器,但是其他实施方案可包括一个、两个或更多个仲裁器和/或类似于结合源仲裁器124(a)、124(b)和/或124(c)论述的功能性或提供所述功能性的子集起作用的其他设备。
作为一个示例,第一元数据110(a)可包括对应于用户请求106由第一设备102(a)接收的时间的第一时间戳,并且第二元数据110(b)可包括对应于用户请求106由第二设备102(b)接收的时间的第二时间戳。第一流水线实例116(a)的每个仲裁器124可被配置来响应于(a)确定第一时间戳与第二时间戳之间的差小于阈值,从而指示表示用户请求106的声音由设备102(a)和102(b)几乎同时接收,和(b)确定第一时间戳大于第二时间戳,从而指示接收或检测用户话语的第一设备102(a)晚于第二设备102(b)而中断流水线实例116(a)。需注意,在这些示例中,时间戳可对应于开头的唤醒字词由相应的设备102检测的时间。
作为另一个示例,元数据110可包括一个或更多个信号属性。例如,信号属性可指示音频信号的幅值、音频信号的信噪比、在音频信号中检测的话音存在的水平、在音频信号中检测的唤醒字词具有的置信度水平、用户104距设备102的物理距离等等。第一流水线实例116(a)的每个仲裁器124可被配置来将关于第一音频信号108(a)的属性与第二音频信号108(b)的对应的属性进行比较并且作为否定的比较的结果而中断第一流水线实例116(a)。例如,如果第一音频信号108(a)比第二音频信号108(b)具有更低的幅值,那么可中断第一流水线实例116(a)。类似地,如果第一音频信号比第二音频信号108(b)具有更低的信噪比、话音存在、唤醒检测置信度水平或用户距离,那么可中断第一流水线实例116(a)。
作为特定示例,在第一音频设备和第二音频设备分别提供第一音频信号和第二音频信号的情况下,确定第一音频设备和第二音频信号中的哪一个将对用户话语作出响应,可包括以下中的一个或更多个:
确定第一音频信号和第二音频信号中的哪一个具有更高的强度或幅值;
确定第一设备和第二设备中的哪一个检测到更高水平的话音存在或第一音频信号和第二音频信号中的哪一个表示更高水平的话音存在;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一设备和所述第二设备中的哪一个检测到具有更高水平的置信度的触发表述;
确定所述第一设备和所述第二设备中的哪一个检测到所述触发表述;
确定第一设备和第二设备中的哪一个具有特定性能;
确定第一音频信号和第二音频信号中的哪一个内字词被识别出具有更高水平的置信度;
确定在第一音频信号和第二音频信号中的哪一个内由字词表述的意图被确定具有更高水平的置信度;
确定所述第一设备和所述第二设备中的哪一个物理地更靠近用户;
确定第一设备和第二设备中的哪一个先接收对话语作出的响应;或
确定所述第一设备和所述第二设备中的哪一个先接收所述话语。
更一般地,源仲裁器124中的每一个可在确定与流水线实例116相关联的设备102不是应将响应提供给的所述设备102之后中断其流水线实例116。当处理流水线实例的操作被中断时,中断的流水线实例并不将响应114提供给对应的设备102。中断的流水线实例还可向设备102提供指示设备102将并不用来提供对用户请求的响应的消息。作为响应,设备可停止将音频信号108提供给语音服务112。作为实例,消息或其他指示可包括数据,所述数据包括引起或导致设备进入收听模式的指令。收听模式是设备并不将音频信号108发送至语音服务112和设备监测其环境以检测唤醒字词的另外的话语的模式。在一些情况下,可将对应于终端的流水线实例的错误响应返回至设备102。在一些情况下,设备可被指导来播放音调,产生LED照明或采取一些其他动作,从而指示设备并不将要对用户请求作出响应。
语音服务112可在许多不同用户的住宅中支持语音接口设备102。在这一类描述中,假设用户104已经提供指示一组设备102与彼此相关联并且以本文所述的方式共同地被处置的配置信息。例如,用户104可将他的或她的设备102中的每一个或被共同地定位的这类设备的集合记录为与单一用户或家庭账户相关联。更具体地,用户可利用提供语音服务112和支持许多不同语音接口设备的操作的基于网络的服务提供商维护账户。账户可被配置来存储针对对应于不同家庭成员的多个用户配置文件的信息。每个用户配置文件可指示特定用户的特性和偏好。用户或家庭可将许多不同类型的设备记录为与账户相关联。账户可被配置来存储支付信息、购买信息、预订情况、联系人信息等。账户还可被配置来存储关于家庭内的语音接口设备的信息,诸如它们的位置、它们相关联的配置文件等。
本文所描述的动作关于以诸如此的方式与彼此相关联的一组设备102执行。此外,尽管本文的描述在两个设备102的情境中被给定,但是可以相同的方式使用和处置两个或更多个任意数目的设备102。
语音服务112可以是通过互联网(诸如有时被称为“云”服务)维护和访问的一个或更多个网络可访问的计算平台的一部分。通常,在语音接口设备102与语音服务112之间的通信可通过各种类型的数据通信网络(包括局域网、广域网和/或公共网络,所述公共网络可包括各种类型的无线网络,包括Wi-Fi、蓝牙网络和蜂窝通信网络)的组合实现。
图2展示在多个语音接口设备102可试图处理相同用户话语并且对所述相同用户话语作出响应所处的环境中提供对话语(诸如用户请求106)的响应的示例性方法200。图2的动作可由对设备102提供支持的网络服务(诸如图1中所示的语音服务112)的一个或更多个服务器和/或一个或更多个语音处理流水线实例116共同地实现。
动作202包括接收由第一设备102(a)产生的第一音频信号108(a),其中第一音频信号108(a)表示第一用户话语。动作202还包括接收与第一音频信号108(a)相关联的第一元数据110(a)。在图1的情境中,第一音频信号108(a)和第一元数据110(a)可由第一处理流水线实例116(a)接收。元数据110可包括如上文描述的各种属性,所述各种属性可与对应的音频信号、提供音频信号的设备和/或与用户104相关。
动作204包括接收由第二设备102(b)产生的第二音频信号108(b),其中第二音频信号108(b)表示第二用户话语。动作204还包括接收与第二音频信号108(b)相关联的第二元数据110(b)。在图1的情境中,第二音频信号108(b)和第二元数据110(b)可由第二处理流水线实例116(b)接收。第一处理流水线实例116(a)和第二处理流水线实例116(b)可由语音服务112的不同服务器实现。也就是说,设备102中的每一个可与语音服务112的不同服务器通信并且从所述不同服务器接收支持。
在某些实施方案中,第一元数据110(a)可包括指示接收用户话语的第一时间或接收用户话语前面的唤醒字词的第一时间的第一时间戳。类似地,第二元数据110(b)可包括指示接收用户话语的第二时间或接收用户话语前面的唤醒字词的第二时间的第二时间戳。
动作206包括确定从其已经接收第一音频信号108(a)和第二音频信号108(b)的第一设备102(a)和第二设备102(b)是否与相同用户或家庭账户相关联。如果不相关联,那么动作208执行处理音频信号108(a)和108(b)中的两者并且对所述音频信号108(a)和108(b)中的两者作出响应,其中设备102(a)和102(b)中的每一个用来响应于其相应地接收的用户话语而提供语音响应或其他动作。
如果第一设备102(a)和第二设备102(b)与相同用户或家庭账户相关联,那么执行动作210。动作210(其可在对应于设备102(a)和102(b)中的任一个或两个的处理流水线实例内执行多次)包括确定第一音频信号和第二音频信号是否表示相同用户话语。在一些实施方案中,这可通过将分别与第一音频信号和第二音频信号相关联的第一时间戳和第二时间戳进行比较来确定。更具体地,在第一时间戳与第二时间戳之间的差可被计算并且与阈值进行比较。如果差小于阈值,那么第一音频信号和第二音频信号被断言表示相同话语。如果差高于阈值,那么第一音频信号和第二音频信号被断言表示不同话语。
动作210还可使用其他判据来确定第一音频信号108(a)和第二音频信号108(b)是否表示相同话语。例如,音频信号可彼此进行比较以确定他们是否类似于彼此。具体地,动作210可包括计算第一音频信号108(a)与第二音频信号108(b)之间的互相关性。如果在信号之间存在强的互相关性,具体地,如果互相关性超过预定阈值,那么信号被断言表示相同话语。作为另一个示例,可比较关于第一音频信号108(a)和第二音频信号108(b)的ASR结果来确定音频信号是否表示匹配的字词序列。如果针对两个音频信号的ASR是完全相同的或类似的,那么两个音频信号可被认为表示相同话语。作为又一个示例,关于第一音频信号108(a)和第二音频信号108(b)的NLU结果可彼此比较。如果NLU结果指示对应于第一音频信号108(a)和第二音频信号108(b)的语音表示共同意图,那么两个音频信号可被认为表示相同话语。
动作210可使用所描述的多于一个的判据。例如,音频信号可需要满足两个或更多个判据,以便被断言为表示相同的用户话语。此外,变化了超过预定量的具有相关联的时间戳的信号可被认为表示两个不同的用户话语,而不管信号的任何其他类似性、关于信号的ASR结果或关于信号的NLU结果如何。
如果动作210确定第一音频信号108(a)和第二音频信号108(b)不表示相同用户话语,那么动作208执行处理所述音频信号中的两者并且对所述音频信号中的两者作出响应,其中设备102(a)和102(b)中的每一个用来响应于其相应地接收的用户话语而提供语音响应或其他动作。
如果动作210确定第一音频信号108(a)和第二音频信号108(b)表示相同用户话语,那么动作212在对应的设备102(a)与102(b)之间执行仲裁以确定设备中的哪一个将提供对由设备102(a)和102(b)中的两者检测和提供的单一用户话语的响应。动作212可包括比较由元数据110指示的针对音频信号108中的每一个的属性。将音频信号108具有最强属性集合的设备选择为仲裁的获胜者。
如果第一设备102(a)赢得仲裁,那么动作214执行对第一音频信号108(a)进行处理并作出响应,包括由第一设备102(a)对由第一音频信号108(a)表示的用户命令产生适当的响应。动作216包括取消对第二音频信号108(b)的处理并且取消可基于第二音频信号108(b)以其他方式提供的任何响应,包括可由设备102(b)以其他方式给定的任何响应。在一些实现方式中,将消息发送给设备102(b)从而通知设备102(b)不要从语音服务112期望另外的响应。需注意,动作214和216可并行执行或以与所示出的不同的次序执行。例如,动作216可在动作214之前执行。
如果第二设备102(b)赢得仲裁,那么动作218执行对第二音频信号108(b)进行处理并作出响应,包括由第二设备102(b)对由第二音频信号108(b)表示的用户命令产生适当的响应。动作220包括取消对第一音频信号108(a)的处理并且取消可基于第一音频信号108(a)以其他方式提供的任何响应,包括可由第一设备102(a)以其他方式给定的任何响应。在一些实现方式中,将消息发送给设备102(a)从而通知设备102(a)不要从语音服务112期望另外的响应。需注意,动作218和220可并行执行或以与所示出的不同的次序执行。例如,动作220可在动作218之前执行。
仲裁动作212可至少部分地基于第一元数据110(a)和第二元数据110(b)执行,所述第一元数据110(a)和第二元数据110(b)可包括分别与第一音频信号108(a)和第二音频信号108(b)相关的一个或更多个属性。元数据110除上文所提及的时间戳之外可指示用户104相对于对应的设备102的接近度。例如,设备102可具有用于基于由麦克风阵列的空间上独立的麦克风元件产生的麦克风信号来执行声音源定位(SSL)的性能。SSL可被实现以便基于对应于用户104的语音的接收的声音来确定用户104的距离。仲裁动作212可包括确定设备102(a)和102(b)中哪一个物理地或在声学上最靠近用户104并且选择最靠近的设备来提供对用户请求106的响应。
可替代地,每个设备102可提供可作为代理用于用户相对于设备的实际距离测量的其他元数据。例如,与音频信号108相关联的元数据110可包括音频信号108的幅值,并且动作212可包括选择产生具有最高幅值的音频信号108的设备102。元数据110可包括或可指示在音频信号108中检测的人类话音存在的水平,并且动作212可包括选择产生具有最高水平的检测的话音存在的音频信号108的设备102。类似地,元数据可包括或可指示音频信号108的信噪比,并且动作212可包括选择提供具有最高信噪比的音频信号108的设备102。作为另一个示例,元数据110可包括或指示唤醒字词或其他触发表述由设备102检测具有的置信度水平,并且动作212可包括选择检测触发表述具有最高置信度水平的设备102。作为又一个示例,元数据110可包括指示触发表述由提供音频信号的设备102检测的时间的时间戳,并且动作212可包括选择产生与最早时间戳相关联的音频信号的设备102。
在某些实施方案中,元数据可指示提供音频信号的设备的特殊性能,诸如并非所有设备具有的专用性能,并且动作212可包括选择设备102中的能够对用户请求106作出响应的那个。例如,第一设备102(a)可能够播放视频而第二设备102(b)不能。响应于播放视频的用户请求,动作212可选择第一设备102(a),因为第二设备102(b)并不支持所请求的动作或活动。
在一些情况下,元数据110可指示设备102中的应对用户请求106作出响应的那个的特定用户名称。例如,用户请求本身可口头地辨识设备102中的一个,或用户可先前已经使所述设备配置来具有相关性质,使得设备102中的一个用于对用户请求作出响应。在这种情况下,动作212可包括选择用户已经被命名来对用户请求106作出响应的设备。
作为另一个示例,动作212可至少部分地基于设备102中的哪一个先接收对用户请求106的响应114,由此选择先接收响应114的设备102来指示或实现响应114,而其他设备忽略或取消它接收的响应。
元数据110可指示对应的设备102最后有源的时间。设备102可在它提供语音响应、播放音乐、提供通知、执行动作等时被认为是有源的。在这种情况下,动作212可包括选择最近有源的设备。
在这种情况下,动作212可包括确定新的用户话语是与设备102中的一个对其作出响应的先前用户话语相关的请求并且选择相同设备102来对新的用户话语作出响应。例如,先前的用户话语可以是第一设备102(a)对其作出响应的针对天气报道的请求。新的用户话语可以是关于天气的更加特定的请求,诸如针对5天的预报的请求。因为先前相关的请求由第一设备102(a)作出响应,所以动作208还可选择第一设备102(a)来对相关的新的请求作出响应。
在一些情况下,动作208可包括确定用户请求106与当前正在由设备102中的一个执行的活动相关并且选择相同设备102来对请求106作出响应。例如,第一设备102(a)可正在播放音乐,并且用户请求可包括“停止”命令。用户请求可被解释为与第一设备102(a)的当前活动相关,并且第一设备102(a)因此被选择为应对“停止”请求作出响应的设备。
在一些实现方式中,动作212还可基于其他元数据,诸如在每个处理流水线实例116内产生的元数据。例如,流水线实例116的ASR部件118可产生关于ASR结果的ASR置信度分值或水平。动作212可包括选择产生最高ASR置信度水平的设备102。类似地,NLU部件120可产生关于NLU结果的NLU置信度分值或水平。动作212可包括选择产生最高NLU置信度水平的设备102。
更一般地,动作212可基于涉及多个类型的元数据和其他信息的多个判据。例如,每个判据可与元数据的特定项相关,所述判据可被加权来针对每个设备102产生复合元数据分值,并且可将具有最高元数据分值的设备102选择为对用户请求106作出响应的设备。
关于图1中所示的实现方式,每个流水线实例116实现仲裁器124的若干实例,其中每个仲裁器实例124实现类似于动作210和212或与动作210和212完全相同的动作。然而,当每个流水线实例116与单一对应的设备102相关联时,单个流水线实例116内的仲裁器124仅确定在该流水线实例内并且关于对应的设备102的处理是否应该继续,并且并不关于其他流水线实例116或其他设备102中的任一个采取任何直接动作。换句话说,每个仲裁器124可起作用来中断或取消对所述仲裁器124包含在其内的流水线实例的处理,而不是中断或取消对可与不同设备102相关联的任何其他流水线实例116的处理。
处理用户请求106的不同流水线实例通常彼此不同步。因此,流水线实例116中的一个可在已经启动流水线实例中的另一个之前前进通过其部件或操作中的一个或更多个。类似地,处理单一用户请求106的两个流水线实例116可由于音频信号108的不同到达时间而在不同时间处由语音服务启动。在任何特定时间处,流水线实例中的每一个可前进至其操作的另一个。
在与单个语音接口设备102相关联的单个流水线实例116内,仲裁器124基于当前可用的信息而继续/中断决定。在一些情况下,可能仅由相关联的设备102供应的元数据当前可用。在其他情况下,出于比较,与其他设备102相关联、与其他流水线实例116相关联的元数据也可用。元数据(诸如与ASR和NLU相关的置信度分值)在任何给定时间处可能可用或可能不可用,这取决于在每个流水线实例内的进程。
图3展示了示出可关于由分别对应的语音接口设备102提供的多个接收的音频信号108中的每一个执行的一系列动作的示例性方法300。方法300由图1的语音处理的流水线实例116中的每一个执行。方法300响应于从对应的语音接口设备102接收音频信号108来启动。出于论述的目的,由方法300分析的音频信号将被称为“对象”音频信号302。由方法300的其他实例并行分析的由其他设备102提供的音频信号将被称为“其他”音频信号。类似地,与对象音频信号302相关联的元数据将被称为对象设备元数据304。提供对象音频信号302的语音接口设备102将被称为对象设备。
动作306包括接收表示用户话语(诸如口头用户请求106)的对象音频信号302。动作306还包括接收对象设备元数据304。对象设备元数据304可包括对象音频信号302的属性,诸如如上文参考图2的动作210和212所论述的信号强度、检测的话音水平、信噪比等。对象设备元数据304可包括诸如用户104距设备102的物理距离、对应于用户话语被接收或唤醒字词被检测的时间的时间戳、配置信息、连接性信息等的信息。
响应于接收对象音频信号302和对象设备元数据304执行的动作308包括将对象设备元数据304高速缓存在方法300的多个实例可访问(诸如语音服务112的多个服务器和多个处理流水线实例116可访问)的存储位置中。将方法300的所有实例高速缓存在共同存储位置中,使得每个实例能够访问由其他实例高速缓存的元数据。
也响应于接收音频信号302和设备元数据304执行的动作310(a)包括执行重复仲裁。通常,在方法300中的不同点处执行的类似的或完全相同的动作310(a)、310(b)和310(c)包括相比较于先前已经由方法300的其他实例高速缓存的其他音频信号的元数据,评估与对象音频信号302相关的对象设备元数据304和其他元数据。评估被执行以便确定当处于对象设备与其他设备中的每一个之间时,对象设备是否应对由对象音频信号302表示的话语作出响应。如果不是,那么动作312执行中断对应于对象设备的流水线实例,意味着没有方法300的另外的动作关于对象音频信号302被执行。动作312通知对象设备流水线实例已经被终止并且对象设备不应期望对对象音频信号302作出响应。在一些情况下,动作312还可包括指导对象设备停止向语音服务发送对象音频信号302。
图4示出可用来实现动作310(a)、310(b)和310(c)的示例性方法400。方法400的动作402包括获得对象音频信号302的对象设备元数据304。然后针对或关于针对其已经启用方法300的实例的其他音频信号中的每一个执行动作404的集合。
动作404包括针对或关于一个或更多个其他音频信号中的每一个执行的程序环路,其中术语“其他音频信号”用来指代不同于对象音频信号的每个多个音频信号。每个其他音频信号与其自己的元数据和已经生成另一个音频信号的对应的设备102相关联。针对其他音频信号中的每一个已经或将要启动方法300的实例。尽管如所述程序环路404针对其他音频信号中的每一个重复进行除非到达中断决定,但是它将被描述为关于其他音频信号中的单个执行。
动作406包括获得与其他音频信号相关联的元数据,诸如先前由于其他音频信号相关联的方法300的实例高速缓存的元数据。其他音频信号的元数据可包括本文描述的元数据或信息中的任一个,诸如设备元数据110和在与其他音频信号相关联的流水线实例116内产生的任何其他元数据。
动作408包括确定对象音频信号302和其他音频信号是否表示相同用户话语。动作408可使用如上文参考图2的动作210描述的相同技术执行。如果两个音频信号并不表示相同用户话语,那么关于其他音频信号并不采取另外的动作,并且动作404的集合针对其他音频信号中的不同的一个继续,如由方框410所指示。
如果两个音频信号并不表示相同用户话语,那么执行动作412。动作412包括确定方法300的另一个实例是否已经使其相关联的设备102承诺对用户话语作出响应。如果是,那么动作414执行中断与对象音频信号相关联的方法300的实例。中断方法300意味着关于对象音频信号302不采取另外的动作并且对象设备并不提供响应。此外,环路404终止。
如果另一个设备尚未承诺对用户话语作出响应,那么动作416执行确定当前对象音频信号和其他音频信号可用的元数据是否满足中断判据中的一个或更多个。中断判据可包括在对象音频信号的元数据与其他音频信号之间的关系,如上文参考图2的动作210所述。如果一个或更多个判据被满足,那么动作414执行中断与对象音频信号302相关联的方法的实例。如果中断判据未被满足,那么动作404的集合针对其他音频信号中的不同的一个重复进行,如由方框418所指示。
返回图3,动作310(a)导致决定中断或继续。如果决定被中断,那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。对象设备可被引导来停止发送对象音频信号302。
如果动作310(a)的决定继续,那么执行动作314,其包括对对象音频信号302执行自动语音识别(ASR)。ASR 314产生由对象音频信号302表示的任何用户语音的字词的文本表示。ASR还可产生指示确定用户语音的字词具有的置信度水平的ASR置信度水平。动作316包括高速缓存ASR置信度水平作为ASR元数据以与音频信号302相关联。
在ASR 314之后,执行另外的重复仲裁动作310(b),其类似于动作310(a)或与310(a)完全相同。如果310(b)的决定被中断,那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。
如果动作310(b)的决定继续,那么执行动作318,其包括对由ASR314产生的字词的文本表示执行自然语言理解(NLU)。动作318确定由用户语音表述的可能意图并且还可产生指示确定所述意图具有的置信度水平的NLU置信度水平。动作320包括高速缓存NLU置信度水平作为NLU元数据以与音频信号302相关联。
在NLU 318之后,执行又一个重复仲裁动作310(c),其可类似于动作310(a)和310(b)或与310(a)和310(b)完全相同。如果310(c)的决被定中断,那么对对象音频信号的处理被终止并且对象设备并不提供对用户查询的响应。
如果动作310(c)的决定继续,那么动作322执行使对象设备承诺对用户查询作出响应。这一承诺通过执行如下动作324得知:高速缓存承诺标记,指示对对象音频信号的处理已经前进至响应于由对象音频信号表示的意图而将动作分配至对象设备的点,并且对其他音频信号的处理应被中断。当方法300的其他实例执行重复仲裁310时它们可读取这一标记,并且可基于这一标记的存在而中断它们自己。例如,图4的动作412可通过检查这一标记来执行。
动作326包括分配动作,其可包括生成和提供对对象设备的响应。动作326还可包括响应于确定的用户请求来执行其他动作,所述确定的用户请求包括除了产生语音或除其之外,向对象设备102提供指令以执行动作,诸如播放音乐、停止音乐回放、启用定时器等。
图5示出可由设备102中的每一个实现以便响应于检测的用户语音502(其可对应于用户请求106)而向语音服务112提供音频信号108和相关联的元数据110的示例性方法500。
动作504包括执行音频波束形成以产生多个定向音频信号,其中每个定向音频信号加强来自相对于设备102的不同方向的声音。动作504可使用到达时间差(TDOA)技术,诸如使用麦克风对并且使来自麦克风中的一个的信号延迟等于声音穿行麦克风之间的距离的时间的量,由此加强与两个麦克风对齐的声音源来执行。可以此方式使用不同的麦克风对以获得多个音频信号,所述多个音频信号中的每一个对应于不同方向。
动作506包括执行话音活动检测(VAD)以检测话音在定向音频信号中的存在。在定向音频信号中的一个中检测到话音存在之后,关于定向音频信号执行后续动作。在一些实施方案中,图5的后续动作关于具有最高话音存在的定向音频信号执行。
VAD通过分析音频信号的一部分来评估音频信号的特征(诸如信号能量和频率分布)来确定音频信号中话音存在的水平。所述特征被量化并且与对应于已知包含人类语音的参考信号的参考特征进行比较。所述比较产生对应于音频信号的特征与参考特征之间的类似度的分值。所述分值用作对音频信号中语音存在的检测的或可能水平的指示。
动作508包括对在其内已经检测到话音活动的定向音频信号或在其内已经检测到最高话音活动水平的定向音频信号执行唤醒字词检测。如上文所提及,预定义的字词、表述或其他声音可用作由设备102接收用户意图后续语音并且对其起作用的信号。
在描述的实施方案中,例如,唤醒字词检测可使用关键词测位技术实现。关键词测位仪是功能部件或算法,其评估音频信号以检测音频信号中预定义的字词或表述的存在。不是产生语音的字词的转录,关键词测位仪生成真/假的输出以指示预定义的字词或表述是否在音频信号中被表示。
在一些情况下,键词测位仪可使用简化的ASR(自动语音识别)技术。例如,唤醒字词检测可使用执行音频信号的声学建模并且将HMM模型与通过训练特定触发表述创建的一个或更多个参考HMM模型进行比较的隐马尔科夫模型(HMM)识别器。HMM模型将字词表示为一系列状态。通常,音频信号的一部分通过将其HMM模型与触发表述的HMM模型进行比较来分析,从而得到表示音频信号模型与触发表述模型的类似性的特征分值。实际上,HMM识别器可产生对应于HMM模型的不同特征的多个特征分值。
唤醒字词检测还可使用接收由HMM识别器产生的一个或更多个特征分值的支持向量机(SVM)分类器。SVM分类器产生指示音频信号包含触发表述的可能性的置信度分值。
动作510包括执行接近度检测以确定用户距设备102的距离。例如,接近度检测可结合二维麦克风阵列使用声音源定位(SSL)技术来实现。这类SSL技术分析在麦克风阵列的相应麦克风处接收的声音的到达时间差以便确定接收的声音所源自的方位。可替代地,设备102可具有摄像头或专用传感器以便确定用户相对于设备102的方位。
方法500的动作中的任一个可产生元数据110的事项。例如,VAD 506可产生话音存在水平,指示人在设备102附近讲话的可能性。VAD 506还可产生信噪比测量值。唤醒字词可产生唤醒字词置信度水平,对应于用户104说出的唤醒字词的可能性。唤醒字词检测508还可产生指示检测到唤醒字词的时间的时间戳。接近度检测512可产生距离参数,指示用户104距设备102的距离。
动作512包括向语音服务112发送音频信号108和元数据110。音频信号108可包括定向音频信号中的一个,诸如在其中检测语音和在其中检测唤醒字词的定向音频信号。
图6-8示出所描述的方法可导致设备102(a)和102(b)中的一个或另一个对用户请求106作出响应的方式的示例。在这些图中的每一个中,展示了由第一设备和相关联的第一流水线实例执行的动作,以及由第二设备和相关联的第二流水线实例执行的动作,以及以从顶部至底部按序列次序展示的动作。还示出与集中式高速缓存的交互。每个示例假设由第一设备和第二设备提供的信号表示共同用户话语。也就是说,动作408通过使用两个音频信号最可能表示相同用户话语的描述的技术来确定。在一些实施方案中,这可意味着与音频信号相关联的时间戳的差小于预定义阈值。图6-8中所示的事件通常对应于图3中所示的动作。
图6表示在其中音频信号由第一流水线实例和第二流水线实例几乎同时接收的情境。在这个示例中,假设由第一设备提供的音频信号比由第二设备提供的音频信号具有更高的元数据分值。例如,第一音频信号的信噪比或信号幅值可高于第二音频信号的信噪比和信号幅值。因为音频信号和伴随的元数据几乎同时被接收,所以由第二流水线实例执行的第一仲裁能够访问与第一音频信号相关联的高速缓存的元数据并且能够确定第一音频信号比第二音频信号具有更高的元数据分值。基于这一确定,第二流水线实例在启动ASR之前中断其本身,并且并不执行在删除线文本中所展示的动作。相反,第一流水线实例执行直至完成并且提供对第一设备的响应。
图7表示在其中第二流水线实例接收其音频信号显著地晚于第一流水线实例接收其音频信号的情境。更具体地,在第一流水线实例的ASR部件分析其音频信号之后,第二流水线实例接收其音频信号。图7还假设由第二设备提供的音频信号比由第一音频设备提供的音频信号具有更高的元数据分值。在这种情况下,由第一流水线实例执行的第一仲裁不能够访问关于第二音频信号的任何高速缓存的元数据,因为尚未到达第二音频信号。相反,第一流水线实例的第二仲裁能够访问与第二音频信号相关联的高速缓存的元数据,并且此时中断第一流水线实例。在这个示例中,第二流水线实例继续完成并且提供对第二设备的响应。
图8表示在其中第二流水线实例接收其音频信号显著地晚于第一流水线实例接收其音频信号的情境。在这种情况下,第二流水线实例在第一流水线会理已经承诺对用户话语作出响应之后接收第二音频信号。在这种情况下,由第二流水线实例执行的第一仲裁确定第一流水线实例已经承诺对用户话语作出响应并且在执行ASR之前中断其本身,即使第二音频信号可能已经与比第一音频信号更高的元数据分值相关联。
图9展示了示例性语音接口设备102的相关部件。语音接口设备102具有促进与用户104的音频交互的麦克风阵列902和一个或更多个语音扬声器904。麦克风阵列902产生表示来自语音接口设备102的环境的音频(诸如由用户104说出的声音)的麦克风音频信号。由麦克风阵列902产生的麦克风音频信号可包括定向音频信号或可用来产生定向音频信号,其中定向音频信号中的每一个加强来自相对于麦克风阵列902的不同径向方向的音频。
尽管语音接口设备102被描述为具有一个或更多个整合的扬声器904,但在其他实施方案中,语音接口设备102可不包括扬声器。例如,语音接口设备102可包括用户向其中发出命令的麦克风设备或可包括用于连接到另一个装置(诸如电视机)的设备。替代整合的扬声器,诸如这一类的实施方案可使用其他设备(包括具有扬声器和不同类型的专有扬声器部件的其他语音接口设备)的扬声器性能。作为一个示例,语音接口设备102可产生驱动外部扬声器的音频输出信号。作为另一个示例,语音接口设备102可通过无线数据连接(诸如蓝牙连接)驱动或控制外部扬声器。在其他情境中,语音接口设备102可结合从语音服务102而不是从语音接口设备102接收音频信号和其他指令的扬声器设备使用。在这种情况下,可将图1的响应114提供至诸如扬声器设备而不是语音接口设备102。
语音接口设备102可包括处理单元906和相关联的存储器908。处理单元906可包括一个或更多个处理器,所述一个或更多个处理器可包括通用处理器、专用处理器、处理器核心、数字信号处理器等。取决于语音接口设备102的配置,存储器908可以是非暂时性计算机存储介质类型并且可包括易失性和非易失性存储器。存储器908可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术。存储器908可包括可移除或可拆卸存储器,并且还可包括网络可访问的存储器。存储器908可包括便捷式存储介质,诸如闪存驱动器。
可以使用存储器908来存储任何数目的软件部件,所述软件部件可通过处理单元906执行。存储在存储器908中的软件部件可包括被配置来管理处于语音接口设备102内并且耦合到语音接口设备102的硬件和服务的操作系统910。此外,由存储器908存储的可执行部件可包括被配置来使用麦克风阵列902产生音频信号的音频处理部件912。音频处理部件912可包括用于处理由麦克风阵列902生成的麦克风音频信号和/或提供给扬声器904的输出音频信号的功能性。作为示例,音频处理部件912可包括用于减少由麦克风阵列902与扬声器904之间的声学耦合生成的声学回声的声学回声消除或抑制部件914。音频处理部件912还可包括用于减少所接收音频信号中的噪声(诸如麦克风音频信号而非用户语音的元素)的噪声减少部件916。
音频处理部件912可包括被配置来生成在不同方向上聚焦的定向音频信号的一个或更多个音频波束形成器或波束形成部件916。更具体地,波束形成部件916可响应于来自空间上隔开的麦克风阵列902的麦克风元件的音频信号以产生加强源自语音接口设备102的环境的不同区域或源自相对于语音接口设备102的不同方向的声音的定向音频信号。在一些情况下,波束形成部件916可产生可在仲裁中使用的元数据。例如,波束形成部件916可指示对应于每个定向音频信号的话音活动水平的信号强度。
存储在存储器908中并且由处理器906执行的可执行部件可包括监测定向音频信号中的一个或更多个以检测触发表述的系统的用户话语的唤醒字词检测部件920。如上文所述,例如,唤醒字词检测可使用关键词测位技术实现。唤醒字词检测部件920可产生元数据,诸如对应于检测唤醒字词具有的置信度的置信度分值或水平。
软件部件还可包括被配置来监测由波束形成部件918产生的定向音频信号中话音存在的水平的话音活动检测器922。出于如上文所论述的仲裁的目的,话音存在的水平可用作元数据。
设备102的软件部件还可包括可用来确定用户104距设备102的距离的声音源定位(SSL)部件924。SSL部件924被配置来分析在麦克风阵列902的相应麦克风处接收的声音的到达时间差以便确定接收的声音所源自的方位。例如,SSL部件924可使用到达时间差(TDOA)技术来确定声音源的方位或方向。出于执行如上文所论述的仲裁的目的,所确定的方位可用作元数据。
设备102可具有用来确定用户104相对于设备102的方位的接近度检测部件或系统926(诸如摄像头、测距设备或其他传感器)。而且,出于仲裁的目的,以此方式产生的方位信息可用作元数据。
语音接口设备102还具有各种硬件部件(未示出),诸如通信部件、功率部件、I/O部件、信号处理部件、指示器、控制按钮、放大器等。
语音接口设备102可具有用于通过各种类型的网络(包括广域网、局域网、私用网络、公用网络等)与语音服务112通信的通信接口928,诸如无线或Wi-Fi网络通信接口、以太网通信接口、蜂窝网络通信接口、蓝牙通信接口等。在无线通信接口的情况下,这类接口可包括用于实现适当通信协议的无线电收发器和相关联的控制电路和逻辑。
图10示出可用来实现语音服务112的服务器1000的相关逻辑或功能部件的示例。通常,语音服务112可以由一个或更多个服务器1000来实现,其中各种功能性以各种方式重复或分布在不同的服务器中。服务器可以定位在一起或独立地定位,并且被组织成虚拟服务器、服务器库和/或服务器群。可以通过单一实体或企业的服务器来提供本文描述的功能性,或可以利用多个实体或企业的服务器和/或服务。此外,所描述的语音服务可以是向多个用户提供各种类型的功能和服务(不限于本文所描述的功能和服务)的更大基础设施的一部分。
在非常基本的配置中,示例性服务器1000可以包括处理单元1002和相关联的存储器1004。处理单元1002可包括一个或更多个处理器,所述一个或更多个处理器可包括通用处理器、专用处理器、处理器核心、数字信号处理器等。取决于服务器1000的配置,存储器1004可以是非暂时性计算机存储介质类型并且可包括易失性和非易失性存储器。存储器1004可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术。存储器1004可包括可移除或可拆卸存储器,并且还可包括网络可访问的存储器。存储器1004可包括便捷式存储介质,诸如闪存驱动器。
可以使用存储器1004来存储任何数目的软件部件,所述软件部件可通过处理单元1002执行。存储在存储器1004中的软件部件可包括被配置来管理处于服务器1000内并且耦合到服务器1000的硬件和服务的操作系统1006。此外,由存储器1004存储的可执行软件部件可包括支持语音接口设备102的基于语音的操作的服务部件1008。服务器1000还可具有用于与其他服务器1000、其他联网部件以及与位于许多不同用户的住宅或其他楼宇中的多个语音接口设备102通信的通信接口1010(诸如以太网通信适配器)。
服务部件1008的部件接收由音频处理部件912处理的一个或更多个音频信号并且执行各种类型的处理以便理解由用户语音表述的意图或意思。通常,语音部件1008被配置来(a)接收表示用户语音的信号,(b)分析信号以识别用户语音,(c)分析用户语音以确定用户语音的意思,和(d)生成响应于用户语音的意思的输出语音。
服务部件1008可包括识别接收的音频信号中的人类语音的自动语音识别(ASR)部件1012。ASR部件1012创建在定向音频信号中表示的字词的转录。服务部件1008还可包括被配置来基于用户104的所识别的语音确定用户意图的自然语言理解(NLU)部件1014。NLU部件1014分析由ASR部件1012提供的字词流并且产生字词流的意思的表示。例如,NLU部件1014可使用解析器和相关联的语法规则来分析语句和以正式定义的语言产生语句的意思的表示,所述正式定义的语言以由计算机容易地处理的方式传输概念。所述意思可语义地表示为时隙和时隙值的分层集合或框架,其中每个时隙对应于语义地定义的概念。NLU还可使用由训练数据以利用典型语音中的字词之间的统计学相关性生成的统计学模型和模式。
服务部件1008可通过将文本转换成音频以便在扬声器904处生成的文本到语音或语音生成部件1016来部分地实现。
服务部件1008还可包括负责响应于由NLU部件1014确定的用户语音的意思传导与用户104的语音对话的对话管理部件1018。对话管理部件1018可包括用来分析用户语音的意思并且确定如何对用户语音作出响应的域逻辑。对话管理部件1018可定义与不同信息或话题域(诸如新闻、交通、天气、要做的事情列表、购物列表、引用、家用自动化、零售服务等等)的规则和行为。域逻辑将口头用户陈述映射给相应的域并且负责确定对话响应和/或动作以执行响应于用户话语。
服务部件1008可包括至少部分地基于关于如上文所描述的其他音频信号的高速缓存的元数据来确定是否应将响应提供给表示用户语音的接收的音频信号的仲裁器部件1020。
服务部件1008可用来形成语音处理流水线实例116并且用于执行图3的方法300。
存储器1004可包括元数据高速缓存1024,在所述元数据高速缓存1024中元数据可由实现不同处理流水线实例的多个服务器1000高速缓存。实际上,元数据高速缓存可由多个服务器1000可访问的存储服务器和由服务器1000实现的多个语音处理流水线实例实现。
考虑到以下条款,也可理解上述内容。
1.一种系统,其包括:
第一语音处理流水线实例,所述第一语音处理流水线实例从第一语音接口设备接收第一音频信号,所述第一音频信号表示语音话语,所述第一语音处理流水线实例还接收指示第一时间的第一时间戳,在所述第一时间处唤醒字词由所述第一语音接口设备检测;
第二语音处理流水线实例,所述第二语音处理流水线实例从第二语音接口设备接收第二音频信号,所述第二音频信号表示所述语音话语,所述第二语音处理流水线还接收指示第二时间的第二时间戳,在所述第二时间处所述唤醒字词由所述第二语音接口设备检测;
所述第一语音处理流水线实例具有一系列处理部件,所述一系列处理部件包括:
自动语音识别(ASR)部件,所述自动语音识别(ASR)部件被配置来分析所述第一音频信号以确定所述语音话语的字词;
自然语言理解(NLU)部件,所述自然语言理解(NLU)部件在所述第一语音处理流水线实例中定位在所述ASR部件之后,所述NLU部件被配置来分析所述语音话语的所述字词以确定由所述语音话语表述的意图;
响应分配器,所述响应分配器在所述第一语音处理流水线实例中定位在所述NLU部件之后,所述响应分配器被配置来指定对所述语音话语作出的语音响应;
第一源仲裁器,所述第一源仲裁器在所述第一语音处理流水线实例中定位在所述ASR部件之前,所述第一源仲裁器被配置来(a)确定由在所述第一时间戳与所述第二时间戳之间的差表示的时间量小于阈值;(b)确定所述第一时间戳大于所述第二时间戳;并且(c)中断所述第一语音处理流水线实例。
2.如条款1所述的系统,其中:
所述第一语音处理流水线实例在所述ASR部件分析所述第一音频信号之后接收所述第一音频信号;并且
所述一系列处理部件包括第二源仲裁器,所述第二源仲裁器在所述第一语音处理流水线实例中定位在所述ASR部件之后,所述第二源仲裁器被配置来(a)确定由在所述第一时间戳与所述第二时间戳之间的所述差表示的所述时间量小于所述阈值;(b)确定所述第一时间戳大于所述第二时间戳;并且(c)中断所述第一语音处理流水线实例。
3.如条款1所述的系统,所述系统被配置来向所述第一语音接口设备发送所述第一语音接口设备将对所述话语不作出响应的指示。
4.如条款3所述的系统,其中所述指示包括致使所述第一语音接口设备停止向所述第一语音处理流水线实例提供所述第一音频信号并且进入所述第一语音接口设备检测所述唤醒字词的另外话语的收听模式的数据。
5.如条款1所述的系统,其中:
所述第一语音处理流水线实例还接收所述第一音频信号的第一信号属性,其中所述第一信号属性指示以下各项中的一个或更多个:
在所述第一音频信号中检测的话音存在的水平;
唤醒字词由所述第一语音接口设备检测具有的置信度;
所述第一音频信号的幅值;
所述第一音频信号的信噪比测量值;或
用户距所述第一语音接口设备的距离;
所述第二语音处理流水线实例还接收所述第二音频信号的第二信号属性,其中所述第二信号属性指示以下各项中的一个或更多个:
在所述第二音频信号中检测的话音存在的水平;
所述唤醒字词由所述第二语音接口设备检测具有的置信度;
所述第二音频信号的幅值;
所述第二音频信号的第二信噪比测量值;或
所述用户距所述第二语音接口设备的距离;并且
所述第一源仲裁器进一步被配置来将所述第一信号属性与所述第二信号属性进行比较以(a)确定与所述第一用户接口设备相比,所述用户更接近所述第二用户接口设备并且(b)中断所述第一语音处理流水线实例。
6.一种方法,其包括:
接收由第一设备产生的第一音频信号;
接收由第二设备产生的第二音频信号;
确定所述第一音频信号表示话语;
确定所述第二音频信号表示所述话语;
接收与所述第一音频信号相关联的一个或更多个第一属性;
接收与所述第二音频信号相关联的一个或更多个第二属性;以及
至少部分地基于所述一个或更多个第一属性和所述一个或更多个第二属性来确定所述第一设备将对所述话语作出响应。
7.如条款6所述的方法,其还包括向所述第一设备发送指定将由所述第一设备产生的语音的数据。
8.如条款7所述的方法,其还包括向所述第二设备发送包括导致所述第一设备进入收听模式的指令的数据。
9.如条款6所述的方法,其还包括接收指示所述第一设备与所述第二设备之间的关联性的配置信息。
10.如条款6所述的方法,其还包括确定所述第一设备和所述第二设备与用户账户相关联。
11.如条款6所述的方法,其中:
接收所述一个或更多个第一属性包括接收通过所述第一设备与所述话语相关联的第一时间;
接收所述一个或更多个第二属性包括接收通过所述第二设备与所述话语相关联的第二时间;以及
确定所述第二音频信号表示所述话语包括确定由所述第一时间与所述第二时间之间的差表示的时间小于阈值。
12.如条款6所述的方法,其还包括:
对所述第一音频信号执行自动语音识别(ASR)以确定所述话语中的一个或更多个字词;
对所述话语中的所述一个或更多个字词执行自然语言理解(NLU)以确定由所述话语表述的意图。
13.如条款6所述的方法,其中接收所述一个或更多个第一属性包括接收用户相对于所述第一设备的接近度。
14.如条款6所述的方法,其中确定所述第一设备将对所述话语作出响应包括以下各项中的一个或更多个:
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的幅值;
确定所述第一设备和所述第二设备中的哪一个检测到更高水平的话音存在;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一设备和所述第二设备中的哪一个检测到具有更高水平的置信度的触发表述;
确定所述第一设备和所述第二设备中的哪一个检测到所述触发表述;
确定所述第一设备和所述第二设备中的哪一个具有性能;
确定所述第一音频信号和所述第二音频信号中的哪一个内字词被识别出具有更高水平的置信度;或
确定在所述第一音频信号和所述第二音频信号中的哪一个内由所述字词表述的意图被确定具有更高水平的置信度。
15.如条款6所述的方法,其中确定所述第一设备将对所述话语作出响应包括确定通过所述第一设备与所述话语相关联的第一时间先于通过所述第二设备与所述话语相关联的第二时间。
16.一种系统,其包括:
一个或更多个处理器;
一个或更多个非暂时性计算机可读介质,其存储计算机可执行指令,所述计算机可执行指令当在所述一个或更多个处理器上执行时,致使所述一个或更多个处理器执行包括以下项的动作:
接收由第一设备产生的第一音频信号;
接收由第二设备产生的第二音频信号;
确定所述第一音频信号表示话语;
确定所述第二音频信号表示所述话语;
接收与所述第一音频信号相关联的第一属性;
接收与所述第二音频信号相关联的第二属性;以及
至少部分地基于所述第一属性和所述第二属性来确定所述第一设备将对所述话语作出响应。
17.如条款16所述的系统,其中确定所述第二音频信号表示所述话语包括确定所述第一设备在所述第二设备接收所述话语的预定义时间内接收到所述话语。
18.如条款16所述的系统,其中确定所述第二音频信号表示所述话语包括计算在所述第一音频信号与所述第二音频信号之间的互相关性。
19.如条款16所述的系统,其中确定所述第二音频信号表示所述话语包括确定所述第一音频信号和所述第二音频信号表示字词的匹配序列。
20.如条款16所述的系统,其中确定所述第二音频信号表示所述话语包括:
确定所述第一音频信号表示第一用户语音;
确定所述第二音频信号表示第二用户语音;以及
确定所述第一用户语音和所述第二用户语音对应于共同意图。
21.如条款16所述的系统,其中确定所述第一设备将对所述话语作出响应包括以下各项中的一个或更多个:
确定所述第一设备和所述第二设备中的哪一个物理地更靠近用户;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信号幅值;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一音频信号和所述第二音频信号中的哪一个表示更高水平的话音存在;
确定所述第一设备和所述第二设备中的哪一个先接收对所述话语作出的响应;以及
确定所述第一设备和所述第二设备中的哪一个先接收所述话语。
尽管已用特定于结构特征的语言描述了主题,但是将理解,所附权利要求中定义的主题不必限于所描述的具体特征。实际上,具体特征作为实施权利要求的说明性形式来公开。
Claims (15)
1.一种方法,包括:
接收由第一设备产生的第一音频信号;
接收由第二设备产生的第二音频信号;
确定所述第一音频信号表示话语;
确定所述第二音频信号表示所述话语;
接收与所述第一音频信号相关联的一个或更多个第一属性;
接收与所述第二音频信号相关联的一个或更多个第二属性;以及
至少部分地基于所述一个或更多个第一属性和所述一个或更多个第二属性来确定所述第一设备将对所述话语作出响应。
2.如权利要求1所述的方法,还包括:
向所述第一设备发送指定将由所述第一设备产生的语音的数据。
3.如权利要求2所述的方法,还包括向所述第二设备发送包括导致所述第二设备进入收听模式的指令的数据。
4.如任一前述权利要求所述的方法,还包括:
接收指示所述第一设备与所述第二设备之间的关联性的配置信息;以及
确定所述第一设备和所述第二设备与用户账户相关联。
5.如任一前述权利要求所述的方法,其中:
接收所述一个或更多个第一属性包括接收通过所述第一设备与所述话语相关联的第一时间;
接收所述一个或更多个第二属性包括接收通过所述第二设备与所述话语相关联的第二时间;以及
确定所述第二音频信号表示所述话语包括确定由所述第一时间与所述第二时间之间的差表示的时间小于阈值。
6.如任一前述权利要求所述的方法,还包括:
对所述第一音频信号执行自动语音识别(ASR)以确定所述话语的一个或更多个字词;以及
对所述话语的所述一个或更多个字词执行自然语言理解(NLU)以确定由所述话语表述的意图。
7.如任一前述权利要求所述的方法,其中接收所述一个或更多个第一属性包括接收用户相对于所述第一设备的接近度。
8.如任一前述权利要求所述的方法,其中确定所述第一设备将对所述话语作出响应包括以下一个或更多个:
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的幅值;
确定所述第一设备和所述第二设备中的哪一个检测到更高水平的话音存在;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一设备和所述第二设备中的哪一个检测到具有更高水平的置信度的触发表述;
确定所述第一设备和所述第二设备中的哪一个检测到所述触发表述;
确定所述第一设备和所述第二设备中的哪一个具有性能;
确定所述第一音频信号和所述第二音频信号中的哪一个内字词被识别出具有更高水平的置信度;或
确定在所述第一音频信号和所述第二音频信号中的哪一个内由所述字词表述的意图被确定具有更高水平的置信度。
9.如任一前述权利要求所述的方法,其中确定所述第一设备将对所述话语作出响应包括确定通过所述第一设备与所述话语相关联的第一时间先于通过所述第二设备与所述话语相关联的第二时间。
10.一种系统,包括:
一个或更多个处理器;
一个或更多个非暂时性计算机可读介质,其存储计算机可执行指令,所述计算机可执行指令当在所述一个或更多个处理器上执行时,致使所述一个或更多个处理器执行动作,所述动作包括:
接收由第一设备产生的第一音频信号;
接收由第二设备产生的第二音频信号;
确定所述第一音频信号表示话语;
确定所述第二音频信号表示所述话语;
接收与所述第一音频信号相关联的第一属性;
接收与所述第二音频信号相关联的第二属性;以及
至少部分地基于所述第一属性和所述第二属性来确定所述第一设备将对所述话语作出响应。
11.如权利要求10所述的系统,其中确定所述第二音频信号表示所述话语包括确定所述第一设备在所述第二设备接收所述话语的预定义时间内接收到所述话语。
12.如权利要求10所述的系统,其中确定所述第二音频信号表示所述话语包括计算在所述第一音频信号与所述第二音频信号之间的互相关性。
13.如权利要求10所述的系统,其中确定所述第二音频信号表示所述话语包括确定所述第一音频信号和所述第二音频信号表示字词的匹配序列。
14.如权利要求10所述的系统,其中确定所述第二音频信号表示所述话语包括:
确定所述第一音频信号表示第一用户语音;
确定所述第二音频信号表示第二用户语音;以及
确定所述第一用户语音和所述第二用户语音对应于共同意图。
15.如权利要求10所述的系统,其中所述确定所述第一设备将对所述话语作出响应包括以下一个或更多个:
确定所述第一设备和所述第二设备中的哪一个物理地更靠近用户;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信号幅值;
确定所述第一音频信号和所述第二音频信号中的哪一个具有更高的信噪比测量值;
确定所述第一音频信号和所述第二音频信号中的哪一个表示更高水平的话音存在;
确定所述第一设备和所述第二设备中的哪一个先接收对所述话语作出的响应;以及
确定所述第一设备和所述第二设备中的哪一个先接收所述话语。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/860,400 US9875081B2 (en) | 2015-09-21 | 2015-09-21 | Device selection for providing a response |
US14/860,400 | 2015-09-21 | ||
PCT/US2016/052688 WO2017053311A1 (en) | 2015-09-21 | 2016-09-20 | Device selection for providing a response |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108351872A true CN108351872A (zh) | 2018-07-31 |
CN108351872B CN108351872B (zh) | 2021-09-28 |
Family
ID=58282770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680054589.0A Active CN108351872B (zh) | 2015-09-21 | 2016-09-20 | 用于响应用户语音的方法和系统 |
Country Status (6)
Country | Link |
---|---|
US (2) | US9875081B2 (zh) |
EP (1) | EP3353677B1 (zh) |
JP (2) | JP6671466B2 (zh) |
KR (1) | KR102098136B1 (zh) |
CN (1) | CN108351872B (zh) |
WO (1) | WO2017053311A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136722A (zh) * | 2019-04-09 | 2019-08-16 | 北京小鸟听听科技有限公司 | 语音信号处理方法、装置、设备及系统 |
CN110349578A (zh) * | 2019-06-21 | 2019-10-18 | 北京小米移动软件有限公司 | 设备唤醒处理方法及装置 |
CN110364161A (zh) * | 2019-08-22 | 2019-10-22 | 北京小米智能科技有限公司 | 响应语音信号的方法、电子设备、介质及系统 |
CN110517676A (zh) * | 2019-08-21 | 2019-11-29 | Oppo广东移动通信有限公司 | 一种语音唤醒方法及终端、服务器、存储介质 |
CN110660389A (zh) * | 2019-09-11 | 2020-01-07 | 北京小米移动软件有限公司 | 语音响应方法、装置、系统及设备 |
CN111354336A (zh) * | 2018-12-20 | 2020-06-30 | 美的集团股份有限公司 | 分布式语音交互方法、装置、系统及家电设备 |
CN111667843A (zh) * | 2019-03-05 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 终端设备的语音唤醒方法、系统、电子设备、存储介质 |
CN112908318A (zh) * | 2019-11-18 | 2021-06-04 | 百度在线网络技术(北京)有限公司 | 智能音箱的唤醒方法、装置、智能音箱及存储介质 |
CN114207712A (zh) * | 2019-07-30 | 2022-03-18 | 杜比实验室特许公司 | 多设备唤醒词检测 |
CN115605949A (zh) * | 2020-10-30 | 2023-01-13 | 谷歌有限责任公司(Us) | 跨多个助理设备的同时声学事件检测 |
CN115605948A (zh) * | 2020-09-02 | 2023-01-13 | 谷歌有限责任公司(Us) | 在多个潜在响应的电子装置之间的仲裁 |
Families Citing this family (357)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8572513B2 (en) | 2009-03-16 | 2013-10-29 | Apple Inc. | Device, method, and graphical user interface for moving a current position in content at a variable scrubbing rate |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10706096B2 (en) | 2011-08-18 | 2020-07-07 | Apple Inc. | Management of local and remote media items |
US9002322B2 (en) | 2011-09-29 | 2015-04-07 | Apple Inc. | Authentication with secondary approver |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9922646B1 (en) * | 2012-09-21 | 2018-03-20 | Amazon Technologies, Inc. | Identifying a location of a voice-input device |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR102060661B1 (ko) * | 2013-07-19 | 2020-02-11 | 삼성전자주식회사 | 통신 방법 및 이를 위한 디바이스 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9721570B1 (en) * | 2013-12-17 | 2017-08-01 | Amazon Technologies, Inc. | Outcome-oriented dialogs on a speech recognition platform |
JP6356779B2 (ja) * | 2014-02-19 | 2018-07-11 | 帝人株式会社 | 情報処理装置および情報処理方法 |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
EP3149554B1 (en) | 2014-05-30 | 2024-05-01 | Apple Inc. | Continuity |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
WO2016036510A1 (en) | 2014-09-02 | 2016-03-10 | Apple Inc. | Music user interface |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
EP3193328B1 (en) * | 2015-01-16 | 2022-11-23 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9875081B2 (en) | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106572418A (zh) * | 2015-10-09 | 2017-04-19 | 芋头科技(杭州)有限公司 | 一种语音助手的扩展设备及其工作方法 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP2017117371A (ja) * | 2015-12-25 | 2017-06-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 制御方法、制御装置およびプログラム |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10109294B1 (en) * | 2016-03-25 | 2018-10-23 | Amazon Technologies, Inc. | Adaptive echo cancellation |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670622A1 (en) | 2016-06-12 | 2018-02-12 | Apple Inc | User interfaces for transactions |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10026403B2 (en) * | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
US9972320B2 (en) * | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US11042541B2 (en) * | 2016-10-03 | 2021-06-22 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US10181323B2 (en) * | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
EP4220630A1 (en) * | 2016-11-03 | 2023-08-02 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
US10127908B1 (en) * | 2016-11-11 | 2018-11-13 | Amazon Technologies, Inc. | Connected accessory for a voice-controlled device |
US10332523B2 (en) | 2016-11-18 | 2019-06-25 | Google Llc | Virtual assistant identification of nearby computing devices |
WO2018097969A1 (en) * | 2016-11-22 | 2018-05-31 | Knowles Electronics, Llc | Methods and systems for locating the end of the keyword in voice sensing |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10565989B1 (en) * | 2016-12-16 | 2020-02-18 | Amazon Technogies Inc. | Ingesting device specific content |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
KR102643501B1 (ko) * | 2016-12-26 | 2024-03-06 | 현대자동차주식회사 | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10971157B2 (en) * | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
WO2018147687A1 (en) | 2017-02-10 | 2018-08-16 | Samsung Electronics Co., Ltd. | Method and apparatus for managing voice-based interaction in internet of things network system |
US10467509B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
US10403276B2 (en) * | 2017-03-17 | 2019-09-03 | Microsoft Technology Licensing, Llc | Voice enabled features based on proximity |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
KR101925034B1 (ko) * | 2017-03-28 | 2018-12-04 | 엘지전자 주식회사 | 스마트 컨트롤링 디바이스 및 그 제어 방법 |
US10373630B2 (en) * | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
CN107122179A (zh) | 2017-03-31 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 语音的功能控制方法和装置 |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
US10355931B2 (en) * | 2017-04-17 | 2019-07-16 | Essential Products, Inc. | Troubleshooting voice-enabled home setup |
US10176807B2 (en) | 2017-04-17 | 2019-01-08 | Essential Products, Inc. | Voice setup instructions |
US10353480B2 (en) | 2017-04-17 | 2019-07-16 | Essential Products, Inc. | Connecting assistant device to devices |
KR102392297B1 (ko) * | 2017-04-24 | 2022-05-02 | 엘지전자 주식회사 | 전자기기 |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) * | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
CN111343060B (zh) | 2017-05-16 | 2022-02-11 | 苹果公司 | 用于家庭媒体控制的方法和界面 |
US20220279063A1 (en) | 2017-05-16 | 2022-09-01 | Apple Inc. | Methods and interfaces for home media control |
DK179560B1 (en) * | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10665232B2 (en) * | 2017-05-24 | 2020-05-26 | Harman International Industries, Inc. | Coordination among multiple voice recognition devices |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10564928B2 (en) * | 2017-06-02 | 2020-02-18 | Rovi Guides, Inc. | Systems and methods for generating a volume- based response for multiple voice-operated user devices |
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10334360B2 (en) * | 2017-06-12 | 2019-06-25 | Revolabs, Inc | Method for accurately calculating the direction of arrival of sound at a microphone array |
US10847163B2 (en) * | 2017-06-20 | 2020-11-24 | Lenovo (Singapore) Pte. Ltd. | Provide output reponsive to proximate user input |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
JP6513749B2 (ja) * | 2017-08-09 | 2019-05-15 | レノボ・シンガポール・プライベート・リミテッド | 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム |
US10482904B1 (en) | 2017-08-15 | 2019-11-19 | Amazon Technologies, Inc. | Context driven device arbitration |
US10984788B2 (en) * | 2017-08-18 | 2021-04-20 | Blackberry Limited | User-guided arbitration of speech processing results |
US10964318B2 (en) | 2017-08-18 | 2021-03-30 | Blackberry Limited | Dialogue management |
US10497370B2 (en) | 2017-08-18 | 2019-12-03 | 2236008 Ontario Inc. | Recognition module affinity |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US10777197B2 (en) | 2017-08-28 | 2020-09-15 | Roku, Inc. | Audio responsive device with play/stop and tell me something buttons |
US10546583B2 (en) | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10957313B1 (en) * | 2017-09-22 | 2021-03-23 | Amazon Technologies, Inc. | System command processing |
US10699706B1 (en) * | 2017-09-26 | 2020-06-30 | Amazon Technologies, Inc. | Systems and methods for device communications |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
EP3688751B1 (en) * | 2017-09-28 | 2022-12-28 | Harman International Industries, Incorporated | Method and device for voice recognition |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
KR102417524B1 (ko) * | 2017-10-13 | 2022-07-07 | 현대자동차주식회사 | 음성 인식 기반의 자동차 제어 방법 |
KR102471493B1 (ko) * | 2017-10-17 | 2022-11-29 | 삼성전자주식회사 | 전자 장치 및 음성 인식 방법 |
KR102455199B1 (ko) * | 2017-10-27 | 2022-10-18 | 엘지전자 주식회사 | 인공지능 디바이스 |
US10152966B1 (en) * | 2017-10-31 | 2018-12-11 | Comcast Cable Communications, Llc | Preventing unwanted activation of a hands free device |
KR102552486B1 (ko) * | 2017-11-02 | 2023-07-06 | 현대자동차주식회사 | 차량의 음성인식 장치 및 방법 |
US11360736B1 (en) * | 2017-11-03 | 2022-06-14 | Amazon Technologies, Inc. | System command processing |
JP7057647B2 (ja) * | 2017-11-17 | 2022-04-20 | キヤノン株式会社 | 音声制御システム、制御方法及びプログラム |
US10482878B2 (en) * | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10510340B1 (en) * | 2017-12-05 | 2019-12-17 | Amazon Technologies, Inc. | Dynamic wakeword detection |
CN110678922A (zh) | 2017-12-06 | 2020-01-10 | 谷歌有限责任公司 | 闪避和擦除来自附近设备的音频 |
US10971173B2 (en) | 2017-12-08 | 2021-04-06 | Google Llc | Signal processing coordination among digital voice assistant computing devices |
CN109903758B (zh) | 2017-12-08 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 音频处理方法、装置及终端设备 |
WO2019112625A1 (en) | 2017-12-08 | 2019-06-13 | Google Llc | Signal processing coordination among digital voice assistant computing devices |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10536287B1 (en) * | 2017-12-13 | 2020-01-14 | Amazon Technologies, Inc. | Network conference management and arbitration via voice-capturing devices |
US10536288B1 (en) | 2017-12-13 | 2020-01-14 | Amazon Technologies, Inc. | Network conference management and arbitration via voice-capturing devices |
US10536286B1 (en) * | 2017-12-13 | 2020-01-14 | Amazon Technologies, Inc. | Network conference management and arbitration via voice-capturing devices |
US10374816B1 (en) * | 2017-12-13 | 2019-08-06 | Amazon Technologies, Inc. | Network conference management and arbitration via voice-capturing devices |
JP6947004B2 (ja) | 2017-12-20 | 2021-10-13 | トヨタ自動車株式会社 | 車載音声出力装置、音声出力装置、音声出力方法、及び音声出力プログラム |
JP6988438B2 (ja) | 2017-12-20 | 2022-01-05 | トヨタ自動車株式会社 | 車載制御装置、制御装置、制御方法、制御プログラム、及び発話応答方法 |
JP2019117324A (ja) | 2017-12-27 | 2019-07-18 | トヨタ自動車株式会社 | 音声出力装置、音声出力方法、及び音声出力プログラム |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
JP6984420B2 (ja) | 2018-01-09 | 2021-12-22 | トヨタ自動車株式会社 | 対話装置 |
JP7062958B2 (ja) * | 2018-01-10 | 2022-05-09 | トヨタ自動車株式会社 | 通信システム、及び通信方法 |
JP2019124977A (ja) | 2018-01-11 | 2019-07-25 | トヨタ自動車株式会社 | 車載音声出力装置、音声出力制御方法、及び音声出力制御プログラム |
JP7197272B2 (ja) | 2018-01-11 | 2022-12-27 | トヨタ自動車株式会社 | 音声出力システム、音声出力方法、及びプログラム |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11145298B2 (en) * | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
US10878824B2 (en) * | 2018-02-21 | 2020-12-29 | Valyant Al, Inc. | Speech-to-text generation using video-speech matching from a primary speaker |
US10616726B1 (en) | 2018-02-22 | 2020-04-07 | Amazon Technologies, Inc. | Outputing notifications using device groups |
US10425781B1 (en) * | 2018-02-22 | 2019-09-24 | Amazon Technologies, Inc. | Outputting notifications using device groups |
US10425780B1 (en) * | 2018-02-22 | 2019-09-24 | Amazon Technologies, Inc. | Outputting notifications using device groups |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10762900B2 (en) * | 2018-03-07 | 2020-09-01 | Microsoft Technology Licensing, Llc | Identification and processing of commands by digital assistants in group device environments |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10679629B2 (en) | 2018-04-09 | 2020-06-09 | Amazon Technologies, Inc. | Device arbitration by multiple speech processing systems |
CN116959420A (zh) * | 2018-04-16 | 2023-10-27 | 谷歌有限责任公司 | 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言 |
EP3557439A1 (en) | 2018-04-16 | 2019-10-23 | Tata Consultancy Services Limited | Deep learning techniques based multi-purpose conversational agents for processing natural language queries |
CN110390931B (zh) * | 2018-04-19 | 2024-03-08 | 博西华电器(江苏)有限公司 | 语音控制方法、服务器及语音交互系统 |
US11145299B2 (en) | 2018-04-19 | 2021-10-12 | X Development Llc | Managing voice interface devices |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10803864B2 (en) * | 2018-05-07 | 2020-10-13 | Spotify Ab | Voice recognition system for use with a personal media streaming appliance |
US11308947B2 (en) | 2018-05-07 | 2022-04-19 | Spotify Ab | Voice recognition system for use with a personal media streaming appliance |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11487501B2 (en) | 2018-05-16 | 2022-11-01 | Snap Inc. | Device control using audio data |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
JP2019204025A (ja) * | 2018-05-24 | 2019-11-28 | レノボ・シンガポール・プライベート・リミテッド | 電子機器、制御方法、及びプログラム |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10762896B1 (en) | 2018-06-25 | 2020-09-01 | Amazon Technologies, Inc. | Wakeword detection |
CN117316150A (zh) * | 2018-06-28 | 2023-12-29 | 搜诺思公司 | 用于将回放设备与语音助理服务相关联的系统和方法 |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10698582B2 (en) * | 2018-06-28 | 2020-06-30 | International Business Machines Corporation | Controlling voice input based on proximity of persons |
CN110164446B (zh) * | 2018-06-28 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 语音信号识别方法和装置、计算机设备和电子设备 |
KR102025566B1 (ko) * | 2018-07-27 | 2019-09-26 | 엘지전자 주식회사 | 인공지능을 이용한 홈어플라이언스 및 음성 인식 서버 시스템과, 이의 제어 방법 |
EP3642837B1 (en) | 2018-08-23 | 2024-03-13 | Google LLC | Regulating assistant responsiveness according to characteristics of a multi-assistant environment |
US11514917B2 (en) | 2018-08-27 | 2022-11-29 | Samsung Electronics Co., Ltd. | Method, device, and system of selectively using multiple voice data receiving devices for intelligent service |
KR20200024068A (ko) * | 2018-08-27 | 2020-03-06 | 삼성전자주식회사 | 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
NO20181210A1 (en) * | 2018-08-31 | 2020-03-02 | Elliptic Laboratories As | Voice assistant |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US10878812B1 (en) * | 2018-09-26 | 2020-12-29 | Amazon Technologies, Inc. | Determining devices to respond to user requests |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10978062B1 (en) * | 2018-09-27 | 2021-04-13 | Amazon Technologies, Inc. | Voice-controlled device switching between modes based on speech input |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
KR20200045851A (ko) * | 2018-10-23 | 2020-05-06 | 삼성전자주식회사 | 음성 인식 서비스를 제공하는 전자 장치 및 시스템 |
US11508378B2 (en) | 2018-10-23 | 2022-11-22 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
KR20200052804A (ko) * | 2018-10-23 | 2020-05-15 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11238850B2 (en) | 2018-10-31 | 2022-02-01 | Walmart Apollo, Llc | Systems and methods for e-commerce API orchestration using natural language interfaces |
US11404058B2 (en) | 2018-10-31 | 2022-08-02 | Walmart Apollo, Llc | System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions |
US11145306B1 (en) * | 2018-10-31 | 2021-10-12 | Ossum Technology Inc. | Interactive media system using audio inputs |
US11183176B2 (en) * | 2018-10-31 | 2021-11-23 | Walmart Apollo, Llc | Systems and methods for server-less voice applications |
US11195524B2 (en) | 2018-10-31 | 2021-12-07 | Walmart Apollo, Llc | System and method for contextual search query revision |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11830485B2 (en) * | 2018-12-11 | 2023-11-28 | Amazon Technologies, Inc. | Multiple speech processing system with synthesized speech styles |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
DE102018221751A1 (de) * | 2018-12-14 | 2020-06-18 | BSH Hausgeräte GmbH | System und Verfahren zum Betrieb einer Mehrzahl von elektrischen Geräten |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US20220130378A1 (en) * | 2018-12-27 | 2022-04-28 | Telepathy Labs, Inc. | System and method for communicating with a user with speech processing |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN111415657A (zh) * | 2019-01-07 | 2020-07-14 | 成都启英泰伦科技有限公司 | 一种去中心化设备、多设备系统及其语音控制方法 |
US10963385B2 (en) * | 2019-01-18 | 2021-03-30 | Silicon Motion Technology (Hong Kong) Limited | Method and apparatus for performing pipeline-based accessing management in a storage server with aid of caching metadata with cache module which is hardware pipeline module during processing object write command |
KR102584588B1 (ko) | 2019-01-21 | 2023-10-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
WO2020162930A1 (en) * | 2019-02-06 | 2020-08-13 | Google Llc | Voice query qos based on client-computed content metadata |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
KR20200109140A (ko) * | 2019-03-12 | 2020-09-22 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11482215B2 (en) | 2019-03-27 | 2022-10-25 | Samsung Electronics Co., Ltd. | Multi-modal interaction with intelligent assistants in voice command devices |
US11538482B2 (en) * | 2019-04-25 | 2022-12-27 | Lg Electronics Inc. | Intelligent voice enable device searching method and apparatus thereof |
US11657800B2 (en) | 2019-04-26 | 2023-05-23 | Lg Electronics Inc. | Electronic device with wakeup word determined multi-mode operation |
US11120794B2 (en) * | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
WO2020231181A1 (en) * | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Method and device for providing voice recognition service |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US10904029B2 (en) | 2019-05-31 | 2021-01-26 | Apple Inc. | User interfaces for managing controllable external devices |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK201970533A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Methods and user interfaces for sharing audio |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11620103B2 (en) | 2019-05-31 | 2023-04-04 | Apple Inc. | User interfaces for audio media control |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US20200380389A1 (en) * | 2019-05-31 | 2020-12-03 | Apple Inc. | Sentiment and intent analysis for customizing suggestions using user-specific information |
US10996917B2 (en) | 2019-05-31 | 2021-05-04 | Apple Inc. | User interfaces for audio media control |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11545148B2 (en) * | 2019-06-18 | 2023-01-03 | Roku, Inc. | Do not disturb functionality for voice responsive devices |
CN110347248B (zh) * | 2019-06-24 | 2023-01-24 | 歌尔科技有限公司 | 交互处理方法、装置、设备及音频设备 |
US10841756B1 (en) * | 2019-06-27 | 2020-11-17 | Amazon Technologies, Inc. | Managing communications sessions based on restrictions and permissions |
CN110415694A (zh) * | 2019-07-15 | 2019-11-05 | 深圳市易汇软件有限公司 | 一种多台智能音箱协同工作的方法 |
EP4004911A1 (en) * | 2019-07-30 | 2022-06-01 | Dolby Laboratories Licensing Corporation | Multi-modal smart audio device system attentiveness expression |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
WO2021022032A1 (en) * | 2019-07-31 | 2021-02-04 | Sonos, Inc. | Locally distributed keyword detection |
US20220343909A1 (en) * | 2019-09-06 | 2022-10-27 | Lg Electronics Inc. | Display apparatus |
US11176940B1 (en) * | 2019-09-17 | 2021-11-16 | Amazon Technologies, Inc. | Relaying availability using a virtual assistant |
WO2021060570A1 (ko) * | 2019-09-23 | 2021-04-01 | 엘지전자 주식회사 | 가전 기기 및 서버 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
KR102629796B1 (ko) * | 2019-10-15 | 2024-01-26 | 삼성전자 주식회사 | 음성 인식의 향상을 지원하는 전자 장치 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
WO2021081744A1 (zh) * | 2019-10-29 | 2021-05-06 | 深圳市欢太科技有限公司 | 语音信息处理方法、装置、设备及存储介质 |
KR20210069977A (ko) * | 2019-12-04 | 2021-06-14 | 엘지전자 주식회사 | 기기 제어 방법 및 이를 이용한 제어 가능한 장치 |
US11295741B2 (en) | 2019-12-05 | 2022-04-05 | Soundhound, Inc. | Dynamic wakewords for speech-enabled devices |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111091828B (zh) * | 2019-12-31 | 2023-02-14 | 华为技术有限公司 | 语音唤醒方法、设备及系统 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
CN111276139B (zh) * | 2020-01-07 | 2023-09-19 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11790902B2 (en) * | 2020-02-04 | 2023-10-17 | Amazon Technologies, Inc. | Speech-processing system |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111312240A (zh) * | 2020-02-10 | 2020-06-19 | 北京达佳互联信息技术有限公司 | 数据控制方法、装置、电子设备及存储介质 |
US11626106B1 (en) * | 2020-02-25 | 2023-04-11 | Amazon Technologies, Inc. | Error attribution in natural language processing systems |
US11355112B1 (en) * | 2020-03-03 | 2022-06-07 | Amazon Technologies, Inc. | Speech-processing system |
KR20210130024A (ko) * | 2020-04-21 | 2021-10-29 | 현대자동차주식회사 | 대화 시스템 및 그 제어 방법 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
KR20210147678A (ko) * | 2020-05-29 | 2021-12-07 | 엘지전자 주식회사 | 인공 지능 장치 |
US11893984B1 (en) * | 2020-06-22 | 2024-02-06 | Amazon Technologies, Inc. | Speech processing system |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11670322B2 (en) * | 2020-07-29 | 2023-06-06 | Distributed Creation Inc. | Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
CN112201239B (zh) * | 2020-09-25 | 2024-05-24 | 海尔优家智能科技(北京)有限公司 | 目标设备的确定方法及装置、存储介质、电子装置 |
US11392291B2 (en) | 2020-09-25 | 2022-07-19 | Apple Inc. | Methods and interfaces for media control with dynamic feedback |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
KR20220099831A (ko) * | 2021-01-07 | 2022-07-14 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 사용자 발화 처리 방법 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11915708B2 (en) * | 2021-03-18 | 2024-02-27 | Samsung Electronics Co., Ltd. | Methods and systems for invoking a user-intended internet of things (IoT) device from a plurality of IoT devices |
US11882415B1 (en) * | 2021-05-20 | 2024-01-23 | Amazon Technologies, Inc. | System to select audio from multiple connected devices |
US11847378B2 (en) | 2021-06-06 | 2023-12-19 | Apple Inc. | User interfaces for audio routing |
US12046234B1 (en) * | 2021-06-28 | 2024-07-23 | Amazon Technologies, Inc. | Predicting on-device command execution |
CN115602150A (zh) * | 2021-07-07 | 2023-01-13 | 艾锐势企业有限责任公司(Us) | 能够进行语音控制的电子设备、方法、系统、介质及程序 |
US12014727B2 (en) | 2021-07-14 | 2024-06-18 | Google Llc | Hotwording by degree |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
CN116798419A (zh) * | 2022-03-14 | 2023-09-22 | 追觅创新科技(苏州)有限公司 | 设备的语音控制方法和装置、存储介质及电子装置 |
US20230419099A1 (en) * | 2022-06-28 | 2023-12-28 | International Business Machines Corporation | Dynamic resource allocation method for sensor-based neural networks using shared confidence intervals |
NO20221245A1 (en) | 2022-11-18 | 2024-05-20 | Elliptic Laboratories Asa | Communication method and system for electronic devices |
US11838582B1 (en) * | 2022-12-12 | 2023-12-05 | Google Llc | Media arbitration |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020193989A1 (en) * | 1999-05-21 | 2002-12-19 | Michael Geilhufe | Method and apparatus for identifying voice controlled devices |
CN1643571A (zh) * | 2002-03-27 | 2005-07-20 | 艾黎弗公司 | 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置 |
US20110093261A1 (en) * | 2009-10-15 | 2011-04-21 | Paul Angott | System and method for voice recognition |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
CN102903362A (zh) * | 2011-09-02 | 2013-01-30 | 微软公司 | 集成的本地和基于云的语音识别 |
US20130029684A1 (en) * | 2011-07-28 | 2013-01-31 | Hiroshi Kawaguchi | Sensor network system for acuiring high quality speech signals and communication method therefor |
US20140025380A1 (en) * | 2012-07-18 | 2014-01-23 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (asr) in a shared resource environment |
CN104145304A (zh) * | 2012-03-08 | 2014-11-12 | Lg电子株式会社 | 用于多个装置语音控制的设备和方法 |
US20150032456A1 (en) * | 2013-07-25 | 2015-01-29 | General Electric Company | Intelligent placement of appliance response to voice command |
Family Cites Families (102)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3770892A (en) * | 1972-05-26 | 1973-11-06 | Ibm | Connected word recognition system |
JPS57124626A (en) * | 1981-01-23 | 1982-08-03 | Toshiba Corp | Cooker |
US4531228A (en) * | 1981-10-20 | 1985-07-23 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
JP3363283B2 (ja) * | 1995-03-23 | 2003-01-08 | 株式会社日立製作所 | 入力装置、入力方法、情報処理システムおよび入力情報の管理方法 |
JP3522954B2 (ja) * | 1996-03-15 | 2004-04-26 | 株式会社東芝 | マイクロホンアレイ入力型音声認識装置及び方法 |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6314393B1 (en) * | 1999-03-16 | 2001-11-06 | Hughes Electronics Corporation | Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder |
JP2001013994A (ja) | 1999-06-30 | 2001-01-19 | Toshiba Corp | 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両 |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
US6453290B1 (en) * | 1999-10-04 | 2002-09-17 | Globalenglish Corporation | Method and system for network-based speech recognition |
US6594630B1 (en) * | 1999-11-19 | 2003-07-15 | Voice Signal Technologies, Inc. | Voice-activated control for electrical device |
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
US6591239B1 (en) * | 1999-12-09 | 2003-07-08 | Steris Inc. | Voice controlled surgical suite |
US6895380B2 (en) * | 2000-03-02 | 2005-05-17 | Electro Standards Laboratories | Voice actuation with contextual learning for intelligent machine control |
US6757362B1 (en) * | 2000-03-06 | 2004-06-29 | Avaya Technology Corp. | Personal virtual assistant |
CA2407855C (en) * | 2000-05-10 | 2010-02-02 | The Board Of Trustees Of The University Of Illinois | Interference suppression techniques |
US6725193B1 (en) * | 2000-09-13 | 2004-04-20 | Telefonaktiebolaget Lm Ericsson | Cancellation of loudspeaker words in speech recognition |
JP3838029B2 (ja) | 2000-12-18 | 2006-10-25 | セイコーエプソン株式会社 | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム |
US6662137B2 (en) * | 2000-12-19 | 2003-12-09 | Hewlett-Packard Development Company, L.P. | Device location discovery by sound |
US7996232B2 (en) * | 2001-12-03 | 2011-08-09 | Rodriguez Arturo A | Recognition of voice-activated commands |
KR100438838B1 (ko) * | 2002-01-29 | 2004-07-05 | 삼성전자주식회사 | 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법 |
JP4086280B2 (ja) * | 2002-01-29 | 2008-05-14 | 株式会社東芝 | 音声入力システム、音声入力方法及び音声入力プログラム |
JP3715584B2 (ja) | 2002-03-28 | 2005-11-09 | 富士通株式会社 | 機器制御装置および機器制御方法 |
US7319959B1 (en) * | 2002-05-14 | 2008-01-15 | Audience, Inc. | Multi-source phoneme classification for noise-robust automatic speech recognition |
US8244536B2 (en) * | 2003-08-27 | 2012-08-14 | General Motors Llc | Algorithm for intelligent speech recognition |
KR100576736B1 (ko) * | 2004-08-21 | 2006-05-03 | 학교법인 포항공과대학교 | 시스톨릭 배열 구조를 가지는 미지 신호 분리 장치 |
JP4847022B2 (ja) * | 2005-01-28 | 2011-12-28 | 京セラ株式会社 | 発声内容認識装置 |
US7697827B2 (en) * | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US9489431B2 (en) * | 2005-10-26 | 2016-11-08 | Cortica, Ltd. | System and method for distributed search-by-content |
JP4821489B2 (ja) * | 2006-08-04 | 2011-11-24 | トヨタ自動車株式会社 | ロボット装置及びロボット装置の制御方法 |
US8977255B2 (en) * | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8625819B2 (en) * | 2007-04-13 | 2014-01-07 | Personics Holdings, Inc | Method and device for voice operated control |
JP5134876B2 (ja) * | 2007-07-11 | 2013-01-30 | 株式会社日立製作所 | 音声通信装置及び音声通信方法並びにプログラム |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US8407049B2 (en) * | 2008-04-23 | 2013-03-26 | Cogi, Inc. | Systems and methods for conversation enhancement |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8983640B2 (en) * | 2009-06-26 | 2015-03-17 | Intel Corporation | Controlling audio players using environmental audio analysis |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
DE102009051508B4 (de) * | 2009-10-30 | 2020-12-03 | Continental Automotive Gmbh | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung |
US8265341B2 (en) * | 2010-01-25 | 2012-09-11 | Microsoft Corporation | Voice-body identity correlation |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
JP5411807B2 (ja) * | 2010-05-25 | 2014-02-12 | 日本電信電話株式会社 | チャネル統合方法、チャネル統合装置、プログラム |
US10726861B2 (en) * | 2010-11-15 | 2020-07-28 | Microsoft Technology Licensing, Llc | Semi-private communication in open environments |
US9183843B2 (en) * | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US8898065B2 (en) * | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US20130024196A1 (en) * | 2011-07-21 | 2013-01-24 | Nuance Communications, Inc. | Systems and methods for using a mobile device to deliver speech with speaker identification |
US9148742B1 (en) * | 2011-07-29 | 2015-09-29 | Google Inc. | Proximity detection via audio |
US20130073293A1 (en) * | 2011-09-20 | 2013-03-21 | Lg Electronics Inc. | Electronic device and method for controlling the same |
JP5772448B2 (ja) * | 2011-09-27 | 2015-09-02 | 富士ゼロックス株式会社 | 音声解析システムおよび音声解析装置 |
JP5866728B2 (ja) * | 2011-10-14 | 2016-02-17 | サイバーアイ・エンタテインメント株式会社 | 画像認識システムを備えた知識情報処理サーバシステム |
US20180032997A1 (en) * | 2012-10-09 | 2018-02-01 | George A. Gordon | System, method, and computer program product for determining whether to prompt an action by a platform in connection with a mobile device |
KR101641448B1 (ko) * | 2012-03-16 | 2016-07-20 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 사용자 전용 자동 음성 인식 |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9093076B2 (en) * | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9736604B2 (en) * | 2012-05-11 | 2017-08-15 | Qualcomm Incorporated | Audio user interaction recognition and context refinement |
KR20130140423A (ko) * | 2012-06-14 | 2013-12-24 | 삼성전자주식회사 | 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법 |
US9384736B2 (en) * | 2012-08-21 | 2016-07-05 | Nuance Communications, Inc. | Method to provide incremental UI response based on multiple asynchronous evidence about user input |
US8600746B1 (en) * | 2012-09-10 | 2013-12-03 | Google Inc. | Speech recognition parameter adjustment |
US9576574B2 (en) * | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9092415B2 (en) * | 2012-09-25 | 2015-07-28 | Rovi Guides, Inc. | Systems and methods for automatic program recommendations based on user interactions |
US20140095172A1 (en) * | 2012-10-01 | 2014-04-03 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
WO2014064324A1 (en) * | 2012-10-26 | 2014-05-01 | Nokia Corporation | Multi-device speech recognition |
US20140278389A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics |
US9477925B2 (en) * | 2012-11-20 | 2016-10-25 | Microsoft Technology Licensing, Llc | Deep neural networks training for speech and pattern recognition |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
US9185199B2 (en) * | 2013-03-12 | 2015-11-10 | Google Technology Holdings LLC | Method and apparatus for acoustically characterizing an environment in which an electronic device resides |
US9196262B2 (en) * | 2013-03-14 | 2015-11-24 | Qualcomm Incorporated | User sensing system and method for low power voice command activation in wireless communication systems |
IL226056A (en) * | 2013-04-28 | 2017-06-29 | Verint Systems Ltd | Keyword Finding Systems and Methods by Adaptive Management of Multiple Template Matching Algorithms |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
US9286897B2 (en) | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US9245527B2 (en) * | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US9600474B2 (en) * | 2013-11-08 | 2017-03-21 | Google Inc. | User interface for realtime language translation |
US9698999B2 (en) | 2013-12-02 | 2017-07-04 | Amazon Technologies, Inc. | Natural language control of secondary device |
US8719032B1 (en) * | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
US9311932B2 (en) * | 2014-01-23 | 2016-04-12 | International Business Machines Corporation | Adaptive pause detection in speech recognition |
US9336767B1 (en) * | 2014-03-28 | 2016-05-10 | Amazon Technologies, Inc. | Detecting device proximities |
KR102146462B1 (ko) | 2014-03-31 | 2020-08-20 | 삼성전자주식회사 | 음성 인식 시스템 및 방법 |
US20150364143A1 (en) * | 2014-06-12 | 2015-12-17 | Samsung Electronics Co., Ltd. | Method and apparatus for transmitting audio data |
US9691385B2 (en) * | 2014-06-19 | 2017-06-27 | Nuance Communications, Inc. | Methods and apparatus for associating dictation with an electronic record |
US9338493B2 (en) * | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US20160044394A1 (en) * | 2014-08-07 | 2016-02-11 | Nxp B.V. | Low-power environment monitoring and activation triggering for mobile devices through ultrasound echo analysis |
CN106797512B (zh) * | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质 |
US9354687B2 (en) * | 2014-09-11 | 2016-05-31 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events |
US9293134B1 (en) * | 2014-09-30 | 2016-03-22 | Amazon Technologies, Inc. | Source-specific speech interactions |
US9693375B2 (en) * | 2014-11-24 | 2017-06-27 | Apple Inc. | Point-to-point ad hoc voice communication |
US9552816B2 (en) * | 2014-12-19 | 2017-01-24 | Amazon Technologies, Inc. | Application focus in speech-based systems |
US10567477B2 (en) * | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
JP6739907B2 (ja) | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
US9811376B2 (en) * | 2015-06-29 | 2017-11-07 | Amazon Technologies, Inc. | Virtual machine instance migration using a triangle approach |
US9706300B2 (en) * | 2015-09-18 | 2017-07-11 | Qualcomm Incorporated | Collaborative audio processing |
US9787819B2 (en) * | 2015-09-18 | 2017-10-10 | Microsoft Technology Licensing, Llc | Transcription of spoken communications |
US9875081B2 (en) | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
KR20170086814A (ko) | 2016-01-19 | 2017-07-27 | 삼성전자주식회사 | 음성 인식 기능을 제공하는 전자 장치 및 그 동작 방법 |
US20180122372A1 (en) | 2016-10-31 | 2018-05-03 | Soundhound, Inc. | Distinguishable open sounds |
US10621980B2 (en) | 2017-03-21 | 2020-04-14 | Harman International Industries, Inc. | Execution of voice commands in a multi-device system |
US10902855B2 (en) | 2017-05-08 | 2021-01-26 | Motorola Mobility Llc | Methods and devices for negotiating performance of control operations with acoustic signals |
US10573171B2 (en) | 2017-05-23 | 2020-02-25 | Lenovo (Singapore) Pte. Ltd. | Method of associating user input with a device |
-
2015
- 2015-09-21 US US14/860,400 patent/US9875081B2/en active Active
-
2016
- 2016-09-20 WO PCT/US2016/052688 patent/WO2017053311A1/en active Application Filing
- 2016-09-20 JP JP2018514981A patent/JP6671466B2/ja active Active
- 2016-09-20 EP EP16849431.8A patent/EP3353677B1/en active Active
- 2016-09-20 CN CN201680054589.0A patent/CN108351872B/zh active Active
- 2016-09-20 KR KR1020187008061A patent/KR102098136B1/ko active IP Right Grant
-
2018
- 2018-01-22 US US15/876,858 patent/US11922095B2/en active Active
-
2019
- 2019-08-30 JP JP2019158835A patent/JP2020016890A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020193989A1 (en) * | 1999-05-21 | 2002-12-19 | Michael Geilhufe | Method and apparatus for identifying voice controlled devices |
CN1643571A (zh) * | 2002-03-27 | 2005-07-20 | 艾黎弗公司 | 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置 |
US20110093261A1 (en) * | 2009-10-15 | 2011-04-21 | Paul Angott | System and method for voice recognition |
US20130029684A1 (en) * | 2011-07-28 | 2013-01-31 | Hiroshi Kawaguchi | Sensor network system for acuiring high quality speech signals and communication method therefor |
CN102903362A (zh) * | 2011-09-02 | 2013-01-30 | 微软公司 | 集成的本地和基于云的语音识别 |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
CN104145304A (zh) * | 2012-03-08 | 2014-11-12 | Lg电子株式会社 | 用于多个装置语音控制的设备和方法 |
US20140025380A1 (en) * | 2012-07-18 | 2014-01-23 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (asr) in a shared resource environment |
US20150032456A1 (en) * | 2013-07-25 | 2015-01-29 | General Electric Company | Intelligent placement of appliance response to voice command |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354336B (zh) * | 2018-12-20 | 2023-12-19 | 美的集团股份有限公司 | 分布式语音交互方法、装置、系统及家电设备 |
CN111354336A (zh) * | 2018-12-20 | 2020-06-30 | 美的集团股份有限公司 | 分布式语音交互方法、装置、系统及家电设备 |
CN111667843A (zh) * | 2019-03-05 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 终端设备的语音唤醒方法、系统、电子设备、存储介质 |
CN111667843B (zh) * | 2019-03-05 | 2021-12-31 | 北京京东尚科信息技术有限公司 | 终端设备的语音唤醒方法、系统、电子设备、存储介质 |
CN110136722A (zh) * | 2019-04-09 | 2019-08-16 | 北京小鸟听听科技有限公司 | 语音信号处理方法、装置、设备及系统 |
CN110349578A (zh) * | 2019-06-21 | 2019-10-18 | 北京小米移动软件有限公司 | 设备唤醒处理方法及装置 |
CN114207712A (zh) * | 2019-07-30 | 2022-03-18 | 杜比实验室特许公司 | 多设备唤醒词检测 |
CN110517676A (zh) * | 2019-08-21 | 2019-11-29 | Oppo广东移动通信有限公司 | 一种语音唤醒方法及终端、服务器、存储介质 |
US11295740B2 (en) | 2019-08-22 | 2022-04-05 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Voice signal response method, electronic device, storage medium and system |
CN110364161A (zh) * | 2019-08-22 | 2019-10-22 | 北京小米智能科技有限公司 | 响应语音信号的方法、电子设备、介质及系统 |
CN110660389A (zh) * | 2019-09-11 | 2020-01-07 | 北京小米移动软件有限公司 | 语音响应方法、装置、系统及设备 |
CN112908318A (zh) * | 2019-11-18 | 2021-06-04 | 百度在线网络技术(北京)有限公司 | 智能音箱的唤醒方法、装置、智能音箱及存储介质 |
CN115605948A (zh) * | 2020-09-02 | 2023-01-13 | 谷歌有限责任公司(Us) | 在多个潜在响应的电子装置之间的仲裁 |
CN115605949A (zh) * | 2020-10-30 | 2023-01-13 | 谷歌有限责任公司(Us) | 跨多个助理设备的同时声学事件检测 |
Also Published As
Publication number | Publication date |
---|---|
EP3353677A1 (en) | 2018-08-01 |
EP3353677B1 (en) | 2020-11-04 |
US9875081B2 (en) | 2018-01-23 |
JP2018537700A (ja) | 2018-12-20 |
KR102098136B1 (ko) | 2020-04-08 |
KR20180042376A (ko) | 2018-04-25 |
US20180210703A1 (en) | 2018-07-26 |
JP2020016890A (ja) | 2020-01-30 |
US20170083285A1 (en) | 2017-03-23 |
US11922095B2 (en) | 2024-03-05 |
EP3353677A4 (en) | 2019-10-23 |
WO2017053311A1 (en) | 2017-03-30 |
JP6671466B2 (ja) | 2020-03-25 |
CN108351872B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108351872A (zh) | 用于提供响应的设备选择 | |
US12033632B2 (en) | Context-based device arbitration | |
US11138977B1 (en) | Determining device groups | |
US11875820B1 (en) | Context driven device arbitration | |
KR102543693B1 (ko) | 전자 장치 및 그의 동작 방법 | |
US11949818B1 (en) | Selecting user device during communications session | |
JP6549715B2 (ja) | 音声ベースシステムにおけるアプリケーションフォーカス | |
US10212066B1 (en) | Reporting operational metrics in speech-based systems | |
US11355098B1 (en) | Centralized feedback service for performance of virtual assistant | |
CN108228699A (zh) | 协作性语音控制装置 | |
US11862153B1 (en) | System for recognizing and responding to environmental noises | |
US20240071408A1 (en) | Acoustic event detection | |
US12125483B1 (en) | Determining device groups | |
US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |