CN107924681B - 用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统 - Google Patents

用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统 Download PDF

Info

Publication number
CN107924681B
CN107924681B CN201680049580.0A CN201680049580A CN107924681B CN 107924681 B CN107924681 B CN 107924681B CN 201680049580 A CN201680049580 A CN 201680049580A CN 107924681 B CN107924681 B CN 107924681B
Authority
CN
China
Prior art keywords
audio signal
voice
enabled device
beamformed
metric value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680049580.0A
Other languages
English (en)
Other versions
CN107924681A (zh
Inventor
R·高普兰
S·K·孙达拉姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of CN107924681A publication Critical patent/CN107924681A/zh
Application granted granted Critical
Publication of CN107924681B publication Critical patent/CN107924681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本文描述了用于选择具有语音功能的装置来处置由多个具有语音功能的装置检测到的音频输入的架构和技术。在一些情况下,由于多个具有语音功能的装置位于用户附近,所以所述具有语音功能的装置可以在基本上相同的时间检测到来自所述用户的音频输入。所述架构和技术可以分析所述具有语音功能的装置的多种音频信号度量值以指定用于处置所述音频输入的具有语音功能的装置。

Description

用于在具有语音功能的装置之间的仲裁中的方法以及用于仲 裁的系统
相关申请
本申请要求2015年9月11日提交的美国专利申请第14/852,022号的优先权权益,所述专利申请的全部内容以引用的方式并入本文。
背景
用户越来越多地采用具有语音功能的(voice-enabled)装置来执行任务。在许多情况下,用户可以在位于多个具有语音功能的装置附近时提供话音输入。话音输入可以请求执行任务。具有语音功能的装置中的每一者可以检测话音输入并且处理所述话音输入以为用户执行任务。这可能导致为用户多次执行相同的任务。此外,在一些情况下,具有语音功能的装置中的每一者可以作出响应以向用户告知已经执行任务、请求额外的信息等。这最终产生不合意的用户经验。
附图简述
参考附图陈述详细描述。在图中,参考数字的最左边数字识别了所述参考数字第一次出现的图。在不同的图中使用相同的参考数字来指示类似或相同的项目或特征。
图1示出其中可以实施本文描述的技术的示例性架构。
图2示出服务提供方的示例性组件。
图3示出具有语音功能的装置的示例性组件。
图4示出用于在多个具有语音功能的装置之间进行仲裁的示例性过程。
图5示出用于执行初始处理以选择在其间仲裁的具有语音功能的装置的示例性过程。
详细描述
本公开描述了用于选择具有语音功能的装置来处置由多个具有语音功能的装置检测到的音频输入的架构和技术。在一些情况下,由于多个具有语音功能的装置各自位于用户附近,所以所述具有语音功能的装置可以在基本上相同的时间检测到来自用户的音频输入。所述架构和技术可以分析具有语音功能的装置的多种音频信号度量值以指定用来处置对音频输入的处理的具有语音功能的装置。这可以通过避免重复的输入处理来提高用户体验。此外,这可以允许处理最佳音频信号。
在一些实现方式中,服务提供方可以识别检测到音频输入的多个具有语音功能的装置。具有语音功能的装置可以位于彼此附近,并且因此,在基本上相同的时间检测到音频输入。在一些情况下,一些或所有具有语音功能的装置包括传感器阵列(例如,麦克风阵列),所述传感器阵列提供用于确定多个音频信号(例如,与不同的观看方向相关联的波束成形的音频信号)的输入信号。服务提供方可以基于从具有语音功能的装置接收的音频信号度量值来选择具有语音功能的装置中的一者或多者以处置所述音频输入。举例来说,每个具有语音功能的装置可以向服务提供方提供在具有语音功能的装置处确定的音频信号的至少一个音频信号度量值。
音频信号度量值可以指示音频信号的特性。举例来说,音频信号度量值可以包括信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度、调和性等。音频信号度量值可以是一个音频信号特有的,或者可以适用于多个音频信号。举例来说,具有语音功能的装置可以确定多个波束成形的音频信号,并且选择与具有最高值的音频信号度量值相关联的波束成形的音频信号。此处,具有语音功能的装置可以向服务提供方发送选定的波束成形的音频信号的音频信号度量值以使得服务提供方能够选择用于处置对音频输入的处理的具有语音功能的装置。作为另一实例,具有语音功能的装置可以发送在具有语音功能的装置处确定的每个波束成形的音频信号的音频信号度量值。作为另一实例,具有语音功能的装置可以发送在具有语音功能的装置处确定的波束成形的音频信号的平均音频信号度量值。在其他实例中,具有语音功能的装置可以发送其他类型的音频信号度量值(例如,经加权的音频信号度量值等)。
在任何情况下,服务提供方可以基于音频信号度量值来对具有语音功能的装置进行排名。举例来说,如果在第一具有语音功能的装置处确定的音频信号的信噪比高于(大于)在第二具有语音功能的装置处确定的音频信号的信噪比,那么第一具有语音功能的装置的排名可以高于第二具有语音功能的装置。基于所述排名,服务提供方可以选择用于处置对音频输入的处理的具有语音功能的装置。例如,服务提供方可以选择与最高(最大)值的音频信号度量值相关联的具有语音功能的装置。服务提供方可以处理来自选定的具有语音功能的装置的音频信号并且忽视来自非选定的具有语音功能的装置的音频信号。为了说明,如果多个具有语音功能的装置检测到对天气信息的用户请求,并且服务提供方选择了特定具有语音功能的装置,那么服务提供方可以对来自选定的具有语音功能的装置的音频信号执行话音辨识技术,并且致使经由所述选定的具有语音功能的装置提供包括天气信息的响应。可以不对来自非选定的装置的任何音频信号进行进一步处理。
此论述突出的是,本文描述的架构和技术提高了具有可能在用户周围的多个具有语音功能的装置的用户的体验。举例来说,通过选择用于处置由多个具有语音功能的装置检测到的音频输入的具有语音功能的装置,所述架构和技术可以避免话音处理和/或响应形成的重复。此外,通过避免话音处理和/或响应形成的重复,所述架构和技术可以减少处理量和/或通信次数(例如,减少与具有语音功能的装置的用于处理输入和/或提供响应的通信)。另外,在许多情况下,所述架构和技术可以选择与最佳音频信号(例如,最佳质量信号)相关联的具有语音功能的装置。
虽然在许多情况下将用于选择具有语音功能的装置的技术论述为是由服务提供方执行,但所述技术可以另外或替代地由具有语音功能的装置和/或另一计算装置(例如,膝上型计算机、智能电话、第三方服务等)执行。
为了读者的便利而提供此简介,并且无意限制权利要求书或以下部分的范围。此外,可以通过若干方式并且在若干背景下实施在下文详细描述的技术。参考下图提供示例性实现方式和背景,如下文更详细地描述。然而,以下实现方式和背景仅是许多实现方式和背景中的一些实现方式和背景。
示例性架构
图1示出其中可以实施本文描述的技术的示例性架构100。架构100包括服务提供方102,所述服务提供方被配置成与多个具有语音功能的装置104(1)-(N)(统称为“具有语音功能的装置104”)通信以促进各种处理。举例来说,服务提供方102可以从具有语音功能的装置104接收由一个或更多个用户106(在下文称为“用户106”)提供的音频输入的音频信号。服务提供方102可以处理所述音频信号以为用户106执行任务、制定对用户106的响应等。在一些情况下,服务提供方102可以选择具有语音功能的装置104中的一者来处置由具有语音功能的装置104中的若干装置检测到的音频输入。另外或替代地,在一些情况下,服务提供方102可以选择具有语音功能的装置104中的相同或不同一者来处置音频输出。服务提供方102和具有语音功能的装置104可以经由一个或更多个网络108进行通信。一个或更多个网络108可以包括多个不同类型的网络中的任何一者或组合,所述网络例如为蜂窝网络、无线网络、局域网(LAN)、广域网(WAN)、个人区域网(PAN)、互联网等。虽然在图1中未示出,但具有语音功能的装置104中的每一者可以连接到无线接入点,例如无线路由器、小区塔等。举例来说,具有语音功能的装置104中的每一者可以无线地连接到位于用户106住宅内的无线路由器。替代地或另外,具有语音功能的装置104可以经由有线连接而彼此连接。
可以将服务提供方102实施为包括一个或更多个服务器、桌上型计算机、膝上型计算机等的一个或更多个计算装置。在一个实例中,在服务器群集、服务器农场、数据中心、主机、云计算环境或其组合中配置服务提供方102。为了说明,服务提供方102可以包括作为提供服务(例如,存储、计算、连网等)的分布式计算资源(例如,云计算、托管的计算等)而操作的任何数目的装置。
服务提供方102可以执行多种操作来辅助具有语音功能的装置104与用户106交互。服务提供方102一般可以:从具有语音功能的装置104接收音频信号和其他信息;处理所述音频信号和/或其他信息(例如,使用话音辨识、自然语言处理(NPL)等);基于所处理的音频信号来执行任务;为具有语音功能的装置104制定响应等。举例来说,如果用户106请求具有语音功能的装置104(N)“播放Tom Petty”,那么服务提供方102可以处理来自具有语音功能的装置104(N)的音频信号,并且在理解了所述用户请求之后指令具有语音功能的装置104(N)播放Tom Petty的歌。
在一些情况下,服务提供方102可以在检测到来自同一音频源的音频输入的多个具有语音功能的装置之间进行仲裁。为此,服务提供方102可以分析在具有语音功能的装置处确定的音频信号的音频信号度量值。作为一个实例,假定具有语音功能的装置104(1)位于走廊中的橱柜上,并且具有语音功能的装置104(N)位于连接到走廊的厨房里的桌子上。还假定用户106说“天气怎么样?”在沿着走廊行进到厨房时,具有语音功能的装置104(1)和104(N)中的每一者都检测到话音输入。此处,具有语音功能的装置104(1)和104(N)中的每一者可以起始与服务提供方102的通信,以通过发送在相应的具有语音功能的装置处确定的音频信号和/或所述音频信号的音频信号度量值来处理话音输入。每个音频信号度量值一般可以指示相关联的音频信号的特性。如图1中示出,具有语音功能的装置104(1)可以向服务提供方102发送一个或更多个音频信号度量值110(1),而具有语音功能的装置104(N)可以发送一个或更多个音频信号度量值110(M)。服务提供方102可以基于音频信号度量值来对具有语音功能的装置104(1)和104(N)进行排名,如在图1中的112处示出。服务提供方102可以从所述排名选择具有语音功能的装置(例如,排名最高的装置)。服务提供方102随后可以处理来自选定的具有语音功能的装置的音频信号并且为用户106执行任务。在此实例中,用户106已经询问了天气信息,并且因此,服务提供方102向具有语音功能的装置104(1)提供天气信息以作为说出的音频“西雅图目前是85度”进行输出。同时,服务提供方102可以忽视(或制止处理)来自非选定的装置(具有语音功能的装置104(N))的音频信号。
可以将具有语音功能的装置104中的每一者实施为计算装置,例如膝上型计算机、桌上型计算机、服务器、智能电话、电子阅读器装置、移动手持机、个人数字助理(PDA)、便携式导航装置、便携式游戏装置、平板计算机、手表、便携式媒体播放器、可穿戴计算装置(例如,手表、光学头戴式显示器(OHMD)等)、电视、计算机监视器或显示器、机顶盒、车辆中的计算机系统、家电、相机、机械手、全息系统、安全系统、恒温器、烟雾检测器、对讲机、家庭媒体系统、照明系统、加热、通风和空气调节(HVAC)系统、家庭自动化系统、投影仪、自动柜员机(ATM)、语音命令装置(VCD)等。在一些情况下,计算装置可以包括移动装置,而在其他情况下,计算装置可以是静止装置。虽然在图1中将具有语音功能的装置104示出为同一类型的装置,但具有语音功能的装置104中的每一者可以是被配置成具有任何数目的组件的任何类型的装置。
在图1的示例性架构100中,将装置仲裁技术论述为是由服务提供方102执行。然而,在其他情况下,所述技术可以由其他装置执行,例如由具有语音功能的装置104中的一者执行。为了说明,当具有语音功能的装置104(1)和104(N)都检测到来自同一音频源的音频输入时,可以将具有语音功能的装置104(1)指定为仲裁器以选择用于处置音频输入的特定装置。此处,具有语音功能的装置104(1)可以与具有语音功能的装置104(N)通信(例如,经由无线或有线连接)以接收音频信号和/或音频信号度量值。具有语音功能的装置104(1)可以执行上文参考服务提供方102而论述的仲裁技术来选择具有语音功能的装置104中的一者。在一些情况下,具有语音功能的装置104(1)可以充当用于具有语音功能的装置104(N)的中继器或回程连接(例如,代表具有语音功能的装置104(N)与服务提供方102通信)。而在其他情况下,具有语音功能的装置104(N)可以不通过具有语音功能的装置104(1)进行通信。
示例性服务提供方
图2示出图1的服务提供方102的示例性组件。如上文所论述,可以将服务提供方102实施为一个或更多个计算装置。一个或更多个计算装置可以配备有一个或更多个处理器202、存储器204和一个或更多个网络接口206。一个或更多个处理器202可以包括中央处理单元(CPU)、图形处理单元(GPU)、微处理器、数字信号处理器等。
存储器204可以包括被配置成一个或更多个“模块”的软件和/或固件功能性。术语“模块”意在表示对软件和/或固件的示例性划分以用于论述目的,并且无意表示任何类型的要求或所需的方法、方式或所需的组织。因此,虽然论述了各种“模块”,但可以不同地布置它们的功能性和/或类似的功能性(例如,组合成更少数目的模块、分解为更大数目的模块等)。如图2中示出,存储器204可以包括唤醒字模块208、话音辨识模块210、任务模块212和仲裁模块214。模块208、210、212和/或214可以是可以由一个或更多个处理器202执行的,以执行各种操作。
唤醒字模块208可以被配置成检测音频信号中的特定字或短语(例如,说出以起始与计算装置的交互的“唤醒”字或其他关键字或短语)。举例来说,唤醒字模块208可以识别在所接收的音频信号中的将触发(例如,唤醒/启动)系统的潜在关键字。唤醒字模块208可以接收一个或更多个波束成形的音频信号以确定所述波束成形的音频信号的一部分是否有可能含有对应于将要检测到的字或短语的信息。音频信号数据存储216可以存储从具有语音功能的装置104接收的一个或更多个音频信号。一旦检测到潜在的唤醒字,便可以将波束成形的音频信号传递到话音辨识模块210以确定存在哪些字或短语。
唤醒字模块208可以提供指示是否检测到唤醒字的唤醒字结果。无法检测到唤醒字可能是由于(例如)错误或因为未检测到唤醒字。在其中检测到唤醒字的一些实现方式中,唤醒字结果还可以包括潜在的唤醒字。另外或替代地,唤醒字结果可以包括指示辨识唤醒字的置信度的辨识置信度得分。因为辨识是预测,所以辨识置信度得分可以指示辨识预测的置信度。在一些情况下,可以向另一组件,例如服务提供方102的另一模块和/或具有语音功能的装置104中的一者的模块(例如,将要在波束选择期间使用的波束选择器模块),提供唤醒字结果。此外,在一些情况下,可以向唤醒字模块208提供来自服务提供方102的另一模块(例如,话音辨识模块210)和/或具有语音功能的装置104中的一者的模块的输出以辅助检测唤醒字。
在一些情况下,具有语音功能的装置104可以连续地监听话音以检测唤醒字。此处,具有语音功能的装置104可以向服务提供方102连续地提供波束成形的音频信号以识别唤醒字。在检测到唤醒字之后,可以执行进一步处理。在其他情况下,可以在具有语音功能的装置104中的一者上在本地实施唤醒字模块208。此处,具有语音功能的装置104中的一者可以监听话音以检测唤醒字,并且在检测到唤醒字之后将处理传递到服务提供方102(例如,将处理传递到话音辨识模块210)。
话音辨识模块210可以对音频信号执行各种话音辨识技术(有时被称为自动话音辨识(ASR))。话音辨识模块210可以提供关于辨识音频信号中的字的抄本或其他输出。话音辨识模块210可以提供指示以下各者的结果:是否接受音频信号以进行话音辨识;是否从音频信号辨识到字;所辨识的字的置信度(例如,指示辨识字的置信度的辨识置信度得分)等。在一个实例中,辨识置信度得分可以指示准确地检测到字的置信水平。在一些情况下,可以向服务提供方102的另一模块和/或具有语音功能的装置104中的一者的模块(例如将要在波束选择期间使用的波束选择器模块)提供结果(例如,作为反馈)。如果话音辨识模块210检测到字,那么可以将抄本(和/或音频信号)传递到任务模块212。
任务模块212可以被配置成分析来自话音辨识模块210(和/或其他模块)的信息以解译输入和/或执行任务。在一些情况下,任务模块212采用自然语言处理(NLP)技术来确定抄本(例如,文本)的含义。基于所述含义,任务模块212可以识别将要执行的任务和/或将要提供的响应。举例来说,响应于在具有语音功能的装置处接收的请求“请订购更多的电池”,任务模块212可以通过电子商务站点执行订购电池的任务,并且随后向具有语音功能的装置发送指令以提供订购了电池的指示(例如,音频输出“好的,我已经订购了更多的电池”)。在其他实例中,可以执行其他类型的任务,例如设定日历预约、拨打电话呼叫、提供天气信息、播放音乐等。此外,可以提供其他类型的响应,例如在灯上运行以指示已经执行了任务、提供特定的可听声音(例如,哔哔声)等。
仲裁模块214可以被配置成选择用于处置输入和/或输出的具有语音功能的装置。如上文所述,在一些情况下,多个具有语音功能的装置可以检测来自用户的相同话语(或来自来源的相同声音),这可能导致具有语音功能的装置中的每一者尝试处置所述话语。在这些情况下,服务提供方102可以在具有语音功能的装置之间进行仲裁以选择用于处置与用户的交互的最佳具有语音功能的装置。此外,这可以允许处理最佳信号(例如,最准确地表示话语的信号)。
在一些情况下,为了选择具有语音功能的装置,仲裁模块214可以执行初始处理以识别可能潜在被选择的具有语音功能的装置(例如,识别在其间仲裁的具有语音功能的装置)。也就是说,仲裁模块214可以确定从中选择的一组具有语音功能的装置。举例来说,如果多个具有语音功能的装置位于家中,那么仲裁模块214可以执行初始处理以识别对于与用户进行交互来说可能潜在最佳的多个装置的子集。仲裁模块214可以在运行时(例如,当将要执行仲裁过程时实时地)和/或预先执行所述初始处理。
在一个实例中,初始处理可以选择位于彼此和/或音频源预定距离之内/附近的具有语音功能的装置。例如,可以基于从装置的全球定位系统(GPS)传感器识别的位置来确定多个具有语音功能的装置位于彼此附近(例如,在同一房间、彼此相距数英尺)。替代地或另外,可以基于装置连接到同一无线接入点来确定多个具有语音功能的装置位于彼此附近。此处,无线接入点可以提供对特定区域(例如,房间、房屋等)的覆盖。此外,可以基于到无线接入点的信号强度来确定多个具有语音功能的装置具有语音功能的装置位于彼此附近。为了说明,如果具有语音功能的装置到无线接入点的无线连接高于强度阈值(例如,指示相对强的信号),并且另一具有语音功能的装置到同一无线接入点的无线连接高于所述强度阈值,那么可以确定所述两个装置处于彼此附近。可以由管理员、服务提供方102、终端用户等来设定预定距离/接近度。可以将将预定距离/接近度设定为任何值,例如当用户以特定分贝水平说话时具有语音功能的装置可以听到用户的平均距离(随时间确定)。
在另一实例中,所述初始处理可以选择在基本上相同时间(例如,在时间窗内)确定音频信号的具有语音功能的装置。为了说明,如果两个具有语音功能的装置各自在彼此的阈值量时间内(例如,在时间的时间窗的相同跨度内)产生了音频信号,那么可以选择所述装置。所述选择可以基于音频信号的时戳。每个时戳可以指示产生音频信号的时间。如果在彼此接近的时间产生了音频信号,那么这可以指示(例如)装置听到来自用户的相同话语。可以由管理员、服务提供方102、终端用户等来设定时间的阈值量。
在另一实例中,初始处理可以选择与同一用户账户相关联的具有语音功能的装置。为了说明,如果多个具有语音功能的装置各自链接(注册)到同一用户账户(例如,经创建以访问内容的账户、用于访问具有语音功能的装置的账户,或任何其他账户),那么可以选择所述多个具有语音功能的装置。
在另一实例中,所述初始处理可以选择彼此具有阈值量的类似性的音频信号(例如,指示装置听到相同话语)的具有语音功能的装置。可以(例如)使用例如Kullback-Leibler(KL)距离/散度、动态时间伸缩、基于欧几里得距离的群集内/间差异(例如,群集内/间相关性)等技术通过统计分析来确定音频信号之间的类似量。
在另一实例中,所述初始处理可以选择与各自高于阈值(例如,指示装置准确地辨识出字)的(音频信号的)辨识置信度得分相关联的具有语音功能的装置。为了说明,如果多个具有语音功能的装置中的每个装置辨识出音频信号中的字并且每个装置具有高于阈值的置信度值(指示辨识字的准确性),那么可以选择所述多个具有语音功能的装置。高于阈值的置信度值可以指示装置相对地确信音频信号包括字。
在任何情况下,为了选择具有语音功能的装置,仲裁模块214一般可以对检测到相同声音的多个具有语音功能的装置进行排名。所述排名可以包括对来自多个具有语音功能的装置的音频信号进行排名。所述排名可以基于多种信息。例如,可以基于从具有语音功能的装置接收的音频信号度量值来对具有语音功能的装置进行排名。可以选择排在列表顶部(或朝向排名顶部)的具有语音功能的装置来处置音频输入。音频信号度量值可以包括信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度、调和性等。可以将音频信号度量值存储在音频信号度量值数据存储218中。下文参考图3进一步详细论述音频信号度量值。
作为对具有语音功能的装置进行排名的一个实例,仲裁模块214可以从具有语音功能的装置中的每一者接收音频信号度量值。每个音频信号度量值可以表示在由相应的具有语音功能的装置确定的多个音频信号之间具有最高值的音频信号度量值。为了说明,第一具有语音功能的装置可以选择用于处理话语的音频信号(如在下文参考图3详细论述的最佳音频信号),并且向服务提供方102发送所述音频信号的音频信号度量值。类似地,检测到相同话语的第二具有语音功能的装置可以选择用于处理的音频信号(最佳音频信号),并且向服务提供方102发送所述音频信号的音频信号度量值。服务提供方102可以根据相应的音频信号度量值来对所述两个具有语音功能的装置进行排名。例如,如果第一具有语音功能的装置与比第二具有语音功能的装置更大的SNR值相关联,那么第一具有语音功能的装置可以排名更高(朝向列表顶部),并且可以优于第二具有语音功能的装置被选择。
作为另一实例,仲裁模块214可以基于每个相应的具有语音功能的装置的音频信号的度量来对具有语音功能的装置进行排名。此处,不让每个具有语音功能的装置都提供选定音频信号(例如,装置处的最佳音频信号)的音频信号度量值,而是每个具有语音功能的装置可以提供具有语音功能的装置的多个音频信号中的每一者(例如,一些或所有所确定的音频信号)的音频信号度量值。因此,排名可以包括具有语音功能的装置中的每一者的多个条目(例如,在第一时间针对第一音频信号度量值对特定装置进行排名,并且在第二时间针对第二音频信号度量值对特定装置进行排名)。
作为另一实例,仲裁模块214可以基于多个音频信号度量值(例如,不同类型的音频信号度量值)来对每个具有语音功能的装置进行排名。为了说明,可以根据具有语音功能的装置的SNR值和具有语音功能的装置的频谱质心量度来对具有语音功能的装置进行排名。在一些情况下,可以不同地加权不同类型的音频信号度量值。
作为另一实例,仲裁模块214可以基于平均音频信号度量值对具有语音功能的装置进行排名。此处,每个具有语音功能的装置可以发送具有语音功能的装置的多个音频信号的平均音频信号度量值。为了说明,如果具有语音功能的装置确定三个波束成形的音频信号,那么具有语音功能的装置可以发送三个波束的平均音频信号度量值(例如,平均SNR)。在一些情况下,如果一个具有语音功能的装置比另一具有语音功能的装置的平均音频信号度量值更大,那么这可以指示所述具有语音功能的装置比所述另一具有语音功能的装置更接近音频源。
在一些情况下,仲裁模块214可以基于经加权的音频信号度量值对具有语音功能的装置进行排名。为了说明,具有语音功能的装置可以选择与具有语音功能的装置的音频信号的最佳音频信号度量值(例如,最大/最高音频信号度量值,或者在一些情况下,最小/最低音频信号度量值)相关联的音频信号。可以通过具有语音功能的装置的音频信号的最佳音频信号度量值(例如,最大/最高音频信号度量值)与最差音频信号度量值(例如,最小/最低音频信号度量值)之间的差(方差)来加权最佳音频信号度量值。可以将经加权的音频信号度量值发送到服务提供方102以对多个具有语音功能的装置进行排名。
此外,在一些情况下,仲裁模块214可以基于历史统计对音频信号和/或具有语音功能的装置进行排名。举例来说,可以随时间从多种具有语音功能的装置收集音频信号的音频信号度量值。如果确定来自具有语音功能的装置的特定波束成形的音频信号在历史上曾是那个具有语音功能的装置或跨越具有语音功能的装置的最佳信号(例如,由于所述特定信号具有最高SNR),那么仲裁模块214可以将更多加权应用于所述特定波束成形的音频信号,使得所述特定波束成形的音频信号的排名将高于另一波束成形的音频信号。因此,仲裁模块214可以随时间了解哪些音频信号和/或具有语音功能的装置一般使用起来最佳。为了说明,仲裁模块214可以了解位于墙壁旁边的具有语音功能的装置的三个特定波束成形的音频信号是一般相对良好的音频信号,而三个其他波束成形的音频信号是相对差的信号。在另一说明中,仲裁模块214可以了解特定波束成形的音频信号一般是最佳音频信号,因为用户一般在相同位置说话。
在任何情况下,仲裁模块214可以使用排名来选择具有语音功能的装置。在一些实例中,可以选择出现在排名顶部(或者朝向顶部(在顶部周围的特定位置))处的具有语音功能的装置来处置处理。此外,在其中具有语音功能的装置在排名中出现多次(对于多个音频信号度量值)的一些实例中,仲裁模块214可以选择在排名中的前N数目个位置最多出现的具有语音功能的装置。N可以是大于2的整数。为了说明,仲裁模块214可以选择占据排名中的前三个位置中的两者的第一具有语音功能的装置。
在一些情况下,如果仲裁模块214不能从排名识别最佳的具有语音功能的装置,那么仲裁模块214可以针对不同的信息重复所述排名操作。举例来说,如果两个具有语音功能的装置占据基于SNR的排名中的顶部位置(或者各自占据前N数目个位置),那么仲裁模块214可以再次基于话语能量水平对所述两个具有语音功能的装置进行排名。
虽然本文将许多操作描述为由服务提供方102执行,但这些操作中的任一者可以由其他装置(例如,具有语音功能的装置104中的任一者)执行。因此,具有语音功能的装置104中的任一者可以包括模块208、210、212和/或214中的任一者以在本地执行处理。举例来说,可以将仲裁模块214存储在具有语音功能的装置104中的一者的存储器中,并且仲裁模块214在具有语音功能的装置104处执行本地处理以选择用于处置输入和/或输出的具有语音功能的装置。另外或替代地,可以跨越各种不同的计算装置(例如,多个服务提供方)实施模块208、210、212和/或214中的任一者。此外,虽然将各种操作描述为由模块执行,但可以将本文描述的这些操作和/或其他技术中的任一者实施为一个或更多个硬件逻辑组件,例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、系统芯片系统(SOC)、复杂可编程逻辑装置(CPLD)等。
示例性具有语音功能的装置
图3示出图1的具有语音功能的装置104中的一者的示例性组件。具有语音功能的装置104可以包括一个或更多个处理器302、存储器304、一个或更多个网络接口306,和一个或更多个麦克风308(在下文称为“麦克风308”)。一个或更多个处理器302可以包括中央处理单元(CPU)、图形处理单元(GPU)、微处理器、数字信号处理器等。虽然未示出,但但具有语音功能的装置104还可以包括一个或更多个输入/输出装置(例如,鼠标、键盘等)、一个或更多个相机(例如,后向、前向等)、一个或更多个显示器(例如,触摸屏、液晶显示器(LCD)、发光二极管(LED)显示器、有机LED显示器、等离子体显示器、电子纸张显示器等)、一个或更多个传感器(例如,加速度计、磁强计等)、一个或更多个扬声器、一个或更多个灯等。可以使用具有语音功能的装置104的任何数目的组件来从用户接收输入和/或输出响应。举例来说,麦克风308可以检测来自用户的话音输入,并且扬声器或灯可以使用已经针对所述话音输入执行了任务的指示(例如,音频输出“我已经为你订购了项目”、启用灯等)作出响应。此外,一个或更多个网络接口306可以经由一个或更多个网络进行通信(例如,接收信息或向服务提供方102发送信息,例如音频信号、音频信号度量值等)。
麦克风308可以包括被配置成接收声音的传感器(例如,换能器)。麦克风308可以产生音频输入(例如,声音)的输入信号。举例来说,麦克风308可以确定用户的话语的数字输入信号。在一些情况下,以阵列实施麦克风308。所述阵列可以布置成几何图案,例如线性几何形式、圆形几何形式或任何其他配置。举例来说,对于给定点,可以将四个传感器的阵列以90度的增量(例如,0、90、180、270)放置成圆形图案,以从四个方向接收声音。麦克风308可以处于平坦配置,或者在非平坦的三维区中相隔地定位。在一些实现方式中,麦克风308可以包括数据通信中的传感器的空间上不同的阵列。举例来说,可以包括传感器的连网阵列。麦克风308可以包括全向麦克风、方向性麦克风(例如,猎枪麦克风)等。
存储器304可以包括波束成形器模块310、音频信号度量模块312和波束选择器模块314。波束成形器模块310可以从麦克风308接收输入信号,并且对所述输入信号执行信号处理以产生音频信号。举例来说,波束成形器模块310可以使用所接收的输入信号形成(例如,确定)多个波束成形的音频信号,并且针对所述多个波束成形的音频信号中的每一者使用不同组滤波器。波束成形器模块310可以确定所述多个波束成形的音频信号中的每一者具有观看方向(有时被称为方向),传感器阵列(例如,麦克风308)从除了所述观看方向之外的方向检测到的波形会相对于所述传感器阵列从所述观看方向检测到的波形受到抑制。所述多个波束成形的信号中的每一者的观看方向同样可以彼此间隔开。因此,每个波束成形的音频信号可以对应于不同的观看方向。
在一些情况下,可以通过使用实施自适应或可变波束成形技术的自适应或可变波束成形器来采用所述波束成形技术。此外,在一些情况下,提供多个波束成形器模块(例如,多个固定的波束成形器模块)。每个波束成形器模块利用一组滤波器权重和/或延迟来确定对应于特定观看方向的波束成形的音频信号。举例来说,可以提供六个固定的波束成形器模块以确定六个波束成形的音频信号,每个波束成形的音频信号对应于不同的观看方向。无论使用固定的还是自适应波束成形器,可以通过y(n)(k)形式的数字阵列表示所得的多个波束成形的音频信号:
{y(1)(k),y(2)(k),......,y(N)(k)},
此处,“k”是时间索引,并且“n”是对应于第n个波束成形的音频信号(和第n个观看方向)的音频流索引(或者观看方向索引)。
在一个实现方式中,将波束成形器模块310实施为波束成形器的延迟加总类型,所述波束成形器被适配成使用每个阵列传感器之间的延迟来补偿跨越所述传感器阵列的源信号方向的传播延迟的差异。通过调整波束成形器的权重和延迟,对源自所要方向(或者位置)(例如,源自说话的人员(例如,向话音辨识系统提供指令和/或输入的人员)的方向)的源信号的相位求和,而其他信号(例如,噪声、非话音等)经历相消干扰。通过调整或选择延迟加总波束成形器的权重和/或延迟,其波束成形的音频信号输出的形状可以得到控制。还可以利用其他类型的波束成形器模块。
在2014年7月30日提交的标题为“Method and System for Beam Selection inMicrophone Array Beamformers”的美国专利申请号14/447,498以及2015年6月1日提交的标题为“Feedback Based Beamformed Signal Selection”的美国专利申请号14/727,504中论述了示例性波束成形技术,所述两个申请的全部内容以引用的方式并入本文。
音频信号度量模块312可以确定由波束成形器模块310提供的多个音频信号(例如,波束成形的音频信号)中的每一者的音频信号度量值。在一些实施方案中,基于波束成形的音频信号的多个帧中的一者的样本来确定每个音频信号度量值。举例来说,可以确定多个波束成形的音频信号中的每一者的多个帧的信噪比。可以确定多个波束成形的音频信号中的每一者的每个帧的音频信号度量值f,从而产生f(n)(k)形式的数字阵列:
{f(1)(k),f(2)(k),......,f(N)(k)}
此处,“k”是时间索引,并且“n”是对应于第n个波束成形的音频信号的音频流索引(或者观看方向索引)。
音频信号度量值可以包括信噪比(SNR)、频谱质心量度(例如,峰值频谱质心量度)、话语能量水平(例如,4Hz调制能量)、频谱通量、特定百分位频率(例如,第90百分位频率)、周期性、清晰度、调和性等。频谱质心量度一般提供频谱的质心质量的量度。频谱通量一般提供频谱变化率的量度。特定百分位频率一般提供基于覆盖至少总功率的特定百分比(例如,90%)的最小频段的量度。周期性一般提供可以用于有噪声环境中的基音检测的量度。清晰度一般提供具有语音段的高值和背景噪声的低值的量度。调和性是一般提供语音段的高值和背景噪声的低值的另一量度。话语能量水平(例如,4Hz调制能量)一般提供由于说话速率而具有话音的高值的量度。在其他实施方案中,可以确定在短暂时间窗(例如,通常不超过一帧)内大概随着原始波束成形的信号数据而变的任何另一音频信号度量值。在一些情况下,可以基于波束成形的音频信号的多个帧的样本来确定音频信号度量值。此外,在一些情况下,音频信号度量值可以被称为信号特征。
在一些实现方式中,可以根据下表来定义音频信号度量值:
Figure GDA0003493759380000181
Figure GDA0003493759380000191
在一些情况下,音频信号度量模块312可以确定关于特定波束成形的音频信号的音频信号度量值。作为一个实例,可以确定与特定观看方向相关联的波束成形的音频信号的SNR值。在其他情况下,可以确定多个波束成形的音频信号的音频信号度量值。作为一个实例,可以确定针对具有语音功能的装置而确定的多个波束成形的音频信号的平均音频信号度量值,例如跨越具有语音功能的装置的任何数目的波束成形的音频信号的平均SNR值。
此外,在一些情况下,音频信号度量模块312可以加权音频信号度量值。作为一个实例,可以使音频信号度量值乘以具有语音功能的装置的波束成形的音频信号中的具有最大值的音频信号度量值(相同类型)与具有最小值的音频信号度量值(相同类型)之间的差。为了说明,可以通过具有语音功能的装置的波束成形的音频信号中的最大SNR值与最小SNR值之间的差对SNR值进行加权。最大音频信号度量值与最小音频信号度量值之间的差(或方差)可以是波束成形器的方向性的量度(例如,波束成形器对方向有多灵敏)。举例来说,相对大的差可以指示波束成形器具有高度方向性(例如,能够相对良好地检测音频源的方向以及更合意的波束成形器),而相对小的差可以指示波束成形器不大具有方向性(例如,不能非常良好地检测音频源的方向以及不大合意的波束成形器)。在一些情况下,波束成形器的方向性可能受到环境条件影响(例如,定位在墙壁旁边、干扰的物体等),而在其他情况下,所述方向性可以是波束成形器和/或相关联的具有语音功能的装置的硬件和/或软件的特性。例如,如果具有语音功能的装置定位在墙壁旁边,那么在波束成形的音频信号的音频信号度量值之间可能存在相对小的方差,这是因为音频输入可能会在于具有语音功能的装置处被检测到之前反射离开墙壁。
另外或替代地,音频信号度量模块312可以基于多个帧内的多个音频信号度量值f的时间平滑函数来确定多个音频信号度量值中的每一者的时间平滑的音频信号度量值(还被称为“平滑的音频信号度量值”或“平滑的特征”)。在一些实施方案中,基于多个帧内的音频信号度量值来确定平滑的音频信号度量值S。举例来说,平滑的音频信号度量值S可以基于少到信号特征数据的三个帧、基于多到信号特征数据的一千帧或更多帧。可以确定多个波束成形的音频信号中的每一者的平滑的音频信号度量值S,从而产生S(n)(k)形式的数字阵列:
{S(1)(k),S(2)(k),......,S(N)(k)}
一般来说,音频信号度量值是统计数据。音频信号度量值可以概括从波束成形的信号提取的特定信号特征的变化。音频信号度量值的实例可以是表示一段时间内的信号的最大值的音频信号度量值的峰值。可以随时间使此类音频信号度量值平滑(例如,求平均、移动平均或加权平均),以减少音频信号度量值中的任何短持续时间噪度。
在一些实施方案中,可以基于以下关系获得用于确定平滑的音频信号度量值S的时间平滑技术:
S(k)=alpha*S(k-1)+(1-alpha)*f(k)
在此实例中,alpha是平滑因子或时间常数。根据以上内容,确定当前帧(例如,S(k))处的平滑的音频信号度量值S包括:通过使对应于先前帧(例如,S(k-1))的平滑的音频信号度量值S乘以第一时间常数(例如,alpha)来确定第一乘积;通过使当前帧(例如,f(k))处的音频信号度量值乘以第二时间常数(例如,(1-alpha))来确定第二乘积,其中所述第一时间常数和第二时间常数之和为1;以及使第一乘积(例如,alpha*S(k-1))加上所述第二乘积(例如,(1-alpha)*f(k))。
在一些实施方案中,可以依据音频信号度量值而不同地应用所述平滑技术。举例来说,可以基于以下过程获得用于确定平滑的音频信号度量值S的另一时间平滑技术:
If(f(k)>S(k)):
S(k)=alpha_attack*S(k-l)+(1-alpha_attack)*f(k)
Else:
S(k)=alpha_release*S(k-l)+(l-alpha_release)*f(k)
在此实例中,alpha_attack是增高时间常数,并且alpha_release是释放时间常数。一般来说,增高时间常数比释放时间常数快。使增高时间常数比释放时间常数快允许平滑的音频信号度量值S(k)快速地跟踪信号特征的相对高的峰值(例如,当f(k)>S(k)时),同时相对慢地跟踪音频信号度量值的相对低的峰值(例如,当f(k)<S(k)时)。在其他实施方案中,可以使用类似的技术来跟踪话音信号的最小值。一般来说,当向音频信号度量值f(k)给予较高的权重并且向先前帧的平滑的音频信号度量值给予较小的权重时,增高更快。因此,较小的alpha提供更快的增高。
波束选择器模块314可以接收音频信号(例如,波束成形的音频信号)和/或音频信号度量值,并且选择音频信号以供进一步处理。波束选择器模块314一般可以选择提供最靠近所捕获的音频输入(例如,用户的话语)的来源的音频的音频信号。波束选择器模块314可以被配置成使用多种信息来选择音频信号中的一者。举例来说,波束选择器模块314可以从具有语音功能的装置104的多个波束成形的音频信号中选择与最大音频信号度量值相关联的波束成形的音频信号。为了说明,波束选择器模块312可以基于多个波束成形的音频信号的对应的音频信号度量值来对所述多个波束成形的音频信号进行排名。波束选择器314随后可以从所述多个波束成形的音频信号中选择与(例如)最大SNR值相关联的波束成形的音频信号。可以使用选定的波束成形的音频信号来处理音频输入(例如,话音辨识等)。作为一个实例,可以向服务提供方102发送所述选定的波束成形的音频信号(和/或相关联的音频信号度量值)以进行处理。在一些情况下,波束选择器模块314使用平滑的音频信号度量值以进行选择。
在一些实施方案中,如果还确定具有最大平滑的音频信号的波束成形的音频信号包括语音(或者话音),那么波束选择器模块314可以选择所述波束成形的音频信号。可以通过多种方式检测语音和/或话音检测,包括使用语音活动检测器。作为一个实例,波束选择器模块314可以首先确定候选的波束成形的音频信号是否包括语音和/或话音,并且随后从包括语音和/或话音的候选的波束成形的音频信号中选择波束成形的音频信号。作为另一实例,波束选择器模块314可以首先确定候选的波束成形的音频信号的平滑的音频信号度量值。波束选择器模块314随后可以确定拥有具有最大值的平滑的音频信号度量值的波束成形的音频信号是否包括语音和/或话音。如果包括语音和/或话音,那么可以选择拥有具有最大值的平滑的音频信号度量值的波束成形的音频信号以供进一步处理。如果不包括语音和/或话音,那么波束选择器模块314可以确定具有下一最高平滑的音频信号度量值的波束成形的信号是否包括语音和/或话音。如果包括语音和/或话音,那么可以选择那个波束成形的音频信号以供进一步处理。如果不包括语音和/或话音,那么波束选择器模块314可以继续以平滑的音频信号度量值的降序来评估波束成形的信号,直到确定了包括语音和/或话音的波束成形的音频信号为止。可以选择所述波束成形的音频信号以供进一步处理。
在一些情况下,为了促进更稳健的波束选择,波束选择器模块314可以基于来自一个或更多个话音处理元件(例如,话音辨识模块、唤醒字模块等)的反馈来选择波束成形的音频信号。所述反馈可以包括指示以下各者的信息:是否接受音频信号以用于话音辨识;是否从音频信号辨识出字;辨识出的字的置信度(例如,由话音辨识模块辨识的字有多大可能性准确);是否针对音频信号起始任务和/或响应(例如,播放歌、添加日历事件等在音频信号中是否检测到唤醒字;辨识唤醒字的置信度等。波束选择器模块312可以利用所述反馈对波束成形的音频信号进行排名和/或选择。举例来说,已经检测到唤醒字的波束成形的音频信号可以排在已经检测到和识别出唤醒字的波束成形的音频信号之下。类似地,经由话音辨识模块提供了产生高置信度辨识检测的数据的波束成形的音频信号的排名可以高于提供了产生较低的置信度辨识的数据的波束成形的音频信号。
虽然本文将许多操作描述为由具有语音功能的装置104执行,但这些操作中的任一者可以由其他装置(例如,任何服务提供方102)执行。因此,服务提供方102可以包括模块310、312和/或314中的任一者。举例来说,服务提供方102可以从具有语音功能的装置104接收波束成形的音频信号,并且确定每个波束成形的音频信号的音频信号度量值。此外,虽然将各种操作描述为由模块执行,但可以将本文描述的这些操作和/或其他技术中的任一者实施为一个或更多个硬件逻辑组件,例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、系统芯片系统(SOC)、复杂可编程逻辑装置(CPLD)等。
存储器204和/或304(以及本文描述的所有其他存储器)可以包括计算机可读介质(例如,存储介质)中的一者或组合。计算机可读介质包括在用于存储例如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法和技术中实施的易失性和非易失性、可移除和非可移除介质。计算机可读介质包括,但不限于,相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器或其他存储器技术、压缩磁盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储装置,或可以用于存储供计算装置访问的信息的任何其他非暂时性介质。如本文界定,计算机可读介质不包括暂时性通信介质,例如没有非暂时性介质的已调制的数据信号和载波。因此,计算机可读介质包括非暂时性计算机可读介质。
示例性过程
图4和图5示出用于采用本文描述的技术的示例性过程400和500。为了易于说明,将过程400和500描述为在图1的架构100中执行。举例来说,过程400和500的个别操作中的一者或多者可以由服务提供方102和/或具有语音功能的装置104中的任一者执行。然而,可以在其他架构中执行过程400和500。另外,可以使用架构100来执行其他过程。
将过程400和500示出为逻辑流图,所述过程的每个操作表示可以在硬件、软件或其组合中实施的一连串操作。在软件背景下,所述操作表示存储在一个或更多个计算机可读存储介质上的计算机可执行指令,所述计算机可执行指令在由一个或更多个处理器执行时会配置所述一个或更多个处理器以致使计算装置执行所叙述的操作。一般来说,计算机可执行指令包括执行特定功能或实施特定抽象数据类型的例程、程序、对象、组件、数据结构等。不希望将描述操作的次序理解为限制,并且可以通过任何次序和/或并行地组合任何数目的所描述的操作来实施过程。此外,可以省略任何数目的操作。
图4示出用于在多个具有语音功能的装置之间进行仲裁的示例性过程400。
在402处,可以识别多个具有语音功能的装置。这可以包括识别(或者确定)在基本上相同的时间(在彼此的阈值量时间内)从单个话语接收音频输入的第一具有语音功能的装置和第二具有语音功能的装置。
在404处,可以从每个具有语音功能的装置接收一个或更多个音频信号度量值。音频信号度量值可以是针对与在具有语音功能的装置处接收的音频输入相关联的波束成形的音频信号。音频信号度量值可以包括信噪比、频谱质心量度、话语能量水平(例如,4HZ调制能量)、频谱通量、特定百分位频率(例如,第90百分位频率)、周期性、清晰度、调和性等。在一个实例中,操作404可以包括接收多个音频信号度量值中的具有最佳值的音频信号度量值,其中所述多个音频信号度量值中的每一者与由具有语音功能的装置确定的不同的波束成形的音频信号相关联。具有最佳值的音频信号度量值可以是具有最高(最大)值的音频信号。替代地,具有最佳值的音频信号度量值可以是具有最低(最小)值的音频信号。在另一实例中,操作404可以包括接收具有语音功能的装置的多个音频信号度量值中的平均音频信号度量值。在另一实例中,操作404可以包括接收具有语音功能的装置的多个音频信号度量值。在一些情况下,可以例如通过具有语音功能的装置的多个音频信号度量值中的具有最佳值(最高值,或者在一些情况下,最低值)的音频信号度量值和具有最差值(最低值,或者在一些情况下,最高值)的音频信号度量值之间的差对音频信号度量值进行加权。
在406处,可以对多个具有语音功能的装置进行排名。操作406可以基于多个具有语音功能的装置中的个别具有语音功能的装置的音频信号度量值。在一些情况下,可以针对不同的音频信号度量值、不同的排名技术等对具有语音功能的装置多次进行排名。
在408处,可以选择具有语音功能的装置以用作选定的具有语音功能的装置。作为一个实例,操作408可以选择出现在排名顶部处的具有语音功能的装置。作为另一实例,操作408可以选择在排名中的前N个数目的位置出现最多的具有语音功能的装置,其中N是大于2的整数。
在410处,可以致使处理选定的具有语音功能的装置的音频信号。在一些情况下,操作410包括向服务提供方发送指令以处理选定的具有语音功能的装置的音频信号(例如,在具有语音功能的装置执行仲裁过程的情况下)。在其他情况下,操作410包括处理选定的具有语音功能的装置的音频信号(例如,在服务提供方执行仲裁过程的情况下)。
在412处,可以至少部分基于经过处理的音频信号来执行任务。举例来说,所述任务可以包括执行由用户请求的功能。
在414处,可以致使选定的具有语音功能的装置输出关于任务的指示。在一些情况下,操作414包括向选定的具有语音功能的装置发送指令。所述指令可以请求所述选定的具有语音功能的装置输出已经完成任务的指示。在其他情况下,操作414包括输出指示(例如,提供话音输出、显示响应、启用灯等)。
图5示出用于执行初始处理以选择在其间仲裁的具有语音功能的装置的示例性过程500。在一些情况下,可以在图4的过程400之前执行过程500。在其他情况下,可以在其他时间执行过程500。
在502处,可以确定产生与具有语音功能的装置相关联的音频信号的时间。可以针对多个具有语音功能的装置中的每一者重复操作502。
在504处,可以确定具有语音功能的装置的位置。可以针对多个具有语音功能的装置中的每一者重复操作504。
在506处,可以确定与具有语音功能的装置相关联的账户。举例来说,操作506可以识别具有语音功能的装置所注册到的用户账户。可以针对多个具有语音功能的装置中的每一者重复操作506。
在508处,可以确定与第一具有语音功能的装置相关联的音频信号和与第二具有语音功能的装置相关联的音频信号之间的类似性。
在510处,可以确定与具有语音功能的装置相关联的音频信号的辨识置信度得分。辨识置信度得分可以指示关于对音频信号的字的辨识的置信水平。可以针对多个具有语音功能的装置中的每一者重复操作510。
在512处,可以确定音频源的位置。举例来说,可以使用源定位算法来确定用户位于何处(例如,相对于具有语音功能的装置)。源定位算法可以包括导向响应功率与相位变换(SRP PHAT)、广义交叉相关与相位变换(GCC PHAT)、最小方差无失真响应与相位变换(MVDR PHAT)等。
在514处,可以执行初始处理。所述初始处理可以选择在其间仲裁的具有语音功能的装置。所述初始处理可以基于操作502-512的一个或更多个确定。举例来说,在出现以下情况的情况下可以选择多个具有语音功能的装置:在相同时间或者在彼此的阈值量时间内(例如,在彼此的一秒内、几分之一秒内等)产生相关联的音频信号;装置位于彼此附近;装置与同一账户相关联;来自装置的音频信号具有阈值量的类似性;来自装置的音频信号的辨识置信度得分各自高于阈值;装置位于音频源(例如,用户)的预定接近度内,等等。
虽然在执行初始选择处理的背景下论述了操作502-512,但在一些情况下,可以在其他背景下执行操作502-512。举例来说,可以使用操作502-512的确定中的一者或多者来辅助在过程400的操作408处选择具有语音功能的装置。
可以鉴于以下条款来描述本公开的实施方案:
条款A:一种方法,包括:通过计算装置确定在基本上相同的时间接收到音频输入的第一具有语音功能的装置和第二具有语音功能的装置;通过所述计算装置从所述第一具有语音功能的装置接收指示与第一波束成形的音频信号相关联的信噪比的第一音频信号度量值,已经在所述第一具有语音功能的装置处确定了在所述第一具有语音功能的装置处接收的所述音频输入的所述第一波束成形的音频信号,针对相对于所述第一具有语音功能的装置的方向来确定所述第一波束成形的音频信号;通过所述计算装置从所述第二具有语音功能的装置接收指示与第二波束成形的音频信号相关联的信噪比的第二音频信号度量值,已经在所述第二具有语音功能的装置处确定了在所述第二具有语音功能的装置处接收的所述音频输入的所述第二波束成形的音频信号,针对相对于所述第二具有语音功能的装置的方向来确定所述第二波束成形的音频信号;通过所述计算装置确定与所述第一波束成形的音频信号相关联的所述信噪比大于与所述第二波束成形的音频信号相关联的所述信噪比;通过所述计算装置使用一种或多种话音辨识技术来处理所述第一波束成形的音频信号;通过所述计算装置执行与所述音频输入相关联的任务;以及通过所述计算装置向所述第一具有语音功能的装置发送指令,所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。
条款B:如条款A所述的方法,其中所述第一音频信号度量值的信噪比是多个不同的波束成形的音频信号的最大的信噪比,所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号,已经在所述第一具有语音功能的装置处确定了所述多个不同的波束成形的音频信号中的每一者。
条款C:如条款A或B所述的方法,其中所述第一音频信号度量值的信噪比是多个不同的波束成形的音频信号的平均信噪比,所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号,已经在所述第一具有语音功能的装置处确定了所述多个波束成形的音频信号中的每一者。
条款D:如条款A至条款C中的任一者所述的方法,其中通过多个不同的波束成形的音频信号的具有最高值的信噪比与具有最低值的信噪比之间的差对所述第一音频信号度量值的信噪比进行加权,所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号,已经在所述第一具有语音功能的装置处确定了所述多个不同的波束成形的音频信号中的每一者。
条款E:一种系统,包括:一个或更多个处理器;以及存储器,所述存储器通信地耦合到所述一个或更多个处理器并且存储可执行指令,所述可执行指令在由所述一个或更多个处理器执行时致使所述一个或更多个处理器执行操作,所述操作包括:识别与第一音频信号相关联的第一音频信号度量值,所述第一音频信号与第一具有语音功能的装置相关联;识别与第二音频信号相关联的第二音频信号度量值,所述第二音频信号与第二具有语音功能的装置相关联;至少部分基于所述第一音频信号度量值和所述第二音频信号度量值来选择所述第一具有语音功能的装置;以及处理所述第一音频信号。
条款F:如条款E所述的系统,其中所述操作进一步包括:确定在彼此的阈值量时间内产生了所述第一音频信号和所述第二音频信号。
条款G:如条款E或条款F所述的系统,其中所述操作进一步包括:确定所述第一具有语音功能的装置和所述第二具有语音功能的装置位于彼此的预定距离内。
条款H:如条款E至条款G中的任一者所述的系统,其中所述操作进一步包括:确定所述第一具有语音功能的装置和所述第二具有语音功能的装置与同一账户相关联。
条款I:如条款E至条款H中的任一者所述的系统,其中所述操作进一步包括:确定所述第一音频信号和所述第二音频信号彼此具有阈值量的类似性。
条款J:如条款E至条款I中的任一者所述的系统,其中所述操作进一步包括:确定所述第一音频信号的第一辨识置信度得分和所述第二音频信号的第二辨识置信度得分各自高于阈值,所述第一辨识置信度得分指示在所述第一音频信号中准确地检测到字的置信水平,所述第二辨识置信度得分指示在所述第二音频信号中准确地检测到所述字或不同字的置信水平。
条款K:如条款E至条款J中的任一者所述的系统,其中所述第一音频信号度量值包括以下之一:信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度或调和性。
条款L:如条款E至条款K中的任一者所述的系统,其中所述第一音频信号度量值是多个音频信号度量值中最高的,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。
条款M:如条款E至条款L中的任一者所述的系统,其中所述第一音频信号度量值包括多个音频信号度量值的平均音频信号度量值,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。
条款N:如条款E至条款M中的任一者所述的系统,其中通过多个音频信号度量值中的具有最高值的音频信号度量值与具有最低值的音频信号度量值之间的差来对所述第一音频信号度量值进行加权,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的所述第一音频信号或不同的音频信号相关联。
条款O:如条款E至条款N中的任一者所述的系统,其中所述操作进一步包括:执行与所述第一音频信号相关联的任务;以及向所述第一具有语音功能的装置发送指令,所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。
条款P:一种系统,包括:一个或更多个处理器;以及存储器,所述存储器通信地耦合到所述一个或更多个处理器并且存储可执行指令,所述可执行指令在由所述一个或更多个处理器执行时致使所述一个或更多个处理器执行操作,所述操作包括:确定第一具有语音功能的装置和第二具有语音功能的装置在基本上相同的时间接收到音频输入;至少部分基于所述第一具有语音功能的装置的第一波束成形的音频信号的第一音频信号度量值和所述第二具有语音功能的装置的第二波束成形的音频信号的第二音频信号度量值来对所述第一具有语音功能的装置和所述第二具有语音功能的装置进行排名;选择所述第一具有语音功能的装置来继续处理所述音频输入;以及致使处理所述第一波束成形的音频信号。
条款Q:如条款P所述的系统,其中所述系统包括所述第一具有语音功能的装置,所述第一具有语音功能的装置进一步包括:包括多个麦克风的麦克风阵列,所述多个麦克风中的每一者被配置成确定所述音频输入的输入信号;其中所述操作进一步包括:至少部分基于来自所述多个麦克风的所述输入信号来确定多个波束成形的音频信号,针对相对于所述第一具有语音功能的装置的方向来确定所述多个波束成形的音频信号中的每一者,所述多个波束成形的音频信号包括所述第一波束成形的音频信号;以及确定所述第一音频信号度量值。
条款R:如条款P或条款Q所述的系统,其中所述操作进一步包括至少部分基于所述第一音频信号度量值而从所述多个波束成形的音频信号中选择所述第一波束成形的音频信号。
条款S:如条款P至条款R中的任一者所述的系统,其中所述操作进一步包括:识别所述第一波束成形的音频信号的第三音频信号度量值;其中进一步至少部分基于所述第三音频信号度量值来对所述第一具有语音功能的装置进行排名。
条款T:如条款P至条款S中的任一者所述的系统,其中所述操作进一步包括:确定多个音频信号度量值中的具有最高值的波束成形的音频信号度量值与具有最低值的波束成形的音频信号度量值之间的差,所述多个音频信号度量值中的每一者与由所述第一具有语音功能的装置确定的音频信号相关联;以及至少部分基于所述差,对所述第一音频信号度量值进行加权以产生经加权的第一音频信号度量值;其中至少部分基于所述经加权的第一音频信号度量值来对所述第一具有语音功能的装置进行排名。
结论
尽管已经用结构特征和/或方法动作特有的语言描述了实施方案,但应理解,本公开不一定受限于所描述的特定特征或动作。而是,本文将所述特定特征和动作公开为实施所述实施方案的说明形式。

Claims (33)

1.一种用于在两个具有语音功能的装置之间进行仲裁的系统,所述系统包括:
一个或更多个处理器;以及
存储器,所述存储器通信地耦合到所述一个或更多个处理器并且存储可执行指令,所述可执行指令在由所述一个或更多个处理器执行时致使所述一个或更多个处理器执行操作,所述操作包括:
识别与第一音频信号相关联的第一音频信号度量值,所述第一音频信号与第一具有语音功能的装置相关联;
识别与第二音频信号相关联的第二音频信号度量值,所述第二音频信号与第二具有语音功能的装置相关联;
确定所述第一具有语音功能的装置和所述第二具有语音功能的装置与同一用户账户相关联;
至少部分基于所述第一音频信号度量值和所述第二音频信号度量值来选择所述第一具有语音功能的装置;以及
处理所述第一音频信号。
2.如权利要求1所述的系统,其中所述操作进一步包括:
确定在彼此的阈值量时间内产生所述第一音频信号和所述第二音频信号。
3.如权利要求1或2所述的系统,其中所述操作进一步包括:
确定所述第一具有语音功能的装置和所述第二具有语音功能的装置位于彼此的预定距离内。
4.如权利要求1或2所述的系统,其中所述操作进一步包括:
确定所述第一音频信号和所述第二音频信号彼此具有阈值量的相似性。
5.如权利要求1或2所述的系统,其中所述操作进一步包括:
确定所述第一音频信号的第一辨识置信度得分和所述第二音频信号的第二辨识置信度得分各自高于阈值,所述第一辨识置信度得分指示在所述第一音频信号中准确地检测到字的置信水平,所述第二辨识置信度得分指示在所述第二音频信号中准确地检测到所述字或不同字的置信水平。
6.如权利要求1或2所述的系统,其中所述第一音频信号度量值包括以下之一:信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度或调和性。
7.如权利要求1或2所述的系统,其中所述第一音频信号度量值是多个音频信号度量值中最高的,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。
8.如权利要求1或2所述的系统,其中所述第一音频信号度量值包括多个音频信号度量值的平均音频信号度量值,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。
9.如权利要求1或2所述的系统,其中通过多个音频信号度量值中的具有最高值的音频信号度量值与具有最低值的音频信号度量值之间的差来对所述第一音频信号度量值进行加权,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的所述第一音频信号或不同的音频信号相关联。
10.如权利要求1或2所述的系统,其中所述操作进一步包括:
执行与所述第一音频信号相关联的任务;以及
向所述第一具有语音功能的装置发送指令,所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。
11.一种用于在两个具有语音功能的装置之间的仲裁中的方法,所述方法包括:
识别与第一音频信号相关联的第一音频信号度量值,所述第一音频信号与第一具有语音功能的装置相关联;
识别与第二音频信号相关联的第二音频信号度量值,所述第二音频信号与第二具有语音功能的装置相关联;
至少部分基于所述第一音频信号度量值和所述第二音频信号度量值:
处理所述第一音频信号并忽略所述第二音频信号;以及
响应于所述音频输入使所述第一具有语音功能的装置输出数据。
12.如权利要求11所述的方法,进一步包括:确定在彼此的阈值量时间内产生所述第一音频信号和所述第二音频信号。
13.如权利要求11或12所述的方法,进一步包括:确定所述第一具有语音功能的装置和所述第二具有语音功能的装置位于彼此的预定距离内。
14.如权利要求11或12所述的方法,进一步包括:确定所述第一具有语音功能的装置和所述第二具有语音功能的装置与同一用户账户相关联。
15.如权利要求11或12所述的方法,进一步包括:确定所述第一音频信号和所述第二音频信号彼此具有阈值量的相似性。
16.如权利要求11或12所述的方法,进一步包括:确定所述第一音频信号的第一辨识置信度得分和所述第二音频信号的第二辨识置信度得分各自高于阈值,所述第一辨识置信度得分指示在所述第一音频信号中准确地检测到字的置信水平,所述第二辨识置信度得分指示在所述第二音频信号中准确地检测到所述字或不同字的置信水平。
17.如权利要求11或12所述的方法,其中所述第一音频信号度量值包括以下之一:信噪比、频谱质心量度、话语能量水平、频谱通量、特定百分位频率、周期性、清晰度或调和性。
18.如权利要求11或12所述的方法,其中所述第一音频信号度量值是多个音频信号度量值中最高的,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。
19.如权利要求11或12所述的方法,其中所述第一音频信号度量值包括多个音频信号度量值的平均音频信号度量值,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的音频信号相关联。
20.如权利要求11或12所述的方法,其中通过多个音频信号度量值中的具有最高值的音频信号度量值与具有最低值的音频信号度量值之间的差来对所述第一音频信号度量值进行加权,所述多个音频信号度量值中的每一者与在所述第一具有语音功能的装置处确定的所述第一音频信号或不同的音频信号相关联。
21.如权利要求11或12所述的方法,进一步包括:
执行与所述第一音频信号相关联的任务;以及
向所述第一具有语音功能的装置发送指令,所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。
22.一种用于在两个具有语音功能的装置之间进行仲裁的系统,所述系统包括:
第一具有语音功能的装置,其具有第一扬声器和第一多个麦克风;
第二具有语音功能的装置,其具有第二扬声器和第二多个麦克风;远程服务器计算机,其包含一个或更多个处理器,所述一个或更多个处理器耦合至所述第一具有语音功能的装置和所述第二具有语音功能的装置;以及
存储器,所述存储器通信地耦合到所述一个或更多个处理器并且存储可执行指令,所述可执行指令在由所述一个或更多个处理器执行时致使所述一个或更多个处理器执行操作,所述操作包括:
确定第一具有语音功能的装置和第二具有语音功能的装置在基本上相同的时间接收到音频输入;
至少部分基于所述第一具有语音功能的装置的第一波束成形的音频信号的第一音频信号度量值和所述第二具有语音功能的装置的第二波束成形的音频信号的第二音频信号度量值来对所述第一具有语音功能的装置和所述第二具有语音功能的装置进行排名;
确定所述第一具有语音功能的装置排名高于所述第二具有语音功能的装置;
选择所述第一具有语音功能的装置以继续处理所述音频输入,并且忽略所述第二波束成形的音频信号;以及
致使处理所述第一波束成形的音频信号。
23.如权利要求22所述的系统,其中
所述第一多个麦克风中的每一者被配置成确定所述音频输入的输入信号;
其中所述操作进一步包括:
至少部分基于来自所述第一多个麦克风的所述输入信号来确定多个波束成形的音频信号,针对相对于所述第一具有语音功能的装置的方向来确定所述多个波束成形的音频信号中的每一者,所述多个波束成形的音频信号包括所述第一波束成形的音频信号;以及
确定所述第一音频信号度量值。
24.如权利要求23所述的系统,其中所述操作进一步包括:
至少部分基于所述第一音频信号度量值而从所述多个波束成形的音频信号中选择所述第一波束成形的音频信号;以及
识别所述第一波束成形的音频信号的第三音频信号度量值;
其中进一步至少部分基于所述第三音频信号度量值来对所述第一具有语音功能的装置进行排名。
25.如权利要求22至24中任一项所述的系统,其中所述操作进一步包括:
确定多个音频信号度量值中的具有最高值的波束成形的音频信号度量值与具有最低值的波束成形的音频信号度量值之间的差,所述多个音频信号度量值中的每一者与由所述第一具有语音功能的装置确定的音频信号相关联;以及
至少部分基于所述差,对所述第一音频信号度量值进行加权以产生经加权的第一音频信号度量值;
其中至少部分基于所述经加权的第一音频信号度量值来对所述第一具有语音功能的装置进行排名。
26.一种用于在两个具有语音功能的装置之间的仲裁中的方法,所述方法包括:
确定第一具有语音功能的装置和第二具有语音功能的装置在基本上相同的时间接收到音频输入;
确定对应于所述音频输入的第一波束成形的信号,所述第一波束成形的信号具有第一音频度量值;
确定对应于所述音频输入的第二波束成形的信号,所述第二波束成形的信号具有第二音频度量值;
至少部分基于所述第一具有语音功能的装置的第一波束成形的音频信号的第一音频信号度量值和所述第二具有语音功能的装置的第二波束成形的音频信号的第二音频信号度量值来对所述第一具有语音功能的装置和所述第二具有语音功能的装置进行排名;
选择所述第一具有语音功能的装置以继续处理所述音频输入,并且忽略所述第二波束成形的音频信号;以及
致使处理所述第一波束成形的音频信号。
27.如权利要求26所述的方法,其中所述第一具有语音功能的装置包括:包括多个麦克风的麦克风阵列,所述多个麦克风中的每一者被配置成确定所述音频输入的输入信号,其中所述方法进一步包括:
至少部分基于来自所述多个麦克风的所述输入信号来确定多个波束成形的音频信号,针对相对于所述第一具有语音功能的装置的方向来确定所述多个波束成形的音频信号中的每一者,所述多个波束成形的音频信号包括所述第一波束成形的音频信号;以及
确定所述第一音频信号度量值。
28.如权利要求27所述的方法,进一步包括:
至少部分基于所述第一音频信号度量值而从所述多个波束成形的音频信号中选择所述第一波束成形的音频信号;以及
识别所述第一波束成形的音频信号的第三音频信号度量值;
其中进一步至少部分基于所述第三音频信号度量值来对所述第一具有语音功能的装置进行排名。
29.如权利要求26至28中任一项所述的方法,进一步包括:
确定多个音频信号度量值中的具有最高值的波束成形的音频信号度量值与具有最低值的波束成形的音频信号度量值之间的差,所述多个音频信号度量值中的每一者与由所述第一具有语音功能的装置确定的音频信号相关联;以及
至少部分基于所述差,对所述第一音频信号度量值进行加权以产生经加权的第一音频信号度量值;
其中至少部分基于所述经加权的第一音频信号度量值来对所述第一具有语音功能的装置进行排名。
30.一种用于在两个具有语音功能的装置之间的仲裁中的方法,所述方法包括:
由计算装置确定第一具有语音功能的装置和第二具有语音功能的装置在基本上相同的时间接收到音频输入;
由所述计算装置从所述第一具有语音功能的装置接收指示与第一波束成形的音频信号相关联的信噪比的第一音频信号度量值,已经在所述第一具有语音功能的装置处确定了在所述第一具有语音功能的装置处接收的所述音频输入的所述第一波束成形的音频信号,针对相对于所述第一具有语音功能的装置的方向来确定所述第一波束成形的音频信号;
由所述计算装置从所述第二具有语音功能的装置接收指示与第二波束成形的音频信号相关联的信噪比的第二音频信号度量值,已经在所述第二具有语音功能的装置处确定了在所述第二具有语音功能的装置处接收的所述音频输入的所述第二波束成形的音频信号,针对相对于所述第二具有语音功能的装置的方向来确定所述第二波束成形的音频信号;
由所述计算装置确定与所述第一波束成形的音频信号相关联的所述信噪比大于与所述第二波束成形的音频信号相关联的所述信噪比;
由所述计算装置使用一种或多种话音辨识技术来处理所述第一波束成形的音频信号;
由所述计算装置执行与所述音频输入相关联的任务;以及
由所述计算装置向所述第一具有语音功能的装置发送指令,所述指令请求所述第一具有语音功能的装置输出已经完成所述任务的指示。
31.如权利要求30所述的方法,其中所述第一音频信号度量值的信噪比是多个不同的波束成形的音频信号的最大的信噪比,所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号,已经在所述第一具有语音功能的装置处确定了所述多个不同的波束成形的音频信号中的每一者。
32.如权利要求30或31所述的方法,其中所述第一音频信号度量值的信噪比是多个不同的波束成形的音频信号的平均信噪比,所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号,已经在所述第一具有语音功能的装置处确定了所述多个波束成形的音频信号中的每一者。
33.如权利要求30或31所述的方法,其中由多个不同的波束成形的音频信号的具有最高值的信噪比与具有最低值的信噪比之间的差对所述第一音频信号度量值的信噪比进行加权,所述多个不同的波束成形的音频信号包括所述第一波束成形的音频信号,已经在所述第一具有语音功能的装置处确定了所述多个不同的波束成形的音频信号中的每一者。
CN201680049580.0A 2015-09-11 2016-09-08 用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统 Active CN107924681B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/852,022 US10026399B2 (en) 2015-09-11 2015-09-11 Arbitration between voice-enabled devices
US14/852,022 2015-09-11
PCT/US2016/050784 WO2017044629A1 (en) 2015-09-11 2016-09-08 Arbitration between voice-enabled devices

Publications (2)

Publication Number Publication Date
CN107924681A CN107924681A (zh) 2018-04-17
CN107924681B true CN107924681B (zh) 2022-05-17

Family

ID=56940440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680049580.0A Active CN107924681B (zh) 2015-09-11 2016-09-08 用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统

Country Status (7)

Country Link
US (1) US10026399B2 (zh)
EP (1) EP3347894B1 (zh)
JP (1) JP6640993B2 (zh)
KR (1) KR102089485B1 (zh)
CN (1) CN107924681B (zh)
CA (1) CA2997934C (zh)
WO (1) WO2017044629A1 (zh)

Families Citing this family (292)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9432769B1 (en) 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
BR112017021673B1 (pt) 2015-04-10 2023-02-14 Honor Device Co., Ltd Método de controle de voz, meio não-transitório legível por computador e terminal
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US11587559B2 (en) * 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947323B2 (en) * 2016-04-01 2018-04-17 Intel Corporation Synthetic oversampling to enhance speaker identification or verification
KR20170132622A (ko) * 2016-05-24 2017-12-04 삼성전자주식회사 음성 인식 기능을 갖는 전자 장치 및 전자 장치의 동작 방법
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
KR102241970B1 (ko) 2016-11-07 2021-04-20 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
WO2018091650A1 (en) * 2016-11-21 2018-05-24 Harman Becker Automotive Systems Gmbh Beamsteering
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10264358B2 (en) 2017-02-15 2019-04-16 Amazon Technologies, Inc. Selection of master device for synchronized audio
US10839795B2 (en) * 2017-02-15 2020-11-17 Amazon Technologies, Inc. Implicit target selection for multiple audio playback devices in an environment
US10621980B2 (en) * 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN107154265A (zh) * 2017-03-30 2017-09-12 联想(北京)有限公司 一种采集控制方法及电子设备
US10825471B2 (en) * 2017-04-05 2020-11-03 Avago Technologies International Sales Pte. Limited Voice energy detection
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) * 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10665232B2 (en) * 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10069976B1 (en) * 2017-06-13 2018-09-04 Harman International Industries, Incorporated Voice agent forwarding
US10636428B2 (en) 2017-06-29 2020-04-28 Microsoft Technology Licensing, Llc Determining a target device for voice command interaction
US10360909B2 (en) * 2017-07-27 2019-07-23 Intel Corporation Natural machine conversing method and apparatus
US11205421B2 (en) * 2017-07-28 2021-12-21 Cerence Operating Company Selection system and method
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
EP3447768A1 (en) * 2017-08-21 2019-02-27 Vestel Elektronik Sanayi ve Ticaret A.S. Method of transferring a call, user device and a computer program
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10224033B1 (en) * 2017-09-05 2019-03-05 Motorola Solutions, Inc. Associating a user voice query with head direction
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
KR20190033384A (ko) * 2017-09-21 2019-03-29 삼성전자주식회사 사용자 발화를 처리하기 위한 전자 장치 및 그 전자 장치의 제어 방법
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
WO2019059939A1 (en) * 2017-09-25 2019-03-28 Bose Corporation SPEECH TREATMENT FROM DISTRIBUTED MICROPHONES
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
EP3467819B1 (en) * 2017-10-05 2024-06-12 Harman Becker Automotive Systems GmbH Apparatus and method using multiple voice command devices
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
KR102517219B1 (ko) 2017-11-23 2023-04-03 삼성전자주식회사 전자장치 및 그 제어방법
EP3493200B1 (en) * 2017-11-30 2023-07-26 Vestel Elektronik Sanayi ve Ticaret A.S. Voice-controllable device and method of voice control
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
CN110741338B (zh) 2017-12-08 2023-06-16 谷歌有限责任公司 使设备与环境中的多个设备隔离以响应口头助理调用
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10536287B1 (en) 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10374816B1 (en) * 2017-12-13 2019-08-06 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10536286B1 (en) * 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10536288B1 (en) * 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11145298B2 (en) * 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10762900B2 (en) * 2018-03-07 2020-09-01 Microsoft Technology Licensing, Llc Identification and processing of commands by digital assistants in group device environments
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
CN108510987B (zh) * 2018-03-26 2020-10-23 北京小米移动软件有限公司 语音处理方法及装置
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10679629B2 (en) 2018-04-09 2020-06-09 Amazon Technologies, Inc. Device arbitration by multiple speech processing systems
US11145299B2 (en) * 2018-04-19 2021-10-12 X Development Llc Managing voice interface devices
DE102018110759A1 (de) 2018-05-04 2019-11-07 Sennheiser Electronic Gmbh & Co. Kg Mikrofonarray
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10607610B2 (en) 2018-05-29 2020-03-31 Nortek Security & Control Llc Audio firewall
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10714085B2 (en) 2018-06-06 2020-07-14 Amazon Technologies, Inc. Temporary account association with voice-enabled devices
EP3776300A4 (en) * 2018-06-06 2022-04-27 Amazon Technologies Inc. TEMPORARY ACCOUNT ASSIGNMENT WITH VOICE-ACTIVATED DEVICES
US10847153B2 (en) 2018-06-06 2020-11-24 Amazon Technologies, Inc. Temporary account association with voice-enabled devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
NO20181210A1 (en) * 2018-08-31 2020-03-02 Elliptic Laboratories As Voice assistant
US11076018B1 (en) * 2018-09-04 2021-07-27 Amazon Technologies, Inc. Account association for voice-enabled devices
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11315553B2 (en) * 2018-09-20 2022-04-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US10878812B1 (en) * 2018-09-26 2020-12-29 Amazon Technologies, Inc. Determining devices to respond to user requests
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100926B2 (en) 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
WO2020085794A1 (en) * 2018-10-23 2020-04-30 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
KR20200052804A (ko) 2018-10-23 2020-05-15 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR20200047311A (ko) * 2018-10-24 2020-05-07 삼성전자주식회사 복수의 장치들이 있는 환경에서의 음성 인식 방법 및 장치
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
KR102051016B1 (ko) * 2018-11-27 2019-12-02 오아 주식회사 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법
KR102051011B1 (ko) * 2018-11-27 2019-12-02 오아 주식회사 학습 기반 음성 인식 단말을 제어하는 서버 및 제어 방법
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074680A (ko) 2018-12-17 2020-06-25 삼성전자주식회사 단말 장치 및 이의 제어 방법
US10811032B2 (en) * 2018-12-19 2020-10-20 Cirrus Logic, Inc. Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11503422B2 (en) 2019-01-22 2022-11-15 Harman International Industries, Incorporated Mapping virtual sound sources to physical speakers in extended reality applications
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11170799B2 (en) * 2019-02-13 2021-11-09 Harman International Industries, Incorporated Nonlinear noise reduction system
US11417323B2 (en) 2019-02-27 2022-08-16 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
KR20200109140A (ko) * 2019-03-12 2020-09-22 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11938820B2 (en) 2019-04-09 2024-03-26 Harman International Industries, Incorporated Voice control of vehicle systems
CN111862988B (zh) * 2019-04-26 2023-03-03 广东美的白色家电技术创新中心有限公司 语音识别设备及其唤醒响应方法、计算机存储介质
US11120794B2 (en) * 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
KR20200132613A (ko) 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11056114B2 (en) 2019-05-30 2021-07-06 International Business Machines Corporation Voice response interfacing with multiple smart devices of different types
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
KR102228549B1 (ko) 2019-06-11 2021-03-16 엘지전자 주식회사 음성 인에이블 디바이스 선택 방법, 음성 인에이블 디바이스 선택 장치 및 이를 제어하는 지능형 컴퓨팅 디바이스
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
KR102246661B1 (ko) * 2019-06-25 2021-05-03 엘지전자 주식회사 음성 인에이블 디바이스 선택 방법 및 장치
EP4004907B1 (en) * 2019-07-30 2023-07-12 Dolby Laboratories Licensing Corporation Multi-device wakeword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110517676A (zh) * 2019-08-21 2019-11-29 Oppo广东移动通信有限公司 一种语音唤醒方法及终端、服务器、存储介质
CN110364161A (zh) 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
CN110517682B (zh) * 2019-09-02 2022-08-30 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN110718219B (zh) 2019-09-12 2022-07-22 百度在线网络技术(北京)有限公司 一种语音处理方法、装置、设备和计算机存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110890092B (zh) * 2019-11-07 2022-08-05 北京小米移动软件有限公司 唤醒控制方法及装置、计算机存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
CN113345421B (zh) * 2020-02-18 2022-08-02 中国科学院声学研究所 一种基于角度谱特征的多通道远场的目标语音识别方法
US11538483B2 (en) * 2020-03-25 2022-12-27 Vmware, Inc. Task redirection by a voice assistant
CN111540350B (zh) * 2020-03-31 2024-03-01 北京小米移动软件有限公司 一种智能语音控制设备的控制方法、装置及存储介质
CN111640431B (zh) * 2020-04-30 2023-10-27 海尔优家智能科技(北京)有限公司 一种设备响应处理方法及装置
KR20210136463A (ko) * 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
US11810578B2 (en) * 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11393473B1 (en) * 2020-05-18 2022-07-19 Amazon Technologies, Inc. Device arbitration using audio characteristics
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
KR20210147678A (ko) * 2020-05-29 2021-12-07 엘지전자 주식회사 인공 지능 장치
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
KR20220034571A (ko) * 2020-09-11 2022-03-18 삼성전자주식회사 음성에 포함된 커맨드를 확인하는 전자 장치와 이의 동작 방법
KR20220049778A (ko) 2020-10-15 2022-04-22 주식회사 케이티 복수의 음성 인식 단말을 이용하여 음성 인식 서비스를 제공하는 서버, 음성 인식 단말 및 방법
EP4216211A4 (en) * 2020-10-30 2024-03-27 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND CONTROL METHOD THEREOF
US11915697B2 (en) * 2020-11-11 2024-02-27 Samsung Electronics Co., Ltd. Electronic device, system and control method thereof
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
JP7154335B2 (ja) * 2021-03-18 2022-10-17 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US11915708B2 (en) * 2021-03-18 2024-02-27 Samsung Electronics Co., Ltd. Methods and systems for invoking a user-intended internet of things (IoT) device from a plurality of IoT devices
US11861315B2 (en) 2021-04-21 2024-01-02 Meta Platforms, Inc. Continuous learning for natural-language understanding models for assistant systems
US20220358917A1 (en) * 2021-04-21 2022-11-10 Meta Platforms, Inc. Multi-device Mediation for Assistant Systems
US20220366170A1 (en) * 2021-04-21 2022-11-17 Meta Platforms, Inc. Auto-Capture of Interesting Moments by Assistant Systems
DE202022101069U1 (de) 2022-02-24 2022-03-23 Pankaj Agarwal Intelligentes Geräuscherkennungssystem auf der Grundlage der Verarbeitung mehrerer Geräusche durch künstliche Intelligenz

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1281576A (zh) * 1997-12-08 2001-01-24 三菱电机株式会社 声音信号加工方法和声音信号加工装置
CN1842842A (zh) * 2003-08-29 2006-10-04 松下电器产业株式会社 一种根据辅助信息提高语音识别的方法和设备
JP4086280B2 (ja) * 2002-01-29 2008-05-14 株式会社東芝 音声入力システム、音声入力方法及び音声入力プログラム
CN103002171A (zh) * 2011-09-30 2013-03-27 斯凯普公司 处理音频信号

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57124626A (en) * 1981-01-23 1982-08-03 Toshiba Corp Cooker
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
JP4821489B2 (ja) * 2006-08-04 2011-11-24 トヨタ自動車株式会社 ロボット装置及びロボット装置の制御方法
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8831944B2 (en) * 2009-12-15 2014-09-09 At&T Intellectual Property I, L.P. System and method for tightly coupling automatic speech recognition and search
JP5411807B2 (ja) * 2010-05-25 2014-02-12 日本電信電話株式会社 チャネル統合方法、チャネル統合装置、プログラム
US20130073293A1 (en) 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
US9093076B2 (en) 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9542947B2 (en) * 2013-03-12 2017-01-10 Google Technology Holdings LLC Method and apparatus including parallell processes for voice recognition
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
DE102014109121B4 (de) 2013-07-10 2023-05-04 Gm Global Technology Operations, Llc Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
US9432769B1 (en) * 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1281576A (zh) * 1997-12-08 2001-01-24 三菱电机株式会社 声音信号加工方法和声音信号加工装置
JP4086280B2 (ja) * 2002-01-29 2008-05-14 株式会社東芝 音声入力システム、音声入力方法及び音声入力プログラム
CN1842842A (zh) * 2003-08-29 2006-10-04 松下电器产业株式会社 一种根据辅助信息提高语音识别的方法和设备
CN103002171A (zh) * 2011-09-30 2013-03-27 斯凯普公司 处理音频信号

Also Published As

Publication number Publication date
KR102089485B1 (ko) 2020-03-17
JP6640993B2 (ja) 2020-02-05
EP3347894A1 (en) 2018-07-18
EP3347894B1 (en) 2020-04-08
US10026399B2 (en) 2018-07-17
KR20180039135A (ko) 2018-04-17
CA2997934C (en) 2021-03-23
CA2997934A1 (en) 2017-03-16
WO2017044629A1 (en) 2017-03-16
US20170076720A1 (en) 2017-03-16
JP2018532151A (ja) 2018-11-01
CN107924681A (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
CN107924681B (zh) 用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统
US11568867B2 (en) Detecting self-generated wake expressions
US11289087B2 (en) Context-based device arbitration
US11138977B1 (en) Determining device groups
CN108351872B (zh) 用于响应用户语音的方法和系统
JP2021086154A (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US9685171B1 (en) Multiple-stage adaptive filtering of audio signals
US11218802B1 (en) Beamformer rotation
CN108922553B (zh) 用于音箱设备的波达方向估计方法及系统
Guo et al. Localising speech, footsteps and other sounds using resource-constrained devices
US10878812B1 (en) Determining devices to respond to user requests
US20150088497A1 (en) Speech processing apparatus, speech processing method, and speech processing program
US11792570B1 (en) Parallel noise suppression
CN111951829B (zh) 基于时域单元的声源定位方法、装置及系统
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
WO2020054406A1 (ja) 連続発話推定装置、連続発話推定方法、およびプログラム
CN114325585A (zh) 声源定位方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant