CN116783900A - 基于子带域声学回声消除器的声学状态估计器 - Google Patents

基于子带域声学回声消除器的声学状态估计器 Download PDF

Info

Publication number
CN116783900A
CN116783900A CN202180092511.9A CN202180092511A CN116783900A CN 116783900 A CN116783900 A CN 116783900A CN 202180092511 A CN202180092511 A CN 202180092511A CN 116783900 A CN116783900 A CN 116783900A
Authority
CN
China
Prior art keywords
audio
adaptive filter
adaptive
examples
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180092511.9A
Other languages
English (en)
Inventor
B·J·索斯韦尔
D·古纳万
C·G·海因斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority claimed from PCT/US2021/061661 external-priority patent/WO2022120085A1/en
Publication of CN116783900A publication Critical patent/CN116783900A/zh
Pending legal-status Critical Current

Links

Abstract

一些实施方式涉及从音频环境中的第一音频设备的第一子带域声学回声消除器(AEC)接收来自多个第一自适应滤波器管理模块中的每一个的第一自适应滤波器管理数据,每个第一自适应滤波器管理模块对应于第一子带域AEC的一个子带,每个第一自适应滤波器管理模块被配置成控制第一多个自适应滤波器。所述第一多个自适应滤波器可以至少包括第一自适应滤波器类型和第二自适应滤波器类型。一些实施方式涉及从所述第一自适应滤波器管理数据中提取与所述第一子带域AEC的多个子带相对应的第一多个提取的特征,并且至少部分地基于所述第一多个提取的特征来估计当前局部声学状态。

Description

基于子带域声学回声消除器的声学状态估计器
相关申请的交叉引用
本申请要求以下申请的优先权:于2020年12月03日提交的美国临时申请63/120,824、于2021年3月16日提交的美国临时申请63/200,590以及于2021年3月25日提交的欧洲专利申请号21164808.4,所述申请中的每一个通过援引以其全文并入本文。
技术领域
本公开涉及用于实施声学回声消除器的系统和方法。
背景技术
具有声学回声消除器的音频设备和系统被广泛使用。尽管用于实施声学回声消除器的现有系统和方法提供了益处,但改进的系统和方法将仍是期望的。
符号和术语
贯穿本公开,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示由单个扬声器馈送驱动的任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如,低音扬声器和高音扬声器),所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。
贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据执行操作的表达(例如,对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如,在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。
贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,所述子系统生成M个输入,而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。
贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如,用软件或固件)为对数据(例如,音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
贯穿本公开,包括在权利要求中,术语“耦接”或“被耦接”用于意指直接或间接连接。因此,如果第一设备耦接到第二设备,则所述连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。
如本文所使用的,“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备,其通常被配置用于经由各种无线协议诸如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以是指展现出普适计算诸如人工智能的一些性质的设备。
在本文中,使用表达“智能音频设备”来表示智能设备,其是单一用途音频设备或多用途音频设备(例如,实施虚拟助理功能的至少一些方面的音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如,电视(TV))。例如,尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频,但在大多数实例中,现代TV运行某种操作系统,应用程序(包括看电视的应用程序)在所述操作系统上本地运行。从这个意义上说,具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置成运行本地应用程序和/或服务以直接使用所述(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置成组合在一起以实现在一定区或用户配置区域上播放音频。
一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备,尽管虚拟助理功能的其他方面可以由一个或多个其他设备诸如一个或多个服务器来实施,多用途音频设备被配置用于与所述一个或多个服务器通信。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如,智能扬声器或语音助理集成设备)。在一些示例中,虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换言之,虚拟助理功能的至少一些方面(例如,言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施,虚拟助理可以经由网络(如因特网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作,例如,以离散和有条件地定义的方式。例如,两个或更多个虚拟助理可以在其中之一(例如,最确信已经听到唤醒词的虚拟助理)对唤醒词做出响应的意义上一起工作。在一些实施方式中,连接的虚拟助理可以形成一种星座,所述星座可以由一个主应用程序管理,所述主应用程序可以是(或实施)虚拟助理。
在本文中,“唤醒词”在广义上用于表示任何声音(例如,人类说出的词或其他声音),其中智能音频设备被配置成响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到所述智能音频设备的至少一个麦克风,或至少一个其他麦克风)而唤醒。在该上下文中,“唤醒”表示设备进入等待(换言之,正在收听)声音命令的状态。在一些实例中,本文中所谓的“唤醒词”可以包括超过一个词,例如,短语。
在本文中,表达“唤醒词检测器”表示被配置成连续搜索实时声音(例如,言语)特征与训练模型之间的对齐的设备(或表示包括用于将设备配置成连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常,每当唤醒词检测器确定检测到唤醒词的概率超过预定义阈值,就会触发唤醒词事件。例如,所述阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后,设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态),在所述状态下设备会收听命令并且将接收到的命令传递给更大、计算更密集的识别器。
如本文所使用的,术语“节目流”和“内容流”是指一个或多个音频信号的集合,并且在一些实例中是指视频信号的集合,所述信号集合的至少部分是旨在要一起听到的。示例包括音乐、电影原声音乐、电影、电视节目、电视节目的音频部分、播客、实时语音通话、来自智能助理的合成语音响应等的选择。在一些实例中,内容流可以包括音频信号的至少一部分的多个版本,例如,多于一种语言的相同对话。在这样的实例中,一次旨在再现音频数据或其部分的仅一个版本(例如,与单一语言相对应的版本)。
发明内容
本公开的至少一些方面可以经由一种或多种音频处理方法来实施。在一些实例中,(多种)方法可以至少部分地由控制系统和/或经由存储在一个或多个非暂态介质上的指令(例如,软件)来实施。一些这样的方法涉及例如由控制系统从音频环境中的第一音频设备的第一子带域声学回声消除器(AEC)接收来自多个第一自适应滤波器管理模块中的每一个的第一自适应滤波器管理数据。所述多个第一自适应滤波器管理模块中的每个第一自适应滤波器管理模块可以对应于所述第一子带域AEC的一个子带。每个第一自适应滤波器管理模块可以被配置成控制第一多个自适应滤波器。所述第一多个自适应滤波器可以至少包括第一自适应滤波器类型和第二自适应滤波器类型。
一些这样的方法包括例如由控制系统从第一自适应滤波器管理数据中提取第一多个提取的特征。所述第一多个提取的特征可以对应于所述第一子带域AEC的多个子带。一些这样的方法包括例如由控制系统至少部分地基于所述第一多个提取的特征来估计第一音频设备附近的当前局部声学状态。
在一些示例中,所述方法可以涉及至少部分地基于所述当前局部声学状态来控制一种或多种类型的音频处理。控制一种或多种类型的音频处理可以例如涉及控制对要在音频环境中再现的音频数据的音频处理。在一些实例中,控制一种或多种类型的音频处理可以涉及控制自动言语识别处理。控制一种或多种类型的音频处理可以例如涉及控制噪声补偿处理。例如,控制一种或多种类型的音频处理可以涉及控制第一子带域AEC。
根据一些示例,当前局部声学状态可以是或者可以包括言语和再现的音频数据都存在于第一音频设备附近的双端通话状态。可替代地或另外地,当前局部声学状态是或者可以包括第一音频设备附近的回声路径改变。在一些实例中,当前局部声学状态可以包括以下中各项的一项或多项:第一音频设备的位置的改变;第一音频设备的一个或多个设置的改变;包括第一音频设备的音频系统的配置的改变;回放音频的水平;和/或背景噪声的水平。
在一些实例中,所述方法可以涉及从音频环境中的第二至第N音频设备的第二至第N子带域AEC接收来自第二至第N多个自适应滤波器管理模块中的每一个的第二至第N自适应滤波器管理数据,N是大于2的整数。在一些这样的示例中,第二至第N多个自适应滤波器管理模块中的每一个可以对应于第二至第N音频设备之一。在一些这样的示例中,所述方法可以涉及从所述第二至第N自适应滤波器管理数据中提取第二至第N多个提取的特征。在一些这样的示例中,所述方法可以涉及至少部分地基于所述第一多个提取的特征和所述第二至第N多个提取的特征来估计所述音频环境中的当前全局声学状态。
一些这样的方法可以涉及至少部分地基于所述当前全局声学状态来控制一种或多种类型的音频处理。根据一些这样的示例,至少部分地基于当前全局声学状态来控制音频数据的一种或多种类型的音频处理可以涉及控制要在音频环境中再现的音频数据的一种或多种类型的音频处理。在一些这样的示例中,当前全局声学状态可以包括多人处于音频环境中的聚会状态。根据一些这样的示例,控制音频数据的渲染方式涉及使得音频数据根据分布式渲染模式被渲染。
根据一些示例,第一多个提取的特征可以包括所述第一自适应滤波器类型的第一滤波器系数被复制到所述第二自适应滤波器类型的自适应滤波器中的速率,和/或所述第二自适应滤波器类型的第二滤波器系数被复制到所述第一自适应滤波器类型的自适应滤波器中的速率。
在一些示例中,第一多个提取的特征可以包括以下各项中的一项或多项:所述第一自适应滤波器类型在某一时间间隔期间产生最低残差功率的概率;所述第二自适应滤波器类型在所述时间间隔期间产生最低残差功率的概率;输入麦克风功率在所述时间间隔期间低于经由所述第一自适应滤波器类型产生的第一残差或经由所述第二自适应滤波器类型产生的第二残差的概率;所述第一自适应滤波器类型在多个子带中产生最低残差功率的概率;所述第二自适应滤波器类型在所述多个子带中产生最低残差功率的概率;输入麦克风功率在所述多个子带中低于经由所述第一自适应滤波器类型产生的第一残差或经由所述第二自适应滤波器类型产生的第二残差的概率。
根据一些示例,第一自适应滤波器类型可以比第二自适应滤波器类型相对更积极。在一些示例中,第一自适应滤波器类型可以是线性自适应滤波器类型,而第二自适应滤波器类型可以是非线性自适应滤波器类型。在一些实例中,第一自适应滤波器类型可以是主自适应滤波器,而第二自适应滤波器类型可以是阴影自适应滤波器。根据一些示例,第一自适应滤波器和第二自适应滤波器可以通过不同的自适应滤波算法进行更新。在一些示例中,第一自适应滤波器可以包括比第二自适应滤波器更大数值的自适应滤波器系数值。
在一些实施方式中,第一自适应滤波器管理数据不包括单独的滤波器系数值。在一些实例中,第一自适应滤波器管理数据不包括第一子带域AEC的残差输出。
在一些示例中,第一多个自适应滤波器可以至少包括第一至第M自适应滤波器类型,M是3或更大的整数。根据一些这样的示例,第一多个提取的特征可以包括以下各项中的一项或多项:第M自适应滤波器类型产生最低残差功率的概率;第二至第(M-1)自适应滤波器类型中的任一种产生最低残差功率的概率;输入麦克风功率低于经由第一至第M自适应滤波器类型中的任一种产生的残差的概率;以及所述第一至第M自适应滤波器类型中的任一种的滤波器系数被复制到所述第一至第M自适应滤波器类型中的任何其他自适应滤波器类型的自适应滤波器中的速率。
本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此,可以经由其上存储有软件的一种或多种非暂态介质来实施本公开中描述的主题的一些创新方面。
本公开的至少一些方面可以经由装置来实施。例如,一个或多个设备(例如,包括一个或多个设备的系统)可以能够至少部分地执行本文公开的方法。在一些实施方式中,装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。控制系统可以被配置用于实施一些或所有本文公开的方法。
在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中,其他特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不是按比例来绘制的。
附图说明
在各个附图中,相似的附图标记和名称指示相似的元件。
图1A示出了音频环境的示例。
图1B是示出了能够实施本公开的各个方面的装置的部件的示例的框图。
图2是表示根据一个示例的音频设备的部件的系统框图。
图3示出了图2所示的一个多声道回声消除器(MC-AEC)的示例块。
图4示出了图3所示的子带AEC之一的块的示例。
图5示出了根据一个示例的局部状态估计器的示例块。
图6示出了根据一个示例的全局状态估计器的示例块。
图7A、图7B、图7C、图7D和图7E是示出了在五种不同类型的局部声学状态期间从同一MC-AEC获得的五个提取的特征向量的示例图的曲线图。
图8A和图8B示出了根据一些示例的与线性分类器的验证相关的曲线图。
图9示出了深度神经网络的简单示例,其包含被配置成利用特征向量x中的时间信息的循环神经网络。
图10是概述所公开方法的一个示例的流程图。
图11是被配置成实施区分类器的实施例的一个示例的元件的框图。
图12是示出了根据一些实施方式的注意力表达特征的示例的框图。
图13是根据实施方式的在环境(例如,家庭)中实施的系统的框图。
图14示出了音频环境的平面图的示例,所述音频环境在该示例中是生活空间。
具体实施方式
出于性能和成本的原因,声学回声消除器(AEC)通常在子带域中实施。子带域AEC(本文中也可以被称为多声道AEC或MC-AEC)通常包括用于多个子带中的每一个的子带AEC。此外,还出于实际原因,每个子带AEC通常运行多个自适应滤波器,每个自适应滤波器在不同的声学条件下都是最佳的。多个自适应滤波器由根据试探法操作的自适应滤波器管理模块控制,使得总体上子带AEC可以具有每个滤波器的最佳特性。
因此,自适应滤波器管理模块的动作和隐藏状态以及各个自适应滤波器本身的实际输出包含关于MC-AEC在其中操作的音频环境的声学条件的隐含信息。一些公开的实施方式利用该隐含信息来提供以前不可用的功能。例如,在一些公开的实施方式中,从多个子带AEC中的每一个中提取的各个度量、观察结果和/或特征的集合可以作为输入提供给声学状态估计器。
图1A示出了音频环境的示例。与本文提供的其他图一样,图1A所示的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。
根据该示例,音频环境100包括音频设备110A、110B、110C和110D。在该示例中,每个音频设备110A-110D包括麦克风120A、120B、120C和120D中的相应麦克风以及扩音器121A、121B、121C和121D中的相应扩音器。根据一些示例,每个音频设备110A-110D可以是智能音频设备,如智能扬声器。
根据该示例,音频环境100中正在发生多个声学事件。在该示例中,一个声学事件由正在音频设备110C附近说话的说话人101引起。元素102旨在表示说话人101的言语。
在该示例中,另一个声学事件至少部分地由可变元件103引起。此处,可变元件103是音频环境100的门。根据该示例,随着门103打开,来自环境之外的声音105可以在音频环境100内部被更清楚地感知。此外,门103的变化角度改变了音频环境100内的一些回声路径。根据该示例,元件104表示由门103的变化位置引起的音频环境100的脉冲响应的可变元件。
根据该示例,另一个声学事件由行走的人106朝向音频设备110D的移动107引起。在该示例中,元件108表示由行走的人106朝向音频设备110D的移动107引起的音频环境100的脉冲响应的可变元件。
一些公开的实施方式被配置成至少部分地基于从音频设备正在实施的MC-AEC的自适应滤波器管理数据中提取的特征来估计音频设备附近的当前局部声学状态(和/或在一些实施方式中,音频环境的当前全局声学状态)。一些公开的实施方式被配置成至少部分地基于从在音频环境100中对应的多个音频设备上运行的多个MC-AEC中的每一个的自适应滤波器管理数据中提取的特征来估计音频环境100的当前全局声学状态。下文详细描述了各种示例。
图1B是示出了能够实施本公开的各个方面的装置的部件的示例的框图。与本文提供的其他图一样,图1B所示的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。根据一些示例,装置150可以被配置用于执行本文公开的方法中的至少一些方法。在一些实施方式中,装置150可以是或者可以包括音频系统的一个或多个部件。例如,在一些实施方式中,装置150可以是音频设备,如智能音频设备。在其他示例中,装置150可以是移动设备(如蜂窝电话)、膝上型计算机、平板计算机设备、电视或其他类型的设备。
根据一些替代性实施方式,装置150可以是或者可以包括服务器。在一些这样的示例中,装置150可以是或者可以包括编码器。因此,在一些实例中,装置150可以是被配置用于在如家庭音频环境的音频环境内使用的设备,然而在其他实例中,装置150可以是被配置用于在“云”中使用的设备,例如,服务器。
在该示例中,装置150包括接口系统155和控制系统160。在一些实施方式中,接口系统155可以被配置用于与音频环境的一个或多个其他设备通信。在一些示例中,音频环境可以是家庭音频环境。在其他示例中,音频环境可以是另一种类型的环境,如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实施方式中,接口系统155可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中,控制信息和相关联的数据可以与装置150正执行的一个或多个软件应用程序有关。
在一些实施方式中,接口系统155可以被配置用于接收内容流或用于提供内容流。内容流可以包括音频数据。音频数据可以包括但可以不限于音频信号。在一些实例中,音频数据可以包括空间数据诸如声道数据和/或空间元数据。元数据例如可以由本文中可以被称为“编码器”的设备提供。在一些示例中,内容流可以包括视频数据和与视频数据相对应的音频数据。
接口系统155可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式,接口系统155可以包括一个或多个无线接口。接口系统155可以包括用于实施用户接口的一个或多个设备,如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中,接口系统155可以包括控制系统160与存储器系统(如图1B所示的可选存储器系统165)之间的一个或多个接口。然而,在一些实例中,控制系统160可以包括存储器系统。在一些实施方式中,接口系统155可以被配置用于从环境中的一个或多个麦克风接收输入。
控制系统160例如可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。
在一些实施方式中,控制系统160可以驻留在多于一个设备中。例如,在一些实施方式中,控制系统160的一部分可以驻留在本文描绘的环境之一内的设备中,并且控制系统160的另一部分可以驻留在环境之外的设备中,如服务器、移动设备(例如,智能电话或平板计算机)等。在其他示例中,控制系统160的一部分可以驻留在本文描绘的环境之一内的设备中,并且控制系统160的另一部分可以驻留在环境的一个或多个其他设备中。例如,控制系统功能可以跨环境的多个智能音频设备分布,或者可以由编排设备(如本文中可以被称为智能家居中枢的设备)和环境的一个或多个其他设备共享。在其他示例中,控制系统160的一部分可以驻留在实施基于云的服务的设备(如服务器)中,并且控制系统160的另一部分可以驻留在实施基于云的服务的另一设备(如另一服务器、存储器设备等)中。在一些示例中,接口系统155还可以驻留在多于一个设备中。
在一些实施方式中,控制系统160可以被配置用于至少部分地执行本文公开的方法。根据一些示例,控制系统160可以被配置成至少部分地基于从在音频设备上运行的MC-AEC的自适应滤波器管理数据中提取的特征来估计音频设备附近的当前局部声学状态。在一些实施方式中,控制系统160可以被配置成至少部分地基于从在音频环境中对应的多个音频设备上运行的多个MC-AEC中的每一个的自适应滤波器管理数据中提取的特征来估计音频环境的当前全局声学状态。
本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文描述的那些存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。所述一个或多个非暂态介质可以例如驻留在图1B所示的可选存储器系统165和/或控制系统160中。因此,可以在其上存储有软件的一个或多个非暂态介质中实施本公开中描述的主题的各个创新方面。例如,所述软件可以包括用于控制至少一个设备执行本文公开的一些或所有方法的指令。例如,所述软件可以由控制系统诸如图1B的控制系统160的一个或多个部件执行。
在一些示例中,装置150可以包括图1B所示的可选麦克风系统170。可选麦克风系统170可以包括一个或多个麦克风。根据一些示例,可选麦克风系统170可以包括麦克风阵列。在一些示例中,麦克风阵列可以被配置成例如根据来自控制系统160的指令来确定到达方向(DOA)和/或到达时间(TOA)信息。在一些实例中,麦克风阵列可以被配置用于例如根据来自控制系统160的指令来进行接收侧波束成形。在一些实施方式中,一个或多个麦克风可以是另一个设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中,装置150可以不包括麦克风系统170。然而,在一些这样的实施方式中,装置150仍然可以被配置成经由接口系统160来接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实施方式中,装置150的基于云的实施方式可以被配置成经由接口系统160从音频环境中的一个或多个麦克风接收麦克风数据或与麦克风数据相对应的数据。
根据一些实施方式,装置150可以包括图1B所示的可选扩音器系统175。可选扩音器系统175可以包括一个或多个扩音器,所述扩音器在本文中也可以被称为“扬声器”,或更通常地被称为“音频再现换能器”。在一些示例(例如,基于云的实施方式)中,装置150可以不包括扩音器系统175。
在一些实施方式中,装置150可以包括图1B所示的可选传感器系统180。可选传感器系统180可以包括一个或多个触摸传感器、手势传感器、运动检测器等。根据一些实施方式,可选传感器系统180可以包括一个或多个相机。在一些实施方式中,相机可以是独立式相机。在一些示例中,可选传感器系统180的一个或多个相机可以驻留在智能音频设备中,所述智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中,可选传感器系统180的一个或多个相机可以驻留在电视、移动电话或智能扬声器中。在一些示例中,装置150可以不包括传感器系统180。然而,在一些这样的实施方式中,装置150仍然可以被配置成经由接口系统160来接收音频环境中的一个或多个传感器的传感器数据。
在一些实施方式中,装置150可以包括图1B所示的可选显示系统185。可选显示系统185可以包括一个或多个显示器,诸如一个或多个发光二极管(LED)显示器。在一些实例中,可选显示系统185可以包括一个或多个有机发光二极管(OLED)显示器。在一些示例中,可选显示系统185可以包括智能音频设备的一个或多个显示器。在其他示例中,可选显示系统185可以包括电视显示器、膝上型计算机显示器、移动设备显示器、或另一种类型的显示器。在其中装置150包括显示系统185的一些示例中,传感器系统180可以包括接近显示系统185的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式,控制系统160可以被配置用于控制显示系统185来呈现一个或多个图形用户界面(GUI)。
根据一些这样的示例,装置150可以是或者可以包括智能音频设备。在一些这样的实施方式中,装置150可以是或者可以包括唤醒词检测器。例如,装置150可以是或者可以包括虚拟助理。
图2是表示根据一个示例的音频设备的部件的系统框图。在图2中,表示音频设备110A的块包括扩音器121A和麦克风120A。在一些示例中,扩音器121A可以是扩音器系统(如图1B的扩音器系统175)中的多个扩音器之一。类似地,根据一些实施方式,麦克风120A可以是麦克风系统(如图1B的麦克风系统170)中的多个麦克风之一。在该示例中,智能家居中枢250和音频设备110A-110E中的每一个包括接口系统,所述接口系统可以是以上参考图1B描述的接口系统155的实例。
在该示例中,音频设备110A包括渲染器201A、MC-AEC 203A、局部状态估计器230A和言语处理器/通信块240A。根据该示例,渲染器201A被配置成渲染由音频设备110A接收的或者存储在音频设备110A上的音频数据,以在扩音器121A上再现。在该示例中,渲染器输出220A被提供给扩音器121A以进行回放,并且渲染器输出220A还被提供给MC-AEC 203A作为回声消除的参考。
根据该示例,MC-AEC 203A包括用于多个子带中的每一个的子带AEC。以下参考图3和图4公开了一些详细示例。除了接收渲染器输出220A之外,MC-AEC 203A还从麦克风120A接收麦克风信号223A。在该示例中,MC-AEC 203A处理麦克风信号223A并向言语处理器/通信块240A提供回声消除的残差224A(本文中也可以被称为“残差输出224A”)。
根据该示例,MC-AEC 203A向局部状态估计器230A提供自适应滤波器管理数据225A。在该示例中,自适应滤波器管理数据225A不包括残差输出224A。根据该实施方式,自适应滤波器管理数据225A不包括与MC-AEC 203A的滤波器系数相对应的滤波器系数值。然而,在一些替代性实施方式中,自适应滤波器管理数据225A可以包括残差输出224A和/或滤波器系数值。
在一些实施方式中,言语处理器/通信块240A可以被配置用于言语识别功能。在一些示例中,言语处理器/通信块240A可以被配置成提供电信服务,如电话呼叫、视频会议等。虽然在图2中未示出,但言语处理器/通信块240A可以被配置用于例如经由接口系统与一个或多个网络、扩音器121A和/或麦克风120A进行通信。所述一个或多个网络可以例如包括本地Wi-Fi网络、一种或多种类型的电话网络等。
在该实施方式中,局部状态估计器230A被配置成至少部分地基于自适应滤波器管理数据225A来估计音频设备110A附近的当前局部声学状态。在一些示例中,局部状态估计器230A可以被配置成至少部分地基于从自适应滤波器管理数据225A中提取的多个特征来估计当前局部声学状态。
在一些示例中,当前局部声学状态可以是言语和再现的音频数据都存在于音频设备110A附近的双端通话状态。根据一些示例,当前局部声学状态可以是音频设备110A附近的回声路径改变。在一些实例中,当前局部声学状态可以涉及音频设备110A的位置的改变。在一些示例中,当前局部声学状态可以涉及第一音频设备的一个或多个设置的改变,如音频驱动器设置的改变、回放水平的改变、设备音频延迟的改变等。在一些示例中,当前局部声学状态(和/或当前全局声学状态)可以涉及音频环境配置的改变,如打开或关闭的门、打开或关闭的窗帘、家具的移动等。一些这样的改变可能会引起音频环境的混响“活性(liveness)”的对应改变。根据一些示例,当前局部声学状态(和/或当前全局声学状态)可以涉及包括第一音频设备的音频系统的配置的改变,如设备音频延迟的改变、用于再现声音的扩音器的改变(例如,从电视扩音器到HiFi扩音器的高清多媒体接口(HDMI)输出改变)、音频环境的第一音频设备和/或一个或多个其他音频设备的移动等。在一些实例中,当前局部声学状态可以涉及背景噪声水平的改变。下文描述了估计当前局部声学状态的一些详细示例。
在该示例中,估计的局部声学状态信息226A从局部声学状态估计器230A输出,并且被提供给言语处理器/通信块240A和MC-AEC块203A。尽管图2中未示出,但在一些示例中,估计的局部声学状态信息226A可以被提供给音频环境100的一个或多个其他设备,如智能家居中枢250。MC-AEC块203A和/或言语处理器/通信块240A可以至少部分地基于估计的局部声学状态信息226A来控制。例如,如果估计的局部声学状态信息226A指示当前局部声学状态包括言语和再现的音频数据都存在于音频设备110A附近的双端通话状态,则言语处理器/通信块240A(或控制系统160a的另一个元件)可以被配置成例如通过将麦克风系统的麦克风阵列配置用于在附近说话人的方向上进行接收侧波束成形、通过降低扩音器121A的回放音量等来控制扩音器121A和/或麦克风120A,以便提供更令人满意的电话会议。在一些示例中,言语处理器/通信块240A可以至少部分地基于估计的局部声学状态信息226A来控制要在电话会议或其他电话呼叫期间发送的音频的选通。根据一些示例,言语处理器/通信块240A可以至少部分地基于估计的局部声学状态信息226A来控制唤醒词检测器。例如,估计的局部声学状态信息226A可以包括或者可以至少部分地基于先验信息(例如,将音频帧标记为语音或回声泄漏)以改善唤醒词检测器的性能。
根据一些示例,可以至少部分地基于估计的局部声学状态信息226A来控制由MC-AEC块203A实施的声学回声抑制器。在一些示例中,控制系统160a(例如,MC-AEC块203A)可以被配置成至少部分地基于估计的局部声学状态信息226A来实施噪声抑制器。例如,如果估计的局部声学状态信息226A指示回声路径改变和/或音频环境的本底噪声改变,则噪声估计算法可以更快地适应估计。
根据该示例,每个音频设备110B-110E至少包括控制系统、MC-AEC、麦克风和扩音器:音频设备110B至少包括控制系统160b、MC-AEC 203B、麦克风120B和扩音器121B;音频设备110C至少包括控制系统160c、MC-AEC 203C、麦克风120C和扩音器121C;音频设备110D至少包括控制系统160d、MC-AEC 203D、麦克风120D和扩音器121D;并且音频设备110E至少包括控制系统160e、MC-AEC 203E、麦克风120E和扩音器121E。在该示例中,MC-AEC 203B-MC-AEC 203E分别输出自适应滤波器管理数据225B-225E。在一些实施方式中,音频设备110B-110E中的一个或多个可以包括渲染器、言语处理器/通信块和/或局部状态估计器。
在一些实施方式中,音频设备110A-110E中的两个或更多个(在一些实施方式中为所有)可以被配置用于与单独编排设备(如本文中可以被称为智能家居中枢的设备)进行通信,并由所述单独编排设备进行编排。在其他示例中,智能家居中枢功能可以由音频环境100的一个或多个智能音频设备(如音频设备110A-110E中的一个或多个)提供,或者可以由音频环境100的单独编排设备以及一个或多个其他设备共享。可替代地或另外地,控制系统(例如,被配置成提供全局状态估计器、言语识别和/或虚拟助理功能的控制系统)的一部分可以驻留在实施基于云的服务的设备(如服务器)中,并且控制系统的另一部分可以驻留在音频环境100的一个或多个设备中。
在该实施方式中,音频设备110A-110E中的每一个向智能家居中枢250提供信息并从所述智能家居中枢接收信息,所述智能家居中枢包括被配置用于实施全局状态估计器231的控制系统160f。根据该实施方式,全局状态估计器231被配置成至少部分地基于从音频设备110A接收的自适应滤波器管理数据225A、从音频设备110B接收的自适应滤波器管理数据225B、从音频设备110C接收的自适应滤波器管理数据225C、从音频设备110D接收的自适应滤波器管理数据225D以及从音频设备110E接收的自适应滤波器管理数据225E来估计音频环境100的当前全局声学状态。在一些示例中,全局状态估计器231被配置成至少部分地基于从自适应滤波器管理数据225A-225E中提取的多个特征来估计音频环境100的当前全局声学状态。可替代地或另外地,在一些实施方式中,全局状态估计器231可以被配置成至少部分地基于由音频设备110A-110E中的一个或多个提供的当前局部声学状态信息来估计音频环境100的当前全局声学状态。
在该示例中,全局状态估计器231被配置成向音频设备110A-110E中的每一个提供当前全局声学状态估计227。在一些示例中,智能家居中枢250可以被配置成向音频设备110A-110E中的一个或多个提供控制信号,如与当前全局声学状态估计227和/或从音频设备110A-110E中的一个或多个接收的局部声学状态信息相对应的控制信号。
例如,如果由音频设备110A-110E中的两个或更多个提供的自适应滤波器管理数据和/或当前局部声学状态信息指示在音频环境100的多个位置中存在言语和再现的音频数据都存在于多个音频设备附近的双端通话状态,则全局状态估计器231可以被配置成估计音频环境100的当前全局声学状态对应于音频环境100中的一个或多个正在进行的会话。在一些这样的示例中,全局状态估计器231可以被配置成确定音频环境100中的一个或多个正在进行的会话指示当前全局声学状态对应于社交聚集,如晚餐、聚会等。在一些这样的示例中,当前全局声学状态估计227可以指示本文中可以被称为“社交聚集模式”的内容。在一些这样的示例中,智能家居中枢250可以被配置成向与社交聚集模式相对应的音频设备110A-110E中的一个或多个提供控制信号,例如,用于控制由音频设备110A-110E中的一个或多个再现的音频以空间分布的方式再现的控制信号。下文参考图6描述了一些示例。根据一些这样的示例,当前全局声学状态估计227可以指示本文中可以被称为“会话模式”的内容。在一些这样的示例中,智能家居中枢250可以被配置成向与会话模式相对应的音频设备110A-110E中的一个或多个提供控制信号,例如,用于控制由音频设备110A-110E中的一个或多个再现的音频低于检测到的会话声音水平的控制信号。
根据一些实施方式,单个音频设备可以进行当前全局声学状态估计。在一些这样的示例中,单个音频设备可以实施全局状态估计器231,并且可以被配置成基于从其他本地音频设备接收的自适应滤波器管理数据来进行当前全局声学状态估计。可替代地或另外地,单个音频设备可以被配置成基于从单个音频设备的定向麦克风获得的定向麦克风数据来进行当前全局声学状态估计。例如,定向麦克风数据可以指示在音频环境100的多个位置中存在双端通话状态。根据一些这样的示例,单个音频设备可以进行指示会话模式或社交聚集模式的当前全局声学状态估计。
在一些实施方式中,音频设备110B-110E中的一个或多个可以不包括局部状态估计器。根据一些这样的示例,全局状态估计器231可以被配置成基于来自音频设备110B-110E中的相应一个或多个音频设备的自适应滤波器管理数据来确定音频设备110B-110E中的一个或多个的局部声学状态信息。在一些这样的示例中,全局状态估计器231可以被配置成向音频设备110B-110E中的一个或多个提供局部声学状态信息。
图3示出了图2所示的一个多声道回声消除器(MC-AEC)的示例块。图3示出了AEC(本文中也称为MC-AEC)的子带域实施方式的示例。在该示例中,MC-AEC 203A处理输入麦克风信号223A并输出回声消除残差224A(本文中也可以被称为“残差输出224A”)。
在该实施方式中,分析滤波器块310被配置成将时域中的输入全带音频信号分解成频域中的正交分量(子带信号)。在该示例中,分析滤波器块310接收渲染器输出220A和麦克风信号223A,并向块320输出对应的子带域回声参考303和子带域麦克风信号307。后续音频处理(回声消除)在频域中执行。这样的实施方式具有提高性能和降低计算成本的优点。
根据该示例,块320包括子带AEC 300的N个实例(每个子带一个实例)。图3中示出了示例子带AEC 300i、300ii和300N,其中,中间的虚线表示中间的子带AEC 300iii-300(N-1)。
在该示例中,块320被配置成向合成滤波器组311输出回声消除子带域残差信号304。此处,合成滤波器组311被配置成从子带域残差信号304重建残差输出224A,即时域中的全带信号。
根据该示例,块320还被配置成输出从子带AEC 300i-300N中提取的特征向量225A的集合。特征向量225A例如可以被提供给局部状态估计器和/或全局状态估计器,例如,图2所示和以上描述的局部状态估计器230A和/或全局状态估计器231。下文描述了特征向量225A的示例。
在该示例中,MC-AEC 203A还接收当前局部声学状态估计226A和当前全局声学状态估计227。在一些实施方式中,可以至少部分地基于当前局部声学状态估计226A和/或当前全局声学状态估计227来控制MC-AEC 203A的操作(例如,块320的功能)。
图4示出了图3所示的子带AEC之一的块的示例。在该示例中,子带AEC 300i被配置成从图3所示的分析滤波器组310接收子带域麦克风信号307i,并向图3所示的合成滤波器组311输出一个或多个子带域残差信号304i。根据该示例,子带AEC 300i包括多个子带域自适应滤波器410和自适应子带域滤波器管理模块411。此处,多个子带域自适应滤波器410被示出为接收子带域回声参考303i。多个子带域自适应滤波器410包括N个自适应滤波器,其中,N根据特定实施方式而变化。在一些实例中,N=2,而在其他实施方式中,N≥3。
根据一些示例,多个子带域自适应滤波器410中的每个自适应滤波器在不同的声学条件下可以表现得更好。例如,一种类型的自适应滤波器可以更好地跟踪回声路径改变,而另一种类型的自适应滤波器可以更好地避免双端通话的实例期间的适应不良。在一些示例中,多个子带域自适应滤波器410可以包括连续的自适应滤波器。多个子带域自适应滤波器410的范围例如可以从响应于当前音频条件(例如,响应于当前误差信号)而确定滤波器系数的高度自适应或积极自适应滤波器(有时可以被称为“主”自适应滤波器)到响应于当前音频条件而提供很少或不提供滤波器系数改变的高度保守自适应滤波器(有时可以被称为“阴影”自适应滤波器)。
在一些实施方式中,多个子带域自适应滤波器410可以包括具有各种自适应速率、滤波器长度和/或自适应算法(例如,包括最小均方(LMS)、归一化最小均方(NLMS)、成比例归一化最小均方(PNLMS)和/或递归最小平方(RLS)中的一个或多个的自适应算法)等的自适应滤波器。在一些实施方式中,多个子带域自适应滤波器410可以包括线性和/或非线性自适应滤波器、具有不同参考和麦克风信号时间对准的自适应滤波器等。根据一些实施方式,多个子带域自适应滤波器410可以包括仅在输出非常响亮或非常安静时适应的自适应滤波器。例如,“聚会”自适应滤波器可能仅适应输出音频的响亮部分。
根据该示例,多个子带域自适应滤波器410输出多个预测的子带域回声信号401,每个自适应滤波器一个子带域回声信号。预测的子带域回声信号401中的每一个可以被视为回声路径的假设。
对于预测的子带域回声信号401中的每一个,子带域残差信号402是例如通过从相应子带的子带域麦克风信号307i中减去相应子带的预测的子带域回声信号401来产生的。
在该示例中,子带域自适应滤波器管理模块411被配置成从由多个子带域自适应滤波器410产生的子带域残差信号集合402中选择一个或多个子带域残差信号304i作为输出。在该示例中,子带域残差信号集合402中的每个子带域残差信号还被提供给对应的自适应滤波器和多路复用器420i。
根据一些示例,子带域自适应滤波器管理模块411可以被配置成根据一组试探法规则从子带域残差信号集合402中选择子带域残差信号。例如,子带域自适应滤波器管理模块411可以被配置成监测系统的状态,并且通过如在满足某些条件(例如,一个优于另一个)时将滤波器系数从一个自适应滤波器复制到另一个自适应滤波器中的机制来管理多个子带域自适应滤波器410。例如,如果自适应滤波器A明显优于自适应滤波器B,则子带域自适应滤波器管理模块411可以被配置成将自适应滤波器A的滤波器系数复制到自适应滤波器B。在一些实例中,如果子带域自适应滤波器管理模块411检测到差异,则子带域自适应滤波器管理模块411也可以向多个子带域自适应滤波器410中的一个或多个自适应滤波器发出复位命令。
根据该示例,子带域自适应滤波器管理模块411还被配置成向多路复用器420i提供一个或多个选定子带域残差信号404和子带域自适应滤波器管理数据405。例如,子带域自适应滤波器管理数据405可以对应于子带域自适应滤波器管理模块411发送给多个子带域自适应滤波器410的指令。此处,多路复用器420i被配置成复用子带域残差信号集合402、一个或多个选定子带域残差信号404和自适应滤波器管理数据405,以产生子带域的特征向量225Ai的集合。在替代性实施方式中,子带域的特征向量225Ai的集合可以仅基于子带域自适应滤波器管理数据405。
图5示出了根据一个示例的局部状态估计器的示例块。根据该示例,局部状态估计器是图2的音频设备110A的局部状态估计器230A的实例。在该示例中,局部状态估计器230A被配置成至少部分地基于从图2或图3的MC-AEC 203A接收的特征向量225A的集合来产生对音频设备110A附近的当前声学状态的估计,并输出估计的局部声学状态信息226A。
根据该示例,局部状态估计器230A包括特征提取块510、声学空间知识块512和分类器511。根据该示例,特征提取块510的功能可以至少部分地基于来自声学空间知识块512的声学空间参数503。例如,如果声学空间知识块512具有特定频率范围内的持续噪声源的先验知识,则声学空间参数503可以包括对应信息。响应于声学空间参数503的这一部分,特征提取块510可以不提取与该频率范围相对应的特征。类似地,在该示例中,分类器511的功能可以至少部分地基于来自声学空间知识块512的声学空间信息504。以下提供了分类器511的功能可以如何至少部分地基于声学空间信息504的一些示例。
在该示例中,特征提取块510被配置成从特征向量225A的集合中提取特征,并输出提取的特征501A。提取的特征501A可以根据特定实施方式而变化。在一些示例中,提取的特征501A可以包括自适应滤波器重置信息、自适应滤波器系数复制实例等。在特征向量225A对应于至少第一自适应滤波器类型和第二自适应滤波器类型的一些实例中,提取的特征501A可以包括以下各项中的一项或多项:第一自适应滤波器类型产生最低残差功率的概率;第二自适应滤波器类型产生最低残差功率的概率;输入麦克风功率低于经由第一自适应滤波器类型产生的第一残差或经由第二自适应滤波器类型产生的第二残差的概率;第一自适应滤波器类型的第一滤波器系数被复制到第二自适应滤波器类型的自适应滤波器中的速率;和/或第二自适应滤波器类型的第二滤波器系数被复制到第一自适应滤波器类型的自适应滤波器中的速率。在特征向量225A对应于至少第一至第M自适应滤波器类型的一些实例中,M是3或更大的整数,提取的特征501A可以包括以下各项中的一项或多项:第M自适应滤波器类型产生最低残差功率的概率;第一至第(M-1)自适应滤波器类型中的任一种产生最低残差功率的概率;输入麦克风功率低于经由第一至第M自适应滤波器类型中的任一种产生的残差的概率;和/或第一至第M自适应滤波器类型中的任一种的滤波器系数被复制到第一至第M自适应滤波器类型中的任何其他自适应滤波器类型的自适应滤波器中的速率。
设Pi,j是与由自适应滤波器类型j产生的子带i相对应的子带域残差信号的功率。在示例中,自适应滤波器类型k产生最低残差功率的概率被确定为Pi,j=k小于Pi,j≠k的子带数占总子带数的分数。例如,对于100个子带,滤波器类型1的概率为0.45意味着对于100个子带i中的45个子带,滤波器类型1的残差功率Pi,1低于其他滤波器类型的残差功率Pi,j≠1。在该示例中,分类器511被配置成至少部分地基于由特征提取块510提供的提取的特征501A来估计局部声学状态。在一些实例中,局部声学状态可以是(或者包括)言语和再现的音频数据都存在于音频设备110A附近的双端通话状态。在一些实例中,局部声学状态可以是(或者包括)音频设备110A附近的回声路径改变。在一些示例中,局部声学状态可以是(或者包括)音频设备110A的位置的改变、音频设备110A的一个或多个设置的改变、包括音频设备110A的音频系统的配置的改变和/或音频设备110A附近的背景噪声水平。下文提供了基于提取的特征来估计局部声学状态的各种示例。
根据一些示例,声学空间知识块512包括关于音频环境100的知识库。例如,声学空间知识块512可以包括存储器,所述存储器具有关于音频环境100中的估计可听度(例如,音频环境100中的一个或多个(在一些情况下为所有)音频设备的估计可听度)的所存储信息。根据一些示例,声学空间知识块512可以包括存储器,所述存储器具有关于音频环境100中可能影响声音的反射和/或吸收的墙壁、家具和/或其他物体的位置的所存储信息。在一些实施方式中,音频设备110A的控制系统160a可以被配置成将“间隙(gap)”插入到回放的音频信号中。如本文所使用的,音频信号中(以及音频信号的回放内容中)的“间隙”表示信号中缺失(例如,至少一个频带中的)回放内容(或电平小于预定值)的时间(或时间间隔)。音频信号可以具有包括一组不同频带中的每个频带中的频域回放内容(在每个时间或时间间隔处)的经带划分的频域表示(在信号的一系列时间或时间间隔中的每一个中),并且在频带中的至少一个频带中可以具有间隙(在音频信号的时间或时间间隔处)。根据一些公开的实施例,将强加间隙引入到回放信号中可以被优化以显著降低(或消除)在回放期间由引入的间隙引起的伪像的可感知性,优选地,使得强加间隙对用户没有或仅有最小的可感知影响,但使得回放环境中麦克风的输出信号指示强加间隙(例如,因此可以利用间隙来实施普适收听方法)。通过使用根据一些公开的实施例引入的强加间隙,普适收听系统也可以监测非回放声音(例如,指示回放环境中背景活动和/或噪声的声音)。
在一些示例中,来自声学空间知识块512的关于音频环境可听度和/或背景噪声信息的声学空间信息504可以通知分类器511关于如何解释一种或多种类型的输入数据。例如,如果分类器511正在评估历史上与许多背景噪声事件相关联的区域中可能的回声路径改变的实例,则分类器511可以基于由声学空间知识块512提供的历史背景噪声信息来施加偏置,如用于确定回声路径改变的较高阈值。
根据一些示例,声学空间知识块512可以包括关于音频环境100的所存储位置信息,例如,音频环境100中的一个或多个(在一些情况下为所有)音频设备的位置和/或取向。可替代地或另外地,在一些实施方式中,声学空间知识块512可以具有关于音频环境100的已知使用模式的所存储信息。例如,声学空间知识块512可以包括关于音频环境100中一个或多个用户聚集的位置(例如,用户坐在上面看电视的沙发的位置(以及在一些实例中为(多个)取向)、人们经常聚在一起交谈的餐桌的位置等)、音频环境100的人们经常走过的区域、门和/或可打开的窗户区域等的所存储信息。在一些实施方式中,声学空间知识块512可以包括关于音频环境100中的一个或多个(在一些情况下为所有)音频设备的位置和取向以及音频环境100中一个或多个人聚集的一个或多个位置的相对位置(以及在一些实例中为一个或多个人处于这些一个或多个位置时的取向)的所存储位置信息。
在一些示例中,指示这种位置、取向和/或使用信息的声学空间信息504可以通知分类器511关于如何解释一种或多种类型的输入数据。例如,如果分类器511正在评估历史上与许多双端通话相关联的区域中可能的双端通话的实例,则分类器511可以基于由声学空间知识块512提供的历史使用信息来施加偏置,如用于检测双端通话实例的较低阈值。
可替代地或另外地,在一些实施方式中,声学空间知识块512可以具有关于从MC-AEC 203A接收的特征向量225A的所存储历史信息,如滤波器重置信息、滤波器系数复制实例等。例如,声学空间知识块512可以包括关于MC-AEC 203A的标称或未扰动操作点的信息。MC-AEC的未扰动操作点的一个示例在图7A中示出并在下文中描述。
在一些实施方式中,声学空间知识块512可以包括关于音频设备110A本身的信息,例如,扩音器类型和能力(例如,音频设备110A是包括亚低音扬声器和/或其他扩音器,还是仅包括具有有限低音再现能力的小型扩音器)、音频设备110A的(多个)扩音器是否是(多个)非线性“蜂鸣”设备等。这种类型的信息可以通知特征提取块510和/或分类器511关于如何偏置事物。
例如,在一些实施方式中,可以基于来自声学空间知识块512的关于音频设备的能力的信息来标记音频帧,例如,以识别在音频设备的安全操作水平范围之外的音频帧。在一些示例中,当对声学状态进行估计时,可以丢弃这样的音频帧。在其他示例中,当对声学状态进行估计时,可以对这样的音频帧进行比其他音频帧更轻的加权。可替代地或另外地,声学空间知识块512可以包括关于音频设备再现特定音频频率的能力的信息。这种信息可以帮助特征提取块510确定要跨越哪个频率范围进行聚合。在一些这样的示例中,特征向量225的集合中与不具有低音扬声器的音频设备无法再现的低频率相对应的所有值可以被丢弃或忽略。可替代地或另外地,声学空间知识块512可以包括关于正在声学空间中播放的内容的信息。在一些示例中,这种信息可以使得特征提取能够针对不同类型的内容进行优化(例如,播客的再现言语可以包括与动作电影的再现声音不同的频率和时间范围)。
图6示出了根据一个示例的全局状态估计器的示例块。根据该示例,全局状态估计器是图2的音频设备110A的全局状态估计器231的实例。在该示例中,全局状态估计器231被配置成至少部分地基于来自对应音频设备110A-110N的特征向量225A-225N的集合来产生对音频环境中的当前声学状态的估计,并输出估计的全局声学状态信息627。
根据该示例,全局状态估计器231包括特征提取块610、声学空间知识块512和分类器611。根据该示例,特征提取块610的功能可以至少部分地基于来自声学空间知识块512的声学空间参数503。类似地,在该示例中,分类器611的功能可以至少部分地基于来自声学空间知识块512的声学空间信息504。在一些示例中,特征提取块610和分类器611可以使用如以上关于特征提取块510和/或分类器511使用来自声学空间知识块512的信息所描述的声学空间信息504。然而,一个区别是特征提取块610和分类器611可以访问关于例如音频环境的多个音频设备的能力的信息。因此,从特征向量225A-225N的集合中提取的特征不必是提取的特征501A-501N的简单组合,如串联。声学空间知识块512可以例如包含关于音频环境中的各种音频设备的不同能力的信息。使用这种信息,特征提取块610可以能够得到特征向量601,所述特征向量以相对更抽象和简洁的形式保留了大部分这种信息。
在该示例中,特征提取块510被配置成从特征向量225A-225N的集合中提取特征,并输出提取的特征601。提取的特征601可以根据特定实施方式而变化。在一些示例中,提取的特征601可以包括以上参考图5描述的一种或多种类型的提取的特征。
在该示例中,分类器611被配置成至少部分地基于由特征提取块610提供的提取的特征601来估计全局声学状态。在一些实例中,全局声学状态可以指示在音频环境100的多个位置中存在言语和再现的音频数据都存在于多个音频设备附近的双端通话状态,全局状态估计器231可以被配置成估计音频环境100的当前全局声学状态对应于音频环境100中的一个或多个正在进行的会话。
在一些这样的示例中,全局状态估计器231可以估计音频环境100中的一个或多个正在进行的会话指示当前全局声学状态对应于社交聚集,如聚会、家庭聚集等。在一些这样的示例中,当前全局声学状态估计227可以指示本文中可以被称为“社交聚集模式”的内容。在一些这样的示例中,智能家居中枢250可以被配置成向与社交聚集模式相对应的音频设备110A-110N中的一个或多个提供控制信号,例如,用于控制由音频设备110A-110N中的一个或多个再现的音频以空间分布的方式再现的控制信号,这在本文中可以被称为空间分布式渲染模式或分布式渲染模式。
在一些示例中,空间混音的一部分可以在分布式渲染模式下以更均匀的分布进行渲染。在一些这样的示例中,空间混音的在分布式渲染模式下以更均匀的分布渲染的一部分被指定为前声场。在许多空间混音的情境中,这是有道理的,因为传统的混音实践通常将混音中最重要的部分(如电影的对话和音乐的主唱、鼓和低音吉他)放置在前声场中。对于大多数5.1和7.1环绕声混音以及使用算法诸如杜比定向逻辑(Dolby Pro-Logic)或杜比环绕声(Dolby Surround)上混到5.1或7.1的立体声内容来说这是正确的,其中,前声场由左声道、右声道和中央声道给出。对于诸如杜比全景声的许多基于对象的音频混音来说这也是正确的,其中,可以根据指示y<0.5的(x,y)空间位置的空间元数据将音频数据指定为前声场。
然而,对于基于对象的音频,混音工程师自由地将音频放置在3D空间中的任何位置。具体地,对于基于对象的音乐,混音工程师开始打破传统的混音规范,并且将被认为是混音的重要部分(如主唱)的内容放置在非传统位置(如头顶上)。在这种情况下,很难构建简单的规则来确定混音的哪些分量适合于以更加分布式空间方式针对分布式渲染模式渲染。基于对象的音频已经包含与每个其组成音频信号相关联的元数据,所述元数据描述了应在3D空间中的何处渲染信号。在一些实施方式中,为了解决所描述的问题,可以添加附加元数据,从而允许内容创建者将特定信号标志为适合于在分布式渲染模式下更加分布式空间渲染。在渲染期间,系统可以使用该元数据来选择混音的应用更加分布式渲染的分量。这给予内容创建者对分布式渲染模式针对特定内容片段发声的方式的控制。
在一些替代性实施方式中,控制系统可以被配置用于实施内容类型分类器以标识所述音频数据中要以更加空间分布的方式渲染的一个或多个元素。在一些示例中,内容类型分类器可以参考内容类型元数据(例如,指示音频数据是对话、人声、打击乐器、低音吉他等的元数据)以确定是否应该以更加空间分布的方式渲染音频数据。根据一些这样的实施方式,要以更加空间分布的方式渲染的内容类型元数据可以是可由用户例如根据用户输入经由显示设备上显示的GUI来选择的。
用于以比在参考空间模式下更加空间分布的方式渲染空间音频混音的一个或多个元素的(多个)方法可以在不同实施例之间变化。一种示例方法涉及创建每个这种元素的多个副本,其中多个相关联的渲染位置更均匀地跨收听空间分布。在一些实施方式中,针对分布式空间模式的渲染位置和/或渲染位置的数量可以是用户可选择的,而在其他实施方式中,针对分布式空间模式的渲染位置和/或渲染位置的数量可以是预设的。在一些这样的实施方式中,用户可以为分布式空间模式选择多个渲染位置,并且所述渲染位置可以是预设的,例如,遍及收听环境均匀地间隔开。与在系统的原始预期位置渲染原始单个元素相反,系统然后在这些副本的一组分布位置处渲染所有这些副本。根据一些实施方式,可以按水平修正所述副本,使得与所有副本的组合渲染相关联的感知水平与在参考渲染模式下的原始单个元素的水平相同或基本上相同(例如,在阈值分贝数内,如2dB、3dB、4dB、5dB、6dB等)。
根据一些示例,当前全局声学状态估计227可以指示本文中可以被称为“会话模式”的内容。根据一些这样的示例,当前全局声学状态估计227可以通过环境中的一个或多个音频设备的回放水平来区分社交聚集模式与会话模式:在一些这样的示例中,相对较低的回放水平(和/或低于阈值水平的回放水平)可以指示会话模式。在一些这样的示例中,智能家居中枢250可以被配置成向与会话模式相对应的音频设备110A-110N中的一个或多个提供控制信号,例如,用于控制由音频设备110A-110N中的一个或多个再现的音频低于检测到的会话声音水平的控制信号。
在该示例中,声学空间知识块512包括关于音频环境100的知识库。根据一些示例,声学空间知识块512可以如以上参考图5所描述的。例如,声学空间知识块512可以包括存储器,所述存储器具有关于音频环境100中的估计可听度(例如,音频环境100中的一个或多个(在一些情况下为所有)音频设备的估计可听度)的所存储信息。根据一些示例,声学空间知识块512可以包括存储器,所述存储器具有关于音频环境100中可能影响声音的反射和/或吸收的墙壁、家具和/或其他物体的位置的所存储信息。在一些实施方式中,音频设备110A的控制系统160a可以被配置成将“间隙(gap)”插入到回放的音频信号中。通过使用根据一些公开的实施例引入的强加间隙,普适收听系统也可以监测非回放声音(例如,指示回放环境中背景活动和/或噪声的声音)。
根据一些示例,声学空间知识块512可以包括关于音频环境100的所存储位置信息,例如,音频环境100中的一个或多个(在一些情况下为所有)音频设备的位置和/或取向。可替代地或另外地,在一些实施方式中,声学空间知识块512可以具有关于音频环境100的已知使用模式的所存储信息。在一些实施方式中,声学空间知识块512可以包括关于音频环境100中的一个或多个(在一些情况下为所有)音频设备的位置和取向以及音频环境100中一个或多个人聚集的一个或多个位置的相对位置(以及在一些实例中为一个或多个人处于这些一个或多个位置时的取向)的所存储位置信息。
图7A、图7B、图7C、图7D和图7E是示出了在五种不同类型的局部声学状态期间从同一MC-AEC获得的五个提取的特征的示例图的曲线图。在这些示例中,MC-AEC正在运行两种互补类型的自适应滤波器。一种是高度自适应或积极自适应滤波器,其可以被称为“主”自适应滤波器。主自适应滤波器响应于当前音频条件(例如,响应于当前误差信号)而确定滤波器系数。另一种类型的自适应滤波器是高度保守的自适应滤波器,其可以被称为“阴影”自适应滤波器。阴影自适应滤波器响应于当前音频条件而提供很少或不提供滤波器系数改变。这些互补自适应滤波器的组合已被证明实现了良好的消除性能和鲁棒性。
在这些示例中,MC-AEC利用512个子带。换言之,在图3的示例中,其中,块320包括块300的N个实例,N=512。然而,用于图7A至图7E的曲线图的特征(在本文中有时被称为AEC统计数据)仅从前100个子带中提取。在其他实施方式中,特征可以从所有子带、从选定的子带组等中提取。可替代地或另外地,在其他实施方式中可以提取不同类型的特征。
然而,在该示例中,仅从前100个子带中提取了以下五个特征:主概率、阴影概率、麦克风概率、主更新和阴影更新。主概率(main prob)是主滤波器在前100个子带上产生最低残差功率的概率。例如,0.45的主概率意味着在前100个子带中的45个子带中主滤波器产生最低残差功率。阴影概率(shadow prob)是阴影滤波器在前100个子带上产生最低残差功率的概率。麦克风概率(mic prob)是输入麦克风功率低于主滤波器或阴影滤波器在前100个子带上产生的残差功率的概率。可以认为麦克风概率是主滤波器和阴影滤波器均没有成功执行回声消除的概率。
根据该示例,主更新是在前100个子带内从阴影滤波器到主滤波器的所有滤波器系数拷贝事件的计数。类似地,阴影更新是前100个子带内从主滤波器到阴影滤波器的所有滤波器系数拷贝事件的计数。此处,主更新值和阴影更新值被缩放,使得它们可以适于与概率相关特征在同一图上。
图7A示出了在未扰动MC-AEC中这五个特征的响应的示例。可以看到,在约20秒后,AEC已经稳定到其标称(无扰动)操作点。在此之前,AEC仍在收敛。当稳定时,我们可以看到,主概率特征和阴影概率特征大致相等。图7A和后续附图中的主概率特征和阴影概率特征的图表明,通过计算主概率特征与阴影概率特征之间的差异,可以将主概率特征和阴影概率特征组合成单个特征。这是在其他实施方式中特征提取步骤可以如何不同的一个示例。
在图7A中,可以看到主概率和阴影概率之和超过0.95,这表明AEC性能良好,因为大多数滤波器都产生净消除:在不到10秒后,麦克风概率小于0.05。还可以看到,在稳定下来之后,主更新值和阴影更新值相对较小,这表明在一段时间内两个滤波器都没有显著优于另一个滤波器。观察前10秒左右,可以看到阴影更新信号中存在大的尖峰。这是因为在该特定实施例中主滤波器能够比阴影滤波器收敛得更快,并且因此自适应滤波器管理模块检测到主滤波器在该时间段期间比阴影滤波器表现得显著更好,因此将主滤波器系数复制到阴影滤波器中。
在图7B至图7E中,省略了前20秒。这种省略消除了AEC在启动时间后稳定下来的时间,从而使图形看起来不那么杂乱。
图7B示出了相同的五个特征对音频环境中回声路径改变的响应的示例。在该实例中,本发明人之一正靠近音频设备前面行走。在约33秒时,本发明人走到音频设备前面,并引起大的回声路径改变事件。因为主滤波器能够比阴影滤波器更快地收敛到新回声路径,所以在图7B中可以观察到以下情况:
·主概率增加并且阴影概率减少,因为主滤波器可以更快地重新收敛;
·在麦克风概率中存在小的峰值,因为主滤波器和阴影滤波器直到回声路径改变后约9秒或10秒才重新收敛,所以在一些子带中自适应滤波器管理模块观察到麦克风信号具有相对较小的残差功率。
·在阴影更新信号中存在大的峰值,因为主滤波器在一段时间内显著优于阴影滤波器,从而引起滤波器系数复制事件。
·在主更新信号中存在小的峰值,因为更积极的主滤波器也更有可能在像这样的大扰动期间适应不良。
此时,回顾这五个特征是跨子带集合确定的可能是有帮助的,因此主滤波器可能在一些子带中优于阴影,而阴影滤波器在其他子带中优于主滤波器。重要的一点是,平均来说(具体来说,我们在前100个子带上获取的集合平均值),在回声路径改变事件期间,可以观察到提取的特征标记,如图7B中所示的那些特征标记。
图7C示出了相同的五个特征对音频环境中的双端通话的响应的示例。在该实例中,在大约33秒时,本发明人之一说出了“听杜比,放电影”。在本发明人说话期间,由于残差信号中存在本发明人的声音,因此主滤波器适应不良。然而,每当预测的功率与麦克风中的功率之间存在差异时,阴影滤波器就抑制自适应,并且因此在双端通话发生时不进行自适应。
作为结果,因为主滤波器继续自适应(并且可能消除了本发明人的一些声音),所以在双端通话的时间间隔期间(从大约33秒到35秒)主概率增加,从而产生较低的残差功率。然后,紧接在双端通话的时间间隔之后,阴影滤波器优于主滤波器(因为主滤波器已经无收敛),从而导致主更新计数中的尖峰(阴影滤波器系数被复制到主滤波器中的实例)。如先前参考图7B所述,在显著扰动期间,可以观察到麦克风概率中的尖峰。
图7D示出了相同的五个特征对音频环境中不同类型的声学事件的响应的示例。在该实例中,在大约35秒时本发明人之一拿起音频设备,并且在大约38秒时(就在第二个主更新峰值之前)将音频设备放回原处。移动设备导致音频环境中另一种类型的回声路径改变。然而,这种回声路径改变明显不同于参考图7B描述的回声路径改变,部分原因是本发明人触摸了所述设备,从而通过音频设备主体和其麦克风的耦接在麦克风中产生噪声。此外,将音频设备放回原处导致了振动通过音频设备主体到达麦克风。因此,从麦克风馈送中存在附加的非回声信号的意义上说,拿起音频设备并将其放下会使提取的特征产生变化,这在某种程度上类似于双端通话所产生的变化。可以在主更新信号中观察到两个峰值,因为主滤波器在拿起和放下音频设备期间不正确地适应。在音频设备被放回原处之后,回声路径不同,并且主滤波器比阴影滤波器更快地收敛到新路径,从而使阴影更新信号在40秒之前和之后不久出现峰值。
图7E示出了相同的五个特征对音频环境中另一种类型的声学事件的响应的示例。在该实例中,在大约35秒时,本发明人之一打开音频环境的门,在此期间,门的另一侧存在噪声源(音频由收音机再现)。之后,门保持打开。在门打开之前,收音机在音频环境中是可听见的,但是由收音机产生的声音在音频环境中处于相对较低的水平。大约35-45秒的时间示出了上述回声路径改变的标记(与阴影概率相比,主概率更高,并且阴影更新标记中存在峰值)。
然而,在图7E中可以观察到,由于噪声源继续干扰AEC并导致主滤波器和阴影滤波器表现得比以上参考图7B描述的回声路径改变场景更差(因此重新收敛更慢),因此该重新收敛周期比图7B所示的周期要长得多。还可以观察到,在重新收敛之后,主更新和麦克风概率都显著上升,这两者都表明麦克风馈送中有附加的噪声。附加的噪声导致主滤波器重复地适应不良,从而触发主更新(阴影滤波器系数到主滤波器的拷贝)。此外,噪声会对两个滤波器的性能产生负面影响,因此平均而言,两个滤波器都表现得更差,从而导致麦克风概率明显上升。因此,回声路径改变标记与主更新和麦克风概率水平的增加的组合可以用于检测在另一侧具有噪声源的门打开。
图8A和图8B示出了根据一些示例的与线性分类器的验证相关的曲线图。图8A示出了在验证测试期间从MC-AEC获得的五个提取的特征的图。这五个提取的特征与以上参考图7A至图7E描述的五个提取的特征相同。
图8B示出了在验证测试期间来自线性分类器的三种类型的输出的图。根据该示例,来自线性分类器的三种可能类型的输出是估计的回声路径改变(EPC)、估计的双端通话实例、或没有/无预测的声学事件。在这些示例中,系统在前45秒左右稳定下来。图8B中的竖直虚线指示声学事件时间。前三个声学事件是回声路径改变,而后三个声学事件是双端通话事件。在这些示例中,在系统稳定下来之后,线性分类器能够成功地对每个声学事件进行分类。
在该线性分类器示例中,简单的线性预测器在时刻[n]处对瞬时的4×1特征向量x进行分组,如下所示:
x[n]=[(main_prob[n]-shad_prob[n]),mic_prob[n],main_update[n],shadow_update[n]]^T
根据该示例,该特征向量仅包含4个元素,因为主概率和阴影概率是通过取两者之间的差来组合的,如上所述。使用另一组数据,本发明人已经(通过线性判别分析,这仅仅是“训练”这种线性预测器的一种方式)确定了一组权重w和偏置向量b,这使得我们能够使用下式进行预测:
y=wx+b
换言之,权重w和偏置b是线性预测器的参数。w和b的值是在训练过程期间确定的。在运行期间,w和b的值可以用于使用前述方程进行推断(预测),以从特征向量x中获得类别分数y(任意缩放的数字)。在前述方程中,y表示3×1向量,所述向量包含回声路径改变、双端通话事件或该示例中没有事件发生的分数。因此,y可以如下表示:
y=[echo_path_change_score,double_talk_score,no_event_score]^T
前述表达式还暗示b也是3×1向量并且w是3×4矩阵。在一些示例中,所得分数可以被归一化(例如,通过softmax算子),以便产生包含每个事件的概率的另一个3×1向量p,而不是任意缩放的分数,其中,概率向量的第i个元素是
并且有J个类别(在该示例中是3个)。我们将概率最高的类别作为预测事件。在一个示例中,当发生回声路径改变时,p向量可以包括值[0.9,0.05,0.05]。
在该线性分类器示例中,本发明人忽略了MC-AEC的初始收敛周期。在该示例中,用于确定w和b的最佳值的数据仅包含回声路径改变和双端通话事件,因此在该特定实例中,本发明人没有产生被配置成区分这种其他类型的事件的分类器。
前述方法的另一个限制是本发明人仅使用了瞬时特征向量。在一些更有能力和更有用的实施方式中,可以考虑特征向量的时间标记。考虑特征向量的时间标记的一种方式是修改特征向量,以使其除当前向量之外还堆叠最后M个样本,例如,如下:
X[n]=[main_prob[n]-shad_prob[n],mic_prob[n],main_update[n],shadow_update[n];
main_prob[n-1J-shad_prob[n-1],mic_prob[n-1],main_update[n-1],shadow_update[n-1];
main_prob[n-2]-shad_prob[n-2],mic_prob[n-2],main_update[n-2],shadow_update[n-2];
main_prob[n-M]-shad_prob[n-M],mic_prob[n-M],main_update[n-M],shadow_update[n-M];]^T
根据前述表达式,x表示4×(M+1)矩阵并且w表示(M+1)×3矩阵。通过添加一些时间历史,这种分类器将具有更强的判别能力,如参考图7A至图7E中的任一个可以看到的,并且将是更全面的分类器。可替代地或另外地,可以向特征向量添加更多的特征。在一些这样的示例中,特征向量225的集合的特征可以对应于来自子带域自适应滤波器管理模块411的自适应滤波器重置计数。这种自适应滤波器重置计数可以对应于子带域自适应滤波器管理模块411重置自适应滤波器的实例,因为它们的输出已经偏离得太远并且无法恢复。在一些这样的示例中,特征向量225的集合的一个或多个附加特征可以对应于其他类型的滤波器系数数据,如滤波器抽头的功率、幅度、能量和/或相位的跨子带的集合。在一些这样的示例中,特征向量225的集合的特征可以对应于残差输出224的一个或多个特征,如残差功率和/或回声损耗增强(ERLE)。
注意,为了概括以上示例,就信号的维度而言,可以用“number_of_features”(特征数量)代替4,并且用“number_of_classes”(类别数量)代替3。
图9示出了深度神经网络的简单示例,其包含被配置成利用特征向量x中的时间信息的循环神经网络。神经网络900可以例如用于实施局部状态估计器或全局状态估计器。在该示例中,神经网络900经由控制系统160g实施,所述控制系统是上文参考图1B描述的控制系统160的实例。
根据该示例,输入(特征向量x)和输出(估计状态y)没有编号,因为它们可以是局部状态估计或全局状态估计(例如,输入/输出可以是225/226或225/227)。在该示例中,神经网络的第一层910是全连接层,其包括与以上描述的完全线性估计器示例类似的线性分量,然后是非线性激活函数(例如,sigmoid)。根据该示例,第一层输出901的维度可以根据特定实施方式而不同,并且可以由神经网络设计者来选择。
在该示例中,循环神经网络(RNN)911接收第一层输出901并产生RNN输出902,其维度也可以根据特定实施方式而不同。根据该实施方式,最终层912是另一个全连接层,其包括线性分量并具有非线性激活函数,如softmax函数。在该示例中,最终层912产生估计的状态y(n)。
神经网络900可以经由输入数据(如以上参考图7A至图8A描述的输入数据)、使用指示实际声学事件的“真值(ground truth)”、例如通过将神经网络训练成使基于预测的声学事件的概率与实际“真值”声学事件的概率之间的差异的成本函数最小化来进行训练。
图10是概述所公开方法的一个示例的流程图。与本文描述的其他方法一样,不必以所指示的顺序来执行方法1000的框。此外,这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该示例中,方法1000是音频处理方法。
方法1000可以由如图1B中示出且上文描述的装置150的装置或系统执行。在一些示例中,方法1000的框可以由音频环境内的一个或多个设备来执行,例如,由音频系统控制器(如本文中被称为智能家居中枢的设备)或由音频系统的另一个部件来执行,如智能扬声器、电视、电视控制模块、膝上型计算机、移动设备(如蜂窝电话)等。在一些实施方式中,音频环境可以包括家庭环境的一个或多个房间。在其他示例中,音频环境可以是另一种类型的环境,如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。然而,在替代性实施方式中,方法1000的至少一些框可以由实施基于云的服务的设备(如服务器)来执行。
在该实施方式中,框1005涉及由控制系统从音频环境中的第一音频设备的第一子带域声学回声消除器(AEC)接收来自多个第一自适应滤波器管理模块中的每一个的第一自适应滤波器管理数据。在该示例中,所述多个第一自适应滤波器管理模块中的每个第一自适应滤波器管理模块对应于所述第一子带域AEC的一个子带。
此外,在该实施方式中,每个第一自适应滤波器管理模块被配置成控制第一多个自适应滤波器。根据该示例,所述第一多个自适应滤波器至少包括第一自适应滤波器类型和第二自适应滤波器类型。在一些实施方式中,第一自适应滤波器类型可以比第二自适应滤波器类型相对更积极。根据一些实施方式,第一自适应滤波器类型可以是主自适应滤波器,而第二自适应滤波器可以是阴影自适应滤波器。
在该示例中,框1010涉及由控制系统从第一自适应滤波器管理数据中提取第一多个提取的特征。根据该实施方式,所述第一多个提取的特征对应于所述第一子带域AEC的多个子带。
在该实施方式中,框1015涉及由控制系统至少部分地基于所述第一多个提取的特征来估计第一音频设备附近的当前局部声学状态。在一些实施方式中,方法1000可以涉及至少部分地基于所述当前局部声学状态来控制一种或多种类型的音频处理。根据一些这样的示例,控制一种或多种类型的音频处理可以涉及控制对要在音频环境中再现的音频数据的音频处理。在一些这样的示例中,方法1000可以涉及经由音频环境的一个或多个扩音器来再现音频数据。
可替代地或另外地,控制一种或多种类型的音频处理可以涉及控制自动言语识别处理,例如至少部分地由音频环境的一个或多个音频设备(如智能扬声器)实施的自动言语识别处理。在一些这样的示例中,方法1000可以涉及根据经由这样的自动言语识别处理解释的语音命令来控制音频环境的一个或多个扩音器、麦克风或其他设备。
可替代地或另外地,控制一种或多种类型的音频处理可以涉及控制声学回声消除器功能(例如,控制第一子带域AEC的功能)和/或控制音频环境中的噪声补偿处理。在一些这样的示例中,方法1000可以涉及控制经由音频环境的一个或多个扩音器再现的音频数据的水平。在一些示例中,方法1000可以涉及控制经由音频环境的一个或多个扩音器再现的音频数据的渲染。
在一些示例中,当前局部声学状态可以包括言语和再现的音频数据都存在于第一音频设备附近的双端通话状态。在一些实例中,当前局部声学状态可以包括第一音频设备附近的回声路径改变。可替代地或另外地,当前局部声学状态可以涉及第一音频设备的位置的改变、第一音频设备的一个或多个设置的改变、包括第一音频设备的音频系统的配置的改变和/或背景噪声的水平。
根据一些实施方式,第一多个提取的特征可以包括以下各项中的一项或多项:第一自适应滤波器类型产生最低残差功率的概率;第二自适应滤波器类型产生最低残差功率的概率;输入麦克风功率低于经由第一自适应滤波器类型产生的第一残差或经由第二自适应滤波器类型产生的第二残差的概率;第一自适应滤波器类型的第一滤波器系数被复制到第二自适应滤波器类型的自适应滤波器中的速率;或第二自适应滤波器类型的第二滤波器系数被复制到第一自适应滤波器类型的自适应滤波器中的速率。
在一些实施方式中,第一多个自适应滤波器可以至少包括第一至第M自适应滤波器类型,M是3或更大的整数。根据一些这样的实施方式,第一多个提取的特征可以包括以下各项中的一项或多项:第M自适应滤波器类型产生最低残差功率的概率;第二至第(M-1)自适应滤波器类型中的任一种产生最低残差功率的概率;输入麦克风功率低于经由第一至第M自适应滤波器类型中的任一种产生的残差的概率;以及所述第一至第M自适应滤波器类型中的任一种的滤波器系数被复制到所述第一至第M自适应滤波器类型中的任何其他自适应滤波器类型的自适应滤波器中的速率。
根据一些实施方式,方法1000可以涉及从音频环境中的第二至第N音频设备的第二至第N子带域AEC接收来自第二至第N多个自适应滤波器管理模块中的每一个的第二至第N自适应滤波器管理数据,N是大于2的整数。在一些这样的示例中,第二至第N多个自适应滤波器管理模块中的每一个可以对应于第二至第N音频设备之一。
在一些这样的实施方式中,方法1000可以涉及从第二至第N自适应滤波器管理数据中提取第二至第N多个提取的特征。在一些这样的实施方式中,方法1000可以涉及至少部分地基于第一多个提取的特征和第二至第N多个提取的特征来估计音频环境中的当前全局声学状态。在一些替代性实施方式中,方法1000可以涉及基于仅来自音频环境的单个音频设备的输入来估计音频环境中的当前全局声学状态。在一些实施方式中,方法1000可以涉及基于仅来自音频环境的两个音频设备的输入来估计音频环境中的当前全局声学状态。
根据一些这样的实施方式,方法1000可以涉及至少部分地基于当前全局声学状态来控制一种或多种类型的音频处理。在一些这样的示例中,至少部分地基于当前全局声学状态来控制音频数据的一种或多种类型的音频处理可以涉及控制要在音频环境中再现的音频数据的一种或多种类型的音频处理。
在一些实例中,当前全局声学状态可以是或者可以包括言语和再现的音频数据都存在于音频环境的多个音频设备附近的会话模式。根据一些这样的示例,控制一种或多种类型的音频处理可以涉及使音频数据以比检测到的会话声音水平更低的水平再现。
根据一些实施方式,第一自适应滤波器管理数据不包括单独的滤波器系数值。在一些示例中,第一自适应滤波器管理数据不包括第一子带域AEC的残差输出。
图11是被配置成实施区分类器的实施例的一个示例的元件的框图。根据该示例,系统1100包括分布在音频环境的至少一部分中的多个扩音器1104。在该示例中,系统1100包括多声道扩音器渲染器1101。根据该实施方式,多声道扩音器渲染器1101的输出用作扩音器驱动信号(用于驱动扬声器1104的扬声器馈送)和回声参考两者。在该实施方式中,回声参考经由多个扩音器参考通道1102提供给回声管理子系统1103,所述回声参考包括从渲染器1102输出的扬声器馈送信号中的至少一些。
在该实施方式中,系统1100包括多个回声管理子系统1103。根据该示例,回声管理子系统1103被配置成实施一个或多个回声抑制过程和/或一个或多个回声消除过程。在该示例中,每个回声管理子系统1103向唤醒词检测器1106之一提供对应的回声管理输出1103A。回声管理输出1103A已经相对于回声管理子系统1103中的相关回声管理子系统的输入衰减了回声。在该示例中,每个回声管理子系统1103还向唤醒词检测器1106之一和分类器1107提供提取的特征501。提供给唤醒词检测器1106和分类器1107的提取的特征501的类型可以根据特定的实施方式而变化。根据一些实施方式,提供给唤醒词检测器1106和分类器1107的提取的特征501可以包括适于例如在声区水平上估计音频环境中的一个或多个人的位置、移动等的特征。
根据该实施方式,系统1100包括分布在环境(例如,图1A或图1B中所示的环境)的至少一部分中的N个麦克风1105(N为整数)。麦克风可以包括阵列麦克风和/或点麦克风。例如,位于环境中的一个或多个智能音频设备可以包括麦克风阵列。在该示例中,麦克风1105的输出作为输入提供给回声管理子系统1103。根据该实施方式,每个回声管理子系统1103捕获单独麦克风1105或麦克风1105的单独组或子集的输出。
在该示例中,系统1100包括多个唤醒词检测器1106。根据该示例,每个唤醒词检测器1106从回声管理子系统1103之一接收音频输出并且输出多个声学特征1106A。从每个回声管理子系统1103输出的声学特征1106A可以包括(但不限于):唤醒词置信度、唤醒词持续时间和接收水平的测量。尽管描绘三个声学特征1106A的三个箭头示出为从每个回声管理子系统1103输出,但在替代性实施方式中可以输出更多或更少的声学特征1106A。此外,尽管这三个箭头沿或多或少的竖直线碰撞分类器1107,这并不指示分类器1107必须同时从所有唤醒词检测器1106接收声学特征1106A。如本文别处所述,在一些实例中,声学特征1106A可以被异步地确定和/或提供给分类器。
根据该实施方式,系统1100包括区分类器1107,所述区分类器也可以被称为分类器1107。在该示例中,分类器从针对环境中的多个(例如,所有)麦克风1105的多个唤醒词检测器1106接收多个特征1106A。根据该示例,区分类器1107的输出1108与用户当前所在的用户区的估计相对应。根据一些这样的示例,输出1108可以与一个或多个后验概率相对应。根据贝叶斯统计,对用户当前所在的用户区的估计可以是或者可以与最大后验概率相对应。
接下来描述分类器的示例实施方式,所述分类器在一些示例中可以与图11的区分类器1107相对应。设xi(n)为在离散时间n处的第i个麦克风信号i={1…N}(即,麦克风信号xi(n)是N个麦克风1105的输出)。在回声管理子系统1103中对N个信号xi(n)的处理生成‘干净的’麦克风信号ei(n),其中,f={1…N},每个所述麦克风信号在离散时间n处。在该示例中,在图11中被称为1103A的干净的信号ei(n)被馈送到唤醒词检测器1106。此处,每个唤醒词检测器1106产生在图11中被称为1106A的特征向量wi(j),其中,j={1…J}是与第j个唤醒词话语相对应的索引。在该示例中,分类器1107将聚合特征集作为输入。
根据一些实施方式,针对k={1…K}的一组区标签Ck可以与环境中不同用户区的数量K相对应。例如,用户区可以包括沙发区、厨房区、阅读椅区等。一些示例可以定义厨房或其他房间内的多于一个区。例如,厨房区域可以包括水槽区、食物制备区、冰箱区和餐饮区。类似地,客厅区域可以包括沙发区、电视区、阅读椅区、一个或多个门道区等。针对这些区的区标签可以由用户例如在训练阶段期间选择。
在一些实施方式中,分类器1107例如通过使用贝叶斯分类器估计特征集ψ(j)的后验概率p(Ck|W(j))。概率p(Ck|W(j))指示用户在每个区Ck中的概率(针对第j个话语和第k个区,针对每个区Ck,以及每个话语),并且是分类器1107的输出1108的示例。
根据一些示例,可以通过提示用户选择或定义区(例如,沙发区)来收集(例如,针对每个用户区)训练数据。训练过程可以涉及提示用户在所选或定义的区附近发出训练话语,如唤醒词。在沙发区示例中,训练过程可以涉及提示用户在沙发的中心和极端边缘处发出训练话语。训练过程可以涉及提示用户在用户区内的每个位置处重复训练话语若干次。然后可以提示用户移动到另一个用户区并且继续直到所有指定的用户区都被覆盖。
因为本公开的一些方面涉及检测和区分与附近的人相对应的声学状态的改变,所以在一些示例中,音频设备可以利用LED灯或其他视觉指示器的相互照明来优雅地使自身为人所知。在一些示例中,这种类型的视觉反馈可以在人们用唤醒词寻址音频设备之前可用。在一些实例中,这种反馈不仅可以包括细微的视觉指示,而且控制音频设备上的回放和/或捕获处理可以在预期唤醒话语时应用,以便更好地处理人的预期言语。
众所周知,将智能音频设备配置在离散物理区中以检测用户(已经说出了已经由设备检测到的唤醒词),并且通过传输区中用户可以看到或听到的视觉信号和/或听觉信号来响应唤醒词。一些公开的实施例通过将(系统的)一个或多个智能音频设备配置成将用户的位置视为不确定的(在一些不确定的体积或区域内),并且通过使用不确定的体积(或区域)内的所有可用智能音频设备来通过设备的一个或多个(例如,所有)状态或操作模式来提供系统的“注意力”的空间变化的表达,来实施与该已知方法的偏离。在一些实施例中,目标不是挑选离用户最近的单个设备并且覆盖其当前设置,而是根据相关性度量来调制所有设备的行为,在一些示例中,所述相关性度量可以至少部分地基于设备与用户的估计接近度。这给人一种系统将其关注集中在局部区域的感觉,从而消除了当用户试图引起设备中的较近设备的关注时,远设备表明系统正在收听的不和谐的体验。根据一些示例,相关性度量可以至少部分地基于以上描述的估计的局部声学状态信息226A和/或当前全局声学状态估计227。
一些实施例通过定义和实施每个设备生成注意力信号(例如,响应于唤醒词)的能力来提供(或被配置成提供)环境或环境的区中所有智能音频设备的协调利用。在一些实施方式中,一些或所有设备可以被配置成将注意力信号“混合”到当前配置中(和/或生成至少部分地由所有设备的当前配置确定的注意力信号)。在一些实施方式中,每个设备可以被配置成确定距某一位置的距离的概率估计,如设备距用户位置的距离。一些这样的实施方式可以以与用户感知相关的方式提供系统行为的内聚的、编排的表达。
对于包括(或耦接到)至少一个扬声器的智能音频设备,注意力信号可以是从至少一个这种扬声器发射的声音。替代性地或另外地,注意力信号可以是一些其他类型的(例如,光)。在一些示例中,注意力信号可以是或者包括两个或更多个部件(例如,发射的声音和光)。
根据一些示例,注意力信号可以包括在话语的时间之前对由区内的设备生成的至少一个先前信号的调制。例如,如果灯具或光源系统先前已经发射光信号,则调制可以是颜色调制、颜色饱和度调制和/或光强度调制。如果先前信号已经是声音信号,则调制可以包括电平或音量调制、频率调制等。在一些示例中,调制可以是风扇速度的变化、火焰大小的变化、马达转速的变化和/或空气流速的变化。
根据一些实施方式,调制可以是“膨胀”。膨胀可以是或者可以包括预定的信号调制序列。在一些实例中,膨胀可以包括注意力信号调制的不同包络。膨胀可以被设计成提供反映关注(或注意力)的自然节奏的注意力信号调制的时序。膨胀的轨迹有时被设计成避免在边缘点处(例如,在膨胀的开始和结束处)出现任何突然变化的感觉。膨胀包络可以例如包括攻击,所述攻击是在第一时间间隔期间注意力信号电平从基线电平增加到局部最大电平。局部最大电平可以根据注意力信号的类型(例如,是光、声音还是其他)、信号将如何被调制(例如,光强度、颜色或颜色饱和度变化)以及注意力信号是旨在对应于“可检测的”条件还是“命令的”条件而变化。在其他示例中,膨胀的第一时间间隔可以对应于注意力信号电平从基线电平减少到局部最小电平。
一些这样的实施方式可以涉及在系统环境(例如,生活空间的灯、扬声器、风扇、壁炉等)中使用可变输出设备(在一些实例中,其可以是连续可变输出设备),所述可变输出设备可以用于其他目的,但是能够围绕其当前操作点进行调制。一些示例可以提供(多个)可变注意力指示(例如,具有膨胀的可变注意力信号),例如,以指示关注跨一组设备的变化表达(例如,变化量)。一些实施方式可以被配置成基于用户信号传输的估计强度和/或(多个)用户位置的置信度的函数来控制(多个)可变注意力信号(例如,膨胀)。
图12是示出了根据一些实施方式的注意力表达特征的示例的框图。在该示例中,图12指示可变信号传输强度1205(例如,用户说出的唤醒词的信号传输强度)和可变信号源的位置的可变概率1210。图12还指示了对不同智能音频设备(例如,虚拟助理)的可变信号传输的响应。设备在设备组1220和1225中,并且这些设备包括可激活灯或者与可激活灯相关联(例如,被配置用于与可激活灯通信)。如图12中所指示的,每个设备可以被包括在不同的组中。图12的“设备组”基于如休息室、厨房等对应的区。一个区可以包含多个音频设备和/或灯。区可以重叠,因此任何音频设备、灯等都可以位于多个区中。因此,代替或除了与设备相关联之外,灯、音频设备等可以与区相关联。某些灯、音频设备等可以更强(或更弱)地与每个区相关联,并且因此可以与不同的膨胀百分比相关联。在一些示例中,膨胀百分比可以对应于相关性度量。在一些实施方式中,这些相关性度量可以手动地设置并且在表格中捕获,例如,如图12中所示。在其他示例中,可以根据距离试探法或概率自动确定相关性度量,例如,如上文所描述的。
例如,响应于唤醒词(具有确定的强度并且具有以不确定性确定的原点位置),可以激活设备的两个不同的灯或者与设备相关联的两个不同的灯,以产生时变注意力信号。因为在该示例中,注意力信号部分地基于设备与唤醒词的原点位置之间的估计距离,所述估计距离根据每个设备的位置而变化,所以注意力信号也是空间变化的。
在图12中所示的示例中,信号传输强度(1205)可以对应于例如上文所讨论的“唤醒词置信度”。在该示例中,所有区(厨房、休息室等)的位置概率1210对应于上文所讨论的区概率(例如,在范围[0,1]内)。图12示出了与每个区相对应的每个灯具有不同的行为(可以对应于“相关性度量”)的示例。如果灯、音频设备等与多个区相关联,则在一些实施方式中,控制系统可以被配置成确定每个相关区的最大输出。
图13是根据实施方式的在环境(例如,家庭)中实施的系统的框图。系统实施“跟我来”机制来跟踪用户位置。在图13中,标记的元件为:
1301:被配置成获取输入并且(响应于所述输入)做出关于用于确定的活动(例如,由输入1306A指示)的最佳麦克风和扩音器的决定的子系统(有时被称为模块或“跟我来”模块);
1301A:指示关于用于确定的活动和/或用户(例如,说话者)当前所在的区(例如,由区映射1303指示的区之一)的系统的(多个)最佳扩音器的决定(在模块1301中确定)的数据;
1301B:指示关于用于确定的活动和/或所述用户当前所在的区(例如,由区映射1303指示的区之一)的系统的(多个)最佳麦克风的决定(在模块1301中确定)的数据;
1302:被配置成确定用户(例如,说话者)例如在环境的区内的位置的用户位置子系统(模块)。在一些实施方式中,子系统1302被配置成(例如,根据从麦克风1305中的至少一些得到的多个声学特征)估计用户的区。在一些这样的实施方式中,目标不是估计用户的确切几何位置,而是对用户所在的离散区(例如,在存在严重噪声和残余回声的情况下)形成稳健的估计;
1302A:由模块1302确定并且断言到模块1301的指示用户(说话者)当前位置的信息(数据);
1303:提供指示系统的环境的区的区映射以及按在区中的位置分组的系统的所有麦克风和扩音器的列表的区映射子系统。在一些实施方式中,子系统1303是或者包括存储指示区映射的数据的存储器;
1303A:(在系统的一些实施方式中)断言到模块1301和/或模块1302的关于(区映射的)至少一个区以及包含在区映射的每个这样的区(例如,区的至少一个子集中的每一个)中的多个麦克风和扩音器的信息(数据);
1304:经耦接并且被配置成对麦克风1305的输出执行预处理的预处理子系统。子系统1304可以实施一个或多个麦克风预处理子系统(例如,特征提取子系统、声学状态估计子系统、回声管理子系统、唤醒词检测器和/或言语识别子系统等);
1304A:由子系统1304生成和从其输出的(多个)经预处理的麦克风信号;
1315:由预处理子系统1304生成并从其输出的提取的特征和/或声学状态信息。输出1315可以例如对应于以上描述的提取的特征501、提取的特征601、估计的局部声学状态信息226和/或全局声学状态信息627;
1305:多个麦克风;
1306:经耦接并且被配置成实施至少一个当前音频活动(例如,多个当前正在进行的音频活动)的子系统。每个这样的音频活动(为了方便起见,有时在本文中被称为“活动”)包括检测声音(使用至少一个麦克风)和/或产生声音(通过从至少一个扩音器发出声音)。这样的音频活动的示例包括但不限于音乐回放(例如,包括提供音频以供子系统1307进行渲染的步骤)、播客(例如,包括提供音频以供子系统1307进行渲染的步骤)、和/或电话呼叫(例如,包括提供电话会议音频以供子系统1307进行渲染,以及处理和/或传输提供给子系统1304的每个麦克风信号);
1306A:由子系统1306生成并且从子系统1306断言到模块1301的关于由子系统1306实施的当前正在进行的一个或多个活动的信息(数据);
1307:经耦接并且被配置成渲染在执行系统的至少一个当前活动期间生成的或以其他方式提供的音频(例如,通过生成用于驱动扬声器1308的扬声器馈送)的多声道扩音器渲染器子系统。在该示例中,子系统1307向扬声器1308和预处理子系统1304提供渲染器输出1320。例如,子系统1307可以被实施为渲染音频以供扬声器1308(其可以在不同的智能音频设备中实施或耦接到不同的智能音频设备)的子集回放,使得根据数据1301A,在用户的当前位置(例如,区),由相关扩音器发出的声音是用户(例如,清楚地,或以最佳或期望的方式)可感知的;
1308:多个扩音器;以及
1314:来自用户(例如,说话者)的(多个)语音命令,在系统的典型实施方式中,所述(多个)语音命令从子系统1304输出并且提供给模块1301。
元件1301、1302和1303(或元件1302和1303)可以被统称为图13的系统的用户位置和活动控制子系统。
图13的系统的元件可以在智能音频设备中实施或耦接到智能音频设备。例如,所有或一些扩音器1308和/或所有或一些麦克风1305可以在一个或多个智能音频设备中实施或耦接到一个或多个智能音频设备,或者至少一些麦克风和扩音器可以在连接到蓝牙发射器/接收器(例如,智能电话)的蓝牙设备中实施。又例如,图13的系统的一个或多个其他元件(例如,所有或一些元件1301、1302、1303、1304和1306)可以在智能音频设备中实施或耦合到智能音频设备。在一些示例实施方式中,“跟我来”模块1301通过响应于(由用户发出)并且由系统的至少一个麦克风检测到的声音跟踪用户位置进行操作(并且其他系统元件操作)以协调(编排)智能音频设备。例如,这样的协调包括协调要由系统的(多个)元件发出的声音的渲染和/或系统的(多个)麦克风的(多个)输出的处理、和/或由系统(例如,由系统的元件1306)实施的至少一项活动。
通常,子系统1302与子系统1303紧密集成。子系统1302可以接收所有或一些(例如,两个或更多个)麦克风1305(在一些示例中其可以被实施为异步麦克风)的输出。子系统1302可以实施分类器,在一些示例中,所述分类器在系统的智能音频设备中实施。在其他示例中,分类器可以由经耦接并且被配置用于与麦克风通信的系统的另一种类型的设备(例如,未被配置成提供音频的智能设备)来实施。例如,至少一些麦克风1305可以是不包括在任何智能音频设备中但被配置用于与将子系统1302实施为分类器的设备通信的(例如,家用电器中的)离散麦克风,并且所述分类器可以被配置成根据从每个麦克风的输出信号得到的多个声学特征来估计用户的区。在一些这样的实施方式中,目标不是估计用户的确切几何位置,而是对离散区(例如,在存在严重噪声和残余回声的情况下)形成稳健的估计。
本文中,环境中的对象、用户或说话者的“几何位置”(在先前和后面的描述中提及)这一表达是指参考作为整体的系统环境(例如,根据原点在环境内某处的笛卡尔坐标系或极坐标系)或参考环境内的特定设备(例如,智能音频设备)(例如,根据以设备为原点的笛卡尔坐标系或极坐标系)的基于坐标系(例如,参考GPS坐标的坐标系)的位置。在一些实施方式中,子系统1302被配置成在不参考麦克风1305的几何位置的情况下确定用户在环境中的位置的估计。
“跟我来”模块1301经耦接并且被配置成响应于多个输入(1302A、1303A、1306A和1314中的一个或多个)而操作,并且产生输出1301A和1301B中的一个或两者。接下来更详细地描述输入的示例。
输入1303A可以指示关于区映射的每个区(有时被称为声学区)的信息,包括但不限于以下各项中的一项或多项:位于每个区内的系统的设备(例如,智能设备、麦克风、扩音器等)的列表、每个区(例如,在与几何位置单位相同的坐标系中)的(多个)维度、每个区(例如,厨房、客厅、卧室、电视区域等)相对于环境和/或相对于其他区的几何位置、系统的每个设备(例如,相对于其各自的区和/或相对于其他设备)的几何位置、和/或每个区的名称。
输入1302A可以是或者包括关于以下各项中的所有或一些的实时信息(数据):用户(说话者)所在的声学区、说话者在这种区内的几何位置、以及说话者在这种区中停留了多长时间。输入1302A还可以包括用户位置模块1302对前一句中提到的任何信息的准确性或正确性的置信度,和/或(例如,在过去的N小时内,其中,参数N是可配置的)说话者移动的历史。
输入1314可以是用户(说话者)发出的一个语音命令或两个或更多个语音命令,每个所述语音命令都已被预处理子系统1304检测到(例如,与“跟我来”模块1301的功能相关或不相关的命令)。
模块1301的输出1301A是对渲染子系统(渲染器)1307根据说话者的当前(例如,最近确定的)声学区来适配处理的指令。模块1301的输出1301B是对预处理子系统1304根据说话者的当前(例如,最近确定的)声学区来适配处理的指令。
输出1301A可以指示说话者相对于说话者的当前声学区的几何位置,以及每个扩音器1308相对于说话者的几何位置和距离,例如,以使渲染器1307执行被估计为对于由系统实施的相关活动是最佳渲染的渲染。最佳渲染可以取决于活动和区,并且可选地还取决于说话者的先前确定的(例如,记录的)偏好。例如,如果活动是电影并且说话者在客厅里,则输出1301A可以指示渲染器1307使用尽可能多的扩音器回放电影的音频,以实现电影院般的体验。如果活动是音乐或播客并且说话者在厨房里或在卧室里,则输出1301A可以指示渲染器1307仅使用最近的扩音器来渲染音乐,以实现更温馨的体验。
输出1301B可以指示供子系统1304使用的一些或所有麦克风1305(例如,其(多个)输出不应被忽略而是应由子系统1304使用(例如,处理)的(多个)麦克风)的经排序的列表,以及每个这样的麦克风相对于用户(说话者)的几何位置。在一些实施方式中,子系统1304可以以由以下各项中的一项或多项确定的方式处理一些或全部麦克风1305的输出:每个麦克风与说话者的距离(如由输出1301B所指示的);每个麦克风的唤醒词评分(例如,麦克风听到用户说出的唤醒词的可能性)(如果可用的话);每个麦克风的信噪比(例如,相对于从麦克风捕获的环境噪声和/或音频回放,说话者说出的言语更响亮的程度);或前述各项中的两项或更多项的组合。唤醒词评分和信噪比可以由预处理子系统1304来计算。在一些应用程序如电话呼叫中,子系统1304可以仅使用麦克风1305中最好的一个的输出(如列表所指示的),或者可以使用来自列表中的多个麦克风的信号来实施波束成形。要实施一些应用程序如(例如)分布式言语识别器或分布式唤醒词检测器,子系统1304可以使用多个麦克风1305的输出(例如,从由输出1301B指示的经排序的列表确定,其中,排序可以是,例如,按照与用户的接近度的顺序)。
在一些示例性应用程序中,子系统1304(带有模块1301和1302)实施试图使用(例如,至少部分地响应于)输出1301B来更有效地从用户的区拾取声音(例如,以更好地识别跟随唤醒词的命令)的麦克风选择或适应性波束成形方案。在这样的场景中,模块1302可以使用子系统1304的输出1304A作为关于用户区预测的质量的反馈,以在任何各种情况下改进用户区确定,包括(但不限于)以下各项:
惩罚导致错误识别跟在唤醒词之后的语音命令的预测。例如,导致用户(例如,通过发出反命令,例如,“Amanda,停下!”)打断语音助理对命令的响应的用户区域预测可能会受到惩罚;
惩罚导致低置信度的(由子系统1304实施的)言语识别器已成功识别命令的预测;
惩罚导致(由子系统1304实施的)第二遍唤醒词检测器无法以高置信度回顾性地检测唤醒词的预测;和/或
加强导致高度确信地识别唤醒词和/或正确识别用户的语音命令的预测。
图14示出了音频环境的平面图的示例,所述音频环境在该示例中是生活空间。与本文提供的其他图一样,图14所示的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。
根据该示例,环境1400包括在左上方处的客厅1410、在下方中央处的厨房1415、以及在右下方的卧室1422。跨生活空间分布的方框和圆圈表示一组扩音器1405a-1405h,所述一组扩音器中的至少一些扩音器在一些实施方式中可以是智能扬声器,放置在对空间方便的位置,但不遵循任何标准规定的布局(任意地放置)。在一些示例中,电视1430可以被配置成至少部分地实施一个或多个公开的实施例。在该示例中,环境1400包括分布在整个环境中的相机1411a-1411e。在一些实施方式中,环境1400中的一个或多个智能音频设备还可以包括一个或多个相机。所述一个或多个智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中,可选传感器系统130的一个或多个相机可以驻留在电视1430中或上、在移动电话中或在智能扬声器(如扩音器1405b、1405d、1405e或1405h中的一个或多个)中。尽管在本公开中呈现的环境1400的每个描绘中都未示出相机1411a-1411e,但在一些实施方式中,每个环境1400仍然可以包括一个或多个相机。
本公开的一些方面包括一种被配置(例如,被编程)成执行所公开的方法的一个或多个示例的系统或设备,以及一种存储用于实施所公开的方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如,磁盘)。例如,一些公开的系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器,所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置成对数据执行各种操作中的任一个,包括所公开的方法或其步骤的实施例。这样的通用处理器可以是或者包括计算机系统,所述计算机系统包括输入设备、存储器和处理子系统,所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开的方法(或其步骤)的一个或多个示例。
一些实施例可以被实施为可配置的(例如,可编程的)数字信号处理器(DSP),所述数字信号处理器被配置(例如,被编程和以其他方式被配置)为对(多个)音频信号执行需要的处理,包括对所公开的方法的一个或多个示例的执行。可替代地,所公开的系统(或其元件)的实施例可以被实施为通用处理器(例如,个人计算机(PC)或其他计算机系统或微处理器,其可以包括输入设备和存储器),所述通用处理器用软件或固件编程为和/或以其他方式被配置成执行各种操作中的任一个,包括所公开的方法的一个或多个示例。可替代地,本发明系统的一些实施例的元件被实施为被配置(例如,被编程)成执行所公开的方法的一个或多个示例的通用处理器或DSP,并且所述系统还包括其他元件(例如,一个或多个扩音器和/或一个或多个麦克风)。被配置成执行所公开的方法的一个或多个示例的通用处理器可以耦接到输入设备(例如,鼠标和/或键盘)、存储器和显示设备。
本公开的另一方面是一种计算机可读介质(例如,磁盘或其他有形存储介质),所述计算机可读介质存储用于执行所公开方法或其步骤的一个或多个示例的代码(例如,可执行以执行所公开方法或其步骤的一个或多个示例的编码器)。
虽然在本文中已经描述了本公开的具体实施例和本公开的应用,但是对于本领域普通技术人员而言显而易见的是,在不脱离本文描述的并要求保护的本公开的范围的情况下,可以对本文描述的实施例和应用进行许多改变。应当理解,虽然已经示出和描述了本公开的某些形式,但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。
可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面:
EEE1.一种音频处理方法,包括:
由控制系统从音频环境中的第一音频设备的第一子带域声学回声消除器(AEC)接收来自多个第一自适应滤波器管理模块中的每一个的第一自适应滤波器管理数据,所述多个第一自适应滤波器管理模块中的每个第一自适应滤波器管理模块对应于所述第一子带域AEC的一个子带,每个第一自适应滤波器管理模块被配置成控制第一多个自适应滤波器,所述第一多个自适应滤波器至少包括第一自适应滤波器类型和第二自适应滤波器类型;
由所述控制系统从所述第一自适应滤波器管理数据中提取第一多个提取的特征,所述第一多个提取的特征对应于所述第一子带域AEC的多个子带;以及
由所述控制系统至少部分地基于所述第一多个提取的特征来估计所述第一音频设备附近的当前局部声学状态。
EEE2.如EEE 1所述的方法,进一步包括至少部分地基于所述当前局部声学状态来控制一种或多种类型的音频处理。
EEE3.如EEE 2所述的方法,其中,控制一种或多种类型的音频处理涉及控制对要在所述音频环境中再现的音频数据的音频处理。
EEE4.如EEE 2或EEE 3所述的方法,其中,控制一种或多种类型的音频处理涉及控制自动言语识别处理。
EEE5.如EEE 2至4中任一项所述的方法,其中,控制一种或多种类型的音频处理涉及控制噪声补偿处理。
EEE6.如EEE 2至5中任一项所述的方法,其中,控制一种或多种类型的音频处理涉及控制所述第一子带域AEC。
EEE7.如EEE 1至6中任一项所述的方法,其中,所述当前局部声学状态包括言语和再现的音频数据都存在于所述第一音频设备附近的双端通话状态。
EEE8.如EEE 1至7中任一项所述的方法,其中,所述当前局部声学状态包括所述第一音频设备附近的回声路径改变。
EEE9.如EEE 1至8中任一项所述的方法,其中,所述当前局部声学状态包括以下各项中的一项或多项:所述第一音频设备的位置的改变、所述第一音频设备的一个或多个设置的改变、包括所述第一音频设备的音频系统的配置的改变、回放音频的水平、或背景噪声的水平。
EEE10.如EEE 1至9中任一项所述的方法,其中,所述第一多个提取的特征包括以下各项中的一项或多项:所述第一自适应滤波器类型的第一滤波器系数被复制到所述第二自适应滤波器类型的自适应滤波器中的速率,或所述第二自适应滤波器类型的第二滤波器系数被复制到所述第一自适应滤波器类型的自适应滤波器中的速率。
EEE11.如EEE 1至9中任一项所述的方法,其中,所述第一多个提取的特征包括来自由以下各项构成的特征列表的一个或多个特征:所述第一自适应滤波器类型在某一时间间隔期间产生最低残差功率的概率;所述第二自适应滤波器类型在所述时间间隔期间产生最低残差功率的概率;输入麦克风功率在所述时间间隔期间低于经由所述第一自适应滤波器类型产生的第一残差或经由所述第二自适应滤波器类型产生的第二残差的概率;所述第一自适应滤波器类型在多个子带中产生最低残差功率的概率;所述第二自适应滤波器类型在所述多个子带中产生最低残差功率的概率;输入麦克风功率在所述多个子带中低于经由所述第一自适应滤波器类型产生的第一残差或经由所述第二自适应滤波器类型产生的第二残差的概率。
EEE12.如EEE 1至11中任一项所述的方法,其中,所述第一多个自适应滤波器至少包括第一至第M自适应滤波器类型,M是3或更大的整数。
EEE13.如EEE 12所述的方法,其中,所述第一多个提取的特征包括来自由以下各项构成的特征列表的一个或多个特征:第M自适应滤波器类型产生最低残差功率的概率;第二至第(M-1)自适应滤波器类型中的任一种产生最低残差功率的概率;输入麦克风功率低于经由第一至第M自适应滤波器类型中的任一种产生的残差的概率;以及所述第一至第M自适应滤波器类型中的任一种的滤波器系数被复制到所述第一至第M自适应滤波器类型中的任何其他自适应滤波器类型的自适应滤波器中的速率。
EEE14.如EEE 1至13中任一项所述的方法,进一步包括:
从所述音频环境中的第二至第N音频设备的第二至第N子带域AEC接收来自第二至第N多个自适应滤波器管理模块中的每一个的第二至第N自适应滤波器管理数据,所述第二至第N多个自适应滤波器管理模块中的每一个对应于所述第二至第N音频设备之一,N是大于2的整数;
从所述第二至第N自适应滤波器管理数据中提取第二至第N多个提取的特征;以及
至少部分地基于所述第一多个提取的特征和所述第二至第N多个提取的特征来估计所述音频环境中的当前全局声学状态。
EEE15.如EEE 14所述的方法,进一步包括至少部分地基于所述当前全局声学状态来控制一种或多种类型的音频处理。
EEE16.如EEE 15所述的方法,其中,至少部分地基于所述当前全局声学状态来控制音频数据的一种或多种类型的音频处理涉及控制要在所述音频环境中再现的音频数据的一种或多种类型的音频处理。
EEE17.如EEE 1至16中任一项所述的方法,其中,所述方法涉及估计当前全局声学状态,其中,所述当前全局声学状态包括多个人处于所述音频环境中的聚会状态,并且其中,控制如何渲染音频数据涉及使得所述音频数据根据分布式渲染模式被渲染。
EEE18.如EEE 1至17中任一项所述的方法,其中,所述第一自适应滤波器类型比所述第二自适应滤波器类型相对更积极。
EEE19.如EEE 1至18中任一项所述的方法,其中,所述第一自适应滤波器类型是线性自适应滤波器类型,并且所述第二自适应滤波器类型是非线性自适应滤波器类型。
EEE20.如EEE 1至19中任一项所述的方法,其中,所述第一自适应滤波器类型是主自适应滤波器,并且所述第二自适应滤波器类型是阴影自适应滤波器。
EEE21.如EEE 1至20中任一项所述的方法,其中,所述第一自适应滤波器和所述第二自适应滤波器通过不同的自适应滤波算法进行更新。
EEE22.如EEE 1至21中任一项所述的方法,其中,所述第一自适应滤波器包括比所述第二自适应滤波器更大数值的适应滤波器系数值。
EEE23.如EEE 1至22中任一项所述的方法,其中,所述第一自适应滤波器管理数据不包括单独的滤波器系数值。
EEE24.如EEE 1至23中任一项所述的方法,其中,所述第一自适应滤波器管理数据不包括所述第一子带域AEC的残差输出。
EEE25.一种装置,所述装置被配置成执行如EEE 1至24中任一项所述的方法。
EEE26.一种系统,所述系统被配置成执行如EEE 1至24中任一项所述的方法。
EEE27.一个或多个其上存储有软件的非暂态介质,所述软件包括用于控制一个或多个设备执行如EEE 1至24中任一项所述的方法的指令。

Claims (15)

1.一种音频处理方法,包括:
从音频环境中的第一音频设备的第一子带域声学回声消除器(AEC)接收来自多个第一自适应滤波器管理模块中的每一个的第一自适应滤波器管理数据,所述多个第一自适应滤波器管理模块中的每个第一自适应滤波器管理模块对应于所述第一子带域AEC的一个子带,每个第一自适应滤波器管理模块被配置成控制第一多个自适应滤波器,所述第一多个自适应滤波器至少包括第一自适应滤波器类型和第二自适应滤波器类型,其中,所述第一多个自适应滤波器的每个自适应滤波器用于产生相应子带的回声消除信号;
从所述第一自适应滤波器管理数据中提取第一多个提取的特征,所述第一多个提取的特征对应于所述第一子带域AEC的多个子带;以及
至少部分地基于所述第一多个提取的特征来估计所述第一音频设备附近的当前局部声学状态,
其中,所述第一多个提取的特征包括来自由以下各项构成的特征列表的一个或多个特征:
-经由所述第一自适应滤波器类型产生的回声消除信号在所述多个子带中具有最低功率的概率;
-经由所述第二自适应滤波器类型产生的回声消除信号在所述多个子带中具有最低功率的概率;
-输入麦克风功率低于经由所述第一多个自适应滤波器中的任一个产生的回声消除信号的功率的概率。
2.如权利要求1所述的方法,进一步包括至少部分地基于所述当前局部声学状态来控制一种或多种类型的音频处理。
3.如权利要求2所述的方法,其中,控制一种或多种类型的音频处理涉及控制对要在所述音频环境中再现的音频数据的音频处理。
4.如权利要求2或权利要求3所述的方法,其中,控制一种或多种类型的音频处理涉及控制自动言语识别处理、控制噪声补偿处理、控制所述第一子带域AEC或其组合。
5.如权利要求1至4中任一项所述的方法,其中,所述当前局部声学状态包括以下各项中的至少一项:言语和再现的音频数据都存在于所述第一音频设备附近的双端通话状态,或所述第一音频设备附近的回声路径改变。
6.如权利要求1至5中任一项所述的方法,其中,所述当前局部声学状态包括以下各项中的一项或多项:所述第一音频设备的位置的改变、所述第一音频设备的一个或多个设置的改变、包括所述第一音频设备的音频系统的配置的改变、回放音频的水平、或背景噪声的水平。
7.如权利要求1至6中任一项所述的方法,其中,所述第一多个提取的特征包括以下各项中的一项或多项:所述第一自适应滤波器类型的第一滤波器系数被复制到所述第二自适应滤波器类型的自适应滤波器中的速率,或所述第二自适应滤波器类型的第二滤波器系数被复制到所述第一自适应滤波器类型的自适应滤波器中的速率。
8.如权利要求1至7中任一项所述的方法,其中,所述第一多个自适应滤波器至少包括第一至第M自适应滤波器类型,M是3或更大的整数,并且其中,所述第一多个提取的特征包括来自由以下各项构成的特征列表的一个或多个特征:
-经由第M自适应滤波器类型产生的回声消除信号具有最低功率的概率;
-经由第二至第(M-1)自适应滤波器类型中的任一种产生的回声消除信号具有最低功率的概率;
-输入麦克风功率低于经由所述第一至第M自适应滤波器类型中的任一种产生的回声消除信号的功率的概率;以及所述第一至第M自适应滤波器类型中的任一种的滤波器系数被复制到所述第一至第M自适应滤波器类型中的任何其他自适应滤波器类型的自适应滤波器中的速率。
9.如权利要求1至8中任一项所述的方法,进一步包括:
从所述音频环境中的第二至第N音频设备的第二至第N子带域AEC接收来自第二至第N多个自适应滤波器管理模块中的每一个的第二至第N自适应滤波器管理数据,所述第二至第N多个自适应滤波器管理模块中的每一个对应于所述第二至第N音频设备之一,N是大于2的整数;
从所述第二至第N自适应滤波器管理数据中提取第二至第N多个提取的特征;
至少部分地基于所述第一多个提取的特征和所述第二至第N多个提取的特征来估计所述音频环境中的当前全局声学状态;以及
至少部分地基于所述当前全局声学状态来控制一种或多种类型的音频处理。
10.如权利要求1至9中任一项所述的方法,其中,所述第一自适应滤波器类型是线性自适应滤波器类型,并且所述第二自适应滤波器类型是非线性自适应滤波器类型。
11.如权利要求1至10中任一项所述的方法,其中,所述第一自适应滤波器类型和所述第二自适应滤波器类型通过不同的自适应滤波算法进行更新。
12.如权利要求1至11中任一项所述的方法,其中,所述第一自适应滤波器管理数据不包括单独的滤波器系数值。
13.如权利要求1至12中任一项所述的方法,其中,所述第一自适应滤波器管理数据不包括所述第一子带域AEC的输出,其中,所述第一子带域AEC的输出是从由所述多个第一自适应滤波器管理模块输出的子带域回声消除信号生成的全带回声消除信号。
14.一种装置,所述装置被配置成执行如权利要求1至13中任一项所述的方法。
15.一种或多种非暂态介质,其上存储有软件,所述软件包括用于控制一个或多个设备执行如权利要求1至13中任一项所述的方法的指令。
CN202180092511.9A 2020-12-03 2021-12-02 基于子带域声学回声消除器的声学状态估计器 Pending CN116783900A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US63/120,824 2020-12-03
US202163200590P 2021-03-16 2021-03-16
US63/200,590 2021-03-16
EP21164808.4 2021-03-25
PCT/US2021/061661 WO2022120085A1 (en) 2020-12-03 2021-12-02 Subband domain acoustic echo canceller based acoustic state estimator

Publications (1)

Publication Number Publication Date
CN116783900A true CN116783900A (zh) 2023-09-19

Family

ID=88010254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180092511.9A Pending CN116783900A (zh) 2020-12-03 2021-12-02 基于子带域声学回声消除器的声学状态估计器

Country Status (1)

Country Link
CN (1) CN116783900A (zh)

Similar Documents

Publication Publication Date Title
US10553235B2 (en) Transparent near-end user control over far-end speech enhancement processing
US20210035563A1 (en) Per-epoch data augmentation for training acoustic models
JP2018528479A (ja) スーパー広帯域音楽のための適応雑音抑圧
US20230319190A1 (en) Acoustic echo cancellation control for distributed audio devices
KR102409536B1 (ko) 오디오 디바이스에서 재생 관리를 위한 사건 검출
CN104021798B (zh) 用于通过具有可变频谱增益和可动态调制的硬度的算法对音频信号隔音的方法
JP2021505933A (ja) 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調
KR102550030B1 (ko) 오디오 디바이스들의 조정
JP2020115206A (ja) システム及び方法
WO2022253003A1 (zh) 语音增强方法及相关设备
CN115482830A (zh) 语音增强方法及相关设备
CN114747233A (zh) 内容和环境感知的环境噪声补偿
JP6977768B2 (ja) 情報処理装置、情報処理方法、音声出力装置、および音声出力方法
CN116783900A (zh) 基于子带域声学回声消除器的声学状态估计器
US20230421952A1 (en) Subband domain acoustic echo canceller based acoustic state estimator
WO2023086273A1 (en) Distributed audio device ducking
US20230076871A1 (en) Method, hearing system, and computer program for improving a listening experience of a user wearing a hearing device
CN116830561A (zh) 回声参考优先级排序和选择
EP4292271A1 (en) Echo reference prioritization and selection
CN116547753A (zh) 机器学习辅助的空间噪声估计和抑制
CN116547751A (zh) 针对遍布式聆听插入强制间隙
EP4005249A1 (en) Estimating user location in a system including smart audio devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40093392

Country of ref document: HK