CN110557710B

CN110557710B - 具有语音控制的低复杂度多声道智能扩音器

Info

Publication number: CN110557710B
Application number: CN201910461816.7A
Authority: CN
Inventors: U.霍尔巴赫; M.克龙拉赫纳
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2018-05-31
Filing date: 2019-05-30
Publication date: 2022-11-11
Anticipated expiration: 2039-05-30
Also published as: KR102573843B1; EP3576426A1; US10667071B2; US20190373390A1; EP3576426B1; CN110557710A; KR20190136940A

Abstract

本公开提供一种具有语音控制的低复杂度多声道智能扩音器。具体提供一种数字信号处理器，其被编程为：从立体声输入中提取中心声道；使用第一组有限脉冲响应滤波器和第一旋转矩阵，将所述中心声道应用于扬声器元件阵列，以目标角围绕轴产生第一束音频内容；使用第二组有限脉冲响应滤波器和第二旋转矩阵，将所述立体声输入的左声道应用于所述扬声器元件阵列，以从所述目标角的第一偏移角围绕所述轴产生第二束音频内容；以及使用第三组有限脉冲响应滤波器和第三旋转矩阵，将所述立体声输入的右声道应用于所述扬声器元件阵列，以从所述目标角的第二偏移角围绕所述轴产生第三束音频内容。

Description

具有语音控制的低复杂度多声道智能扩音器

技术领域

本公开的各方面总体涉及一种具有语音控制的低复杂度多声道智能扩音器。

背景技术

具有语音控制和互联网连接功能的智能扩音器越来越受欢迎。终端用户期望产品执行各种功能，包括：即使在播放音乐也能理解用户从房间里任何遥远点处传来的声音、迅速响应用户请求并与用户互动、专注于一个语音命令而抑制其他语音命令、播放具有高质量的立体声音乐、在房间里播放音乐能达到小型家庭影院系统的效果，和自动调整到在房间里听音乐的用户位置。

发明内容

在一个或多个说明性示例中，一种智能扩音器包括：N个扬声器元件的阵列，其围绕轴以圆形配置设置且配置用于多声道音频播放；和数字信号处理器。所述数字信号处理器配置成：从立体声输入中提取中心声道；使用第一组有限输入响应滤波器和第一旋转矩阵，将所述中心声道应用于所述扬声器元件阵列，以目标角围绕所述轴产生第一束音频内容；使用第二组有限输入响应滤波器和第二旋转矩阵，将所述立体声输入的左声道应用于所述扬声器元件阵列，以从所述目标角的第一偏移角围绕所述轴产生第二束音频内容；以及使用第三组有限输入响应滤波器和第三旋转矩阵，将所述立体声输入的右声道应用于所述扬声器元件阵列，以从所述目标角的第二偏移角围绕所述轴产生第三束音频内容。

在一个或多个说明性示例中，一种用于智能扩音器的方法包括：从立体声输入中提取中心声道；使用第一组有限输入响应滤波器和第一旋转矩阵，将所述中心声道应用于扬声器元件阵列，以目标角围绕所述轴产生第一束音频内容，所述扬声器元件阵列围绕轴以圆形配置设置且配置用于多声道音频播放；使用第二组有限输入响应滤波器和第二旋转矩阵，将所述立体声输入的左声道应用于所述扬声器元件阵列，以从所述目标角的第一偏移角围绕所述轴产生第二束音频内容；以及使用第三组有限输入响应滤波器和第三旋转矩阵，将所述立体声输入的右声道应用于所述扬声器元件阵列，以从所述目标角的第二偏移角围绕所述轴产生第三束音频内容。

附图说明

图1示出智能扩音器的简化框图；

图2示出使用智能扩音器的示例三波束应用；

图3A示出示例智能扩音器的视图；

图3B示出示例智能扩音器的剖面图；

图4示出用于智能扩音器的示例七声道麦克风阵列的视图；

图5示出单一AEC滤波器在阵列麦克风上的性能与在参考麦克风上的性能的比较图；

图6示出如图1所示的智能扩音器的上混器的中心提取功能的示例框图；

图7示出带有低频驱动器的六扬声器阵列的示例；

图8示出中高频驱动器的波束成形滤波器和旋转矩阵以及低频驱动器的信号路径的示例系统框图；

图9示出使用智能扩音器的声场的示例旋转；

图10示出智能扩音器的示例交叉滤波器频率响应；

图11示出低频驱动器目标响应的示例近似；

图12示出智能扩音器周围不同角度的示例高频响应；

图13示出智能扩音器的组合换能器滤波器、脉冲响应、幅度响应和相位；

图14示出在窄波束配置下使用智能扩音器的前向波束的示例等高线图；

图15示出在中波束配置下使用智能扩音器的前向波束的示例等高线图；

图16示出在全向波束配置下使用智能扩音器的前向波束的示例等高线图；

图17示出利用三个中波束配置在全向波束配置下使用智能扩音器的前向波束的示例等高线图；

图18示出校准前麦克风阵列中麦克风的频率响应示例；

图19示出校准后麦克风阵列中麦克风的频率响应示例；

图20示出麦克风阵列的初始滤波器和角衰减的示例；

图21示出麦克风阵列的初始波束成形滤波器的相位响应；

图22示出麦克风阵列波束成形器的示例等高线图；

图23示出麦克风阵列波束成形器的示例指向性指数；

图24示出具有六个麦克风和三个波束成形滤波器的示例麦克风阵列布局；

图25示出优化后麦克风阵列波束成形和EQ滤波器的示例频率响应；

图26示出最佳波束成形滤波器的麦克风阵列的示例相位响应；

图27示出白噪声增益的示例；

图28示出优化后离轴响应的示例；

图29示出优化后波束成形结果的示例等高线图；

图30示出在两种不同滤波器长度下优化后波束成形结果的示例指向性指数；

图31示出扩音器操作的示例过程；并且

图32是配置为实现各种实施方案的一个或多个方面的计算系统的概念框图。

具体实施方式

根据需要，本文公开本发明的详细实施方案；然而，应理解，所公开的实施方案仅仅是可以用各种和替代形式体现的本发明的范例。附图不一定按比例绘制；一些特性可能被放大或最小化，以显示特定部件的细节。因此，本文公开的具体结构和功能细节不应被解释为限制，而仅仅是作为用于教导本领域一般技术人员以多种方式使用本发明的代表性基础。

为了实现智能扩音器的特性，需要组合具有WIFI连接的强大的主机处理器、实时信号处理器和多声道回声抵消滤波器组，所述实时信号处理器包括用于接收并发送声音的可操纵波束成形。这些部件需要大量的处理能力。另一方面，具有电池电源选择的无线便携性往往是合意的。本公开提供了一种解决方案，满足了对音频质量和智能扩音器特性的需求，同时最小化处理成本。

图1示出智能扩音器100的简化框图。如图所示，图中的电路接收到具有左(L)声道和右(R)声道的音频输入102。这个音频输入102 被提供到上混器104。上混器104配置为从两声道立体声源(即，音频输入102的(L)和(R)声道)生成中心声道(C)，导致上混信号106呈左负中心(L-C)、中心(C)，和右负中心(R-C)，如图所示。下文结合图6背景下的中心声道提取来讨论上混器104的进一步的操作细节。

扩音器100还可以包括扩音器波束成形器108。扩音器波束成形器108可以具有三个输入，所述三个输入配置来接收来自上混器104 的上混信号106(L-C)、(R-C)和(C)。扩音器波束成形器108还可以连接到扩音器110的L阵列(通常L＝6…8)。每个输入声道(L-C)、(R-C)和(C)对应于限定波束宽度的声波束。

图2示出使用智能扩音器100的示例三波束应用200。三个控制角度αL、αR和αC限定波束的指向。通常，包含对话和主要表演者的中心(C)将指向听众，而立体声声道被发送朝向房间墙壁，使反射的声音到达听众，创造声音沉浸感并达到所需的立体声图像宽度和深度。可以单独调整立体声角度αL、αR以最大化立体声效果，而可以通过角αALL旋转整个摄影棚(同时从所有角度)朝向听众。

参考回图1，扩音器100可以另外包括M个麦克风112的阵列，其布置成一个圆圈(通常M＝4...8个麦克风)。原位麦克风自动校准阶段116可以接收来自麦克风112的麦克风信号114。可将来自自动校准阶段116的校准信号118提供给麦克风波束成形器120，麦克风波束成形器120配置为基于麦克风角度aM 124发送适合于语音识别引擎(未显示)的语音输出信号122。

扩音器100还包括双输入/一输出自适应声学回声抵消器(AEC) 滤波器126。AEC输出信号128近似于麦克风112接收到的音乐信号，其来自输入声道102(L)和(R)，并通过直接和间接(房间反射)路径从扩音器110到达麦克风112。通过从麦克风信号114中减去这个信号128，音乐将被抑制，且只听到预期的语音信号。

图3A示出示例智能扩音器100的示例视图300A。图3B示出示例智能扩音器100的剖面图300B。在图3A和图3B中的每一个图中，示例智能阵列扩音器100包括6个内置在圆柱形外壳中以60°角增量有规律地间隔开的高音喇叭，以及向下发射的低音喇叭。应注意，在其他示例中可以使用具有不同数量的装置的高音喇叭阵列。

图4示出用于智能扩音器100的七声道麦克风阵列112的示例400的视图。如图所示，麦克风阵列112可以内置于扩音器100的顶盖的中心。所示的阵列112包括布置成圆圈的六个紧密间隔开的麦克风，和一个可选的中心麦克风。可以使用没有中心麦克风的示例，或者在麦克风阵列112中有更多或更少麦克风的示例。

麦克风直径可能很小，例如，直径通常为10毫米。这使得系统的AEC 126大大简化。在其他系统中，麦克风可以放置在典型4-10 厘米(cm)的圆形布置中。这种方法需要用于阵列112的每个麦克风的单独AEC滤波器对，因为随着距离的增加，声学响应会发生显著变化。通过减小麦克风阵列112的直径，可以通过只应用一个AEC滤波器对而不是M对，将执行AEC的处理能力降低M倍(即，麦克风的数量)。对AEC的提及可以是中心麦克风信号，也可以是沿圆圈对M个阵列麦克风112进行平均得到的信号。

图5示出单一AEC滤波器在各种阵列麦克风112上的性能与在参考麦克风上的性能的示例比较图500。图500显示，对于麦克风阵列 112的每个麦克风，在X轴上显示的频率范围内Y轴上以dB计的衰减。与参考位置7相比，在麦克风位置1...6处观察到小于10dB的 AES性能的宽带衰减。因此，示例图500显示了这个方法的有效性。

图6示出如图1所示的智能扩音器100的上混器104的中心提取功能的示例框图600。因此，图6示出了上混器104执行中心声道提取的进一步的操作细节。通常，上混器104接收音频输入102的左(L) 声道和右(R)声道，并处理输入以生成中心声道(C)106。如图2所示，这个中心声道(C)106可以指向听众，而立体声声道(L)和(R)102可以朝向房间墙壁发送。

更具体地参考图6，将具有左(L)声道和右(R)声道的音频输入 102分为两个路径，即高频路径和低频路径。高频路径从每个(L)声道和(R)声道的低阶递归无限脉冲响应(IIR)高通滤波器602开始。在一个示例中，IIR高通滤波器602可以实现为二阶巴特沃斯滤波器， (-3dB)滚边频率为700...1000Hz。低通滤波器路径可以从一对有限脉冲响应(FIR)抽取滤波器604开始。在一个非限制性示例中，抽取过滤器604可以抽取16。

使用双向时间/频率分析方案，将每个高通滤波器602和低通抽取滤波器604的输出提供给短期傅里叶变换(STFT)块606。上混器104 执行双向时间/频率分析方案，所述方案使用通常为128的非常短的傅里叶变换长度，其中跳长为48，因此实现了比使用较长时间长度的方法更高的时间分辨率。应用长度为1024的单一快速傅里叶变换 (FFT)的方法，根据重叠长度的不同，其时间分辨率可能为10...20 毫秒(msec)。通过使用较短的传输长度，时间分辨率缩短了十倍，这与人类的感知更加密切相关(例如，1...2msec)。由于低频段的子采样，频率分辨率不受影响反而提高了。同时，避免了非线性处理的多相滤波器组中可能出现的混叠失真。因此，双向时间/频率分析方案导致了异常的保真度和声音质量，而伪像被抑制为不可听到。标题为“Audio Surround Processing System”的美国专利公开号2013/0208895描述了所述方案运作的其他方面，所述专利公开的全部内容以引用的方式并入本文。

高频路径的STFT块606的(L)输出和(R)输出提供给中心提取块 608。类似地，低频路径的STFT块606的(L)输出和(R)输出提供给另一中心提取块608。

值得注意的是，低频路径中STFT块606和中心提取块608在典型为f_S/r_S的降低的采样率下运行，其中f_S＝48kHz，r_S＝16。这使得低频分辨率增加了r_S倍，因此可以使用相同的短STFT长度128。

高频路径和低频路径中相应的中心提取处理之后的重组是通过逆STFT、从降低采样率f_S/16到原采样率f_S的插值，和在高频率的延迟补偿来实现的，以匹配由于低频路径的FIR滤波而产生的较高的延时。更具体地说，每个中心提取块608馈送到一个独立的逆STFT块610。逆STFT块610在低频路径上的输出馈送到FIR插值滤波器 612，FIR插值滤波器612可以插值来解释在块604处执行的抽取。然后，高频路径上的逆STFT块610的输出可以馈送到延迟补偿块614。然后，可以使用加法器616来组合FIR插值滤波器612和延迟补偿块 614的输出，其中加法器616的输出为中心输出(C)声道106。

更具体地参照中心提取块608本身实现的算法，以下值可计算如下：

P＝[|V_L|²+|V_R|²]/2 (1)

其中P为平均信号能量，V_L为(L)输入声道102信号的短期信号频谱复向量，且V_R为(R)输入声道102信号的短期信号频谱复向量；

其中V_X表示交叉谱密度绝对值；并且

p_c＝V_x/P (3)

其中p_c是计算为交叉谱密度V_X的绝对值与平均信号能量P之比的商。这个商可以称为“时间/频率掩模”。

使用这些值，p_c的时间平均值

被递归地计算为具有更新系数α(通常α＝0.2/r_S)的递归估计值。时间索引i表示实际的块数(例如，i＝i+1，其中每跳长＝48个样本)。运算可以表示如下：

然后，使用非线性映射函数F提取中心信号。所需的输出信号是通过将输入的和(作为单信号)乘以掩模的非线性函数

而得到的。可以优化这个函数以在声道分离和低失真之间得到最佳的折衷。运算可以表示如下：

图7示出扩音器100的波束成形设计的示例700。如图所示，六个高音喇叭T1...T6围绕圆圈均匀地布置，补充有一个提供低频扩展的低音喇叭W，但在交叉频率fC以下没有波束成形(通常为200...400 Hz，本示例中fC＝340Hz)。

图8示出如图7所示的示例扩音器100的波束成形器108的系统框图800。框图800包括波束成形滤波器(h1、h26、h35、h4)和中高频驱动器的旋转矩阵，以及低频驱动器的信号路径。如图所示，高音喇叭T1连接到波束成形FIR(有限脉冲响应)滤波器h1，高音喇叭T2 和T6都连接到滤波器h26，高音喇叭T3和T5都连接到滤波器h35，且高音喇叭T4连接到滤波器h4。值得注意的是，由于波束相对于主轴对称，这些高音喇叭对可能共享同一个滤波器。

可以通过重新分配高音喇叭来将波束旋转到任意期望的角度φ。例如，φ＝60°的旋转可以通过将滤波器h1连接到高音喇叭T2并将滤波器h26连接到高音喇叭对T1和T3等等来实现。另外，中间的任何角度可以由相应高音喇叭信号的线性插值来实现。旋转被实现为4 ×6增益矩阵，因为在这个示例中有4个波束成形滤波器和6个高音喇叭。然而，不同数量的滤波器和高音喇叭会影响旋转矩阵的维数。除了线性插值外，还可以另外或替代地使用诸如余弦或余弦平方的其他插值法则。

图9示出使用智能扩音器100的声场的示例旋转900。在例如使用如图9所示的声道(L-C)、(C)、(R-C)的多声道应用中，每个声道连接到它自己的波束成形滤波器集和旋转矩阵。与图2相比，图9中整个声场旋转角度φ_全部，而(L)声道旋转φ_L-φ_全部，且(R)声道旋转φ_R-φ_全部。为了执行旋转，(L-C)声道可使用第一波束成形滤波器和旋转矩阵，(C)声道可使用第二波束成形滤波器和旋转矩阵，且(R-C) 声道可使用第三波束成形滤波器和旋转矩阵。

参考回图8，低音喇叭处理路径包括交叉滤波器hW、可选递归 (IIR)高通滤波器(用于切断低音喇叭操作范围以下的频率)和可选限幅器。交叉滤波器可以设计成FIR滤波器，以实现声线性相位系统。标题为“Loudspeaker Crossover Filter”的美国专利号7,991,170 描述了交叉滤波器的其他方面，所述美国专利的全部内容以引用的方式并入本文。

图10示出智能扩音器100的交叉滤波器频率响应的示例1000。在示例图1000中，Y轴表示分贝，而X轴表示频率范围。如图所示，低频驱动器在约340Hz与高频驱动器交叉。通常，交叉滤波器被设计成相对于交叉目标均衡化测量到的扬声器响应。

图11示出低频驱动器目标响应的示例近似1100。在示例图1100 中，Y轴表示分贝，而X轴表示频率范围。值得注意的是，高音喇叭交叉高通滤波器可以被分解成波束成形滤波器。

波束成形滤波器的设计可以基于声学数据。在一个示例中，可以在消声室中捕捉到脉冲响应。每个阵列驱动器可以通过转盘旋转，以扬声器周围的离散角度测量。标题为“Variable Acoustics Loudspeaker”的国际申请号PCT/US17/49543更详细地讨论了波束成形滤波器设计的其他方面，所述国际申请的全部内容以引用的方式并入本文中。

通过使用傅里叶变换计算复谱，可以对声学数据进行预处理。然后，通过计算量值和相位、单独对量值和相位响应进行平滑、再将数据转换成复谱值，来执行复杂的平滑。另外，通过将每个频谱与其逆频谱相乘，角响应可以归一化为0°时的前端换能器的频谱。这个逆响应稍后可能用于全局均衡化。

图12示出智能扩音器100周围不同角度的示例高频响应1200。更具体地说，示例1200示出了以15°为步幅在15°到180°的角度上看到的前端换能器的幅值响应。在示例图1200中，Y轴表示分贝，而X轴表示频率范围。

测量的平滑复频率响应可以用矩阵形式表示如下：

H_sm(i，j)，i＝1...N，j＝1...M， (6)

其中频率指数为i，N为FFT长度(在示出的示例中N＝2048)，且M为间距[0...180]°内的角度测量次数(对于示出的示例中15°的步幅，M＝13)。

R个驱动器的阵列(本文中，R＝6)包含在0°的前驱动器、在 180°的后驱动器，和位于角度

的P＝(R-2)/2个驱动器对。

P个波束成形滤波器C_r的设计使得它们连接到驱动器对，其中向后驱动器提供额外的过滤器C_P+1。首先，如上所述，测量的频率响应相对于前响应以大于零的角度进行归一化，以消除驱动器频率响应。这个归一化可以在稍后以驱动器均衡化的形式设计最终滤波器时重新考虑，具体如下：

H₀(i)＝H_sm(i，1)； (7)

H_norm(i，j)＝H_sm|(i，j)/H₀(i)，i＝1...N，j＝1...M

滤波器设计迭代单独针对每个频率点进行工作。为了方便起见，可以去掉频率指数，如下：

H(α_k)：＝H_norm(i，k) (8)

因为测量和归一化频率响应处于离散角α_k。

假设是径向对称、圆柱形外壳和相同的驱动器，那么阵列的频率响应U(k)可能会通过将相同的偏离角度应用于所有驱动器来以角度α_k计算如下：

频谱滤波器值C_r可以通过最小化二次误差函数来迭代地获得：

其中t(k)为特定于选定波束宽度的空间目标函数，所下文所限定。

参数a限定阵列增益：

a_增益＝20log(a)

阵列增益指定与一个单一换能器相比，阵列播放的声音更大的量。它应高于1，但不能高于总换能器数量R。为了允许超定向波束成形所需的一些声抵消，阵列增益将小于R，但应远高于1。通常，阵列增益与频率有关，且必须仔细选择以获得良好的近似结果。

另外，Q是角目标点的数量(例如Q＝9)。此外，w(k)是加权函数，如果在特定近似点与另一个近似点相比需要更高的精度，则可使用所述加权函数(通常0.1<w<1)。

优化的变量是P+1个复杂滤波器值/频率指数i，C_r(i)，r＝1...(P+1)。所述优化可以从感兴趣频带中的第一个频率点

开始(例如f₁＝100Hz，f_g＝24KHz，N＝2048＝＞i₁＝8)，将

设为开始解，随后通过每次递增索引来计算滤波器值，直到达到最后一个点

非线性优化程序可以使用幅度|C_r(i)|和展开相位 arg(C_r(i))＝arctan(Im{C_r(i)}/Re{C_r(i)})作为变量代替实部和虚部。

这个有界非线性优化问题可以用标准软件来解决，例如Matlab 优化工具箱中的函数“fmincon”。可适用下列范围：

G_max＝20*log(max(|C_r|)) (11)

所述最大值允许滤波器增益，和从一个计算的频率点到下一个将被计算的点的量值的上限和下限由输入参数δ指定，如下：

|C_r(i)|·(1-δ)＜|C_r(i+1)|＜|C_r(i)|·(1+δ)

(12)

以控制所得频率响应的平滑度。

下文讨论使用150毫米的阵列直径的设计示例，其中在340Hz下， 6个中/高音喇叭交叉。

在窄波束示例中，图13-14显示利用图1的扩音器100的结果。窄波束示例的参数如下：

目标函数t_k＝[-1.5 -3.5 -8 -12 -15 -18 -20 -20]

位置α_k＝[15 30 45 60 90 120 150 180]°

驱动器数量R＝6

驱动器对数量P＝2

计算波束成形滤波器C₁，C₂，C₃

阵列增益12dB,f<1kHz；

4dB,f>3.0kHz；

-3dB,f>7.5kHz。

中间的两个频带为过渡频带，其阵列增益从之前的值线性减小到新的值。

最大滤波器增益G_max＝5dB

平滑界限δ＝1.0

图13示出窄波束示例的优化结果1300。这些结果包括智能扩音器100的组合换能器滤波器、脉冲响应、幅度响应和相位。滤波器包括波束成形、交叉和驱动器EQ。如图所示，滤波器平滑，不表现出太多的时间扩展效应(预滤波)，并且要求非常有限的低频增益，这对于实现足够的动态范围很重要。

图14显示了在窄波束配置下前向波束的等高线图1400。整个频段100Hz...20kHz的恒定指向性达到了很高的程度，除了一些在 4-5kHz左右几乎听不见的小伪像。

图15显示在中宽波束配置下使用图1中的扩音器100的等高线图1500。中宽波束示例的参数如下：

目标函数t_k＝[0 -1.5 -3 -5 -10 -15 -20 -25],

位置α_k＝[15 30 45 60 90 120 150 180]°

驱动器数量R＝6

驱动器对数量P＝2

计算波束成形滤波器C₁，C₂，C₃

阵列增益12dB,f<1kHz；

0dB,f>3.0kHz；

-2dB,f>7.5kHz。

最大滤波器增益G_max＝5dB

平滑界限δ＝0.5

图15显示中宽波束的等高线图。

扩音器100可进一步在全向模式下使用。对于诸如语音的单声源，通常需要具有尽可能均匀且与角度无关的扩散模式的全向模式。首先，采用相同的方法进行宽波束设计：

目标函数t_k＝[0 0 0 -2 -4 -5 -6 -6],

位置α_k＝[15 30 45 60 90 120 150 180]°

驱动器数量R＝6

驱动器对数量P＝2

计算波束成形滤波器C₁，C₂，C₃

阵列增益8dB,f<1kHz；

3dB,f>3.0kHz；

2dB,f>10kHz。

最大滤波器增益G_max＝0dB

平滑界限δ＝0.2

图16示出在全向波束配置下使用智能扩音器100的前向波束的示例等高线图1600。如图所示，图16指示显示仅部分实现全向目标的结果，这是因为在4kHz以上由于空间混叠仍然存在具有伪像的明显的主波束方向。

图17示出利用三个中波束配置在全向波束配置下使用智能扩音器100的前向波束的示例等高线图1700。如图17所示，通过使用前面显示的分别指向0°和+/-120°的三个“中-宽”波束，可以得到更好的结果。

参考可操纵麦克风阵列112，可将麦克风波束成形器120分初始和原位校准、封闭式初始解和目标优化三个阶段进行设计。

在麦克风自动校准方面，低成本驻极体电容式麦克风(ECM)和微机电系统(MEMS)麦克风通常表现出与平均响应偏差通常为+/-3dB。这在图18的示例中得到了证实，图18显示了布置在直径为10毫米的圆圈上的6个ECM麦克风(例如图4所示的布置)的测量的远场响应。由于低频波束成形依赖于麦克风差分信号，(当波长与直径相比较大时，所述差分信号较小)，因此需要很高的精度。

图18示出校准前麦克风阵列中麦克风的频率响应示例1800。初始校准是通过将每个麦克风的信号与最小相位校正滤波器进行卷积来完成的，所述最小相位校正滤波器的目标是其中一个麦克风。参考的选择是任意的——它可以是(可选的)中心麦克风，或者是前麦克风。滤波器设计方法是在频域对数域内执行的，且最小相位脉冲响应由希尔伯特变换得到，这是DSP设计人员所熟知的方法。FIR滤波器长度为32就足够了，因为在1kHz以下麦克风之间的偏差主要是由频率无关的增益误差引起的。

图19示出校准后麦克风阵列中麦克风的频率响应示例1900。

为了适应麦克风老化或诸如温度和湿度等环境条件，需要不时进行原位校准。这可以通过估计参考麦克风在播放音乐时随时间的响应或专用测试信号，然后将其他麦克风均衡化到这个目标来实现。

对于初始波束成形解，圆形麦克风阵列112在自由空气中存在封闭解。一个著名的设计可以用来获得后续非线性优化的初始解。Jacob Benesty编著的教材“Design ofCircul ar Differential Microphone Arrays”(Springer 2015)通过引用的方式整体并入，并描述了麦克风波束成形滤波向量H＝[H1...Hm]的计算公式如下：

其中

表示扩散噪声的“伪相干矩阵”；

I是单位矩阵；

ω是频率；

c是声速；

麦克风i和j之间的距离是：

其中d是阵列直径；

D＝[D1...Dm]表示导向矢量，其中

ε是正则因子。在这个示例中ε＝1e-5。

在角度θ下，理想、圆形阵列的点传感器的延迟向量V＝(V1...VM) 可以定义为：

通过如下层叠以上延迟V_m、波束滤波器H_m和共轭复杂导向矢量元素D_m，我们获得角度θ下的麦克风m的复杂响应B_m：

最后通过对个别响应进行复杂的总和获得波束响应U(θ)：

图20示出麦克风阵列的初始滤波器和角衰减的示例2000。如图所示，示例200包括相对于前滤波器归一化后分别用于前麦克风1、后麦克风4和侧面对2/6和3/5的滤波器频率响应|H_m|，所述前滤波器示出为EQ滤波器，所述滤波器频率响应将应用到所有的麦克风。

图21示出麦克风阵列的初始波束成形滤波器的相位响应的示例 2100。虽然单一滤波器的幅度基本上是平坦的，但EQ滤波器需要在较宽的频率间隔内有约20dB的增益，以弥补麦克风之间滤波器相位相反造成的损失。这种增益是不合意的，因为麦克风的自噪声被放大了一定量。参考非线性优化，主要的设计目标是降低噪声增益。

图22示出麦克风阵列波束成形器的示例等高线图2200。图23 示出麦克风阵列波束成形器的示例指向性指数2300。图22所示的等高线图和图23所示的指向性指数记录了波束成形器的质量。

关于非线性后优化，图24显示六麦克风布局，其中波束成形滤波器C₁、C₂和C₃待确定。所述方法与前面描述的扩音器波束成形设计相似。

首先，通过频域中复杂的平滑并对前换能器进行归一化处理来对数据进行预处理。因此，在优化过程中，将第一个换能器mic1的频率响应设为常数1。不需要对mic1应用波束成形滤波器，可使用应用于所有麦克风的全局EQ滤波器。

设计的目标函数是在角度θ_k＝[0∶15∶180]°下的衰减值u_k，其可以从初始解u_k(f)＝|U(f，θ_k)|取得，如上所示。由于这个响应与频率有关，故对不同的频率间隔使用许多常数目标函数。例如，在过渡频率f_tr＝1000Hz以下，第一目标函数u_k(f＝2000Hz)可用于间隔100Hz...1000Hz中的求近似，然后第二目标函数u_k(f＝4000 Hz)用于其余间隔1000Hz...20kHz。这种方法在更高的频率下产生随后更窄的波束。

C₁...C₃的初始解可设为先前获得的波束成形滤波器H_m，如图20 和图21所示。

除了允许幅度差δ从一个频率迭代点i到下一个点i+1：

|C_r(i)|·(1-δ)＜|C_r(i+1)|＜|C_r(i)|·(1+δ)， (17)

应用相位界限δp：

arg(C_r(i))·(1-δ_P)＜arg(C_r(i+1))＜arg(C_r(i))·(1+δ_P)。 (18)

总之，应用以下界限：

幅度界限δ＝0.75

相位界限δ＝π/60

最大波束滤波器增益12dB

最大EQ滤波器增益20dB

图25示出优化后麦克风阵列112的示例频率响应2500。图26 示出最佳波束成形滤波器的麦克风阵列112的示例相位响应2600。因此，图25和图26显示非线性后优化之后波束成形滤波器的所得量值和相位响应。

整体白噪声增益可计算为：

图27示出白噪声增益的示例2700。如图27所示，结果显示已实现将白噪声增益(WNG)从初始20dB(如图20所示)降低到小于10dB 的目标，同时性能得到了提高。

图28示出优化后离轴响应的示例2800。图29示出优化后波束成形结果的示例等高线图2900。图30示出在两种不同滤波器长度下优化后波束成形结果的示例指向性指数3000。如通过将图28-30和图22-23作比较可见，性能有所提高。

图31示出扩音器100操作的示例过程3100。在一个示例中，所述过程可以由扩音器100使用上面详细讨论的概念来执行。在3102，可变声学扩音器100接收输入信号102。在一个示例中，输入可以是提供给可变声学扩音器100并将由数字信号处理器处理的立体声信号。

在操作3104处，扩音器100从输入信号中提取中心声道。在一个示例中，上混器104配置为从两声道立体声源(即，音频输入102 的(L)和(R)声道)生成中心声道(C)，导致上混信号106呈左负中心 (L-C)、中心(C)，和右负中心(R-C)。图6详细描述了上混合器104 操作的其他方面。

在操作3106处，扩音器100产生中心声道波束供扩音器100输出。在一个示例中，至少相对于图8所讨论，数字信号处理器可以使用一组有限输入响应滤波器来生成多个输出声道，用于所提取的中心声道的波束成形。所述扩音器100还可以使用第一旋转矩阵以目标角进一步生成音频内容的第一波束。在一个示例中，至少相对于图2和图9所讨论，滤波器的输出可以以目标角路由到扬声器声道。扩音器 100可以将音频内容的波束应用于扬声器元件的阵列，如图9所示。在一个示例中，扬声器元件的阵列是高音喇叭阵列的六个驱动器，如图7所示。

在操作3108处，扩音器100产生立体声声道波束供扩音器100 输出。在一个示例中，至少相对于图8所讨论，数字信号处理器可以使用一组有限输入响应滤波器来生成多个输出声道，用于(L)声道的波束成形；所述数字信号处理器可以使用第二组有限输入响应滤波器来生成第二多个输出声道，用于(R)声道的波束成形。扩音器100还可以使用旋转矩阵以与目标角偏移的角度生成左侧音频内容波束，并使用另一旋转矩阵以与目标角偏移的角度生成右侧音频内容波束。在一个示例中，至少相对于图2和图9所讨论，滤波器的输出可以以目标角路由到扬声器声道。扩音器100还可以将音频内容的这些波束应用于扬声器元件的阵列，如图9所示。在一个示例中，扬声器元件的阵列是高音喇叭阵列的六个驱动器，如图7所示。

在3110处，扩音器100校准麦克风阵列112。在一个示例中，扩音器100通过使用最小相位校正滤波器和作为阵列112的麦克风元件中的一者的目标麦克风对来自所述麦克风中的每一者的电信号进行卷积，来校准麦克风阵列112。在另一个示例中，扩音器100执行原位校准，所述原位校准包括：使用扬声器阵列110的音频播放作为参考信号，来估计麦克风阵列112的参考麦克风的频率响应；和根据所测量的频率响应来均衡化阵列112的麦克风。

在操作3112处，扩音器100接收来自麦克风阵列112的麦克风信号114。在一个示例中，扩音器100的处理器可以配置为接收来自从麦克风阵列112的原始麦克风信号114。

在操作3114处，扩音器100对接收到的麦克风信号114执行回声抵消。在一个示例中，扩音器100利用单一自适应回声抵消器(AEC) 126滤波器对，所述AEC滤波器对键控到麦克风元件阵列的立体声输入。由于阵列112的麦克风元件之间的距离较短，以及对阵列112进行了校准，故可能使用单一AEC而不是M个AEC。上文参考图1描述了AEC操作的其他方面。通过从麦克风信号114中减去AEC信号128，扩音器100播放的音频内容(诸如L、R和C波束)将被抑制，而只听到预期的语音信号。

在操作3116处，扩音器100对抵消回声的麦克风信号114执行语音识别。因此，扩音器100可能能够响应语音命令。在操作3116 之后，过程3100结束。

图32是配置为实现各种实施方案的一个或多个方面的音频系统 3200的概念框图。作为一个示例，这些实施方案可以包括过程3100。如图所示，音频系统3200包括计算装置3201、一个或多个扬声器3220 和一个或多个麦克风3230。计算装置3201包括处理器3202、输入/ 输出(I/O)装置3204和存储器3210。存储器3210包括音频处理应用程序3212，所述应用程序被配置为与数据库3214交互。

处理器3202可以是任何技术上可行形式的处理装置，所述处理装置被配置为处理数据和/或执行程序代码。处理器3202可以例如包括但不限于片上系统(SoC)、中央处理单元(CPU)、图形处理单元 (GPU)、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)等。处理器3202包括一个或多个处理核心。在运行中，处理器3202是计算装置3201的主处理器，用于控制和协调其他系统部件的运行。

I/O装置3204可以包括输入装置、输出装置，以及能够接收输入并提供输出的装置。例如但不限于，I/O装置3204可以包括有线和/或无线通信装置，所述装置向扬声器3220、麦克风3230、远程数据库、其他音频装置、其他计算装置等发送和/或接收数据。

存储器3210可以包括一个存储器模块或一组存储器模块。存储器3210中的音频处理应用程序3212由处理器3202执行，以实现计算装置3201的总体功能并因此协调整个音频系统3200的运行。例如但不限于，音频处理应用程序3212可以处理经由一个或多个麦克风3230获得的数据，以生成传输到一个或多个扬声器3220的声音参数和/或音频信号。音频处理应用程序3212执行的处理可包括但不限于过滤、统计分析、启发式处理、声学处理和/或其他类型的数据处理和分析。

扬声器3220配置为基于从计算系统3200和/或与计算系统3200 相关联的音频装置(例如功率放大器)接收的一个或多个音频信号来生成声音。麦克风3230配置为从周围环境获取声学数据，并将与所述声学数据相关联的信号传输到计算装置3201。然后，计算装置3201 可处理麦克风3230获得的声学数据，以确定和/或过滤扬声器3220 复制的音频信号。在各种实施方案中，麦克风3230可以包括能够获取声学数据的任何类型的换能器，包括但不限于差动麦克风、压电麦克风、光学麦克风等。

通常，计算装置3201被配置为协调音频系统3200的整体运行。在其他实施方案中，计算装置3201可以耦合到音频系统3200的其他组件，但与其分离。在这样的实施方案中，音频系统3200可包括单独的处理器，所述处理器接收从周围环境获得的数据并将数据传送到计算机装置3201，计算机装置3201可包括在诸如个人电脑、音频视频接收器、功率放大器、智能手机、便携式媒体播放器、可穿戴装置等的单独的装置中。然而，本文中公开的实施方案考虑配置为实现音频系统3200的功能的任何技术上可行的系统。

已出于说明目的而呈现了对各种实施方案的描述，但这些描述并非意图是详尽性的或受限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员来说是明显的。

本实施方案的各方面可体现为系统、方法或计算机程序产品。因此，本公开的各方面可以采取完全硬件实施方案、完全软件实施方案 (包括固件、常驻软件、微代码等)或将软件和硬件方面组合的实施方案的形式，这些方面在本文中通常可称为“模块”或“系统”。此外，本公开的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，所述计算机可读介质在其上体现有计算机可读程序代码。

可以利用一个或多个计算机可读介质的任何组合。所述计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是(例如)但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或者上述各项的任何合适组合。所述计算机可读存储介质的更特定的示例(非详尽性的列表)包括以下各项：具有一个或多个电线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或上述各项的任何合适组合。在本文档的上下文中，所述计算机可读存储介质可为任何有形介质，所述有形介质可含有或存储供指令执行系统、装置或设备使用或连同指令执行系统、装置或设备一起使用的程序。

上文参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述了本公开的各方面。应理解，可通过计算机程序指令来实现流程图和/或方框图中的每个方框以及流程图和/或方框图中的方框组合。这些计算机程序指令可提供至通用计算机、专用计算机或其他可编程数据处理装置的处理器以生成一种机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令使得能够实现一个或多个流程图方框和/或一个或多个方框图方框中指定的功能/动作。这样的处理器可以是但不限于通用处理器、专用处理器、应用特定的处理器或现场可编程处理器。

附图中的流程图和方框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就此来说，流程图或方框图中的每个方框均可表示代码的模块、片段或部分，所述代码包括用于实现指定的逻辑功能的一个或多个可执行指令。还应注意，在一些替代实现方式中，方框中指出的功能可按照附图中指出的次序以外的次序发生。例如，连续示出的两个方框实际上可以大致同时执行，或者所述方框有时可以按相反的次序执行，这取决于所涉及的功能性。还应注意，方框图和/或流程图中的每个方框，以及方框图和/或流程图中的方框的组合可由执行指定功能或动作的基于专用硬件的系统，或者专用硬件和计算机指令的组合来实现。

虽然上面描述了示例性实施方案，但这些实施方案并不意欲描述本发明的所有可能形式。相反，本说明书中使用的词语是描述性词语而不是限制性词语，并且应理解，在不脱离本发明的精神和范围的情况下可以进行各种更改。另外，可以将各种实现实施方案的特征进行组合以形成本发明的另外的实施方案。

Claims

1.一种智能扩音器，其包括：

N个扬声器元件的阵列，其围绕轴以圆形配置设置且配置用于多声道音频播放；

M个麦克风元件的阵列，其围绕所述轴以圆形配置设置且配置用于接收音频信号并提供输入电信号，其中M个麦克风元件的阵列的直径较小，在10毫米量级；和

数字信号处理器，其编程为：

从立体声输入中提取中心声道，

使用第一组有限脉冲响应滤波器和第一旋转矩阵，将所述中心声道应用于所述扬声器元件阵列，以目标角围绕所述轴产生第一束音频内容，

使用第二组有限脉冲响应滤波器和第二旋转矩阵，将所述立体声输入的左声道应用于所述扬声器元件阵列，以从所述目标角的第一偏移角围绕所述轴产生第二束音频内容，

使用第三组有限脉冲响应滤波器和第三旋转矩阵，将所述立体声输入的右声道应用于所述扬声器元件阵列，以从所述目标角的第二偏移角围绕所述轴产生第三束音频内容，

利用麦克风波束成形器来以所述目标角执行所述输入电信号的可操纵的麦克风阵列波束成形，从而接收语音输入，以及

利用单个自适应声学回声抵消器(AEC)滤波器对，所述AEC滤波器对具有两个输入和一个AEC输出，所述AEC滤波器对键控到所述麦克风元件阵列的所述立体声输入，所述AEC滤波器对包括用于接收所述立体声输入的第一声道的第一AEC滤波器以及用于接收所述立体声输入的第二声道的第二AEC滤波器，所述AEC滤波器对使用从麦克风元件的阵列接收的所述输入电信号的平均值作为参考信号。

2.如权利要求1所述的智能扩音器，其中使用所述数字信号处理器提取所述中心声道包括：高频路径，其以第一采样率对高频执行中心提取；低频路径，其以比所述第一采样率低的第二采样率对低频执行中心提取；和加法器，其将所述高频路径的输出与所述低频路径的输出进行组合以创建所述中心声道。

3.如权利要求1所述的智能扩音器，其中所述数字信号处理器还被编程为通过使用最小相位校正滤波器和作为所述阵列的所述麦克风元件中的一者的目标麦克风对来自所述麦克风中的每一者的所述电信号进行卷积，来校准所述M个麦克风元件阵列。

4.如权利要求3所述的智能扩音器，其中所述麦克风元件阵列还包括在所述圆形配置的中心处的麦克风元件，其中所述目标麦克风是所述中心麦克风。

5.如权利要求1所述的智能扩音器，其中所述数字信号处理器还被编程为使用包括以下各项的原位校准来校准所述麦克风阵列：

使用所述扬声器元件阵列的所述音频播放作为参考信号，来估计所述麦克风阵列的参考麦克风的频率响应；和

根据所述频率响应来均衡化所述阵列的所述麦克风。

6.如权利要求1所述的智能扩音器，其中所述麦克风阵列的直径为10毫米。

7.如权利要求3所述的智能扩音器，其中M是6-8。

8.一种用于智能扩音器的方法，其包括：

从立体声输入中提取中心声道，

使用第一组有限脉冲响应滤波器和第一旋转矩阵，将所述中心声道应用于扬声器元件阵列，以目标角围绕轴产生第一束音频内容，所述扬声器元件阵列围绕所述轴以圆形配置设置且配置成用于多声道音频播放；

使用第二组有限脉冲响应滤波器和第二旋转矩阵，将所述立体声输入的左声道应用于所述扬声器元件阵列，以从所述目标角的第一偏移角围绕所述轴产生第二束音频内容；

使用第三组有限脉冲响应滤波器和第三旋转矩阵，将所述立体声输入的右声道应用于所述扬声器元件阵列，以从所述目标角的第二偏移角围绕所述轴产生第三束音频内容；

利用麦克风波束成形器来以所述目标角执行可操纵的麦克风阵列波束成形，从而从M个麦克风元件的阵列接收语音输入，所述M个麦克风元件阵列围绕所述轴以圆形配置设置且配置用于接收音频信号并提供输入电信号，其中M个麦克风元件的阵列的直径较小，在10毫米量级；以及

9.如权利要求8所述的方法，其还包括：利用高频路径，其以第一采样率对高频执行中心提取；低频路径，其以比所述第一采样率低的第二采样率对低频执行中心提取；和加法器，其将所述高频路径的输出与所述低频路径的输出进行组合以创建所述中心声道。

10.如权利要求8所述的方法，其还包括：通过使用最小相位校正滤波器和作为所述阵列的所述麦克风元件中的一者的目标麦克风对来自所述麦克风中的每一者的所述电信号进行卷积，来校准所述麦克风元件阵列。

11.如权利要求10所述的方法，其中所述M个麦克风元件阵列还包括在所述圆形配置的中心处的麦克风元件，其中所述目标麦克风是所述中心麦克风。

12.如权利要求8所述的方法，其还包括使用包括以下各项的原位校准来校准所述麦克风阵列：

根据测量的频率响应来均衡化所述阵列的所述麦克风。

13.如权利要求8所述的方法，其中所述麦克风阵列的直径为10毫米。