CN112702669B

CN112702669B - 拾音设备、方法、装置、系统和存储介质

Info

Publication number: CN112702669B
Application number: CN202011515671.3A
Authority: CN
Inventors: 付中华; 赵湘; 高素云; 王海坤
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-04-07
Anticipated expiration: 2040-12-21
Also published as: CN112702669A

Abstract

本发明提供一种拾音设备、方法、装置、系统和存储介质，其中设备包括：音罩和麦克风阵列；其中，所述音罩轴截面的两条侧边为沿所述音罩轴线对称的两条倾斜直线段；所述麦克风阵列部署于所述音罩内部的轴线上。本发明提供的拾音设备、方法、装置、系统和存储介质，通过设置轴截面侧边为沿轴线对称的两条倾斜直线段的音罩，将入射声波均匀的分散到音罩轴线上部署的麦克风阵列上，以增加接收声源声音信号的面积，从而提高接收的远距离声源的辐射声能，并提高麦克风的灵敏度，且通过麦克风阵列，可以设计最优超指向波束，并利用多通道降噪和后置滤波技术降低复杂环境干扰噪声，可以进一步提高远距离拾音的效果。

Description

拾音设备、方法、装置、系统和存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种拾音设备、方法、装置、系统和存储介质。

背景技术

由于声音在空气中传播时衰减很快，特别是在开阔的空间中，声压和距离近似呈现平方反比的关系，因此随着距离的增加，目标声音信号会变得越来越微弱。然而，很多应用都需要从远距离进行声音观测，例如观测动物和鸟类的声音、录制运动场上运动员的声音、影视节目中演员的录音、远距离声音监听，以及低空飞行器声探测等等。因此需要一种可以进行远距离拾音的拾音系统以满足上述应用场景的需求。

然而，现有的远距离拾音设备，例如枪式传声器和麦克风阵列接收声能面积有限，对于远距离声源的拾音效果有限，而抛物面音罩虽能将波阵面上一个圆面内的声能聚焦以提高入射声能，但对焦点位置非常敏感，拾音效果难以控制。

发明内容

本发明提供一种拾音设备、方法、装置、系统和存储介质，用以解决现有技术中远距离拾音效果欠佳的缺陷。

本发明提供一种拾音设备，包括：

音罩和麦克风阵列；

其中，所述音罩轴截面的两条侧边为沿所述音罩轴线对称的两条倾斜直线段；

所述麦克风阵列部署于所述音罩内部的轴线上。

根据本发明提供的一种拾音设备，所述音罩为圆锥状、圆台状、正棱锥状或棱台状。

根据本发明提供的一种拾音设备，所述侧边的长度大于等于预设长度阈值，所述预设长度阈值为最外侧麦克风与两条侧边所在直线的交点间的距离，与所述音罩的半张角的2倍余弦值的乘积。

本发明还提供一种拾音方法，包括：

基于音罩将声源发出声音信号的入射声波平行反射到部署于所述音罩内部轴线上的麦克风阵列，基于所述麦克风阵列采集所述入射声波，得到所述声源对应的阵列信号；

其中，所述音罩轴截面的两条侧边为沿所述音罩轴线对称的两条倾斜直线段。

根据本发明提供的一种拾音方法，所述得到所述声源对应的阵列信号，之后还包括：

基于波束系数，对所述阵列信号进行滤波，得到超指向波束输出信号；

所述波束系数是基于所述声音信号对应频率下受限扩散场的相干函数矩阵，以及所述声音信号对应频率下所述麦克风阵列在目标方向上的相对传输函数矢量确定的。

根据本发明提供的一种拾音方法，所述相对传输函数矢量是基于所述麦克风阵列中各个麦克风在对应频率和对应方向的声传输函数，以及参考麦克风在所述目标方向上的幅频响应确定的；

所述参考麦克风是在对应频率下，所述麦克风阵列中在所述目标方向上具有最大幅频响应的麦克风。

根据本发明提供的一种拾音方法，各个麦克风在对应频率和对应方向的声传输函数是基于如下步骤确定的：

确定多个测量仰角角度；

基于固定位置下的测试声源播放任一频率对应的测试声音信号，获取各个麦克风在所述音罩处于各个测量仰角角度时的声音采集信号；

基于所述音罩处于各个测量仰角角度时的声音采集信号，以及所述测试声音信号，确定各个麦克风对应所述任一频率的全方位声传输函数。

根据本发明提供的一种拾音方法，所述声音信号对应频率下受限扩散场的相干函数矩阵是基于均匀分布于三维球面的声源对应的归一化相干函数矩阵的集总平均确定的，或是基于均匀分布于平面圆环上的声源对应的归一化相干函数矩阵的集总平均确定的；

任一声源对应的归一化相干函数矩阵是所述任一声源的频率下所述麦克风阵列在所述任一声源所在方向上的相对传输函数矢量及其共轭转置的乘积。

根据本发明提供的一种拾音方法，所述对所述阵列信号进行滤波，得到超指向波束输出信号，之后还包括：

对所述超指向波束输出信号进行噪声抑制，或者对所述超指向波束输出信号和辅助波束输出信号进行噪声抑制；

其中，所述辅助波束输出信号是基于波束形成方法获得的对应不同方向的波束信号。

根据本发明提供的一种拾音方法，所述对所述超指向波束输出信号进行噪声抑制，或者对所述超指向波束输出信号和辅助波束输出信号进行噪声抑制，包括：

对波束输出信号进行语音出现概率估计；所述波束输出信号包括所述超指向波束输出信号，或，包括所述超指向波束输出信号，以及所述辅助波束输出信号和/或所述阵列信号；

基于所述波束输出信号的语音出现概率，对所述波束输出信号进行自适应调整，得到调整输出信号；

基于所述波束输出信号、所述波束输出信号的语音出现概率，以及所述调整输出信号，进行干扰噪声估计，得到噪声估计结果；

基于所述波束输出信号、所述噪声估计结果，以及所述调整输出信号，计算频域增强因子；

基于所述频域增强因子对所述调整输出信号进行增强，得到噪声抑制后的输出信号。

本发明还提供一种拾音装置，包括：

声音采集单元，用于基于音罩将声源发出声音信号的入射声波平行反射到部署于所述音罩内部轴线上的麦克风阵列，基于所述麦克风阵列采集所述入射声波，得到所述声源对应的阵列信号；

本发明还提供一种拾音系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，以及与所述处理器连接的如上述任一种所述的拾音设备，所述处理器执行所述计算机程序时实现如上述任一种所述拾音方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述拾音方法的步骤。

本发明提供的拾音设备、方法、装置、系统和存储介质，通过设置轴截面侧边为沿轴线对称的两条倾斜直线段的音罩，将入射声波均匀的分散到音罩轴线上部署的麦克风阵列上，以增加接收声源声音信号的面积，从而提高接收的远距离声源的辐射声能，并提高麦克风的灵敏度，且通过麦克风阵列，可以设计最优超指向波束，并利用多通道降噪和后置滤波技术降低复杂环境干扰噪声，可以进一步提高远距离拾音的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的拾音设备的剖视图；

图2是现有技术提供的抛物面声音反射的示意图；

图3是本发明提供的拾音设备声音反射的示意图；

图4是本发明提供的拾音设备音罩的主视图；

图5是本发明提供的拾音设备尺寸的示意图；

图6是本发明提供的线形麦克风位置、音罩侧边尺寸以及音罩半张角间关系的示意图；

图7是本发明提供的声传输函数测量方法的流程示意图；

图8是本发明提供的声传输函数测量的示意图；

图9是本发明提供的噪声抑制方法的流程示意图；

图10是本发明提供的无音罩阵列超指向波束的3D波束图；

图11是本发明提供的有音罩阵列超指向波束的3D波束图；

图12是本发明提供的无音罩1号麦克风的3D波束图；

图13是本发明提供的有音罩1号麦克风的3D波束图；

图14是本发明提供的无音罩31号麦克风的3D波束图；

图15是本发明提供的有音罩31号麦克风的3D波束图；

图16是本发明提供的有/无音罩的阵列超指向波束的白噪声增益对比示意图；

图17是本发明提供的有/无音罩的阵列超指向波束以及音罩内最大指向麦克风的指向因子对比示意图；

图18是本发明提供的有/无音罩时的阵列超指向波束在轴向的频率响应示意图；

图19是本发明提供的拾音系统的结构示意图；

附图标记：

110：音罩； 120：麦克风阵列。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于声音在空气中传播时衰减很快，特别是在开阔的空间中，声压和距离近似呈现平方反比的关系，即距离增大一倍，声压级下降6dBL，因此随着距离的增加，目标声音信号会变得越来越微弱，当其和周围的环境噪声几乎相当的时候，就会变得非常难以分辨。然而，很多应用都需要从远距离进行声音观测，例如观测动物和鸟类的声音、录制运动场上运动员的声音、影视节目中演员的录音、远距离声音监听、低空飞行器声探测等，对拾音系统提出了极高的要求。

目前的远距离拾音通常采用两种手段：一种是利用声学结构，另一种是利用麦克风阵列技术。其中，声学结构包括声干涉管和抛物面反射罩。声干涉管，即“枪式传声器”，通常将指向性麦克风安装在长管底部，给长管侧身开槽或开孔，于是轴向入射的声音可以直接传到麦克风，而侧向传入的声音需要透过小孔在管壁上多次反射后才传到麦克风，多次反射会造成干涉抵消，因此麦克风对轴向的声音具有更高的灵敏度，即在轴向形成了更强的指向性。抛物面反射罩中，通常将指向型麦克风放在抛物面反射罩的焦点位置，麦克风指向反射罩的底部以拾取反射声，由于抛物面会把所有平行于轴向的入射声音汇集到焦点位置，因此焦点处的麦克风灵敏度可以得到极大提升。利用麦克风阵列的远距离拾音方法是运用数字信号处理技术，对按照特定结构布放的多个麦克风所拾取的信号进行加工处理，输出希望的声音信号，即波束形成技术。

远距离拾音的难点在于目标声音经过远距离传播，到达麦克风系统时声能变得非常小，相对于环境噪声和麦克风系统的自噪声而言很微弱。

然而，声干涉管的接收声能面积有限，对于远场声源，其波阵面近似成平面波，但声干涉管仅相当于波阵面上的一个点，使得波阵面其他位置辐射的声能均被浪费。此外，声干涉管对干涉管的设计和麦克风的品质都有较高的要求，而干涉管很难优化，调整手段有限，因此指向能力不足。而抛物面反射罩的形状和焦点位置都需要精心设计，工艺要求很高，对焦点位置非常敏感，一旦焦点位置出现偏差则会导致拾音效果急剧下降，并且焦点附近的声场变化非常剧烈，频响也难以控制。此外，抛物面反射罩的指向特性只能靠反射罩开口与深度的比例来控制，这种几何结构的调整能力有限，因此指向性也欠佳。

麦克风阵列技术在远距离拾音时也有局限。由于麦克风阵列相当于波阵面上若干离散的点，无法有效利用波阵面其他位置辐射的声能，因此接收声能面积也有限。并且在声源距离很远的时候，目标声音功率过小，因而白噪声增益问题变得非常突出，很难提高波束指向性。

对此，本发明实施例提供了一种拾音设备。该拾音设备包括：

音罩和麦克风阵列；

其中，音罩轴截面的侧边为沿音罩轴线对称的两条倾斜直线段；

麦克风阵列部署于音罩内部的轴线上。

具体地，本发明实施例提供的拾音设备包含音罩和安装于音罩内部轴线上的麦克风阵列。其中，音罩用于增加接收声源声音信号的面积，从而提高接收的远距离声源的辐射声能，并提高麦克风的灵敏度。麦克风阵列用于采集音罩反射的声波，且引入麦克风阵列可以设计最优超指向波束，并进一步利用多通道降噪和后置滤波技术降低复杂环境干扰噪声，从而提高远距离拾音的效果。

此处，如图1所示，音罩110的轴截面的两条侧边为沿音罩轴线对称的两条倾斜直线段，用于将入射声波平行反射，使其反射声能得以均匀的分散到轴线上部署的线性麦克风阵列120中的M个麦克风上，同时还能保证不同方向入射的声波在麦克风阵列上仍然存在差异。

由于抛物面反射利用了抛物线的特性，如图2所示，平行于轴线入射的声音经过反射后会汇聚到焦点上。显然，这种聚焦的反射方式会使得焦点处的麦克风灵敏度远远大于其他位置的麦克风，不利于麦克风阵列。因此，为了使反射声能够均匀的分散到各个麦克风上，将音罩的轴截面的侧边设计为沿音罩轴线对称的两条直线段，并将线形麦克风阵列安装在音罩内部的轴线上，垂直于音罩开口面。如图3所示，将音罩的开口面朝向目标声源，当声波由开口处进入到音罩内部后，平行入射的声波依然会平行的反射，均匀地分布到线形麦克风阵列的各个麦克风上。

本发明实施例提供的设备，通过设置轴截面侧边为沿轴线对称的两条倾斜直线段的音罩，将入射声波均匀的分散到音罩轴线上部署的麦克风阵列上，以增加接收声源声音信号的面积，从而提高接收的远距离声源的辐射声能，并提高麦克风的灵敏度，且通过麦克风阵列，可以设计最优超指向波束，并利用多通道降噪和后置滤波技术降低复杂环境干扰噪声，可以进一步提高远距离拾音的效果。

基于上述实施例，音罩为圆锥状、圆台状、正棱锥状或棱台状。

具体地，音罩可以为圆锥状、圆台状、正棱锥状、棱台状，或其类似形状，只需保证音罩轴截面的侧边为沿音罩轴线对称的两条倾斜直线段即可。图4中展示了四棱台、五棱台、六棱台、八棱台、以及圆台形状的音罩的主视图。其中，中心黑点为麦克风阵列的固定基座。圆锥状或圆台状的音罩是接收声波波阵面面积最大的，因此接收的声能最大，而其他正棱锥状或棱台状的音罩的优势在于可以将多个音罩密布摆放，组成蜂窝状的拾音结构，同时指向多个声源方向，因此可以根据实际应用场景选择音罩的形状，本发明实施例对此不作具体限定。

基于上述任一实施例，侧边的长度大于等于预设长度阈值，预设长度阈值为最外侧麦克风与两条侧边所在直线的交点间的距离，与音罩的半张角的2倍余弦值的乘积。

具体地，为了使麦克风阵列中的所有麦克风都位于反射声波的覆盖范围，因此线形麦克风的长度、音罩的尺寸以及音罩的开口角度需要满足一定的条件。如图5所示，其中M是麦克风阵列中麦克风数量，d是相邻麦克风的间距，麦克风之间等距排列，d₀是最外侧麦克风与音罩底面的距离，Δ是音罩底面到音罩轴截面两条侧边所在直线的交点的距离，L是音罩的轴截面侧边的长度，α是音罩的半张角，即两条侧边所在直线的夹角的一半。如图6所示，若要满足音罩的边缘反射声能到达最外侧的麦克风，则侧边长度L需要大于等于一个预设长度阈值，该预设长度阈值为最外侧麦克风与两条侧边所在直线的交点间的距离，与音罩的半张角α的2倍余弦值的乘积。即，侧边长度L、最外侧麦克风与两条侧边所在直线的交点间的距离(M-1)d+d₀+Δ，以及音罩的半张角α之间需要满足以下的关系：

基于上述任一实施例，本发明实施例提供了一种拾音方法，该方法包括：

基于音罩将声源发出声音信号的入射声波平行反射到部署于音罩内部轴线上的麦克风阵列，基于麦克风阵列采集入射声波，得到声源对应的阵列信号；

其中，音罩轴截面的两条侧边为沿音罩轴线对称的两条倾斜直线段。

具体地，本发明实施例可以利用上述任一实施例提供的包含音罩和麦克风阵列的拾音设备进行声音信号的采集，利用轴截面侧边为沿轴线对称的两条倾斜直线段的音罩，将声源发出的声音信号均匀的分散到音罩轴线上部署的麦克风阵列上，再利用麦克风阵列进行反射声波的采集，得到声源对应的阵列信号。此处，拾音设备可以采用如上述任一实施例提供的拾音设备的结构，在此不再赘述。

本发明实施例提供的方法，利用轴截面侧边为沿轴线对称的两条倾斜直线段的音罩，将入射声波均匀的分散到音罩轴线上部署的麦克风阵列上，以增加接收声源声音信号的面积，从而提高接收的远距离声源的辐射声能，然后利用麦克风阵列进行反射声波的采集，得到声源的阵列信号，提高了远距离拾音的效果。

基于上述任一实施例，得到声源对应的阵列信号，之后还包括：

基于波束系数，对阵列信号进行滤波，得到超指向波束输出信号；

波束系数是基于声音信号对应频率下受限扩散场的相干函数矩阵，以及声音信号对应频率下麦克风阵列在目标方向上的相对传输函数矢量确定的。

具体地，在得到麦克风阵列采集的阵列信号后，可以利用超指向波束进行语音增强，以进一步优化远距离拾音的效果。

与通常的阵列波束设计方法不同的是，由于本发明实施例中，入射声波在音罩内进行强烈反射，将导致麦克风阵列中每个麦克风的空间指向性和声学特性产生显著差异。一方面是麦克风的空间指向特性发生了变化。如果麦克风本身是全指向的，当其放置在音罩内轴线上时，音罩开口方向传入的声音将显著大于其他方向传入的声音，因此造成麦克风的空间指向性产生巨大差异，而且这种差异与声源的声音信号频率和方位都密切相关。另一方面是麦克风的灵敏度也发生了变化。由于音罩的反射，开口方向传入的声音能量都集中在轴线附近，从而使得麦克风实际拾取到的声音信号显著大于其自由状态下拾取的信号，但麦克风阵列本身的底噪并不受音罩的影响，因此麦克风的灵敏度也发生了显著变化，这种变化也与声源的声音信号频率和方位密切相关。

因此，本发明实施例在设计超指向波束时，基于声音信号对应频率下受限扩散场的相干函数矩阵，以及声音信号对应频率下麦克风阵列在目标方向上的相对传输函数矢量，确定超指向波束的波束系数，以增强超指向波束的空间指向性，从而利用该波束系数对阵列信号进行滤波，得到超指向波束输出信号，增强了目标方向上的信号强度。其中，相对传输函数矢量包含麦克风阵列中各个麦克风在对应频率和对应方向的相对传输函数，任一麦克风的相对传输函数可以表征该麦克风的声传输函数与参考麦克风的幅频响应之间的比例关系。此处，由于麦克风阵列被音罩包围，因此在设计超指向波束时，不能采用理想扩散场模型，而需要采用受限扩散场的相干函数矩阵进行波束系数的计算。

基于声音信号对应频率下受限扩散场的相干函数矩阵，以及声音信号对应频率下麦克风阵列在目标方向上的相对传输函数矢量，可以通过解决以下凸优化问题求解得到超指向波束的波束系数：

其中，

为波束系数，

为

的共轭转置，ω为声音信号对应频率，Γ(ω)为声音信号对应频率下受限扩散场的相干函数矩阵，

为声音信号对应频率下麦克风阵列在目标方向上的相对传输函数矢量，

为目标方向，∈是白噪声增益控制因子，该凸优化问题可以用Sedumi或CVX等凸优化工具求出最优解。

或者，还可以通过解决以下凸优化问题求解得到超指向波束的波束系数：

其中，ε是对角线加权因子，I是单位矩阵，该凸优化问题可以采用对角线加权的方式改善波束的白噪声增益，避免系统噪声被显著放大。其最优解为：

在进行超远距离拾音时，由于目标声音非常微弱，因此若能尽可能地降低系统噪声，可以进一步优化拾音效果。一方面，麦克风阵列中的麦克风自身本底噪声、电路系统噪声、麦克风的距离误差、阵列离轴程度、音罩形状偏差等可以通过优化器件选型和加工工艺降低；另一方面，设计超指向波束时，可以约束白噪声增益，通过实际测量的效果进行不断调优，选择合适的白噪声增益控制因子∈或对角线加权因子ε。

本发明实施例提供的方法，基于声音信号对应频率下受限扩散场的相干函数矩阵，以及声音信号对应频率下麦克风阵列在目标方向上的相对传输函数矢量，确定超指向波束的波束系数，以增强超指向波束的空间指向性，从而利用该波束系数对阵列信号进行滤波，得到超指向波束输出信号，增强了目标方向上的信号强度。

基于上述任一实施例，相对传输函数矢量是基于麦克风阵列中各个麦克风在对应频率和对应方向的声传输函数，以及参考麦克风在目标方向上的幅频响应确定的；

参考麦克风是在对应频率下，麦克风阵列中在目标方向上具有最大幅频响应的麦克风。

具体地，进行波束设计时，需要选择一个麦克风作为参考麦克风，然后计算自由场下不同方向上各麦克风对应的相对传输函数。由于通常的麦克风阵列均采用特性一致的麦克风，因此参考麦克风的选择对波束性能没有影响，然而在本发明实施例中，由于麦克风的特性发生了变化，因此选择不同的麦克风做参考对波束性能有显著的影响。若选择的麦克风在某个频率上恰好位于目标信号相互抵消的空间位置上，将导致波束输出的目标信号显著变小，而估计误差和计算误差造成的影响则会相对增大。

因此，对于不同的声音信号频率，可以选择不同的麦克风作为参考麦克风。在选择参考麦克风时，可以将对应频率下，麦克风阵列中在目标方向上具有最大幅频响应的麦克风，作为参考麦克风。

然后，可以基于麦克风阵列中各个麦克风在对应频率和对应方向的声传输函数，以及参考麦克风在目标方向上的幅频响应，确定相对传输函数矢量。其中，幅频响应即声传输函数的幅值。具体可以通过求取各个麦克风在对应频率和对应方向的声传输函数，与参考麦克风在目标方向上的幅频响应之间的比值得到。例如，可以采用如下公式确定相对传输函数矢量

其中，ω和

是频率和方向，

为M个麦克风在对应频率和对应方向的声传输函数构成的矢量，d_ref(ω)为参考麦克风在目标方向上的幅频响应，

为第m个麦克风在对应频率和目标方向上的幅频响应。

根据上述方式求取得到的相对传输矢量，可以保证超指向波束对目标方向的实际响应始终是所有麦克风中最大的。此结论可以通过以下方式证明得到：

如果设波束系数为

且波束满足目标方向信号不失真，即

则

其中，

为音罩正前方，即目标方向，

为第m个麦克风在对应频率和目标方向上的相对传输函数。

本发明实施例提供的方法，通过选取麦克风阵列中在目标方向上具有最大幅频响应的麦克风作为参考麦克风，并基于麦克风阵列中各个麦克风在对应频率和对应方向的声传输函数，以及参考麦克风在目标方向上的幅频响应，确定相对传输函数矢量，提高了目标方向上语音增强的效果。

基于上述任一实施例，如图7所示，各个麦克风在对应频率和对应方向的声传输函数是基于如下步骤确定的：

步骤710，确定多个测量仰角角度；

步骤720，基于固定位置下的测试声源播放任一频率对应的测试声音信号，获取各个麦克风在音罩处于各个测量仰角角度时的声音采集信号；

步骤730，基于音罩处于各个测量仰角角度时的声音采集信号，以及测试声音信号，确定各个麦克风对应该频率的全方位声传输函数。

具体地，由于音罩会对传入的声音信号产生反射，因此音罩内的每个麦克风除了拾取到直接传入的声音信号之外，还会接收到音罩内复杂的反射声，这些声音产生干涉叠加，使每个麦克风的空间响应、频率响应和灵敏度都会发生明显改变。这给麦克风阵列的波束设计造成了困难，因为通常麦克风阵列的波束设计都假设每个麦克风特性完全一致，而且是在自由场(即无反射)下，利用几何关系建立起各个麦克风之间的空间-频率的相关关系。现在，由于复杂反射声的存在，这种相关关系很难直接推导，因此可以采用直接声学测量的方法获得空间内不同方向入射的不同频率声音信号到达各个麦克风的声传输函数。

声传输函数的测量可以在消声室或半消室中进行。将高品质的扬声器作为测试声源，基于测试声源播放任一频率对应的测试声音信号S(ω,Θ)，获取各个麦克风采集的声音采集信号X_m(ω,Θ)，其中，Θ是空间方位的标记，m＝1,…,M。然后，用系统辨识的方法求出扬声器到每个麦克风的声传输函数

M个麦克风对应的声传输函数连接成列矢量，即可得到频率ω、空间方位Θ对应的声传输函数矢量：

为了得到所有频率对应的声传输函数矢量，可以让扬声器播放覆盖所有频率的白噪声信号或者扫频信号。然而，由于空间方位Θ均匀的分布于一个三维球面，将球面用经线和纬线进行划分后，测量方位即位于每根经线和纬线的交点处。为了精细测量，需要将测试声源放置于各个经纬线处进行测量。由于纬度的范围是180°，经度的范围是360°，因此若保证经度和纬度都按照同样的间隔抽样，则经度抽样个数K＝2(N-1)，其中N纬度抽样个数。两个极点只需要测量一次，因此此种方式的测量方位点数为2(N-1)(N-2)+2。可见，该测量方法工作量极大，既耗时又需要复杂的声学校准工作。

为了减少测量工作量，以提高声传输函数的测量效率，本发明实施例充分利用音罩的对称性，将测量位置限缩为半圆上的多个测量点。如图8所示，定义音罩正前方为0°，背后方为180°，在0°到180°的范围内，将半圆均匀分成N个角度，作为测量仰角角度，并记为

n＝1,…,N，其中

将测试声源固定放置后播放任一频率对应的测试声音信号，然后依次按照测量仰角角度

水平转动音罩，并采集得到音罩处于当前测量仰角角度下的声音采集信号，从而计算声传输函数矢量

显然，由于音罩具有轴对称结构，因此如果将

当成纬度(或仰角)，则所有经度(或方位角)θ_k(k＝1,…,K，K是经度抽样个数)对应的声传输函数矢量都相等，即：

因此，利用音罩的对称性，可以基于音罩处于各个测量仰角角度时的声音采集信号，以及测试声音信号，确定得到各个麦克风对应该频率的全方位声传输函数。并且本发明实施例提供的测量方案只需要测量N个方位，因此显著降低了测量工作量。

本发明实施例提供的方法，基于固定位置下的测试声源播放任一频率对应的测试声音信号，获取各个麦克风在音罩处于各个测量仰角角度时的声音采集信号，并基于音罩处于各个测量仰角角度时的声音采集信号，以及测试声音信号，确定各个麦克风对应该频率的全方位声传输函数，显著降低了测量工作量。

基于上述任一实施例，声音信号对应频率下受限扩散场的相干函数矩阵是基于均匀分布于三维球面的声源对应的归一化相干函数矩阵的集总平均确定的，或是基于均匀分布于平面圆环上的声源对应的归一化相干函数矩阵的集总平均确定的；

任一声源对应的归一化相干函数矩阵是任一声源的频率下麦克风阵列在任一声源所在方向上的相对传输函数矢量及其共轭转置的乘积。

具体地，受限扩散场包括柱面二维扩散场和球面三维扩散场。若拾音方法的主要应用场景为室内，则可以采用球面三维扩散场，若拾音方法的主要应用场景为室外，则可以采用柱面二维扩散场，因此可以根据实际应用场景选择合适的受限扩散场，本发明实施例对此不作具体限定。

若采用球面三维扩散场，则基于均匀分布于三维球面的声源对应的归一化相干函数矩阵的集总平均，确定声音信号对应频率下受限扩散场的相干函数矩阵；若采用柱面二维扩散场，则基于均匀分布于平面圆环上的声源对应的归一化相干函数矩阵的集总平均，确定声音信号对应频率下受限扩散场的相干函数矩阵。

其中，任一声源对应的归一化相干函数矩阵是任一声源的频率下麦克风阵列在任一声源所在方向上的相对传输函数矢量及其共轭转置的乘积。

例如，对于球面三维扩散场，可采用如下公式计算对应的相干函数矩阵Γ_3D(ω)：

其中，K和N为经度和纬度上的抽样个数，

为位于方位角(经度)θ_k、仰角(纬度)

频率为ω的声源点所对应的相对传输函数矢量。由于音罩的轴对称性，使得同一个仰角

下所有方位角对应的相对传输函数矢量都相同，因此

即为

为

的共轭转置矩阵。另外，由于经度和纬度的均匀抽样并非三维球面的均匀抽样，因此可以引入

作为补偿权重。需要说明的是，球面的两个极点只需要计算一次。

对于柱面二维扩散场，可采用如下公式计算对应的相干函数矩阵Γ_2D(ω)：

其中，N为在0°至180°的范围内抽样的个数。

基于上述任一实施例，对阵列信号进行滤波，得到超指向波束输出信号，之后还包括：

对超指向波束输出信号进行噪声抑制，或者对超指向波束输出信号和辅助波束输出信号进行噪声抑制；

其中，辅助波束输出信号是基于波束形成方法获得的对应不同方向的波束信号。

具体地，得到超指向波束输出信号之后，还可以通过各种噪声抑制的方式对超指向波束输出信号进行优化处理，以进一步增强远距离拾音的效果。具体可通过广义旁瓣抵消模块、语音出现概率估计模块、噪声估计模块增益因子估计模块中的至少一种，对超指向波束输出信号进行噪声抑制。

此外，还可以生成若干个辅助波束输出信号，用于模拟实际应用场景中的环境声音，然后通过广义旁瓣抵消模块、语音出现概率估计模块、噪声估计模块增益因子估计模块中的至少一种，对超指向波束输出信号和辅助波束输出信号进行噪声抑制。其中，辅助波束输出信号是基于波束形成方法获得的对应不同方向的波束信号。各个辅助波束输出信号可以具有不同的指向性和稳健性。此处，可以利用如上述任一实施例提供的超指向波束的波束系数计算方式形成对应任一方向的辅助波束输出信号，也可以采用其他任何一种固定波束形成方法获得对应任一方向的辅助波束输出信号，例如多通道波束形成等，本发明实施例对此不作具体限定。

本发明实施例提供的方法，对超指向波束输出信号进行噪声抑制，或者对超指向波束输出信号和辅助波束输出信号进行噪声抑制，进一步增强了远距离拾音的效果。

基于上述任一实施例，对超指向波束输出信号进行噪声抑制，或者对超指向波束输出信号和辅助波束输出信号进行噪声抑制，包括：

对波束输出信号进行语音出现概率估计；波束输出信号包括超指向波束输出信号，或包括超指向波束输出信号，以及辅助波束输出信号和/或阵列信号；

基于波束输出信号的语音出现概率，对波束输出信号进行自适应调整，得到调整输出信号；

基于波束输出信号、波束输出信号的语音出现概率，以及调整输出信号，进行干扰噪声估计，得到噪声估计结果；

基于波束输出信号、噪声估计结果，以及调整输出信号，计算频域增强因子；

基于频域增强因子对调整输出信号进行增强，得到噪声抑制后的输出信号。

具体地，波束输出信号包括超指向波束输出信号，或包括超指向波束输出信号，以及辅助波束输出信号和/或阵列信号。如图9所示，将波束输出信号输入到语音出现概率估计模块中进行语音出现概率(Speech Presence Probability,SPP)估计，得到波束输出信号对应的语音出现概率。基于波束输出信号的语音出现概率，利用广义旁瓣抵消(Generalized Sidelobe Canceller,GSC)模块对波束输出信号进行自适应调整，得到调整输出信号。其中，自适应调整由波束输出信号的语音出现概率来控制。

随后，噪声估计模块根据波束输出信号及其语音出现概率，以及调整输出信号进行干扰噪声估计，得到噪声估计结果。此处，噪声估计对象可以是相干矩阵，也可以是功率谱估计，前者可以用于多通道后置滤波技术，后者可以用于单通道后置滤波增强技术，因此可以根据实际应用场景选择估计对象，本发明实施例对此不作具体限定。基于波束输出信号、噪声估计结果，以及调整输出信号，增益因子估计模块可以计算得到频域增强因子。最后用频域增强因子对调整输出信号进行增强，得到最终噪声抑制后的输出信号。

基于上述任一实施例，本发明实施例提供了一种针对上述任一实施例提供的拾音方法的性能验证方法。

该方法中，拾音设备的麦克风阵列由31颗全指向MEMS麦克风构成，其中d₀＝1.5cm，d＝1.1cm，音罩为圆锥状，半张角为30°，音罩的深度与麦克风阵列齐平，音罩底部用于安装麦克风阵列的支撑圆盘的直径为6.7cm。由于远距离拾音通常是在开阔的室外，因此受限扩散场采用柱面二维模型。

作为对比，可以将该拾音设备的音罩撤掉，只保留麦克风阵列和底部支撑圆盘。有音罩和无音罩时的超指向波束设计方法完全相同，其中白噪声增益控制因子∈为31.6(即白噪声增益-15dB)，对角线加权因子ε为0.001。此外，为了验证音罩本身的效果，可以选择音罩底部的1号麦克风和音罩最外侧的31号麦克风作为参考。上述两个麦克风的空间指向特性在消声室内测定；同样的，拆除音罩后，上述两个麦克风的空间指向特性也在消声室内进行测定。

a)空间指向特性的对比

实验测试结果如图10-图15所示，其中方位角0°是线形麦克风阵列所指方向，即目标方向。图10是没有音罩时的阵列超指向波束的3D波束图，图11是有音罩时的阵列超指向波束的3D波束图，可以发现，同样的麦克风阵列和超指向波束设计方法，增加了音罩之后，波束的指向性变得非常尖锐，特别是在中高频区域，这对超远距离拾音非常有利。

图12-图15是1号麦克风(位于底部)和31号麦克风(位于最外侧)在有音罩和无音罩条件下指向性的变化。图12是没有音罩时1号麦克风的空间指向结果，可以发现，由于底座的反射，1号麦克风并不是理想的全指向，在中高频附近形成了一定的指向性。图13是有音罩时该麦克风的指向性，音罩的作用使得该麦克风产生了非常好的指向特性。图14是没有音罩时31号麦克风(最外侧)的指向特性，可以看出，由于离底座较远，该麦克风受反射影响较小，基本上保持了全指向特性，仅在高频部分发生了较为复杂的变化。图15是有音罩时该麦克风的指向性，显然，即使位于音罩的开口处，音罩对其影响仍然很大，该麦克风也表现出明显的指向，不过比音罩底部的麦克风略差一些。

以上结果说明，本发明实施例提供的拾音设备中的音罩能够显著提高其内部的麦克风指向性，而结合音罩和麦克风阵列的优势之后，可以形成非常好的空间指向性，对远距离拾音非常有利。

b)波束性能参数的对比

在麦克风阵列波束研究中，常常用白噪声增益(White Noise Array Gain,WNG)来反映波束的稳健性或对系统噪声的放大程度，用指向性因子来反映波束的空间指向能力。此处，可以对比没有音罩和有音罩时的超指向波束的性能参数。

白噪声增益对比如图16所示，显然，由于超指向波束设计时的白噪声增益下限约束为-15dB，故而没有音罩和有音罩时的白噪声增益都大于-15dB，相对而言，有音罩时的WNG起伏较为剧烈，这与音罩的结构反射有关。没有音罩和有音罩时波束的白噪声增益都符合设计要求。

指向因子的对比如图17所示。此处除了对比没有音罩和有音罩时两种波束的结果，还把有音罩时麦克风阵列中产生最大指向的麦克风的指向因子展示出来。需要注意的是，不同频率上具有最大指向的麦克风并不相同，其目的是为了表明音罩结合麦克风阵列波束技术之后，可以实现比音罩本身更好的指向性。从图17中可以看出，在750Hz以上，有音罩的麦克风阵列系统(即音罩线阵系统)的指向性显著高于没有音罩的麦克风阵列系统(即线阵系统)，而且比单独靠反射(即音罩麦克风)得到的最大指向因子更高，间接表明了本发明提供的拾音设备比单独的抛物面反射罩系统指向性更优。在750Hz以下，音罩带来的指向性变差，低于无音罩的麦克风阵列波束，这是由于低频声波的波长很长，在音罩内部近似形成了压力场，指向性反而下降，但仍然是正值。

最后，为了表明本发明实施例提供的拾音设备不仅具有非常好的指向性，而且还能显著提高远距离信号的声能，有效放大微弱信号，图18给出了有音罩和无音罩时的波束对目标方向的频率响应，其中0dB对应的参考点是消声室内距离拾音设备3米处的声压级。作为对比，将两种波束设计时所选择的参考麦克风在目标方向上的频率响应也绘制出来。很明显，两种波束的频响跟各自的参考麦克风频响完全一样，而且有音罩之后，超指向波束的响应远远大于没有音罩的超指向波束，约13dB左右。这一特点显示本发明实施例提供的拾音设备，能够显著放大目标方向的信号，又因为该设备有非常好的指向性，因此非常适用于远距离拾音应用。

下面对本发明提供的拾音装置进行描述，下文描述的拾音装置与上文描述的拾音方法可相互对应参照。

基于上述任一实施例，本发明实施例提供了一种拾音装置，该装置包括声音采集单元。

其中，声音采集单元用于基于音罩将声源发出声音信号的入射声波平行反射到部署于音罩内部轴线上的麦克风阵列，基于麦克风阵列采集入射声波，得到声源对应的阵列信号；

本发明实施例提供的装置，利用轴截面侧边为沿轴线对称的两条倾斜直线段的音罩，将入射声波均匀的分散到音罩轴线上部署的麦克风阵列上，以增加接收声源声音信号的面积，从而提高接收的远距离声源的辐射声能，然后利用麦克风阵列进行反射声波的采集，得到声源的阵列信号，提高了远距离拾音的效果。

基于上述任一实施例，该装置还包括超指向波束滤波单元，用于：

本发明实施例提供的装置，基于声音信号对应频率下受限扩散场的相干函数矩阵，以及声音信号对应频率下麦克风阵列在目标方向上的相对传输函数矢量，确定超指向波束的波束系数，以增强超指向波束的空间指向性，从而利用该波束系数对阵列信号进行滤波，得到超指向波束输出信号，增强了目标方向上的信号强度。

本发明实施例提供的装置，通过选取麦克风阵列中在目标方向上具有最大幅频响应的麦克风作为参考麦克风，并基于麦克风阵列中各个麦克风在对应频率和对应方向的声传输函数，以及参考麦克风在目标方向上的幅频响应，确定相对传输函数矢量，提高了目标方向上语音增强的效果。

基于上述任一实施例，该装置还包括声传输函数测量单元，用于：

确定多个测量仰角角度；

基于固定位置下的测试声源播放任一频率对应的测试声音信号，获取各个麦克风在音罩处于各个测量仰角角度时的声音采集信号；

基于音罩处于各个测量仰角角度时的声音采集信号，以及测试声音信号，确定各个麦克风对应该频率的全方位声传输函数。

本发明实施例提供的装置，基于固定位置下的测试声源播放任一频率对应的测试声音信号，获取各个麦克风在音罩处于各个测量仰角角度时的声音采集信号，并基于音罩处于各个测量仰角角度时的声音采集信号，以及测试声音信号，确定各个麦克风对应该频率的全方位声传输函数，显著降低了测量工作量。

基于上述任一实施例，该装置还包括噪声抑制单元，用于：

本发明实施例提供的装置，对超指向波束输出信号进行噪声抑制，或者对超指向波束输出信号和辅助波束输出信号进行噪声抑制，进一步增强了远距离拾音的效果。

基于上述任一实施例，噪声抑制单元具体用于：

图19示例了一种拾音系统的实体结构，如图19所示，该电子设备可以包括：处理器(processor)1910、通信接口(Communications Interface)1920、存储器(memory)1930、通信总线1940，以及与处理器1910连接的如上述任一实施例提供的拾音设备1950，其中，处理器1910，通信接口1920，存储器1930通过通信总线1940完成相互间的通信。处理器1910可以调用存储器1930中的逻辑指令，以执行拾音方法，该方法包括：利用拾音设备采集声源发出的声音信号，得到所述声源对应的阵列信号。

此外，上述的存储器1930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的拾音方法，该方法包括：利用如上述任一实施例提供的拾音设备采集声源发出的声音信号，得到所述声源对应的阵列信号。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的拾音方法，该方法包括：利用如上述任一实施例提供的拾音设备采集声源发出的声音信号，得到所述声源对应的阵列信号。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种拾音设备，其特征在于，包括：

音罩和麦克风阵列；

所述麦克风阵列部署于所述音罩内部的轴线上；

所述音罩用于将声源发出的声音信号的入射声波平行反射到所述麦克风阵列；所述麦克风阵列用于采集所述入射声波，并将所述入射声波传输至处理器，以供所述处理器基于所述入射声波确定所述声源对应的阵列信号，并基于波束系数，对所述阵列信号进行滤波，得到超指向波束输出信号；

2.根据权利要求1所述的拾音设备，其特征在于，所述音罩为圆锥状、圆台状、正棱锥状或棱台状。

3.根据权利要求1或2所述的拾音设备，其特征在于，所述侧边的长度大于等于预设长度阈值，所述预设长度阈值为最外侧麦克风与两条侧边所在直线的交点间的距离，与所述音罩的半张角的2倍余弦值的乘积。

4.一种拾音方法，其特征在于，包括：

所述得到所述声源对应的阵列信号，之后还包括：

5.根据权利要求4所述的拾音方法，其特征在于，所述相对传输函数矢量是基于所述麦克风阵列中各个麦克风在对应频率和对应方向的声传输函数，以及参考麦克风在所述目标方向上的幅频响应确定的；

6.根据权利要求5所述的拾音方法，其特征在于，各个麦克风在对应频率和对应方向的声传输函数是基于如下步骤确定的：

确定多个测量仰角角度；

7.根据权利要求4所述的拾音方法，其特征在于，所述声音信号对应频率下受限扩散场的相干函数矩阵是基于均匀分布于三维球面的声源对应的归一化相干函数矩阵的集总平均确定的，或是基于均匀分布于平面圆环上的声源对应的归一化相干函数矩阵的集总平均确定的；

8.根据权利要求4所述的拾音方法，其特征在于，所述对所述阵列信号进行滤波，得到超指向波束输出信号，之后还包括：

9.根据权利要求8所述的拾音方法，其特征在于，所述对所述超指向波束输出信号进行噪声抑制，或者对所述超指向波束输出信号和辅助波束输出信号进行噪声抑制，包括：

10.一种拾音装置，其特征在于，包括：

所述装置还包括超指向波束滤波单元，用于：

11.一种拾音系统，其特征在于，包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，以及与所述处理器连接的如权利要求1至3任一项所述的拾音设备，所述处理器执行所述程序时实现如权利要求4至9任一项所述拾音方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求4至9任一项所述拾音方法的步骤。