CN115359804A

CN115359804A - 一种基于麦克风阵列的定向音频拾取方法和系统

Info

Publication number: CN115359804A
Application number: CN202211298747.0A
Authority: CN
Inventors: 张瑜; 魏庆凯; 陈高鋆; 李永梁; 陶文场
Original assignee: Beijing Kuaiyu Electronics Co ltd
Current assignee: Beijing Kuaiyu Electronics Co ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-11-18
Anticipated expiration: 2042-10-24
Also published as: CN115359804B

Abstract

本发明涉及指向性音频分离技术领域，提供了一种基于麦克风阵列的定向音频拾取方法和系统。该方法包括：采用由麦克风阵列组成的拾音器采集空间音频信号，降噪，按照音频信号投影方法获得N个波束的指向性音频信号，通过分帧加窗和声强指数衰减法获得N个波束的指向性音频频谱的掩蔽值mask；采用频谱分段统计和神经网络分类方法，获得修正后的掩蔽值mask；通过快速傅里叶逆变换变换到时域，得到N个波束的指向性音频的最终波形。本发明提高指向性拾音的语音质量，提升听感的同时提高文字转录准确率，所需硬件条件简单，成本低廉。

Description

一种基于麦克风阵列的定向音频拾取方法和系统

技术领域

本发明涉及指向性音频分离技术领域，尤其涉及一种基于麦克风阵列的定向音频拾取方法和系统。

背景技术

在户外或者活动现场进行直播或者采访时，很多时候嘈杂的环境声话筒音量过大，同时说话人的声音也不容易被听清楚，特别是旁边有其他无关人员说话且音量较大的时候，很容易干扰到正常的直播或者采访，指向性拾音器可以只拾取讲话人方向的声音，保留有现场气氛的同时清晰拾取目标人员的语音，比如，在国内外的银行营业厅，通过VTM顾客能够和银行客服人员进行对话沟通，用于身份进行判定提供和其他贴身一对一的可视化服务，而营业厅中通常会有叫号声和其他人员讲话声，指向性拾音装置只拾取朝向顾客方向的声音，提高语音清晰度。

此外，为了提高业务办理效率和服务质量，音频记录和文字转录被大量需要，比如在公检司法的办案审讯过程中通常需要录音并将录音转为文字记录，在营业厅业务办理中，需对业务办理过程进行录音，并将录音以文字形式保存，如果采用普通的全指向拾音器，录到的声音会包括周围环境噪声，如设备声和无关人员的说话声，尤其是嘈杂环境下，针对这类对话人位置相对固定的应用场景，指向性拾音器可以在前端录音时，大幅降低环境噪声干扰，增强目标音频。如果能在前端采集时根据拾音器设置的不同方位将音频分离，后端连接语音转录，可实时完成对话内容的文字记录工作。在这方面已经有很多相关专利，如专利《角色分离方法、会议纪要的记录方法、角色展示方法、装置、电子设备及计算机存储介质》202010596049.3用于会议记录，在公司内部会议可以有效提高工作效率，但是由于需要获取说话人个人身份信息，对于营业厅这样的开放环境不可能获得人员信息，另外，该方法需要从语音特征中获取人员角色，在有噪声环境下误判率会比较高，会降低转写率。在专利《审讯场景下的说话人角色分离方法及系统》201711342251.8中，对同一时刻只有单方向有语音讲话时效果较好，但是在正常对话过程中，难免会有两边甚至多个方向的人同时说话的情况，特别是说话的头尾出通常会有尝试插话打断的情况，此时就会出现错误记录。在应用神经网络的方法实现语音分离时，往往计算量大，移植成本高。

发明内容

有鉴于此，本发明提供了一种基于麦克风阵列的定向音频拾取方法和系统，以解决现有技术中指向性拾音的语音质量低、文字转录准确率低的技术问题。

第一方面，本发明提供了一种基于麦克风阵列的定向音频拾取方法，包括：

S1.采用由麦克风阵列组成的拾音器采集空间音频信号，对所述空间音频信号进行降噪；

S2.基于降噪后的所述空间音频信号，按照音频信号投影方法获得N个波束的指向性音频信号，通过分帧加窗获得所述N个波束的指向性音频频谱，依次计算所述N个波束的指向性音频频谱中对应各频点的功率谱幅值，获得各频点音频的来源方向，并通过声强指数衰减法获得所述N个波束的指向性音频频谱的掩蔽值mask；

S3.采用频谱分段统计和神经网络分类方法，对所述N个波束的指向性音频频谱中各频点的掩蔽值mask进行修正，获得修正后的掩蔽值mask；

S4.基于所述修正后的掩蔽值mask，通过快速傅里叶逆变换，得到所述N个波束的指向性音频信号的最终波形。

进一步地，所述拾音器包括空间均匀分布的四麦阵列拾音器，所述四麦阵列拾音器包括：四个心形或宽心形单指向性麦克风，所述四个心形或宽心形单指向性麦克风围绕中心点均匀布置在安装座平面上，用于采集四路心形指向性音频信号。

进一步地，所述S1包括：

S11.采用所述拾音器采集空间音频数字信号，在所述空间音频数字信号中，选择帧长为10ms~20ms的设定数量的采样点；

S12.将采集的多路空间音频数字信号的帧长分别存储，形成多个帧长片段，并通过计算所述多路空间音频数字信号的算术平均序列，计算得到全指向性的音频信号；

S13.采用改进的最小值控制递归平均噪声估计法依次对所述多路空间音频数字信号进行单声道音频降噪处理。

进一步地，所述步骤S2包括：

S21.对目标声场空间周向360°进行N等分，按照所述音频信号投影方法对降噪后的所述空间音频信号进行投影叠加处理，得到N个波束的指向性音频信号，其中，N表示大于1的自然数；

S22.对所述N个波束的指向性音频进行帧移，将当前帧和前一帧拼接，形成窗长为W=2*F长度的窗口，对所述窗口加等长的窗，并对加窗后的N个波束的指向性音频信号进行快速傅里叶变换，计算出所述N个波束的指向性音频频谱，共计NW个频点，其中，F表示帧长；

S23.基于所述NW个频点，依次计算所述N个波束的指向性音频频谱中对应各频点的功率谱幅值，逐个频点找出N个波束的指向性音频功率频谱幅值中的最大值，并设定该最大值所在波束的指向为对应频点的音频的来源方向；

S24.通过声强指数衰减法，分别计算所述N个波束的指向性音频频谱的掩蔽值mask，并设置所述N个波束的指向性音频功率谱幅值中的最大值对应的波束在目标方位处的掩蔽值mask=1.0；

S25.利用所述N个波束的指向性音频功率谱幅值中的最大值乘以衰减权重，获得除所述目标方位处的掩蔽值mask=1.0之外的、其他N-1个波束的指向性音频频谱中各频点的掩蔽值mask。

进一步地，还包括：在所述步骤S25之后，进行帧与帧之间的时间平滑。

进一步地，所述步骤S3包括以下子步骤：

S31.根据所述N个波束的指向性音频信号的频段特性，将所述N个波束的指向性音频频谱分为设定数量的频段；

S32.基于所述设定数量的频段，设置高频mask平均值的阈值为0；

S33.分段统计各个频段的mask值，求得各频段的mask平均值；

S34.设置各频段mask平均值的上限阈值和下限阈值；

S35.获取介于各频段mask平均值的上限阈值和下限阈值之间的mask平均值，并将这些mask平均值作为权重和对应所述N个波束的指向性音频频谱中的各频点的实部、虚部分别点对点相乘，获得所述N个波束的指向性音频频谱中各频点的掩蔽值mask。

进一步地，所述步骤S3还包括：

S36.对目标方位处的指向性音频信号进行声学特征提取，得到42个音频特征值，将所述42个音频特征值输入初始的神经网络模型，用输出的带标签的特征向量训练，得到目标神经网络模型；

S37.将获得的所述目标方位处的指向性音频信号输入所述目标神经网络模型，计算出分类权重值，用所述分类权重值和所述N个波束的指向性音频频谱中各频点的掩蔽值mask点乘，得到目标频点掩蔽值mask谱图，获得修正后的掩蔽值mask。

进一步地，所述S36还包括：调整播放干扰声的扬声器的播报音量和目标方位处的指向性音频的播报音量，控制信噪比。

进一步地，所述步骤S4包括：

S41.对步骤S2中分帧加窗后的N个波束中指向目标方向的通道音频信号进行快速傅里叶变换，将所述修正后的掩蔽值mask和所述快速傅里叶变换后得到的值的实部、虚部分别点乘，再通过快速傅里叶逆变换变换到时域波形；

S42.将所述时域波形分帧加窗后和前一帧重叠相加，得到目标方位处的指向性音频的最终波形。

第二方面，本发明还提供一种基于麦克风阵列的定向音频拾取系统，包括：

采集模块，用于采用由麦克风阵列组成的拾音器采集空间音频信号，对所述空间音频信号进行降噪；

计算模块，用于基于降噪后的所述空间音频信号，按照音频信号投影方法获得N个波束的指向性音频信号，通过分帧加窗获得所述N个波束的指向性音频频谱，依次计算所述N个波束的指向性音频频谱中对应各频点的功率谱幅值，获得各频点音频的来源方向，并通过声强指数衰减法获得所述N个波束的指向性音频频谱的掩蔽值mask；

修正模块，用于采用频谱分段统计和神经网络分类方法，对所述N个波束的指向性音频频谱中各频点的掩蔽值mask进行修正，获得修正后的掩蔽值mask；

变换模块，用于基于所述修正后的掩蔽值mask，通过快速傅里叶逆变换，得到所述N个波束的指向性音频信号的最终波形。

本发明与现有技术相比存在的有益效果是：

1、本发明提出了从计算音频来源方向的角度出发，以音频频谱掩蔽mask的方法为出发点展开的处理算法，取得了语音分离效果。

2、本发明通过结合基于规则的频谱统计分析算法和神经网络二分类算法，对指向性音频做处理，提高指向性拾音的语音质量，在提升听感的同时提高文字转录准确率。

3、本发明的指向性算法和音频分离算法对安装结构要求低，特别是应用在对结构大小有限制的拾音环境，所需硬件条件简单，制造成本低廉。

4、本发明在同一个硬件设备上通过调整算法实现三种不同指向性拾音模式，适应多种应用场景。

5、本发明将分类结果作为加权值，提高指向性音频的音频质量，计算量小，可用于嵌入式便携设备。

附图说明

为了更清楚地说明本发明中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于麦克风阵列的定向音频拾取方法的流程图；

图2是本发明实施例提供的一种定基于麦克风阵列的向音频拾取方法的步骤示意图；

图3是本发明实施例提供的三种指向性拾音模式示意图；

图4是本发明实施例提供的待计算指向音频示意图；

图5是本发明实施例提供的搭建神经网络模型结构的示意图；

图6是本发明实施例提供的一种基于麦克风阵列的定向音频拾取系统的框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

下面将结合附图详细说明本发明的一种基于麦克风阵列的定向音频拾取方法。

图1是本发明实施例提供的一种基于麦克风阵列的定向音频拾取方法的流程图。

图2是本发明实施例提供的一种基于麦克风阵列的定向音频拾取方法的步骤示意图。

如图1所示，该定向音频拾取方法包括：

图3是本发明实施例提供的三种指向性拾音模式示意图。

所述拾音器包括空间均匀分布的四麦阵列拾音器，包括：所述四麦阵列拾音器包括：四个心形或宽心形单指向性麦克风，所述四个心形或宽心形单指向性麦克风围绕中心点均匀布置在安装座平面上，用于采集四路心形指向性音频信号。

其中，所述拾音器，包括音频均匀的麦克风阵列拾音器，例如，四麦阵列拾音器，六麦阵列拾音器，八麦阵列拾音器等，利用本发明设计原理都能得到良好的指向性音频分离效果。

所述麦克风阵列空间分布均匀就可以用本发明的方法实现相应技术效果，例如，在结构上设置4个麦克风不再同一个平面上，而是空间均匀分布，使用本发明的方法实现相应技术效果。

所述步骤S1包括：

其中，每帧的采样点数根据采样率的不同而不同，通常选择帧长为10ms~20ms的设定数量的采样点，之所以选择上述帧长，是因为帧长为10ms~20ms的音频为人的音频。

S13.采用改进的最小值控制递归平均噪声估计法依次对所述多路空间音频数字信号进行单声道音频降噪处理。真实的环境中存在很多未知方向未知大小的有源噪声，当这些噪声和N个波束的纯净目标人声叠加后，在这些噪声频点处，会选择出错误的音频来源波束，导致后续的判断失效，但是噪声的特点是来源方向和幅值大小都是随机的，为了抑制声场环境背景中的平稳噪声，如底噪、空调声、服务器设备等，对采集四路音频做降噪处理，以降低噪声导致的误判。为了在低信噪比的情况下也能有良好的降噪效果，采用改进的最小值控制递归平均噪声估计法，即IMCRA(Improved Minima Controlled RecursiveAveraging)，依次对采用四麦阵列拾音器采集空间音频之后进行单声道音频降噪处理。

所述步骤S2包括：

图4是本发明实施例提供的待计算指向音频示意图。

根据计算精度要求，将目标声场空间周向360°均匀划分出N份，按照音频信号投影方法对降噪后的四路心形指向性音频进行投影叠加处理。

例如，记安装的四个麦克风的编号分别为麦克风a、b、c、d，设图4中方向N1和麦克风a的安装方向夹角为

，计算N1方向音频信号的投影计算式如下：

（1）

其中，

、

、

、

分别表示麦克风a、b、c、d的音频采样信号，

表示麦克风a和N1方向夹角。

S22. 对所述N个波束的指向性音频进行帧移，将当前帧和前一帧拼接，形成窗长为W=2*F长度的窗口，对所述窗口加等长的窗，并对加窗后的N个波束的指向性音频信号进行快速傅里叶变换，计算出所述N个波束的指向性音频频谱，共计NW个频点，其中，F表示帧长；

根据公式

逐点计算得到N个波束指向性音频功率谱；找出N个波束的指向性音频功率谱幅值中的最大值，并以此设定该最大值的音频指向为目标方位指向性音频的来源方向。

示例性地，N个波束的功率谱在1000Hz处的功率谱幅值是指向0°方向的波束，且功率谱幅值记为

，就暂认定该1000Hz的音频来源于0°方向。其他N-1个方向的波束功率谱在1000Hz频点处的幅值肯定小于

，分别记为

，越接近0°方向的波束，功率谱幅值越接近

，越应该被保留，1000Hz的频点掩蔽值越接近1.0，反之则掩蔽值越接近0.0，分别计算出N个波束所有频点的掩蔽值。基于NW个频点，分别求出N个波束的指向性音频功率频谱幅值中的最大值，并设定该最大值所在波束的指向对应频点的音频指向为目标方位指向性音频的来源方向。

分别计算N个波束的指向性音频频谱的掩蔽值mask，首先设置N个波束的指向性音频功率谱幅值的最大值的波束在最大值对应的频点处的掩蔽值mask=1.0，即表示不做任何衰减。

例如，当所述指向性拾音器指向0°方向时，就只需计算0°方向波束的音频，如果需要获得多个方向的波束的指向性音频的信号，就计算多路波束的指向性音频。

对除所述最大值对应的频点处的掩蔽值mask=1.0的其他N-1个波束的指向性音频频谱，在利用在所述最大值对应的频点处的掩蔽值mask=1.0的幅值乘以衰减权重，即mask的值，如下式：

（2）

其中，

表示第

个频点，

表示第k个频点在最大方位的能量值，

表示第

个频点在第

个方位的能量值。

取值在2~10之间。

其中，

越小，表示声音来源于对应方位的概率越小，需要被衰减掉，

越大，表示声音来源于对应方位的概率越大，需要保留；

还包括：在所述步骤S25之后，进行帧与帧之间的时间平滑；

由于语音信号频谱是连续的，在上述步骤后，会导致N个波束的指向性音频功率频谱不连续，降低了语音质量，因此，需要做帧与帧之间的时间平滑，以避免N个波束的指向性音频功率频谱的连续，设置平滑参数为

，则对于第d个波束音频的第i个频点，如下式：

（3）

其中，

表示当前帧的第d个波束音频的第i个频点的功率值，

表示前一帧的第d个波束音频的第i个频点的功率值。

按照上述计算，将N个波束的指向性音频频谱的快速傅里叶变换值乘以各自对应的频点掩蔽值mask，然后提取设定数量的频段指向性音频，进行快速傅里叶逆变换运算，前后帧加窗重叠相加，理论上应该得到完美的指向性音频，但环境往往掺杂噪声，噪声的来源方向和幅值大小都是随机的，所以N个波束的指向性音频频谱中各频点的掩蔽值mask中，出错的频点也是随机分布的，尽管在采用所述四麦阵列拾音器采集空间音频的数字信号时已经进行过降噪，但残留的噪声仍然会影响所需的N个波束的指向性音频的最终效果。因此，需要要滤除掉这些出错的频点的掩蔽值mask，一方面采用频段统计法，因为这些出错的频点的掩蔽值mask的分布相对无规律，而正常的人声是有明显规律且聚集的，另一方面，当这些出错的频点有较明显的分布规律时，可以用神经网络的方法对其进行分类判断，综合两方面的判断结果，得到最终的修正后的N个波束的指向性音频的掩蔽值mask。

所述步骤S3包括以下子步骤：

例如，采样率为16000Hz，将所述指向性音频频谱分为4个频段，即把0~8000Hz分为低频、中频、中高频和高频，具体需要根据音频的频段和指向性麦克风的特性来划分。

由于心形麦克风在高频时指向性变差甚至消失，会影响最终的判断结果，因此，在开始的时候先将高频频点的高频阈值掩蔽值mask置零，高频阈值要根据所选用麦克风的自身特性确定；

S33.分段统计各个频段的mask值，求得各频段的mask平均值；

S34.设置各频段mask平均值的上限阈值和下限阈值；

设置各个频段mask平均值的阈值，如设置mask平均值上限设置阈值0.8，如果N个波束中的某个音频频段mask平均值大于0.8，则认为在当前帧的音源来源于该波束音频指向的方向，可直接将该波束音频的当前频段所有的mask设置为1.0，以提高准确度；同样地，如设置mask平均值的下限，如设置为0.3，当小于0.3时，则认为当前帧音源肯定不是来源于该波束指向方向，可将该路波束音频的当前频段所有的mask设置为0.0。

图5是本发明实施例提供的搭建神经网络模型结构的示意图。

所述步骤S3还包括：

声学特征提取包括：

音频数据窗长为20ms，相邻两个窗口重叠率为50%，采用Vorbis窗函数，该函数表达式如下：

(4)

W(n)表示Vorbis窗函数，n表示频点序号。

用FFT求得音频频谱，求得22个bark值，用DTC求倒谱得到22维BFCC特征；此外分别计算BFCC的一阶时间导数和二阶时间导数的前6个值，共计12个特征值；对频谱采用基音滤波器滤除原始音频语音谐波之间的噪声，计算整个频带上基音相关度的DCT倒谱, 取其前6个系数作为音频特征；基音增益作为1个输入特征；谱平坦度作为1个输入特征，计算的是信号频谱的分布集中度，如果分布较为集中，谱平坦度值会很低。而如果信号分布较为平均，则谱平坦度值会很高，特别是针对音频分离后的频谱特征会有明显效果。谱平坦度计算公式如下：

(5)

其中，x表示频点的功率谱幅值。

其中，FFT(fast Fourier transform)，表示快速傅里叶变换，BFCC（BarkFrequency Cepstrum Cofficient），表示bark频率倒谱系数。

由于几何平均计算量大，所以用如下公式来代替：

(6)

以上共计42个音频特征值作为神经网络模型的输入。

训练数据采集搭建环境，在目标方位采用播放音频的方式，在其他方位播放干扰声源，对录制的音频打标签时，目标方位播放音频的波束在有音频播放时播放音频打上标签1，没有音频播放时打上标签0；

所述S36还包括：调整播放干扰声的扬声器的播报音量和目标方位处的指向性音频的播报音量，控制信噪比。

所述信噪比大于5。

其中，权重值在0~1之间。

其中，神经网络模型的搭建，包括：

向第一分支输入采用四麦阵列拾音器采集空间音频提取的42维声学特征，经过1个包含24个神经元的全连接层，1个包含24个神经元的GRU网络层和1个全连接层，输出指向权重值，获得目标神经网络模型。

指向权重值的取值范围为[0~1]；

所述神经网络使用ReLU激活函数。

ReLU激活函数的表达式见下式：

(7)

本发明采用ReLU激活函数遵从仿生物学原理，能使得神经元具有技术激活特性，避免了梯度爆炸和梯度消失问题，让梯度下降以及反向传播更加高效。

所述步骤S4包括：

为了保持时域波形的连续性，需要将进行时域波形加窗后和前一帧重叠相加，得到目标方位指向性音频的最终波形。

本发明提出了从计算音频来源方向的角度出发，以音频频谱掩蔽mask的方法为出发点展开的处理算法，取得了语音分离效果；通过结合基于规则的频谱统计分析算法和神经网络二分类算法，对指向性音频做处理，提高指向性拾音的语音质量，在提升听感的同时提高文字转录准确率；在阵列结构不变的情况下，实现三种指向性拾音模式，适应不同的拾音场景自由切换；指向性算法和音频分离算法对安装结构要求低，特别是应用在对结构大小有限制的拾音环境，所需硬件条件简单，制造成本低廉；本发明在同一个硬件设备上通过调整算法实现三种不同指向性拾音模式，适应多种应用场景；本发明将分类结果作为加权值，提高指向性音频的音频质量，计算量小，可用于嵌入式便携设备。

基于同一构思，本发明还提供一种基于麦克风阵列的定向音频拾取系统，包括：

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于麦克风阵列的定向音频拾取方法，其特征在于，包括：

2.根据权利要求1所述的定向音频拾取方法，其特征在于，所述拾音器包括空间均匀分布的四麦阵列拾音器，所述四麦阵列拾音器包括：四个心形或宽心形单指向性麦克风，所述四个心形或宽心形单指向性麦克风围绕中心点均匀布置在安装座平面上，用于采集四路心形指向性音频信号。

3.根据权利要求1所述的定向音频拾取方法，其特征在于，所述S1包括：

4.根据权利要求1所述的定向音频拾取方法，其特征在于，所述步骤S2包括：

5.根据权利要求4所述的定向音频拾取方法，其特征在于，还包括：在所述步骤S25之后，进行帧与帧之间的时间平滑。

6.根据权利要求1所述的定向音频拾取方法，其特征在于，所述步骤S3包括以下子步骤：

S33.分段统计各个频段的mask值，求得各频段的mask平均值；

S34.设置各频段mask平均值的上限阈值和下限阈值；

7.根据权利要求6所述的定向音频拾取方法，其特征在于，所述步骤S3还包括：

8.根据权利要求7所述的定向音频拾取方法，其特征在于，所述S36还包括：调整播放干扰声的扬声器的播报音量和目标方位处的指向性音频的播报音量，控制信噪比。

9.根据权利要求1所述的定向音频拾取方法，其特征在于，所述步骤S4包括：

10.一种基于麦克风阵列的定向音频拾取系统，其特征在于，包括：