CN116437280A

CN116437280A - 评估麦克风阵列一致性的方法、设备、装置和系统

Info

Publication number: CN116437280A
Application number: CN202310466643.4A
Authority: CN
Inventors: 李国梁; 罗朝洪; 程树青
Original assignee: Shenzhen Goodix Technology Co Ltd
Current assignee: Shenzhen Goodix Technology Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2023-07-14
Also published as: CN109313909A; WO2020037555A1; CN109313909B

Abstract

本申请实施例提供了一种评估麦克风阵列一致性的方法、设备、装置和系统，能够评估麦克风阵列中不同麦克风之间的一致性，从而根据一致性评估结果指导麦克风阵列的校准和评估多通道增强算法的鲁棒性，提升用户体验。该方法包括：获取N个麦克风分别采集的N个音频信号，该N个麦克风构成麦克风阵列，N≥2；根据该N个音频信号，确定该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值，该参考麦克风为该N个麦克风中的任意一个麦克风；根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值，对该N个麦克风进行一致性评估。

Description

评估麦克风阵列一致性的方法、设备、装置和系统

技术领域

本申请涉及语音通讯和语音智能交互领域，并且更具体地，涉及评估麦克风阵列一致性的方法、设备、装置和系统。

背景技术

在语音通讯应用中，语音增强技术能够提高人的听觉感受，提高语音通讯的可懂度，在语音智能交互应用中，语音增强技术能够提高语音识别的准确率，提升用户体验，因此语音增强技术无论是在传统的语音通讯，还是语音交互中都至关重要。语音增强技术分为单通道语音增强技术和多通道语音增强技术，其中，单通道语音增强技术能够消除稳态噪声，不能消除非稳态噪声，且信号比提高是以语音损伤为代价，信噪比提高越多，语音损伤越大；多通道语音增强技术利用麦克风阵列采集多路信号，利用多麦克风信号之间的相位信息和相干信息消除噪声，能够消除非稳态噪声，且对语音损伤较小。

在多通道语音增强技术中，麦克风阵列中不同麦克风之间的一致性直接影响算法性能，现有方案提出了多通道增强技术的改进算法，增加算法的鲁棒性，同时对麦克风之间的一致性要求降低，然而，麦克风之间的一致性很低时仍然会影响算法性能，从而影响了用户体验。

发明内容

本申请提供一种评估麦克风阵列一致性的方法、设备、装置和系统，能够评估麦克风阵列中不同麦克风之间的一致性，从而根据一致性评估结果指导麦克风阵列的校准和评估多通道增强算法的鲁棒性，提升用户体验。

第一方面，提供了一种评估麦克风阵列一致性的方法，包括：

获取N个麦克风分别采集的N个音频信号，该N个麦克风构成麦克风阵列，N≥2；

根据该N个音频信号，确定该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值，该参考麦克风为该N个麦克风中的任意一个麦克风；

根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值，对该N个麦克风进行一致性评估。

需要说明的是，对该N个麦克风进行一致性评估，可以用于指导麦克风阵列中的麦克风分布，或者指导重新设计麦克风阵列中的麦克风分布，又或者指导重新设计麦克风阵列，又或者评估多通道增强算法的鲁棒性。

例如，评估结果显示麦克风1与麦克风2的一致性较差时，可以指导调整麦克风1或者麦克风2在麦克风阵列中的分布，或者可以指导重新设计麦克风1或者麦克风2。

又例如，评估结果显示麦克风1与多个麦克风的一致性都较差时，可以指导调整麦克风1在麦克风阵列中的分布，或者可以指导重新设计麦克风1，或者可以指导重新设计麦克风阵列。

在本申请实施例中，根据N个麦克风分别采集的N个音频信号，确定各个麦克风与参考麦克风之间的相位谱差值和/或功率谱差值，从而对N个麦克风进行一致性评估，消除麦克风之间的一致性对多通道语音增强算法的影响，提升用户体验。

在一些可能的实现方式中，所述根据该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值，对该N个麦克风进行一致性评估，包括：

根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值，评估对应麦克风与该参考麦克风之间的相位一致性。

需要说明的是，两个麦克风之间的相位谱差值越小，表示这两个麦克风之间的相位一致性越好。

例如，麦克风1与参考麦克风之间的相位谱差值为A，A越小，表示麦克风1与参考麦克风之间的相位一致性越好。

可选地，可以设置一个阈值，若两个麦克风之间的相位谱差值小于这一阈值，则表示这两个麦克风之间的相位一致性满足设计需求，这两个麦克风之间的一致性对多通道语音增强算法的影响可以忽略，或者这两个麦克风之间的一致性对多通道语音增强算法没有影响。

应注意的是，上述阈值可以根据不同的多通道语音增强算法灵活配置。

在一些可能的实现方式中，该方法还包括：

分别测量该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风到声源的距离差；

根据所测量的距离差，分别计算该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差；

根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差，分别校准其对应的相位谱差值。

例如，麦克风1与参考麦克风之间的固定相位差为A，麦克风1与参考麦克风之间的相位谱差值为B，校准之后，麦克风1与参考麦克风之间的相位谱差值为C，此时，C＝B-A。

在一些可能的实现方式中，所述根据所测量的距离，分别计算该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差，包括：

根据公式

分别计算该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差，

其中，Y_i(ω)表示第i个麦克风的频谱，Y₁(ω)表示参考麦克风的频谱，ω表示频率，d_i表示第i个麦克风与参考麦克风到声源的距离差，c表示声速，2πωd_i/c表示第i个麦克风与参考麦克风之间的固定相位差。

根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值，评估对应麦克风与该参考麦克风之间的幅度一致性。

需要说明的是，两个麦克风之间的功率谱差值越小，表示这两个麦克风之间的幅度一致性越好。

例如，麦克风1与参考麦克风之间的功率谱差值为A，A越小，表示麦克风1与参考麦克风之间的幅度一致性越好。

可选地，可以设置一个阈值，若两个麦克风之间的功率谱差值小于这一阈值，则表示这两个麦克风之间的幅度一致性满足设计需求，这两个麦克风之间的一致性对多通道语音增强算法的影响可以忽略，或者这两个麦克风之间的一致性对多通道语音增强算法没有影响。

在一些可能的实现方式中，在进行相位一致性评估时，该N个音频信号是在播放扫频信号数据的环境下采集的信号。

在一些可能的实现方式中，在进行幅度一致性评估时，该N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。

在一些可能的实现方式中，该扫频信号为线性扫频信号、对数扫频信号、线性步进扫频信号、对数步进扫频信号中的任意一种。

在一些可能的实现方式中，所述根据该N个音频信号，确定该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值，包括：

将该N个音频信号中的每个音频信号进行分帧，得到长度相等的K个信号帧，K≥2；

对该K个信号帧中的每个信号帧做加窗处理，得到K个加窗信号帧；

对该K个加窗信号帧中的每个加窗信号帧做快速傅氏变换(Fast FourierTransformation，FFT)变换，得到K个目标信号帧；

根据该每个音频信号对应的该K个目标信号帧，确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值。

可选地，K表示每个麦克风采集到信号的总帧数。

需要说明的是，加窗处理用来消除分帧时带来的截断效应。可选地，可以是对该K个信号帧中的每个信号帧做加汉明窗处理。

在一些可能的实现方式中，该K个信号帧中任意两个相邻信号帧重叠R％，R＞0。例如，该R为25或者50。

可选地，重叠加窗后信号幅度保持不变。

应理解，重叠之后的每一帧信号都有上一帧的成分，防止两帧之间的不连续。

在一些可能的实现方式中，将第i个音频信号进行分帧，得到长度相等的K个信号帧写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

其中，x_i(t)表示第i个音频信号，K表示每个麦克风采集到信号的总帧数，[]^T表示向量或者矩阵的转置。

在一些可能的实现方式中，所述根据该每个音频信号对应的该K个目标信号帧，确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值，包括：

根据公式

确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值，

其中，imag()表示取虚部，ln()表示取自然对数，

表示第i个麦克风与参考麦克风之间的相位谱差值，/>

表示参考麦克风的第j个目标信号帧，/>

表示第i个麦克风的第j个目标信号帧，/>

表示主频率。

在一些可能的实现方式中，所述根据该每个音频信号对应的该K个目标信号帧，确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值，包括：

根据该每个音频信号对应的该K个目标信号帧，确定该每个音频信号的功率谱；

根据该每个音频信号的功率谱，确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值。

在一些可能的实现方式中，所述根据该每个音频信号对应的该K个目标信号帧，确定该每个音频信号的功率谱，包括：

根据公式

计算该每个音频信号的功率谱，

其中，P_i(ω)表示第i个音频信号的功率谱，Y_i,j(ω)表示第i个音频信号中的第j个目标信号帧，K表示每个麦克风接收到信号的总帧数，ω表示频率。

在一些可能的实现方式中，所述根据该每个音频信号的功率谱，确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值，包括：

根据公式PD_i(ω)＝P₁(ω)-P_i(ω)计算该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值，

其中，PD_i(ω)表示第i个麦克风与参考麦克风之间的功率谱差值，P₁(ω)表示参考麦克风的功率谱，P_i(ω)表示第i个麦克风的功率谱。

在一些可能的实现方式中，所述获取N个麦克风分别采集的N个音频信号，包括：

确定该N个麦克风在进行音频信号采集时的采样频率F_s和FFT点数N_fft，使用扬声器播放高斯白噪声数据或者扫频信号数据，该N个麦克风采集该N个音频信号，其中，若该扬声器所播放的数据为扫频信号数据，该扫频信号数据由M+1段长度相等且频率不等的信号构成，

需要说明的是，FFT点数N_fft为偶数，一般为32,64,128,...,1024等，点数越多，运算量的节约就越大。

在一些可能的实现方式中，根据公式

计算该M+1段信号中每段信号的频率，以及

根据公式S_i(t)＝sin(2πf_it)计算该M+1段信号中的每段信号，

其中，f_i表示第i段信号的频率，F_s表示采样频率，N_fft表示FFT点数，S_i(t)表示第i段信号，且S₁(t)的长度为周期T的整数倍，T＝1/f₁。

在一些可能的实现方式中，扬声器所播放的扫频信号数据可以写成以下向量形式：

S(t)＝[S₀(t),S₁(t),…,S_M(t)]^T

其中，S(t)表示扬声器所播放的扫频信号数据，S_i(t)表示第i段信号，

[]^T表示向量或者矩阵的转置。

在一些可能的实现方式中，该N个麦克风分别采集到N个音频信号，其中第i个麦克风采集到的音频信号表示为x_i(t)，且x_i(t)可以写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

其中，x_i(t)表示第i个麦克风采集到的音频信号，K表示每个麦克风采集到信号的总帧数，[]^T表示向量或者矩阵的转置。

将该N个麦克风放置于测试房间内，该测试房间内配置有扬声器，该N个麦克风位于该扬声器的正前方；

控制该扬声器播放高斯白噪声数据或者扫频信号数据，以及控制该N个麦克风分别采集该N个音频信号。

在一些可能的实现方式中，该测试房间内具有消音室环境，该扬声器为音频测试专用人工嘴，且该人工嘴在使用之前用标准麦克风校准。

在一些可能的实现方式中，在控制该扬声器播放高斯白噪声数据或者扫频信号数据之前，该方法还包括：

在安静的环境下，获取该N个麦克风在第一时长T₁内采集的第一音频数据X₁(n)；

在播放高斯白噪声数据或者扫频信号数据的环境下，获取该N个麦克风在第二时长T₂内采集的第二音频数据X₂(n)；

根据公式

计算信噪比SNR，且确保该SNR大于第一阈值。

第二方面，提供了一种评估麦克风阵列一致性的设备，包括：

获取单元，用于获取N个麦克风分别采集的N个音频信号，所述N个麦克风构成麦克风阵列，N≥2；

处理单元，用于根据所述N个音频信号，确定所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值，所述参考麦克风为所述N个麦克风中的任意一个麦克风；

所述处理单元，还用于根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值，对所述N个麦克风进行一致性评估。

在一些可能的实现方式中，所述处理单元具体用于：

根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值，评估对应麦克风与所述参考麦克风之间的相位一致性。

在一些可能的实现方式中，所述处理单元还用于：

分别测量所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风到声源的距离差；

根据所测量的距离差，分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差；

根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差，分别校准其对应的相位谱差值。

在一些可能的实现方式中，所述处理单元具体用于：

根据公式

分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差，

在一些可能的实现方式中，所述处理单元具体用于：

根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值，评估对应麦克风与所述参考麦克风之间的幅度一致性。

在一些可能的实现方式中，所述N个音频信号是在播放扫频信号数据的环境下采集的信号。

在一些可能的实现方式中，所述N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。

在一些可能的实现方式中，所述扫频信号为线性扫频信号、对数扫频信号、线性步进扫频信号、对数步进扫频信号中的任意一种。

在一些可能的实现方式中，所述处理单元具体用于：

将所述N个音频信号中的每个音频信号进行分帧，得到长度相等的K个信号帧，K≥2；

对所述K个信号帧中的每个信号帧做加窗处理，得到K个加窗信号帧；

对所述K个加窗信号帧中的每个加窗信号帧做FFT变换，得到K个目标信号帧；

根据所述每个音频信号对应的所述K个目标信号帧，确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值。

在一些可能的实现方式中，所述K个信号帧中任意两个相邻信号帧重叠R％，R＞0。

在一些可能的实现方式中，所述R为25或者50。

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

在一些可能的实现方式中，所述处理单元具体用于：

根据公式

确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值，

其中，imag()表示取虚部，ln()表示取自然对数，

表示第i个麦克风与参考麦克风之间的相位谱差值，/>

表示参考麦克风的第j个目标信号帧，/>

表示第i个麦克风的第j个目标信号帧，/>

表示主频率。

在一些可能的实现方式中，所述处理单元具体用于：

根据所述每个音频信号对应的所述K个目标信号帧，确定所述每个音频信号的功率谱；

根据所述每个音频信号的功率谱，确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值。

在一些可能的实现方式中，所述处理单元具体用于：

根据公式

计算所述每个音频信号的功率谱，

其中，P_i(ω)表示第i个音频信号的功率谱，Y_i,j(ω)表示第i个音频信号中的第j个目标信号帧，K表示每个麦克风采集到信号的总帧数，ω表示频率。

在一些可能的实现方式中，所述处理单元具体用于：

根据公式PD_i(ω)＝P₁(ω)-P_i(ω)计算所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值，

在一些可能的实现方式中，所述处理单元具体用于：

确定所述N个麦克风在进行音频信号采集时的采样频率F_s和FFT点数N_fft，使用扬声器播放高斯白噪声数据或者扫频信号数据，控制所述N个麦克风采集所述N个音频信号，其中，若所述扬声器所播放的数据为扫频信号数据，所述扫频信号数据由M+1段长度相等且频率不等的信号构成，

在一些可能的实现方式中，所述处理单元还用于：

根据公式

计算所述M+1段信号中每段信号的频率，以及

根据公式S_i(t)＝sin(2πf_it)计算所述M+1段信号中的每段信号，

在一些可能的实现方式中，所述扬声器所播放的扫频信号数据写成以下向量形式：

S(t)＝[S₀(t),S₁(t),…,S_M(t)]^T

[]^T表示向量或者矩阵的转置。

在一些可能的实现方式中，所述N个麦克风分别采集到N个音频信号，其中第i个麦克风采集到的音频信号表示为x_i(t)，且x_i(t)可以写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

在一些可能的实现方式中，所述获取单元具体用于：

将所述N个麦克风放置于测试房间内，所述测试房间内配置有扬声器，所述N个麦克风位于所述扬声器的正前方；

控制所述扬声器播放高斯白噪声数据或者扫频信号数据，以及控制所述N个麦克风分别采集所述N个音频信号。

在一些可能的实现方式中，所述测试房间内具有消音室环境，所述扬声器为音频测试专用人工嘴，且所述人工嘴在使用之前用标准麦克风校准。

在一些可能的实现方式中，在所述处理单元控制所述扬声器播放高斯白噪声数据或者扫频信号数据之前，所述获取单元还用于：

在安静的环境下，获取所述N个麦克风在第一时长T₁内采集的第一音频数据X₁(n)；

在播放高斯白噪声数据或者扫频信号数据的环境下，获取所述N个麦克风在第二时长T₂内采集的第二音频数据X₂(n)；

触发所述处理单元根据公式

计算信噪比SNR，且确保所述SNR大于第一阈值。

第三方面，提供了一种评估麦克风阵列一致性的装置，包括：

存储器，用于存储程序和数据；以及

处理器，用于调用并运行所述存储器中存储的程序和数据；

该装置被配置为执行上述第一方面或其任意可能的实现方式中的方法。

第四方面，提供了评估麦克风阵列一致性的系统，包括：

构成麦克风阵列的N个麦克风，N≥2；

至少一个音频源；

装置，包括用于存储程序和数据的存储器和用于调用并运行所述存储器中存储的程序和数据的处理器，该装置被配置为上述第一方面或其任意可能的实现方式中的方法。

第五方面，提供了一种计算机存储介质，该计算机存储介质中存储有程序代码，该程序代码可以用于指示执行上述第一方面或其任意可能的实现方式中的方法。

第六方面，提供了一种包含指令的计算机程序产品，其在计算机上运行时，使得计算机执行上述第一方面或其任意可能的实现方式中的方法。

附图说明

图1是本申请实施例的评估麦克风阵列一致性的方法的示意性流程图。

图2是根据本申请实施例的测试环境示意图。

图3是根据本申请实施例的计算相位谱差值的示意图。

图4是根据本申请实施例的计算功率谱差值的示意图。

图5是根据本申请实施例的两麦克风之间的相位谱差值的示意图。

图6是根据本申请实施例的两麦克风之间校准之后的相位谱差值的示意图。

图7a是根据本申请实施例的两麦克风的功率谱的示意图。

图7b是根据本申请实施例的两麦克风之间的功率谱差值的示意图。

图8是根据本申请实施例的一种评估麦克风阵列一致性的设备的示意性结构图。

图9是根据本申请实施例的一种评估麦克风阵列一致性的装置的示意性结构图。

图10是根据本申请实施例的一种评估麦克风阵列一致性的系统的示意性结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述。

麦克风阵列(Microphone Array)是指由一定数目的麦克风(声学传感器)组成，用来对声场的空间特性进行采样并处理的系统。利用两个麦克风接收到声波的相位之间的差异对声波进行过滤，能最大限度将环境背景声音清除掉，只剩下需要的声波。

多通道语音增强技术算法假设条件是麦克风阵列中的多个麦克风的目标语音成分高相关性，目标语音与非目标干扰不相关，因此麦克风阵列中不同麦克风之间的一致性直接影响算法性能。

麦克风一致性的定量评估，可用于指导麦克风的设计和麦克风阵列的设计，麦克风阵列的电路、电子元器件、声学结构都会影响麦克风的一致性，在设计麦克风阵列时可逐项测试各种因素对一致性的影响，从而使麦克风一致性的设计达到系统要求。

麦克风一致性的定量评估，可用于比较不同算法的鲁棒性，在达到相同语音增强性能的前提下，对一致性指标要求越低，算法鲁棒性越好。

在本申请实施例中，从幅度谱差值和相位谱差值两个方面衡量一致性，具有客观性和准确性，并且定量的一致性评估方法能够客观的指导麦克风阵列的设计，也能够客观的比较多通道语音增强算法的鲁棒性。

以下，结合图1至图7，详细介绍本申请实施例的评估麦克风阵列一致性的方法。

图1是本申请一个实施例的评估麦克风阵列一致性的方法的示意性流程图。应理解，图1示出了该方法的步骤或操作，但这些步骤或操作仅是示例，本申请实施例还可以执行其他操作或者图1中的各个操作的变形。该方法可以由评估麦克风阵列一致性的装置执行，其中，该评估麦克风阵列一致性的装置可以是手机、平板电脑、便携式电脑、个人数字助理(Personal Digital Assistant，PDA)等等。

S110，获取N个麦克风分别采集的N个音频信号，该N个麦克风构成麦克风阵列，N≥2。

在对N个麦克风进行一致性评估时，需要限制N个麦克风所处的环境，即该N个音频信号是在特殊的测试环境下采集的。

具体地，如图2所示，将由该N个麦克风构成的麦克风阵列201放置于测试房间202内，且在该测试房间202内配置有扬声器203，该麦克风阵列201具体位于该扬声器203的正前方，该麦克风阵列201与该扬声器203连接诸如计算机的控制设备204。该控制设备204可以控制该扬声器203播放特定的音频数据，例如，播放高斯白噪声数据或者扫频信号数据，同时，该控制设备204可以从该麦克风阵列201处获取该N个麦克风分布采集的N个音频信号。

需要注意的是，麦克风一致性评估要求采集的音频信号的信噪比足够高，背景噪声足够弱，因此测试环境要求在安静环境下。特别地，测试房间202内要求具有消音室环境。扬声器203要求信噪比较高，且频率响应曲线平坦，特别地，扬声器使用音频测试专用人工嘴，且使用之前用标准麦克风校准。麦克风阵列201放置在扬声器203的正前方，特别地，要求放置在标准麦克风校准的位置。

可选地，在进行正式的音频信号采集之前，还需要对上述测试环境进行信噪比(signal-to-noise ratio，SNR)检测。

具体地，在如图2所示的测试环境下，首先，在安静的环境下(即扬声器203处于关闭状态)，获取该N个麦克风在第一时长T₁内采集的第一音频数据X₁(n)；然后，在播放高斯白噪声数据或者扫频信号数据的环境下(即该控制设备204控制该扬声器203播放高斯白噪声数据或者扫频信号数据)，获取该N个麦克风在第二时长T₂内采集的第二音频数据X₂(n)；接着，根据如下公式1计算SNR；最后，当SNR大于设定阈值时，则检测通过，否则检测不通过。

其中，T₁表示第一时长，T₂表示第二时长，X₁(n)表示第一音频数据，X₂(n)表示第二音频数据。

需要说明的是，若检测不通过，需要对上述测试环境进行调整或者校准，消除一些可能对性噪比造成影响的因素，直至根据上述公式1所计算的SNR大于设定阈值。

可选地，在本申请实施例中，使用上述图2所示的测试环境采集音频信号具体可以包括：

确定该N个麦克风在进行音频信号采集时的采样频率F_s和FFT点数N_fft，使用扬声器播放高斯白噪声数据或者扫频信号数据，该N个麦克风采集该N个音频信号。

可选地，FFT点数N_fft为偶数，一般为32,64,128,...,1024等，点数越多，运算量的节约就越大。

需要说明的是，若该扬声器所播放的数据为扫频信号数据，该扫频信号数据由M+1段长度相等且频率不等的信号构成，

可选地，可以根据如下公式2计算该M+1段信号中每段信号的频率，以及根据如下公式3计算该M+1段信号中的每段信号。

其中，f_i是第i段信号的频率，F_s是采样频率，N_fft表示FFT点数。

S_i(t)＝sin(2πf_it) 公式3

其中，S_i(t)表示第i段信号，f_i是第i段信号的频率。

需要说明的是，第一段信号S₁(t)的长度为周期T的整数倍，T＝1/f₁。

可选地，扬声器所播放的扫频信号数据可以写成以下向量形式：

S(t)＝[S₀(t),S₁(t),…,S_M(t)]^T

[]^T表示向量或者矩阵的转置。

可选地，N个麦克风分别采集到N个音频信号，其中第i个麦克风采集到的音频信号表示为x_i(t)，且x_i(t)可以写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

S120，根据该N个音频信号，确定该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值，该参考麦克风为该N个麦克风中的任意一个麦克风。

可选地，在本申请实施例中，在该N个音频信号采集到之后，可以通过音频信号分帧，对每帧音频信号加窗，对每帧加窗信号做FFT变换，求不同麦克风之间的相位谱差值。

具体地，如图3所示，假设该N个音频信号为x₁(t),x₂(t),…,x_N(t)，将该N个音频信号中的每个音频信号进行分帧，得到长度相等的K个信号帧，K≥2，例如，将第i个音频信号进行分帧，得到长度相等的K个信号帧写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

其中，x_i(t)表示第i个音频信号，K表示每个麦克风采集到信号的总帧数，[]^T表示向量或者矩阵的转置；

对该K个信号帧中的每个信号帧做加窗处理，得到K个加窗信号帧，例如，对第i个音频信号的第j个帧x_i,j加窗，得到第i个音频信号的第j个加窗信号帧y_i,j＝x_i,j×Win；

对该K个加窗信号帧中的每个加窗信号帧做FFT变换，得到K个目标信号帧，例如，对第i个音频信号的第j个加窗信号帧y_i,j(t)做FFT变换，得到第i个音频信号的第j个目标信号帧Y_i,j(ω)；

根据该每个音频信号对应的该K个目标信号帧，确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值，例如，假设第j个目标信号帧的主频率为

则可以根据以下公式4计算第i个麦克风与参考麦克风在主频率为/>

处的相位谱差值。

其中，imag()表示取虚部，ln()表示取自然对数，

表示第i个麦克风与参考麦克风之间的相位谱差值，/>

表示参考麦克风的第j个目标信号帧，/>

表示第i个麦克风的第j个目标信号帧，/>

表示主频率。

需要说明的是，在上述图3中，是以第一个麦克风为参考麦克风的，即分别计算除该第一麦克风之外的每个麦克风与该第一麦克风之间的相位谱差值，且第一麦克风对应音频信号x₁(t)，第二麦克风对应音频信号x₂(t)，…，第N麦克风对应音频信号x_N(t)。

可选地，K表示每个麦克风接收到信号的总帧数。

在一些可能的实现方式中，该K个信号帧中任意两个相邻信号帧重叠R％，R＞0。例如，该R为25或者50。换句话说，该K个信号帧中任意两个相邻信号帧重叠25％或者50％。

可选地，重叠加窗后信号幅度保持不变。

可选地，在本申请实施例中，在进行相位一致性评估时，该N个音频信号是在播放扫频信号数据的环境下采集的信号。换句话说，在计算上述相位谱差值时，该N个音频信号是在播放扫频信号数据的环境下采集的信号。

因此，可以计算出任意频率ω的相位差，即得到第i个麦克风与参考麦克风之间的相位谱差值PDiff_i(ω)，即上述

可选地，在本申请实施例中，在该N个音频信号采集到之后，可以通过音频信号分帧，对每帧音频信号加窗，对每帧加窗信号做FFT变换，求FFT变换之后的每帧信号的功率谱，求不同麦克风之间的功率谱差值。

具体地，如图4所示，假设该N个音频信号为x₁(t),x₂(t),…,x_N(t)，将该N个音频信号中的每个音频信号进行分帧，得到长度相等的K个信号帧，K≥2，例如，将第i个音频信号进行分帧，得到长度相等的K个信号帧写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

其中，x_i(t)表示第i个音频信号，K表示每个麦克风接收到信号的总帧数，[]^T表示向量或者矩阵的转置；

根据该每个音频信号对应的该K个目标信号帧，确定该每个音频信号的功率谱，例如，根据以下公式5计算第i个音频信号的功率谱；

根据该每个音频信号的功率谱，确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值，例如，根据以下公式6计算第i个麦克风与该参考麦克风之间的功率谱差值。

其中，P_i(ω)表示第i个音频信号的功率谱，Y_i,j(ω)表示第i个音频信号中的第j个目标信号帧，ω表示频率，K表示每个麦克风采集到信号的总帧数。

PD_i(ω)＝P₁(ω)-P_i(ω) 公式6

需要说明的是，在上述图4中，是以第一个麦克风为参考麦克风的，即分别计算除该第一麦克风之外的每个麦克风与该第一麦克风之间的功率谱差值，且第一麦克风对应音频信号x₁(t)，第二麦克风对应音频信号x₂(t)，…，第N麦克风对应音频信号x_N(t)。

可选地，重叠加窗后信号幅度保持不变。

可选地，在本申请实施例中，在进行幅度一致性评估时，该N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。换句话说，在计算上述功率谱差值时，该N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。

S130，根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值，对该N个麦克风进行一致性评估。

具体地，相位谱差值用于进行相位一致性评估，以及功率谱差值用于进行幅度一致性评估。

可选地，在本申请实施例中，根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值，评估对应麦克风与所述参考麦克风之间的相位一致性。

需要说明的是，因在采集数据时，不同麦克风到声源的距离难于完全一致，所以不同麦克风之间存在一个固定相位差。

可选地，在本申请实施例中，可以通过固定相位差校准上述相位谱差值。

具体地，分别测量该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风到声源的距离差，例如，d_i表示第i个麦克风与参考麦克风到声源的距离差；

根据所测量的距离差，分别计算该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差，例如，可以根据以下公式7计算第i个麦克风与参考麦克风之间的固定相位差；

需要说明的是，固定相位差与信号频率满足线性关系，因此，可以使用线性拟合的方式确定固定相位差。

例如，麦克风1与参考麦克风之间的固定相位差为A，麦克风1与参考麦克风之间的相位谱差值为B，如图5所示，直线部分表示拟合得到的麦克风1与参考麦克风之间的固定相位差，曲线部分表示麦克风1与参考麦克风之间的相位谱差值，其整体表现出，随着频率从0Hz增加至8000Hz，麦克风1与参考麦克风之间的相位谱差值从0弧度减小至-2弧度。校准之后，麦克风1与参考麦克风之间的相位谱差值为C，如图6中曲线所示，此时，C＝B-A，其整体表现出，随着频率从0Hz增加至8000Hz，麦克风1与参考麦克风之间的相位谱差值在0弧度与±0.5弧度之间波动。

由图5和图6对比可知，固定相位差会对两个麦克风之间的相位谱差值造成较大的影响，因此，在对两麦克风进行幅度一致性评估时，需要消除两麦克风之间的固定相位差所造成的影响。

可选地，在本申请实施例中，根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值，评估对应麦克风与该参考麦克风之间的幅度一致性。

例如，如图7所示，具体地，图7a示出了麦克风1的功率谱与参考麦克风的功率谱，图7b示出了麦克风1与参考麦克风之间的功率谱差值，麦克风1与参考麦克风之间的功率谱相差不大，并且其功率谱差值的最大值＜±1分贝(dB)。

可选地，在本申请实施例中，可以逐项测试诸如麦克风阵列的电路、电子元器件、声学结构等因素对麦克风一致性的影响，从而指导麦克风阵列的校准，具体地，可以是指导麦克风的设计和麦克风阵列的设计，评估多通道增强算法的鲁棒性。

因此，在本申请实施例中，可以根据N个麦克风分别采集的N个音频信号，确定各个麦克风与参考麦克风之间的相位谱差值和/或功率谱差值，从而对N个麦克风进行一致性评估，消除麦克风之间的一致性对多通道语音增强算法的影响，提升用户体验。

可选地，如图8所示，本申请实施例提供了一种评估麦克风阵列一致性的设备800，包括：

获取单元810，用于获取N个麦克风分别采集的N个音频信号，所述N个麦克风构成麦克风阵列，N≥2；

处理单元820，用于根据所述N个音频信号，确定所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值，所述参考麦克风为所述N个麦克风中的任意一个麦克风；

所述处理单元820，还用于根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值，对所述N个麦克风进行一致性评估。

可选地，所述处理单元820具体用于：

可选地，所述处理单元820还用于：

可选地，所述处理单元820具体用于：

根据公式

可选地，所述处理单元820具体用于：

可选地，所述N个音频信号是在播放扫频信号数据的环境下采集的信号。

可选地，所述N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。

可选地，所述扫频信号为线性扫频信号、对数扫频信号、线性步进扫频信号、对数步进扫频信号中的任意一种。

可选地，所述处理单元820具体用于：

可选地，所述K个信号帧中任意两个相邻信号帧重叠R％，R＞0。

可选地，所述R为25或者50。

可选地，将第i个音频信号进行分帧，得到长度相等的K个信号帧写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

可选地，所述处理单元820具体用于：

根据公式确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值，

其中，imag()表示取虚部，ln()表示取自然对数，

表示第i个麦克风与参考麦克风之间的相位谱差值，/>

表示参考麦克风的第j个目标信号帧，/>

表示第i个麦克风的第j个目标信号帧，/>

表示主频率。

可选地，所述处理单元820具体用于：

根据公式

计算所述每个音频信号的功率谱，

可选地，所述处理单元820具体用于：

可选地，所述处理单元820还用于：

根据公式

计算所述M+1段信号中每段信号的频率，以及

根据公式S_i(t)＝sin(2πf_it)计算所述M+1段信号中的每段信号，

可选地，所述扬声器所播放的扫频信号数据写成以下向量形式：

[]^T表示向量或者矩阵的转置。

可选地，所述N个麦克风分别采集到N个音频信号，其中第i个麦克风采集到的音频信号表示为x_i(t)，且x_i(t)可以写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),…,x_i,K(t)]^T

可选地，所述获取单元810具体用于：

可选地，所述测试房间内具有消音室环境，所述扬声器为音频测试专用人工嘴，且所述人工嘴在使用之前用标准麦克风校准。

可选地，在所述处理单元820控制所述扬声器播放高斯白噪声数据或者扫频信号数据之前，所述获取单元810还用于：

触发所述处理单元820根据公式

计算信噪比SNR，且确保所述SNR大于第一阈值。

可选地，如图9所示，本申请实施例提供了一种评估麦克风阵列一致性的装置900，包括：

存储器910，用于存储程序和数据；以及

处理器920，用于调用并运行所述存储器中存储的程序和数据；

该装置900被配置为执行上述图1至7中所示的方法。

可选地，如图10所示，本申请实施例提供了一种评估麦克风阵列一致性的系统1000，包括：

构成麦克风阵列1010的N个麦克风，N≥2；

至少一个音频源1020；

装置1030，包括用于存储程序和数据的存储器1031和用于调用并运行所述存储器中存储的程序和数据的处理器1032，该装置1030被配置为上述图1至7中所示的方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种评估麦克风阵列一致性的方法，其特征在于，包括：

获取N个麦克风分别采集的N个音频信号，所述N个麦克风构成麦克风阵列，N≥2，所述N个音频信号包括在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号；所述N个音频信号的信噪比大于预设阈值；

根据所述N个音频信号，确定所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值或功率谱差值，所述参考麦克风为所述N个麦克风中的任意一个麦克风；

根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值或功率谱差值，对所述N个麦克风进行一致性评估。

2.根据权利要求1所述的方法，其特征在于，所述根据所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值，对所述N个麦克风进行一致性评估，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所测量的距离，分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差，包括：

根据公式

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值，对所述N个麦克风进行一致性评估，包括：

6.根据权利要求1所述的方法，其特征在于，所述扫频信号为线性扫频信号、对数扫频信号、线性步进扫频信号、对数步进扫频信号中的任意一种。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述N个音频信号，确定所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值或功率谱差值，包括：

将所述N个音频信号中的每个音频信号进行分帧，得到长度相等的K个信号帧，K≥2，所述K个信号帧中任意两个相邻信号帧重叠R％，R＞0；

根据所述每个音频信号对应的所述K个目标信号帧，确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值或功率谱差值。

8.根据权利要求7所述的方法，其特征在于，所述R为25或者50。

9.根据权利要求7所述的方法，其特征在于，将第i个音频信号进行分帧，得到长度相等的K个信号帧写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),,x_i,K(t)]^T

10.根据权利要求7所述的方法，其特征在于，所述根据所述每个音频信号对应的所述K个目标信号帧，确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值，包括：

根据公式

其中，imag()表示取虚部，ln()表示取自然对数，

表示第i个麦克风与参考麦克风之间的相位谱差值，/>

表示参考麦克风的第j个目标信号帧，/>

表示第i个麦克风的第j个目标信号帧，/>

表示主频率。

11.根据权利要求7所述的方法，其特征在于，所述根据所述每个音频信号对应的所述K个目标信号帧，确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述每个音频信号对应的所述K个目标信号帧，确定所述每个音频信号的功率谱，包括：

根据公式

计算所述每个音频信号的功率谱，

13.根据权利要求11所述的方法，其特征在于，所述根据所述每个音频信号的功率谱，确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值，包括：

14.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取N个麦克风分别采集的N个音频信号，包括：

确定所述N个麦克风在进行音频信号采集时的采样频率F_s和FFT点数N_fft，使用扬声器播放高斯白噪声数据或者扫频信号数据，所述N个麦克风采集所述N个音频信号，其中，若所述扬声器所播放的数据为扫频信号数据，所述扫频信号数据由M+1段长度相等且频率不等的信号构成，

15.根据权利要求14所述的方法，其特征在于，

根据公式

计算所述M+1段信号中每段信号的频率，以及

根据公式S_i(t)＝sin(2πf_it)计算所述M+1段信号中的每段信号，

16.根据权利要求15所述的方法，其特征在于，所述扬声器所播放的扫频信号数据写成以下向量形式：

S(t)＝[S₀(t),S₁(t),,S_M(t)]^T

[]^T表示向量或者矩阵的转置。

17.根据权利要求1至4中任一项所述的方法，其特征在于，所述N个麦克风分别采集到N个音频信号，其中第i个麦克风采集到的音频信号表示为x_i(t)，且x_i(t)可以写成以下向量形式：

x_i(t)＝[x_i,1(t),x_i,2(t),,x_i,K(t)]^T

18.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取N个麦克风分别采集的N个音频信号，包括：

19.根据权利要求18所述的方法，其特征在于，所述测试房间内具有消音室环境，所述扬声器为音频测试专用人工嘴，且所述人工嘴在使用之前用标准麦克风校准。

20.根据权利要求18所述的方法，其特征在于，在控制所述扬声器播放高斯白噪声数据或者扫频信号数据之前，所述方法还包括：

根据公式

计算信噪比SNR，且确保所述SNR大于第一阈值。

21.一种评估麦克风阵列一致性的装置，其特征在于，包括：

存储器，用于存储程序和数据；以及

处理器，用于调用并运行所述存储器中存储的程序和数据；

所述装置被配置为：执行如权利要求1至20中任一项所述的方法。

22.一种评估麦克风阵列一致性的系统，其特征在于，包括：

构成麦克风阵列的N个麦克风，N≥2；

至少一个音频源；

装置，包括用于存储程序和数据的存储器和用于调用并运行所述存储器中存储的程序和数据的处理器，所述装置被配置为：

执行如权利要求1至20中任一项所述的方法。