CN116437280A - 评估麦克风阵列一致性的方法、设备、装置和系统 - Google Patents

评估麦克风阵列一致性的方法、设备、装置和系统 Download PDF

Info

Publication number
CN116437280A
CN116437280A CN202310466643.4A CN202310466643A CN116437280A CN 116437280 A CN116437280 A CN 116437280A CN 202310466643 A CN202310466643 A CN 202310466643A CN 116437280 A CN116437280 A CN 116437280A
Authority
CN
China
Prior art keywords
microphone
microphones
signal
reference microphone
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310466643.4A
Other languages
English (en)
Inventor
李国梁
罗朝洪
程树青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Goodix Technology Co Ltd
Original Assignee
Shenzhen Goodix Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Goodix Technology Co Ltd filed Critical Shenzhen Goodix Technology Co Ltd
Priority to CN202310466643.4A priority Critical patent/CN116437280A/zh
Publication of CN116437280A publication Critical patent/CN116437280A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请实施例提供了一种评估麦克风阵列一致性的方法、设备、装置和系统,能够评估麦克风阵列中不同麦克风之间的一致性,从而根据一致性评估结果指导麦克风阵列的校准和评估多通道增强算法的鲁棒性,提升用户体验。该方法包括:获取N个麦克风分别采集的N个音频信号,该N个麦克风构成麦克风阵列,N≥2;根据该N个音频信号,确定该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值,该参考麦克风为该N个麦克风中的任意一个麦克风;根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值,对该N个麦克风进行一致性评估。

Description

评估麦克风阵列一致性的方法、设备、装置和系统
技术领域
本申请涉及语音通讯和语音智能交互领域,并且更具体地,涉及评估麦克风阵列一致性的方法、设备、装置和系统。
背景技术
在语音通讯应用中,语音增强技术能够提高人的听觉感受,提高语音通讯的可懂度,在语音智能交互应用中,语音增强技术能够提高语音识别的准确率,提升用户体验,因此语音增强技术无论是在传统的语音通讯,还是语音交互中都至关重要。语音增强技术分为单通道语音增强技术和多通道语音增强技术,其中,单通道语音增强技术能够消除稳态噪声,不能消除非稳态噪声,且信号比提高是以语音损伤为代价,信噪比提高越多,语音损伤越大;多通道语音增强技术利用麦克风阵列采集多路信号,利用多麦克风信号之间的相位信息和相干信息消除噪声,能够消除非稳态噪声,且对语音损伤较小。
在多通道语音增强技术中,麦克风阵列中不同麦克风之间的一致性直接影响算法性能,现有方案提出了多通道增强技术的改进算法,增加算法的鲁棒性,同时对麦克风之间的一致性要求降低,然而,麦克风之间的一致性很低时仍然会影响算法性能,从而影响了用户体验。
发明内容
本申请提供一种评估麦克风阵列一致性的方法、设备、装置和系统,能够评估麦克风阵列中不同麦克风之间的一致性,从而根据一致性评估结果指导麦克风阵列的校准和评估多通道增强算法的鲁棒性,提升用户体验。
第一方面,提供了一种评估麦克风阵列一致性的方法,包括:
获取N个麦克风分别采集的N个音频信号,该N个麦克风构成麦克风阵列,N≥2;
根据该N个音频信号,确定该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值,该参考麦克风为该N个麦克风中的任意一个麦克风;
根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值,对该N个麦克风进行一致性评估。
需要说明的是,对该N个麦克风进行一致性评估,可以用于指导麦克风阵列中的麦克风分布,或者指导重新设计麦克风阵列中的麦克风分布,又或者指导重新设计麦克风阵列,又或者评估多通道增强算法的鲁棒性。
例如,评估结果显示麦克风1与麦克风2的一致性较差时,可以指导调整麦克风1或者麦克风2在麦克风阵列中的分布,或者可以指导重新设计麦克风1或者麦克风2。
又例如,评估结果显示麦克风1与多个麦克风的一致性都较差时,可以指导调整麦克风1在麦克风阵列中的分布,或者可以指导重新设计麦克风1,或者可以指导重新设计麦克风阵列。
在本申请实施例中,根据N个麦克风分别采集的N个音频信号,确定各个麦克风与参考麦克风之间的相位谱差值和/或功率谱差值,从而对N个麦克风进行一致性评估,消除麦克风之间的一致性对多通道语音增强算法的影响,提升用户体验。
在一些可能的实现方式中,所述根据该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值,对该N个麦克风进行一致性评估,包括:
根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值,评估对应麦克风与该参考麦克风之间的相位一致性。
需要说明的是,两个麦克风之间的相位谱差值越小,表示这两个麦克风之间的相位一致性越好。
例如,麦克风1与参考麦克风之间的相位谱差值为A,A越小,表示麦克风1与参考麦克风之间的相位一致性越好。
可选地,可以设置一个阈值,若两个麦克风之间的相位谱差值小于这一阈值,则表示这两个麦克风之间的相位一致性满足设计需求,这两个麦克风之间的一致性对多通道语音增强算法的影响可以忽略,或者这两个麦克风之间的一致性对多通道语音增强算法没有影响。
应注意的是,上述阈值可以根据不同的多通道语音增强算法灵活配置。
在一些可能的实现方式中,该方法还包括:
分别测量该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风到声源的距离差;
根据所测量的距离差,分别计算该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差;
根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差,分别校准其对应的相位谱差值。
例如,麦克风1与参考麦克风之间的固定相位差为A,麦克风1与参考麦克风之间的相位谱差值为B,校准之后,麦克风1与参考麦克风之间的相位谱差值为C,此时,C=B-A。
在一些可能的实现方式中,所述根据所测量的距离,分别计算该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差,包括:
根据公式
Figure BDA0004203856980000031
分别计算该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差,
其中,Yi(ω)表示第i个麦克风的频谱,Y1(ω)表示参考麦克风的频谱,ω表示频率,di表示第i个麦克风与参考麦克风到声源的距离差,c表示声速,2πωdi/c表示第i个麦克风与参考麦克风之间的固定相位差。
在一些可能的实现方式中,所述根据该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值,对该N个麦克风进行一致性评估,包括:
根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值,评估对应麦克风与该参考麦克风之间的幅度一致性。
需要说明的是,两个麦克风之间的功率谱差值越小,表示这两个麦克风之间的幅度一致性越好。
例如,麦克风1与参考麦克风之间的功率谱差值为A,A越小,表示麦克风1与参考麦克风之间的幅度一致性越好。
可选地,可以设置一个阈值,若两个麦克风之间的功率谱差值小于这一阈值,则表示这两个麦克风之间的幅度一致性满足设计需求,这两个麦克风之间的一致性对多通道语音增强算法的影响可以忽略,或者这两个麦克风之间的一致性对多通道语音增强算法没有影响。
应注意的是,上述阈值可以根据不同的多通道语音增强算法灵活配置。
在一些可能的实现方式中,在进行相位一致性评估时,该N个音频信号是在播放扫频信号数据的环境下采集的信号。
在一些可能的实现方式中,在进行幅度一致性评估时,该N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。
在一些可能的实现方式中,该扫频信号为线性扫频信号、对数扫频信号、线性步进扫频信号、对数步进扫频信号中的任意一种。
在一些可能的实现方式中,所述根据该N个音频信号,确定该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值,包括:
将该N个音频信号中的每个音频信号进行分帧,得到长度相等的K个信号帧,K≥2;
对该K个信号帧中的每个信号帧做加窗处理,得到K个加窗信号帧;
对该K个加窗信号帧中的每个加窗信号帧做快速傅氏变换(Fast FourierTransformation,FFT)变换,得到K个目标信号帧;
根据该每个音频信号对应的该K个目标信号帧,确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值。
可选地,K表示每个麦克风采集到信号的总帧数。
需要说明的是,加窗处理用来消除分帧时带来的截断效应。可选地,可以是对该K个信号帧中的每个信号帧做加汉明窗处理。
在一些可能的实现方式中,该K个信号帧中任意两个相邻信号帧重叠R%,R>0。例如,该R为25或者50。
可选地,重叠加窗后信号幅度保持不变。
应理解,重叠之后的每一帧信号都有上一帧的成分,防止两帧之间的不连续。
在一些可能的实现方式中,将第i个音频信号进行分帧,得到长度相等的K个信号帧写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
在一些可能的实现方式中,所述根据该每个音频信号对应的该K个目标信号帧,确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值,包括:
根据公式
Figure BDA0004203856980000051
确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值,
其中,imag()表示取虚部,ln()表示取自然对数,
Figure BDA0004203856980000052
表示第i个麦克风与参考麦克风之间的相位谱差值,/>
Figure BDA0004203856980000053
表示参考麦克风的第j个目标信号帧,/>
Figure BDA0004203856980000054
表示第i个麦克风的第j个目标信号帧,/>
Figure BDA0004203856980000055
表示主频率。
在一些可能的实现方式中,所述根据该每个音频信号对应的该K个目标信号帧,确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值,包括:
根据该每个音频信号对应的该K个目标信号帧,确定该每个音频信号的功率谱;
根据该每个音频信号的功率谱,确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值。
在一些可能的实现方式中,所述根据该每个音频信号对应的该K个目标信号帧,确定该每个音频信号的功率谱,包括:
根据公式
Figure BDA0004203856980000056
计算该每个音频信号的功率谱,
其中,Pi(ω)表示第i个音频信号的功率谱,Yi,j(ω)表示第i个音频信号中的第j个目标信号帧,K表示每个麦克风接收到信号的总帧数,ω表示频率。
在一些可能的实现方式中,所述根据该每个音频信号的功率谱,确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值,包括:
根据公式PDi(ω)=P1(ω)-Pi(ω)计算该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值,
其中,PDi(ω)表示第i个麦克风与参考麦克风之间的功率谱差值,P1(ω)表示参考麦克风的功率谱,Pi(ω)表示第i个麦克风的功率谱。
在一些可能的实现方式中,所述获取N个麦克风分别采集的N个音频信号,包括:
确定该N个麦克风在进行音频信号采集时的采样频率Fs和FFT点数Nfft,使用扬声器播放高斯白噪声数据或者扫频信号数据,该N个麦克风采集该N个音频信号,其中,若该扬声器所播放的数据为扫频信号数据,该扫频信号数据由M+1段长度相等且频率不等的信号构成,
Figure BDA0004203856980000061
需要说明的是,FFT点数Nfft为偶数,一般为32,64,128,...,1024等,点数越多,运算量的节约就越大。
在一些可能的实现方式中,根据公式
Figure BDA0004203856980000062
计算该M+1段信号中每段信号的频率,以及
根据公式Si(t)=sin(2πfit)计算该M+1段信号中的每段信号,
其中,fi表示第i段信号的频率,Fs表示采样频率,Nfft表示FFT点数,Si(t)表示第i段信号,且S1(t)的长度为周期T的整数倍,T=1/f1
在一些可能的实现方式中,扬声器所播放的扫频信号数据可以写成以下向量形式:
S(t)=[S0(t),S1(t),…,SM(t)]T
其中,S(t)表示扬声器所播放的扫频信号数据,Si(t)表示第i段信号,
Figure BDA0004203856980000063
[]T表示向量或者矩阵的转置。
在一些可能的实现方式中,该N个麦克风分别采集到N个音频信号,其中第i个麦克风采集到的音频信号表示为xi(t),且xi(t)可以写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个麦克风采集到的音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
在一些可能的实现方式中,所述获取N个麦克风分别采集的N个音频信号,包括:
将该N个麦克风放置于测试房间内,该测试房间内配置有扬声器,该N个麦克风位于该扬声器的正前方;
控制该扬声器播放高斯白噪声数据或者扫频信号数据,以及控制该N个麦克风分别采集该N个音频信号。
在一些可能的实现方式中,该测试房间内具有消音室环境,该扬声器为音频测试专用人工嘴,且该人工嘴在使用之前用标准麦克风校准。
在一些可能的实现方式中,在控制该扬声器播放高斯白噪声数据或者扫频信号数据之前,该方法还包括:
在安静的环境下,获取该N个麦克风在第一时长T1内采集的第一音频数据X1(n);
在播放高斯白噪声数据或者扫频信号数据的环境下,获取该N个麦克风在第二时长T2内采集的第二音频数据X2(n);
根据公式
Figure BDA0004203856980000071
计算信噪比SNR,且确保该SNR大于第一阈值。
第二方面,提供了一种评估麦克风阵列一致性的设备,包括:
获取单元,用于获取N个麦克风分别采集的N个音频信号,所述N个麦克风构成麦克风阵列,N≥2;
处理单元,用于根据所述N个音频信号,确定所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值,所述参考麦克风为所述N个麦克风中的任意一个麦克风;
所述处理单元,还用于根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值,对所述N个麦克风进行一致性评估。
在一些可能的实现方式中,所述处理单元具体用于:
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,评估对应麦克风与所述参考麦克风之间的相位一致性。
在一些可能的实现方式中,所述处理单元还用于:
分别测量所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风到声源的距离差;
根据所测量的距离差,分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差;
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差,分别校准其对应的相位谱差值。
在一些可能的实现方式中,所述处理单元具体用于:
根据公式
Figure BDA0004203856980000072
分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差,
其中,Yi(ω)表示第i个麦克风的频谱,Y1(ω)表示参考麦克风的频谱,ω表示频率,di表示第i个麦克风与参考麦克风到声源的距离差,c表示声速,2πωdi/c表示第i个麦克风与参考麦克风之间的固定相位差。
在一些可能的实现方式中,所述处理单元具体用于:
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,评估对应麦克风与所述参考麦克风之间的幅度一致性。
在一些可能的实现方式中,所述N个音频信号是在播放扫频信号数据的环境下采集的信号。
在一些可能的实现方式中,所述N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。
在一些可能的实现方式中,所述扫频信号为线性扫频信号、对数扫频信号、线性步进扫频信号、对数步进扫频信号中的任意一种。
在一些可能的实现方式中,所述处理单元具体用于:
将所述N个音频信号中的每个音频信号进行分帧,得到长度相等的K个信号帧,K≥2;
对所述K个信号帧中的每个信号帧做加窗处理,得到K个加窗信号帧;
对所述K个加窗信号帧中的每个加窗信号帧做FFT变换,得到K个目标信号帧;
根据所述每个音频信号对应的所述K个目标信号帧,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值。
在一些可能的实现方式中,所述K个信号帧中任意两个相邻信号帧重叠R%,R>0。
在一些可能的实现方式中,所述R为25或者50。
在一些可能的实现方式中,将第i个音频信号进行分帧,得到长度相等的K个信号帧写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
在一些可能的实现方式中,所述处理单元具体用于:
根据公式
Figure BDA0004203856980000091
确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,
其中,imag()表示取虚部,ln()表示取自然对数,
Figure BDA0004203856980000092
表示第i个麦克风与参考麦克风之间的相位谱差值,/>
Figure BDA0004203856980000093
表示参考麦克风的第j个目标信号帧,/>
Figure BDA0004203856980000094
表示第i个麦克风的第j个目标信号帧,/>
Figure BDA0004203856980000095
表示主频率。
在一些可能的实现方式中,所述处理单元具体用于:
根据所述每个音频信号对应的所述K个目标信号帧,确定所述每个音频信号的功率谱;
根据所述每个音频信号的功率谱,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值。
在一些可能的实现方式中,所述处理单元具体用于:
根据公式
Figure BDA0004203856980000096
计算所述每个音频信号的功率谱,
其中,Pi(ω)表示第i个音频信号的功率谱,Yi,j(ω)表示第i个音频信号中的第j个目标信号帧,K表示每个麦克风采集到信号的总帧数,ω表示频率。
在一些可能的实现方式中,所述处理单元具体用于:
根据公式PDi(ω)=P1(ω)-Pi(ω)计算所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,
其中,PDi(ω)表示第i个麦克风与参考麦克风之间的功率谱差值,P1(ω)表示参考麦克风的功率谱,Pi(ω)表示第i个麦克风的功率谱。
在一些可能的实现方式中,所述处理单元具体用于:
确定所述N个麦克风在进行音频信号采集时的采样频率Fs和FFT点数Nfft,使用扬声器播放高斯白噪声数据或者扫频信号数据,控制所述N个麦克风采集所述N个音频信号,其中,若所述扬声器所播放的数据为扫频信号数据,所述扫频信号数据由M+1段长度相等且频率不等的信号构成,
Figure BDA0004203856980000097
在一些可能的实现方式中,所述处理单元还用于:
根据公式
Figure BDA0004203856980000098
计算所述M+1段信号中每段信号的频率,以及
根据公式Si(t)=sin(2πfit)计算所述M+1段信号中的每段信号,
其中,fi表示第i段信号的频率,Fs表示采样频率,Nfft表示FFT点数,Si(t)表示第i段信号,且S1(t)的长度为周期T的整数倍,T=1/f1
在一些可能的实现方式中,所述扬声器所播放的扫频信号数据写成以下向量形式:
S(t)=[S0(t),S1(t),…,SM(t)]T
其中,S(t)表示扬声器所播放的扫频信号数据,Si(t)表示第i段信号,
Figure BDA0004203856980000101
[]T表示向量或者矩阵的转置。
在一些可能的实现方式中,所述N个麦克风分别采集到N个音频信号,其中第i个麦克风采集到的音频信号表示为xi(t),且xi(t)可以写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个麦克风采集到的音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
在一些可能的实现方式中,所述获取单元具体用于:
将所述N个麦克风放置于测试房间内,所述测试房间内配置有扬声器,所述N个麦克风位于所述扬声器的正前方;
控制所述扬声器播放高斯白噪声数据或者扫频信号数据,以及控制所述N个麦克风分别采集所述N个音频信号。
在一些可能的实现方式中,所述测试房间内具有消音室环境,所述扬声器为音频测试专用人工嘴,且所述人工嘴在使用之前用标准麦克风校准。
在一些可能的实现方式中,在所述处理单元控制所述扬声器播放高斯白噪声数据或者扫频信号数据之前,所述获取单元还用于:
在安静的环境下,获取所述N个麦克风在第一时长T1内采集的第一音频数据X1(n);
在播放高斯白噪声数据或者扫频信号数据的环境下,获取所述N个麦克风在第二时长T2内采集的第二音频数据X2(n);
触发所述处理单元根据公式
Figure BDA0004203856980000102
计算信噪比SNR,且确保所述SNR大于第一阈值。
第三方面,提供了一种评估麦克风阵列一致性的装置,包括:
存储器,用于存储程序和数据;以及
处理器,用于调用并运行所述存储器中存储的程序和数据;
该装置被配置为执行上述第一方面或其任意可能的实现方式中的方法。
第四方面,提供了评估麦克风阵列一致性的系统,包括:
构成麦克风阵列的N个麦克风,N≥2;
至少一个音频源;
装置,包括用于存储程序和数据的存储器和用于调用并运行所述存储器中存储的程序和数据的处理器,该装置被配置为上述第一方面或其任意可能的实现方式中的方法。
第五方面,提供了一种计算机存储介质,该计算机存储介质中存储有程序代码,该程序代码可以用于指示执行上述第一方面或其任意可能的实现方式中的方法。
第六方面,提供了一种包含指令的计算机程序产品,其在计算机上运行时,使得计算机执行上述第一方面或其任意可能的实现方式中的方法。
附图说明
图1是本申请实施例的评估麦克风阵列一致性的方法的示意性流程图。
图2是根据本申请实施例的测试环境示意图。
图3是根据本申请实施例的计算相位谱差值的示意图。
图4是根据本申请实施例的计算功率谱差值的示意图。
图5是根据本申请实施例的两麦克风之间的相位谱差值的示意图。
图6是根据本申请实施例的两麦克风之间校准之后的相位谱差值的示意图。
图7a是根据本申请实施例的两麦克风的功率谱的示意图。
图7b是根据本申请实施例的两麦克风之间的功率谱差值的示意图。
图8是根据本申请实施例的一种评估麦克风阵列一致性的设备的示意性结构图。
图9是根据本申请实施例的一种评估麦克风阵列一致性的装置的示意性结构图。
图10是根据本申请实施例的一种评估麦克风阵列一致性的系统的示意性结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述。
麦克风阵列(Microphone Array)是指由一定数目的麦克风(声学传感器)组成,用来对声场的空间特性进行采样并处理的系统。利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音清除掉,只剩下需要的声波。
多通道语音增强技术算法假设条件是麦克风阵列中的多个麦克风的目标语音成分高相关性,目标语音与非目标干扰不相关,因此麦克风阵列中不同麦克风之间的一致性直接影响算法性能。
麦克风一致性的定量评估,可用于指导麦克风的设计和麦克风阵列的设计,麦克风阵列的电路、电子元器件、声学结构都会影响麦克风的一致性,在设计麦克风阵列时可逐项测试各种因素对一致性的影响,从而使麦克风一致性的设计达到系统要求。
麦克风一致性的定量评估,可用于比较不同算法的鲁棒性,在达到相同语音增强性能的前提下,对一致性指标要求越低,算法鲁棒性越好。
在本申请实施例中,从幅度谱差值和相位谱差值两个方面衡量一致性,具有客观性和准确性,并且定量的一致性评估方法能够客观的指导麦克风阵列的设计,也能够客观的比较多通道语音增强算法的鲁棒性。
以下,结合图1至图7,详细介绍本申请实施例的评估麦克风阵列一致性的方法。
图1是本申请一个实施例的评估麦克风阵列一致性的方法的示意性流程图。应理解,图1示出了该方法的步骤或操作,但这些步骤或操作仅是示例,本申请实施例还可以执行其他操作或者图1中的各个操作的变形。该方法可以由评估麦克风阵列一致性的装置执行,其中,该评估麦克风阵列一致性的装置可以是手机、平板电脑、便携式电脑、个人数字助理(Personal Digital Assistant,PDA)等等。
S110,获取N个麦克风分别采集的N个音频信号,该N个麦克风构成麦克风阵列,N≥2。
在对N个麦克风进行一致性评估时,需要限制N个麦克风所处的环境,即该N个音频信号是在特殊的测试环境下采集的。
具体地,如图2所示,将由该N个麦克风构成的麦克风阵列201放置于测试房间202内,且在该测试房间202内配置有扬声器203,该麦克风阵列201具体位于该扬声器203的正前方,该麦克风阵列201与该扬声器203连接诸如计算机的控制设备204。该控制设备204可以控制该扬声器203播放特定的音频数据,例如,播放高斯白噪声数据或者扫频信号数据,同时,该控制设备204可以从该麦克风阵列201处获取该N个麦克风分布采集的N个音频信号。
需要注意的是,麦克风一致性评估要求采集的音频信号的信噪比足够高,背景噪声足够弱,因此测试环境要求在安静环境下。特别地,测试房间202内要求具有消音室环境。扬声器203要求信噪比较高,且频率响应曲线平坦,特别地,扬声器使用音频测试专用人工嘴,且使用之前用标准麦克风校准。麦克风阵列201放置在扬声器203的正前方,特别地,要求放置在标准麦克风校准的位置。
可选地,在进行正式的音频信号采集之前,还需要对上述测试环境进行信噪比(signal-to-noise ratio,SNR)检测。
具体地,在如图2所示的测试环境下,首先,在安静的环境下(即扬声器203处于关闭状态),获取该N个麦克风在第一时长T1内采集的第一音频数据X1(n);然后,在播放高斯白噪声数据或者扫频信号数据的环境下(即该控制设备204控制该扬声器203播放高斯白噪声数据或者扫频信号数据),获取该N个麦克风在第二时长T2内采集的第二音频数据X2(n);接着,根据如下公式1计算SNR;最后,当SNR大于设定阈值时,则检测通过,否则检测不通过。
Figure BDA0004203856980000131
其中,T1表示第一时长,T2表示第二时长,X1(n)表示第一音频数据,X2(n)表示第二音频数据。
需要说明的是,若检测不通过,需要对上述测试环境进行调整或者校准,消除一些可能对性噪比造成影响的因素,直至根据上述公式1所计算的SNR大于设定阈值。
可选地,在本申请实施例中,使用上述图2所示的测试环境采集音频信号具体可以包括:
确定该N个麦克风在进行音频信号采集时的采样频率Fs和FFT点数Nfft,使用扬声器播放高斯白噪声数据或者扫频信号数据,该N个麦克风采集该N个音频信号。
可选地,FFT点数Nfft为偶数,一般为32,64,128,...,1024等,点数越多,运算量的节约就越大。
需要说明的是,若该扬声器所播放的数据为扫频信号数据,该扫频信号数据由M+1段长度相等且频率不等的信号构成,
Figure BDA0004203856980000141
可选地,可以根据如下公式2计算该M+1段信号中每段信号的频率,以及根据如下公式3计算该M+1段信号中的每段信号。
Figure BDA0004203856980000142
其中,fi是第i段信号的频率,Fs是采样频率,Nfft表示FFT点数。
Si(t)=sin(2πfit) 公式3
其中,Si(t)表示第i段信号,fi是第i段信号的频率。
需要说明的是,第一段信号S1(t)的长度为周期T的整数倍,T=1/f1
可选地,扬声器所播放的扫频信号数据可以写成以下向量形式:
S(t)=[S0(t),S1(t),…,SM(t)]T
其中,S(t)表示扬声器所播放的扫频信号数据,Si(t)表示第i段信号,
Figure BDA0004203856980000143
[]T表示向量或者矩阵的转置。
可选地,N个麦克风分别采集到N个音频信号,其中第i个麦克风采集到的音频信号表示为xi(t),且xi(t)可以写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个麦克风采集到的音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
S120,根据该N个音频信号,确定该N个麦克风中除参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值,该参考麦克风为该N个麦克风中的任意一个麦克风。
可选地,在本申请实施例中,在该N个音频信号采集到之后,可以通过音频信号分帧,对每帧音频信号加窗,对每帧加窗信号做FFT变换,求不同麦克风之间的相位谱差值。
具体地,如图3所示,假设该N个音频信号为x1(t),x2(t),…,xN(t),将该N个音频信号中的每个音频信号进行分帧,得到长度相等的K个信号帧,K≥2,例如,将第i个音频信号进行分帧,得到长度相等的K个信号帧写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置;
对该K个信号帧中的每个信号帧做加窗处理,得到K个加窗信号帧,例如,对第i个音频信号的第j个帧xi,j加窗,得到第i个音频信号的第j个加窗信号帧yi,j=xi,j×Win;
对该K个加窗信号帧中的每个加窗信号帧做FFT变换,得到K个目标信号帧,例如,对第i个音频信号的第j个加窗信号帧yi,j(t)做FFT变换,得到第i个音频信号的第j个目标信号帧Yi,j(ω);
根据该每个音频信号对应的该K个目标信号帧,确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值,例如,假设第j个目标信号帧的主频率为
Figure BDA0004203856980000151
则可以根据以下公式4计算第i个麦克风与参考麦克风在主频率为/>
Figure BDA0004203856980000152
处的相位谱差值。
Figure BDA0004203856980000153
其中,imag()表示取虚部,ln()表示取自然对数,
Figure BDA0004203856980000154
表示第i个麦克风与参考麦克风之间的相位谱差值,/>
Figure BDA0004203856980000155
表示参考麦克风的第j个目标信号帧,/>
Figure BDA0004203856980000156
表示第i个麦克风的第j个目标信号帧,/>
Figure BDA0004203856980000157
表示主频率。
需要说明的是,在上述图3中,是以第一个麦克风为参考麦克风的,即分别计算除该第一麦克风之外的每个麦克风与该第一麦克风之间的相位谱差值,且第一麦克风对应音频信号x1(t),第二麦克风对应音频信号x2(t),…,第N麦克风对应音频信号xN(t)。
可选地,K表示每个麦克风接收到信号的总帧数。
需要说明的是,加窗处理用来消除分帧时带来的截断效应。可选地,可以是对该K个信号帧中的每个信号帧做加汉明窗处理。
在一些可能的实现方式中,该K个信号帧中任意两个相邻信号帧重叠R%,R>0。例如,该R为25或者50。换句话说,该K个信号帧中任意两个相邻信号帧重叠25%或者50%。
可选地,重叠加窗后信号幅度保持不变。
应理解,重叠之后的每一帧信号都有上一帧的成分,防止两帧之间的不连续。
可选地,在本申请实施例中,在进行相位一致性评估时,该N个音频信号是在播放扫频信号数据的环境下采集的信号。换句话说,在计算上述相位谱差值时,该N个音频信号是在播放扫频信号数据的环境下采集的信号。
因此,可以计算出任意频率ω的相位差,即得到第i个麦克风与参考麦克风之间的相位谱差值PDiffi(ω),即上述
Figure BDA0004203856980000161
可选地,在本申请实施例中,在该N个音频信号采集到之后,可以通过音频信号分帧,对每帧音频信号加窗,对每帧加窗信号做FFT变换,求FFT变换之后的每帧信号的功率谱,求不同麦克风之间的功率谱差值。
具体地,如图4所示,假设该N个音频信号为x1(t),x2(t),…,xN(t),将该N个音频信号中的每个音频信号进行分帧,得到长度相等的K个信号帧,K≥2,例如,将第i个音频信号进行分帧,得到长度相等的K个信号帧写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个音频信号,K表示每个麦克风接收到信号的总帧数,[]T表示向量或者矩阵的转置;
对该K个信号帧中的每个信号帧做加窗处理,得到K个加窗信号帧,例如,对第i个音频信号的第j个帧xi,j加窗,得到第i个音频信号的第j个加窗信号帧yi,j=xi,j×Win;
对该K个加窗信号帧中的每个加窗信号帧做FFT变换,得到K个目标信号帧,例如,对第i个音频信号的第j个加窗信号帧yi,j(t)做FFT变换,得到第i个音频信号的第j个目标信号帧Yi,j(ω);
根据该每个音频信号对应的该K个目标信号帧,确定该每个音频信号的功率谱,例如,根据以下公式5计算第i个音频信号的功率谱;
根据该每个音频信号的功率谱,确定该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值,例如,根据以下公式6计算第i个麦克风与该参考麦克风之间的功率谱差值。
Figure BDA0004203856980000162
其中,Pi(ω)表示第i个音频信号的功率谱,Yi,j(ω)表示第i个音频信号中的第j个目标信号帧,ω表示频率,K表示每个麦克风采集到信号的总帧数。
PDi(ω)=P1(ω)-Pi(ω) 公式6
其中,PDi(ω)表示第i个麦克风与参考麦克风之间的功率谱差值,P1(ω)表示参考麦克风的功率谱,Pi(ω)表示第i个麦克风的功率谱。
需要说明的是,在上述图4中,是以第一个麦克风为参考麦克风的,即分别计算除该第一麦克风之外的每个麦克风与该第一麦克风之间的功率谱差值,且第一麦克风对应音频信号x1(t),第二麦克风对应音频信号x2(t),…,第N麦克风对应音频信号xN(t)。
需要说明的是,加窗处理用来消除分帧时带来的截断效应。可选地,可以是对该K个信号帧中的每个信号帧做加汉明窗处理。
在一些可能的实现方式中,该K个信号帧中任意两个相邻信号帧重叠R%,R>0。例如,该R为25或者50。换句话说,该K个信号帧中任意两个相邻信号帧重叠25%或者50%。
可选地,重叠加窗后信号幅度保持不变。
应理解,重叠之后的每一帧信号都有上一帧的成分,防止两帧之间的不连续。
可选地,在本申请实施例中,在进行幅度一致性评估时,该N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。换句话说,在计算上述功率谱差值时,该N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。
S130,根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的相位谱差值和/或功率谱差值,对该N个麦克风进行一致性评估。
具体地,相位谱差值用于进行相位一致性评估,以及功率谱差值用于进行幅度一致性评估。
可选地,在本申请实施例中,根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,评估对应麦克风与所述参考麦克风之间的相位一致性。
需要说明的是,两个麦克风之间的相位谱差值越小,表示这两个麦克风之间的相位一致性越好。
例如,麦克风1与参考麦克风之间的相位谱差值为A,A越小,表示麦克风1与参考麦克风之间的相位一致性越好。
可选地,可以设置一个阈值,若两个麦克风之间的相位谱差值小于这一阈值,则表示这两个麦克风之间的相位一致性满足设计需求,这两个麦克风之间的一致性对多通道语音增强算法的影响可以忽略,或者这两个麦克风之间的一致性对多通道语音增强算法没有影响。
应注意的是,上述阈值可以根据不同的多通道语音增强算法灵活配置。
需要说明的是,因在采集数据时,不同麦克风到声源的距离难于完全一致,所以不同麦克风之间存在一个固定相位差。
可选地,在本申请实施例中,可以通过固定相位差校准上述相位谱差值。
具体地,分别测量该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风到声源的距离差,例如,di表示第i个麦克风与参考麦克风到声源的距离差;
根据所测量的距离差,分别计算该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差,例如,可以根据以下公式7计算第i个麦克风与参考麦克风之间的固定相位差;
根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的固定相位差,分别校准其对应的相位谱差值。
Figure BDA0004203856980000181
其中,Yi(ω)表示第i个麦克风的频谱,Y1(ω)表示参考麦克风的频谱,ω表示频率,di表示第i个麦克风与参考麦克风到声源的距离差,c表示声速,2πωdi/c表示第i个麦克风与参考麦克风之间的固定相位差。
需要说明的是,固定相位差与信号频率满足线性关系,因此,可以使用线性拟合的方式确定固定相位差。
例如,麦克风1与参考麦克风之间的固定相位差为A,麦克风1与参考麦克风之间的相位谱差值为B,如图5所示,直线部分表示拟合得到的麦克风1与参考麦克风之间的固定相位差,曲线部分表示麦克风1与参考麦克风之间的相位谱差值,其整体表现出,随着频率从0Hz增加至8000Hz,麦克风1与参考麦克风之间的相位谱差值从0弧度减小至-2弧度。校准之后,麦克风1与参考麦克风之间的相位谱差值为C,如图6中曲线所示,此时,C=B-A,其整体表现出,随着频率从0Hz增加至8000Hz,麦克风1与参考麦克风之间的相位谱差值在0弧度与±0.5弧度之间波动。
由图5和图6对比可知,固定相位差会对两个麦克风之间的相位谱差值造成较大的影响,因此,在对两麦克风进行幅度一致性评估时,需要消除两麦克风之间的固定相位差所造成的影响。
可选地,在本申请实施例中,根据该N个麦克风中除该参考麦克风之外的每个麦克风与该参考麦克风之间的功率谱差值,评估对应麦克风与该参考麦克风之间的幅度一致性。
需要说明的是,两个麦克风之间的功率谱差值越小,表示这两个麦克风之间的幅度一致性越好。
例如,如图7所示,具体地,图7a示出了麦克风1的功率谱与参考麦克风的功率谱,图7b示出了麦克风1与参考麦克风之间的功率谱差值,麦克风1与参考麦克风之间的功率谱相差不大,并且其功率谱差值的最大值<±1分贝(dB)。
可选地,可以设置一个阈值,若两个麦克风之间的功率谱差值小于这一阈值,则表示这两个麦克风之间的幅度一致性满足设计需求,这两个麦克风之间的一致性对多通道语音增强算法的影响可以忽略,或者这两个麦克风之间的一致性对多通道语音增强算法没有影响。
应注意的是,上述阈值可以根据不同的多通道语音增强算法灵活配置。
可选地,在本申请实施例中,可以逐项测试诸如麦克风阵列的电路、电子元器件、声学结构等因素对麦克风一致性的影响,从而指导麦克风阵列的校准,具体地,可以是指导麦克风的设计和麦克风阵列的设计,评估多通道增强算法的鲁棒性。
因此,在本申请实施例中,可以根据N个麦克风分别采集的N个音频信号,确定各个麦克风与参考麦克风之间的相位谱差值和/或功率谱差值,从而对N个麦克风进行一致性评估,消除麦克风之间的一致性对多通道语音增强算法的影响,提升用户体验。
可选地,如图8所示,本申请实施例提供了一种评估麦克风阵列一致性的设备800,包括:
获取单元810,用于获取N个麦克风分别采集的N个音频信号,所述N个麦克风构成麦克风阵列,N≥2;
处理单元820,用于根据所述N个音频信号,确定所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值,所述参考麦克风为所述N个麦克风中的任意一个麦克风;
所述处理单元820,还用于根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值,对所述N个麦克风进行一致性评估。
可选地,所述处理单元820具体用于:
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,评估对应麦克风与所述参考麦克风之间的相位一致性。
可选地,所述处理单元820还用于:
分别测量所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风到声源的距离差;
根据所测量的距离差,分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差;
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差,分别校准其对应的相位谱差值。
可选地,所述处理单元820具体用于:
根据公式
Figure BDA0004203856980000201
分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差,
其中,Yi(ω)表示第i个麦克风的频谱,Y1(ω)表示参考麦克风的频谱,ω表示频率,di表示第i个麦克风与参考麦克风到声源的距离差,c表示声速,2πωdi/c表示第i个麦克风与参考麦克风之间的固定相位差。
可选地,所述处理单元820具体用于:
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,评估对应麦克风与所述参考麦克风之间的幅度一致性。
可选地,所述N个音频信号是在播放扫频信号数据的环境下采集的信号。
可选地,所述N个音频信号是在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号。
可选地,所述扫频信号为线性扫频信号、对数扫频信号、线性步进扫频信号、对数步进扫频信号中的任意一种。
可选地,所述处理单元820具体用于:
将所述N个音频信号中的每个音频信号进行分帧,得到长度相等的K个信号帧,K≥2;
对所述K个信号帧中的每个信号帧做加窗处理,得到K个加窗信号帧;
对所述K个加窗信号帧中的每个加窗信号帧做FFT变换,得到K个目标信号帧;
根据所述每个音频信号对应的所述K个目标信号帧,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值和/或功率谱差值。
可选地,所述K个信号帧中任意两个相邻信号帧重叠R%,R>0。
可选地,所述R为25或者50。
可选地,将第i个音频信号进行分帧,得到长度相等的K个信号帧写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
可选地,所述处理单元820具体用于:
根据公式确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,
其中,imag()表示取虚部,ln()表示取自然对数,
Figure BDA0004203856980000212
表示第i个麦克风与参考麦克风之间的相位谱差值,/>
Figure BDA0004203856980000213
表示参考麦克风的第j个目标信号帧,/>
Figure BDA0004203856980000214
表示第i个麦克风的第j个目标信号帧,/>
Figure BDA0004203856980000216
表示主频率。
可选地,所述处理单元820具体用于:
根据所述每个音频信号对应的所述K个目标信号帧,确定所述每个音频信号的功率谱;
根据所述每个音频信号的功率谱,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值。
可选地,所述处理单元820具体用于:
根据公式
Figure BDA0004203856980000215
计算所述每个音频信号的功率谱,
其中,Pi(ω)表示第i个音频信号的功率谱,Yi,j(ω)表示第i个音频信号中的第j个目标信号帧,K表示每个麦克风采集到信号的总帧数,ω表示频率。
可选地,所述处理单元820具体用于:
根据公式PDi(ω)=P1(ω)-Pi(ω)计算所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,
其中,PDi(ω)表示第i个麦克风与参考麦克风之间的功率谱差值,P1(ω)表示参考麦克风的功率谱,Pi(ω)表示第i个麦克风的功率谱。
可选地,所述处理单元820具体用于:
确定所述N个麦克风在进行音频信号采集时的采样频率Fs和FFT点数Nfft,使用扬声器播放高斯白噪声数据或者扫频信号数据,控制所述N个麦克风采集所述N个音频信号,其中,若所述扬声器所播放的数据为扫频信号数据,所述扫频信号数据由M+1段长度相等且频率不等的信号构成,
Figure BDA0004203856980000221
可选地,所述处理单元820还用于:
根据公式
Figure BDA0004203856980000222
计算所述M+1段信号中每段信号的频率,以及
根据公式Si(t)=sin(2πfit)计算所述M+1段信号中的每段信号,
其中,fi表示第i段信号的频率,Fs表示采样频率,Nfft表示FFT点数,Si(t)表示第i段信号,且S1(t)的长度为周期T的整数倍,T=1/f1
可选地,所述扬声器所播放的扫频信号数据写成以下向量形式:
Figure BDA0004203856980000223
其中,S(t)表示扬声器所播放的扫频信号数据,Si(t)表示第i段信号,
Figure BDA0004203856980000224
[]T表示向量或者矩阵的转置。
可选地,所述N个麦克风分别采集到N个音频信号,其中第i个麦克风采集到的音频信号表示为xi(t),且xi(t)可以写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),…,xi,K(t)]T
其中,xi(t)表示第i个麦克风采集到的音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
可选地,所述获取单元810具体用于:
将所述N个麦克风放置于测试房间内,所述测试房间内配置有扬声器,所述N个麦克风位于所述扬声器的正前方;
控制所述扬声器播放高斯白噪声数据或者扫频信号数据,以及控制所述N个麦克风分别采集所述N个音频信号。
可选地,所述测试房间内具有消音室环境,所述扬声器为音频测试专用人工嘴,且所述人工嘴在使用之前用标准麦克风校准。
可选地,在所述处理单元820控制所述扬声器播放高斯白噪声数据或者扫频信号数据之前,所述获取单元810还用于:
在安静的环境下,获取所述N个麦克风在第一时长T1内采集的第一音频数据X1(n);
在播放高斯白噪声数据或者扫频信号数据的环境下,获取所述N个麦克风在第二时长T2内采集的第二音频数据X2(n);
触发所述处理单元820根据公式
Figure BDA0004203856980000231
计算信噪比SNR,且确保所述SNR大于第一阈值。
可选地,如图9所示,本申请实施例提供了一种评估麦克风阵列一致性的装置900,包括:
存储器910,用于存储程序和数据;以及
处理器920,用于调用并运行所述存储器中存储的程序和数据;
该装置900被配置为执行上述图1至7中所示的方法。
可选地,如图10所示,本申请实施例提供了一种评估麦克风阵列一致性的系统1000,包括:
构成麦克风阵列1010的N个麦克风,N≥2;
至少一个音频源1020;
装置1030,包括用于存储程序和数据的存储器1031和用于调用并运行所述存储器中存储的程序和数据的处理器1032,该装置1030被配置为上述图1至7中所示的方法。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。

Claims (22)

1.一种评估麦克风阵列一致性的方法,其特征在于,包括:
获取N个麦克风分别采集的N个音频信号,所述N个麦克风构成麦克风阵列,N≥2,所述N个音频信号包括在播放高斯白噪声数据或者扫频信号数据的环境下采集的信号;所述N个音频信号的信噪比大于预设阈值;
根据所述N个音频信号,确定所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值或功率谱差值,所述参考麦克风为所述N个麦克风中的任意一个麦克风;
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值或功率谱差值,对所述N个麦克风进行一致性评估。
2.根据权利要求1所述的方法,其特征在于,所述根据所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,对所述N个麦克风进行一致性评估,包括:
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,评估对应麦克风与所述参考麦克风之间的相位一致性。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
分别测量所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风到声源的距离差;
根据所测量的距离差,分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差;
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差,分别校准其对应的相位谱差值。
4.根据权利要求3所述的方法,其特征在于,所述根据所测量的距离,分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差,包括:
根据公式
Figure FDA0004203856940000011
分别计算所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的固定相位差,
其中,Yi(ω)表示第i个麦克风的频谱,Y1(ω)表示参考麦克风的频谱,ω表示频率,di表示第i个麦克风与参考麦克风到声源的距离差,c表示声速,2πωdi/c表示第i个麦克风与参考麦克风之间的固定相位差。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,对所述N个麦克风进行一致性评估,包括:
根据所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,评估对应麦克风与所述参考麦克风之间的幅度一致性。
6.根据权利要求1所述的方法,其特征在于,所述扫频信号为线性扫频信号、对数扫频信号、线性步进扫频信号、对数步进扫频信号中的任意一种。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述N个音频信号,确定所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值或功率谱差值,包括:
将所述N个音频信号中的每个音频信号进行分帧,得到长度相等的K个信号帧,K≥2,所述K个信号帧中任意两个相邻信号帧重叠R%,R>0;
对所述K个信号帧中的每个信号帧做加窗处理,得到K个加窗信号帧;
对所述K个加窗信号帧中的每个加窗信号帧做FFT变换,得到K个目标信号帧;
根据所述每个音频信号对应的所述K个目标信号帧,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值或功率谱差值。
8.根据权利要求7所述的方法,其特征在于,所述R为25或者50。
9.根据权利要求7所述的方法,其特征在于,将第i个音频信号进行分帧,得到长度相等的K个信号帧写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),,xi,K(t)]T
其中,xi(t)表示第i个音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
10.根据权利要求7所述的方法,其特征在于,所述根据所述每个音频信号对应的所述K个目标信号帧,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,包括:
根据公式
Figure FDA0004203856940000031
确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的相位谱差值,
其中,imag()表示取虚部,ln()表示取自然对数,
Figure FDA0004203856940000032
表示第i个麦克风与参考麦克风之间的相位谱差值,/>
Figure FDA0004203856940000033
表示参考麦克风的第j个目标信号帧,/>
Figure FDA0004203856940000034
表示第i个麦克风的第j个目标信号帧,/>
Figure FDA0004203856940000035
表示主频率。
11.根据权利要求7所述的方法,其特征在于,所述根据所述每个音频信号对应的所述K个目标信号帧,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,包括:
根据所述每个音频信号对应的所述K个目标信号帧,确定所述每个音频信号的功率谱;
根据所述每个音频信号的功率谱,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值。
12.根据权利要求11所述的方法,其特征在于,所述根据所述每个音频信号对应的所述K个目标信号帧,确定所述每个音频信号的功率谱,包括:
根据公式
Figure FDA0004203856940000036
计算所述每个音频信号的功率谱,
其中,Pi(ω)表示第i个音频信号的功率谱,Yi,j(ω)表示第i个音频信号中的第j个目标信号帧,K表示每个麦克风采集到信号的总帧数,ω表示频率。
13.根据权利要求11所述的方法,其特征在于,所述根据所述每个音频信号的功率谱,确定所述N个麦克风中除所述参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,包括:
根据公式PDi(ω)=P1(ω)-Pi(ω)计算所述N个麦克风中除参考麦克风之外的每个麦克风与所述参考麦克风之间的功率谱差值,
其中,PDi(ω)表示第i个麦克风与参考麦克风之间的功率谱差值,P1(ω)表示参考麦克风的功率谱,Pi(ω)表示第i个麦克风的功率谱。
14.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取N个麦克风分别采集的N个音频信号,包括:
确定所述N个麦克风在进行音频信号采集时的采样频率Fs和FFT点数Nfft,使用扬声器播放高斯白噪声数据或者扫频信号数据,所述N个麦克风采集所述N个音频信号,其中,若所述扬声器所播放的数据为扫频信号数据,所述扫频信号数据由M+1段长度相等且频率不等的信号构成,
Figure FDA0004203856940000041
15.根据权利要求14所述的方法,其特征在于,
根据公式
Figure FDA0004203856940000042
计算所述M+1段信号中每段信号的频率,以及
根据公式Si(t)=sin(2πfit)计算所述M+1段信号中的每段信号,
其中,fi表示第i段信号的频率,Fs表示采样频率,Nfft表示FFT点数,Si(t)表示第i段信号,且S1(t)的长度为周期T的整数倍,T=1/f1
16.根据权利要求15所述的方法,其特征在于,所述扬声器所播放的扫频信号数据写成以下向量形式:
S(t)=[S0(t),S1(t),,SM(t)]T
其中,S(t)表示扬声器所播放的扫频信号数据,Si(t)表示第i段信号,
Figure FDA0004203856940000043
[]T表示向量或者矩阵的转置。
17.根据权利要求1至4中任一项所述的方法,其特征在于,所述N个麦克风分别采集到N个音频信号,其中第i个麦克风采集到的音频信号表示为xi(t),且xi(t)可以写成以下向量形式:
xi(t)=[xi,1(t),xi,2(t),,xi,K(t)]T
其中,xi(t)表示第i个麦克风采集到的音频信号,K表示每个麦克风采集到信号的总帧数,[]T表示向量或者矩阵的转置。
18.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取N个麦克风分别采集的N个音频信号,包括:
将所述N个麦克风放置于测试房间内,所述测试房间内配置有扬声器,所述N个麦克风位于所述扬声器的正前方;
控制所述扬声器播放高斯白噪声数据或者扫频信号数据,以及控制所述N个麦克风分别采集所述N个音频信号。
19.根据权利要求18所述的方法,其特征在于,所述测试房间内具有消音室环境,所述扬声器为音频测试专用人工嘴,且所述人工嘴在使用之前用标准麦克风校准。
20.根据权利要求18所述的方法,其特征在于,在控制所述扬声器播放高斯白噪声数据或者扫频信号数据之前,所述方法还包括:
在安静的环境下,获取所述N个麦克风在第一时长T1内采集的第一音频数据X1(n);
在播放高斯白噪声数据或者扫频信号数据的环境下,获取所述N个麦克风在第二时长T2内采集的第二音频数据X2(n);
根据公式
Figure FDA0004203856940000051
计算信噪比SNR,且确保所述SNR大于第一阈值。
21.一种评估麦克风阵列一致性的装置,其特征在于,包括:
存储器,用于存储程序和数据;以及
处理器,用于调用并运行所述存储器中存储的程序和数据;
所述装置被配置为:执行如权利要求1至20中任一项所述的方法。
22.一种评估麦克风阵列一致性的系统,其特征在于,包括:
构成麦克风阵列的N个麦克风,N≥2;
至少一个音频源;
装置,包括用于存储程序和数据的存储器和用于调用并运行所述存储器中存储的程序和数据的处理器,所述装置被配置为:
执行如权利要求1至20中任一项所述的方法。
CN202310466643.4A 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统 Pending CN116437280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310466643.4A CN116437280A (zh) 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202310466643.4A CN116437280A (zh) 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统
CN201880001199.6A CN109313909B (zh) 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统
PCT/CN2018/101766 WO2020037555A1 (zh) 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201880001199.6A Division CN109313909B (zh) 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统

Publications (1)

Publication Number Publication Date
CN116437280A true CN116437280A (zh) 2023-07-14

Family

ID=65221692

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310466643.4A Pending CN116437280A (zh) 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统
CN201880001199.6A Active CN109313909B (zh) 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201880001199.6A Active CN109313909B (zh) 2018-08-22 2018-08-22 评估麦克风阵列一致性的方法、设备、装置和系统

Country Status (2)

Country Link
CN (2) CN116437280A (zh)
WO (1) WO2020037555A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111807B (zh) * 2019-04-27 2022-01-11 南京理工大学 一种基于麦克风阵列的室内声源跟随与增强方法
CN110636432A (zh) * 2019-09-29 2019-12-31 深圳市火乐科技发展有限公司 麦克风测试方法及相关设备
CN111065036B (zh) * 2019-12-26 2021-08-31 北京声智科技有限公司 一种麦克风阵列的频响测试方法及装置
CN112672265B (zh) * 2020-10-13 2022-06-28 珠海市杰理科技股份有限公司 检测麦克风阵一致性的方法及系统、计算机可读存储介质
CN114520946A (zh) * 2020-11-19 2022-05-20 阿里巴巴集团控股有限公司 麦克风阵列检测方法、装置及设备
WO2022150950A1 (zh) * 2021-01-12 2022-07-21 华为技术有限公司 评估传声器阵列一致性的方法和装置
CN113259830B (zh) * 2021-04-26 2023-03-21 歌尔股份有限公司 一种多麦克一致性测试系统及方法
CN114390421A (zh) * 2021-12-03 2022-04-22 伟创力电子技术(苏州)有限公司 一种麦克风矩阵和喇叭的自动测试方法
CN114222234A (zh) * 2021-12-31 2022-03-22 思必驰科技股份有限公司 麦克风阵列一致性的检测方法、电子设备和存储介质
CN114449434B (zh) * 2022-04-07 2022-08-16 北京荣耀终端有限公司 麦克风校准方法及电子设备
CN115776626B (zh) * 2023-02-10 2023-05-02 杭州兆华电子股份有限公司 一种麦克风阵列的频响校准方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006033734A (ja) * 2004-07-21 2006-02-02 Sanyo Electric Co Ltd 電気製品の音検査方法及び電気製品の音検査装置
CN1756444B (zh) * 2004-09-30 2011-09-28 富迪科技股份有限公司 电声系统的自我检测校正方法
US8126156B2 (en) * 2008-12-02 2012-02-28 Hewlett-Packard Development Company, L.P. Calibrating at least one system microphone
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
EP2499839B1 (en) * 2009-11-12 2017-01-04 Robert Henry Frater Speakerphone with microphone array
CN102111697B (zh) * 2009-12-28 2015-03-25 歌尔声学股份有限公司 一种麦克风阵列降噪控制方法及装置
CN102075848B (zh) * 2011-02-17 2014-05-21 深圳市豪恩声学股份有限公司 阵列麦克风的测试方法、系统及转动装置
EP2565667A1 (en) * 2011-08-31 2013-03-06 Friedrich-Alexander-Universität Erlangen-Nürnberg Direction of arrival estimation using watermarked audio signals and microphone arrays
US9609141B2 (en) * 2012-10-26 2017-03-28 Avago Technologies General Ip (Singapore) Pte. Ltd. Loudspeaker localization with a microphone array
CN103871420B (zh) * 2012-12-13 2016-12-21 华为技术有限公司 麦克风阵列的信号处理方法及装置
CN103247298B (zh) * 2013-04-28 2015-09-09 华为技术有限公司 一种灵敏度校准方法和音频设备
CN103559330B (zh) * 2013-10-10 2017-04-12 上海华为技术有限公司 数据一致性检测方法及系统
EP2942982A1 (en) * 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
CN106161751B (zh) * 2015-04-14 2019-07-19 电信科学技术研究院 一种噪声抑制方法及装置
WO2016209098A1 (en) * 2015-06-26 2016-12-29 Intel Corporation Phase response mismatch correction for multiple microphones
CN105554674A (zh) * 2015-12-28 2016-05-04 努比亚技术有限公司 一种麦克风校准方法、装置及移动终端
CN107864444B (zh) * 2017-11-01 2019-10-29 大连理工大学 一种麦克风阵列频响校准方法

Also Published As

Publication number Publication date
CN109313909A (zh) 2019-02-05
WO2020037555A1 (zh) 2020-02-27
CN109313909B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN109313909B (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
CN109839612B (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
CN106486131B (zh) 一种语音去噪的方法及装置
CN109845288B (zh) 用于麦克风之间的输出信号均衡的方法和装置
CN108766454A (zh) 一种语音噪声抑制方法及装置
US20180262832A1 (en) Sound Signal Processing Apparatus and Method for Enhancing a Sound Signal
US6675114B2 (en) Method for evaluating sound and system for carrying out the same
Braun et al. A multichannel diffuse power estimator for dereverberation in the presence of multiple sources
US20150058002A1 (en) Detecting Wind Noise In An Audio Signal
CN110390947B (zh) 声源位置的确定方法、系统、设备和存储介质
WO2022174727A1 (zh) 啸叫抑制方法、装置、助听器及存储介质
Prego et al. A blind algorithm for reverberation-time estimation using subband decomposition of speech signals
Chen et al. Direct-to-reverberant energy ratio estimation using a first-order microphone
CN111613248A (zh) 拾音测试方法、设备及系统
CN110169082A (zh) 组合音频信号输出
CN112672265B (zh) 检测麦克风阵一致性的方法及系统、计算机可读存储介质
CN113936688A (zh) 一种声学指数确定方法、装置及存储介质
CN114584908A (zh) 助听器的声学测试方法、装置以及设备
CN106710602A (zh) 一种声学混响时间估计方法和装置
Peng Relationship between Chinese speech intelligibility and speech transmission index in rooms using dichotic listening
Braun et al. Dual-channel modulation energy metric for direct-to-reverberation ratio estimation
Gong et al. Noise power spectral density matrix estimation based on modified IMCRA
CN112889299B (zh) 评估传声器阵列一致性的方法和装置
Xiaomei et al. Bispectral feature speech intelligibility assessment metric based on auditory model
Jin et al. Acoustic room compensation using local PCA-based room average power response estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination