CN107301869B - 麦克风阵列拾音方法、处理器及其存储介质 - Google Patents
麦克风阵列拾音方法、处理器及其存储介质 Download PDFInfo
- Publication number
- CN107301869B CN107301869B CN201710704441.3A CN201710704441A CN107301869B CN 107301869 B CN107301869 B CN 107301869B CN 201710704441 A CN201710704441 A CN 201710704441A CN 107301869 B CN107301869 B CN 107301869B
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- frequency domain
- component
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000000903 blocking effect Effects 0.000 claims description 9
- 238000003379 elimination reaction Methods 0.000 claims description 9
- 230000008030 elimination Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 230000002238 attenuated effect Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000003491 array Methods 0.000 abstract 1
- 230000001427 coherent effect Effects 0.000 abstract 1
- 230000003313 weakening effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种用于远距离语音识别的麦克风阵列拾音方法,该方法对麦克风阵列中接收到的目标语音依次进行时延补偿、增益补偿、波束成形、后置滤波以及增益控制处理;时延补偿处理,保证麦克风阵列接收目标语音时刻一致,增益补偿处理,减少因各麦克风不一致而导致的信号幅度差异;波束成形处理,消除目标语音信号中的相干噪声;后置滤波处理,消除目标语音信号中的扩散噪声;增益控制处理,将远距离录音音量较小的部分放大,便于识别引擎进行识别;本发明提供的拾音方法能显着提高语音信号的识别率;本发明还提供能够执行上述拾音方法的处理器及其存储介质。
Description
技术领域
本发明涉及音频信号处理技术领域,尤其是涉及一种用于远距离语音识别的麦克风阵列拾音方法、处理器及其存储介质。
背景技术
随着语音识别技术日益成熟,其应用越来越广泛,现有语音识别技术在近距离时表现优异,然而当语音距离变远时,语音识别率急剧下降,使得语音识别难以达到实用效果。
为了解决远距离语音识别率下降的问题,在现有技术中经常使用麦克风阵列,即采用一定的波束形成和自适应滤波方法来消除噪声,但是一般的波束成形方法进行噪声消除的效果并不理想,并且在实际使用的过程中,由于不同麦克风的特性的差异、麦克风摆放位置的偏差以及目标语音方向不准确等问题导致处理噪声效果的效果进一步的降低。
发明内容
本发明的主要第一目的是提供一种有效增强噪声消除能力的用于远距离语音识别的麦克风阵列拾音方法
本发明的主要第二目的是提供一种有效增强噪声消除能力的用于远距离语音识别的处理器
本发明的主要第三目的是提供一种有效增强噪声消除能力的用于远距离语音识别的处理器中的存储介质。
为实现上述的主要目的,本发明提供的用于远距离语音识别的麦克风阵列拾音方法,包括:
通过至少两个麦克风分别接收两个目标语音信号;
对两个目标语音信号进行时延补偿处理;
对时延补偿处理后的两个目标语音信号进行增益补偿处理;
对增益补偿处理后的两个目标语音信号进行波束成形处理,得到第一语音成分信号和噪声成分信号;
根据噪声成分信号对第一语音成分信号进行后置滤波处理,得到第二语音成分信号;
对第二语音成分信号进行增益控制处理,得到第三语音信号,
波束成形处理包括:
根据两个目标语音信号求平均并得到增强目标语音信号;
根据两个目标语音信号求差并得到减弱目标语音信号;
根据增强目标语音信号对减弱目标语音信号进行自适应阻塞对角矩阵算法处理,并得到噪声成分信号;
根据减弱目标语音信号对增强目标语音信号进行串换自适应噪声消除处理,并得到第一语音成分信号。
由此可见,对麦克风阵列中接收到的目标语音依次进行时延补偿、增益补偿、波束成形、后置滤波以及增益控制处理,将麦克风接收的语音信号进行规整并且去除语音信号中的噪声,通过增强波束成形处理的中的自适应阻塞处理进行目标语音中的噪声语音成分的提取以及串换自适应噪声消除处理中提取目标语音中的语音成分信号,同时利用后置滤波将语音成分信号中的噪声语音成分消除,增强噪声消除能力,显著提高语音识别装置的识别率,从而实现对远距离的语音信号的准确识别。
进一步的方案是,自适应阻塞对角矩阵算法处理包括:
取连续两帧的增强目标语音信号以对角矩阵的形式进行短时傅里叶变换,得到增强目标语音频域信号;
将增强目标语音频域信号与频域滤波系数相乘并得到滤波后的增强目标语音频域信号;
将与增强目标语音信号相同帧的减弱目标语音信号减去反傅里叶变换后的滤波后的增强目标语音频域信号,得出噪声成分信号;
根据滤波后的增强目标语音频域信号和噪声成分信号更新频域滤波系数。
进一步的方案是,串换自适应噪声消除处理包括:
根据第一语音成分信号,分别设定第一滤波系数与第二滤波系数的初始值;
取连续两帧的第一语音成分信号以对角矩阵的形式进行傅里叶变换,得到第一语音成分频域信号;
将与第一语音成分信号相同帧的噪声成分信号减去反傅里叶变换后的与第二滤波系数相乘后的第一语音成分频域信号,得出噪声成分减弱信号;
根据与第二滤波系数相乘后的第一语音成分频域信号和噪声成分减弱信号更新第二滤波系数;
取连续两帧的噪声成分减弱信号以对角矩阵的形式进行傅里叶变换,得到噪声成分减弱频域信号;
将与噪声成分减弱信号相同帧的增强目标语音信号减去反傅里叶变换后的与第一滤波系数相乘后的噪声成分减弱频域信号,得出第一语音成分信号;
根据第一语音成分频域信号和噪声成分减弱信号更新第一滤波系数。
进一步的方案是,后置滤波处理包括:
平滑处理经傅里叶变换后的某一帧的第一语音成分信号与噪声成分信号,得到第一语音成分频域信号与噪声成分频域信号;
通过IMCRA方法分别估计第一语音成分频域信号与噪声成分频域信号的拟平稳噪声能量的大小;
根据第一语音成分频域信号、噪声成分频域信号以及拟平稳噪声能量的大小,计算语音信号不存在概率变量;
比较语音信号不存在概率变量的值与预设值的大小,得到语音信号不存在概率;
根据第一语音成分频域信号的绝对值的平方除以噪声估计值得到后验信噪比;
根据后验信噪比与前一帧的增益系数计算得到先验信噪比,其中增益系数根据后验信噪比与先验信噪比得到;
根据先验信噪比的与后验信噪比的乘积得到噪声衰减因子;
根据噪声衰减因子、后验信噪比与语音信号不存在概率计算得到语音信号存在概率;
根据语音信号存在概率与第一语音成分频域信号更新噪声估计值;
根据第一语音成分频域信号与增益系数相乘并傅里叶后得到第二语音成分信号。
进一步的方案是,时延补偿处理包括:
选择其一目标语音信号作为参考目标语音信号;
根据参考目标语音信号与其他目标语音信号的间距、目标语音信号相对参考目标语音信号的方向以及声音传播速度计算其一目标语音信号相对于参考目标语音信号的延时;
根据延时与采样率,对其他目标语音信号进行样条插值处理得到时延补偿后的目标语音信号。
进一步的方案是,增益补偿处理包括:
根据Bark频率尺度进行重分组短时傅里叶变换后的时延补偿后的目标语音信号得到目标语音信号的频域数据;
计算重分组后的频域数据的每一组的平均能量以其对应组的平均能量;
平方每一组频域数据的平均能量与其对应组的平均能量的比值得到增益补偿因子;
反傅里叶增益补偿因子与对应组的频域数据的乘积得到增益补偿后的目标语音信号。
进一步的方案是,增益控制处理包括:
将第二语音成分信号线性放大;
将经线性放大后的第二语音成分信号进行动态范围控制处理,得到第三语音成分信号。
本发明提供的处理器,用于终端,包括处理器和存储介质,处理器用于执行存储介质内的程序时实现上述方法的步骤。
本发明提供的存储介质内存储有程序,程序被执行时实现上述方法的步骤。
附图说明
图1是本发明麦克风阵列拾音方法实施例的简易流程图。
图2是本发明麦克风阵列拾音方法实施例的流程图。
图3是本发明麦克风阵列拾音方法实施例中的时延补偿的流程图。
图4是本发明麦克风阵列拾音方法实施例中的增益补偿的流程图。
图5是本发明麦克风阵列拾音方法实施例中的波束成形处理的流程图。
图6是本发明麦克风阵列拾音方法实施例中的波束成形处理中的自适应阻塞对角矩阵算法处理的流程图。
图7是本发明麦克风阵列拾音方法实施例中的波束成形处理中的串换自适应噪声消除的流程图。
图8是本发明麦克风阵列拾音方法实施例中的波束成形处理的流程示意图。
图9是本发明麦克风阵列拾音方法实施例中的后置滤波处理的流程图。
图10是本发明麦克风阵列拾音方法实施例中的增益控制处理的流程图。
以下结合附图及实施例对本发明作进一步说明。
具体实施方式
本发明的用于远距离语音识别的麦克风阵列拾音方法对麦克风阵列中接收到的目标语音依次进行时延补偿、增益补偿、波束成形、后置滤波以及增益控制处理,通过增强波束成形处理的使用稳定性,同时增强噪声消除能力,显著提高语音识别装置的识别率,从而实现对远距离的语音信号的准确识别。
本发明的用于远距离语音识别的麦克风阵列拾音方法在本实施例中以两个麦克风组成的阵列进行说明,对于多个麦克风组成的麦克风阵列和其他采样率信号,同时适合本发明提供的拾音方法。
参见图1、图2,本发明提供的用于远距离语音识别的麦克风阵列拾音方法包括以下步骤:
S1、通过两个麦克风分别接收两个目标语音信号;
S2、对两个目标语音信号进行时延补偿处理;
S3、时延补偿处理后的两个目标语音信号进行增益补偿处理;
S4、对增益补偿处理后的两个目标语音信号进行波束成形处理,得到第一语音成分信号和噪声成分信号,其中波束成形处理包括:
S41、根据两个目标语音信号求平均并得到增强目标语音信号,
S42、根据两个目标语音信号求差并得到减弱目标语音信号,
S43、根据增强目标语音信号对减弱目标语音信号进行自适应阻塞对角矩阵算法处理,并得到噪声成分信号,
S44、根据减弱目标语音信号对增强目标语音信号进行串换自适应噪声消除处理,并得到第一语音成分信号;
S5、根据噪声成分信号对第一语音成分信号进行后置滤波处理,得到第二语音成分信号;
S6、对第二语音成分信号进行增益控制处理,得到第三语音信号;
利用以上步骤,对麦克风阵列中接收到的目标语音依次进行时延补偿、增益补偿、波束成形、后置滤波以及增益控制处理,增强波束成形处理的使用稳定性,同时增强噪声消除能力,从而显著提高语音识别装置的识别率。
参见图3,时延补偿处理包括以下步骤:
S21、选择其一目标语音信号作为参考目标语音信号;
S22、根据参考目标语音信号与其他目标语音信号的间距、目标语音信号相对参考目标语音信号的方向以及声音传播速度计算其一目标语音信号相对于参考目标语音信号的延时;
S23、根据延时与采样率,对其他目标语音信号进行样条插值处理得到时延补偿后的目标语音信号。
选定其中一个麦克风为参考,根据两个麦克风之间的间距、目标语音的方向以及声音传播的速度,计算另一个麦克风相对与参考麦克风的延迟时间,根据延时时间对另一麦克风进行时延补偿。根据延时大小和采样率,利用三次样条插值方法处理另一麦克风的信号,使得两个麦克风在同一时刻拾取到一致的目标语音。
参见图4,对时延补偿处理后的目标语音信号进行增益补偿处理,可减少两个麦克风对目标语音幅度相应的差异,得到幅度相应较为一致的双通道信号,其中增益补偿处理包括以下步骤:
S31、根据Bark频率尺度进行重分组短时傅里叶变换后的时延补偿后的目标语音信号得到目标语音信号的频域数据;
S32、计算重分组后的频域数据的每一组的平均能量以其对应组的平均能量;
S33、平方每一组频域数据的平均能量与其对应组的平均能量的比值得到增益补偿因子;
S34、反傅里叶增益补偿因子与对应组的频域数据的乘积得到增益补偿后的目标语音信号。
其中在S31中,将经过时延补偿后的目标语音信号分别按照帧长256,利用50%重叠保留的方法进行512点短时傅里叶变换到频域,得到目标语音的频域数据,其中按照Bark频率尺度重分组民目标语音信号的频域数据,可减少在处理过程中用于语音识别的频谱特性的损失。对应组为目标语音信号中的一个通道信号的一组频域数据序号相同的另一通道信号的一组频域数据。
参见图5、图8,波束成形处理包括以下步骤:
S41、根据两个目标语音信号求平均并得到增强目标语音信号y=(s1+s2)/2;
S42、根据两个目标语音信号求差并得到减弱目标语音信号x=(s2-s1);
S43、根据增强目标语音信号y对减弱目标语音信号x进行自适应阻塞对角矩阵算法处理,并得到噪声成分信号u;
S44、根据减弱目标语音信号x对增强目标语音信号y进行串换自适应噪声消除处理,并得到第一语音成分信号e1。
通过稳健的波束成形处理将增益补偿处理后的目标语音信号降低其中的噪声,使得在麦克风阵列中存在的麦克风位置、目标语音方向的偏差的情况下,可以得到一致的第一语音成分信号e1。
参见图6,其中S43中的自适应阻塞对角矩阵算法处理具体实现以下步骤:
S431、假定每次处理的增强目标语音信号y的帧长为L(对16000采样率的信号可取L为256),取连续两帧的增强目标语音信号以对角矩阵的形式进行短时傅里叶变换,得到增强目标语音频域信号:
Yf(k)=diag{FFT(yf(kL-L),...,yf(kL),...,yf(kL+L-1))T}
S432、将增强目标语音频域信号与频域滤波系数相乘并得到滤波后的增强目标语音频域信号:
Yb(k)=Yf(k)H(k)
其中频域滤波系数初始值H(0)设为0。
S433、假定第k帧目标语音的减弱目标语音信号为x(kL),…,x(kL+L-1),取x(k)=(01×L,x(kL),...,x(kL+L-1))T。对上述滤波后的增强目标语音频域信号Yb(k)做反傅里叶变换后取其中L个点,且将前L个点设为0,将所得的增强目标语音信号y与增强目标语音信号y相同帧的x(k)相减得到时域信号eb(k):
eb(k)=x(k)-diag{(01×L,11×L)}·IFFT(Yb(k))
其中eb(k)向量的后L个点为噪声成分信号u。
S434、根据滤波后的增强目标语音频域信号Yb和噪声成分信号u更新频域滤波系数,方法如下:
Eb(k)=FFT(eb(k))
Pl(k)=λPl(k)+(1-λ)|Yf,l(k)|2,l=0,...,2L-1
其中λ可取0.9,μ可取0.008。
参见图7,S44中的串换自适应噪声消除处理的具体实现步骤如下:
S441、根据第一语音成分信号,分别设定第一滤波系数W1与第二滤波系数W2的初始值:
W1(0)=[0,...,0]T,GradE1old(0)=[0,...,0]T,e1(0)=[0L]
W2(0)=[0,...,0]T,GradE2old(0)=[0,...,0]T
G(0)=[0,...,0]T,P1(0)=P2(0)=delta,
其中delta是一个较小的正常数值,delta可取0.0001。
S442、取连续两帧的第一语音成分信号以对角矩阵的形式进行傅里叶变换,得到第一语音成分频域信号:
X2(k)=diag{FFT(e1(kL-L),...,e1(kL),...,e1(kL+L-1))T}
S443、将与第一语音成分信号相同帧的噪声成分信号eb(k)减去反傅里叶变换后的与第二滤波系数W2(k)相乘后的第一语音成分频域信号X2(k),在反傅里叶变换中取其中后L个点作为有效点,将前L个点设为0,得出噪声成分减弱信号e2:
e2(k)=eb(k)-K·IFFT(X2(k)W2(k))
S444、根据与第二滤波系数相乘后的第一语音成分频域信号和噪声成分减弱信号更新第二滤波系数,方法如下:
E2(k)=FFT(KTe2(k))
P2(k)=λP2(k-1)+(1-λ)|Xr(k)|2
G(k)=W1(k)W2(k)
W2(k+1)=W2(k)+2μ1GradE2old(k)
S445、取连续两帧的噪声成分减弱信号以对角矩阵的形式进行傅里叶变换,得到噪声成分减弱频域信号:
X1(k)=diag{FFT(e2(kL-L),...,e2(kL),...,e2(kL+L-1))T}
S446、将与噪声成分减弱信号相同帧的增强目标语音信号减去反傅里叶变换后的与第一滤波系数W1相乘后的噪声成分减弱频域信号,反傅里叶变换中取其中后L个点作为有效点,得出第一语音成分信号e1:
e1(k)=yf(k)-前L个点{K·IFFT(X1(k)W1(k))}
S447、根据噪声成分减弱频域信号和第一语音成分信号更新第一滤波系数,方法如下:
E1(k)=FFT(KT[0L e1(k)])
P1(k)=λ1P1(k-1)+(1-λ1)|X1(k)|2
W1(k+1)=W1(k)+2μ1GradE1old(k)
其中步骤S444与步骤S447中的λ1可取0.77,μ1可取0.001。
参见图9,S5中的后置滤波处理包括以下步骤:
S51、平滑处理经傅里叶变换后的某一帧的第一语音成分信号与噪声成分信号,得到第一语音成分频域信号与噪声成分频域信号,其中以帧长256和50%重叠进行傅里叶变换;
S52、通过IMCRA方法分别估计第一语音成分频域信号与噪声成分频域信号的拟平稳噪声能量的大小,分别为ME(k,l)和MU(k,l);
S53、根据第一语音成分频域信号、噪声成分频域信号以及拟平稳噪声能量的大小,计算语音信号不存在概率变量:
S54、比较语音信号不存在概率变量的值与预设值的大小,得到语音信号不存在概率q(k,l),方法如下:
其中∧0=1.67,∧1=1.81,γlow=1,γhigh=4.6,Ωlow=1,Ωhigh=3。
S55、根据第一语音成分频域信号的绝对值的平方除以噪声估计值得到后验信噪比ω;
S56、根据后验信噪比与前一帧的增益系数计算得到先验信噪比,其中增益系数根据后验信噪比与先验信噪比得到;
S57、根据先验信噪比的与后验信噪比的乘积得到噪声衰减因子ν;
S58、根据噪声衰减因子、后验信噪比与语音信号不存在概率计算得到语音信号存在概率p(k,l):
其中GH1(0,l)=1,λd(0,l)=|E(0,l)|2,ω(0,l)=1
S59、根据语音信号存在概率与第一语音成分频域信号更新噪声估计值λ:
αd=αd0+(1-αd0)p(k,l)
λd(k+1,l)=αdλd(k,l)+β(1-αd)|E(k,l)|2
其中αd0=0.85,β=1.47
S510、根据第一语音成分频域信号与增益系数G相乘并傅里叶后得到第二语音成分信号e3。
参见图10,S6中的增益控制处理包括以下步骤:
S61、将所述第二语音成分信号线性放大;
S62、将经线性放大后的第二语音成分信号进行动态范围控制处理(即DRC处理),得到第三语音成分信号e4。
在步骤S62中DRC处理种设定噪声门限为-50dB,拉伸门限设为-42dB,压缩门限设为-32dB,限制门限-15dB,最大增益设为9dB,最小增益设为-2dB。
通过自动增益控制将远距离接收的语音信号中的音量较小的部分放大便于识别引擎进行识别。
本发明的处理器,用于终端,处理器内包括处理器和存储介质,处理器用于执行存储介质内的程序时实现上述拾音方法的步骤。
本发明的存储介质,存储介质内存储有程序,程序被执行时实现上述拾音方法的步骤。
最后需要强调的是,本发明不限于上述实施方式,以上所述仅为发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神与原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.用于远距离语音识别的麦克风阵列拾音方法,其特征在于,包括:
通过至少两个麦克风分别接收两个目标语音信号;
对两个所述目标语音信号进行时延补偿处理;
对所述时延补偿处理后的两个所述目标语音信号进行增益补偿处理;
对所述增益补偿处理后的两个所述目标语音信号进行波束成形处理,得到第一语音成分信号和噪声成分信号;
根据所述噪声成分信号对所述第一语音成分信号进行后置滤波处理,得到第二语音成分信号;
对所述第二语音成分信号进行增益控制处理,得到第三语音信号,
所述波束成形处理包括:
根据两个所述目标语音信号求平均并得到增强目标语音信号;
根据两个所述目标语音信号求差并得到减弱目标语音信号;
根据所述增强目标语音信号对所述减弱目标语音信号进行自适应阻塞对角矩阵算法处理,并得到所述噪声成分信号;
根据所述减弱目标语音信号对所述增强目标语音信号进行串换自适应噪声消除处理,并得到所述第一语音成分信号。
2.根据权利要求1所述的拾音方法,其特征在于:
所述自适应阻塞对角矩阵算法处理包括:
取连续两帧的所述增强目标语音信号以对角矩阵的形式进行短时傅里叶变换,得到增强目标语音频域信号;
将所述增强目标语音频域信号与频域滤波系数相乘并得到滤波后的所述增强目标语音频域信号;
将与所述增强目标语音信号相同帧的所述减弱目标语音信号减去反傅里叶变换后的滤波后的所述增强目标语音频域信号,得出所述噪声成分信号;
根据滤波后的所述增强目标语音频域信号和所述噪声成分信号更新所述频域滤波系数。
3.根据权利要求2所述的拾音方法,其特征在于:
所述串换自适应噪声消除处理包括:
根据所述第一语音成分信号,分别设定第一滤波系数与第二滤波系数的初始值;
取连续两帧的所述第一语音成分信号以对角矩阵的形式进行傅里叶变换,得到第一语音成分频域信号;
将与所述第一语音成分信号相同帧的所述噪声成分信号减去反傅里叶变换后的与所述第二滤波系数相乘后的所述第一语音成分频域信号,得出噪声成分减弱信号;
根据与所述第二滤波系数相乘后的所述第一语音成分频域信号和所述噪声成分减弱信号更新所述第二滤波系数;
取连续两帧的所述噪声成分减弱信号以对角矩阵的形式进行傅里叶变换,得到噪声成分减弱频域信号;
将与所述噪声成分减弱信号相同帧的所述增强目标语音信号减去反傅里叶变换后的与所述第一滤波系数相乘后的所述噪声成分减弱频域信号,得出所述第一语音成分信号;
根据所述第一语音成分频域信号和所述噪声成分减弱信号更新所述第一滤波系数。
4.根据权利要求1所述的拾音方法,其特征在于:
所述后置滤波处理包括:
平滑处理经傅里叶变换后的某一帧的所述第一语音成分信号与所述噪声成分信号,得到第一语音成分频域信号与噪声成分频域信号;
通过IMCRA方法分别估计所述第一语音成分频域信号与所述噪声成分频域信号的拟平稳噪声能量的大小;
根据所述第一语音成分频域信号、所述噪声成分频域信号以及所述拟平稳噪声能量的大小,计算语音信号不存在概率变量;
比较语音信号不存在概率变量的值与预设值的大小,得到语音信号不存在概率;
根据所述第一语音成分频域信号的绝对值的平方除以噪声估计值得到后验信噪比;
根据所述后验信噪比与前一帧的增益系数计算得到先验信噪比,其中所述增益系数根据所述后验信噪比与所述先验信噪比得到;
根据所述先验信噪比的与所述后验信噪比的乘积得到噪声衰减因子;
根据所述噪声衰减因子、所述后验信噪比与所述语音信号不存在概率计算得到所述语音信号存在概率;
根据所述语音信号存在概率与所述第一语音成分频域信号更新所述噪声估计值;
根据所述第一语音成分频域信号与所述增益系数相乘并傅里叶后得到所述第二语音成分信号。
5.根据权利要求1所述的拾音方法,其特征在于:
所述时延补偿处理包括:
选择其一所述目标语音信号作为参考目标语音信号;
根据所述参考目标语音信号与其他所述目标语音信号的间距、所述目标语音信号相对所述参考目标语音信号的方向以及声音传播速度计算其一所述目标语音信号相对于所述参考目标语音信号的延时;
根据所述延时与采样率,对其他所述目标语音信号进行样条插值处理得到时延补偿后的目标语音信号。
6.根据权利要求1所述的拾音方法,其特征在于:所述增益补偿处理包括:
根据Bark频率尺度进行重分组短时傅里叶变换后的时延补偿后的所述目标语音信号得到所述目标语音信号的频域数据;
计算重分组后的频域数据的每一组的平均能量以其对应组的平均能量;
平方每一组所述频域数据的平均能量与其对应组的平均能量的比值,得到增益补偿因子;
反傅里叶所述增益补偿因子与所述对应组的所述频域数据的乘积得到增益补偿后的目标语音信号。
7.根据权利要求1所述的拾音方法,其特征在于:所述增益控制处理包括:
将所述第二语音成分信号线性放大;
将经线性放大后的所述第二语音成分信号进行动态范围控制处理,得到所述第三语音成分信号。
8.处理器,用于终端,其特征在于:
包括处理器和存储介质,所述处理器用于执行所述存储介质内的程序时实现如权利要求1-7中任意一项所述方法的步骤。
9.存储介质,所述存储介质存储有程序,其特征在于:
所述程序被执行时实现如权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710704441.3A CN107301869B (zh) | 2017-08-17 | 2017-08-17 | 麦克风阵列拾音方法、处理器及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710704441.3A CN107301869B (zh) | 2017-08-17 | 2017-08-17 | 麦克风阵列拾音方法、处理器及其存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107301869A CN107301869A (zh) | 2017-10-27 |
CN107301869B true CN107301869B (zh) | 2021-01-29 |
Family
ID=60131942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710704441.3A Active CN107301869B (zh) | 2017-08-17 | 2017-08-17 | 麦克风阵列拾音方法、处理器及其存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107301869B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182948B (zh) * | 2017-11-20 | 2021-08-20 | 云知声智能科技股份有限公司 | 可提高语音识别率的语音采集处理方法及装置 |
CN108376548B (zh) * | 2018-01-16 | 2020-12-08 | 厦门亿联网络技术股份有限公司 | 一种基于麦克风阵列的回声消除方法与系统 |
CN108717495A (zh) * | 2018-05-22 | 2018-10-30 | 出门问问信息科技有限公司 | 多波束波束成形的方法、装置及电子设备 |
CN109102822B (zh) * | 2018-07-25 | 2020-07-28 | 出门问问信息科技有限公司 | 一种基于固定波束形成的滤波方法及装置 |
EP3629602A1 (en) * | 2018-09-27 | 2020-04-01 | Oticon A/s | A hearing device and a hearing system comprising a multitude of adaptive two channel beamformers |
US11902758B2 (en) * | 2018-12-21 | 2024-02-13 | Gn Audio A/S | Method of compensating a processed audio signal |
CN110234043B (zh) * | 2019-05-31 | 2020-08-25 | 歌尔科技有限公司 | 基于麦克风阵列的声音信号处理方法、装置及设备 |
CN110335620B (zh) * | 2019-07-08 | 2021-07-27 | 广州欢聊网络科技有限公司 | 一种噪声抑制方法、装置和移动终端 |
CN110364175B (zh) * | 2019-08-20 | 2022-02-18 | 北京凌声芯语音科技有限公司 | 语音增强方法及系统、通话设备 |
CN113035216B (zh) * | 2019-12-24 | 2023-10-13 | 深圳市三诺数字科技有限公司 | 麦克风阵列语音的增强方法、及其相关设备 |
CN113223544B (zh) * | 2020-01-21 | 2024-04-02 | 珠海市煊扬科技有限公司 | 音频的方向定位侦测装置及方法以及音频处理系统 |
CN111048106B (zh) * | 2020-03-12 | 2020-06-16 | 深圳市友杰智新科技有限公司 | 基于双麦克风的拾音方法、装置和计算机设备 |
CN111968659B (zh) * | 2020-07-23 | 2023-10-31 | 天津大学 | 一种基于优化imcra的麦克风阵列语音增强方法 |
CN112735461B (zh) * | 2020-12-29 | 2024-06-07 | 西安讯飞超脑信息科技有限公司 | 拾音方法以及相关装置、设备 |
CN113409811B (zh) * | 2021-06-01 | 2023-01-20 | 歌尔股份有限公司 | 声音信号处理方法、设备和计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1640971A1 (en) * | 2004-09-23 | 2006-03-29 | Harman Becker Automotive Systems GmbH | Multi-channel adaptive speech signal processing with noise reduction |
CN101076007A (zh) * | 2007-06-19 | 2007-11-21 | 北京邮电大学 | 用于wcdma直放站系统的在频域实现的干扰抵消方法 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
CN102461203A (zh) * | 2009-06-09 | 2012-05-16 | 高通股份有限公司 | 用于对多信道信号进行基于相位的处理的系统、方法、设备及计算机可读媒体 |
CN105356861A (zh) * | 2015-09-28 | 2016-02-24 | 歌尔声学股份有限公司 | 一种有源降噪的方法和系统 |
CN105575397A (zh) * | 2014-10-08 | 2016-05-11 | 展讯通信(上海)有限公司 | 语音降噪方法及语音采集设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1923866B1 (en) * | 2005-08-11 | 2014-01-01 | Asahi Kasei Kabushiki Kaisha | Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program |
CN102664023A (zh) * | 2012-04-26 | 2012-09-12 | 南京邮电大学 | 一种麦克风阵列语音增强的优化方法 |
EP3462452A1 (en) * | 2012-08-24 | 2019-04-03 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
CN102938254B (zh) * | 2012-10-24 | 2014-12-10 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
US9990939B2 (en) * | 2014-05-19 | 2018-06-05 | Nuance Communications, Inc. | Methods and apparatus for broadened beamwidth beamforming and postfiltering |
CN106782595B (zh) * | 2016-12-26 | 2020-06-09 | 云知声(上海)智能科技有限公司 | 一种降低语音泄露的鲁棒阻塞矩阵方法 |
-
2017
- 2017-08-17 CN CN201710704441.3A patent/CN107301869B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1640971A1 (en) * | 2004-09-23 | 2006-03-29 | Harman Becker Automotive Systems GmbH | Multi-channel adaptive speech signal processing with noise reduction |
CN101076007A (zh) * | 2007-06-19 | 2007-11-21 | 北京邮电大学 | 用于wcdma直放站系统的在频域实现的干扰抵消方法 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN102461203A (zh) * | 2009-06-09 | 2012-05-16 | 高通股份有限公司 | 用于对多信道信号进行基于相位的处理的系统、方法、设备及计算机可读媒体 |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
CN105575397A (zh) * | 2014-10-08 | 2016-05-11 | 展讯通信(上海)有限公司 | 语音降噪方法及语音采集设备 |
CN105356861A (zh) * | 2015-09-28 | 2016-02-24 | 歌尔声学股份有限公司 | 一种有源降噪的方法和系统 |
Non-Patent Citations (1)
Title |
---|
"Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging";Israel Cohen;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;20030930;第11卷(第5期);第467页-第470页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107301869A (zh) | 2017-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301869B (zh) | 麦克风阵列拾音方法、处理器及其存储介质 | |
CN107742522B (zh) | 基于麦克风阵列的目标语音获取方法及装置 | |
CN109727604A (zh) | 用于语音识别前端的频域回声消除方法及计算机储存介质 | |
US20090279715A1 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
US9036829B2 (en) | Adaptive notch filter with variable bandwidth, and method and apparatus for canceling howling by using the adaptive notch filter with variable bandwidth | |
CN111768796A (zh) | 一种声学回波消除与去混响方法及装置 | |
CN110211602B (zh) | 智能语音增强通信方法及装置 | |
US20220223166A1 (en) | Voice signal processing method and device, apparatus, and readable storage medium | |
US20160073209A1 (en) | Maintaining spatial stability utilizing common gain coefficient | |
US20150294667A1 (en) | Noise cancellation apparatus and method | |
US9570088B2 (en) | Signal processor and method therefor | |
US20130301841A1 (en) | Audio processing device, audio processing method and program | |
US20160150317A1 (en) | Sound field spatial stabilizer with structured noise compensation | |
CN105895084B (zh) | 一种应用于语音识别的信号增益方法和装置 | |
CN116434765A (zh) | 一种基于半二次准则的频域样条自适应回声消除的方法 | |
KR101418023B1 (ko) | 위상정보를 이용한 자동 이득 조절 장치 및 방법 | |
CN111210836B (zh) | 一种麦克风阵列波束形成动态调整方法 | |
WO2020203258A1 (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
KR102685400B1 (ko) | 에코 제거 방법、 장치 및 전자 장비 | |
EP2816818A1 (en) | Sound field spatial stabilizer with echo spectral coherence compensation | |
Wang et al. | A robust generalized sidelobe canceller controlled by a priori sir estimate | |
CN116887160B (zh) | 基于神经网络的数字助听器啸叫抑制方法及系统 | |
EP2816817B1 (en) | Sound field spatial stabilizer with spectral coherence compensation | |
CN113421541B (zh) | 一种基于系数平滑的频域有源噪声控制系统 | |
CN113409812B (zh) | 一种语音降噪训练数据的处理方法及其装置、训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |