CN109243476B - 混响语音信号中后混响功率谱的自适应估计方法及装置 - Google Patents
混响语音信号中后混响功率谱的自适应估计方法及装置 Download PDFInfo
- Publication number
- CN109243476B CN109243476B CN201811216983.7A CN201811216983A CN109243476B CN 109243476 B CN109243476 B CN 109243476B CN 201811216983 A CN201811216983 A CN 201811216983A CN 109243476 B CN109243476 B CN 109243476B
- Authority
- CN
- China
- Prior art keywords
- sub
- band
- frame
- reverberation
- power spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 353
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 161
- 238000012545 processing Methods 0.000 claims abstract description 102
- 238000001914 filtration Methods 0.000 claims description 108
- 230000004044 response Effects 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 34
- 230000003595 spectral effect Effects 0.000 claims description 34
- 230000003044 adaptive effect Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 11
- 238000003491 array Methods 0.000 claims description 10
- 230000003111 delayed effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000001629 suppression Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000010454 slate Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002401 inhibitory effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提供了一种混响语音信号中后混响功率谱的自适应估计方法及装置,涉及语音信号处理领域。该混响语音信号中后混响功率谱的自适应估计方法,包括:获取麦克风拾取的混响语音信号的子带自功率谱的估计;获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。上述方案,通过利用延时的线性预测DLP预测系数矢量来进行后混响子带自功率谱估计的获取,可以保证语音信号去混响的有效性,降低了去混响的难度,提高了去混响的效率。
Description
技术领域
本发明涉及语音信号处理领域,特别涉及一种混响语音信号中后混响功率谱的自适应估计方法及装置。
背景技术
在远场情况下,室内麦克风拾取的语音信号,由于不可避免地受到来自于室内墙壁、顶部天花板和其它障碍物反射信号的干扰,因而会发生线性奇变。这种奇变通常称之为混响,它将退化语音的保真度和可懂度,使得语音通信系统和语音自动识别系统的性能下降;并且,这种退化程度随着声源和麦克风间距离的增加而增大。混响通常由早期混响(即前混响,包含直达声成分)和后期混响(即后混响)组成,业已证明,前者实际上有益于改善语音的可懂度和噪声环境中的信噪比(Signal to Noise Ratio,SNR),而后者则加长了声源语音信号音素的长度,由此重叠屏蔽了其后续的音素,从而降低了语音的可懂度。
现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源的问题。
发明内容
本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法及装置,以解决现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源,不能有效保证语音信号去混响的问题。
为了解决上述技术问题,本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法,包括:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述获取麦克风拾取的混响语音信号的子带自功率谱的估计,包括:
其中,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量,包括:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计,包括:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述获取麦克风拾取的混响语音信号的子带自功率谱的估计,包括:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱,包括:
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;t为信号帧的时间索引,k为子带索引。
进一步地,所述根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计,包括:
其中,为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量,包括:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述根据所述子带自功率谱的估计和DLP预测系数,获取后混响子带自功率谱估计,包括:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其中,所述处理器执行所述计算机程序时实现以下步骤:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述处理器执行所述计算机程序时实现以下步骤:
其中,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述处理器执行所述计算机程序时实现以下步骤:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
其中,为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述的混响语音信号中后混响功率谱的自适应估计方法。
本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置,包括:
第一获取模块,用于获取麦克风拾取的混响语音信号的子带自功率谱的估计;
第二获取模块,用于获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
第三获取模块,用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述第一获取模块,用于:
其中,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取模块,用于:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述第三获取模块,用于:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述第一获取模块,包括:
第一获取单元,用于获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
第二获取单元,用于根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述第一获取单元,用于:
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取单元,用于:
其中,为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取模块,用于:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述第三获取模块,用于:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
本发明的有益效果是:
上述方案,通过利用延时的线性预测DLP预测系数矢量来进行后混响子带自功率谱估计的获取,可以保证语音信号去混响的有效性,降低了去混响的难度,提高了去混响的效率。
附图说明
图1表示应用DLP来自适应估计后混响信号子带自功率谱的原理框图;
图2表示基于单麦克风的混响语音信号中后混响成分抑制方法的算法流程图;
图3表示基于麦克风阵列的混响语音信号中后混响成分抑制方法的原理框图;
图4表示基于麦克风阵列的混响语音信号中后混响成分抑制方法的算法流程图;
图5表示本发明实施例的混响语音信号中后混响功率谱的自适应估计方法的流程示意图;
图6表示本发明实施例的混响语音信号中后混响功率谱的自适应估计装置的模块示意图;
图7表示本发明实施例的混响语音信号中后混响功率谱的自适应估计装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
目前,语音信号去混响技术大致有三大类,第一类是采用麦克风阵列处理技术,该技术首先估计声源相对麦克风阵列的方位(Direction of Arrival,DOA),通过控制麦克风阵列的方向性来增强来自声源方向的直达信号成分,并减小和消除来自其它方向的声源反射信号成分,从而达到去混响的目的;为了获得令人满意的去混响效果,该技术通常需要大量数目的麦克风,以便阵列获得充分的方向性增益。第二类去混响技术则是在频域对后混响信号进行抑制处理的方法,该方法首先估计出工作环境的混响时间参数(RT60),并据此估计出后混响信号的功率谱,然后应用噪声抑制中的谱减法对后混响信号进行抑制处理;尽管该技术不涉及信号的相位信息而使其处理性能具有较好的鲁棒性,但由于目前尚缺乏关于工作环境中与频率关联的混响时间参数(RT60)的高精度实时估计算法,故该技术的去混响性能受限。第三类去混响技术则是基于逆滤波的思想,其目标是估计出引发混响的室内冲激响应(Room Impulse Response,RIR)的逆滤波器,用其对混响语音信号进行滤波处理以恢复源信号;在声源到麦克风的室内传递函数(Room Transfer Function,RTF)已知的情况下,用RTF的逆滤波器可以从观测的混响信号中精确地恢复出其源信号;业已证明:在麦克风数目大于已激活的声源数目、并且每个声源到每个麦克风的RTF不存在共同的零点的条件下,上述功能的逆滤波器解是存在的。然而在实际应用中,RTF(或其等效的逆滤波器)是时变的、未知的,需要从已获的观测数据中估计出。为此,大量学者致力于该领域的探索和研究,提出了许多方法,最为引人注目的便是基于延时的线性预测(Delayed LinearPrediction,DLP)的后混响抑制技术,该技术能有效地抑制后混响成分而未明显地损伤语音的短时相关性,但它要求DLP的滤波器阶数很高(滤波器通常有数千个系数),因而需要很长的观测数据,由此导致该技术具有很高的计算负荷,难以在商用的数字信号处理器(Digital Signal Processor,DSP)芯片上实时实现。此外,人们还提出将时变语音信号源模型与多声道线性预测相结合来进行去混响的方法,该方法可以基于较短的观测数据有效地抑制后混响,而且对前混响也有抑制的效果;但它固有的计算复杂度致使其无法在实际中应用。最近,人们将基于DLP的去混响技术拓展到处理时变语音信号的场景,提出了一种称之为方差归一化延时的线性预测(NDLP)去混响技术,NDLP的频域实现即为著名的加权预测误差(Weighted Prediction Error,WPE)去混响算法;尽管WPE性能具有较好的鲁棒性,但它涉及一个高阶观测数据相关矩阵的伪逆运算,因而在商用DSP上实现时通常耗费较多的计算资源。
第一类基于麦克风阵列处理的去混响技术,其性能受限于阵列的麦克风数目,要获得令人满意的去混响结果,势必需要大量的麦克风,这便导致实际产品的成本提高和结构设计的困难增加。第二类在频域对后混响信号进行抑制处理的去混响技术需要首先估计出工作环境的混响时间参数(RT60),但由于目前尚缺乏关于工作环境中与频率关联的混响时间参数(RT60)的高精度实时估计算法,故该技术的去混响性能受限。第三类基于逆滤波思想的去混响技术中能实际应用的WPE方法涉及一个高阶观测数据相关矩阵的伪逆运算,因而在商用DSP上实现时通常耗费较多的计算资源。
本发明将DLP的思想拓展到子带功率谱域,提出一种关于后混响自功率谱的低复杂度、实时在线自适应估计方法,根据这一后混响自功率谱的估计和观测信号的子带谱,应用决策-引导(Decision-Directed,DD)递归平滑技术,来计算先验SNR,并据此计算抑制后混响成分的子带增益函数,用之来修正观测信号子带谱,从而达到抑制后混响成分的目的。
本发明针对现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源,不能有效保证语音信号去混响的问题,提供一种混响语音信号中后混响功率谱的自适应估计方法及装置。
下面对本发明实施例的实现原理进行说明如下。
本发明实施例中,首先从单声道(即单麦克风)场景出发,给出一种基于单麦克风的后混响成分的抑制方法,然后推广到麦克风阵列应用场景。
一、基于单麦克风的混响语音信号中后混响成分的抑制方法
设有声源到麦克风的室内冲激响应为h(n),声源信号为s(n),麦克风获取的混响语音信号为x(n),那么x(n)可用下述数学公式一来表述:
公式一、
其中,R为室内冲击响应的长度,Dc为前混响和后混响区分的临界点,searly(n)为包含直达声源信号的前混响信号,slate(n)为后混响信号,searly(n)和slate(n)分别由下式定义:
应用分析滤波器组(Analysis Filter Bank,AFB)对公式一两边进行子带变换(短时傅里叶变换可以看作是子带变换的一种特例)可得:
公式四、
其中X(t,k)、S(t,k)、H(t,k)、Searly(t,k)和Slate(t,k)分别为数字信号x(n)、s(n)、h(n)、searly(n)和slate(n)的子带变换,N为子带变换的信号帧长度,t为信号帧的时间索引,k为子带索引,n为数字信号的样本时间索引。
假设,相邻帧子带信号间的自相关性较低,那么子带谱信号X(t,k)对应的子带自功率谱可表述为:
采用延时的线性预测(DLP)表述法,公式五可以表示成:
公式六表明:在子带功率谱域,采用DLP技术可以预测估计出后混响信号的子带自功率谱,其预测估计的残差便是与后混响信号不相关的有用的前混响信号的子带自功率谱,因而一定是非负的。为将这一约束条件集成到DLP的预测系数求解中,我们来定义代价函数和惩罚函数分别为:
其中,Ek(t)用公式九表示为:
根据公式七、八和十三得到:
其中,μ和β为正常数,且0<μ(1+β)<2,Ek(t)为公式九定义的预测误差。
应用DLP来自适应估计后混响信号子带自功率谱的原理框图如图1所示。在实际工程实现上,观测信号子带自功率谱的估计可以用公式十六的时间递归平滑技术来计算,即:
这里0<λ<1为预设的平滑常数。那么,后混响信号子带自功率谱的估计为:
既然自适应滤波器可获得DLP系数矢量,根据公式十七我们即可获得后混响信号子带自功率谱的估计,那么应用谱减法技术来进行后混响信号的抑制便是很自然的事;为此,我们分别用公式十八和公式十九定义子带先验信噪比ξ(t,k)和后验信噪比η(t,k)如下:
相应地,根据Wiener滤波理论,我们可得后混响信号抑制的子带增益函数G(t,k)用公式二十一表示为:
用公式二十一计算的抑制增益来修正观测信号的子带谱,即获得前混响信号子带谱的一个有效估计为:
注意到公式二十中第一项可以等效为:
将公式二十三代入公式二十可得:
公式二十四、
上述方案,首先提出了一种基于单麦克风的混响语音信号中后混响成分抑制的子带域方法,具体表述为:在子带功率谱域,提出了一种带约束的NLMS自适应算法,用来学习更新DLP滤波器系数矢量,并据此获得后混响信号的子带自功率谱估计;根据后混响信号的子带功率谱估计和麦克风观测信号子带谱,应用DD技术来计算相应的先验信噪比估计值,进而求得用于后混响抑制的子带增益函数;用该子带增益函数来修正麦克风观测信号子带谱,从而获得目标信号的子带谱。
综上所述,基于单麦克风的混响语音信号中后混响成分抑制方法的算法流程图如图2所示,具体实现过程为:
首先,初始化算法相关的参数和变量,设置信号帧序号t=0;读取第t帧麦克风拾取的观测数据,并应用AFB对读取的第t帧观测数据进行子带变换,获取相应的子带谱X(t,k);根据公式九和公式十五至十七估计后混响信号子带自功率谱;根据公式二十四和公式二十一计算用于后混响信号抑制的子带抑制增益函数G(t,k);根据公式二十二计算目标信号的子带谱估计,并用SFB将目标子带谱变换为时域的目标语音信号并予以输出;判断处理过程是否结束,在处理过程未结束时,执行t=t+1,然后依次执行上述步骤,直到处理过程结束,结束处理流程。
二、基于麦克风阵列的混响语音信号中后混响成分的抑制方法
设室内有一个声源和一个由M个麦克风组成的阵列,记第m个麦克风拾取的观测语音信号为xm(n),m=1,2,...,M。那么,首先对麦克风阵列输入信号进行空间滤波预处理,然后对预处理的单声道输出信号,应用上面叙述中提出的方法对其中后混响成分进行抑制处理,从而获得增强处理后的子带谱
首先,应用AFB对M个麦克风阵列的时域输入数字信号{xm(n),m=1,2,...,M}进行子带变换,相应地获得M个子带信号,它们分别记为Xm(t,k),m=1,2,...,M,这里t为信号帧时间索引,k为子带索引。不失一般性,假设第r个麦克风为参考麦克风,那么以参考麦克风子带信号的相位为基准,将其它所有麦克风子带信号的相位与之做同步处理,则得:
对公式二十五定义的M个声道的子带信号作如下的空间平均处理,便获得空间滤波单声道输出的子带信号Y(t,k),即:
公式二十五和公式二十六实际上是传统的“延时-相加”波束赋型器在子带域的一种实现形式,业已证明这种空间处理器具有因不同声道间空间相关性所引发的信号畸变的缺陷。为此,我们对公式二十五定义的M个声道的子带信号作如下的空间处理,便获得空间滤波单声道输出的子带信号Z(t,k)为:
事实上,公式二十五和公式二十七在子带域定义的这种波束赋型器,其方向模式(directivity pattern)等同于传统的“延时-相加”波束赋型器,但由于公式二十七式中采用了麦克风接收信号的功率谱空间平均,而不是像公式二十六式中所采用(复数)频谱的空间平均,因而避免了“延时-相加”波束赋型器的空间相关性所引发的信号畸变的缺陷。
应用上面介绍的基于单麦克风混响语音信号中后混响成分抑制方法,对上述波束赋型器输出的子带信号Z(t,k)进行处理,便可获得去混响的目标子带信号再应用SFB对目标子带信号进行子带反变换,即得时域目标信号基于麦克风阵列的混响语音信号中后混响成分抑制方法的原理框图如图3所示,其中,子带自功率谱计算器按下述公式二十八估计空间滤波器输出子带信号Z(t,k)的自功率谱:
而基于DLP后混响子带自功率谱估计器计算出子带信号Z(t,k)中的后混响子带自功率谱估计为:
公式三十二、
其中,0<μ(1+β)<2。
公式三十四、
用G(t,k)修正Z(t,k)的如下的目标子带信号的估计为:
上述方案为应用于麦克风阵列的后处理,提出的一种基于麦克风阵列的混响语音信号中后混响成分抑制的子带域方法。该方法首先在子带域,对麦克风阵列获取的观测信号子带谱,定义一种新的波束赋型器对其做空间预处理器,从而降低子带谱的偏差;然后对空间预处理器的输出子带谱信号应用基于单麦克风的情况中提出的方法进行后处理,因而获得最终的目标语音信号,从而完成去混响的任务;此种在子带域上实现的新型波束赋型器,其方向模式等同于传统的“延时-相加”波束赋型器,并降低了子带谱信号的偏差,但它克服了传统的“延时-相加”波束赋型器因不同声道间的空间相关性而引发的信号畸变的缺陷,从而确保基于单麦克风所提的方法用作麦克风阵列后处理器的运行环境。
基于麦克风阵列的混响语音信号中后混响成分抑制方法的算法流程图如图4所示,其具体实现过程为:
首先,初始化算法相关的参数和变量,设置信号帧序号t=0;读取第t帧M组麦克风拾取的观测数据,并应用AFB对读取的第t帧观测数据进行子带变换,获取M组相应的子带谱;根据公式二十五和公式二十七对M组麦克风信号子带谱进行相位同步和空间滤波处理,获取子带谱Z(t,k);根据公式二十八至三十五计算用于后混响信号抑制的子带抑制增益函数G(t,k);根据公式三十六计算目标信号的子带谱估计,并用SFB将目标子带谱变换为时域的目标语音信号并予以输出;判断处理过程是否结束,在处理过程未结束时,执行t=t+1,然后依次执行上述步骤,直到处理过程结束,结束处理流程。
下面对本发明实施例的具体实现过程说明如下。
如图5所示,本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法,包括:
步骤51,获取麦克风拾取的混响语音信号的子带自功率谱的估计;
步骤52,获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
步骤53,根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
一、当所述麦克风为单麦克风时
具体地,所述步骤51的实现方式为:
其中,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
具体地,所述步骤52的实现方式为:
根据上述的公式十五:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
具体地,所述步骤53的实现过程为:
根据上述的公式十七:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
二、当所述麦克风为麦克风阵列时,
具体地,所述步骤51的实现方式为:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱,包括:
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;t为信号帧的时间索引,k为子带索引。
进一步地,所述根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计,包括:
其中,为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
具体地,所述步骤52的实现方式为:
根据上述的公式三十二:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
具体地,所述步骤53的实现过程为:
根据上述的公式二十九:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
需要说明的是,本发明提出的这种混响语音信号中后混响功率谱的自适应估计方法,降低了去混响的难度,提高了去混响的效率,与现有传统方法相比,它具有更好的鲁棒性、更低的算法复杂度,便于在实际中实时在线实现。
如图6所示,本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置,包括:
第一获取模块61,用于获取麦克风拾取的混响语音信号的子带自功率谱的估计;
第二获取模块62,用于获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
第三获取模块63,用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述第一获取模块61,用于:
其中,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取模块62,用于:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述第三获取模块63,用于:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述第一获取模块61,包括:
第一获取单元,用于获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
第二获取单元,用于根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述第一获取单元,用于:
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取单元,用于:
其中,为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述第二获取模块62,用于:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述第三获取模块63,用于:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
需要说明的是,该装置的实施例是与上述方法实施例一一对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
如图7所示,本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置,包括存储器71、处理器72及存储在所述存储器71上并可在所述处理器上运行的计算机程序,且所述存储器71通过总线接口73与所述处理器72连接;其中,所述处理器72执行所述计算机程序时实现以下步骤:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计。
可选地,当所述麦克风为单麦克风时,所述处理器72执行所述计算机程序时实现以下步骤:
其中,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计;X(t,k)为第t帧第k个子带的混响语音信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的混响语音信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
可选地,当所述麦克风为麦克风阵列时,所述处理器72执行所述计算机程序时实现以下步骤:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
其中,Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;Xr(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱;M为麦克风阵列的总个数;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
其中,为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计;λ为预设的平滑常数,且0<λ<1;Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱;t为信号帧的时间索引,k为子带索引。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
进一步地,所述处理器72执行所述计算机程序时实现以下步骤:
其中,为后混响子带自功率谱估计;为第t帧子带k上的DLP预测系数矢量,且Wτ(t,k)为第t帧第k个子带的DLP第τ个预测系数,τ=0,1,2,...,Q-1,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量, 为第t-τ-Ds帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的混响语音信号中后混响功率谱的自适应估计方法。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。
Claims (22)
1.一种混响语音信号中后混响功率谱的自适应估计方法,其特征在于,包括:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计;
其中,所述获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量,包括:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且 为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符;其中,在麦克风为单麦克风时,用表示,用表示,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;在麦克风为麦克风阵列时,用表示,用表示,为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计。
3.根据权利要求2所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,所述根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计,包括:
4.根据权利要求1所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,当所述麦克风为麦克风阵列时,所述获取麦克风拾取的混响语音信号的子带自功率谱的估计,包括:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
7.根据权利要求4所述的混响语音信号中后混响功率谱的自适应估计方法,其特征在于,所述根据所述子带自功率谱的估计和DLP预测系数,获取后混响子带自功率谱估计,包括:
8.一种混响语音信号中后混响功率谱的自适应估计装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取麦克风拾取的混响语音信号的子带自功率谱的估计;
获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计;
其中,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且 为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符;其中,在麦克风为单麦克风时,用表示,用表示,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;在麦克风为麦克风阵列时,用表示,用表示,为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计。
10.根据权利要求9所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
11.根据权利要求8所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,当所述麦克风为麦克风阵列时,所述处理器执行所述计算机程序时实现以下步骤:
获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
14.根据权利要求11所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的混响语音信号中后混响功率谱的自适应估计方法。
16.一种混响语音信号中后混响功率谱的自适应估计装置,其特征在于,包括:
第一获取模块,用于获取麦克风拾取的混响语音信号的子带自功率谱的估计;
第二获取模块,用于获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量;
第三获取模块,用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量,获取后混响子带自功率谱估计;
其中,所述第二获取模块,用于:
根据公式:
其中,为第t+1帧子带k上的DLP预测系数矢量;为第t帧子带k上的DLP预测系数矢量,且 为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量,Q为DLP的系数个数,且Q=Rs-Ds,R为室内冲击响应的长度,N为子带变换的语音信号帧的长度,Dc为前混响和后混响区分的临界点;μ和β为正常数,且0<μ(1+β)<2;Ek(t)为预测误差,且 为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计;t为信号帧的时间索引,k为子带索引,T为矢量的转置运算符;其中,在麦克风为单麦克风时,用表示,用表示,为第t帧第k个子带的混响语音信号的子带自功率谱的估计;在麦克风为麦克风阵列时,用表示,用表示,为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计。
18.根据权利要求17所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述第三获取模块,用于:
19.根据权利要求16所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,当所述麦克风为麦克风阵列时,所述第一获取模块,包括:
第一获取单元,用于获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱;
第二获取单元,用于根据所述单声道输出信号的子带谱,获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。
22.根据权利要求19所述的混响语音信号中后混响功率谱的自适应估计装置,其特征在于,所述第三获取模块,用于:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811216983.7A CN109243476B (zh) | 2018-10-18 | 2018-10-18 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
PCT/CN2019/109285 WO2020078210A1 (zh) | 2018-10-18 | 2019-09-30 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811216983.7A CN109243476B (zh) | 2018-10-18 | 2018-10-18 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109243476A CN109243476A (zh) | 2019-01-18 |
CN109243476B true CN109243476B (zh) | 2021-09-03 |
Family
ID=65052489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811216983.7A Active CN109243476B (zh) | 2018-10-18 | 2018-10-18 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109243476B (zh) |
WO (1) | WO2020078210A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243476B (zh) * | 2018-10-18 | 2021-09-03 | 电信科学技术研究院有限公司 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
CN111489760B (zh) * | 2020-04-01 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1523573A (zh) * | 2003-09-12 | 2004-08-25 | 中国科学院声学研究所 | 一种采用后置滤波器的多通道语音增强方法 |
CN101908341A (zh) * | 2010-08-05 | 2010-12-08 | 浙江工业大学 | 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法 |
JP4705893B2 (ja) * | 2006-08-10 | 2011-06-22 | Okiセミコンダクタ株式会社 | エコーキャンセラ |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3009121B1 (fr) * | 2013-07-23 | 2017-06-02 | Arkamys | Procede de suppression de la reverberation tardive d'un signal sonore |
CN103440869B (zh) * | 2013-09-03 | 2017-01-18 | 大连理工大学 | 一种音频混响的抑制装置及其抑制方法 |
CN104658543A (zh) * | 2013-11-20 | 2015-05-27 | 大连佑嘉软件科技有限公司 | 一种室内混响消除的方法 |
CN108172231B (zh) * | 2017-12-07 | 2021-07-30 | 中国科学院声学研究所 | 一种基于卡尔曼滤波的去混响方法及系统 |
CN108154885A (zh) * | 2017-12-15 | 2018-06-12 | 重庆邮电大学 | 一种使用qr-rls算法对多通道语音信号去混响方法 |
CN109243476B (zh) * | 2018-10-18 | 2021-09-03 | 电信科学技术研究院有限公司 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
-
2018
- 2018-10-18 CN CN201811216983.7A patent/CN109243476B/zh active Active
-
2019
- 2019-09-30 WO PCT/CN2019/109285 patent/WO2020078210A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1523573A (zh) * | 2003-09-12 | 2004-08-25 | 中国科学院声学研究所 | 一种采用后置滤波器的多通道语音增强方法 |
JP4705893B2 (ja) * | 2006-08-10 | 2011-06-22 | Okiセミコンダクタ株式会社 | エコーキャンセラ |
CN101908341A (zh) * | 2010-08-05 | 2010-12-08 | 浙江工业大学 | 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法 |
Non-Patent Citations (2)
Title |
---|
Speech Dereverberation Based on Variance-Normalized Delayed Linear Prediction;Tomohiro Nakatani等;《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》;20100930;第18卷(第7期);摘要,第Ⅰ节第12段,第Ⅳ节,附图3 * |
Suppression of Late Reverberation Effect on Speech Signal Using Long-Term Multiple-step Linear Prediction;Keisuke Kinoshita等;《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》;20090531;第17卷(第4期);摘要,第Ⅱ-IV节 * |
Also Published As
Publication number | Publication date |
---|---|
CN109243476A (zh) | 2019-01-18 |
WO2020078210A1 (zh) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
CN110100457B (zh) | 基于噪声时变环境的加权预测误差的在线去混响算法 | |
Kinoshita et al. | Neural Network-Based Spectrum Estimation for Online WPE Dereverberation. | |
US8467538B2 (en) | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium | |
CN111415676B (zh) | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 | |
Gannot et al. | Subspace methods for multimicrophone speech dereverberation | |
US8848933B2 (en) | Signal enhancement device, method thereof, program, and recording medium | |
CN109979476B (zh) | 一种语音去混响的方法及装置 | |
CN102739886B (zh) | 基于回声频谱估计和语音存在概率的立体声回声抵消方法 | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
WO2015165539A1 (en) | Signal processing apparatus, method and computer program for dereverberating a number of input audio signals | |
Wang et al. | Mask weighted STFT ratios for relative transfer function estimation and its application to robust ASR | |
CN111312275A (zh) | 一种基于子带分解的在线声源分离增强系统 | |
CN109243476B (zh) | 混响语音信号中后混响功率谱的自适应估计方法及装置 | |
Doclo et al. | Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage | |
Habets et al. | Dereverberation | |
CN114255777A (zh) | 实时语音去混响的混合方法及系统 | |
Kinoshita et al. | Multi-step linear prediction based speech dereverberation in noisy reverberant environment. | |
US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
CN114220453B (zh) | 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 | |
CN113160842A (zh) | 一种基于mclp的语音去混响方法及系统 | |
Aprilyanti et al. | Suppression of noise and late reverberation based on blind signal extraction and Wiener filtering | |
Kim et al. | Online speech dereverberation using RLS-WPE based on a full spatial correlation matrix integrated in a speech enhancement system | |
CN113870884B (zh) | 单麦克风噪声抑制方法和装置 | |
Ali et al. | MWF-based speech dereverberation with a local microphone array and an external microphone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |