CN106448692A - 应用语音存在概率优化的retf混响消除方法及系统 - Google Patents

应用语音存在概率优化的retf混响消除方法及系统 Download PDF

Info

Publication number
CN106448692A
CN106448692A CN201610515529.6A CN201610515529A CN106448692A CN 106448692 A CN106448692 A CN 106448692A CN 201610515529 A CN201610515529 A CN 201610515529A CN 106448692 A CN106448692 A CN 106448692A
Authority
CN
China
Prior art keywords
reverberation
voice signal
voice
frequency
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610515529.6A
Other languages
English (en)
Inventor
李敬源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201610515529.6A priority Critical patent/CN106448692A/zh
Publication of CN106448692A publication Critical patent/CN106448692A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开应用语音存在概率优化的RETF混响消除方法及系统,其中,方法包括步骤:通过应用语音存在概率对噪声和混响进行估计,得到初步混响消除后的语音信号,进一步应用基于语音存在概率计算的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。通过本发明不仅能简化系统,提高系统的运行速度,而且极大地改善了混响消除的效果,提升了语音识别的准确率。

Description

应用语音存在概率优化的RETF混响消除方法及系统
技术领域
本发明涉及语音识别技术领域,尤其涉及应用语音存在概率优化的RETF混响消除方法及系统。
背景技术
随着语音识别技术的广泛使用,产品智能化水平的显著提高,如何让机器更好的听懂人类语言,提高人机交互的流畅性,成为目前人们研究的热点。目前的语音识别系统,只对理想的语音信号识别率较高,对于包含噪声和混响的实时采集语音,识别效果较低。混响是指,在语音采集的过程中,声音在房间中经过墙壁、家具等表面反射,与原始语音一同被麦克风接收得到的信号,在时域和频域范围内由于反射声导致的语音拖尾、混叠现象。
目前一种较好的混响消除算法是应用基于相对早期传递函数的波束成形RETF算法,混响的消除能力较强,能否达到3~5米内的远程拾音的效果。但现有的RETF算法需要对信号进行反复的维纳滤波以估算噪声、传递函数和进行后置滤波,该算法存在大量冗余过程并且其应用的后置维纳滤波效果较差的问题。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供应用语音存在概率优化的RETF混响消除方法及系统,旨在解决现RETF算法存在大量冗余过程并且后置维纳滤波效果较差的问题。
本发明的技术方案如下:
应用语音存在概率优化的RETF混响消除方法,其中,包括步骤:
A、采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波束成形频域系数;
B、采用语音存在概率粗估计算法对语音信号进行类型判断,当判断所述语音信号为语音帧时,则不更新噪声功率谱;当判断所述语音信号为噪声帧时,则更新噪声功率谱,并计算所述语音信号的噪声功率及混响功率;
C、根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期传递函数计算混响噪声合成滤波器的阻塞矩阵和自适应矩阵;
D、根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步混响消除后的语音信号;
E、应用语音存在概率优化的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
较佳地,所述的应用语音存在概率优化的RETF混响消除方法,其中,所述步骤A具体包括:
A1、以第一帧语音信号x1(n)为基准,应用互相关时延估计算法计算每帧语音信号xi(n)与第一帧语音信号x1(n)之间的互相关函数;
A2、根据公式:计算固定波束成形的频域系数h0(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值所在位置对应两帧间的移位距离。
较佳地,所述的应用语音存在概率优化的RETF混响消除方法,其中,所述步骤B具体包括:
B1、在时域和频域范围内对语音信号的功率谱进行平滑,通过公式:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的语音功率谱;其中,所述S(k,j)为所述语音信号第j帧第k频点的语音功率谱,所述a为固定值,所述其中,所述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域在窗口范围w内以权值b(i)计算的平均值;
B2、通过比较S(k,j)/Smin(k)与δ值的大小对语音信号进行类型判断,当S(k,j)/Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率谱;当S(k,j)/Smin(k)<δ时,则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语音信号的噪声功率N(k,j)及混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最小值。
较佳地,所述的应用存在概率优化的RETF混响消除方法,其中,所述步骤C具体包括:
C1、根据所述噪声功率N(k,j)及混响功率R(k,j)得到所述相对早期传递函数的表达式为:其中,
C2、根据所述相对早期传递函数计算得到混响噪声合成滤波器的阻塞矩阵为自适应矩阵为:hNC(k)=(BH(k)*S(k)*B(k))-1*(BH(k)*S(k)*h0(k))。
较佳地,所述的应用语音存在概率优化的RETF混响消除方法,其中,所述步骤E具体包括:
E1、计算语音信号的各频点语音存在概率:其中,γ(k)为各频点对应的后验信噪比,所述ξ(k)为各频点对应的先验信噪比,Q(k)为概率值;
E2、根据所述各频点语音存在概率计算EM增益表达式为:其中,所述GH1(k)为增益系数,所述其中所述Γ为gamma函数,M为合流超几何函数,Gmin(k)=10-1.5
E3、应用所述EM增益表达式对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
应用语音存在概率优化的RETF混响消除系统,其中,包括:
固定波束成形频域系数获取模块,用于采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波束成形频域系数;
噪声功率及混响功率获取模块,用于采用语音存在概率粗估计算法对语音信号进行类型判断,当判断所述语音信号为语音帧时,则不更新噪声功率谱;当判断所述语音信号为噪声帧时,则更新噪声功率谱,并计算所述语音信号的噪声功率及混响功率;
阻塞矩阵和自适应矩阵获取模块,用于根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期传递函数计算混响、噪声合成滤波器的阻塞矩阵和自适应矩阵;
初步消除混响模块,用于根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步混响消除后的语音信号;
后置滤波模块,用于应用语音存在概率优化的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述固定波束成形频域系数获取模块具体包括:
互相关函数获取单元,用于以第一帧语音信号x1(n)为基准,应用互相关时延估计算法计算每帧语音信号xi(n)与第一帧语音信号x1(n)之间的互相关函数;
固定波束成形频域系数获取单元,用于根据公式:计算固定波束成形的频域系数h0(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值所在位置对应两帧间的移位距离。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述噪声功率及混响功率获取模块具体包括:
语音信号的功率谱计算单元,用于在时域和频域范围内对语音信号的功率谱进行平滑,通过公式:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的语音功率谱;其中,所述S(k,j)为所述语音信号第j帧第k频点的语音功率谱,所述a为固定值,所述其中,所述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域在窗口范围w内以权值b(i)计算的平均值;
噪声功率及混响功率获取单元,用于通过比较S(k,j)/Smin(k)与δ值的大小对语音信号进行类型判断,当S(k,j)/Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率谱;当S(k,j)/Smin(k)<δ时,则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语音信号的噪声功率N(k,j)及混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最小值。
较佳地,所述的应用存在概率优化的RETF混响消除系统,其中,所述阻塞矩阵和自适应矩阵获取模块具体包括:
相对早期传递函数计算单元,用于根据所述噪声功率N(k,j)及混响功率R(k,j)得到所述相对早期传递函数的表达式为:其中,所述所述
阻塞矩阵和自适应矩阵获取单元,用于根据所述相对早期传递函数计算得到混响、噪声合成滤波器的阻塞矩阵为自适应矩阵为:hNC(k)=(BH(k)*S(k)*B(k))-1*(BH(k)*S(k)*h0(k))。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述后置滤波模块具体包括:
语音存在概率计算单元,用于计算语音信号的各频点语音存在概率:其中,γ(k)为各频点对应的后验信噪比,所述ξ(k)为各频点对应的先验信噪比,Q(k)为概率值;
EM增益计算单元,用于根据所述各频点语音存在概率计算EM增益表达式为:其中,所述GH1(k)为增益系数,所述其中所述Γ为gamma函数,M为合流超几何函数,Gmin(k)=10-1.5
后置滤波单元,用于应用所述EM增益表达式对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
有益效果:本发明提出应用语音存在概率优化的RETF混响消除方法和系统,通过应用语音存在概率对噪声和混响进行估计,得到初步混响消除后的语音信号,进一步应用基于语音存在概率计算的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。通过本发明不仅能简化系统,提高系统的运行速度,而且极大地改善了混响消除的效果,提升了语音识别的准确率。
附图说明
图1为本发明应用语音存在概率优化的RETF混响消除方法较佳实施例的流程图。
图2为本发明RETF混响消除模型示意图。
图3为本发明应用语音存在概率优化的RETF混响消除系统较佳实施例的结构框图。
具体实施方式
本发明提供应用语音存在概率优化的RETF混响消除方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明应用语音存在概率优化的RETF混响消除方法较佳实施例的流程图,如图所示,其包括步骤:
S10、采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波束成形频域系数;
S20、采用语音存在概率粗估计算法对语音信号进行类型判断,当判断所述语音信号为语音帧时,则不更新噪声功率谱;当判断所述语音信号为噪声帧时,则更新噪声功率谱,并计算所述语音信号的噪声功率及混响功率;
S30、根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期传递函数计算混响、噪声合成滤波器的阻塞矩阵和自适应矩阵;
S40、根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步混响消除后的语音信号;
S50、应用语音存在概率优化的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
本发明应用RETF模型,搭建混响消除的大体框架,如图2所示为本发明RETF混响消除模型,整个系统分为MVDR滤波和后置维纳滤波两部分。具体地,对于MVDR滤波器的计算,首先应用固定波束成形滤波器得到各通道合成语音,之后计算混响、噪声合成滤波器的阻塞矩阵和自适应矩阵,目标是使波束成形合成的语音减去滤波器得到的混响和噪声,从而得到初步消除混响的语音信号;对于后置维纳滤波部分,应用基于语音存在概率的EM增益代替简单的后置维纳滤波,将初步消除混响的语音信号经过EM增益处理,可以得到较为理想的语音混响消除结果。
在本发明中,所述步骤S10采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波束成形频域系数具体包括:
S11、以第一帧语音信号x1(n)为基准,应用互相关时延估计算法计算每帧语音信号xi(n)与第一帧语音信号x1(n)之间的互相关函数;
S12、根据公式:计算固定波束成形的频域系数h0(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值所在位置对应两帧间移位距离。
进一步,在本发明中,所述步骤S20具体包括:
S21、在时域和频域范围内对语音信号的功率谱进行平滑,通过公式:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的语音功率谱;其中,所述S(k,j)为所述语音信号第j帧第k频点的语音功率谱,所述a为固定值,所述其中,所述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域在窗口范围w内以权值b(i)计算的平均值;
S22、通过比较S(k,j)/Smin(k)与δ值的大小对语音信号进行类型判断,当S(k,j)/Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率谱;当S(k,j)/Smin(k)<δ时,则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语音信号的噪声功率N(k,j)及混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最小值。
具体地,首先,频域在窗口范围w内以权值b(i)求平均值:可以取w=2,b(i)=[0.1,0.2,0.4,0.2,0.1];然后在时域内进行平滑:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j),a可以取0.1;每隔500ms左右,求取各个频点k在各帧内取值的最小值Smin(k),每一帧各频点功率谱与最小功率谱求比值,S(k,j)/Smin(k)>δ,第j帧k频点对应语音频点,S(k,j)/Smin(k)<δ,第j帧k频点对应噪声频点;δ可以取2。
然后计算噪声功率,默认语音的初始5帧对应的是噪声帧,估算初始估噪声功率谱N(k,j0)。之后每帧根据上面描述的语音存在概率粗估计法,若S(k,j)/Smin(k)>δ,判断为语音帧,则频点k处不更新噪声功率谱,若S(k,j)/Smin(k)<δ,判断为噪声帧,则频点k处更新噪声功率谱N(k,j)=a*N(k,j)+(1-a)S(k,j)。之后计算混响功率:R(k,j)=exp(-6*log(10)RL/(T60*fs))*[S(k,j-L)-N(k,j-L)],其中T60为房间混响系数,一般房间通常在1s内,L对应后期混响时间,可选取200~400ms。
对每一通道i的输入信号,分别按上式处理,得到各通道的噪声功率Ni(k,j)和混响功率Ri(k,j)。
进一步,所述步骤S30根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期传递函数计算混响、噪声合成滤波器的阻塞矩阵和自适应矩阵具体包括:
S31、根据所述噪声功率N(k,j)及混响功率R(k,j)得到所述相对早期传递函数的表达式为:其中,所述所述
S32、根据所述相对早期传递函数计算得到混响噪声合成滤波器的阻塞矩阵为自适应矩阵为:hNC(k)=(BH(k)*S(k)*B(k))-1*(BH(k)*S(k)*h0(k))。
更进一步,在本发明所述步骤S40中,根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步消除混响后的语音信号,具体地,将语音信号通过hMVDR滤波器,根据公式hMVDR=h0-(B*hNC)计算得到初步消除混响后的语音信号。
进一步,在本发明中,所述步骤S50应用语音存在概率优化的EM增益对所述初步消除混响后的语音信号进行后置滤波,得到混响消除的语音信号具体包括:
S51、计算语音信号的各频点语音存在概率:其中,γ(k)为各频点对应的后验信噪比,所述ξ(k)为各频点对应的先验信噪比,Q(k)为概率值;
S52、根据所述各频点语音存在概率计算EM增益表达式为:其中,所述GH1(k)为增益系数,所述其中所述Γ为gamma函数,M为合流超几何函数,Gmin(k)=10-1.5
S53、应用所述EM增益表达式对所述初步消除混响后的语音信号进行后置滤波,得到混响消除的语音信号。
较佳地,本发明通过计算语音存在概率优化的EM增益,代替维纳滤波对语音进行后置滤波,提升混响消除效果。
具体地,首先计算各频点对应的后验信噪比:γ(k)=S(k)/(R(k)+N(k));然后,根据下式计算各频点先验信噪比:ξ(k)=a*max(0,γ(k)-1)+(1-a)*X(k,j-1)2/(R(k)+N(k)),在帧内求解先验信噪比均值ξ_ave。根据先验概率和后验概率,求解如下几个概率值:
Pframe=0.1+0.9*(1/(1+0.15/ξ_ave))
Plocal(k)Pglobal(k)=0.1+0.9*(1/(1+0.15/ξ(k)))
Q=1-Plocal(k)Pglobal(k)Pframe
根据上述概率值得到各频点语音存在概率的表达式为:
进一步,得到语音存在概率后计算增益系数:
其中,Γ为gamma函数,M为合流超几何函数,Gmin(k)=10-1.5
更进一步,得到EM增益表达式为:应用语音存在概率优化的EM增益G(k)对所述初步消除混响后的语音信号进行后置滤波,得到混响消除的语音信号。
基于上述方法,本发明还提供应用语音存在概率优化的RETF混响消除系统,如图3所示,其中,包括:
固定波束成形频域系数获取模块100,用于采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波束成形频域系数;
噪声功率及混响功率获取模块200,用于采用语音存在概率粗估计算法对语音信号进行类型判断,当判断所述语音信号为语音帧时,则不更新噪声功率谱;当判断所述语音信号为噪声帧时,则更新噪声功率谱,并计算所述语音信号的噪声功率及混响功率;
阻塞矩阵和自适应矩阵获取模块300,用于根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期传递函数计算混响噪声合成滤波器的阻塞矩阵和自适应矩阵;
初步消除混响模块400,用于根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步混响消除后的语音信号;
后置滤波模块500,用于应用语音存在概率优化的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述固定波束成形频域系数获取模块100具体包括:
互相关函数获取单元,用于以第一帧语音信号x1(n)为基准,应用互相关时延估计算法计算每帧语音信号xi(n)与第一帧语音信号x1(n)之间的互相关函数;
固定波束成形频域系数获取单元,用于根据公式:计算固定波束成形的频域系数h0(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值所在位置对应两帧间的移位距离。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述噪声功率及混响功率获取模块具体200包括:
语音信号的功率谱计算单元,用于在时域和频域范围内对语音信号的功率谱进行平滑,通过公式:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的功率谱;其中,所述S(k,j)为所述语音信号第j帧第k频点的功率谱,所述a为固定值,所述其中,所述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域在窗口范围w内以权值b(i)计算的平均值;
噪声功率及混响功率获取单元,用于通过比较S(k,j)/Smin(k)与δ值的大小对语音信号进行判断,当S(k,j)/Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率谱;当S(k,j)/Smin(k)<δ时,则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语音信号的噪声功率N(k,j)及混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最小值。
较佳地,所述的应用存在概率优化的RETF混响消除系统,其中,所述阻塞矩阵和自适应矩阵获取模块300具体包括:
相对早期传递函数计算单元,用于根据所述噪声功率N(k,j)及混响功率R(k,j)得到所述相对早期传递函数的表达式为:其中,所述所述
阻塞矩阵和自适应矩阵获取单元,用于根据所述相对早期传递函数计算得到混响、噪声合成滤波器的阻塞矩阵为自适应矩阵为:hNC(k)=(BH(k)*S(k)*B(k))-1*(BH(k)*S(k)*h0(k))。
较佳地,所述的应用语音存在概率优化的RETF混响消除系统,其中,所述后置滤波模块500具体包括:
语音存在概率计算单元,用于计算语音信号的各频点语音存在概率:其中,γ(k)为各频点对应的后验信噪比,所述ξ(k)为各频点对应的先验信噪比,Q(k)为概率值;
EM增益计算单元,用于根据所述各频点语音存在概率计算EM增益表达式为:其中,所述GH1(k)为增益系数,所述其中所述Γ为gamma函数,M为合流超几何函数,Gmin(k)=10-1.5
后置滤波单元,用于应用所述EM增益表达式对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
关于上述模块的技术细节在前面的方法中已有详述,故不再赘述。
综上所述,本发明提出应用语音存在概率优化的RETF混响消除方法和系统,通过应用语音存在概率对噪声和混响进行估计,得到初步消除混响的语音信号,进一步应用基于语音存在概率计算的EM增益对所述初步消除混响后的语音信号进行后置滤波,得到混响消除的语音信号。通过本发明不仅能简化系统,提高系统的运行速度,而且极大地改善了混响消除的效果,提升了语音识别的准确率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.应用语音存在概率优化的RETF混响消除方法,其特征在于,包括步骤:
A、采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波束成形频域系数;
B、采用语音存在概率粗估计算法对语音信号进行类型判断,当判断所述语音信号为语音帧时,则不更新噪声功率谱;当判断所述语音信号为噪声帧时,则更新噪声功率谱,并计算所述语音信号的噪声功率及混响功率;
C、根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期传递函数计算混响噪声合成滤波器的阻塞矩阵和自适应矩阵;
D、根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步混响消除后的语音信号;
E、应用语音存在概率优化的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
2.根据权利要求1所述的应用语音存在概率优化的RETF混响消除方法,其特征在于,所述步骤A具体包括:
A1、以第一帧语音信号x1(n)为基准,应用互相关时延估计算法计算每帧语音信号xi(n)与第一帧语音信号x1(n)之间的互相关函数;
A2、根据公式:计算固定波束成形的频域系数h0(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值所在位置对应两帧间的移位距离。
3.根据权利要求1所述的应用语音存在概率优化的RETF混响消除方法,其特征在于,所述步骤B具体包括:
B1、在时域和频域范围内对语音信号的功率谱进行平滑,通过公式:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的语音功率谱;其中,所述S(k,j)为所述语音信号第j帧第k频点的语音功率谱,所述a为固定值,所述其中,所述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域在窗口范围w内以权值b(i)计算的平均值;
B2、通过比较S(k,j)/Smin(k)与δ值的大小对语音信号进行类型判断,当S(k,j)/Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率谱;当S(k,j)/Smin(k)<δ时,则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语音信号的噪声功率N(k,j)及混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最小值。
4.根据权利要求1所述的应用存在概率优化的RETF混响消除方法,其特征在于,所述步骤C具体包括:
C1、根据所述噪声功率N(k,j)及混响功率R(k,j)得到所述相对早期传递函数的表达式为:其中,
C2、根据所述相对早期传递函数计算得到混响噪声合成滤波器的阻塞矩阵为自适应矩阵为:hNC(k)=(BH(k)*S(k)*B(k))-1*(BH(k)*S(k)*h0(k))。
5.根据权利要求1所述的应用语音存在概率优化的RETF混响消除方法,其特征在于,所述步骤E具体包括:
E1、计算语音信号的各频点语音存在概率:其中,γ(k)为各频点对应的后验信噪比,所述ξ(k)为各频点对应的先验信噪比,Q(k)为概率值;
E2、根据所述各频点语音存在概率计算EM增益表达式为:其中,所述GH1(k)为增益系数,所述其中所述Γ为gamma函数,M为合流超几何函数,Gmin(k)=10-1.5
E3、应用所述EM增益表达式对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
6.应用语音存在概率优化的RETF混响消除系统,其特征在于,包括:
固定波束成形频域系数获取模块,用于采用互相关时延估计算法对各通道语音信号进行延时加权叠加,得到固定波束成形频域系数;
噪声功率及混响功率获取模块,用于采用语音存在概率粗估计算法对语音信号进行类型判断,当判断所述语音信号为语音帧时,则不更新噪声功率谱;当判断所述语音信号为噪声帧时,则更新噪声功率谱,并计算所述语音信号的噪声功率及混响功率;
阻塞矩阵和自适应矩阵获取模块,用于根据所述噪声功率及混响功率求解相对早期传递函数,并根据所述相对早期传递函数计算混响、噪声合成滤波器的阻塞矩阵和自适应矩阵;
初步消除混响模块,用于根据所述固定波束成形的频域系数、阻塞矩阵及自适应矩阵计算得到初步混响消除后的语音信号;
后置滤波模块,用于应用语音存在概率优化的EM增益对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
7.根据权利要求6所述的应用语音存在概率优化的RETF混响消除系统,其特征在于,所述固定波束成形频域系数获取模块具体包括:
互相关函数获取单元,用于以第一帧语音信号x1(n)为基准,应用互相关时延估计算法计算每帧语音信号xi(n)与第一帧语音信号x1(n)之间的互相关函数;
固定波束成形频域系数获取单元,用于根据公式:计算固定波束成形的频域系数h0(k);其中,所述fs对应采样频率,所述τi为所述互相关函数的极大值所在位置对应两帧间的移位距离。
8.根据权利要求6所述的应用语音存在概率优化的RETF混响消除系统,其特征在于,所述噪声功率及混响功率获取模块具体包括:
语音信号的功率谱计算单元,用于在时域和频域范围内对语音信号的功率谱进行平滑,通过公式:S(k,j)=a*S(k,j-1)+(1-a)Sf(k,j)计算所述语音信号的语音功率谱;其中,所述S(k,j)为所述语音信号第j帧第k频点的语音功率谱,所述a为固定值,所述其中,所述w为窗口范围,所述b(i)为权值,所述Sf(k,j)为频域在窗口范围w内以权值b(i)计算的平均值;
噪声功率及混响功率获取单元,用于通过比较S(k,j)/Smin(k)与δ值的大小对语音信号进行类型判断,当S(k,j)/Smin(k)>δ时,则判断所述语音信号为语音帧,不更新噪声功率谱;当S(k,j)/Smin(k)<δ时,则判断所述语音信号为噪声帧,更新噪声功率谱并计算所述语音信号的噪声功率N(k,j)及混响功率R(k,j);所述Smin(k)为频点k在各语音帧内取值的最小值。
9.根据权利要求1所述的应用存在概率优化的RETF混响消除系统,其特征在于,所述阻塞矩阵和自适应矩阵获取模块具体包括:
相对早期传递函数计算单元,用于根据所述噪声功率N(k,j)及混响功率R(k,j)得到所述相对早期传递函数的表达式为:其中,所述所述
阻塞矩阵和自适应矩阵获取单元,用于根据所述相对早期传递函数计算得到混响、噪声合成滤波器的阻塞矩阵为自适应矩阵为:hNC(k)=(BH(k)*S(k)*B(k))-1*(BH(k)*S(k)*h0(k))。
10.根据权利要求6所述的应用语音存在概率优化的RETF混响消除系统,其特征在于,所述后置滤波模块具体包括:
语音存在概率计算单元,用于计算语音信号的各频点语音存在概率:其中,γ(k)为各频点对应的后验信噪比,所述ξ(k)为各频点对应的先验信噪比,Q(k)为概率值;
EM增益计算单元,用于根据所述各频点语音存在概率计算EM增益表达式为:其中,所述GH1(k)为增益系数,所述其中所述Γ为gamma函数,M为合流超几何函数,Gmin(k)=10-1.5
后置滤波单元,用于应用所述EM增益表达式对所述初步混响消除后的语音信号进行后置滤波,得到最终混响消除的语音信号。
CN201610515529.6A 2016-07-04 2016-07-04 应用语音存在概率优化的retf混响消除方法及系统 Pending CN106448692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610515529.6A CN106448692A (zh) 2016-07-04 2016-07-04 应用语音存在概率优化的retf混响消除方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610515529.6A CN106448692A (zh) 2016-07-04 2016-07-04 应用语音存在概率优化的retf混响消除方法及系统

Publications (1)

Publication Number Publication Date
CN106448692A true CN106448692A (zh) 2017-02-22

Family

ID=58183825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610515529.6A Pending CN106448692A (zh) 2016-07-04 2016-07-04 应用语音存在概率优化的retf混响消除方法及系统

Country Status (1)

Country Link
CN (1) CN106448692A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108231075A (zh) * 2017-12-29 2018-06-29 北京视觉世界科技有限公司 清洁设备的控制方法、装置、设备和存储介质
CN108717495A (zh) * 2018-05-22 2018-10-30 出门问问信息科技有限公司 多波束波束成形的方法、装置及电子设备
CN109712637A (zh) * 2018-12-21 2019-05-03 珠海慧联科技有限公司 一种混响抑制系统及方法
CN110600051A (zh) * 2019-11-12 2019-12-20 乐鑫信息科技(上海)股份有限公司 用于选择麦克风阵列的输出波束的方法
CN110660405A (zh) * 2019-09-24 2020-01-07 上海优扬新媒信息技术有限公司 一种语音信号的提纯方法及装置
CN110718230A (zh) * 2019-08-29 2020-01-21 云知声智能科技股份有限公司 一种消除混响的方法和系统
CN111048106A (zh) * 2020-03-12 2020-04-21 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
WO2020177374A1 (zh) * 2019-03-06 2020-09-10 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN112233689A (zh) * 2020-09-24 2021-01-15 北京声智科技有限公司 音频降噪方法、装置、设备及介质
US20220303320A1 (en) * 2021-03-17 2022-09-22 Ampula Inc. Projection-type video conference system and video projecting method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976565A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN103440869A (zh) * 2013-09-03 2013-12-11 大连理工大学 一种音频混响的抑制装置及其抑制方法
CN104658543A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种室内混响消除的方法
CN104835503A (zh) * 2015-05-06 2015-08-12 南京信息工程大学 一种改进gsc自适应语音增强方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976565A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN103440869A (zh) * 2013-09-03 2013-12-11 大连理工大学 一种音频混响的抑制装置及其抑制方法
CN104658543A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种室内混响消除的方法
CN104835503A (zh) * 2015-05-06 2015-08-12 南京信息工程大学 一种改进gsc自适应语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ISRAEL COHEN等: ""Speech enhancement for non-stationary noise environments"", 《SIGNAL PROCESSING》 *
JEAN-MARC VALIN等: ""Robust Recognition of Simultaneous Speech by a Mobile Robot"", 《IEEE TRANSACTIONS ON ROBOTICS》 *
OFER SCHWARTZ等: ""Multi-Microphone Speech Dereverberation and Noise Reduction Using Relative Early Transfer Functions"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108231075A (zh) * 2017-12-29 2018-06-29 北京视觉世界科技有限公司 清洁设备的控制方法、装置、设备和存储介质
CN108717495A (zh) * 2018-05-22 2018-10-30 出门问问信息科技有限公司 多波束波束成形的方法、装置及电子设备
CN109712637A (zh) * 2018-12-21 2019-05-03 珠海慧联科技有限公司 一种混响抑制系统及方法
CN109712637B (zh) * 2018-12-21 2020-09-22 珠海慧联科技有限公司 一种混响抑制系统及方法
WO2020177374A1 (zh) * 2019-03-06 2020-09-10 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN110718230B (zh) * 2019-08-29 2021-12-17 云知声智能科技股份有限公司 一种消除混响的方法和系统
CN110718230A (zh) * 2019-08-29 2020-01-21 云知声智能科技股份有限公司 一种消除混响的方法和系统
CN110660405A (zh) * 2019-09-24 2020-01-07 上海优扬新媒信息技术有限公司 一种语音信号的提纯方法及装置
CN110660405B (zh) * 2019-09-24 2022-09-23 度小满科技(北京)有限公司 一种语音信号的提纯方法及装置
CN110600051A (zh) * 2019-11-12 2019-12-20 乐鑫信息科技(上海)股份有限公司 用于选择麦克风阵列的输出波束的方法
CN111048106A (zh) * 2020-03-12 2020-04-21 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
CN112233689B (zh) * 2020-09-24 2022-04-08 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN112233689A (zh) * 2020-09-24 2021-01-15 北京声智科技有限公司 音频降噪方法、装置、设备及介质
US20220303320A1 (en) * 2021-03-17 2022-09-22 Ampula Inc. Projection-type video conference system and video projecting method

Similar Documents

Publication Publication Date Title
CN106448692A (zh) 应用语音存在概率优化的retf混响消除方法及系统
CN105741849B (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN103440869B (zh) 一种音频混响的抑制装置及其抑制方法
CN106251877B (zh) 语音声源方向估计方法及装置
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
EP2905778B1 (en) Echo cancellation method and device
CN107393550A (zh) 语音处理方法及装置
TWI412023B (zh) 可消除噪音且增進語音品質之麥克風陣列架構及其方法
CN109584903A (zh) 一种基于深度学习的多人语音分离方法
CN103632677B (zh) 带噪语音信号处理方法、装置及服务器
CN106504763A (zh) 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN102347028A (zh) 双麦克风语音增强装置及方法
CN105261359B (zh) 手机麦克风的消噪系统和消噪方法
US8296135B2 (en) Noise cancellation system and method
CN107004424A (zh) 噪声降低和语音增强的方法、设备和系统
CN106057210B (zh) 双耳间距下基于频点选择的快速语音盲源分离方法
CN105448302B (zh) 一种环境自适应的语音混响消除方法和系统
CN106782497A (zh) 一种基于便携式智能终端的智能语音降噪算法
CN110085250A (zh) 气导噪声统计模型的建立方法及应用方法
CN109068012A (zh) 一种用于音频会议系统的双端通话检测方法
CN105872275A (zh) 一种用于回声消除的语音信号时延估计方法及系统
CN104575511A (zh) 语音增强方法及装置
CN105679330A (zh) 基于改进子带信噪比估计的数字助听器降噪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication