CN107346658A - 混响抑制方法及装置 - Google Patents

混响抑制方法及装置 Download PDF

Info

Publication number
CN107346658A
CN107346658A CN201710578806.2A CN201710578806A CN107346658A CN 107346658 A CN107346658 A CN 107346658A CN 201710578806 A CN201710578806 A CN 201710578806A CN 107346658 A CN107346658 A CN 107346658A
Authority
CN
China
Prior art keywords
mrow
msub
msup
reverberation
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710578806.2A
Other languages
English (en)
Other versions
CN107346658B (zh
Inventor
蔡钢林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yajin Smart Technology Co ltd
Original Assignee
Yongshun Shenzhen Wisdom Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yongshun Shenzhen Wisdom Mdt Infotech Ltd filed Critical Yongshun Shenzhen Wisdom Mdt Infotech Ltd
Priority to CN201710578806.2A priority Critical patent/CN107346658B/zh
Publication of CN107346658A publication Critical patent/CN107346658A/zh
Application granted granted Critical
Publication of CN107346658B publication Critical patent/CN107346658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本发明提出的一种混响抑制方法及装置,先将声音信号从时域变换到频域,获得频域信号,然后使用VAD(Voice Activity Detection,语音活动检测)检测所述频域信号,判断是否存在语音;在存在语音的情况下,使用一个预测误差向量预测声音信号的混响功率谱密度,然后构建衰减因子,计算出优化语音频谱,该优化语音频谱去除了声音信号中的混响部分。本发明提高了采集的声音信号质量。

Description

混响抑制方法及装置
技术领域
本发明涉及到语音识别领域,特别是涉及到一种混响抑制方法及装置。
背景技术
近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。
在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。
噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。
CN201280047068公开了一种混响抑制装置,具备:回声消除部,去除输入信号中包含的回声分量;啸声抑制部,根据被去除了回声分量的输入信号的频率特性,检测啸声的发生,使所检测出的啸声分量的频率的电平衰减;以及语头抑制部,检测啸声分量的频率电平被衰减的输入信号的声音区间,抑制所检测出的声音区间的声音开始部分的信号值。
然而,该装置提供的是汽车内部空间的混响抑制解决方法,并不适用于家居音频采集时的混响问题。
发明内容
本发明的主要目的为提供一种混响抑制方法及装置,解决家居环境中声音采集的混响问题。
本发明提出一种混响抑制方法,包括以下步骤:
将声音信号从时域变换到频域,获得频域信号;
根据所述频域信号计算所述频域信号的语音参数;
在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
优选地,所述根据所述语音参数更新预测误差向量,具体为:
Gk=G′k+KGEPre
其中,Gk为当前帧的预测误差向量,G′k为前一帧的预测误差向量,KG为Kalman增益,EPre为当前帧的预测混响分量。
优选地,所述根据所述预测误差向量,更新所述声音信号的混响功率谱密度,具体为:
其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,为估算语音频谱。
优选地,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
优选地,所述根据所述混响功率谱密度构建衰减因子,输出估算语音频谱,具体为:
其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。
优选地,所述根据所述混响功率谱密度构建衰减因子,输出估算语音频谱之后,还包括:
采用逆傅里叶变换,将所述估算语音频谱恢复为时域信号,具体为:
其中,为经优化后的时域信号。
优选地,所述根据所述语音参数更新预测误差向量之前,还包括:
计算Kalman增益,并更新预测向量方差矩阵,具体为:
其中,KG为Kalman增益,
PPre为预测向量方差矩阵,用于计算Kalman增益,
Pk为向量方差矩阵,用于更新PPre
E(k)为估算混响分量。
优选地,所述E(k)由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数,EPre,o为前一帧的预测混响分量。
优选地,所述计算Kalman增益,并更新预测向量方差矩阵之前,还包括:
更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:
其中,为维度LG×LG的单位矩阵矩阵,Y(l,k)为当前帧的混合语音频谱。
本发明还提出了一种混响抑制装置,包括:
变换模块,用于将声音信号从时域变换到频域,获得频域信号;
参数计算模块,用于根据所述频域信号计算所述频域信号的语音参数;
更新预测向量模块,用于在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
更新混响功率谱密度模块,用于根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
优化语音频谱计算模块,用于根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
本发明提出的一种混响抑制方法及装置,先将声音信号从时域变换到频域,获得频域信号,然后使用VAD(Voice Activity Detection,语音活动检测)检测所述频域信号,判断是否存在语音;在存在语音的情况下,使用一个预测误差向量预测声音信号的混响功率谱密度,然后构建衰减因子,计算出优化语音频谱,该优化语音频谱去除了声音信号中的混响部分。本发明提高了采集的声音信号质量。
附图说明
图1为本发明混响抑制方法一实施例的流程示意图;
图2为本发明混响抑制装置一实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明所指的声音信号,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。
参照图1,本发明实施例提出一种混响抑制方法,包括以下步骤:
S10、将声音信号从时域变换到频域,获得频域信号;
S20、根据所述频域信号计算所述频域信号的语音参数;
S30、在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
S40、根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
S50、根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
在步骤S10中,取缓冲区数据,并加窗做FFT变换,把时域信号变换到频谱域:
假设混合语音数据为y(t),其中x(t)为带混响语音信号,v(t)为背景噪声,FFT变换(傅里叶变换)如下所示:
其中,w(t)为长度512的汉宁窗,l为时间帧坐标,K为频率坐标。
上述y(t)即为声音信号,Y(l,k)为频域信号。
在步骤S20、S30中,语音参数包括估算语音频谱频域信号Y(l,k),预测向量方差矩阵Pk,预测误差E(k),具体计算过程如下:
在前LI帧进行预测误差向量,预测向量方差矩阵,预测误差进行初始化,初始化过程如下所示:
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,为预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差。
从LI+1帧开始,如果语音检测结果表明存在语音活动执行如下自适应更新过程:
更新预测误差,包括预测误差向量和预测频谱误差,更新过程如下所示:
其中,为维度LG×LG的单位矩阵矩阵。
预测频谱误差平滑,使得误差估计更加平滑,具体流程如下所示:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数取值范围在0.6~0.9之间,本项发明取值为0.75。
Kalman增益计算,更新预测向量,更新过程如下所示:
Gk=G′k+KGEPre
这样就获得可用于预测混响分量的向量Gk
步骤S40中,根据所述预测误差向量,更新所述声音信号的混响功率谱密度,具体计算如下:
α为平滑系数,取值范围为推荐为0.95~0.995,本实施例优选0.98作为平滑阈值。
步骤S50中,根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱,计算如下:
该优化语音频谱,既用来在下一步恢复时域信号,又用于第一步参与后验信噪比的计算。
以下为本发明混响抑制方法具体的计算过程。
首先是背景噪音的估计,噪声能量估计的准确程度直接影响后续语音检测的效果。本发明实施例采用固定噪声估计结合噪声自适应更新的方式来保证噪音估计的稳定性和精确性。初始化及具体计算流程如下所示:
取缓冲区数据,并加窗做FFT变换,把时域信号变换到频谱域:
假设混合语音数据为y(t),其中x(t)为带混响语音信号,v(t)为背景噪声,h(τ)为混响冲击响应信号,s(t-τ)为无混响语音信号。FFT变换(傅里叶变换)如下所示:
其中,w(t)为长度512的汉宁窗,l为时间帧坐标,K为频率坐标。
对前LI时间帧假设没有语音活动,并做如下初始化:
γ(k)=1,ε(k)=κ,k=1,2,...,K
其中,K代表频带整体的数量,ΦV(k)代表噪音信号的功率谱密度,ΦY(k)代表观测信号的功率谱密度,γ(k)为先验信噪比,ε(k)为后验信噪比,为估算语音频谱,初始化为混合频谱的均值乘以一个衰减因子κ,衰减因子取值为0.1。
从第LT+1时间帧开始做迭代计算,计算流程如下所示:
更新观测信号功率谱密度估计值,即根据前一帧的结果,平滑得到下一帧的计算结果:
Φ′Y(k)=αΦY(k)+(1-α)|Y(l,k)|2
其中,α为平滑因子,取值范围为推荐为0.95~0.995,本实施例优选0.98作为平滑阈值。
计算先验信噪比和后验信噪比
其中,β为平滑因子,β为取值范围为0.6~0.9,本实施例优选取值为0.75。Max函数表示选择两个变量中的最大值。
以上只是先验信噪比和后验信噪比的一种优选的计算方式,任何按照上述方法进行适当的变形分解,再进行求解的方式,也应属于本发明的保护范围之内。
根据先验后验信噪比计算噪音功率谱自适应更新步长:
即采用固定步长加上自适应步长的方式,实现整体更新。
根据步长,更新噪音功率谱,基本原则是,如果语音越少,则噪音功率谱更新的步长越大,保证噪音估计的准确性;反之,则采用较慢的步长,以避免语音信号参与噪音功率谱的迭代更新:
ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2
上式输出即为噪音功率谱更新结果,用以下一帧的噪音更新和作为参数参与语音检测过程。
以下为语音检测的具体过程。
在准确估算出背景噪音参数之后,便可根据背景噪音参数构建听觉特征的。在获得听觉特征之后,将当前帧的听觉特征与设定的听觉阈值比较,便可判断当前帧是否出现语音活动。
语音活动检测主要是为了检测出语音活动的区域,在非语音活动区域,停止对语音的优化处理,减少功耗;在语音活动区域,则可减少噪音干扰,提高语音优化的效果。
在提取当前帧的听觉特征之前,有一初始化过程,具体如下:
对特征缓冲矩阵,特征阈值,语音检测结果缓冲区进行初始化,特征缓冲区矩阵由LI个3维度列向量构成,以公式表示如下:
Q(1:LI)=0
θT(1)=FB(1,1)
θT(2)=FB(2,1)
θT(3)=FB(3,1)
其中,FB为听觉特征缓冲区,Q为语音活动检测结果缓冲区,θT为听觉特征阈值缓冲区,即分别用先验信噪比、后验信噪比和时域信号用以最终的语音活动检测。在听觉特征计算中,LW代表窗长,LT代表起始样本点,起始样本点取值范围通常在5~20之间,本实施例设定为10。
从第LT+1时间帧开始,计算当前帧听觉特征如下所示:
根据当前帧听觉特征计算结果,更新特征缓冲区和特征阈值,即把缓冲区内时间最久的数据踢出缓冲区.把当前帧数据放入缓冲区:
并求取各维度参数对应的听觉阈值:
θT(i)=Max(θ′T(i),Minj-1,...,LI(FB(i,j))),i=1,2,3
当前听觉特征与听觉阈值进行对比,根据对比结果确定语音检测的结果,具体计算如下所示:
q(i)为所述听觉特征的维度参数的得分,QFrame为语音检查的判断结果,结果为1则表明当前帧存在语音,结果为0则表明当前帧不存在语音。
更新语音检测结果缓冲区,同样把缓冲区内时间最久的数据踢出缓冲区,加入当前帧判断结果,并计算缓冲区内平均的语音检测结果:
Q=[Q′(:,2:LB);QFrame]
然后,计算语音检测结果缓冲区内检测结果的统计值,在此处采用的是计算检测结果的总和,具体计算如下:
由于语音通常是连续出现的,对比QM与固定阈值δLI,如果小于阈值,表明当前缓冲区内语音存在帧为误检,当前缓冲区内没有语音,更新特征阈值并把语音频谱估计结果设为一个极小值,计算如下所示:
θT(i)=Maxj-1,...,LI(FB(i,j)),i=1,2,3
同时,更新估算语音频谱计算如下:
δ取值范围为0.1~0.3,本项发明取值为0.15。若无误检,表明当前缓冲区内有语音出现,可对该声音信号继续优化处理。
Kalman自适应增强是假定用一个长为LG的前向预测滤波器,对纯净语音频谱进行预测,通常LG<LI。在本项发明中,这两个参数分别设置为LG=15,LI=25。由于语音信号可以用一个自回归模型来很好的表达,预测的误差可以理解为混响分量。基于最小均方误差准则,滤波器更新的自适应过程如下所示:
在前LI帧进行预测误差向量,预测向量方差矩阵,预测误差进行初始化,初始化过程如下所示:
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,为预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差。
从LI+1帧开始,如果语音检测结果表明存在语音活动执行如下自适应更新过程:
(1.1)更新预测误差,包括预测误差向量和预测频谱误差,更新过程如下所示:
其中,为维度LG×LG的单位矩阵矩阵。
(1.2)预测频谱误差平滑,使得误差估计更加平滑,具体流程如下所示:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数取值范围在0.6~0.9之间,本项发明取值为0.75。
(1.3)Kalman增益计算,更新预测向量,更新过程如下所示:
Gk=G′k+KGEPre
(1.4)混响功率谱密度更新,更新过程如下所示:
该混响功率谱密度与观测信号功率谱密度采用同一个平滑系数。φ′R(k)为前一帧的混响功率谱密度。混响功率谱密度的初始设置值为0。
(1.5)根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:
该频谱估计值既用来在下一步恢复时域信号,又用于第一步参与后验信噪比的计算。
(1.6)循环执行1.1-1.5至所有频带更新完毕,采用逆傅里叶变换恢复时域信号,计算流程如下所示:
恢复出时域信号之后,发送到后续应用终端,比如通讯设备或者语音识别引擎,实现噪声、混响联合抑制。
参照图2,本发明还提出了一种混响抑制装置,包括:
变换模块10,用于将声音信号从时域变换到频域,获得频域信号;
参数计算模块20,用于根据所述频域信号计算所述频域信号的语音参数;
更新预测向量模块30,用于在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
更新混响功率谱密度模块40,用于根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
优化语音频谱计算模块50,用于根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
可选地,所述更新预测向量模块30,用于根据所述语音参数更新预测误差向量,具体为:
Gk=G′k+KGEPre
其中,Gk为当前帧的预测误差向量,G′k为前一帧的预测误差向量,KG为Kalman增益,EPre为当前帧的预测混响分量。
可选地,所述更新混响功率谱密度模块40,用于根据所述预测误差向量,更新所述声音信号的混响功率谱密度,具体为:
其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,为估算语音频谱。
可选地,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
可选地,所述优化语音频谱计算模块50,用于根据所述混响功率谱密度构建衰减因子,输出估算语音频谱,具体为:
其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。
可选地,还包括频谱恢复模块,用于采用逆傅里叶变换,将所述估算语音频谱恢复为时域信号,具体为:
其中,为经优化后的时域信号。
可选地,所述参数计算模块20,包括:
第二参数计算单元,用于计算Kalman增益,并更新预测向量方差矩阵,具体为:
其中,KG为Kalman增益,
PPre为预测向量方差矩阵,用于计算Kalman增益,
Pk为向量方差矩阵,用于更新PPre
E(k)为估算混响分量。
可选地,所述E(k)由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数,EPre,o为前一帧的预测混响分量。
可选地,所述参数计算模块20,还包括:
第一参数计算单元,用于更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:
其中,为维度LG×LG的单位矩阵矩阵,Y(l,k)为当前帧的混合语音频谱。
本发明可以用于辅助应用于家居环境下的语音指令识别。在家居环境下,用户距离麦克风大约为1米至3米,会受到家庭噪声和墙壁混响的影响,识别率会迅速下降。本发明提出的混响抑制方法与装置,可以优化语音质量。经实验证明,在距离麦克风2米左右,输入信噪比10dB左右,识别率可以从30%提高到65%,当增加噪声至20dB,识别率从10%提高至50%左右。
本发明提出的一种混响抑制方法及装置,先将声音信号从时域变换到频域,获得频域信号,然后使用VAD(Voice Activity Detection,语音活动检测)检测所述频域信号,判断是否存在语音;在存在语音的情况下,使用一个预测误差向量预测声音信号的混响功率谱密度,然后构建衰减因子,计算出优化语音频谱,该优化语音频谱去除了声音信号中的混响部分。本发明提高了采集的声音信号质量。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种混响抑制方法,其特征在于,包括以下步骤:
将声音信号从时域变换到频域,获得频域信号;
根据所述频域信号计算所述频域信号的语音参数;
在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
2.根据权利要求1所述的混响抑制方法,其特征在于,所述根据所述语音参数更新预测误差向量,具体为:
Gk=G′k+KGEPre
其中,Gk为当前帧的预测误差向量,G′k为前一帧的预测误差向量,KG为Kalman增益,EPre为当前帧的预测混响分量。
3.根据权利要求2所述的混响抑制方法,其特征在于,所述根据所述预测误差向量,更新所述声音信号的混响功率谱密度,具体为:
<mrow> <msub> <mi>&amp;phi;</mi> <mi>R</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <msup> <mi>&amp;alpha;&amp;phi;</mi> <mo>&amp;prime;</mo> </msup> <mi>R</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mover> <mi>X</mi> <mo>^</mo> </mover> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <msup> <mi>G</mi> <mi>k</mi> </msup> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>
其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,为估算语音频谱。
4.根据权利要求3所述的混响抑制方法,其特征在于,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
5.根据权利要求3所述的混响抑制方法,其特征在于,所述根据所述混响功率谱密度构建衰减因子,输出估算语音频谱,具体为:
<mrow> <mi>&amp;zeta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;phi;</mi> <mi>Y</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>&amp;phi;</mi> <mi>V</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>&amp;phi;</mi> <mi>R</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;phi;</mi> <mi>Y</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
<mrow> <mover> <mi>X</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>&amp;zeta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>&amp;zeta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mi>Y</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow>
其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。
6.根据权利要求5所述的混响抑制方法,其特征在于,所述根据所述混响功率谱密度构建衰减因子,输出估算语音频谱之后,还包括:
采用逆傅里叶变换,将所述估算语音频谱恢复为时域信号,具体为:
<mrow> <mover> <mi>x</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>k</mi> </munder> <mover> <mi>X</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mi>j</mi> <mfrac> <mrow> <mn>2</mn> <mi>&amp;pi;</mi> <mi>t</mi> </mrow> <mi>T</mi> </mfrac> <mi>k</mi> <mo>)</mo> </mrow> </mrow>
其中,为经优化后的时域信号。
7.根据权利要求3所述的混响抑制方法,其特征在于,所述根据所述语音参数更新预测误差向量之前,还包括:
计算Kalman增益,并更新预测向量方差矩阵,具体为:
<mrow> <msub> <mi>K</mi> <mi>G</mi> </msub> <mo>=</mo> <msub> <mi>P</mi> <mrow> <mi>Pr</mi> <mi>e</mi> </mrow> </msub> <msup> <mover> <mi>X</mi> <mo>^</mo> </mover> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <msup> <mrow> <mo>&amp;lsqb;</mo> <msup> <mover> <mi>X</mi> <mo>^</mo> </mover> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>Pr</mi> <mi>e</mi> </mrow> </msub> <mover> <mi>X</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>E</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </mrow>
<mrow> <msup> <mi>P</mi> <mi>k</mi> </msup> <mo>=</mo> <mo>&amp;lsqb;</mo> <mi>I</mi> <mo>-</mo> <msub> <mi>K</mi> <mi>G</mi> </msub> <msup> <mover> <mi>X</mi> <mo>^</mo> </mover> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <msub> <mi>P</mi> <mrow> <mi>Pr</mi> <mi>e</mi> </mrow> </msub> </mrow>
其中,KG为Kalman增益,
PPre为预测向量方差矩阵,用于计算Kalman增益,
Pk为向量方差矩阵,用于更新PPre
E(k)为估算混响分量。
8.根据权利要求7所述的混响抑制方法,其特征在于,所述E(k)由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数,EPre,o为前一帧的预测混响分量。
9.根据权利要求7所述的混响抑制方法,其特征在于,所述计算Kalman增益,并更新预测向量方差矩阵之前,还包括:
更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:
<mrow> <msub> <mi>P</mi> <mrow> <mi>Pr</mi> <mi>e</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>P</mi> <mi>k</mi> </msup> <mo>+</mo> <msup> <mn>10</mn> <mrow> <mo>-</mo> <mn>3</mn> </mrow> </msup> <msup> <mi>I</mi> <mrow> <msub> <mi>L</mi> <mi>G</mi> </msub> <mo>&amp;times;</mo> <msub> <mi>L</mi> <mi>G</mi> </msub> </mrow> </msup> </mrow>
<mrow> <msub> <mi>E</mi> <mrow> <mi>Pr</mi> <mi>e</mi> </mrow> </msub> <mo>=</mo> <mi>Y</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mover> <mi>X</mi> <mo>^</mo> </mover> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <msup> <mi>G</mi> <mi>k</mi> </msup> </mrow>
其中,为维度LG×LG的单位矩阵矩阵,Y(l,k)为当前帧的混合语音频谱。
10.一种混响抑制装置,其特征在于,包括:
变换模块,用于将声音信号从时域变换到频域,获得频域信号;
参数计算模块,用于根据所述频域信号计算所述频域信号的语音参数;
更新预测向量模块,用于在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
更新混响功率谱密度模块,用于根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
优化语音频谱计算模块,用于根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
CN201710578806.2A 2017-07-14 2017-07-14 混响抑制方法及装置 Active CN107346658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710578806.2A CN107346658B (zh) 2017-07-14 2017-07-14 混响抑制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710578806.2A CN107346658B (zh) 2017-07-14 2017-07-14 混响抑制方法及装置

Publications (2)

Publication Number Publication Date
CN107346658A true CN107346658A (zh) 2017-11-14
CN107346658B CN107346658B (zh) 2020-07-28

Family

ID=60257198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710578806.2A Active CN107346658B (zh) 2017-07-14 2017-07-14 混响抑制方法及装置

Country Status (1)

Country Link
CN (1) CN107346658B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979476A (zh) * 2017-12-28 2019-07-05 电信科学技术研究院 一种语音去混响的方法及装置
CN111489760A (zh) * 2020-04-01 2020-08-04 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131689A1 (en) * 2003-12-16 2005-06-16 Cannon Kakbushiki Kaisha Apparatus and method for detecting signal
EP1720249A1 (en) * 2005-05-04 2006-11-08 Harman Becker Automotive Systems GmbH Audio enhancement system and method
US20090163168A1 (en) * 2005-04-26 2009-06-25 Aalborg Universitet Efficient initialization of iterative parameter estimation
CN103281054A (zh) * 2013-05-10 2013-09-04 哈尔滨工程大学 一种带噪声统计估值器的自适应滤波方法
CN103440869A (zh) * 2013-09-03 2013-12-11 大连理工大学 一种音频混响的抑制装置及其抑制方法
CN103513240A (zh) * 2012-06-20 2014-01-15 中国科学院声学研究所 一种基于支持向量回归的水下混响抑制方法
CN104658543A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种室内混响消除的方法
CN105338450A (zh) * 2015-09-23 2016-02-17 苏州科达科技股份有限公司 一种残留回波抑制方法及装置
CN105489226A (zh) * 2015-11-23 2016-04-13 湖北工业大学 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
CN106558315A (zh) * 2016-12-02 2017-04-05 深圳撒哈拉数据科技有限公司 异质麦克风自动增益校准方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131689A1 (en) * 2003-12-16 2005-06-16 Cannon Kakbushiki Kaisha Apparatus and method for detecting signal
US20090163168A1 (en) * 2005-04-26 2009-06-25 Aalborg Universitet Efficient initialization of iterative parameter estimation
EP1720249A1 (en) * 2005-05-04 2006-11-08 Harman Becker Automotive Systems GmbH Audio enhancement system and method
CN103513240A (zh) * 2012-06-20 2014-01-15 中国科学院声学研究所 一种基于支持向量回归的水下混响抑制方法
CN103281054A (zh) * 2013-05-10 2013-09-04 哈尔滨工程大学 一种带噪声统计估值器的自适应滤波方法
CN103440869A (zh) * 2013-09-03 2013-12-11 大连理工大学 一种音频混响的抑制装置及其抑制方法
CN104658543A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种室内混响消除的方法
CN105338450A (zh) * 2015-09-23 2016-02-17 苏州科达科技股份有限公司 一种残留回波抑制方法及装置
CN105489226A (zh) * 2015-11-23 2016-04-13 湖北工业大学 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
CN106558315A (zh) * 2016-12-02 2017-04-05 深圳撒哈拉数据科技有限公司 异质麦克风自动增益校准方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章旭景: "《基于卡尔曼滤波的语音增强算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979476A (zh) * 2017-12-28 2019-07-05 电信科学技术研究院 一种语音去混响的方法及装置
CN109979476B (zh) * 2017-12-28 2021-05-14 电信科学技术研究院 一种语音去混响的方法及装置
CN111489760A (zh) * 2020-04-01 2020-08-04 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
CN111489760B (zh) * 2020-04-01 2023-05-16 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN107346658B (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN107393550A (zh) 语音处理方法及装置
WO2020177371A1 (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
US11024324B2 (en) Methods and devices for RNN-based noise reduction in real-time conferences
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN109524020A (zh) 一种语音增强处理方法
CN109215674A (zh) 实时语音增强方法
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
CN106971740A (zh) 基于语音存在概率和相位估计的语音增强方法
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
CN106992002A (zh) 用于改进含噪语音识别的动态声学模型切换
CN105390142A (zh) 一种数字助听器语音噪声消除方法
CN111048061B (zh) 回声消除滤波器的步长获取方法、装置及设备
CN106384588A (zh) 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
CN114974280A (zh) 音频降噪模型的训练方法、音频降噪的方法及装置
CN107360497A (zh) 估算混响分量的计算方法及装置
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
CN107346658A (zh) 混响抑制方法及装置
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN107393553A (zh) 用于语音活动检测的听觉特征提取方法
CN106024001A (zh) 一种提高麦克风阵列语音增强性能的方法
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
Abe et al. Robust speech recognition using DNN-HMM acoustic model combining noise-aware training with spectral subtraction.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221125

Address after: 2C1, Plant 2, Baimenqian Industrial Zone, No. 215, Busha Road, Nanlong Community, Nanwan Street, Longgang District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yajin Smart Technology Co.,Ltd.

Address before: 518000 Jinhua building, Longfeng 3rd road, Dalang street, Longhua New District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right