CN107346658B - 混响抑制方法及装置 - Google Patents
混响抑制方法及装置 Download PDFInfo
- Publication number
- CN107346658B CN107346658B CN201710578806.2A CN201710578806A CN107346658B CN 107346658 B CN107346658 B CN 107346658B CN 201710578806 A CN201710578806 A CN 201710578806A CN 107346658 B CN107346658 B CN 107346658B
- Authority
- CN
- China
- Prior art keywords
- reverberation
- voice
- updating
- prediction
- spectral density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000001629 suppression Effects 0.000 title claims description 29
- 239000013598 vector Substances 0.000 claims abstract description 67
- 238000001228 spectrum Methods 0.000 claims abstract description 59
- 230000003595 spectral effect Effects 0.000 claims abstract description 48
- 230000005236 sound signal Effects 0.000 claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000009499 grossing Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 21
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- FPIPGXGPPPQFEQ-UHFFFAOYSA-N 13-cis retinol Natural products OCC=C(C)C=CC=C(C)C=CC1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-UHFFFAOYSA-N 0.000 description 1
- FPIPGXGPPPQFEQ-BOOMUCAASA-N Vitamin A Natural products OC/C=C(/C)\C=C\C=C(\C)/C=C/C1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-BOOMUCAASA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- FPIPGXGPPPQFEQ-OVSJKPMPSA-N all-trans-retinol Chemical compound OC\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-OVSJKPMPSA-N 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 235000019155 vitamin A Nutrition 0.000 description 1
- 239000011719 vitamin A Substances 0.000 description 1
- 229940045997 vitamin a Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提出的一种混响抑制方法及装置,先将声音信号从时域变换到频域,获得频域信号,然后使用VAD(Voice Activity Detection,语音活动检测)检测所述频域信号,判断是否存在语音;在存在语音的情况下,使用一个预测误差向量预测声音信号的混响功率谱密度,然后构建衰减因子,计算出优化语音频谱,该优化语音频谱去除了声音信号中的混响部分。本发明提高了采集的声音信号质量。
Description
技术领域
本发明涉及到语音识别领域,特别是涉及到一种混响抑制方法及装置。
背景技术
近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。
在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。
噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。
CN201280047068公开了一种混响抑制装置,具备:回声消除部,去除输入信号中包含的回声分量;啸声抑制部,根据被去除了回声分量的输入信号的频率特性,检测啸声的发生,使所检测出的啸声分量的频率的电平衰减;以及语头抑制部,检测啸声分量的频率电平被衰减的输入信号的声音区间,抑制所检测出的声音区间的声音开始部分的信号值。
然而,该装置提供的是汽车内部空间的混响抑制解决方法,并不适用于家居音频采集时的混响问题。
发明内容
本发明的主要目的为提供一种混响抑制方法及装置,解决家居环境中声音采集的混响问题。
本发明提出一种混响抑制方法,包括以下步骤:
将声音信号从时域变换到频域,获得频域信号;
根据所述频域信号计算所述频域信号的语音参数;
在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
优选地,所述根据所述语音参数更新预测误差向量,具体为:
Gk=G′k+KGEPre
其中,Gk为当前帧的预测误差向量,G′k为前一帧的预测误差向量,KG为Kalman增益,EPre为当前帧的预测混响分量。
优选地,所述根据所述预测误差向量,更新所述声音信号的混响功率谱密度,具体为:
优选地,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
优选地,所述根据所述混响功率谱密度构建衰减因子,输出估算语音频谱,具体为:
其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。
优选地,所述根据所述混响功率谱密度构建衰减因子,输出估算语音频谱之后,还包括:
采用逆傅里叶变换,将所述估算语音频谱恢复为时域信号,具体为:
优选地,所述根据所述语音参数更新预测误差向量之前,还包括:
计算Kalman增益,并更新预测向量方差矩阵,具体为:
其中,KG为Kalman增益,
PPre为预测向量方差矩阵,用于计算Kalman增益,
Pk为向量方差矩阵,用于更新PPre,
E(k)为估算混响分量。
优选地,所述E(k)由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数,EPre,o为前一帧的预测混响分量。
优选地,所述计算Kalman增益,并更新预测向量方差矩阵之前,还包括:
更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:
本发明还提出了一种混响抑制装置,包括:
变换模块,用于将声音信号从时域变换到频域,获得频域信号;
参数计算模块,用于根据所述频域信号计算所述频域信号的语音参数;
更新预测向量模块,用于在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
更新混响功率谱密度模块,用于根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
优化语音频谱计算模块,用于根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
本发明提出的一种混响抑制方法及装置,先将声音信号从时域变换到频域,获得频域信号,然后使用VAD(Voice Activity Detection,语音活动检测)检测所述频域信号,判断是否存在语音;在存在语音的情况下,使用一个预测误差向量预测声音信号的混响功率谱密度,然后构建衰减因子,计算出优化语音频谱,该优化语音频谱去除了声音信号中的混响部分。本发明提高了采集的声音信号质量。
附图说明
图1为本发明混响抑制方法一实施例的流程示意图;
图2为本发明混响抑制装置一实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明所指的声音信号,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。
参照图1,本发明实施例提出一种混响抑制方法,包括以下步骤:
S10、将声音信号从时域变换到频域,获得频域信号;
S20、根据所述频域信号计算所述频域信号的语音参数;
S30、在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
S40、根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
S50、根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
在步骤S10中,取缓冲区数据,并加窗做FFT变换,把时域信号变换到频谱域:
假设混合语音数据为y(t),其中x(t)为带混响语音信号,v(t)为背景噪声,FFT变换(傅里叶变换)如下所示:
其中,w(t)为长度512的汉宁窗,l为时间帧坐标,K为频率坐标。
上述y(t)即为声音信号,Y(l,k)为频域信号。
在前LI帧进行预测误差向量,预测向量方差矩阵,预测误差进行初始化,初始化过程如下所示:
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,为预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差。
从LI+1帧开始,如果语音检测结果表明存在语音活动执行如下自适应更新过程:
更新预测误差,包括预测误差向量和预测频谱误差,更新过程如下所示:
预测频谱误差平滑,使得误差估计更加平滑,具体流程如下所示:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数取值范围在0.6~0.9之间,本项发明取值为0.75。
Kalman增益计算,更新预测向量,更新过程如下所示:
Gk=G′k+KGEPre
这样就获得可用于预测混响分量的向量Gk。
步骤S40中,根据所述预测误差向量,更新所述声音信号的混响功率谱密度,具体计算如下:
α为平滑系数,取值范围为推荐为0.95~0.995,本实施例优选0.98作为平滑阈值。
步骤S50中,根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱,计算如下:
该优化语音频谱,既用来在下一步恢复时域信号,又用于第一步参与后验信噪比的计算。
以下为本发明混响抑制方法具体的计算过程。
首先是背景噪音的估计,噪声能量估计的准确程度直接影响后续语音检测的效果。本发明实施例采用固定噪声估计结合噪声自适应更新的方式来保证噪音估计的稳定性和精确性。初始化及具体计算流程如下所示:
取缓冲区数据,并加窗做FFT变换,把时域信号变换到频谱域:
假设混合语音数据为y(t),其中x(t)为带混响语音信号,v(t)为背景噪声,h(τ)为混响冲击响应信号,s(t-τ)为无混响语音信号。FFT变换(傅里叶变换)如下所示:
其中,w(t)为长度512的汉宁窗,l为时间帧坐标,K为频率坐标。
对前LI时间帧假设没有语音活动,并做如下初始化:
γ(k)=1,ε(k)=κ,k=1,2,...,K
其中,K代表频带整体的数量,ΦV(k)代表噪音信号的功率谱密度,ΦY(k)代表观测信号的功率谱密度,γ(k)为先验信噪比,ε(k)为后验信噪比,为估算语音频谱,初始化为混合频谱的均值乘以一个衰减因子κ,衰减因子取值为0.1。
从第LT+1时间帧开始做迭代计算,计算流程如下所示:
更新观测信号功率谱密度估计值,即根据前一帧的结果,平滑得到下一帧的计算结果:
Φ′Y(k)=αΦY(k)+(1-α)|Y(l,k)|2
其中,α为平滑因子,取值范围为推荐为0.95~0.995,本实施例优选0.98作为平滑阈值。
计算先验信噪比和后验信噪比
其中,β为平滑因子,β为取值范围为0.6~0.9,本实施例优选取值为0.75。Max函数表示选择两个变量中的最大值。
以上只是先验信噪比和后验信噪比的一种优选的计算方式,任何按照上述方法进行适当的变形分解,再进行求解的方式,也应属于本发明的保护范围之内。
根据先验后验信噪比计算噪音功率谱自适应更新步长:
即采用固定步长加上自适应步长的方式,实现整体更新。
根据步长,更新噪音功率谱,基本原则是,如果语音越少,则噪音功率谱更新的步长越大,保证噪音估计的准确性;反之,则采用较慢的步长,以避免语音信号参与噪音功率谱的迭代更新:
ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2。
上式输出即为噪音功率谱更新结果,用以下一帧的噪音更新和作为参数参与语音检测过程。
以下为语音检测的具体过程。
在准确估算出背景噪音参数之后,便可根据背景噪音参数构建听觉特征的。在获得听觉特征之后,将当前帧的听觉特征与设定的听觉阈值比较,便可判断当前帧是否出现语音活动。
语音活动检测主要是为了检测出语音活动的区域,在非语音活动区域,停止对语音的优化处理,减少功耗;在语音活动区域,则可减少噪音干扰,提高语音优化的效果。
在提取当前帧的听觉特征之前,有一初始化过程,具体如下:
对特征缓冲矩阵,特征阈值,语音检测结果缓冲区进行初始化,特征缓冲区矩阵由LI个3维度列向量构成,以公式表示如下:
Q(1:LI)=0
θT(1)=FB(1,1)
θT(2)=FB(2,1)
θT(3)=FB(3,1)
其中,FB为听觉特征缓冲区,Q为语音活动检测结果缓冲区,θT为听觉特征阈值缓冲区,即分别用先验信噪比、后验信噪比和时域信号用以最终的语音活动检测。在听觉特征计算中,LW代表窗长,LT代表起始样本点,起始样本点取值范围通常在5~20之间,本实施例设定为10。
从第LT+1时间帧开始,计算当前帧听觉特征如下所示:
根据当前帧听觉特征计算结果,更新特征缓冲区和特征阈值,即把缓冲区内时间最久的数据踢出缓冲区.把当前帧数据放入缓冲区:
并求取各维度参数对应的听觉阈值:
θT(i)=Max(θ′T(i),Minj-1,...,LI(FB(i,j))),i=1,2,3
当前听觉特征与听觉阈值进行对比,根据对比结果确定语音检测的结果,具体计算如下所示:
q(i)为所述听觉特征的维度参数的得分,QFrame为语音检查的判断结果,结果为1则表明当前帧存在语音,结果为0则表明当前帧不存在语音。
更新语音检测结果缓冲区,同样把缓冲区内时间最久的数据踢出缓冲区,加入当前帧判断结果,并计算缓冲区内平均的语音检测结果:
Q=[Q′(:,2:LB);QFrame]
然后,计算语音检测结果缓冲区内检测结果的统计值,在此处采用的是计算检测结果的总和,具体计算如下:
由于语音通常是连续出现的,对比QM与固定阈值δLI,如果小于阈值,表明当前缓冲区内语音存在帧为误检,当前缓冲区内没有语音,更新特征阈值并把语音频谱估计结果设为一个极小值,计算如下所示:
θT(i)=Maxj-1,...,LI(FB(i,j)),i=1,2,3
δ取值范围为0.1~0.3,本项发明取值为0.15。若无误检,表明当前缓冲区内有语音出现,可对该声音信号继续优化处理。
Kalman自适应增强是假定用一个长为LG的前向预测滤波器,对纯净语音频谱进行预测,通常LG<LI。在本项发明中,这两个参数分别设置为LG=15,LI=25。由于语音信号可以用一个自回归模型来很好的表达,预测的误差可以理解为混响分量。基于最小均方误差准则,滤波器更新的自适应过程如下所示:
在前LI帧进行预测误差向量,预测向量方差矩阵,预测误差进行初始化,初始化过程如下所示:
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,为预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差。
从LI+1帧开始,如果语音检测结果表明存在语音活动执行如下自适应更新过程:
(1.1)更新预测误差,包括预测误差向量和预测频谱误差,更新过程如下所示:
(1.2)预测频谱误差平滑,使得误差估计更加平滑,具体流程如下所示:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数取值范围在0.6~0.9之间,本项发明取值为0.75。
(1.3)Kalman增益计算,更新预测向量,更新过程如下所示:
Gk=G′k+KGEPre
(1.4)混响功率谱密度更新,更新过程如下所示:
该混响功率谱密度与观测信号功率谱密度采用同一个平滑系数。φ′R(k)为前一帧的混响功率谱密度。混响功率谱密度的初始设置值为0。
(1.5)根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:
该频谱估计值既用来在下一步恢复时域信号,又用于第一步参与后验信噪比的计算。
(1.6)循环执行1.1-1.5至所有频带更新完毕,采用逆傅里叶变换恢复时域信号,计算流程如下所示:
恢复出时域信号之后,发送到后续应用终端,比如通讯设备或者语音识别引擎,实现噪声、混响联合抑制。
参照图2,本发明还提出了一种混响抑制装置,包括:
变换模块10,用于将声音信号从时域变换到频域,获得频域信号;
参数计算模块20,用于根据所述频域信号计算所述频域信号的语音参数;
更新预测向量模块30,用于在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
更新混响功率谱密度模块40,用于根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
优化语音频谱计算模块50,用于根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
可选地,所述更新预测向量模块30,用于根据所述语音参数更新预测误差向量,具体为:
Gk=G′k+KGEPre
其中,Gk为当前帧的预测误差向量,G′k为前一帧的预测误差向量,KG为Kalman增益,EPre为当前帧的预测混响分量。
可选地,所述更新混响功率谱密度模块40,用于根据所述预测误差向量,更新所述声音信号的混响功率谱密度,具体为:
可选地,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
可选地,所述优化语音频谱计算模块50,用于根据所述混响功率谱密度构建衰减因子,输出估算语音频谱,具体为:
其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。
可选地,还包括频谱恢复模块,用于采用逆傅里叶变换,将所述估算语音频谱恢复为时域信号,具体为:
可选地,所述参数计算模块20,包括:
第二参数计算单元,用于计算Kalman增益,并更新预测向量方差矩阵,具体为:
其中,KG为Kalman增益,
PPre为预测向量方差矩阵,用于计算Kalman增益,
Pk为向量方差矩阵,用于更新PPre,
E(k)为估算混响分量。
可选地,所述E(k)由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数,EPre,o为前一帧的预测混响分量。
可选地,所述参数计算模块20,还包括:
第一参数计算单元,用于更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:
本发明可以用于辅助应用于家居环境下的语音指令识别。在家居环境下,用户距离麦克风大约为1米至3米,会受到家庭噪声和墙壁混响的影响,识别率会迅速下降。本发明提出的混响抑制方法与装置,可以优化语音质量。经实验证明,在距离麦克风2米左右,输入信噪比10dB左右,识别率可以从30%提高到65%,当增加噪声至20dB,识别率从10%提高至50%左右。
本发明提出的一种混响抑制方法及装置,先将声音信号从时域变换到频域,获得频域信号,然后使用VAD(Voice Activity Detection,语音活动检测)检测所述频域信号,判断是否存在语音;在存在语音的情况下,使用一个预测误差向量预测声音信号的混响功率谱密度,然后构建衰减因子,计算出优化语音频谱,该优化语音频谱去除了声音信号中的混响部分。本发明提高了采集的声音信号质量。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种混响抑制方法,其特征在于,包括以下步骤:
将声音信号从时域变换到频域,获得频域信号;
根据所述频域信号计算所述频域信号的语音参数,其中语音参数包括估算语音频谱,频域信号,预测向量方差矩阵,预测误差;
在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
2.根据权利要求1所述的混响抑制方法,其特征在于,所述根据所述语音参数更新预测误差向量,具体为:
Gk=G′k+KGEPre
其中,Gk为当前帧的预测误差向量,G′k为前一帧的预测误差向量,KG为Kalman增益,EPre为当前帧的预测混响分量。
4.根据权利要求3所述的混响抑制方法,其特征在于,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
8.根据权利要求7所述的混响抑制方法,其特征在于,所述E(k)由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数,EPre,o为前一帧的预测混响分量。
10.一种混响抑制装置,其特征在于,包括:
变换模块,用于将声音信号从时域变换到频域,获得频域信号;
参数计算模块,用于根据所述频域信号计算所述频域信号的语音参数,其中语音参数包括估算语音频谱,频域信号,预测向量方差矩阵,预测误差;
更新预测向量模块,用于在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
更新混响功率谱密度模块,用于根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
优化语音频谱计算模块,用于根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710578806.2A CN107346658B (zh) | 2017-07-14 | 2017-07-14 | 混响抑制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710578806.2A CN107346658B (zh) | 2017-07-14 | 2017-07-14 | 混响抑制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107346658A CN107346658A (zh) | 2017-11-14 |
CN107346658B true CN107346658B (zh) | 2020-07-28 |
Family
ID=60257198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710578806.2A Active CN107346658B (zh) | 2017-07-14 | 2017-07-14 | 混响抑制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107346658B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979476B (zh) * | 2017-12-28 | 2021-05-14 | 电信科学技术研究院 | 一种语音去混响的方法及装置 |
CN111489760B (zh) * | 2020-04-01 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1720249A1 (en) * | 2005-05-04 | 2006-11-08 | Harman Becker Automotive Systems GmbH | Audio enhancement system and method |
CN103281054A (zh) * | 2013-05-10 | 2013-09-04 | 哈尔滨工程大学 | 一种带噪声统计估值器的自适应滤波方法 |
CN103440869A (zh) * | 2013-09-03 | 2013-12-11 | 大连理工大学 | 一种音频混响的抑制装置及其抑制方法 |
CN103513240A (zh) * | 2012-06-20 | 2014-01-15 | 中国科学院声学研究所 | 一种基于支持向量回归的水下混响抑制方法 |
CN104658543A (zh) * | 2013-11-20 | 2015-05-27 | 大连佑嘉软件科技有限公司 | 一种室内混响消除的方法 |
CN105338450A (zh) * | 2015-09-23 | 2016-02-17 | 苏州科达科技股份有限公司 | 一种残留回波抑制方法及装置 |
CN105489226A (zh) * | 2015-11-23 | 2016-04-13 | 湖北工业大学 | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 |
CN106558315A (zh) * | 2016-12-02 | 2017-04-05 | 深圳撒哈拉数据科技有限公司 | 异质麦克风自动增益校准方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4497911B2 (ja) * | 2003-12-16 | 2010-07-07 | キヤノン株式会社 | 信号検出装置および方法、ならびにプログラム |
WO2006114102A1 (en) * | 2005-04-26 | 2006-11-02 | Aalborg Universitet | Efficient initialization of iterative parameter estimation |
-
2017
- 2017-07-14 CN CN201710578806.2A patent/CN107346658B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1720249A1 (en) * | 2005-05-04 | 2006-11-08 | Harman Becker Automotive Systems GmbH | Audio enhancement system and method |
CN103513240A (zh) * | 2012-06-20 | 2014-01-15 | 中国科学院声学研究所 | 一种基于支持向量回归的水下混响抑制方法 |
CN103281054A (zh) * | 2013-05-10 | 2013-09-04 | 哈尔滨工程大学 | 一种带噪声统计估值器的自适应滤波方法 |
CN103440869A (zh) * | 2013-09-03 | 2013-12-11 | 大连理工大学 | 一种音频混响的抑制装置及其抑制方法 |
CN104658543A (zh) * | 2013-11-20 | 2015-05-27 | 大连佑嘉软件科技有限公司 | 一种室内混响消除的方法 |
CN105338450A (zh) * | 2015-09-23 | 2016-02-17 | 苏州科达科技股份有限公司 | 一种残留回波抑制方法及装置 |
CN105489226A (zh) * | 2015-11-23 | 2016-04-13 | 湖北工业大学 | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 |
CN106558315A (zh) * | 2016-12-02 | 2017-04-05 | 深圳撒哈拉数据科技有限公司 | 异质麦克风自动增益校准方法及系统 |
Non-Patent Citations (1)
Title |
---|
《基于卡尔曼滤波的语音增强算法研究》;章旭景;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20100715;第19-29页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107346658A (zh) | 2017-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107393550B (zh) | 语音处理方法及装置 | |
CN108831495B (zh) | 一种应用于噪声环境下语音识别的语音增强方法 | |
CN111899752B (zh) | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 | |
TWI398855B (zh) | 多重麥克風聲音活動偵測器 | |
CN111418012B (zh) | 用于处理音频信号的方法和音频处理设备 | |
CN103456310B (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
CN102938254B (zh) | 一种语音信号增强系统和方法 | |
CN111418010A (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
CN111445919B (zh) | 结合ai模型的语音增强方法、系统、电子设备和介质 | |
CN107360497B (zh) | 估算混响分量的计算方法及装置 | |
US20210125625A1 (en) | Apparatus and method for multiple-microphone speech enhancement | |
CN106558315B (zh) | 异质麦克风自动增益校准方法及系统 | |
Mosayyebpour et al. | Single-microphone early and late reverberation suppression in noisy speech | |
JPWO2010046954A1 (ja) | 雑音抑圧装置および音声復号化装置 | |
CN112201273B (zh) | 一种噪声功率谱密度计算方法、系统、设备及介质 | |
CN105635500A (zh) | 双麦克风回声及噪声的抑制系统及其方法 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN107346658B (zh) | 混响抑制方法及装置 | |
CN114242095B (zh) | 基于采用谐波结构的omlsa框架的神经网络降噪系统和方法 | |
CN107393553B (zh) | 用于语音活动检测的听觉特征提取方法 | |
WO2020107455A1 (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN112151060B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
CN110718230B (zh) | 一种消除混响的方法和系统 | |
CN107393559B (zh) | 检校语音检测结果的方法及装置 | |
CN107393558B (zh) | 语音活动检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221125 Address after: 2C1, Plant 2, Baimenqian Industrial Zone, No. 215, Busha Road, Nanlong Community, Nanwan Street, Longgang District, Shenzhen, Guangdong 518000 Patentee after: Shenzhen Yajin Smart Technology Co.,Ltd. Address before: 518000 Jinhua building, Longfeng 3rd road, Dalang street, Longhua New District, Shenzhen City, Guangdong Province Patentee before: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |