CN107360497B - 估算混响分量的计算方法及装置 - Google Patents

估算混响分量的计算方法及装置 Download PDF

Info

Publication number
CN107360497B
CN107360497B CN201710578807.7A CN201710578807A CN107360497B CN 107360497 B CN107360497 B CN 107360497B CN 201710578807 A CN201710578807 A CN 201710578807A CN 107360497 B CN107360497 B CN 107360497B
Authority
CN
China
Prior art keywords
reverberation component
prediction
estimated
reverberation
prediction error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710578807.7A
Other languages
English (en)
Other versions
CN107360497A (zh
Inventor
蔡钢林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yajin Smart Technology Co ltd
Original Assignee
Shenzhen Yonsz Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yonsz Information Technology Co ltd filed Critical Shenzhen Yonsz Information Technology Co ltd
Priority to CN201710578807.7A priority Critical patent/CN107360497B/zh
Publication of CN107360497A publication Critical patent/CN107360497A/zh
Application granted granted Critical
Publication of CN107360497B publication Critical patent/CN107360497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Abstract

本发明提出的一种估算混响分量的计算方法及装置,构建了预测误差向量,使其与语音数据进行结合,求出预测混响分量,再对所述预测混响分量进行平滑处理,获得估算混响分量。获得的估算混响分量可用于计算混响功率谱密度,进而根据维纳滤波原理,将采集到的语音信号中的混响分量滤去,提高了采集的语音数据的质量。

Description

估算混响分量的计算方法及装置
技术领域
本发明涉及到语音识别领域,特别是涉及到一种估算混响分量的计算方法及装置。
背景技术
近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。
在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。
噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。
CN201280047068公开了一种混响抑制装置,具备:回声消除部,去除输入信号中包含的回声分量;啸声抑制部,根据被去除了回声分量的输入信号的频率特性,检测啸声的发生,使所检测出的啸声分量的频率的电平衰减;以及语头抑制部,检测啸声分量的频率电平被衰减的输入信号的声音区间,抑制所检测出的声音区间的声音开始部分的信号值。
然而,该装置提供的是汽车内部空间的混响抑制解决方法,并不适用于家居音频采集时的混响问题。而解决家居音频采集时的混响问题,需要预判声音信号中的混响分量。
发明内容
本发明的主要目的为提供一种估算混响分量的计算方法及装置,旨在辅助解决家居环境中声音采集的混响问题。
本发明提出一种基于深度神经网络的特定声源检测方法,包括以下步骤:
构建预测误差向量;
根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o
求取估算混响分量,所述估算混响分量由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数。
优选地,所述前一帧的预测混响分量EPre,o,由以下式子求得:
Figure GDA0002599433630000021
其中,Y(l-1,k)为前一帧的混合语音频谱,
Figure GDA0002599433630000022
为估算语音频谱
Figure GDA0002599433630000023
的转置矩阵;Gk为所述预测误差向量。
优选地,所述η的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。
优选地,所述构建预测误差向量之前,还包括:
在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量,具体为;
Figure GDA0002599433630000024
Figure GDA0002599433630000025
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的估算混响分量。
优选地,所述在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量之后,还包括:
从LI+1帧开始,当检测出语音活动,更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:
Figure GDA0002599433630000026
Figure GDA0002599433630000031
其中,
Figure GDA0002599433630000032
为维度LG×LG的单位矩阵,Y(l,k)为当前帧的混合语音频谱。
优选地,所述求取估算混响分量之后,还包括:
计算Kalman增益,Kalman增益由以下式子求得:
Figure GDA0002599433630000033
其中,KG为Kalman增益。
优选地,所述计算Kalman增益之后,还包括:
更新预测向量方差矩阵和预测误差向量,具体为:
Figure GDA0002599433630000034
Gk=G′k+KGEPre
其中,G′k为前一帧的预测误差向量。
优选地,所述更新预测向量方差矩阵和预测误差向量之后,还包括:
更新混响功率谱密度,具体为:
Figure GDA0002599433630000035
其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
优选地,所述更新混响功率谱密度之后,还包括:
根据维纳滤波构建衰减因子,输出语音估计频谱,计算如下:
Figure GDA0002599433630000036
Figure GDA0002599433630000037
其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。
本发明还提供了一种估算混响分量的计算装置,包括:
预测误差向量计算模块,用于构建预测误差向量;
预测混响分量计算模块,用于根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o
估算混响分量计算模块,用于求取估算混响分量,所述估算混响分量由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数。
优选地,所述预测混响分量计算模块包括:
第一预测混响分量计算单元,用于计算所述前一帧的预测混响分量EPre,EPre,o由以下式子求得:
Figure GDA0002599433630000041
其中,Y(l-1,k)为前一帧的混合语音频谱,
Figure GDA0002599433630000042
为估算语音频谱
Figure GDA0002599433630000043
的转置矩阵;Gk为所述预测误差向量。
优选地,所述η的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。
优选地,还包括:
初始化模块,用于在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量,具体为;
Figure GDA0002599433630000044
Figure GDA0002599433630000045
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的估算混响分量。
优选地,还包括:
第一更新模块,用于从LI+1帧开始,当检测出语音活动,更新所述预测向量方差矩阵和当前帧的预测混响分量EPre,具体为:
Figure GDA0002599433630000046
Figure GDA0002599433630000047
其中,
Figure GDA0002599433630000048
为维度LG×LG的单位矩阵,Y(l,k)为当前帧的混合语音频谱。
优选地,还包括:
Kalman增益模块,用于计算Kalman增益,Kalman增益由以下式子求得:
Figure GDA0002599433630000049
其中,KG为Kalman增益。
优选地,还包括:
第二更新模块,用于更新预测向量方差矩阵和预测误差向量,具体为:
Figure GDA00025994336300000410
Gk=G′k+KGEPre
其中,G′k为前一帧的预测误差向量。
优选地,还包括:
第三更新模块,用于更新混响功率谱密度,具体为:
Figure GDA0002599433630000051
其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
优选地,还包括:
输出模块,用于根据维纳滤波构建衰减因子,输出语音估计频谱,计算如下:
Figure GDA0002599433630000052
Figure GDA0002599433630000053
其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。
本发明提出的一种估算混响分量的计算方法及装置,构建了预测误差向量,使其与语音数据进行结合,求出预测混响分量,再对所述预测混响分量进行平滑处理,获得估算混响分量。获得的估算混响分量可用于计算混响功率谱密度,进而根据维纳滤波原理,将采集到的语音信号中的混响分量滤去,提高了采集的语音数据的质量。
附图说明
图1为本发明估算混响分量的计算方法一实施例的流程示意图;
图2为本发明估算混响分量的计算装置一实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明所指的声音信号或声音数据,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。
参照图1,本发明提出一种估算混响分量的计算方法,包括以下步骤:
S10、构建预测误差向量;
S20、根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o;
S30、求取估算混响分量,所述估算混响分量由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数。
在步骤S10之前,对声音数据进行傅里叶变换后,估测声音数据中的噪音值,并经过语音检测处理,分检出需要处理的包含语音信息的数据。
本发明实施例是针对声音数据的处理方法,特别的,上述声音数据包含语音信息。
步骤S10中,构建预测误差向量Gk,Gk的初始值为维度LG×1的0向量。
Gk的取值会根据在前时间的参数而发生变化。
步骤S20中,上述预测误差向量,结合混合语音频谱及估算语音频谱,计算出当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o具体计算如下:
Figure GDA0002599433630000061
Figure GDA0002599433630000062
Y(l,k)为当前帧的混合语音频谱,Y(l-1,k)为前一帧的混合语音频谱,
Figure GDA0002599433630000063
为估算语音频谱
Figure GDA0002599433630000064
的转置矩阵。
步骤S30中,对当前帧的预测混响分量EPre和前一帧的预测混响分量EPre进行平滑处理,获得估算混响分量。
所述估算混响分量由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数,η的取值范围为0.6-0.9,本实施例的优选取值为0.75。
以下为噪音估计具体的计算过程。
首先是背景噪音的估计,噪声能量估计的准确程度直接影响后续语音检测的效果。本发明实施例采用固定噪声估计结合噪声自适应更新的方式来保证噪音估计的稳定性和精确性。初始化及具体计算流程如下所示:
取缓冲区数据,并加窗做FFT变换,把时域信号变换到频谱域:
假设混合语音数据为y(t),其中x(t)为带混响语音信号,v(t)为背景噪声,h(τ)为混响冲击响应信号,s(t-τ)为无混响语音信号。FFT变换(傅里叶变换)如下所示:
Figure GDA0002599433630000071
Figure GDA0002599433630000072
其中,w(t)为长度512的汉宁窗,l为时间帧坐标,K为频率坐标。
对前LI时间帧假设没有语音活动,并做如下初始化:
Figure GDA0002599433630000073
Figure GDA0002599433630000074
Figure GDA0002599433630000075
γ(k)=1,ε(k)=κ,k=1,2,...,K
其中,K代表频带整体的数量,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,γ(k)为先验信噪比,ε(k)为后验信噪比,
Figure GDA0002599433630000076
为估算语音频谱,初始化为混合频谱的均值乘以一个衰减因子κ,衰减因子取值为0.1。
从第LT+1时间帧开始做迭代计算,计算流程如下所示:
更新观测信号功率谱密度估计值,即根据前一帧的结果,平滑得到下一帧的计算结果:
φY′(k)=αφY(k)+(1-α)Y(1,k)2
其中,α为平滑因子,取值范围为推荐为0.95~0.995,本实施例优选0.98作为平滑阈值。
计算先验信噪比和后验信噪比
Figure GDA0002599433630000077
Figure GDA0002599433630000078
其中,β为平滑因子,β为取值范围为0.6~0.9,本实施例优选取值为0.75。Max函数表示选择两个变量中的最大值。
以上只是先验信噪比和后验信噪比的一种优选的计算方式,任何按照上述方法进行适当的变形分解,再进行求解的方式,也应属于本发明的保护范围之内。
根据先验后验信噪比计算噪音功率谱自适应更新步长:
Figure GDA0002599433630000081
即采用固定步长加上自适应步长的方式,实现整体更新。
根据步长,更新噪音功率谱,基本原则是,如果语音越少,则噪音功率谱更新的步长越大,保证噪音估计的准确性;反之,则采用较慢的步长,以避免语音信号参与噪音功率谱的迭代更新:
φv(k)=αV(k)φ′V(k)+(1-αV(k))|Y(1,k)|2
上式输出即为噪音功率谱更新结果,用以下一帧的噪音更新和作为参数参与语音检测过程。
以下为语音检测的具体过程。
在准确估算出背景噪音参数之后,便可根据背景噪音参数构建听觉特征的。在获得听觉特征之后,将当前帧的听觉特征与设定的听觉阈值比较,便可判断当前帧是否出现语音活动。
语音活动检测主要是为了检测出语音活动的区域,在非语音活动区域,停止对语音的优化处理,减少功耗;在语音活动区域,则可减少噪音干扰,提高语音优化的效果。
在提取当前帧的听觉特征之前,有一初始化过程,具体如下:
对特征缓冲矩阵,特征阈值,语音检测结果缓冲区进行初始化,特征缓冲区矩阵由LI个3维度列向量构成,以公式表示如下:
Figure GDA0002599433630000082
Figure GDA0002599433630000083
Figure GDA0002599433630000084
Q(1:LI)=0
θT(1)=FB(1,1)
θT(2)=FB(2,1)
θT(3)=FB(3,1)
其中,FB为听觉特征缓冲区,Q为语音活动检测结果缓冲区,θTT为听觉特征阈值缓冲区,即分别用先验信噪比、后验信噪比和时域信号用以最终的语音活动检测。在听觉特征计算中,LW代表窗长,LT代表起始样本点,起始样本点取值范围通常在5~20之间,本实施例设定为10。
从第LT+1时间帧开始,计算当前帧听觉特征如下所示:
Figure GDA0002599433630000091
Figure GDA0002599433630000092
Figure GDA0002599433630000093
根据当前帧听觉特征计算结果,更新特征缓冲区和特征阈值,即把缓冲区内时间最久的数据踢出缓冲区,把当前帧数据放入缓冲区:
Figure GDA0002599433630000094
并求取各维度参数对应的听觉阈值:
θT(i)=Max(θ′T(i),Minj-1,...,LI(FB(i,j))),i=1,2,3
当前听觉特征与听觉阈值进行对比,根据对比结果确定语音检测的结果,具体计算如下所示:
Figure GDA0002599433630000095
Figure GDA0002599433630000096
q(i)为所述听觉特征的维度参数的得分,QFrame为语音检查的判断结果,结果为1则表明当前帧存在语音,结果为0则表明当前帧不存在语音。
更新语音检测结果缓冲区,同样把缓冲区内时间最久的数据踢出缓冲区,加入当前帧判断结果,并计算缓冲区内平均的语音检测结果。
Q=[Q′(:,2:LB);QFrame]
然后,计算语音检测结果缓冲区内检测结果的统计值,在此处采用的是计算检测结果的总和,具体计算如下:
Figure GDA0002599433630000101
由于语音通常是连续出现的,对比QM与固定阈值δLI,如果小于阈值,表明当前缓冲区内语音存在帧为误检,当前缓冲区内没有语音,更新特征阈值并把语音频谱估计结果设为一个极小值,计算如下所示:
θT(i)=Maxj-1,...,LI(FB(i,j)),i=1,2,3
同时,更新估算语音频谱
Figure GDA0002599433630000102
计算如下:
Figure GDA0002599433630000103
δ取值范围为0.1~0.3,本项发明取值为0.15。若无误检,表明当前缓冲区内有语音出现,可对该声音信号继续优化处理。
Kalman自适应增强是假定用一个长为LG的前向预测滤波器,对纯净语音频谱进行预测,通常LG<LI。在本项发明中,这两个参数分别设置为LG=15,LI=25。由于语音信号可以用一个自回归模型来很好的表达,预测的误差可以理解为混响分量。基于最小均方误差准则,滤波器更新的自适应过程如下所示:
在前LI帧进行预测误差向量,预测向量方差矩阵,预测误差进行初始化,初始化过程如下所示:
Figure GDA0002599433630000104
Figure GDA0002599433630000105
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的预测误差。
从LT+1帧开始,如果语音检测结果表明存在语音活动执行如下自适应更新过程:
(1.1)更新预测误差,包括预测误差向量和预测频谱误差,更新过程如下所示:
Figure GDA0002599433630000106
Figure GDA0002599433630000107
其中
Figure GDA0002599433630000108
为维度LG×LG的单位矩阵。
(1.2)预测频谱误差平滑,使得误差估计更加平滑,具体流程如下所示:
Figure GDA0002599433630000111
Figure GDA0002599433630000112
其中,η为平滑系数取值范围在0.6~0.9之间,本项发明取值为0.75。
(1.3)Kalman增益计算,更新预测向量,更新过程如下所示:
Figure GDA0002599433630000113
Figure GDA0002599433630000114
Gk=G′k+KGEPre
(1.4)混响功率谱密度更新,更新过程如下所示:
Figure GDA0002599433630000115
该混响功率谱密度与观测信号功率谱密度采用同一个平滑系数α。φ′R(k)为前一帧的混响功率谱密度。混响功率谱密度的初始设置值为0。
(1.5)根据维纳滤波构建衰减因子,输出估算语音频谱,计算如下:
Figure GDA0002599433630000116
Figure GDA0002599433630000117
该频谱估计值既用来在下一步恢复时域信号,又用于第一步参与后验信噪比的计算。
(1.6)循环执行1.1-1.5至所有频带更新完毕,采用逆傅里叶变换恢复时域信号,计算流程如下所示:
Figure GDA0002599433630000118
恢复出时域信号之后,发送到后续应用终端,比如通讯设备或者语音识别引擎,实现噪声、混响联合抑制。
参照图2,本发明还提出了一种估算混响分量的计算装置,包括:
预测误差向量计算模块,用于构建预测误差向量;
预测混响分量计算模块,用于根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o
估算混响分量计算模块,用于求取估算混响分量,所述估算混响分量由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数。
本发明可以用于辅助应用于家居环境下的语音指令识别。在家居环境下,用户距离麦克风大约为1米至3米,会受到家庭噪声和墙壁混响的影响,识别率会迅速下降。本发明提出的估算混响分量的计算方法与装置,可以辅助优化语音质量。经实验证明,在距离麦克风2米左右,输入信噪比10dB左右,识别率可以从30%提高到65%,当增加噪声至20dB,识别率从10%提高至50%左右。
本发明提出的一种估算混响分量的计算方法及装置,构建了预测误差向量,使其与语音数据进行结合,求出预测混响分量,再对所述预测混响分量进行平滑处理,获得估算混响分量。获得的估算混响分量可用于计算混响功率谱密度,进而根据维纳滤波原理,将采集到的语音信号中的混响分量滤去,提高了采集的语音数据的质量。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种估算混响分量的计算方法,其特征在于,包括以下步骤:
构建预测误差向量;
根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o
其中,
Figure FDA0002599433620000011
Y(l-1,k)为前一帧的混合语音频谱,Y(l,k)为当前帧的混合语音频谱,
Figure FDA0002599433620000012
为估算语音频谱
Figure FDA0002599433620000013
的转置矩阵;Gk为所述预测误差向量;
求取估算混响分量,所述估算混响分量由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数。
2.根据权利要求1所述的估算混响分量的计算方法,其特征在于,所述η的取值范围为[0.6,0.75)、0.75或(0.75,0.9]。
3.根据权利要求1所述的估算混响分量的计算方法,其特征在于,所述构建预测误差向量之前,还包括:
在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量,具体为;
Figure FDA0002599433620000014
Figure FDA0002599433620000015
E(k)=0
其中,预测向量方差矩阵Pk为维度LG×LG的0矩阵,预测误差向量Gk为维度LG×1的0向量,E(k)为采用当前预测向量获得的估算混响分量。
4.根据权利要求3所述的估算混响分量的计算方法,其特征在于,所述在前LI帧,初始化预测向量方差矩阵及所述预测误差向量、估算混响分量之后,还包括:
从LI+1帧开始,当检测出语音活动,更新所述预测向量方差矩阵,具体为:
Figure FDA0002599433620000021
其中,
Figure FDA0002599433620000022
为维度LG×LG的单位矩阵。
5.根据权利要求4所述的估算混响分量的计算方法,其特征在于,所述求取估算混响分量之后,还包括:
计算Kalman增益,Kalman增益由以下式子求得:
Figure FDA0002599433620000023
其中,KG为Kalman增益。
6.根据权利要求5所述的估算混响分量的计算方法,其特征在于,所述计算Kalman增益之后,还包括:
更新预测向量方差矩阵和预测误差向量,具体为:
Figure FDA0002599433620000024
Gk1=G′k+KGEPre
其中,G′k为前一帧的预测误差向量。
7.根据权利要求6所述的估算混响分量的计算方法,其特征在于,所述更新预测向量方差矩阵和预测误差向量之后,还包括:
更新混响功率谱密度,具体为:
Figure FDA0002599433620000025
其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
8.根据权利要求7所述的估算混响分量的计算方法,其特征在于,所述更新混响功率谱密度之后,还包括:
根据维纳滤波构建衰减因子,输出语音估计频谱,计算如下:
Figure FDA0002599433620000026
Figure FDA0002599433620000027
其中,ζ(k)为衰减因子,φY(k)为混合语音功率谱密度,φV(k)为噪音功率谱密度。
9.一种估算混响分量的计算装置,其特征在于,包括:
预测误差向量计算模块,用于构建预测误差向量;
预测混响分量计算模块,用于根据所述预测误差向量,结合混合语音频谱及估算语音频谱,计算当前帧的预测混响分量EPre和前一帧的预测混响分量EPre,o
其中,
Figure FDA0002599433620000031
Y(l-1,k)为前一帧的混合语音频谱,Y(l,k)为当前帧的混合语音频谱,
Figure FDA0002599433620000032
为估算语音频谱
Figure FDA0002599433620000033
的转置矩阵;Gk为所述预测误差向量;
估算混响分量计算模块,用于求取估算混响分量,所述估算混响分量由以下式子求得:
E(k)=η|EPre|2-(1-η)|EPre,o|2
其中,η为平滑系数。
CN201710578807.7A 2017-07-14 2017-07-14 估算混响分量的计算方法及装置 Active CN107360497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710578807.7A CN107360497B (zh) 2017-07-14 2017-07-14 估算混响分量的计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710578807.7A CN107360497B (zh) 2017-07-14 2017-07-14 估算混响分量的计算方法及装置

Publications (2)

Publication Number Publication Date
CN107360497A CN107360497A (zh) 2017-11-17
CN107360497B true CN107360497B (zh) 2020-09-29

Family

ID=60293144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710578807.7A Active CN107360497B (zh) 2017-07-14 2017-07-14 估算混响分量的计算方法及装置

Country Status (1)

Country Link
CN (1) CN107360497B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979476B (zh) * 2017-12-28 2021-05-14 电信科学技术研究院 一种语音去混响的方法及装置
CN110234051B (zh) * 2019-06-27 2021-08-27 中科上声(苏州)电子有限公司 一种基于深度学习的防啸叫扩声方法及系统
CN113571076A (zh) * 2021-06-16 2021-10-29 北京小米移动软件有限公司 信号处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009212599A (ja) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置とその方法と、そのプログラムと記録媒体
CN103440869A (zh) * 2013-09-03 2013-12-11 大连理工大学 一种音频混响的抑制装置及其抑制方法
CN104658543A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种室内混响消除的方法
CN105338450A (zh) * 2015-09-23 2016-02-17 苏州科达科技股份有限公司 一种残留回波抑制方法及装置
CN105427861A (zh) * 2015-11-03 2016-03-23 胡旻波 智能家居协同麦克风语音控制系统及控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9060052B2 (en) * 2013-03-13 2015-06-16 Accusonus S.A. Single channel, binaural and multi-channel dereverberation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009212599A (ja) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置とその方法と、そのプログラムと記録媒体
CN103440869A (zh) * 2013-09-03 2013-12-11 大连理工大学 一种音频混响的抑制装置及其抑制方法
CN104658543A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种室内混响消除的方法
CN105338450A (zh) * 2015-09-23 2016-02-17 苏州科达科技股份有限公司 一种残留回波抑制方法及装置
CN105427861A (zh) * 2015-11-03 2016-03-23 胡旻波 智能家居协同麦克风语音控制系统及控制方法

Also Published As

Publication number Publication date
CN107360497A (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
CN107393550B (zh) 语音处理方法及装置
CN108831495B (zh) 一种应用于噪声环境下语音识别的语音增强方法
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
WO2020177371A1 (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN109727604A (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
US11315586B2 (en) Apparatus and method for multiple-microphone speech enhancement
US10679617B2 (en) Voice enhancement in audio signals through modified generalized eigenvalue beamformer
CN111445919B (zh) 结合ai模型的语音增强方法、系统、电子设备和介质
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
Mosayyebpour et al. Single-microphone early and late reverberation suppression in noisy speech
US8296135B2 (en) Noise cancellation system and method
CN107360497B (zh) 估算混响分量的计算方法及装置
CN112530451A (zh) 基于去噪自编码器的语音增强方法
CN107346658B (zh) 混响抑制方法及装置
CN112151060B (zh) 单通道语音增强方法及装置、存储介质、终端
CN107393553B (zh) 用于语音活动检测的听觉特征提取方法
CN111445916B (zh) 一种会议系统中音频去混响方法、装置及存储介质
Nie et al. Deep Noise Tracking Network: A Hybrid Signal Processing/Deep Learning Approach to Speech Enhancement.
CN107393559B (zh) 检校语音检测结果的方法及装置
CN107393558B (zh) 语音活动检测方法及装置
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
CN113593599A (zh) 一种去除语音信号中噪声信号的方法
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221130

Address after: 2C1, Plant 2, Baimenqian Industrial Zone, No. 215, Busha Road, Nanlong Community, Nanwan Street, Longgang District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yajin Smart Technology Co.,Ltd.

Address before: 518000 Jinhua building, Longfeng 3rd road, Dalang street, Longhua New District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right