CN110111804A - 基于rls算法的自适应去混响方法 - Google Patents

基于rls算法的自适应去混响方法 Download PDF

Info

Publication number
CN110111804A
CN110111804A CN201810102374.2A CN201810102374A CN110111804A CN 110111804 A CN110111804 A CN 110111804A CN 201810102374 A CN201810102374 A CN 201810102374A CN 110111804 A CN110111804 A CN 110111804A
Authority
CN
China
Prior art keywords
signal
dereverberation
sound source
rls algorithm
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810102374.2A
Other languages
English (en)
Other versions
CN110111804B (zh
Inventor
向腾
卢晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201810102374.2A priority Critical patent/CN110111804B/zh
Publication of CN110111804A publication Critical patent/CN110111804A/zh
Application granted granted Critical
Publication of CN110111804B publication Critical patent/CN110111804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

本发明公开了一种基于RLS算法的自适应去混响方法。该方法包括以下步骤:步骤1,利用传声器获取信号,然后通过模数转换将模拟信号转换为数字信号;步骤2,对信号做短时傅里叶变换后,不同频带内的信号单独地利用RLS算法进行去混响;步骤3,对滤波器输出的时‑频域的去混响信号做短时傅里叶逆变换,得到时域的去混响信号。本发明根据滤波器系数的变化量对声源位置进行检测,设计时变的遗忘因子,使得RLS算法在去混响时的声源突变情况下,既具有较快的收敛速度又能有较好的稳态去混响性能。

Description

基于RLS算法的自适应去混响方法
技术领域
本发明属于语音增强的领域,具体涉及一种基于RLS算法的自适应去混响方法。
背景技术
混响会影响语音的清晰度,降低语音识别系统的识别率,甚至会引起听觉疲劳。去混响旨在去除传声器采集到的信号中的房间壁面反射声,去除或减小混响带来的不利影响。
基于谱减法的去混响算法是常用的语音去混响方法(Lebart K,Boucher J M,Denbigh P N.A New Method Based on Spectral Subtraction for SpeechDereverberation[J].Acta Acustica United with Acustica,2001,87(3):359-366.)。中国专利CN102750956A、CN103067821A等去混响方法均是采用基于谱减法的去混响算法。然而,基于谱减法的去混响方法对语音音质有较大程度的损伤。
基于多通道线性预测模型的WPE(Weighted Prediction Error)算法能够有效去除混响语音中的混响成分同时极大地保留语音的音质(T.Nakatani,T.Yoshioka,K.Kinoshita,M.Miyoshi and B.H.Juang,“Speech dereverberation based onvariance-normalized delayed linear prediction,”IEEE Trans.Audio,Speech,Lang.Process.,vol.18,no.7,pp.1717-1731,Sept.2010.)。但是,WPE算法是离线算法,不能应用于需要实时处理的系统,并且不能应对声源位置会发生突变的场景。
基于RLS算法的去混响算法是一种有效的自适应去混响方法,能够在稳态情况下达到离线算法的性能,并且具有较好的鲁棒性。然而,在声源突变的场景下,传统的RLS算法使用固定的遗忘因子,使得RLS算法难以同时具有较快的收敛速度和较好的稳态性能。因此,RLS算法在声源突变时的性能仍需得到提升(S.Braun and E.A.P.Habets,“OnlineDereverberation for Dynamic Scenarios Using a Kalman Filter With anAutoregressive Model,”IEEE Signal Process.Lett.,vol.23,no.12,pp.1741–1745,Dec.2016.)。
发明内容
为了解决在声源突变的场景下,使用RLS算法实现自适应去混响时,既能在声源位置固定的时间段里具有较好的去混响性能,又能够在声源位置发生突变的时刻具有较快的收敛速度的技术问题,本发明提供一种基于改进的RLS算法的自适应去混响方法。
本发明采用的技术方案为:
基于RLS算法的自适应去混响方法,包括以下步骤:
步骤1,利用传声器获取信号,然后通过模数转换将模拟信号转换为数字信号;
步骤2,对信号做短时傅里叶变换后,不同频带内的信号单独地利用RLS算法进行去混响,具体过程为:
步骤21,利用RLS算法的迭代公式进行迭代,对信号进行去混响;
步骤22,计算滤波器系数的变化量:定义δ(n,k)表示RLS算法在第n帧时相邻两帧的滤波器系数变化量:
式中,w(n,k)是滤波器系数,σ(n,k)是期望信号的标准差,(n,k)代表第n帧第k个频带;第n帧总的滤波器系数变化量δT(n)为所有频带变化量之和:
式中,βw是加权平滑因子;
然后根据下式判断声源位置是否发生突变:
在Δn时间内,若当前的滤波器变化量δT(n)大于整段时间内滤波器变化量的最小值的α倍,则认为声源位置发生了突变;
步骤23,根据声源位置突变的检测结果改变遗忘因子λ的值:当声源位置发生突变时,立即减小遗忘因子λ的值,待算法接近收敛时再增大遗忘因子λ的值;
步骤3,对滤波器输出的时-频域的去混响信号做短时傅里叶逆变换,得到时域的去混响信号。
本发明根据滤波器系数的变化量对声源位置进行检测,设计时变的遗忘因子,使得RLS算法在去混响时的声源突变情况下,既具有较快的收敛速度又能有较好的稳态去混响性能。
附图说明
图1是本发明实施例中传声器阵列的示意图;其中,1-传声器,为声源相对传声器阵列的方位角。
图2是本发明实施例中传声器阵列和声源相对位置示意图;其中,2-声源。
图3是本发明方法的流程图。
图4是本发明实施例中使用语音能量加权前后滤波器系数变化量的曲线对比图,(a)不使用σ(n,k)加权,(b)使用σ(n,k)加权。
图5是现有的RLS算法与本发明改进后的方法去混响的STOI评分曲线对比图。
具体实施方式
本发明基于改进的RLS算法的自适应去混响方法主要包括以下几个部分:
1、信号获取
将两个以上的传声器1以线阵列的形式布放来采集声源2的信号,然后通过模数转换将模拟信号转换为数字信号。
2、利用RLS算法去混响
若第m个传声器采集到的信号为x(m)(t),对其进行短时傅里叶变换变换到时-频域,则第n帧第k个频带的信号表示为x(m)(n,k)。不同频带内的信号被视为独立的信号,并单独地进行去混响流程。本发明实施例中仅关注第一个传声器采集到的信号的去混响流程。若第n帧第k个频带的滤波器系数用w(n,k)表示,那么去混响的期望信号d(1)(t)在时-频域内第n帧第k个频带的信号d(1)(n,k)可以通过多通道线性预测表示为:
d(1)(n,k)=x(1)(n,k)-xT(n-D,k)w(n,k), (1)
式中,(·)T表示转置,
D为预测延时,M是传声器的总个数,Lw是预测阶数。
在使用RLS算法去混响时,每个频带的信号被视为独立的信号,分别进行去混响流程。那么RLS算法在各个频带内的代价函数为:
式中,σ2(τ,k)表示第τ帧第k个频带期望信号的方差,λ是遗忘因子,最后一项是正则化项,β是正则化系数。根据式(3)可以得到解为:
式中,
式中,(·)*表示复共轭。因此,根据式(4)-(6)可以得到RLS算法的迭代公式:
d(1)(n,k)=x(1)(n,k)-w(n-1,k)Tx(n-D,k), (8)
w(n,k)=w(n-1,k)+k(n,k)d(1)(n,k), (9)
P(n,k)=λ-1P(n-1,k)-λ-1k(n,k)xT(n-D,k)P(n-1,k), (10)
其中,P(n,k)为Ψ-1(n,k),k(n,k)被称为增益向量,期望信号的方差可以通过下列方法近似估计:
σ2(n,k)=βσ2(n-1,k)+(1-β)|x(1)(n,k)|2, (11)
式中,β是加权平滑因子。
根据(7)-(10)式进行迭代,实施去混响的流程。
3、声源位置突变检测
根据(12)和(13)式计算滤波器系数的变化量,然后判断声源位置是否发生突变。当声源位置发生突变之后,算法会有一个重新收敛的过程,此时滤波器系数的波动较大。因此,可以利用滤波器系数波动的幅度对声源位置突变进行检测。
定义δ(n,k)表示RLS算法在第n帧时,相邻两帧的滤波器系数变化量为:
式中,σ(n,k)是期望信号的标准差。因为语音能量的波动也会使得滤波器系数波动,故使用语音能量对系数的波动进行加权。在实际的使用中,需要对滤波器系数变化量做进一步平滑处理,总的滤波器系数变化量δT(n)为所有频带变化量之和:
式中,βw是加权平滑因子。
当声源位置发生突变时,δT(n)会明显增大。因此,在使用RLS算法时,可以对δT(n)进行检测,当其出现较大幅度增加的现象时,则可认为声源位置发生了突变。本发明实施例采用以下的判断方法:在Δn时间内,若当前的滤波器变化量大于整段时间内的最小值的α倍,即
则认为声源位置发生了突变。
4、时变的遗忘因子
当检测到声源位置发生了突变时,立即减小遗忘因子λ的值以加快算法收敛。
假设系统的模型可以表示为:
w(n,k)=w(n-1,k)+ω(n,k), (15)
式中,ω(n,k)为过程噪声。当λ取小于1的值时,RLS算法估计的滤波器系数的偏差可以表示为:
式中,tr[·]表示矩阵的迹,Rω(k)是过程噪声的自相关矩阵,为传声器采集的信号的方差归一化的自相关矩阵,定义为:
当声源位置固定不变时,tr[Rω(k)]非常小,故需要使λ接近1以减小滤波器系数估计的偏差;而当声源位置发生突变时,tr[Rω(k)]会非常大,故需要减小λ以减小滤波器系数估计的偏差,下限的建议值应符合以下要求:1/(1-λ)的大小接近单个频带内的滤波器系数的长度。经过一段时间,当算法接近收敛后,再增大遗忘因子λ的值(上限值为1),提升算法在稳态情况下的性能。
5、对滤波器输出的时-频域的去混响信号做短时傅里叶逆变换,得到时域的去混响信号。
下面结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
1、测试样本及客观评价标准
本实施例的测试样本的干净语音来源于TIMIT语音库,混响语音通过在混响时间约为1.2s的房间内录制得到。录制混响语音时,使用扬声器播放干净语音。参见图1和2,本实施例使用三个传声器1采集信号,传声器1以间隔为6cm排列成线阵列,距地面1.5m,离声源2的距离1.5m。扬声器与传声器阵列处于同一水平面,分别放置在阵列两侧录制两组数据,通过后期拼接为在10s处声源位置发生突变的样本,共64段不同语音。同时,在距离阵列2m左右的地方放置了一个-20dB的干扰声源。信号的采样频率为16000Hz。
本发明采用STOI(Short-Time Objective Intelligibility)评分作为客观评价标准。计算STOI评分时,以干净语音作为参考信号,以2s为帧长0.5s为帧移逐帧计算。最后将64个不同的语音样本的平均评分作为最终的STOI评分结果。
2、方法的具体实现流程
算法初始化:将P(0,k)设为εI,其中ε取10-2;将w(0,k)设为随机初始值,避免初始时刻计算滤波器系数改变量时分母为0。遗忘因子λ初始值为0.998。预测的延时D取2。
对于各个频带,分别按照下列步骤计算:
1)对时域信号做短时傅里叶变换,变化到时-频域。其中,窗函数为汉宁窗,帧长为512(32ms),帧移为128(8ms)。
2)用(11)式对信号方差进行估计,其中β取0.6。
3)用(7)式计算增益向量k(n,k),用(8)计算得到期望信号d(1)(n,k)。
4)用(9)式更新滤w(n,k),用(10)式更新P(n,k)。
5)用(13)式计算滤波器系数的变化量,其中βw取0.99。
6)根据(14)式检测声源位置是否发生改变。本例中,Δn取35,α取1.4。若声源位置发生突变,暂停声源位置突变的检测;等待Δn1时间后,认为算法接近收敛状态,重新开始对声源位置突变的检测。本例中,Δn1取375。
7)当声源位置发生突变时,立即将λ减小为0.99;当算法接近收敛状态,将λ重设为0.998。
8)将时-频域内的期望信号d(1)(n,k)通过短时傅里叶逆变换得到时域期望信号d(1)(t)。
图4是滤波器系数变化量曲线的对比图,算法的遗忘因子λ为0.998。该样本在10s处声源位置发生了突变。图4(a)是在估计滤波器系数时去掉了(13)式中的加权因子σ(n,k),图4(b)是使用(13)式的估计结果。对比两图可以发现,使用σ(n,k)加权能够有效减小滤波器系数变化量的波动,有利于对声源位置是否发生改变进行判断。根据图4(b)可以看到,滤波器变化量曲线在10s处有明显的增长,故判定在10s处声源位置发生了突变。
为了体现本发明方法在声源突变场景下去混响的性能,本实施例对现有RLS算法和本发明改进后的方法进行对比,见图5的去混响STOI评分曲线,图中“REV”表示传声器采集到的混响语音,“DRV.”表示去混响的语音,“RLS.”表示已有的RLS算法,“Improved RLS”表示本发明改进的方法。从图5中可以看出,本发明的方法既能在声源突变时拥有较小的λ具有的收敛速度快的优点,又兼有较大的λ具有的较好稳态性能的优点,使得RLS算法在声源位置发生突变后的性能得到了明显提升。

Claims (3)

1.基于RLS算法的自适应去混响方法,其特征在于,包括以下步骤:
步骤1,利用传声器获取信号,然后通过模数转换将模拟信号转换为数字信号;
步骤2,对信号做短时傅里叶变换后,不同频带内的信号单独地利用RLS算法进行去混响,具体过程为:
步骤21,利用RLS算法的迭代公式进行迭代,对信号进行去混响;
步骤22,计算滤波器系数的变化量:定义δ(n,k)表示RLS算法在第n帧时相邻两帧的滤波器系数变化量:
式中,w(n,k)是滤波器系数,σ(n,k)是期望信号的标准差,(n,k)代表第n帧第k个频带;第n帧总的滤波器系数变化量δT(n)为所有频带变化量之和:
式中,βw是加权平滑因子;
然后根据下式判断声源位置是否发生突变:
在Δn时间内,若当前的滤波器变化量δT(n)大于整段时间内滤波器变化量的最小值的α倍,则认为声源位置发生了突变;
步骤23,根据声源位置突变的检测结果改变遗忘因子λ的值:当声源位置发生突变时,立即减小遗忘因子λ的值,待算法接近收敛时再增大遗忘因子λ的值;
步骤3,对滤波器输出的时-频域的去混响信号做短时傅里叶逆变换,得到时域的去混响信号。
2.根据权利要求1所述的基于卡尔曼滤波的自适应去混响方法,其特征在于,所述传声器采用两个以上。
3.根据权利要求1所述的基于卡尔曼滤波的自适应去混响方法,其特征在于,所述步骤23中,减小遗忘因子λ的值时,应使得1/(1-λ)的大小接近单个频带内的滤波器系数的长度;增大遗忘因子λ的值时,上限值为1。
CN201810102374.2A 2018-02-01 2018-02-01 基于rls算法的自适应去混响方法 Active CN110111804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810102374.2A CN110111804B (zh) 2018-02-01 2018-02-01 基于rls算法的自适应去混响方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810102374.2A CN110111804B (zh) 2018-02-01 2018-02-01 基于rls算法的自适应去混响方法

Publications (2)

Publication Number Publication Date
CN110111804A true CN110111804A (zh) 2019-08-09
CN110111804B CN110111804B (zh) 2021-03-19

Family

ID=67483546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810102374.2A Active CN110111804B (zh) 2018-02-01 2018-02-01 基于rls算法的自适应去混响方法

Country Status (1)

Country Link
CN (1) CN110111804B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599374A (zh) * 2020-04-16 2020-08-28 云知声智能科技股份有限公司 一种单通道语音去混响方法及装置
CN113160842A (zh) * 2021-03-06 2021-07-23 西安电子科技大学 一种基于mclp的语音去混响方法及系统
CN113299301A (zh) * 2021-04-21 2021-08-24 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007033150A1 (en) * 2005-09-13 2007-03-22 Srs Labs, Inc. Systems and methods for audio processing
CN102523542A (zh) * 2011-12-14 2012-06-27 南京琅声声学科技有限公司 一种准自适应声学均衡方法与装置
JP5897343B2 (ja) * 2012-02-17 2016-03-30 株式会社日立製作所 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599374A (zh) * 2020-04-16 2020-08-28 云知声智能科技股份有限公司 一种单通道语音去混响方法及装置
CN113160842A (zh) * 2021-03-06 2021-07-23 西安电子科技大学 一种基于mclp的语音去混响方法及系统
CN113160842B (zh) * 2021-03-06 2024-04-09 西安电子科技大学 一种基于mclp的语音去混响方法及系统
CN113299301A (zh) * 2021-04-21 2021-08-24 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置

Also Published As

Publication number Publication date
CN110111804B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
Chakrabarty et al. Time–frequency masking based online multi-channel speech enhancement with convolutional recurrent neural networks
Xiao et al. Deep beamforming networks for multi-channel speech recognition
Li et al. Online direction of arrival estimation based on deep learning
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
Sainath et al. Factored spatial and spectral multichannel raw waveform CLDNNs
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN110111804A (zh) 基于rls算法的自适应去混响方法
CN108109617A (zh) 一种远距离拾音方法
Pertilä et al. Time difference of arrival estimation of speech signals using deep neural networks with integrated time-frequency masking
CN109979476A (zh) 一种语音去混响的方法及装置
CN110111802B (zh) 基于卡尔曼滤波的自适应去混响方法
CN111798869A (zh) 一种基于双麦克风阵列的声源定位方法
Xiao et al. Beamforming networks using spatial covariance features for far-field speech recognition
Ratnarajah et al. Towards improved room impulse response estimation for speech recognition
Zhang et al. Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss.
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Ramírez et al. Modeling plate and spring reverberation using a dsp-informed deep neural network
CN110838303B (zh) 一种利用传声器阵列的语音声源定位方法
Menne et al. Speaker adapted beamforming for multi-channel automatic speech recognition
CN113160842B (zh) 一种基于mclp的语音去混响方法及系统
Lee et al. Deep neural network based blind estimation of reverberation time based on multi-channel microphones
CN107393553A (zh) 用于语音活动检测的听觉特征提取方法
Zhou et al. A speech enhancement neural network architecture with SNR-progressive multi-target learning for robust speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant