CN111968663B - 一种回声残留判断方法 - Google Patents
一种回声残留判断方法 Download PDFInfo
- Publication number
- CN111968663B CN111968663B CN202010806424.2A CN202010806424A CN111968663B CN 111968663 B CN111968663 B CN 111968663B CN 202010806424 A CN202010806424 A CN 202010806424A CN 111968663 B CN111968663 B CN 111968663B
- Authority
- CN
- China
- Prior art keywords
- end signal
- signal
- low
- echo
- far
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000003595 spectral effect Effects 0.000 claims abstract description 50
- 238000001228 spectrum Methods 0.000 claims abstract description 24
- 230000005236 sound signal Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 6
- 230000001629 suppression Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提供了回声消除领域的一种回声残留判断方法,包括:步骤S10、确认近端信号对应的远端信号、误差信号;步骤S20、对三信号进行FFT变换得到频域信号,进而计算三信号各频点的功率谱密度、互功率谱密度;步骤S30、计算近端信号和误差信号、远端信号和近端信号的相干系数;步骤S40、将声音信号的频域部分划分为三子频带,计算各子频带的误差信号的平均功率谱密度;步骤S50、基于相干系数计算各频带的平均相干系数;步骤S60、基于频域信号计算各频带的误差信号的频谱平坦度,设定阈值;步骤S70、基于频谱平坦度、阈值、平均功率谱密度以及平均相干系数判断误差信号是否有回声残留。本发明的优点在于:极大的降低了回声状态的误检率,进而减少了回声残留。
Description
技术领域
本发明涉及回声消除技术领域,特别指一种回声残留判断方法。
背景技术
当声音往返延时超过30ms时,讲话者就能分辨出回声和本地语音,回声会劣化通话音质,影响通话体验,因此,回声消除功能是通话应用中必备的一种音频处理功能,常见于视讯会议、喇叭扩声器和手机通话等。通过消除麦克风拾取信号中的回声成分,能排除回声对通话的干扰,提高语音的可懂度,并防止啸叫。
传统上消除回声残留的方法是基于误差信号、近端信号和当前近端信号对应的远端信号三者的相关性,生成抑制因子,将抑制因子作用于误差信号,从而大幅衰减误差信号中的非线性回声残留,得到干净语音。但是,传统的方法存在如下缺点:使用的判断频带较为单一,遗漏了非语音频段,或者对当前所有频点的相干性求平均,相干性高的个别频点放到全局变得很小,低于阈值,导致回声状态判断和实际存在误差,误算了误差信号的抑制曲线,导致回声有残留,甚至出现回声自激引起的啸叫。
经检索,申请日为2011.05.17,申请号为CN201180072348.6的中国发明专利公开了可实现声学回声消除的音频信号非线性后期处理方法和系统,该专利的回声消除原理如图4所示,该专利分别对误差信号、近端信号、远端信号做fft;计算误差信号和近端信号各频点的相干性,记为cde,回声残留越多,cde越小,反之越大;计算近端信号和远端信号各频点的相干性,记为cxd,它可用于辅助检查当前近端信号中是否有回声,有回声时,cxd相对较高,反之越小,为了使两种相干性的渐变方向保持一致,记c'xd=1-cxd,有回声时,c'xd相对较小,反之越大;统计cde和c'xd在首选频率带的平均相干性,基于平均值判断当前的回声状态,比如当前有回声,回声残留较多,需要提高抑制量,抑制回声残留;最后判断结果得到的抑制因子生成抑制曲线,将抑制曲线作用到误差信号就得到最终的干净语音。不过,统计cde和c'xd的平均相干性的公式为:
其中N是FFTSize,fs是信号采样率。
从公式中可以看到它只选择500Hz到3500Hz各频点的相干性来判断,如果当前回声为纯粹的人声,那么没有问题;如果当前远端信号为高频或纯低频为主的杂音,比如唇齿音,那么因为杂音频率在[500Hz,3500Hz]之外或者求平均之后的相干性低于判断阈值,而认为当前没有回声残留,结果就出现有回声残留或者回声自激引起的啸叫。如图5所示,就是该类算法回声消除的结果,前半段是语音,回声没有残留,后半段是唇齿音,唇齿音不但没被消除,还出现轻微的啸叫现象。
因此,如何提供一种回声残留判断方法,实现降低回声状态的误检率,进而减少回声残留,成为一个亟待解决的问题。
发明内容
本发明要解决的技术问题,在于提供一种回声残留判断方法,实现降低回声状态的误检率,进而减少回声残留。
本发明是这样实现的:一种回声残留判断方法,包括如下步骤:
步骤S10、确认近端信号d(n)对应的远端信号x(n),基于所述近端信号d(n)以及远端信号x(n)得到误差信号e(n);
步骤S20、分别对所述近端信号d(n)、远端信号x(n)以及误差信号e(n)进行快速傅立叶变换,分别得到对应的频域信号D(k)、X(k)以及E(k),基于各所述频域信号分别计算近端信号d(n)、远端信号x(n)以及误差信号e(n)的功率谱密度以及互功率谱密度;
步骤S30、基于所述功率谱密度以及互功率谱密度,分别计算所述近端信号d(n)和误差信号e(n)、远端信号x(n)和近端信号d(n)的各频点的相干系数;
步骤S40、将声音信号的频域部分划分为三个子频带,并计算各所述子频带的误差信号e(n)的平均功率谱密度;
步骤S50、基于所述相干系数计算各子频带的平均相干系数;
步骤S60、基于所述频域信号计算各子频带的误差信号e(n)的频谱平坦度,并设定一用于判断是否为稳态噪声的阈值;
步骤S70、基于所述频谱平坦度、阈值、平均功率谱密度以及平均相干系数判断误差信号e(n)是否有回声残留。
进一步地,所述步骤S10具体为:
确认近端信号d(n)对应的远端信号x(n),利用频域自适应滤波算法预估所述远端信号x(n)的线性回声,将所述近端信号d(n)减去线性回声得到误差信号e(n)。
进一步地,所述步骤S20中,所述基于各所述频域信号分别计算近端信号d(n)、远端信号x(n)以及误差信号e(n)的功率谱密度以及互功率谱密度具体为:
近端信号d(n)的功率谱密度:Sd(k)=λSd(k-1)+(1-λ)(D(k)·D*(k));
远端信号x(n)的功率谱密度:Sx(k)=λSx(k-1)+(1-λ)(X(k)·X*(k));
误差信号e(n)的功率谱密度:Se(k)=λSe(k-1)+(1-λ)(E(k)·E*(k));
近端信号d(n)和误差信号e(n)的互功率谱密度:
Sde(k)=λSde(k-1)+(1-λ)(D(k)·E(k));
远端信号x(n)和近端信号d(n)的互功率谱密度:
Sxd(k)=λSxd(k-1)+(1-λ)(X(k)·D(k));
其中λ表示迭代因子,且λ=0.9;k表示近端信号d(n)、远端信号x(n)以及误差信号e(n)的频点,且k为正整数;D*(k)表示D(k)的共轭复数;X*(k)表示X(k)的共轭复数;E*(k)表示E(k)的共轭复数。
进一步地,所述步骤S30具体为:
设所述近端信号d(n)和误差信号e(n)的各频点的相干系数为cde(k),则:
设所述远端信号x(n)和近端信号d(n)的各频点的相干系数为cxd(k),则:
其中表示Sde(k)的共轭复数;/>表示Sxd(k)的共轭复数。
进一步地,所述步骤S40具体为:
设定声音信号的三个子频带分别为low、middle以及high;且low、middle以及high均属于[250Hz,fs/2],其中fs表示信号采样率;
当fs=8000Hz时,low=[250Hz,1750Hz],middle=[1750Hz,3000Hz],high=[3000Hz,4000Hz];
当fs>8000Hz时,low=[250Hz,1750Hz],middle=[2500Hz,4000Hz],high=[4500Hz,6500Hz];
设low、middle以及high子频带的误差信号e(n)的平均功率谱密度分别为Slow、Smiddle以及Shigh,通过下式进行计算:
其中lowFreq表示当前频带的下限,highFreq表示当前频带的上限,N为正整数,kl表示当前频带的频点的下限,kh表示当前频带的频点的上限。
进一步地,所述步骤S50具体为:
设low、middle以及high子频带的近端信号d(n)和误差信号e(n)的平均相干系数分别为Hdelow、Hdemiddle以及Hdehigh,通过下式进行计算:
设low、middle以及high子频带的远端信号x(n)和近端信号d(n)的平均相干系数分别为Hxdlow、Hxdmiddle以及Hxdhigh,通过下式进行计算:
进一步地,所述步骤S60具体为:
设low、middle以及high子频带的误差信号e(n)的频谱平坦度分别为Flow、Fmiddle以及Fhigh,通过下式进行计算:
通过VAD检测非语音状态下近端语音的频谱平坦度,并设为用于判断是否为稳态噪声的阈值,记为Flimit。
进一步地,所述步骤S70具体包括:
步骤S71、分别判断所述Flow、Fmiddle以及Fhigh是否大于Flimit,若是,则令S'low=1.5Slow,F'middle=Fmiddle,F'high=Fhigh,并进入步骤S72;若否,则令S'low=0,F'middle=0,F'high=0,并进入步骤S72;
步骤S72、选取S'low、F'middle以及F'high中最大值对应的频带作为Bandx,若S'low、F'middle以及F'high取值相同,则选取S'low对应的频带作为Bandx,并选取Bandx对应的Hde和Hxd;
步骤S73、判断是否Hde大于0.98且Hxd大于0.9,若是,说明误差信号e(n)无回声残留;若否,则进入步骤S74;
步骤S74、判断是否Hde小于0.95或者Hxd小于0.8,若是,说明误差信号e(n)有回声残留;若否,延续上一次的回声判断结果。
本发明的优点在于:
通过将声音信号的频域部分划分为三个频带,基于各频带的误差信号的平均功率谱密度、频谱平坦度、近端信号和误差信号的平均相干系数、远端信号和近端信号的平均相干系数来判断误差信号是否有回声残留;即首先借助误差信号的频谱平坦度判断当前语音信号是否为稳态噪声,当且仅当不是稳态噪声时采取抑制回声操作;然后基于误差信号各频带的平均功率谱密度,获取功率最大的频带,该频带对当前回声的贡献比最大;最后基于该频带的近端信号和误差信号的平均相干系数以及远端信号和近端信号的平均相干系数,判断误差信号内回声残留状况,若存在回声残留则提高抑制因子及过载值,否则减少;最终极大的降低了回声状态的误检率,进而极大的减少了回声残留。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种回声残留判断方法的流程图。
图2是本发明非线性抑制输入输出示意图。
图3是应用本发明进行回声残留消除的仿真图。
图4是传统上回声消除原理示意图。
图5是应用传统方法进行回声残留消除的仿真图。
具体实施方式
请参照图1至图5所示,本发明一种回声残留判断方法的较佳实施例,包括如下步骤:
步骤S10、确认近端信号d(n)对应的远端信号x(n),基于所述近端信号d(n)以及远端信号x(n)得到误差信号e(n);
步骤S20、分别对所述近端信号d(n)、远端信号x(n)以及误差信号e(n)进行快速傅立叶变换(FFT变换),分别得到对应的频域信号D(k)、X(k)以及E(k),基于各所述频域信号分别计算近端信号d(n)、远端信号x(n)以及误差信号e(n)的功率谱密度以及互功率谱密度;即d(n)FFT变换得到D(k),x(n)FFT变换得到X(k),e(n)FFT变换得到E(k);
步骤S30、基于所述功率谱密度以及互功率谱密度,分别计算所述近端信号d(n)和误差信号e(n)、远端信号x(n)和近端信号d(n)的各频点的相干系数;
步骤S40、将声音信号的频域部分划分为三个子频带,并计算各所述子频带的误差信号e(n)的平均功率谱密度;
步骤S50、基于所述相干系数计算各子频带的平均相干系数;
步骤S60、基于所述频域信号计算各子频带的误差信号e(n)的频谱平坦度,并设定一用于判断是否为稳态噪声的阈值;频谱平坦度用于排除稳态噪声,因为稳态噪声频谱相对平坦,而语音或突发性噪声有更多的谐波,频域上往往在基频和谐波中出现峰值;
步骤S70、基于所述频谱平坦度、阈值、平均功率谱密度以及平均相干系数判断误差信号e(n)是否有回声残留。
还包括步骤S80、利用现有技术,基于步骤S70得到的误差信号e(n)的状态(是否有回声残留)求取抑制因子和过载值,最终得到误差信号频域抑制频响曲线消除回声残留。
所述步骤S10具体为:
在非线性抑制处理之前,通过延时估计器确认近端信号d(n)对应的远端信号x(n),利用频域自适应滤波算法预估所述远端信号x(n)的线性回声,将所述近端信号d(n)减去线性回声得到误差信号e(n);所述频域自适应滤波算法优选为NLMS。
所述步骤S20中,所述基于各所述频域信号分别计算近端信号d(n)、远端信号x(n)以及误差信号e(n)的功率谱密度以及互功率谱密度具体为:
近端信号d(n)的功率谱密度:Sd(k)=λSd(k-1)+(1-λ)(D(k)·D*(k));
远端信号x(n)的功率谱密度:Sx(k)=λSx(k-1)+(1-λ)(X(k)·X*(k));
误差信号e(n)的功率谱密度:Se(k)=λSe(k-1)+(1-λ)(E(k)·E*(k));
近端信号d(n)和误差信号e(n)的互功率谱密度:
Sde(k)=λSde(k-1)+(1-λ)(D(k)·E(k));
远端信号x(n)和近端信号d(n)的互功率谱密度:
Sxd(k)=λSxd(k-1)+(1-λ)(X(k)·D(k));
其中λ表示迭代因子,且λ=0.9;k表示近端信号d(n)、远端信号x(n)以及误差信号e(n)的频点,且k为正整数;D*(k)表示D(k)的共轭复数;X*(k)表示X(k)的共轭复数;E*(k)表示E(k)的共轭复数。
所述步骤S30具体为:
设所述近端信号d(n)和误差信号e(n)的各频点的相干系数为cde(k),则:
设所述远端信号x(n)和近端信号d(n)的各频点的相干系数为cxd(k),则:
其中表示Sde(k)的共轭复数;/>表示Sxd(k)的共轭复数。
所述步骤S40具体为:
设定声音信号的三个子频带分别为low、middle以及high;且low、middle以及high均属于[250Hz,fs/2],其中fs表示信号采样率;
当fs=8000Hz时,low=[250Hz,1750Hz],middle=[1750Hz,3000Hz],high=[3000Hz,4000Hz];
当fs>8000Hz时,low=[250Hz,1750Hz],middle=[2500Hz,4000Hz],high=[4500Hz,6500Hz];
排除250Hz以下的声音信号是因为低于250Hz的频带人声成分较少,且环境中低频噪声最为丰富;人声主要集中在低于2000Hz的频带,因此[250Hz,1750Hz]频带用于判断人声残留情况,剩余两个频带用于判断高频部分的一些回声残留情况。
设low、middle以及high子频带的误差信号e(n)的平均功率谱密度分别为Slow、Smiddle以及Shigh,通过下式进行计算:
其中lowFreq表示当前频带的下限,highFreq表示当前频带的上限,N为正整数,kl表示当前频带的频点的下限,kh表示当前频带的频点的上限。
所述步骤S50具体为:
设low、middle以及high子频带的近端信号d(n)和误差信号e(n)的平均相干系数分别为Hdelow、Hdemiddle以及Hdehigh,通过下式进行计算:
设low、middle以及high子频带的远端信号x(n)和近端信号d(n)的平均相干系数分别为Hxdlow、Hxdmiddle以及Hxdhigh,通过下式进行计算:
所述步骤S60具体为:
设low、middle以及high子频带的误差信号e(n)的频谱平坦度分别为Flow、Fmiddle以及Fhigh,通过下式进行计算:
通过VAD检测(语音活动检测)非语音状态下近端语音的频谱平坦度,并设为用于判断是否为稳态噪声的阈值,记为Flimit。
所述步骤S70具体包括:
步骤S71、分别判断所述Flow、Fmiddle以及Fhigh是否大于Flimit,若是,说明当前语音信号不是稳态噪声,则令S'low=1.5Slow,F'middle=Fmiddle,F'high=Fhigh,并进入步骤S72;若否,说明当前语音信号是稳态噪声,没有必要判断对应的频带是否存在回声残留,则令S'low=0,F'middle=0,F'high=0,并进入步骤S72;
对于low频带,即人声频带,因为是回声消除的主要目标频段,所以确认该频带不是稳态噪声后给它的平均功率谱密度分配1.5倍的权重。
步骤S72、选取S'low、F'middle以及F'high中最大值对应的频带作为Bandx,若S'low、F'middle以及F'high取值相同,则选取S'low对应的频带作为Bandx,并选取Bandx对应的Hde和Hxd;
步骤S73、判断是否Hde大于0.98且Hxd大于0.9,若是,说明远端信号x(n)和近端信号d(n)高度不相干,误差信号e(n)无回声残留;若否,则进入步骤S74;
步骤S74、判断是否Hde小于0.95或者Hxd小于0.8,若是,说明误差信号e(n)有回声残留;若否,延续上一次的回声判断结果。
通过比对图3和图5,可以明显看到回声量大大减少。
综上所述,本发明的优点在于:
通过将声音信号的频域部分划分为三个频带,基于各频带的误差信号的平均功率谱密度、频谱平坦度、近端信号和误差信号的平均相干系数、远端信号和近端信号的平均相干系数来判断误差信号是否有回声残留;即首先借助误差信号的频谱平坦度判断当前语音信号是否为稳态噪声,当且仅当不是稳态噪声时采取抑制回声操作;然后基于误差信号各频带的平均功率谱密度,获取功率最大的频带,该频带对当前回声的贡献比最大;最后基于该频带的近端信号和误差信号的平均相干系数以及远端信号和近端信号的平均相干系数,判断误差信号内回声残留状况,若存在回声残留则提高抑制因子及过载值,否则减少;最终极大的降低了回声状态的误检率,进而极大的减少了回声残留。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (4)
1.一种回声残留判断方法,其特征在于:包括如下步骤:
步骤S10、确认近端信号d(n)对应的远端信号x(n),基于所述近端信号d(n)以及远端信号x(n)得到误差信号e(n);
步骤S20、分别对所述近端信号d(n)、远端信号x(n)以及误差信号e(n)进行快速傅立叶变换,分别得到对应的频域信号D(k)、X(k)以及E(k),基于各所述频域信号分别计算近端信号d(n)、远端信号x(n)以及误差信号e(n)的功率谱密度以及互功率谱密度;
步骤S30、基于所述功率谱密度以及互功率谱密度,分别计算所述近端信号d(n)和误差信号e(n)、远端信号x(n)和近端信号d(n)的各频点的相干系数;
步骤S40、将声音信号的频域部分划分为三个子频带,并计算各所述子频带的误差信号e(n)的平均功率谱密度;
步骤S50、基于所述相干系数计算各子频带的平均相干系数;
步骤S60、基于所述频域信号计算各子频带的误差信号e(n)的频谱平坦度,并设定一用于判断是否为稳态噪声的阈值;
步骤S70、基于所述频谱平坦度、阈值、平均功率谱密度以及平均相干系数判断误差信号e(n)是否有回声残留;
所述步骤S20中,所述基于各所述频域信号分别计算近端信号d(n)、远端信号x(n)以及误差信号e(n)的功率谱密度以及互功率谱密度具体为:
近端信号d(n)的功率谱密度:Sd(k)=λSd(k-1)+(1-λ)(D(k)·D*(k));
远端信号x(n)的功率谱密度:Sx(k)=λSx(k-1)+(1-λ)(X(k)·X*(k));
误差信号e(n)的功率谱密度:Se(k)=λSe(k-1)+(1-λ)(E(k)·E*(k));
近端信号d(n)和误差信号e(n)的互功率谱密度:
Sde(k)=λSde(k-1)+(1-λ)(D(k)·E(k));
远端信号x(n)和近端信号d(n)的互功率谱密度:
Sxd(k)=λSxd(k-1)+(1-λ)(X(k)·D(k));
其中λ表示迭代因子,且λ=0.9;k表示近端信号d(n)、远端信号x(n)以及误差信号e(n)的频点,且k为正整数;D*(k)表示D(k)的共轭复数;X*(k)表示X(k)的共轭复数;E*(k)表示E(k)的共轭复数;
所述步骤S40具体为:
设定声音信号的三个子频带分别为low、middle以及high;且low、middle以及high均属于[250Hz,fs/2],其中fs表示信号采样率;
当fs=8000Hz时,low=[250Hz,1750Hz],middle=[1750Hz,3000Hz],high=[3000Hz,4000Hz];
当fs>8000Hz时,low=[250Hz,1750Hz],middle=[2500Hz,4000Hz],high=[4500Hz,6500Hz];
设low、middle以及high子频带的误差信号e(n)的平均功率谱密度分别为Slow、Smiddle以及Shigh,通过下式进行计算:
其中lowFreq表示当前频带的下限,highFreq表示当前频带的上限,N为正整数,kl表示当前频带的频点的下限,kh表示当前频带的频点的上限;
所述步骤S60具体为:
设low、middle以及high子频带的误差信号e(n)的频谱平坦度分别为Flow、Fmiddle以及Fhigh,通过下式进行计算:
通过VAD检测非语音状态下近端语音的频谱平坦度,并设为用于判断是否为稳态噪声的阈值,记为Flimit;
所述步骤S70具体包括:
步骤S71、分别判断所述Flow、Fmiddle以及Fhigh是否大于Flimit,若是,则令S'low=1.5Slow,F’middle=Fmiddle,F’high=Fhigh,并进入步骤S72;若否,则令S’low=0,F’middle=0,F’high=0,并进入步骤S72;
步骤S72、选取S’low、F’middle以及F’high中最大值对应的频带作为Bandx,若S’low、F’middle以及F’high取值相同,则选取S’low对应的频带作为Bandx,并选取Bandx对应的Hde和Hxd;
步骤S73、判断是否Hde大于0.98且Hxd大于0.9,若是,说明误差信号e(n)无回声残留;若否,则进入步骤S74;
步骤S74、判断是否Hde小于0.95或者Hxd小于0.8,若是,说明误差信号e(n)有回声残留;若否,延续上一次的回声判断结果。
2.如权利要求1所述的一种回声残留判断方法,其特征在于:所述步骤S10具体为:
确认近端信号d(n)对应的远端信号x(n),利用频域自适应滤波算法预估所述远端信号x(n)的线性回声,将所述近端信号d(n)减去线性回声得到误差信号e(n)。
3.如权利要求1所述的一种回声残留判断方法,其特征在于:所述步骤S30具体为:
设所述近端信号d(n)和误差信号e(n)的各频点的相干系数为cde(k),则:
设所述远端信号x(n)和近端信号d(n)的各频点的相干系数为cxd(k),则:
其中表示Sde(k)的共轭复数;/>表示Sxd(k)的共轭复数。
4.如权利要求1所述的一种回声残留判断方法,其特征在于:所述步骤S50具体为:
设low、middle以及high子频带的近端信号d(n)和误差信号e(n)的平均相干系数分别为Hdelow、Hdemiddle以及Hdehigh,通过下式进行计算:
设low、middle以及high子频带的远端信号x(n)和近端信号d(n)的平均相干系数分别为Hxdlow、Hxdmiddle以及Hxdhigh,通过下式进行计算:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010806424.2A CN111968663B (zh) | 2020-08-12 | 2020-08-12 | 一种回声残留判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010806424.2A CN111968663B (zh) | 2020-08-12 | 2020-08-12 | 一种回声残留判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111968663A CN111968663A (zh) | 2020-11-20 |
CN111968663B true CN111968663B (zh) | 2024-04-16 |
Family
ID=73365665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010806424.2A Active CN111968663B (zh) | 2020-08-12 | 2020-08-12 | 一种回声残留判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111968663B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489669B (zh) * | 2020-11-30 | 2024-02-23 | 北京融讯科创技术有限公司 | 一种音频信号处理方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009021741A (ja) * | 2007-07-11 | 2009-01-29 | Yamaha Corp | エコーキャンセラ |
CN101778183A (zh) * | 2009-01-13 | 2010-07-14 | 华为终端有限公司 | 一种残留回声抑制方法及设备 |
CN102387272A (zh) * | 2011-09-09 | 2012-03-21 | 南京大学 | 一种回声抵消系统中残留回声的抑制方法 |
CN103905656A (zh) * | 2012-12-27 | 2014-07-02 | 联芯科技有限公司 | 残留回声的检测方法及装置 |
CN105338450A (zh) * | 2015-09-23 | 2016-02-17 | 苏州科达科技股份有限公司 | 一种残留回波抑制方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8792649B2 (en) * | 2008-09-24 | 2014-07-29 | Mitsubishi Electric Corporation | Echo canceller used for voice communication |
-
2020
- 2020-08-12 CN CN202010806424.2A patent/CN111968663B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009021741A (ja) * | 2007-07-11 | 2009-01-29 | Yamaha Corp | エコーキャンセラ |
CN101778183A (zh) * | 2009-01-13 | 2010-07-14 | 华为终端有限公司 | 一种残留回声抑制方法及设备 |
CN102387272A (zh) * | 2011-09-09 | 2012-03-21 | 南京大学 | 一种回声抵消系统中残留回声的抑制方法 |
CN103905656A (zh) * | 2012-12-27 | 2014-07-02 | 联芯科技有限公司 | 残留回声的检测方法及装置 |
CN105338450A (zh) * | 2015-09-23 | 2016-02-17 | 苏州科达科技股份有限公司 | 一种残留回波抑制方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111968663A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838300B (zh) | 回声消除的处理方法及处理系统 | |
US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
JP4863713B2 (ja) | 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム | |
US8010355B2 (en) | Low complexity noise reduction method | |
JP3568922B2 (ja) | エコー処理装置 | |
EP1855456B1 (en) | Echo reduction in time-variant systems | |
TWI738532B (zh) | 具多麥克風之語音增強裝置及方法 | |
JP2002541753A (ja) | 固定フィルタを用いた時間領域スペクトラル減算による信号雑音の低減 | |
KR20130061673A (ko) | 모노 또는 다중 마이크로폰 시스템 내의 잡음 제거 및 음성 품질을 공동으로 최적화하는 방법 | |
US8693678B2 (en) | Device and method for controlling damping of residual echo | |
US10262673B2 (en) | Soft-talk audio capture for mobile devices | |
CA2638265A1 (en) | Noise reduction with integrated tonal noise reduction | |
JP3961290B2 (ja) | 雑音抑圧装置 | |
WO1995023477A1 (en) | Doubletalk detection by means of spectral content | |
CN111554315A (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
KR20010043833A (ko) | 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감 | |
JP2003500936A (ja) | エコー抑止システムにおけるニアエンド音声信号の改善 | |
Zhang et al. | A fast two-microphone noise reduction algorithm based on power level ratio for mobile phone | |
CN111968663B (zh) | 一种回声残留判断方法 | |
JP2009094802A (ja) | 通信装置 | |
US6507623B1 (en) | Signal noise reduction by time-domain spectral subtraction | |
CN111917926B (zh) | 一种通信终端中的回声消除方法、装置及终端设备 | |
US8369511B2 (en) | Robust method of echo suppressor | |
CN112151060A (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
JP2011254420A (ja) | 反響消去方法、反響消去装置及び反響消去プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |