CN112185404B - 一种基于子带信噪比估计的低复杂度双端检测方法 - Google Patents

一种基于子带信噪比估计的低复杂度双端检测方法 Download PDF

Info

Publication number
CN112185404B
CN112185404B CN201910601964.4A CN201910601964A CN112185404B CN 112185404 B CN112185404 B CN 112185404B CN 201910601964 A CN201910601964 A CN 201910601964A CN 112185404 B CN112185404 B CN 112185404B
Authority
CN
China
Prior art keywords
signal
formula
double
envelope
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910601964.4A
Other languages
English (en)
Other versions
CN112185404A (zh
Inventor
王青云
梁瑞宇
姜涛
唐闺臣
包永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201910601964.4A priority Critical patent/CN112185404B/zh
Publication of CN112185404A publication Critical patent/CN112185404A/zh
Application granted granted Critical
Publication of CN112185404B publication Critical patent/CN112185404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种基于子带信噪比估计的低复杂度双端检测方法,包括以下步骤。首先将一帧信号通过分解滤波器得到子带信号,并进行降采样处理;其次在每个子带信号的每帧内找最大值,再将其转到对数域,得到阶梯包络;然后分别估计语音包络和噪声包络,得到当前帧的信噪比估计值;最后将子带信噪比映射为双端判决阈值,将自适应判决阈值应用到相关性判决因子上。使系统进入双讲状态时,及时冻结自适应滤波器的更新步长。本发明在复杂的噪声环境下,能有效提高回声抵消器的双端检测的准确率,在音频会议系统中具有良好的应用前景。

Description

一种基于子带信噪比估计的低复杂度双端检测方法
技术领域
本发明涉及回声消除技术领域,具体涉及基于子带信噪比估计的低复杂度双端检测方法。
背景技术
随着IOT技术的发展,越来越多的智能终端都具有高保真高采样率的音视频通讯功能,而该类终端设备一般至少具有一个麦克风和一个扬声器,因此声学回声抵消器是智能语音终端的关键模块。一般线性回声抵消器可以抑制25dB左右,而对于残留的非线性回声和背景噪声将会严重影响双端检测器,若双端检测器不能在发生双讲时及时冻结滤波器,而是在自适应滤波器发散的时候再冻结滤波器,那么双讲将会有明显回声或因为非线性抑制器的原因导致明显的切音断句,无法进行正常的双向沟通。
声学回声抵消器的传统方法是采用有限长的FIR滤波器来估计扬声器和麦克风之间的耦合路径,在工程中,考虑计算资源有限,一般采用频域NLMS或二阶AP算法。在滤波器收敛过程中,若近端产生人声或背景噪声等干扰信号,会使自适应滤波器的学习过程发生偏离,因此回声抵消器一般都需要一个双端检测模块。当双讲判决因子达到某一阈值时,系统冻结滤波器步长,避免系统的发散。然而传统的双端检测模块一般有基于能量比较的策略和基于远端和近端的相关性进行判定的策略。但其缺点是固定的阈值门限很难选择,背景环境发生变化,系统就难以保持之前的最佳工作状态。而归一化的自相关判决方法可以较好地改善阈值参数的敏感性,但在不同信噪比的噪声环境下,固定阈值仍然是难以选择。因此,本发明的创新在于提出一种根据背景信噪比来自适应地修改双端检测判决阈值,使双端检测器能在多种信噪比的场景下保持较好的性能。
发明内容
本发明的目的是提高噪声和混响环境下双端检测器的准确率,针对双端检测算法在应对背景噪声变化时性能下降的问题。本发明提出一种结合子带信噪比估计的双端检测方法,该方法具有低计算复杂度,适用于实时音频会议系统中的回声抵消器。
一种基于子带信噪比估计的低复杂度双端检测方法,包括以下步骤:
步骤(A),对当前第i帧的远端参考信号x(i),麦克风接收信号d(i),分别通过分析滤波器组和降采样器得到第m子带的参考信号xm(i)和第m子带的麦克风信号dm(i);
步骤(B)在对数域计算语音信号包络和噪声信号包络,并估计信噪比;
步骤(C)计算双端检测器的判决因子;
步骤(D)对自适应滤波器的步长μ(i,m)进行修正;
步骤(E)根据计算的滤波器步长μ(i,m),对滤波器系数进行更新;
步骤(F)利用更新后的滤波器系数对当前麦克风输入帧计算误差em(i);
步骤(G)将回声消除器计算出的误差em(i)通过升采样器和综合滤波器,得到最终的输出信号e,并将其输出到系统输出缓冲区;之后返回步骤(A),处理下一帧信号。
本发明采样上述技术方案,与现有技术相比具有以下的优点:
(1)通过跟踪背景噪声等级,估计实时信噪比,并将信噪比信息映射加权到双端判决的阈值参数上。在噪声和混响环境下,能使双端判决因子的阈值根据背景环境的信噪比进行自适应变换,实现滤波器能在各种信噪比情况下,有效检测出双讲状态,避免出现滤波器发散的现象。
(2)在计算双端判决因子时,采样双判决因子,并将两个判决因子加权生成一个最终的判决因子,这样做的好处是避免多阈值的参数的配置,同时也能很好地结合双判决因子地判决特性,该策略能有效提高双判决因子地联合判决能力,并能降低固定阈值参数选取困难。
(3)该方法具有较低的计算复杂度,通过降采样技术,将长数据流降低为短数据流,同时保证了双端检测的精度。适合智能音箱、数字助听器等低功耗的设备。该方法在双端检测精度、抗噪声性能和计算复杂度三者之间取得的平衡较为合适。
附图说明
图1是本发明的低复杂度回声抵消系统框图。
图2是本发明的用于语音会议系统的具有抗噪声特性的回声消除方法的流程图。
图3是本发明信噪比估算方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
一种基于子带信噪比估计的低复杂度双端检测方法,包括以下步骤:
步骤(A),对当前第i帧的远端参考信号x(i),麦克风接收信号d(i),分别通过分析滤波器组和降采样器得到第m子带的参考信号xm(i)和第m子带的麦克风信号dm(i)。
步骤(B)估计信噪比,信噪比估计方法流程如图3所示:
(B1)取第i帧的第m子带的麦克风信号dm(i)的最大值,并将其转到对数域,计算公式为:式(1),得到第i帧的第m子带的阶梯包络值DdB(i,m)。
DdB(i,m)=20·log|dm(i)| (1)
(B2)估计语音信号包络SdB(i,m),语音包络采用一阶IIR网络,其计算公式为式(2):
SdB(i,m)=αSdB(i-1,m)+(1-α)DdB(i,m) (2)
其中α为一阶平滑因子,0<α<1,一般取0.96;
(B3)估计噪声包络,噪声包络的估计采用二元状态机的策略,计算公式为式(3)
其中β为噪声包络估计器的平滑因子,0<β<1一般取0.96。
(B4)计算信噪比,通过步骤(B2)和(B3)分别估计出第i帧的第m子带的语音包络SdB(i,m)和噪声包络NdB(i,m),可以直接在dB域相减,得到第i帧的第m子带的信噪比,计算公式为式(4):
SNR(i,m)=SdB(i,m)-NdB(i,m) (4)
(B5)将子带信噪比转化为子带加权因子。因为子带信噪比SNR(i,m)反映了第i帧的第m子带的噪声和干扰程度,因此提出将子带信噪比SNR(i,m)通过一个非线性函数映射到每个子带的步长更新的加权系数SD(i,m),取值范围为[0,1],计算公式为式(5)
其中τ为sigmoid函数的斜率,一般取0.5。
(B6)将SD(i,m)加权到双端检测判决阈值上,得到加权的阈值参数T′(i,m),其计算公式为公式(6):
T′(i,m)=T·SD(i,m) (6)
其中T为固定阈值,一般取0.65。
步骤(C)计算双端检测器的判决因子:
(C1)计算第一判决因子ξ1(i,m),计算麦克风信号dm(i)和估计滤波器之间的互相关系数ξ1(i,m),计算公式为式(7),其中/>代表麦克风信号dm(i)的方差,/>代表估计滤波器/>的方差:
(C2)计算第二判决因子ξ2(i,m),计算麦克风信号dm(i)和残差信号em(i)之间的互相关系数ξ2(i,m),计算公式为式(8),其中代表麦克风信号dm(i)的方差,/>代表残差信号em(i)的方差:
(C3)将两个判决系数ξ1(i,m)和ξ2(i,m)通过加权生成一个最终的判决因子。因为当双讲发生时,第一判决因子ξ1(i,m)会下降,而无双讲时,ξ1(i,m)接近1,而对于ξ2(i,m),双讲发生时,第二判决因子ξ2(i,m)会增加,因此讲ξ1(i,m)与1-ξ2(i,m)加权为一个最终的判决因子ξ(i,m),其计算公式见式(9)所示,如此ξ1(i,m)和1-ξ2(i,m)的变化方向一致。
ξ(i,m)=ηξ1(i,m)+(1-η)(1-ξ2(i,m)) (9)
步骤(D)修正自适应步长μ(i,m):
根据判决因子ξ(i,m)和阈值T′(i,m),对自适应滤波器的步长μ(i,m)进行修正,修正公式为式(10):
其中μ0为固定步长,可取为1。
步骤(E)根据计算的滤波器步长μ(i,m),对滤波器系数进行更新,更新公式为式(11):
其中n为时域滤波器的标号,n取[0,N-1],N为滤波器长度,δ为一个极小数,取0.00001。
步骤(F)利用更新后的滤波器系数对当前麦克风输入帧计算误差em(i),计算公式为公式(12),为估计的滤波器系数
步骤(G)将回声消除器计算出的误差em(i)通过升采样器和综合滤波器,得到最终的输出信号e,并将其输出到系统输出缓冲区。之后返回步骤(A),处理下一帧信号。

Claims (1)

1.一种基于子带信噪比估计的低复杂度双端检测方法,其特征在于:包括以下步骤:
步骤(A),对当前第i帧的远端参考信号x(i),麦克风接收信号d(i),分别通过分析滤波器组和降采样器得到第m子带的参考信号xm(i)和第m子带的麦克风信号dm(i);
步骤(B)在对数域计算语音信号包络和噪声信号包络,并估计信噪比;
包括以下步骤:
(B1)取第i帧的第m子带的麦克风信号dm(i)的最大值,并将其转到对数域,计算公式为式(1),得到第i帧的第m子带的阶梯包络值DdB(i,m):
DdB(i,m)=20·log|dm(i)| (1)
(B2)估计语音信号包络SdB(i,m),语音包络采用一阶IIR网络,其计算公式为式(2):
SdB(i,m)=αSdB(i-1,m)+(1-α)DdB(i,m) (2)
其中α为一阶平滑因子,0<α<1;
(B3)估计噪声包络,噪声包络的估计采用二元状态机的策略,计算公式为式(3):
其中β为噪声包络估计器的平滑因子,0<β<1;
(B4)计算信噪比,通过步骤(B2)和(B3)分别估计出第i帧的第m子带的语音包络SdB(i,m)和噪声包络NdB(i,m),可以直接在dB域相减,得到第i帧的第m子带的信噪比,计算公式为式(4):
SNR(i,m)=SdB(i,m)-NdB(i,m) (4)
(B5)将子带信噪比转化为子带加权因子;因为子带信噪比SNR(i,m)反映了第i帧的第m子带的噪声和干扰程度,因此提出将子带信噪比SNR(i,m)通过一个非线性函数映射到每个子带的步长更新的加权系数SD(i,m),取值范围为[0,1],计算公式为式(5):
其中τ为sigmoid函数的斜率;
(B6)将SD(i,m)加权到双端检测判决阈值上,得到加权的阈值参数T′(i,m),其计算公式为公式(6):
T′(i,m)=T·SD(i,m) (6)
其中T为固定阈值;
步骤(C)计算双端检测器的判决因子;
包括以下步骤:
(C1)计算第一判决因子ξ1(i,m),计算麦克风信号dm(i)和估计滤波器之间的互相关系数ξ1(i,m),计算公式为式(7),其中/>代表麦克风信号dm(i)的方差,/>代表估计滤波器的方差:
(C2)计算第二判决因子ξ2(i,m),计算麦克风信号dm(i)和残差信号em(i)之间的互相关系数ξ2(i,m),计算公式为式(8),其中代表麦克风信号dm(i)的方差,/>代表残差信号em(i)的方差:
(C3)将两个判决因子ξ1(i,m)和ξ2(i,m)通过加权生成一个最终的判决因子;当双讲发生时,第一判决因子ξ1(i,m)会下降,而无双讲时,ξ1(i,m)接近1,而对于第二判决因子ξ2(i,m),双讲发生时,第二判决因子ξ2(i,m)会增加,将ξ1(i,m)与1-ξ2(i,m)加权为一个最终的判决因子ξ(i,m),计算公式为式(9)所示:
ξ(i,m)=ηξ1(i,m)+(1-η)(1-ξ2(i,m)) (9)
如此ξ1(i,m)和1-ξ2(i,m)的变化方向一致;
步骤(D)对自适应滤波器的步长μ(i,m)进行修正;根据最终的判决因子ξ(i,m)和阈值参数T′(i,m),对自适应滤波器的步长μ(i,m)进行修正,修正公式为式(10):
其中μ0为固定步长;
步骤(E)根据计算的滤波器步长μ(i,m),对滤波器系数进行更新;更新公式为式(11):
其中n为时域滤波器的标号,n取[0,N-1],N为滤波器长度,δ为一个极小数,取0.00001;
步骤(F)利用更新后的滤波器系数对当前麦克风输入帧计算误差em(i);计算公式为公式(12),为估计的滤波器系数;
步骤(G)将回声消除器计算出的误差em(i)通过升采样器和综合滤波器,得到最终的输出信号e,并将其输出到系统输出缓冲区;之后返回步骤(A),处理下一帧信号。
CN201910601964.4A 2019-07-05 2019-07-05 一种基于子带信噪比估计的低复杂度双端检测方法 Active CN112185404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910601964.4A CN112185404B (zh) 2019-07-05 2019-07-05 一种基于子带信噪比估计的低复杂度双端检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910601964.4A CN112185404B (zh) 2019-07-05 2019-07-05 一种基于子带信噪比估计的低复杂度双端检测方法

Publications (2)

Publication Number Publication Date
CN112185404A CN112185404A (zh) 2021-01-05
CN112185404B true CN112185404B (zh) 2023-09-19

Family

ID=73914605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910601964.4A Active CN112185404B (zh) 2019-07-05 2019-07-05 一种基于子带信噪比估计的低复杂度双端检测方法

Country Status (1)

Country Link
CN (1) CN112185404B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345459B (zh) * 2021-07-16 2023-02-21 北京融讯科创技术有限公司 一种双讲状态的检测方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109068012A (zh) * 2018-07-06 2018-12-21 南京时保联信息科技有限公司 一种用于音频会议系统的双端通话检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015047308A1 (en) * 2013-09-27 2015-04-02 Nuance Communications, Inc. Methods and apparatus for robust speaker activity detection
US9633671B2 (en) * 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
US10536773B2 (en) * 2013-10-30 2020-01-14 Cerence Operating Company Methods and apparatus for selective microphone signal combining
US9520139B2 (en) * 2014-06-19 2016-12-13 Yang Gao Post tone suppression for speech enhancement

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109068012A (zh) * 2018-07-06 2018-12-21 南京时保联信息科技有限公司 一种用于音频会议系统的双端通话检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A new robust double-talk detector based on the Stockwell transform for acoustic echo cancellation;Mahfoud Hamidia等;Digital Signal Processing;第60卷;全文 *
一种新的双端通话检测方法研究;李申 等;科技广场(第08期);全文 *
矿用广播系统中回声消除算法的研究;李云伟 等;科技通报(第04期);全文 *

Also Published As

Publication number Publication date
CN112185404A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
US10403299B2 (en) Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
CN105825864B (zh) 基于过零率指标的双端说话检测与回声消除方法
JP4955228B2 (ja) ラウンドロビン正則化を用いたマルチチャネルエコーキャンセレーション
US7742592B2 (en) Method and device for removing echo in an audio signal
US8594320B2 (en) Hybrid echo and noise suppression method and device in a multi-channel audio signal
US8958572B1 (en) Adaptive noise cancellation for multi-microphone systems
US8954324B2 (en) Multiple microphone voice activity detector
CN109754813B (zh) 基于快速收敛特性的变步长回声消除方法
US20070036344A1 (en) Method and system for eliminating noises and echo in voice signals
US9699554B1 (en) Adaptive signal equalization
CN112689056B (zh) 一种回声消除方法及使用该方法的回声消除装置
CN110956975B (zh) 回声消除方法及装置
CN112185404B (zh) 一种基于子带信噪比估计的低复杂度双端检测方法
JP4403776B2 (ja) エコーキャンセラ
Yang Multilayer adaptation based complex echo cancellation and voice enhancement
Mohammed A new adaptive beamformer for optimal acoustic echo and noise cancellation with less computational load
KR100545832B1 (ko) 간섭신호에 강인한 음향 반향 제거장치
CN114724574A (zh) 一种期望声源方向可调的双麦克风降噪方法
JP2891295B2 (ja) 音響エコーキャンセラ
KR100272131B1 (ko) 계층적 구조의 적응반향 제거장치
KR20220157475A (ko) 반향 잔류 억제
Djendi et al. A new fast Newton‐type adaptive filtering algorithm for stereophonic acoustic echo cancellation (SAEC)
JP2006067127A (ja) 残響除去方法及びその装置
CN111294474B (zh) 一种双端通话检测方法
CN111050005B (zh) 一种偏差补偿的集员仿射投影的回声消除方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant