CN113949776A - 一种基于双步长快速回声消除的双端讲话检测方法和装置 - Google Patents

一种基于双步长快速回声消除的双端讲话检测方法和装置 Download PDF

Info

Publication number
CN113949776A
CN113949776A CN202111216623.9A CN202111216623A CN113949776A CN 113949776 A CN113949776 A CN 113949776A CN 202111216623 A CN202111216623 A CN 202111216623A CN 113949776 A CN113949776 A CN 113949776A
Authority
CN
China
Prior art keywords
double
echo
echo cancellation
follows
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111216623.9A
Other languages
English (en)
Other versions
CN113949776B (zh
Inventor
何平
蒋升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suirui Technology Group Co Ltd
Original Assignee
Suirui Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suirui Technology Group Co Ltd filed Critical Suirui Technology Group Co Ltd
Priority to CN202111216623.9A priority Critical patent/CN113949776B/zh
Publication of CN113949776A publication Critical patent/CN113949776A/zh
Application granted granted Critical
Publication of CN113949776B publication Critical patent/CN113949776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种基于双步长快速回声消除的双端讲话检测方法和装置,属于信息处理的领域,该方法包括以下步骤:S1:对麦克风的语音信号和回声参考信号进行短时傅里叶变换得到时频域表达;S2:对每一个频带构建双步长系数,并且建立回声消除滤波器;其中,包括采用双步长构建自相关系数、采用双步长构建互相关系数和采用双步长构建回声消除滤波器;S3:通过回声消除滤波器计算残留回声谱,并且计算帧级别残留回声能量,进而得到对数残留回声比;S4:通过检测当前对数域残留回声比与历史平均信息的差异性,判断是否进入双端讲话状态。本发明采用双步长快速回声消除的方法,设计能量残留比的方法来进行双端讲话检测,检测过程更加稳定。

Description

一种基于双步长快速回声消除的双端讲话检测方法和装置
技术领域
本发明属于信息处理的领域,具体涉及一种基于双步长快速回声消除的双端讲话检测方法和装置。
背景技术
在语音会议系统等诸多网络通话应用中,终端设备同时有麦克风和扬声器,来采集声信号和播放声信号。扬声器信号也会被麦克风拾取,称为回声。如果回声信号不能被自适应消除,会传输到对方形成啸叫,严重影响通话质量。因此,回声消除技术是会议系统中的关键技术之一。双端讲话是指参与会议系统的双方都在讲话(近端说话人和网络对方说话人),是回声消除算法中最难的场景,既要尽可能消除回声,同时也不能让近端语音被消除。回声消除算法中,通常需要一个准确、快速的双端讲话检测模块,在检测到双端讲话场景时采用不同的回声消除策略保证近端语音不被消除。
现有技术中,回声消除算法是会议系统或者会议设备中的关键技术之一,而双端讲话场景是回声消除中最为困难的处理场景。双端讲话检测是保证该场景下回声消除性能的关键技术。传统信号处理的方法通常是根据参考信号和麦克风信号的相关性大小来判定是否进入双端讲话状态。假设近端说话人没有讲话,麦克风信号只拾取到回声,那么麦克风信号和参考信号相关性非常大。当近端说话人讲话时,相关性会变弱,因此可以实时计算相关性,同时与设定阈值相比较,判断是否进入双讲状态。另外,可以通过未更新的回声消除滤波器来消除当前时段信号,如果残留较大,说明是由于近端说话人讲话导致了残留,也根据残留信号的能量比率来判定是否进入双讲状态。
目前,现有技术中双端检测方法的主要缺点如下:1)采用麦克风拾取信号和参考信号的相关性来判断的方法,当回声能量显著大于近端说话人语音能量时,相关性的变化比较弱,方法效果变差;2)基于信号残留能量的方法,由于回声滤波器需要实时自适应,上一时段滤波器在当前时段信号会有一定的回声残留,也会影响检测的准确性。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种基于双步长快速回声消除的双端讲话检测方法和装置,其采用双步长快速回声消除的方法,设计能量残留比的方法来进行双端讲话检测。并且,本发明的两个滤波器采用不同的步长,通过残留能量比可以更稳定的反应是否进入双讲状态。
为了实现上述目的,本发明提供的一种基于双步长快速回声消除的双端讲话检测方法,包括以下步骤:
S1:对麦克风的语音信号和回声参考信号进行短时傅里叶变换得到时频域表达;
S2:对每一个频带构建双步长系数,并且建立回声消除滤波器;其中,包括采用双步长构建自相关系数、采用双步长构建互相关系数和采用双步长构建回声消除滤波器;
S3:通过回声消除滤波器计算残留回声谱,并且计算帧级别残留回声能量,进而得到对数残留回声比;
S4:通过检测当前对数域残留回声比与历史平均信息的差异性,判断是否进入双端讲话状态。
进一步地,所述步骤S1之前还包括:获取麦克风的语音信号x(n)和回声参考信号r(n);
所述步骤S1中对时域信号x(n)和r(n)进行短时傅里叶变换的过程如下:
Figure BDA0003310900480000021
Figure BDA0003310900480000031
进一步地,所述步骤S2具体包括以下步骤:
S201:对每一个频带k,计算双步长自相关系数
Figure BDA0003310900480000032
Figure BDA0003310900480000033
其具体的计算公式如下:
Figure BDA0003310900480000034
Figure BDA0003310900480000035
S202:对每一个频带k,计算双步长互相关系数系数
Figure BDA0003310900480000036
Figure BDA0003310900480000037
其具体的计算公式如下:
Figure BDA0003310900480000038
Figure BDA0003310900480000039
其中,α1和θ2为相邻帧间平滑因子;
S203:对每一个频带k,计算回声消除滤波器W1(k)和W2(k),其具体的计算公式如下:
Figure BDA00033109004800000310
Figure BDA00033109004800000311
进一步地,所述步骤S3具体包括以下步骤:
S301:对每一个频带k,计算残留回声谱Z1(l,k)和Z2(l,k),其具体的计算公式如下:
Z1(l,k)=X(l,k)-W1(k)R(l,k)
Z2(l,k)=X(l,k)-W2(k)R(l,k);
S302:累积所有频带k,计算帧级别残留回声能量ρ1(l)和ρ2(l),其具体的计算公式如下:
Figure BDA00033109004800000312
Figure BDA00033109004800000313
S303:根据帧级别残留回声能量,得到对数残留回声比δ(l),其具体的计算公式如下:
δ(l)=log(ρ1(l))-log(ρ2(l))。
更进一步地,所述双端讲话状态Δ(l)的计算过程如下:
Figure BDA0003310900480000041
Figure BDA0003310900480000042
其中,如果Δ(l)值为1,判定当前帧进入双端讲话状态;否则,Δ(l)值为0,判定为未进入双端讲话状态。
本发明还提供了一种基于双步长快速回声消除的双端讲话检测装置,包括信号分解模块、双步长滤波器计算模块、回声残留比计算模块和双端讲话检测模块:
信号分解模块用于对麦克风的语音信号和回声参考信号进行短时傅里叶变换得到时频域表达;
双步长滤波器计算模块用于对每一个频带构建双步长系数,并且建立回声消除滤波器;其包括自相关系数计算模块、互相关系数计算模块和回声消除滤波器计算模块;
回声残留比计算模块用于通过回声消除滤波器计算残留回声谱,并且计算帧级别残留回声能量,进而得到对数残留回声比;
双端讲话检测模块用于通过检测当前对数域残留回声比与历史平均信息的差异性,判断是否进入双端讲话状态。
进一步地,所述信号分解模块还用于获取麦克风的语音信号x(n)和回声参考信号r(n);
所述信号分解模块中,对时域信号x(n)和r(n)进行短时傅里叶变换的过程如下:
Figure BDA0003310900480000043
Figure BDA0003310900480000044
进一步地,所述双步长滤波器计算模块中,
上述自相关系数计算模块,用于对每一个频带k,计算双步长自相关系数
Figure BDA0003310900480000051
Figure BDA0003310900480000052
其具体的计算公式如下:
Figure BDA0003310900480000053
Figure BDA0003310900480000054
所述互相关系数计算模块,用于对每一个频带k,计算双步长互相关系数系数
Figure BDA0003310900480000055
Figure BDA0003310900480000056
其具体的计算公式如下:
Figure BDA0003310900480000057
Figure BDA0003310900480000058
其中,α1和α2为相邻帧间平滑因子;
所述回声消除滤波器计算模块,用于对每一个频带k,计算回声消除滤波器W1(k)和W2(k),其具体的计算公式如下:
Figure BDA0003310900480000059
Figure BDA00033109004800000510
进一步地,所述回声残留比计算模块包括残留回声谱计算模块、残留回声能量计算模块和残留回声比计算模块;
所述残留回声谱计算模块,用于对每一个频带k,计算残留回声谱Z1(l,k)和Z2(l,k),其具体的计算公式如下:
Z1(l,k)=X(l,k)-W1(k)R(l,k)
Z2(l,k)=X(l,k)-W2(k)R(l,k);
所述残留回声能量计算模块,用于累积所有频带k,计算帧级别残留回声能量ρ1(l)和ρ2(l),其具体的计算公式如下:
Figure BDA00033109004800000511
Figure BDA00033109004800000512
所述残留回声比计算模块,用于根据帧级别残留回声能量,得到对数残留回声比δ(l),其具体的计算公式如下:
δ(l)=log(ρ1(l))-log(ρ2(l))。
更进一步地,所述双端讲话检测模块中,双端讲话状态Δ(l)的计算过程如下:
Figure BDA0003310900480000061
Figure BDA0003310900480000062
其中,如果Δ(l)值为1,判定当前帧进入双端讲话状态;否则,Δ(l)值为0,判定为未进入双端讲话状态。
本发明提供的一种基于双步长快速回声消除的双端讲话检测方法和装置,具有如下有益效果:
1、本发明采用不同步长的自相关、互相关系数计算两个回声消除滤波器,因此回声残留比的值比较稳定,残留能量比的异常变化可以直接对应到是否有近端语音,因此检测结果更加稳定。
2、本发明采用当前帧残留比与前溯M帧平滑结果进行对比,因此可以对单端讲话状态可以比较好的自适应,对不同设备在不同环境下的检测都有比较好的适应性。
附图说明
图1为本具体实施方式中的基于双步长快速回声消除的双端讲话检测方法的流程图。
图2为本具体实施方式中的使用的汉明窗函数的示意图。
图3为本具体实施方式中的基于双步长快速回声消除的双端讲话检测装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施方式对本发明作进一步的详细说明。
如图1所示,本发明的一实施方式为一种基于双步长快速回声消除的双端讲话检测方法。
具体包括以下四个实施步骤:
S1:对麦克风的语音信号和回声参考信号进行短时傅里叶变换得到时频域表达。
在步骤S1之前,还包括获取麦克风的语音信号和回声参考信号,获取的语音信号如下:假设x(n)代表麦克风阵元实时拾取的原始时域信号,r(n)为回声参考信号,其中,n代表时间标签。其中,回声参考信号就是实际的扬声器播放的声音,其获取方式跟麦克风的语音信号一样。
具体地,进行短时傅里叶变换的方法如下:
对时域信号x(n)和r(n)进行短时傅里叶变换得到时频域表达:
Figure BDA0003310900480000071
Figure BDA0003310900480000072
其中,N为帧长,选取N=512;w(n)为长度512的汉明窗,其中,n代表时间标签,即时间序号,因此w(n)代表每一个对应时间序号n上的值;1为时间帧序号,以帧为单位;k为频带序号,其中,频带是指某个频率对应的信号分量;j代表虚数单位
Figure BDA0003310900480000073
X(l,k)为第m个麦克风的语音信号,在第1帧,第k个频带的频谱;R(l,k)为回声参考信号在第l帧,第k个频带的频谱。
本发明中,使用的汉明窗函数如图2所示。
通过上述步骤S1,能够将麦克风的语音信号和回声参考信号的时域信号转化为时频域信号。
S2:对每一个频带构建双步长系数,并且建立回声消除滤波器;其中,该步骤S2包括采用双步长构建自相关系数、采用双步长构建互相关系数和采用双步长构建回声消除滤波器。其作用是计算两个步长的回声消除滤波器。
具体地,本步骤S2包括以下步骤:
S201:对每一个频带k,计算双步长自相关系数
Figure BDA0003310900480000074
Figure BDA0003310900480000075
其具体的计算公式如下:
Figure BDA0003310900480000081
Figure BDA0003310900480000082
其中,|·|代表取复数的模;α1和α2为相邻帧间平滑因子,即步长,α1取值范围在0.98和0.999之间,α2取值范围在0.65和0.9之间。
本发明中优选α1=0.995,采用该步长可以保证自相关系数比较充分的拾取信号中的慢变信号,保证后续回声消除滤波器的有效性,同时避免近端信号被消除;优选α2=0.8,采用该步长可以有效累积信号中的快变分量,保证后续回声消除滤波器可以有更好的消除效果,但是会引入一定的近端语音失真。
通过该步骤S201计算的双步长自相关系数是回声参考信号的自相关系数,能够用于后续步骤S203中以建立回声消除滤波器。
S202:对每一个频带k,计算双步长互相关系数系数
Figure BDA0003310900480000083
Figure BDA0003310900480000084
其具体的计算公式如下:
Figure BDA0003310900480000085
Figure BDA0003310900480000086
其中,上标*代表复数的共轭;α1和α2为相邻帧间平滑因子,与步骤S201中相同。
互相关系数代表了每一个频带麦克风信号和回声参考信号的统计相关度。两个步长的相关系数分别累积了信号的慢变部分和快变部分。
通过该步骤S202计算的双步长互相关系数是回声参考信号与麦克风信号的互相关系数,能够用于后续步骤S203中以建立回声消除滤波器。
S203:对每一个频带k,计算回声消除滤波器W1(k)和W2(k),其具体的计算公式如下:
Figure BDA0003310900480000087
Figure BDA0003310900480000088
其中,上述计算的两个滤波器并不是最终的回声消除滤波器,其仅仅是用以计算回声信号中的慢变分量和快变分量。其中,W1(k)可以用来消除回声的慢变分量,W2(k)可以用来消除回声的快变分量。
S3:通过回声消除滤波器计算残留回声谱,并且计算帧级别残留回声能量,进而得到对数残留回声比。其作用是计算两个步长的滤波器输出结果的能量差值。
具体地,本步骤S3包括以下步骤:
S301:对每一个频带k,计算残留回声谱Z1(l,k)和Z2(l,k),其具体的计算公式如下:
Z1(l,k)=X(l,k)-W1(k)R(l,k)
Z2(l,k)=X(l,k)-W2(k)R(l,k)
该步骤S301的计算结果代表了采用上述双步长滤波器之后的滤波输出。当进入双端讲话状态时,这两个输出的能量大小的差异会有显著的变化,可以用以后续步骤中以检测是否进入双端讲话状态。
S302:累积所有频带k,计算帧级别残留回声能量ρ1(l)和ρ2(l),其具体的计算公式如下:
Figure BDA0003310900480000091
Figure BDA0003310900480000092
该步骤S302的计算结果ρ1(l)和ρ2(l)分别代表采用慢变步长和快变步长滤波器在第l帧残留的回声能量。
S303:根据帧级别残留回声能量,得到对数残留回声比δ(l),其具体的计算公式如下:
δ(l)=log(ρ1(l))-log(ρ2(l))
该步骤S303采用对数域的差值来计算两个步长的残留能量比值,把能量的变化幅度压缩到相对小的区域。
S4:通过检测当前对数域残留回声比与历史平均信息的差异性,判断是否进入双端讲话状态。
其中,双端讲话状态Δ(l)的计算过程如下:
Figure BDA0003310900480000101
Figure BDA0003310900480000102
其中,
Figure BDA0003310900480000103
代表前溯M时间帧的平均对数残留回声比的平均值,γ代表监测阈值。
M取值范围为5到20,如果取值较小,会导致双端检测的结果有比较多的虚警率,如果值较大,则需要累积比较长时信息,导致判断的时间过长,影响实时性。因此,本发明中优选设置M=10,如果高于10,计算复杂度过高,影响算法实时性;如果低于时虚警率会显著提升,选择10可以在实时性与虚警率之间较好的平衡。
γ取值范围为3到10;γ的取值越小,虚警率越高;取值越大,则漏检率越高。本发明中优选γ=5,可以保证大致均衡的虚警率和漏检率。
如果当期帧的对数残留回声比δ(l)超过前溯M帧的平均值的γ倍,则认为当期双步长滤波器残留回声比值过大,是由于近端语音的加入所导致。因此,Δ(l)值为1,判定当前帧进入双端讲话状态;否则,Δ(l)值为0,判定为未进入双端讲话状态。
通过该步骤S4,能够采用当前帧与前溯M帧平均值对比结果来检测是否进入双端讲话状态。
通过本发明的上述步骤S1-S4,可以实现信号时频分解、双步长滤波器计算、回声残留比计算和双端讲话检测,最终得到是否进入双端讲话状态的结果。
如图3所示,本发明的一实施方式为一种基于双步长快速回声消除的双端讲话检测装置,包括信号分解模块1、双步长滤波器计算模块2、回声残留比计算模块3和双端讲话检测模块4。
信号分解模块1,用于对麦克风的语音信号和回声参考信号进行短时傅里叶变换得到时频域表达。
信号分解模块1还能够用于获取麦克风的语音信号和回声参考信号,获取的语音信号如下:假设x(n)代表麦克风阵元实时拾取的原始时域信号,r(n)为回声参考信号,其中,n代表时间标签。
具体地,进行短时傅里叶变换的方法如下:
对时域信号x(n)和r(n)进行短时傅里叶变换得到时频域表达:
Figure BDA0003310900480000111
Figure BDA0003310900480000112
其中,N为帧长,选取N=512;w(n)为长度512的汉明窗,其中,n代表时间标签,即时间序号,因此w(n)代表每一个对应时间序号n上的值;1为时间帧序号,以帧为单位;k为频带序号,其中,频带是指某个频率对应的信号分量;j代表虚数单位
Figure BDA0003310900480000113
X(l,k)为第m个麦克风的语音信号,在第1帧,第k个频带的频谱;R(l,k)为回声参考信号在第l帧,第k个频带的频谱。
本发明中,使用的汉明窗函数如图2所示。
通过信号分解模块1,能够将麦克风的语音信号和回声参考信号的时域信号转化为时频域信号。
双步长滤波器计算模块2,用于对每一个频带构建双步长系数,并且建立回声消除滤波器。其作用是计算两个步长的回声消除滤波器。其中,双步长滤波器计算模块2包括自相关系数计算模块、互相关系数计算模块和回声消除滤波器计算模块。
具体地,自相关系数计算模块,用于对每一个频带k,计算双步长自相关系数
Figure BDA0003310900480000114
Figure BDA0003310900480000115
其具体的计算公式如下:
Figure BDA0003310900480000116
Figure BDA0003310900480000117
其中,|.|代表取复数的模;α1和α2为相邻帧间平滑因子,即步长,α1取值范围在0.98和0.999之间,α2取值范围在0.65和0.9之间。
本发明中优选α1=0.995,采用该步长可以保证自相关系数比较充分的拾取信号中的慢变信号,保证后续回声消除滤波器的有效性,同时避免近端信号被消除;优选α2=0.8,采用该步长可以有效累积信号中的快变分量,保证后续回声消除滤波器可以有更好的消除效果,但是会引入一定的近端语音失真。
通过上述计算的双步长自相关系数是回声参考信号的自相关系数,能够用于后续回声消除滤波器计算模块中以建立回声消除滤波器。
互相关系数计算模块,用于对每一个频带k,计算双步长互相关系数系数
Figure BDA0003310900480000121
Figure BDA0003310900480000122
其具体的计算公式如下:
Figure BDA0003310900480000123
Figure BDA0003310900480000124
其中,上标*代表复数的共轭;α1和θ2为相邻帧间平滑因子,与自相关系数计算模块中相同。
互相关系数代表了每一个频带麦克风信号和回声参考信号的统计相关度。两个步长的相关系数分别累积了信号的慢变部分和快变部分。
通过上述计算的双步长互相关系数是回声参考信号与麦克风信号的互相关系数,能够用于后续回声消除滤波器计算模块中以建立回声消除滤波器。
回声消除滤波器计算模块,用于对每一个频带k,计算回声消除滤波器W1(k)和W2(k),其具体的计算公式如下:
Figure BDA0003310900480000125
Figure BDA0003310900480000126
其中,上述计算的两个滤波器并不是最终的回声消除滤波器,其仅仅是用以计算回声信号中的慢变分量和快变分量。其中,W1(k)可以用来消除回声的慢变分量,W2(k)可以用来消除回声的快变分量。
分离矩阵计算模块3用于通过回声消除滤波器计算残留回声谱,并且计算帧级别残留回声能量,进而得到对数残留回声比。其作用是计算两个步长的滤波器输出结果的能量差值。
具体地,分离矩阵计算模块3包括残留回声谱计算模块、残留回声能量计算模块和残留回声比计算模块。
残留回声谱计算模块,用于对每一个频带k,计算残留回声谱Z1(l,k)和Z2(l,k),其具体的计算公式如下:
Z1(l,k)=X(l,k)-W1(k)R(l,k)
Z2(l,k)=X(l,k)-W2(k)R(l,k)
上述计算结果代表了采用上述双步长滤波器之后的滤波输出。当进入双端讲话状态时,这两个输出的能量大小的差异会有显著的变化,可以用以后续以检测是否进入双端讲话状态。
残留回声能量计算模块,用于累积所有频带k,计算帧级别残留回声能量ρ1(l)和ρ2(l),其具体的计算公式如下:
Figure BDA0003310900480000131
Figure BDA0003310900480000132
上述计算结果ρ1(l)和ρ2(l)分别代表采用慢变步长和快变步长滤波器在第1帧残留的回声能量。
残留回声比计算模块,用于根据帧级别残留回声能量,得到对数残留回声比δ(l),其具体的计算公式如下:
δ(l)=log(ρ1(l))-log(ρ2(l))
通过残留回声比计算模块,采用对数域的差值来计算两个步长的残留能量比值,把能量的变化幅度压缩到相对小的区域。
双端讲话检测模块4,用于通过检测当前对数域残留回声比与历史平均信息的差异性,判断是否进入双端讲话状态。
具体地,双端讲话状态Δ(l)的计算过程如下:
Figure BDA0003310900480000133
Figure BDA0003310900480000134
其中,
Figure BDA0003310900480000135
代表前溯M时间帧的平均对数残留回声比的平均值,γ代表监测阈值。
M取值范围为5到20,如果取值较小,会导致双端检测的结果有比较多的虚警率,如果值较大,则需要累积比较长时信息,导致判断的时间过长,影响实时性。因此,本发明中优选设置M=10,如果高于10,计算复杂度过高,影响算法实时性;如果低于时虚警率会显著提升,选择10可以在实时性与虚警率之间较好的平衡。
γ取值范围为3到10;γ的取值越小,虚警率越高;取值越大,则漏检率越高。本发明中优选γ=5,可以保证大致均衡的虚警率和漏检率。
如果当期帧的对数残留回声比δ(l)超过前溯M帧的平均值的γ倍,则认为当期双步长滤波器残留回声比值过大,是由于近端语音的加入所导致。因此,Δ(l)值为1,判定当前帧进入双端讲话状态;否则,Δ(l)值为0,判定为未进入双端讲话状态。
通过双端讲话检测模块4,能够采用当前帧与前溯M帧平均值对比结果来检测是否进入双端讲话状态。
上述实施方式中,信号分解模块1、双步长滤波器计算模块2、回声残留比计算模块3和双端讲话检测模块4的这4个模块缺一不可,任一模块的缺失,都会导致无法判断是否进入双端讲话状态。
本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于双步长快速回声消除的双端讲话检测方法,其特征在于,包括以下步骤:
S1:对麦克风的语音信号和回声参考信号进行短时傅里叶变换得到时频域表达;
S2:对每一个频带构建双步长系数,并且建立回声消除滤波器;其中,包括采用双步长构建自相关系数、采用双步长构建互相关系数和采用双步长构建回声消除滤波器;
S3:通过回声消除滤波器计算残留回声谱,并且计算帧级别残留回声能量,进而得到对数残留回声比;
S4:通过检测当前对数域残留回声比与历史平均信息的差异性,判断是否进入双端讲话状态。
2.根据权利要求1所述的基于双步长快速回声消除的双端讲话检测方法,其特征在于,所述步骤S1之前还包括:获取麦克风的语音信号x(n)和回声参考信号r(n);
所述步骤S1中对时域信号x(n)和r(n)进行短时傅里叶变换的过程如下:
Figure FDA0003310900470000011
Figure FDA0003310900470000012
3.根据权利要求2所述的基于双步长快速回声消除的双端讲话检测方法,其特征在于,所述步骤S2具体包括以下步骤:
S201:对每一个频带k,计算双步长自相关系数
Figure FDA0003310900470000013
Figure FDA0003310900470000014
其具体的计算公式如下:
Figure FDA0003310900470000015
Figure FDA0003310900470000016
S202:对每一个频带k,计算双步长互相关系数系数
Figure FDA0003310900470000017
Figure FDA0003310900470000018
其具体的计算公式如下:
Figure FDA0003310900470000021
Figure FDA0003310900470000022
其中,α1和α2为相邻帧间平滑因子;
S203:对每一个频带k,计算回声消除滤波器W1(k)和W2(k),其具体的计算公式如下:
Figure FDA0003310900470000023
Figure FDA0003310900470000024
4.根据权利要求3所述的基于双步长快速回声消除的双端讲话检测方法,其特征在于,所述步骤S3具体包括以下步骤:
S301:对每一个频带k,计算残留回声谱Z1(l,k)和Z2(l,k),其具体的计算公式如下:
Z1(l,k)=X(l,k)-W1(k)R(l,k)
Z2(l,k)=X(l,k)-W2(k)R(l,k);
S302:累积所有频带k,计算帧级别残留回声能量ρ1(l)和ρ2(l),其具体的计算公式如下:
Figure FDA0003310900470000025
Figure FDA0003310900470000026
S303:根据帧级别残留回声能量,得到对数残留回声比δ(l),其具体的计算公式如下:
δ(l)=log(ρ1(l))-log(ρ2(l))。
5.根据权利要求4所述的基于双步长快速回声消除的双端讲话检测方法,其特征在于,所述双端讲话状态Δ(l)的计算过程如下:
Figure FDA0003310900470000031
Figure FDA0003310900470000032
其中,如果Δ(l)值为1,判定当前帧进入双端讲话状态;否则,Δ(l)值为0,判定为未进入双端讲话状态。
6.一种基于双步长快速回声消除的双端讲话检测装置,其特征在于,包括信号分解模块、双步长滤波器计算模块、回声残留比计算模块和双端讲话检测模块:
信号分解模块用于对麦克风的语音信号和回声参考信号进行短时傅里叶变换得到时频域表达;
双步长滤波器计算模块用于对每一个频带构建双步长系数,并且建立回声消除滤波器;其包括自相关系数计算模块、互相关系数计算模块和回声消除滤波器计算模块;
回声残留比计算模块用于通过回声消除滤波器计算残留回声谱,并且计算帧级别残留回声能量,进而得到对数残留回声比;
双端讲话检测模块用于通过检测当前对数域残留回声比与历史平均信息的差异性,判断是否进入双端讲话状态。
7.根据权利要求6所述的基于双步长快速回声消除的双端讲话检测装置,其特征在于,所述信号分解模块还用于获取麦克风的语音信号x(n)和回声参考信号r(n);
所述信号分解模块中,对时域信号x(n)和r(n)进行短时傅里叶变换的过程如下:
Figure FDA0003310900470000033
Figure FDA0003310900470000034
8.根据权利要求7所述的基于双步长快速回声消除的双端讲话检测装置,其特征在于,所述双步长滤波器计算模块中,
上述自相关系数计算模块,用于对每一个频带k,计算双步长自相关系数
Figure FDA0003310900470000041
Figure FDA0003310900470000042
其具体的计算公式如下:
Figure FDA0003310900470000043
Figure FDA0003310900470000044
所述互相关系数计算模块,用于对每一个频带k,计算双步长互相关系数系数
Figure FDA0003310900470000045
Figure FDA0003310900470000046
其具体的计算公式如下:
Figure FDA0003310900470000047
Figure FDA0003310900470000048
其中,α1和θ2为相邻帧间平滑因子;
所述回声消除滤波器计算模块,用于对每一个频带k,计算回声消除滤波器W1(k)和W2(k),其具体的计算公式如下:
Figure FDA0003310900470000049
Figure FDA00033109004700000410
9.根据权利要求8所述的基于双步长快速回声消除的双端讲话检测装置,其特征在于,所述回声残留比计算模块包括残留回声谱计算模块、残留回声能量计算模块和残留回声比计算模块;
所述残留回声谱计算模块,用于对每一个频带k,计算残留回声谱Z1(l,k)和Z2(l,k),其具体的计算公式如下:
Z1(l,k)=X(l,k)-W1(k)R(l,k)
Z2(l,k)=X(l,k)-W2(k)R(l,k);
所述残留回声能量计算模块,用于累积所有频带k,计算帧级别残留回声能量ρ1(l)和ρ2(l),其具体的计算公式如下:
Figure FDA0003310900470000051
Figure FDA0003310900470000052
所述残留回声比计算模块,用于根据帧级别残留回声能量,得到对数残留回声比δ(l),其具体的计算公式如下:
δ(l)=log(ρ1(l))-log(ρ2(l))。
10.根据权利要求9所述的基于双步长快速回声消除的双端讲话检测装置,其特征在于,所述双端讲话检测模块中,双端讲话状态Δ(l)的计算过程如下:
Figure FDA0003310900470000053
Figure FDA0003310900470000054
其中,如果Δ(l)值为1,判定当前帧进入双端讲话状态;否则,Δ(l)值为0,判定为未进入双端讲话状态。
CN202111216623.9A 2021-10-19 2021-10-19 一种基于双步长快速回声消除的双端讲话检测方法和装置 Active CN113949776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111216623.9A CN113949776B (zh) 2021-10-19 2021-10-19 一种基于双步长快速回声消除的双端讲话检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111216623.9A CN113949776B (zh) 2021-10-19 2021-10-19 一种基于双步长快速回声消除的双端讲话检测方法和装置

Publications (2)

Publication Number Publication Date
CN113949776A true CN113949776A (zh) 2022-01-18
CN113949776B CN113949776B (zh) 2024-04-16

Family

ID=79331370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111216623.9A Active CN113949776B (zh) 2021-10-19 2021-10-19 一种基于双步长快速回声消除的双端讲话检测方法和装置

Country Status (1)

Country Link
CN (1) CN113949776B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638253A (ja) * 1992-05-21 1994-02-10 Toshiba Corp エコーキャンセラ
CN102300014A (zh) * 2011-09-09 2011-12-28 南京大学 一种适用于有噪声环境下的声回声抵消系统双端说话检测方法
CN103067628A (zh) * 2011-10-20 2013-04-24 联芯科技有限公司 残留回声抑制方法及其装置
CN109785853A (zh) * 2019-03-11 2019-05-21 出门问问信息科技有限公司 一种回声消除方法、装置、系统及存储介质
CN111199748A (zh) * 2020-03-12 2020-05-26 紫光展锐(重庆)科技有限公司 回声消除方法、装置、设备以及存储介质
CN111883153A (zh) * 2020-06-28 2020-11-03 厦门亿联网络技术股份有限公司 一种基于麦克风阵列的双端讲话状态检测方法及装置
US20210013927A1 (en) * 2019-05-22 2021-01-14 Shenzhen GOODIX Technology Co., Ltd. Double talk detection method, double talk detection apparatus and echo cancellation system
CN113345459A (zh) * 2021-07-16 2021-09-03 北京融讯科创技术有限公司 一种双讲状态的检测方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638253A (ja) * 1992-05-21 1994-02-10 Toshiba Corp エコーキャンセラ
CN102300014A (zh) * 2011-09-09 2011-12-28 南京大学 一种适用于有噪声环境下的声回声抵消系统双端说话检测方法
CN103067628A (zh) * 2011-10-20 2013-04-24 联芯科技有限公司 残留回声抑制方法及其装置
CN109785853A (zh) * 2019-03-11 2019-05-21 出门问问信息科技有限公司 一种回声消除方法、装置、系统及存储介质
US20210013927A1 (en) * 2019-05-22 2021-01-14 Shenzhen GOODIX Technology Co., Ltd. Double talk detection method, double talk detection apparatus and echo cancellation system
CN111199748A (zh) * 2020-03-12 2020-05-26 紫光展锐(重庆)科技有限公司 回声消除方法、装置、设备以及存储介质
CN111883153A (zh) * 2020-06-28 2020-11-03 厦门亿联网络技术股份有限公司 一种基于麦克风阵列的双端讲话状态检测方法及装置
CN113345459A (zh) * 2021-07-16 2021-09-03 北京融讯科创技术有限公司 一种双讲状态的检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113949776B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN102025852B (zh) 在近端对回传音频的检测和抑制
CN103428385B (zh) 用于处理音频信号的方法及用于处理音频信号的电路布置
US7620172B2 (en) Method and system for eliminating noises and echo in voice signals
CN110956975B (zh) 回声消除方法及装置
CN106713570B (zh) 一种回声消除方法和装置
US8160238B2 (en) Method and apparatus for double-talk detection
US5390244A (en) Method and apparatus for periodic signal detection
CN110995951B (zh) 基于双端发声检测的回声消除方法、装置及系统
CN112492112B (zh) 一种基于对讲系统的回音消除方法和装置
JPH09116615A (ja) 反響消去装置
CN110992923B (zh) 回声消除方法、电子设备以及存储装置
JP3507020B2 (ja) 反響抑圧方法、反響抑圧装置及び反響抑圧プログラム記憶媒体
JP3607625B2 (ja) 多チャネル反響抑圧方法、その装置、そのプログラム及びその記録媒体
US8588404B2 (en) Method and apparatus for acoustic echo cancellation in VoIP terminal
CN111970610B (zh) 回声路径检测方法、音频信号处理方法及系统、存储介质、终端
US8369511B2 (en) Robust method of echo suppressor
CN115579016B (zh) 一种声学回声消除的方法和系统
CN113949776B (zh) 一种基于双步长快速回声消除的双端讲话检测方法和装置
Hamidia et al. Double-talk detector based on speech feature extraction for acoustic echo cancellation
CN111294474B (zh) 一种双端通话检测方法
JP2007151047A (ja) 音声スイッチ方法、音声スイッチ装置、音声スイッチプログラム及びそのプログラムを記録した記録媒体
CN113223547B (zh) 双讲检测方法、装置、设备和介质
CN109361827B (zh) 一种通信终端的回音二次抑制方法
CN111091846B (zh) 一种降噪方法及应用该方法的回声消除系统
Papp et al. Hands-free VoIP solution for embedded platforms in consumer electronics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant