CN105825864B - 基于过零率指标的双端说话检测与回声消除方法 - Google Patents

基于过零率指标的双端说话检测与回声消除方法 Download PDF

Info

Publication number
CN105825864B
CN105825864B CN201610335013.3A CN201610335013A CN105825864B CN 105825864 B CN105825864 B CN 105825864B CN 201610335013 A CN201610335013 A CN 201610335013A CN 105825864 B CN105825864 B CN 105825864B
Authority
CN
China
Prior art keywords
signal
echo
follows
zero
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610335013.3A
Other languages
English (en)
Other versions
CN105825864A (zh
Inventor
蔡钢林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yajin Smart Technology Co ltd
Original Assignee
Yongshun Shenzhen Wisdom Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yongshun Shenzhen Wisdom Mdt Infotech Ltd filed Critical Yongshun Shenzhen Wisdom Mdt Infotech Ltd
Priority to CN201610335013.3A priority Critical patent/CN105825864B/zh
Publication of CN105825864A publication Critical patent/CN105825864A/zh
Application granted granted Critical
Publication of CN105825864B publication Critical patent/CN105825864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明公开了一种基于过零率指标的双端说话检测与回声消除方法:步骤1、过零率计算及双端说话监测;对双端和单端两种场景分别采用不同的回声消除策略。步骤2、回声滤波器估计及回声消除;由于房间冲击响应,麦克风采集到的回声信号和远端信号存在差异,从麦克风信号中减除该回声分量。步骤3、目标语音谐波结构恢复。本模块采用谐波结构分析的方法对近端语音缺失的谐波成分进行补偿,以进一步抑制语音扭曲。本发明和传统的回声消除技术相比,通过过零率指标实现双端监测,避免目标语音被消除;基于频域最小均方误差准则,回声消除滤波器收敛迅速;采用频域并行处理框架,复杂度低;增加了语音扭曲抑制模块,降低了目标语音的扭曲程度。

Description

基于过零率指标的双端说话检测与回声消除方法
技术领域
本发明涉及语音信号处理领域,具体涉及一种基于过零率指标的双端说话检测与回声消除方法。
背景技术
有关回声消除:
所谓回声是指任一个同时内置有麦克风和扬声器的终端设备,麦克风在采集目标用户语音的同时也会接收到有扬声器发出的声音。对于语音通讯设备,如果不把回声消除掉会在通讯回路内多次迭代并形成啸叫,造成通讯无法使用。对于内置语音控制中枢的智能音箱等应用,如果从回声不被抑制,则会影响语音识别的准确性,降低了语音控制的智能化水平。
回声消除系统有三个重要的信号:近端信号(near-end signal),远端信号(far-end signal)和回声。近端信号是指,在目标通讯端,由麦克风采集到的目标语音信号,是回声消除系统要保留的目标信号;远端信号是指在通讯系统的另一端,由用户发出,并通过网络信道传输至目标通讯端,通常用作回声消除的参考信号;回声是指远端信号由通讯端的扬声器发出,再次被麦克风采集到的信号,需要被消除。
语音通讯系统必须要求回声消除能够实时处理,如果不能做到实时处理,会造成数据包的拥塞。对于许多内置语音控制功能的终端设备,还需要在回声消除的同时,不会造成目标语音的扭曲。
有关双端说话检测:
双端说话(double-talk)是指通讯双端说话人同时在发出语音信号。相对应的,单端说话(single-talk)是指通讯端只有单方用户在讲话。在实际应用中,双端说话的持续时间远低于单端说话的持续时间。虽然双端说话的持续时间短,但是会对回声消除的滤波器收敛造成很大的干扰,因此双端说话检测非常的重要。
通用的回声消除系统中,检测到双端说话场景之后,停止回声消除的适应滤波器更新,或者滤波器更新步长调整到很小值,以避免目标语音被错误的抑制。如果双端说话场景没有被及时检测,则会造成目标语音在开始的一段时间内会被扭曲,影响通讯质量。在诸如Wifi音箱等应用中,目标语音的扭曲会造成后续语音识别的误差。因此,双端说话检测必须对迅速响应双端说话场景。
过零率是指在一段时间内,相邻两个样本分别为正负样本的次数,占所有样本数量的比值。双端说话场景和单端说话场景过零率有很大的不同,因此过零率是用以监测双端说话的有效指标。
双端说话及回声消除技术现状和不足:
目前,基于最小均方误差准则的自适应滤波技术是当前业界采用主流回声消除技术,在基于电话通讯等通讯终端中有了比较成熟的应用。双端说话检测主要依据判断回声消除后的能量残留或者互相关系数的方式实现,主要的技术不足包括:
1)长混响情况下存在很强的回声残留。在传统的电话通讯系统中,一方面麦克风与扬声器的距离比较短,混响比较小,采用自适应滤波技术可以很好的解决回声消除问题;另一方面扬声器的声音通常远低于用户的声音能量,即便存在回声残留也不至于被感知。然而,当前的许多应用中,麦克风与扬声器的距离比较远、混响大,采用传统算法回声残留更多。
2)基于能量残留或者互相关系数的双端说话检测需要人为设定一个阈值,通过对比每一帧与当前阈值来决定是否为双端说话场景。采用这种方式会有一定的延迟,即双端说话持续若干时间帧之后才能被监测到。另外一个缺陷在于,阈值的设定不能百分之百保证双端检测的准确性,通常会有误检时间帧的发生。
3)通讯系统除了回声之外还被系统白噪声所干扰,一个高质量的语音通讯系统需要对白噪声鲁棒。而传统算法对系统噪声比较敏感,容易被噪声所干扰。
发明内容
针对现有技术的不足,本发明公开了一种基于过零率指标的双端说话检测与回声消除方法。
本发明的技术方案如下:
一种基于过零率指标的双端说话检测与回声消除方法,包括以下步骤:
步骤1、过零率计算及双端说话监测;
将麦克风信号y(t)写入缓冲区,缓冲区长度为N;对缓冲区域中间内的样本点,计算过零率:
式(2)中,M为汉明窗函数w(n)的长度;
计算当前缓冲区过零率的平均值:
计算自适应阈值:
式(8)中,表示经过平滑处理的麦克风信号与远端信号的互相关系数;分别表示经过平滑处理的麦克风信号与远端信号的自相关系数
双端说话判定基于过零率平均值与该自适应阈值的对比,判定准则如下:
如果则表明当前缓冲区存在近端信号,为双端说话场景;
如果则表明当前缓冲区不存在近端信号,为单端说话场景;
步骤2、回声滤波器估计及回声消除;
在每一个频带,对当前时间帧构建参考信号向量:
式(11)中,R(l,k)为远端信号r(t)的傅里叶变换,Lp为向量长度;
计算回声滤波器:
式(14)中,ΨRR(l,k)为参考向量的自相关矩阵,ΨRY(l,k)为麦克风信号与参考信号向量的互相关矩阵;
在每一个麦克风上估计回声并消除回声,信号输出为:
基于该步骤,回声的大部分能量得到了抑制;
基于所述步骤1中的双端说话监测结果,如果当前缓冲区为双端说话场景,需要对估计信号进行补偿,补偿步骤如下所示:
首先、计算语音扭曲控制因子:
其次、更新目标语音估计如下所示:
最后、更新互相关矩阵估计,如下所示:
步骤3、目标语音谐波结构恢复;采用谐波结构分析的方法对近端语音缺失的谐波成分进行补偿;
构造梳状滤波函数,滤波器频域响应函数为:
其中,β为控制参数,F0为听觉谱的互通道相关系数的最大值所应处的基频对应圆频率,Fs为采样频率;Hcomb(f)用以抓取谐波结构上的语音能量,Hshift(f)用以抓取谐波结构之间的语音能量;
根据滤波后的信号计算梳状信号残留比:
根据设定阈值判定当前时频单元是否缺失,并对缺失的时频单元能量进行补偿:
如果CFR(f,m)<0.6,则当前时频单元谐波结构缺失,掩蔽值为1;
如果CFR(f,m)≥0.6,则当前视频单元谐波结构无缺失,掩蔽值为0;
根据掩蔽值,z(t)通过gammatone滤波器组,得到缺失的谐波结构信号最终的输出语音信号为:
其进一步的技术方案为:
近端信号和远端信号分别表示为s(t)和r(t);终端麦克风采集到的信号记为y(t),可以表示为:
y(t)=h(t)*r(t)+s(t)+u(t),i=1,2,...,N, (1)
式(1)中,h(t)为扬声器到麦克风的房间冲击响应,x(t)=h(t)*r(t)为回声信号,u(t)为系统白噪声和环境噪声,“*”为卷积运算符;
步骤10、麦克风信号y(t)写缓入冲区,缓冲区长度为N;
步骤11、构造长度为M的汉明窗函数w(n);
步骤12、对缓冲区域内的样本点,计算过零率:
式(2)中,函数sgn表示为:
步骤13、计算当前缓冲区过零率的平均值:
步骤14、当前缓冲区内的麦克风信号的自相关系数和远端信号的自相关系数分别为:
步骤15、计算当前缓冲区内麦克风信号与远端信号的互相关系数:
步骤16、对所述自相关系数与互相关系数进行平滑:
式(7)中,α为为平滑因子,带有‘pre’角标的符号均代表上一缓冲区的相关数值,初始缓冲区统一设置为零;
步骤17、计算自适应阈值:
步骤18、双端说话判定基于过零率平均值与该自适应阈值的对比,判定准则如下:
如果则表明当前缓冲区存在近端信号,为双端说话场景;
如果则表明当前缓冲区不存在近端信号,为单端说话场景;
步骤19、更新自相关及互相关系数,并进入下一缓冲区计算;系数更新如下所示:
其进一步的技术方案为,所属步骤2具体包括:
步骤20、分别计算当前缓冲区麦克风信号与远端信号的傅里叶变换:
式(10)中,l和k分别代表时间帧和频带;
步骤21、在每一个频带,对当前时间帧构建参考信号向量:
式(11)中,Lp为向量长度;
步骤22、计算该参考向量的自相关矩阵:
式(12)中,H为共轭算子,α为平滑参数;
步骤23、计算麦克风信号与参考信号向量的互相关矩阵:
步骤24、计算回声滤波器:
步骤25、在每一个麦克风上估计回声并消除回声,信号输出为:
步骤26、基于步骤1中的双端说话监测结果,如果当前缓冲区为双端说话场景,需要对估计信号进行补偿,补偿步骤如下所示:
步骤26a、计算语音扭曲控制因子:
步骤26b、更新目标语音估计如下所示:
步骤26c、更新互相关矩阵估计,如下所示:
步骤27、对各个频带处理之后,进行短时傅里叶逆变换,得到回声抑制后的时域信号:
经过步骤2,回声能量受到抑制。
其进一步的技术方案为,所属步骤3具体包括:
步骤31、对步骤2输出的时域信号z(t),估计听觉谱;听觉谱由64路gammatone变换所得到,该变换的冲击响应函数为:
式(20)中,l为滤波器阶数,等效矩形带宽为b=1.019×24.7×(0.0043f+1);
步骤32、根据听觉滤波器输出,计算第f通道、第m时间帧自相关谱:
步骤33、计算互通道相关系数:
其中,互通道相关系数的最大值对应处为基频对应圆频率F0
步骤34、构造梳状滤波函数,此滤波器频域响应函数为:
式(23)中,β为控制参数,Fs为采样频率,Hcomb(f)用以抓取谐波结构上的语音能量,Hshift(f)用以抓取谐波结构之间的语音能量;
步骤35、根据滤波后的信号计算梳状信号残留比:
步骤36、根据设定阈值判定当前时频单元是否缺失,并对缺失的时频单元能量进行补偿:
如果CFR(f,m)<0.6,则当前时频单元谐波结构缺失,掩蔽值为1,对当前时频单元进行补偿;
如果CFR(f,m)≥0.6,则当前视频单元谐波结构没有缺失,掩蔽值为0,不补偿谐波结构;
步骤37、根据掩蔽值,z(t)再次通过gammatone滤波器组,得到缺失的谐波结构信号
步骤38、谐波结构恢复后,最终的输出语音信号为:
本发明的有益技术效果是:
本发明公开了基于过零率指标的双端说话检测与回声消除方法。回声抑制是语音通讯、会议系统、智能语音控制领域最基本的问题之一,随着计算机网络、嵌入式系统相关领域的技术进展,应用场景变得更为复杂,回声抑制的难度也随之增大。本发明针对当前复杂的应用场景,设计了一种可以快速实现双端说话监测、强混响情况下的回声消除技术,复杂度低,对系统白噪声有着很强的适应性和鲁棒性,可以做到实时处理,有着巨大的商业应用潜力。
本发明和传统的回声消除技术相比,通过过零率指标实现双端监测,避免目标语音被消除;基于频域最小均方误差准则,回声消除滤波器收敛迅速;采用频域并行处理框架,复杂度低;增加了语音扭曲抑制模块,降低了目标语音的扭曲程度。相比于现有回声抑制技术,本项发明的优势包括:
1.采用频域滤波器,可以适应于长混响情况下,回声残留能量低,语音扭曲小。
2.采用过零率指标,双端监测更加迅速和完整,避免了语音扭曲的出现。
3.增加了语音扭曲抑制模块,可以处理多说话人同时说话的应用场景,语音纯净度更高。
另外,本发明还有很强的实用性,适用于各种场景如下:
本发明的一个重要应用是车载语音控制中枢,用以抑制行车过程中播放音乐的回声信号。双端检测可以保证用户发出语音指令的第一时间做出响应,提高语音控制的准确度。车载语音控制这项应用是近几年来的新兴产业,潜力巨大。
本发明的另外一个重要应用面向企业的高质量视频会议系统。此类视频会议系统价格昂贵,利润率高,市场需求迫切,有着很大的应用前景。
智能硬件是这两年来发展比较迅速的新兴行业,许多集成语音控制功能的智能终端走进人民的生活,比如陪伴型机器人、Wifi音箱等,由于这些智能设备也集成了扬声器以支持语音播放、音乐播放等功能,因此也迫切需要本项技术。如果该扬声器产生的回声信号得不到抑制,后续的语音识别会受到抑制而无法实现智能控制的目的。
附图说明
图1是过零率计算及双端说话监测步骤的流程图。
图2是汉明窗函数的示意图。
图3是回声滤波器估计及回声消除处理流程图。
图4是目标语音谐波结构恢复处理流程图。
图5是64通道gammatone变换频域响应函数示意图。
图6是梳状滤波器频域响应示意图。
具体实施方式
本发明主要包括三个核心步骤:(1)过零率计算及双端说话监测;(2)回声滤波器估计及回声消除;(3)目标语音谐波结构恢复。本发明的处理流程详细介绍如下:
步骤1、过零率计算及双端说话监测。
假定近端信号和远端信号分别表示为s(t)和r(t)。通讯或其他应用终端麦克风采集到的信号记为y(t),可以表示为:
y(t)=h(t)*r(t)+s(t)+u(t),i=1,2,...,N, (1)
式(1)中,h(t)代表扬声器到麦克风的房间冲击响应,x(t)=h(t)*r(t)代表回声信号,u(t)代表系统白噪声和环境噪声,“*”代表卷积运算。本项发明的第一个重要任务是计算在一段时间内的信号过零率,并监测出是否为双端说话场景,即s(t)是否非零值。
图1是过零率计算及双端说话监测步骤的流程图。如图1所示,步骤1的具体的计算流程如下:
步骤10、麦克风信号y(t)写缓冲区,缓冲区大小为1024B,其中远端信号信号r(t)的缓冲区大小也为1024B。
步骤11、构造长度为M=256的汉明窗函数w(n),图2是汉明窗函数的示意图。
步骤12、对缓冲区域中间内的样本点,计算过零率:
式(2)中,函数sgn表示为:
步骤13、计算当前缓冲区过零率的平均值:
式(4)中N=1024代表缓冲区的长度。
步骤14、当前缓冲区内的麦克风信号的自相关系数和远端信号的自相关系数分别为:
步骤15、计算当前缓冲区内麦克风信号与远端信号的互相关系数:
步骤16、对自相关系数与互相关系数进行平滑:
式(7)中,α=0.995为平滑因子,带有‘pre’角标的符号均代表上一缓冲区的相对应的值,初始缓冲区统一设置为零。
步骤17、计算自适应阈值:
和传统基于能量残留的双端监测相比,该阈值由系统自适应计算,避免了主观设定造成的双端误检。
步骤18、双端说话判定基于过零率平均值与该自适应阈值的对比,判定准则如下:
如果则表明当前缓冲区存在近端信号,为双端说话场景;
如果则表明当前缓冲区不存在近端信号,为单端说话场景。
步骤19、更新自相关及互相关系数,并进入下一缓冲区计算,系数更新如下所示:
步骤1可以迅速的监测出是否为双端说话场景,并对双端和单端两种场景分别采用不同的回声消除策略,可以最大的程度的消除回声而不造成近端语音扭曲。
步骤2、回声滤波器估计及回声消除。
如上文所述,麦克风采集到的回声信号和远端信号存在差异,这个差异是由房间冲击响应所造成。回声滤波器估计的目的即为估计出房间冲击响应,并从麦克风信号中减除该回声分量。根据步骤1得到的双端监测结果采用不同的估计策略。图3是回声滤波器估计及回声消除处理流程图,如图3所示,滤波器估计及回声消除流程如下所示:
步骤20、分别计算当前缓冲区麦克风信号与远端信号的傅里叶变换:
式(10)中,l和k分别代表时间帧和频带。
步骤21、在每一个频带,对当前时间帧构建参考信号向量:
式(11)中,Lp=4为向量长度。
步骤22、计算该参考向量的自相关矩阵:
式(12)中,H代表共轭算子,平滑参数α=0.995。
步骤23、计算麦克风信号与参考信号向量的互相关矩阵:
步骤24、计算回声滤波器:
该滤波器基于最小均方误差准则估计得出,该滤波器输出可以使得无目标语音时间帧回声残留在均方误差评价指标下最小。该滤波器即为回声滤波器估计。
步骤25、在每一个麦克风上估计回声并消除回声,信号输出为:
基于该步骤回声的大部分能量得到了抑制。
步骤26、基于步骤1的双端说话监测结果,如果当前缓冲区为双端说话场景,需要对估计信号进行补偿,补偿步骤如下所示:
步骤26a、计算语音扭曲控制因子:
步骤26b、更新目标语音估计如下所示:
步骤26c、更新互相关矩阵估计,如下所示:
步骤27、对各个频带处理之后,进行短时傅里叶逆变换,得到回声抑制后的时域信号:
经过步骤2的处理流程,回声能量受到了抑制。
上述步骤完成,虽然通过语音扭曲控制因子,对近端语音的扭曲程度进行了控制,依然存在一定的语音扭曲,还需要进一步抑制以提高语音通讯质量。
步骤3、目标语音谐波结构恢复。
由于回声消除是在各个频带分别进行处理,在某些时频单元上近端语音可能会缺失。由于语音信号能量大部分分布在基频及其倍频上,本模块采用谐波结构分析的方法对缺失的谐波成分进行补偿,以进一步抑制语音扭曲。图4是目标语音谐波结构恢复处理流程图,如图4所示,步骤3的具体流程如下所示:
步骤31、对上一模块输出的时域信号z(t),估计听觉谱。听觉谱由64路gammatone变换所得到,该变换的冲击响应函数为:
式(20)中,滤波器阶数l=4,等效矩形带宽为b=1.019×24.7×(0.0043f+1)。本项发明采用64路滤波器组。图5是64通道gammatone变换频域响应函数示意图。
步骤32、根据听觉滤波器输出,计算第f通道、第m时间的帧自相关谱:
步骤33、计算互通道相关系数:
其中,互通道相关系数的最大值对应处为基频对应圆频率F0,由于语音浊音基频通常分布在[50,800]Hz之间,如果超出这个区间,则定义为无谐波结构,L=128为最大计算长度。假设当前帧互通道系数最大值处为fl,根据频率换算,其基频为:
如果Fl属于[50,800]Hz之间,则定义该时频单元存在谐波结构,否则判定为不存在谐波结构。
步骤34、构造梳状滤波函数,滤波器频域响应函数为:
其中,β为控制参数,本项发明采用参数β=0.8,Fs为采样频率。Hcomb(f)用以抓取谐波结构上的语音能量,Hshift(f)用以抓取谐波结构之间的语音能量。图6是梳状滤波器频域响应示意图。图6所示的为基频为400Hz对应的滤波器频域响应函数。
步骤35、根据滤波后的信号计算梳状信号残留比:
CFR特征是反应谐波结构是否缺失的最重要特征。
步骤36、根据设定阈值判定当前时频单元是否缺失,并对缺失的时频单元能量进行补偿:
如果CFR(f,m)<0.6,则说明当前时频单元谐波结构是缺失的,采用全1掩蔽的方式对当前时频单元进行补偿。
如果CFR(f,m)≥0.6,则说明当前视频单元谐波结构没有缺失,则不用补偿谐波结构,掩蔽值为0。
步骤37、根据掩蔽值,z(t)再次通过gammatone滤波器组,得到缺失的谐波结构信号
步骤38、谐波结构恢复后,最终的输出语音信号为:
步骤3主要利用基于gammatone变换的谐波结构分析的方式,对信号时频单元缺失的谐波成分进行判定和恢复。经过步骤3的处理,输出信号的谐波结构更为完整,语音感知质量更高。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (4)

1.一种基于过零率指标的双端说话检测与回声消除方法,其特征在于,包括以下步骤:
步骤1、过零率计算及双端说话监测;
将麦克风信号y(t)写入缓冲区,缓冲区长度为N;对缓冲区域中间内的样本点,计算过零率:
式(2)中,M为汉明窗函数w(n)的长度;
计算当前缓冲区过零率的平均值:
计算自适应阈值:
式(8)中,表示经过平滑处理的麦克风信号与远端信号的互相关系数;分别表示经过平滑处理的麦克风信号与远端信号的自相关系数
双端说话判定基于过零率平均值与该自适应阈值的对比,判定准则如下:
如果则表明当前缓冲区存在近端信号,为双端说话场景;
如果则表明当前缓冲区不存在近端信号,为单端说话场景;
步骤2、回声滤波器估计及回声消除;
在每一个频带,对当前时间帧构建参考信号向量:
式(11)中,R(l,k)为远端信号r(t)的傅里叶变换,Lp为向量长度;
计算回声滤波器:
式(14)中,ΨRR(l,k)为参考向量的自相关矩阵,ΨRY(l,k)为麦克风信号与参考信号向量的互相关矩阵;
在每一个麦克风上估计回声并消除回声,信号输出为:
基于该步骤,回声的大部分能量得到了抑制;
基于所述步骤1中的双端说话监测结果,如果当前缓冲区为双端说话场景,需要对估计信号进行补偿,补偿步骤如下所示:
首先、计算语音扭曲控制因子:
其次、更新目标语音估计如下所示:
最后、更新互相关矩阵估计,如下所示:
步骤3、目标语音谐波结构恢复;采用谐波结构分析的方法对近端语音缺失的谐波成分进行补偿;
构造梳状滤波函数,滤波器频域响应函数为:
其中,β为控制参数,F0为听觉谱的互通道相关系数的最大值所应处的基频对应圆频率,Fs为采样频率;Hcomb(f)用以抓取谐波结构上的语音能量,Hshift(f)用以抓取谐波结构之间的语音能量;
根据滤波后的信号计算梳状信号残留比:
根据设定阈值判定当前时频单元是否缺失,并对缺失的时频单元能量进行补偿:
如果CFR(f,m)<0.6,则当前时频单元谐波结构缺失,掩蔽值为1;
如果CFR(f,m)≥0.6,则当前视频单元谐波结构无缺失,掩蔽值为0;
根据掩蔽值,z(t)通过gammatone滤波器组,得到缺失的谐波结构信号最终的输出语音信号为:
2.如权利要求1所述的过零率指标的双端说话检测与回声消除方法,其特征在于,所属步骤1具体包括:
近端信号和远端信号分别表示为s(t)和r(t);终端麦克风采集到的信号记为y(t),可以表示为:
y(t)=h(t)*r(t)+s(t)+u(t),i=1,2,...,N, (1)
式(1)中,h(t)为扬声器到麦克风的房间冲击响应,x(t)=h(t)*r(t)为回声信号,u(t)为系统白噪声和环境噪声,“*”为卷积运算符;
步骤10、麦克风信号y(t)写缓入冲区,缓冲区长度为N;
步骤11、构造长度为M的汉明窗函数w(n);
步骤12、对缓冲区域内的样本点,计算过零率:
式(2)中,函数sgn表示为:
步骤13、计算当前缓冲区过零率的平均值:
步骤14、当前缓冲区内的麦克风信号的自相关系数和远端信号的自相关系数分别为:
步骤15、计算当前缓冲区内麦克风信号与远端信号的互相关系数:
步骤16、对所述自相关系数与互相关系数进行平滑:
式(7)中,α为平滑因子,带有‘pre’角标的符号均代表上一缓冲区的相关数值,初始缓冲区统一设置为零;
步骤17、计算自适应阈值:
步骤18、双端说话判定基于过零率平均值与该自适应阈值的对比,判定准则如下:
如果则表明当前缓冲区存在近端信号,为双端说话场景;
如果则表明当前缓冲区不存在近端信号,为单端说话场景;
步骤19、更新自相关及互相关系数,并进入下一缓冲区计算;系数更新如下所示:
3.如权利要求1所述的过零率指标的双端说话检测与回声消除方法,其特征在于,所属步骤2具体包括:
步骤20、分别计算当前缓冲区远端信号与麦克风信号的傅里叶变换:
式(10)中,l和k分别代表时间帧和频带;
步骤21、在每一个频带,对当前时间帧构建参考信号向量:
式(11)中,Lp为向量长度;
步骤22、计算该参考向量的自相关矩阵:
式(12)中,H为共轭算子,α为平滑参数;
步骤23、计算麦克风信号与参考信号向量的互相关矩阵:
步骤24、计算回声滤波器:
步骤25、在每一个麦克风上估计回声并消除回声,信号输出为:
步骤26、基于步骤1中的双端说话监测结果,如果当前缓冲区为双端说话场景,需要对估计信号进行补偿,补偿步骤如下所示:
步骤26a、计算语音扭曲控制因子:
步骤26b、更新目标语音估计如下所示:
步骤26c、更新互相关矩阵估计,如下所示:
步骤27、对各个频带处理之后,进行短时傅里叶逆变换,得到回声抑制后的时域信号:
经过步骤2,回声能量受到抑制。
4.如权利要求1所述的过零率指标的双端说话检测与回声消除方法,其特征在于,所属步骤3具体包括:
步骤31、对步骤2输出的时域信号z(t),估计听觉谱;听觉谱由64路gammatone变换所得到,该变换的冲击响应函数为:
式(20)中,l为滤波器阶数,等效矩形带宽为b=1.019×24.7×(0.0043f+1);
步骤32、根据听觉滤波器输出,计算第f通道、第m时间帧自相关谱:
步骤33、计算互通道相关系数:
其中,互通道相关系数的最大值对应处为基频对应圆频率F0
步骤34、构造梳状滤波函数,此滤波器频域响应函数为:
式(23)中,β为控制参数,Fs为采样频率,Hcomb(f)用以抓取谐波结构上的语音能量,Hshift(f)用以抓取谐波结构之间的语音能量;
步骤35、根据滤波后的信号计算梳状信号残留比:
步骤36、根据设定阈值判定当前时频单元是否缺失,并对缺失的时频单元能量进行补偿:
如果CFR(f,m)<0.6,则当前时频单元谐波结构缺失,掩蔽值为1,对当前时频单元进行补偿;
如果CFR(f,m)≥0.6,则当前视频单元谐波结构没有缺失,掩蔽值为0,不补偿谐波结构;
步骤37、根据掩蔽值,z(t)再次通过gammatone滤波器组,得到缺失的谐波结构信号
步骤38、谐波结构恢复后,最终的输出语音信号为:
CN201610335013.3A 2016-05-19 2016-05-19 基于过零率指标的双端说话检测与回声消除方法 Active CN105825864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610335013.3A CN105825864B (zh) 2016-05-19 2016-05-19 基于过零率指标的双端说话检测与回声消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610335013.3A CN105825864B (zh) 2016-05-19 2016-05-19 基于过零率指标的双端说话检测与回声消除方法

Publications (2)

Publication Number Publication Date
CN105825864A CN105825864A (zh) 2016-08-03
CN105825864B true CN105825864B (zh) 2019-10-25

Family

ID=56530101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610335013.3A Active CN105825864B (zh) 2016-05-19 2016-05-19 基于过零率指标的双端说话检测与回声消除方法

Country Status (1)

Country Link
CN (1) CN105825864B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107786755B (zh) * 2016-08-30 2020-12-15 合肥君正科技有限公司 一种双端通话检测方法和装置
CN106601227A (zh) * 2016-11-18 2017-04-26 北京金锐德路科技有限公司 音频采集方法和装置
CN106878575B (zh) * 2017-02-24 2019-11-05 成都喜元网络科技有限公司 残留回声的估计方法及装置
CN109215672B (zh) * 2017-07-05 2021-11-16 苏州谦问万答吧教育科技有限公司 一种声音信息的处理方法、装置及设备
CN109256145B (zh) * 2017-07-14 2021-11-02 北京搜狗科技发展有限公司 基于终端的音频处理方法、装置、终端和可读存储介质
CN107483029B (zh) * 2017-07-28 2021-12-07 广州多益网络股份有限公司 一种voip通讯中的自适应滤波器的长度调节方法及装置
CN107610713B (zh) * 2017-10-23 2022-02-01 科大讯飞股份有限公司 基于时延估计的回声消除方法及装置
CN108806713B (zh) * 2018-05-22 2020-06-16 出门问问信息科技有限公司 一种双讲状态检测方法及装置
CN111383648B (zh) * 2018-12-27 2024-05-14 北京搜狗科技发展有限公司 一种回波消除方法和装置
CN112133324A (zh) * 2019-06-06 2020-12-25 北京京东尚科信息技术有限公司 通话状态检测方法、装置、计算机系统和介质
CN110148421B (zh) * 2019-06-10 2021-07-20 浙江大华技术股份有限公司 一种残余回声检测方法、终端和装置
US11017792B2 (en) * 2019-06-17 2021-05-25 Bose Corporation Modular echo cancellation unit
CN111277718B (zh) * 2020-01-21 2021-10-08 上海推乐信息技术服务有限公司 一种回声消除系统及其方法
CN111294474B (zh) * 2020-02-13 2021-04-16 杭州国芯科技股份有限公司 一种双端通话检测方法
CN111683329B (zh) * 2020-05-30 2022-02-08 北京声智科技有限公司 麦克风检测方法、装置、终端及存储介质
CN114822571A (zh) * 2021-04-25 2022-07-29 美的集团(上海)有限公司 一种回声消除方法、装置、电子设备和存储介质
CN117651096B (zh) * 2024-01-29 2024-04-19 腾讯科技(深圳)有限公司 回声消除方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046955A (zh) * 2006-04-24 2007-10-03 华为技术有限公司 一种pcm码流语音检测方法
CN101593522A (zh) * 2009-07-08 2009-12-02 清华大学 一种全频域数字助听方法和设备
CN102682765A (zh) * 2012-04-27 2012-09-19 中咨泰克交通工程集团有限公司 高速公路音频车辆检测装置及其方法
CN102890930A (zh) * 2011-07-19 2013-01-23 上海上大海润信息系统有限公司 基于hmm/sofmnn混合模型的语音情感识别方法
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN105225672A (zh) * 2015-08-21 2016-01-06 胡旻波 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN105590630A (zh) * 2016-02-18 2016-05-18 南京奇音石信息技术有限公司 基于指定带宽的定向噪音抑制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9083783B2 (en) * 2012-11-29 2015-07-14 Texas Instruments Incorporated Detecting double talk in acoustic echo cancellation using zero-crossing rate

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046955A (zh) * 2006-04-24 2007-10-03 华为技术有限公司 一种pcm码流语音检测方法
CN101593522A (zh) * 2009-07-08 2009-12-02 清华大学 一种全频域数字助听方法和设备
CN102890930A (zh) * 2011-07-19 2013-01-23 上海上大海润信息系统有限公司 基于hmm/sofmnn混合模型的语音情感识别方法
CN102682765A (zh) * 2012-04-27 2012-09-19 中咨泰克交通工程集团有限公司 高速公路音频车辆检测装置及其方法
CN105074822A (zh) * 2013-03-26 2015-11-18 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN105225672A (zh) * 2015-08-21 2016-01-06 胡旻波 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN105590630A (zh) * 2016-02-18 2016-05-18 南京奇音石信息技术有限公司 基于指定带宽的定向噪音抑制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Double-talk detection in acoustic echo cancellers using zero-crossings rate;M. Z. Ikram;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20151231;第1121-1125页 *
声引信目标信号过零率分布研究;杨亦春 等;《南京理工大学学报》;20000630;第24卷(第3期);第249-252页 *

Also Published As

Publication number Publication date
CN105825864A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105825864B (zh) 基于过零率指标的双端说话检测与回声消除方法
US11297178B2 (en) Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
US9699554B1 (en) Adaptive signal equalization
CN106571147B (zh) 用于网络话机声学回声抑制的方法
CN103067629B (zh) 回声消除装置
CN104052526A (zh) 用于声学回声抵消器的基于倒谱距离的消波
JP2009503568A (ja) 雑音環境における音声信号の着実な分離
WO2008041878A2 (en) System and procedure of hands free speech communication using a microphone array
CN103369162B (zh) 一种低复杂度的电话回声自适应消除方法
CN110995951B (zh) 基于双端发声检测的回声消除方法、装置及系统
CN111742541B (zh) 声学回波抵消方法、装置、存储介质
CN110956975B (zh) 回声消除方法及装置
CN106033673B (zh) 一种近端语音信号检测方法及装置
CN113241085A (zh) 回声消除方法、装置、设备及可读存储介质
CN105957536B (zh) 基于通道聚合度频域回声消除方法
CN107819963B (zh) 一种凸组合的最小均三次方绝对值回声消除方法
CN106782592B (zh) 一种用于消除网络声音传输的回音和啸叫的系统和方法
CN113409806B (zh) 一种基于反正切函数的零吸引回声消除方法
Fukui et al. Acoustic echo canceller software for VoIP hands-free application on smartphone and tablet devices
Garre et al. An Acoustic Echo Cancellation System based on Adaptive Algorithm
CN111294474B (zh) 一种双端通话检测方法
CN111970410B (zh) 回声消除方法及装置、存储介质、终端
JP2009302983A (ja) 音声処理装置および音声処理方法
CN106210369A (zh) 应用于楼宇对讲系统的消除回声方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170330

Address after: Dong Qi Road in Jiangning District of Nanjing City, Jiangsu Province, No. 33 B block 211100

Applicant after: Nanjing fast fire Mdt InfoTech Ltd.

Address before: Dong Qi Road in Jiangning District of Nanjing City, Jiangsu Province, No. 33 211100

Applicant before: NANJING QIYINSHI INFORMATION TECHNOLOGY Co.,Ltd.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cai Ganglin

Inventor before: Tang Ming

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170811

Address after: 518109 Guangdong city of Shenzhen province Longhua Dalang District Dragon Peak three road Jinhua building 1811-1812

Applicant after: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD.

Address before: Dong Qi Road in Jiangning District of Nanjing City, Jiangsu Province, No. 33 B block 211100

Applicant before: Nanjing fast fire Mdt InfoTech Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221130

Address after: 2C1, Plant 2, Baimenqian Industrial Zone, No. 215, Busha Road, Nanlong Community, Nanwan Street, Longgang District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yajin Smart Technology Co.,Ltd.

Address before: 518109 1811-1812, Jinhua building, Longfeng Third Road, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD.