CN115579016A - 一种声学回声消除的方法和系统 - Google Patents

一种声学回声消除的方法和系统 Download PDF

Info

Publication number
CN115579016A
CN115579016A CN202211565746.8A CN202211565746A CN115579016A CN 115579016 A CN115579016 A CN 115579016A CN 202211565746 A CN202211565746 A CN 202211565746A CN 115579016 A CN115579016 A CN 115579016A
Authority
CN
China
Prior art keywords
signal
audio
echo
audio signal
far
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211565746.8A
Other languages
English (en)
Other versions
CN115579016B (zh
Inventor
刘开文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Haipudi Technology Co ltd
Original Assignee
Chengdu Haipudi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Haipudi Technology Co ltd filed Critical Chengdu Haipudi Technology Co ltd
Priority to CN202211565746.8A priority Critical patent/CN115579016B/zh
Publication of CN115579016A publication Critical patent/CN115579016A/zh
Application granted granted Critical
Publication of CN115579016B publication Critical patent/CN115579016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明涉及音频信号处理领域,目的是提供一种声学回声消除的方法和系统,其中方法包括获取近端音频信号(麦克风拾取到的带回声的音频信号)和远端音频信号(混合回声的音频信号),其中,根据所述近端音频信号和远端音频信号构建声学回声信号模型,根据音频信号的时频分布的稀疏性计算所述声学回声信号模型中接收端采集的有效音频信号,本发明通过基于音频时频分布稀疏性提出一种新的声学回声消除方法。

Description

一种声学回声消除的方法和系统
技术领域
本发明涉及音频信号处理技术领域,具体涉及一种声学回声消除的方法和系统。
背景技术
在音频远程交互过程,凡是需要同时使用麦克风和扬声器的地方,就会不可避免的出现声学回声,声学回声的根源是远端的声音通过本地的扬声器播放出来又被近端的麦克风拾取到了,被近端麦克风拾取的声音在音频远程交互过程又传到远端,远端将讲话者就会听到自己的回声。
目前,自适应回声消除技术是国际公认的最有效的技术,但在实际研究中,我们发现有些问题采用通常的自适应滤波器方法很难克服。
首先,实际房间响应长度与自适应滤波器阶数之间的差异,即失配问题。实际当中因为无法事先知道房间响应长度,因此都必须选择一个足够大的滤波器阶数,除了计算复杂度升高问题,还有对房间响应变化的跟踪能力下降。
其次,回声路径中的非线性问题。由于实际产品统采用的扬声器、麦克风等电声器件以及功率部件品质差异,实际近端麦克风拾取的回声信号往往存在不同程度的非线性失真。这种自适应线性滤波器很难解决。
发明内容
本发明的目的在于克服现有技术的不足,基于音频时频分布稀疏性提出一种新的声学回声消除方法。
具体通过以下技术方案来实现的:一方面,一种声学回声消除的方法,包括近端音频采集端和远端音频播放端,获取近端音频信号
Figure 707714DEST_PATH_IMAGE001
和远端音频信号,其中,根据近端音频信号
Figure 624855DEST_PATH_IMAGE002
和远端音频信号构建声学回声信号模型,根据音频信号的时频分布稀疏性保留所述声学回声信号模型中近端采集端的有效音频信号
Figure 404592DEST_PATH_IMAGE003
进一步的,所述近端音频信号
Figure 111386DEST_PATH_IMAGE001
包括有效音频信号
Figure 925758DEST_PATH_IMAGE004
和回声信号
Figure 748220DEST_PATH_IMAGE005
,所述有效音频信号
Figure 15254DEST_PATH_IMAGE003
通过播放后再次被近端采集端捕获得到回声信号。
进一步的,所述远端音频信号包括初始回声信号,定义初始回声信号为远端信号
Figure 276471DEST_PATH_IMAGE006
进一步的,所述声学回声信号模型的搭建包括下列步骤:
S1:基于有效音频信号
Figure 945349DEST_PATH_IMAGE004
和回声信号
Figure 938713DEST_PATH_IMAGE007
混叠得到近端音频信号
Figure 693043DEST_PATH_IMAGE001
,执行步骤S2;
S2:对远端信号
Figure 243104DEST_PATH_IMAGE008
和麦克风采集的近端音频信号
Figure 766489DEST_PATH_IMAGE001
依次进行傅里叶变换,分别得到远端信号
Figure 196333DEST_PATH_IMAGE009
与近端音频信号
Figure 500276DEST_PATH_IMAGE010
的能量谱,执行步骤S3;
S3:判断音频信号是否处于静音状态,若是静音状态,则结束;若是非静音状态,则进入S4;
S4:对远端信号
Figure 775399DEST_PATH_IMAGE009
的能量谱用串联的回归模型构造混响谱,执行步骤S5;
S5:通过混响谱计算回声信号
Figure 418870DEST_PATH_IMAGE007
与远端信号
Figure 68551DEST_PATH_IMAGE011
之间的失真估计,执行步骤S6;
S6:通过所述失真估计计算回声信号
Figure 797472DEST_PATH_IMAGE007
的过谱估计,执行步骤S7;
S7:通过所述回声信号
Figure 876287DEST_PATH_IMAGE012
的过谱估计计算有效音频信号
Figure 436581DEST_PATH_IMAGE013
的过谱估计,执行步骤S8;
S8:得到消除回声信号
Figure 208228DEST_PATH_IMAGE012
后的有效音频信号
Figure 158866DEST_PATH_IMAGE013
进一步的,所述步骤S1中,近端音频信号
Figure 41372DEST_PATH_IMAGE001
、有效音频信号
Figure 206905DEST_PATH_IMAGE004
、回声信号
Figure 149453DEST_PATH_IMAGE005
和远端信号
Figure 587388DEST_PATH_IMAGE011
均为时间和频率的二次函数,所述远端信号
Figure 8005DEST_PATH_IMAGE011
基于失真函数计算得到回声信号
Figure 542891DEST_PATH_IMAGE012
另一方面,在上述的基础上,还包括,
音频采集模块,用于捕获环境中的所有音频信号;
音频拆解模块,用于拆解所有音频信号,得到有效音频信号和回声信号;
音频播放模块,用于播放除去回声信号后的有效音频信号。
进一步的,所述音频采集模块包括连续捕获环境中音频信号的接收设备,所述接收设备连接有播放设备并在环境中播放音频信号。
进一步的,所述音频拆解模块内预存训练完成的音声学回声信号模型,所述音声学回声信号模型的输入为所有音频信号,所述音声学回声信号模型的输出为有效音频信号。
进一步的,所述音频信号具体为连续性的时频信号,所述时频信号根据时频信号发射源的不同,得到对应的频率峰值和波段。
进一步的,通过对所述所有音频信号进行傅里叶变换消除所述所有音频信号中的回声信号。
本发明的有益效果是:
1、克服了传统的自适应线性滤波器难以解决的问题,即近端麦克风拾取的回声信号的非线性失真;
2、不局限环境的空间大小,均能够对采集的音频信号进行高效除噪。
附图说明
图 1为本发明的一个实施例的回声消除方法流程图;
图 2为本发明的一个实施例中声学回声消除处理前后的示意图。
具体实施方式
下面结合本发明的附图1和附图2,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例均属于本申请的保护范围。
实施例:
基于自适应滤波器的回声消除实际上是对近端房间的声学通路进行精确建模,进而产生一个抵消信号,因此一旦所建模型与实际不符或者不够精确,回声消除效果就会下降。其实我们可以把回声消除看成一个近端讲话检测问题。电话呼叫或远程会议中,近端是您所在的位置,远端是呼叫中其他参与者所在的位置,此时近端扬声器发出的声音被看成是时变的噪声信号,近端音频
Figure 656341DEST_PATH_IMAGE014
是有用信号(有效音频信号),而近端麦克风拾取的信号
Figure 581572DEST_PATH_IMAGE015
就是含噪信号(近端音频信号)。远端信号
Figure 805880DEST_PATH_IMAGE011
实际上是噪声信号的一个非常有用的参考。因此问题就变成:在给定参考噪声
Figure 178961DEST_PATH_IMAGE011
(远端信号)条件下,从近端麦克风拾取的信号
Figure 463312DEST_PATH_IMAGE015
中检测是否有有效音频信号
Figure 875839DEST_PATH_IMAGE016
存在,而
Figure 966154DEST_PATH_IMAGE015
中包含的回声噪声信号
Figure 147737DEST_PATH_IMAGE005
Figure 337410DEST_PATH_IMAGE017
经过了某种失真,即失真函数的计算公式为,
Figure 237233DEST_PATH_IMAGE018
现在,我们并不精确地估计
Figure 616393DEST_PATH_IMAGE019
,转而观察几个信号的语谱图。设
Figure 918061DEST_PATH_IMAGE020
Figure 278635DEST_PATH_IMAGE005
各自的傅里叶变换分别为
Figure 665754DEST_PATH_IMAGE021
Figure 97872DEST_PATH_IMAGE022
Figure 988468DEST_PATH_IMAGE021
Figure 785523DEST_PATH_IMAGE022
是时间λ和频率k的二维函数,它将信号的时域和频域联系起来,我们可以据此对信号进行时频分析,根据音频信号的时频分布稀疏性特点可知,这两个不相关的音频信号混叠在一起构成信号
Figure 394359DEST_PATH_IMAGE015
时,语谱图中总存在某些点
Figure 870646DEST_PATH_IMAGE023
,语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量,在这些点
Figure 881328DEST_PATH_IMAGE024
,而在另一些点
Figure 849284DEST_PATH_IMAGE025
上,
Figure 7733DEST_PATH_IMAGE026
,而且更重要的是,基于音频时频分布稀疏性我们还可以分别根据这些点,重建出信号
Figure 719337DEST_PATH_IMAGE027
Figure 584525DEST_PATH_IMAGE028
,分别包含
Figure 723382DEST_PATH_IMAGE029
Figure 119859DEST_PATH_IMAGE012
的大部分能量,或者说非常好的重建原信号,失真很小。以
Figure 369575DEST_PATH_IMAGE030
为例,重建方法如下
Figure 354849DEST_PATH_IMAGE031
(1)
因此,假设我们能够得到
Figure 726924DEST_PATH_IMAGE032
的大致估计
Figure 797648DEST_PATH_IMAGE033
,则判断
Figure 851055DEST_PATH_IMAGE015
中是否有
Figure 690835DEST_PATH_IMAGE013
出现就可以简单由
Figure 483079DEST_PATH_IMAGE034
Figure 775520DEST_PATH_IMAGE035
的比较得出。因为,如果
Figure 632618DEST_PATH_IMAGE015
中没有
Figure 326904DEST_PATH_IMAGE036
,则必然
Figure 40783DEST_PATH_IMAGE037
,反之如果出现了
Figure 86099DEST_PATH_IMAGE038
,则必然有相当数量的时频点
Figure 481308DEST_PATH_IMAGE039
Figure 843151DEST_PATH_IMAGE040
。这样,我们可以通过统计这样时频点的数量来判定是否有近端讲话
Figure 931192DEST_PATH_IMAGE029
出现。
现在的问题是如何得到
Figure 198226DEST_PATH_IMAGE041
的大致估计
Figure 397126DEST_PATH_IMAGE042
。为了使上面的判定法则尽可能奏效,我们实际上应该找到
Figure 862742DEST_PATH_IMAGE043
的过估计,因为一旦估计偏小,当没有
Figure 121685DEST_PATH_IMAGE044
时,由于
Figure 876015DEST_PATH_IMAGE045
,故仍会有相当数量的时频点上
Figure 927541DEST_PATH_IMAGE046
。我们考虑参考噪声
Figure 450926DEST_PATH_IMAGE047
,根据回声抑制系统的情况可知,
Figure 880770DEST_PATH_IMAGE007
实际上是
Figure 856816DEST_PATH_IMAGE011
的混响结果再经过某些失真得到的,因此我们采用两个步骤来从
Figure 459836DEST_PATH_IMAGE048
中近似得到
Figure 103307DEST_PATH_IMAGE043
的大致估计
Figure 438473DEST_PATH_IMAGE042
,一个是模拟混响,另一个是估计失真。
首先根据混响原理,我们可以从
Figure 246023DEST_PATH_IMAGE049
得到粗略的混响谱
Figure 324838DEST_PATH_IMAGE050
,为了尽可能适应大的混响长度,我们用了两个串联的回归模型构造一个足够强的混响谱,即,
Figure 822815DEST_PATH_IMAGE051
(2)
Figure 328883DEST_PATH_IMAGE052
(3)
采用与频率相关的回归系数a 1a 2可以构造各种环境下的混响效果,为了简便起见,这里采用与频率无关的系数。为了保证过估计,这两个系数都取得较大。
下面考虑在该混响谱
Figure 341838DEST_PATH_IMAGE053
中添加某种失真,使得失真后的谱逼近
Figure 224344DEST_PATH_IMAGE054
。这种失真一方面是为了补偿不同频率混响时长的差异,还可以反映出回声路径中扬声器及麦克风的非线性失真等因素,此外,还能够补偿远端信号与回声信号的音量差异。
要注意的是,这种失真只有在有远端讲话时才有效,如果远端处于静默时,麦克风拾取的信号
Figure 576828DEST_PATH_IMAGE015
和远端信号
Figure 519376DEST_PATH_IMAGE011
之间没有这种失真关系。为此,我们对远端信号进行了简单的能量门限检测,只有能量够强的有声音频帧才会进入失真统计部分。另外,由于可能会出现双端讲话的情况,而这种状况下
Figure 268895DEST_PATH_IMAGE015
Figure 689512DEST_PATH_IMAGE011
之间也不再是这种单纯的失真关系,因此我们还进一步计算了
Figure 162082DEST_PATH_IMAGE055
Figure 9952DEST_PATH_IMAGE056
之间的归一化自相关系数。当只有远端讲话时,
Figure 997500DEST_PATH_IMAGE057
,与
Figure 221807DEST_PATH_IMAGE058
有着非常强的相关性,而当出现双端讲话时,这种相关性将会被破坏。这样,只有远端信号音量足够大且与当前麦克风信号高度相关时,才开始计算我们所要的失真关系。
设满足这些条件的远端信号帧为
Figure 548884DEST_PATH_IMAGE059
,则这种失真的后验瞬时估计可以表示为,
Figure 646284DEST_PATH_IMAGE060
(4)
为了降低这一估计对具体信号频率的依赖程度,我们对其进行了频域平滑,平滑窗长可以根据临界带宽调整,也可以简单的采用固定窗长。由于这种失真关系一般是随时间缓慢变化的,如房间混响、电声器材失真以及回声音量的变化等,因此我们进一步采用时间域的回归平滑来得到这种失真的平滑估计,
Figure 58811DEST_PATH_IMAGE061
(5)
上面已经谈到,一旦出现双端讲话,后验瞬时失真估计就会因为近端讲话的出现而产生偏差。尤其是但当远端讲话音量很大而近端讲话音量较小时,麦克风信号
Figure 821230DEST_PATH_IMAGE062
与远端信号帧
Figure 330709DEST_PATH_IMAGE063
的归一化相关系数依然可以很大,而相应的双端讲话信号也会进入失真计算过程。为了降低这样的偏差,我们采用了一个较长的时间窗,对该窗内的平滑失真估计
Figure 785961DEST_PATH_IMAGE064
进行平均,以定期进行失真估计校正,从而得到更为准确的失真估计。这是因为通常情况下双端讲话持续时间不会太长,所以在一个较长的时间内进行平均,有助于降低偏差,即
Figure 685784DEST_PATH_IMAGE065
(6)
到此,对
Figure 251894DEST_PATH_IMAGE066
的过估计
Figure 336919DEST_PATH_IMAGE067
就可以由混响谱
Figure 963072DEST_PATH_IMAGE068
和失真估计
Figure 350191DEST_PATH_IMAGE069
大致得到
Figure 454413DEST_PATH_IMAGE070
(7)
这样,近端讲话检测就可以按照前述的步骤进行了。最后还有一个问题就是如何使重构的近端讲话信号失真最小。由于上面得到的过估计并非真实的
Figure 672905DEST_PATH_IMAGE071
,而且依据过估计的结果用式(1)进行重构,结果也有一定程度的失真。为此我们采取了一些音频增强方法中采用的折中技术,即当用于重构的时频点数量较多时,重构公式(1)修正为
Figure 469960DEST_PATH_IMAGE072
(8)
而当用于重构的时频点数量很少时,为了减少乐性噪声,直接令所有的
Figure 78795DEST_PATH_IMAGE073
为0,彻底关闭回声。如果数量介于两种情况之间,则还是用式(1)进行重构。
具体可总结为下列六步,请参照图1:
一.预处理音频信号,包括对远端信号
Figure 330916DEST_PATH_IMAGE011
和近端麦克风采集的信号
Figure 341598DEST_PATH_IMAGE015
分别进行预加重处理、分帧处理、加窗处理、傅里叶变换以及能量谱,其中
Figure 309554DEST_PATH_IMAGE074
为傅里叶变换;
Figure 405686DEST_PATH_IMAGE075
(9)
Figure 648448DEST_PATH_IMAGE076
(10)
二.计算分析区间内的音频信号的短时能量均方根,短时能均方根大于预设的静音检测阈值时,音频信号为非静音状态,进入下一步,否则,音频信号为静音状态,结束本流程;
三.对远端信号
Figure 779215DEST_PATH_IMAGE077
的能量谱
Figure 918073DEST_PATH_IMAGE078
用两个串联的回归模型构造一个足够强的混响谱
Figure 501501DEST_PATH_IMAGE079
Figure 328380DEST_PATH_IMAGE080
(11)
Figure 313654DEST_PATH_IMAGE081
(12)
回归系数
Figure 623412DEST_PATH_IMAGE082
Figure 490874DEST_PATH_IMAGE083
可以构造各种环境下的混响效果,取较大的值,比如
Figure 544281DEST_PATH_IMAGE082
=0.9,
Figure 384061DEST_PATH_IMAGE083
=0.95;
四.计算回声信号
Figure 864721DEST_PATH_IMAGE012
由与远端信号
Figure 970211DEST_PATH_IMAGE084
之间的失真估计
Figure 827309DEST_PATH_IMAGE085
失真的后验瞬时估计可以表示为:
Figure 521595DEST_PATH_IMAGE086
(13)
失真的平滑估计:
Figure 501052DEST_PATH_IMAGE087
其中b取较大的值,比如b=0.95;
在一个较长的时间内进行平均,有助于降低偏差,即:
Figure 546369DEST_PATH_IMAGE088
(14)
其中,D的时间长度可以设为1秒
四.计算回声信号
Figure 941578DEST_PATH_IMAGE012
的过谱估计
Figure 490371DEST_PATH_IMAGE089
Figure 627348DEST_PATH_IMAGE090
(15)
五.计算回声消除后的信号
Figure 894381DEST_PATH_IMAGE029
的过谱估计
Figure 827702DEST_PATH_IMAGE091
Figure 496581DEST_PATH_IMAGE092
(16)
Figure 83420DEST_PATH_IMAGE093
的不等于0的频点较少时,比如少于5个频段,则认为没有近端音频,直接
Figure 572170DEST_PATH_IMAGE093
的所有频点赋值为0。
六.计算回声消除后的时域信号
Figure 574761DEST_PATH_IMAGE029
Figure 911196DEST_PATH_IMAGE094
(17)
Figure 75461DEST_PATH_IMAGE096
为傅里叶反变换。
值得说明的是,请参照图2,图的上半部分为麦克风的近端音频信号
Figure 317086DEST_PATH_IMAGE097
(有效信号或有效音频信号)和声学回声信号
Figure 857789DEST_PATH_IMAGE007
的混合信号
Figure 32418DEST_PATH_IMAGE015
,图的下半部分为声学回声消除后的只包含近端音频信号
Figure 633164DEST_PATH_IMAGE029
值得说明的是,本实施例还包括通过还包括,
音频采集模块,用于捕获环境中的所有音频信号;
音频拆解模块,用于拆解所有音频信号,得到有效音频信号和回声信号;
音频播放模块,用于播放除去回声信号后的有效音频信号。通过上述模块实现声学回声信号模型的硬件化,通过将预存有声学回声消除的方法通过编程、代码、协议等计算机程序存储在计算机中,包括但不限于通过计算机终端等方式对音频信号进行识别处理。
综上所述,本实施例能够简单有效的去除近端麦克风采集到的音频信号中的回声,保证远程音频通话过程中免受回声的干扰,保证了电话呼叫或远程会议中的通话质量。

Claims (10)

1.一种声学回声消除的方法,包括近端音频采集端和远端音频播放端,其特征在于,获取近端音频信号
Figure 671168DEST_PATH_IMAGE001
和远端音频信号,其中,根据近端音频信号
Figure 852750DEST_PATH_IMAGE002
和远端音频信号构建声学回声信号模型,根据音频信号的时频分布稀疏性保留所述声学回声信号模型中近端采集端的有效音频信号
Figure 622517DEST_PATH_IMAGE003
2.根据权利要求1所述的一种声学回声消除的方法,其特征在于,所述近端音频信号
Figure 256760DEST_PATH_IMAGE002
包括有效音频信号
Figure 822871DEST_PATH_IMAGE003
和回声信号
Figure 124539DEST_PATH_IMAGE004
,所述有效音频信号
Figure 813009DEST_PATH_IMAGE003
通过播放后再次被近端采集端捕获得到回声信号。
3.根据权利要求2所述的一种声学回声消除的方法,其特征在于,所述远端音频信号包括初始回声信号,定义初始回声信号为远端信号
Figure 934549DEST_PATH_IMAGE005
4.根据权利要求3所述的一种声学回声消除的方法,其特征在于,所述声学回声信号模型的搭建包括下列步骤:
S1:基于有效音频信号
Figure 304351DEST_PATH_IMAGE003
和回声信号
Figure 273575DEST_PATH_IMAGE006
混叠得到近端音频信号
Figure 70629DEST_PATH_IMAGE002
,执行步骤S2;
S2:对远端信号
Figure 741782DEST_PATH_IMAGE007
和麦克风采集的近端音频信号
Figure 649695DEST_PATH_IMAGE002
依次进行傅里叶变换,分别得到远端信号
Figure 660377DEST_PATH_IMAGE008
与近端音频信号
Figure 628333DEST_PATH_IMAGE009
的能量谱,执行步骤S3;
S3:判断音频信号是否处于静音状态,若是静音状态,则结束;若是非静音状态,则进入S4;
S4:对远端信号
Figure 36049DEST_PATH_IMAGE010
的能量谱用串联的回归模型构造混响谱,执行步骤S5;
S5:通过混响谱计算回声信号
Figure 747653DEST_PATH_IMAGE004
与远端信号
Figure 612841DEST_PATH_IMAGE005
之间的失真估计,执行步骤S6;
S6:通过所述失真估计计算回声信号
Figure 751698DEST_PATH_IMAGE006
的过谱估计,执行步骤S7;
S7:通过所述回声信号
Figure 397443DEST_PATH_IMAGE004
的过谱估计计算有效音频信号
Figure 912738DEST_PATH_IMAGE011
的过谱估计,执行步骤S8;
S8:得到消除回声信号
Figure 632433DEST_PATH_IMAGE004
后的有效音频信号
Figure 755241DEST_PATH_IMAGE003
5.根据权利要求4所述的一种声学回声消除的方法,其特征在于,所述步骤S1中,近端音频信号
Figure 825965DEST_PATH_IMAGE001
、有效音频信号
Figure 879371DEST_PATH_IMAGE003
、回声信号
Figure 781468DEST_PATH_IMAGE006
和远端信号
Figure 262128DEST_PATH_IMAGE005
均为时间和频率的二维函数,所述远端信号
Figure 820149DEST_PATH_IMAGE012
基于失真函数计算得到回声信号
Figure 411667DEST_PATH_IMAGE006
6.一种声学回声消除的系统,其特征在于,应用于权利要求5中所述的一种声学回声消除的方法,包括,
音频采集模块,用于捕获环境中的所有音频信号;
音频拆解模块,用于拆解所有音频信号,得到有效音频信号和回声信号;
音频播放模块,用于播放除去回声信号后的有效音频信号。
7.根据权利要求6所述的一种声学回声消除的系统,其特征在于,所述音频采集模块包括连续捕获环境中音频信号的接收设备,所述接收设备连接有播放设备并在环境中播放音频信号。
8.根据权利要求7所述的一种声学回声消除的系统,其特征在于,所述音频拆解模块内预存训练完成的音声学回声信号模型,所述音声学回声信号模型的输入为所有音频信号,所述音声学回声信号模型的输出为有效音频信号。
9.根据权利要求8所述的一种声学回声消除的系统,其特征在于,所述音频信号具体为连续性的时频信号,所述时频信号根据时频信号发射源的不同,得到对应的频率峰值和波段。
10.根据权利要求9所述的一种声学回声消除的系统,其特征在于,通过对所述所有音频信号进行傅里叶变换消除所述所有音频信号中的回声信号。
CN202211565746.8A 2022-12-07 2022-12-07 一种声学回声消除的方法和系统 Active CN115579016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211565746.8A CN115579016B (zh) 2022-12-07 2022-12-07 一种声学回声消除的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211565746.8A CN115579016B (zh) 2022-12-07 2022-12-07 一种声学回声消除的方法和系统

Publications (2)

Publication Number Publication Date
CN115579016A true CN115579016A (zh) 2023-01-06
CN115579016B CN115579016B (zh) 2023-03-21

Family

ID=84590034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211565746.8A Active CN115579016B (zh) 2022-12-07 2022-12-07 一种声学回声消除的方法和系统

Country Status (1)

Country Link
CN (1) CN115579016B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705045A (zh) * 2023-08-09 2023-09-05 腾讯科技(深圳)有限公司 回声消除方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2444967A1 (en) * 2010-10-25 2012-04-25 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Echo suppression comprising modeling of late reverberation components
US20140003611A1 (en) * 2012-07-02 2014-01-02 Qualcomm Incorporated Systems and methods for surround sound echo reduction
CN105657110A (zh) * 2016-02-26 2016-06-08 深圳Tcl数字技术有限公司 语音通信的回声消除方法及装置
CN113744752A (zh) * 2021-08-30 2021-12-03 西安声必捷信息科技有限公司 语音处理方法及装置
CN114242097A (zh) * 2021-12-01 2022-03-25 腾讯科技(深圳)有限公司 音频数据处理方法及装置、介质及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2444967A1 (en) * 2010-10-25 2012-04-25 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Echo suppression comprising modeling of late reverberation components
US20140003611A1 (en) * 2012-07-02 2014-01-02 Qualcomm Incorporated Systems and methods for surround sound echo reduction
CN105657110A (zh) * 2016-02-26 2016-06-08 深圳Tcl数字技术有限公司 语音通信的回声消除方法及装置
CN113744752A (zh) * 2021-08-30 2021-12-03 西安声必捷信息科技有限公司 语音处理方法及装置
CN114242097A (zh) * 2021-12-01 2022-03-25 腾讯科技(深圳)有限公司 音频数据处理方法及装置、介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEXIS FAVROT等: "Modeling late reverberation in acoustic echo suppression", 《IWAENC 2012; INTERNATIONAL WORKSHOP ON ACOUSTIC SIGNAL ENHANCEMENT》 *
陈颖睿: "麦克风阵列波束成形算法研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705045A (zh) * 2023-08-09 2023-09-05 腾讯科技(深圳)有限公司 回声消除方法、装置、计算机设备和存储介质
CN116705045B (zh) * 2023-08-09 2023-10-13 腾讯科技(深圳)有限公司 回声消除方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115579016B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN109065067B (zh) 一种基于神经网络模型的会议终端语音降噪方法
Zhang et al. Deep learning for acoustic echo cancellation in noisy and double-talk scenarios
CN109727604B (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
US11297178B2 (en) Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
CN108376548B (zh) 一种基于麦克风阵列的回声消除方法与系统
US10455326B2 (en) Audio feedback reduction utilizing adaptive filters and nonlinear processing
US20220301577A1 (en) Echo cancellation method and apparatus
Habets et al. Joint dereverberation and residual echo suppression of speech signals in noisy environments
JP3507020B2 (ja) 反響抑圧方法、反響抑圧装置及び反響抑圧プログラム記憶媒体
CN115579016B (zh) 一种声学回声消除的方法和系统
US8588404B2 (en) Method and apparatus for acoustic echo cancellation in VoIP terminal
Yu et al. NeuralEcho: A self-attentive recurrent neural network for unified acoustic echo suppression and speech enhancement
US10938992B1 (en) Advanced audio feedback reduction utilizing adaptive filters and nonlinear processing
EP3830823B1 (en) Forced gap insertion for pervasive listening
JP3724705B2 (ja) 反響抑圧方法・反響抑圧装置
CN115620737A (zh) 语音信号处理装置、方法、电子设备和扩音系统
JP2002223182A (ja) 反響消去方法、その装置、そのプログラム及びその記録媒体
CN115881080B (zh) 一种语音通信系统中的声反馈处理方法及装置
CN113949776B (zh) 一种基于双步长快速回声消除的双端讲话检测方法和装置
CN111294474B (zh) 一种双端通话检测方法
CN114584902B (zh) 一种基于音量控制的对讲设备非线性回音消除方法及装置
Shi et al. Subband dereverberation algorithm for noisy environments
CN114242092A (zh) 一种监控环境中提高语音播报扩声增益的智能处理方法和系统
Ma et al. Reverberation time estimationbased on multidelay acousticecho cancellation
Lu Implementation of acoustic echo cancellation for pc applications using matlab

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant