CN115762552B - 训练回声消除模型的方法、回声消除方法及对应装置 - Google Patents

训练回声消除模型的方法、回声消除方法及对应装置 Download PDF

Info

Publication number
CN115762552B
CN115762552B CN202310030085.7A CN202310030085A CN115762552B CN 115762552 B CN115762552 B CN 115762552B CN 202310030085 A CN202310030085 A CN 202310030085A CN 115762552 B CN115762552 B CN 115762552B
Authority
CN
China
Prior art keywords
filtering
signal
module
echo cancellation
microphone input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310030085.7A
Other languages
English (en)
Other versions
CN115762552A (zh
Inventor
张是民
王子腾
纳跃跃
付强
田彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202310030085.7A priority Critical patent/CN115762552B/zh
Publication of CN115762552A publication Critical patent/CN115762552A/zh
Application granted granted Critical
Publication of CN115762552B publication Critical patent/CN115762552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本申请实施例公开了一种训练回声消除模型的方法、回声消除方法及对应装置,涉及新一代信息技术领域。获取参考信号和麦克风输入信号;将所述参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型,获取所述回声消除模型预测得到的近端信号;其中所述回声消除模型包括参数估计模块和滤波处理模块;所述参数估计模块利用参考信号和麦克风输入信号对滤波统计量进行估计,得到滤波统计量估计值;所述滤波处理模块利用所述参考信号和所述滤波统计量估计值,对所述麦克风输入信号进行滤波处理,输出对近端信号的预测结果。通过本申请能够提高回声消除的效果,且具有更强的鲁棒性。

Description

训练回声消除模型的方法、回声消除方法及对应装置
技术领域
本申请涉及新一代信息技术领域,特别是涉及一种训练回声消除模型的方法、回声消除方法及对应装置。
背景技术
在一些语音交互的实时通信场景中不免会遇到回声的问题,即来自远端的语音在近端的扬声器播放后,经过近端环境又被传输至近端麦克风从而造成回声。回声与近端语音的叠加被近端麦克风采集到后传输至远端,会造成远端听到的声音中受到回声的干扰,语音交互质量很差。
因此,为了提高语音交互的质量,回声消除技术应运而生。由于扬声器的器件共振引起的非线性回声、传输链路和系统调度中产生的时钟漂移、时延等问题,使用传统的信号处理方法回声消除效果不佳。此外,由于语音交互设备的多样性,使用传统的信号处理方法需要对每种语音交互设备进行专业的参数调整,即额外增加一些平滑参数来保证回声消除模型的鲁棒性,这种方式严重依赖人工经验,造成回声消除效果依旧不佳。
发明内容
有鉴于此,本申请提供了一种训练回声消除模型的方法、回声消除方法及对应装置,用以提高回声消除的效果。
本申请提供了如下方案:
第一方面,提供了一种训练回声消除模型的方法,所述方法包括:
获取多个训练样本,各训练样本包括:参考信号样本、麦克风输入信号样本和近端信号样本;
将所述参考信号样本和麦克风输入信号样本作为回声消除模型的输入,将所述近端信号样本作为回声消除模型的目标输出,训练所述回声消除模型;其中,所述回声消除模型基于深度学习模型实现,包括参数估计模块和滤波处理模块;
所述参数估计模块利用所述参考信号样本和所述麦克风输入信号样本,对滤波统计量进行估计得到滤波统计量估计值;
所述滤波处理模块利用所述参考信号样本和所述滤波统计量估计值,对所述麦克风输入信号样本进行滤波处理,输出对近端信号的预测结果。
根据本申请实施例中一可实现的方式,所述获取多个训练样本包括:
预先录制第一语音和第二语音,将第一语音作为参考信号样本,将第二语音作为近端信号样本,在目标环境下播放第一语音和第二语音时麦克风采集到的信号作为麦克风输入信号样本。
根据本申请实施例中一可实现的方式,所述滤波统计量估计值包括对近端语音谱密度的估计值,和/或,对自适应滤波模块所采用步长的估计值。
根据本申请实施例中一可实现的方式,所述滤波处理模块包括自适应滤波模块和后滤波模块;
所述自适应滤波模块利用所述参考信号样本和所述滤波统计量估计值,对所述麦克风输入信号样本进行第一滤波处理,第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种;
所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理,输出对近端信号的预测结果。
根据本申请实施例中一可实现的方式,若所述第一滤波处理的结果包括对回声信号的预测结果和误差信号,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述对回声信号的预测结果对所述误差信号进行第二滤波处理;或者,
若所述第一滤波处理的结果包括误差信号,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述参考信号样本对所述误差信号进行第二滤波处理;或者,
若所述第一滤波处理的结果包括对回声信号的预测结果,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述对回声信号的预测结果对所述麦克风输入信号样本进行第二滤波处理;
其中,所述误差信号为:将所述麦克风输入信号样本过滤掉对回声信号的预测结果后得到的信号。
根据本申请实施例中一可实现的方式,所述参数估计模块采用门控循环单元;
所述自适应滤波模块采用卡尔曼自适应滤波模块或者递归最小二乘自适应滤波模块;
所述后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。
根据本申请实施例中一可实现的方式,训练所述回声消除模型包括:
在每一轮迭代中利用损失函数的取值,采用梯度下降的方式更新所述参数估计模块、自适应滤波模块和后滤波模块的模型参数,直至满足预设的训练结束条件;
其中所述损失函数是依据训练目标预先构造的,所述训练目标为最小化所述对近端信号的预测结果与所述近端信号样本之间的差异。
第二方面,提供了一种回声消除方法,所述方法包括:
获取参考信号和麦克风输入信号;
将所述参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型,获取所述回声消除模型预测得到的近端信号;其中所述回声消除模型包括参数估计模块和滤波处理模块;
所述参数估计模块利用参考信号和麦克风输入信号对滤波统计量进行估计,得到滤波统计量估计值;
所述滤波处理模块利用所述参考信号和所述滤波统计量估计值,对所述麦克风输入信号进行滤波处理,输出对近端信号的预测结果。
根据本申请实施例中一可实现的方式,所述滤波统计量包括近端语音的谱密度,和/或,所述第一滤波处理采用的步长。
根据本申请实施例中一可实现的方式,所述滤波处理模块包括自适应滤波模块和后滤波模块;
所述自适应滤波模块利用所述参考信号和所述滤波统计量估计值,对所述麦克风输入信号进行第一滤波处理,第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种;
所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理,输出对近端信号的预测结果。
根据本申请实施例中一可实现的方式,若所述第一滤波处理的结果包括对回声信号的预测结果和误差信号,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述对回声信号的预测结果对所述误差信号进行第二滤波处理;或者,
若所述第一滤波处理的结果包括误差信号,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述参考信号对所述误差信号进行第二滤波处理;或者,
若所述第一滤波处理的结果包括对回声信号的预测结果,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述对回声信号的预测结果对所述麦克风输入信号进行第二滤波处理;
其中,所述误差信号为:将所述麦克风输入信号过滤掉对回声信号的预测结果后得到的信号。
根据本申请实施例中一可实现的方式,所述参数估计模块采用门控循环单元;
所述自适应滤波模块采用卡尔曼滤波模块或者递归最小二乘滤波模块;
所述后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。
第三方面,提供了一种训练回声消除模型的装置,所述装置包括:
样本获取单元,被配置为获取多个训练样本,各训练样本包括:参考信号样本、麦克风输入信号样本和近端信号样本;
模型训练单元,被配置为将所述参考信号样本和麦克风输入信号样本作为回声消除模型的输入,将所述近端信号样本作为回声消除模型的目标输出,训练所述回声消除模型;其中,所述回声消除模型基于深度学习模型实现,包括参数估计模块和滤波处理模块;
所述参数估计模块用以利用所述参考信号样本和所述麦克风输入信号样本,对滤波统计量进行估计得到滤波统计量估计值;
所述滤波处理模块用以利用所述参考信号样本和所述滤波统计量估计值,对所述麦克风输入信号样本进行滤波处理,输出对近端信号的预测结果。
第四方面,提供了一种回声消除装置,所述装置包括:
信号获取单元,被配置为获取参考信号和麦克风输入信号;
回声消除单元,被配置为将所述参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型,获取所述回声消除模型预测得到的近端信号;其中所述回声消除模型包括参数估计模块和滤波处理模块;
所述参数估计模块用以利用参考信号和麦克风输入信号对滤波统计量进行估计,得到滤波统计量估计值;
所述滤波处理模块用以利用所述参考信号和所述滤波统计量估计值,对所述麦克风输入信号进行滤波处理,输出对近端信号的预测结果。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
根据第六方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面中任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
1)本申请采用基于深度学习模型的回声消除模型,在该回声消除模型中引入了参数估计模块对滤波统计量进行估计,帮助滤波处理模块利用滤波统计量估计值对麦克风输入信号进行滤波处理得到对近端信号的预测结果。这种通过数据驱动的方式自适应地辅助优化滤波过程,无需依赖专家经验额外设置平滑参数,降低了人工和时间成本,并且效果不再受限于人工经验,提高了回声消除的效果。
2)本申请提供的回声消除模型中采用两阶段的滤波处理方式,首先由自适应滤波模块模拟回声路径,从而进行第一滤波处理;然后由后滤波模块进行第二滤波处理,过滤掉残余回声以及噪声的影响。这种方式能够大幅提高回声消除的效果,对回声信号的预测更加准确。
3)本申请基于滤波统计量估计能够使得自适应滤波的迭代过程能够更快的收敛,从而达到更鲁棒的回声消除效果。
4)本申请提供了一种端到端的回声消除模型,梯度在参数估计模块、自适应滤波模块和后滤波模块进行反向传播,实现联合优化,从而得到更鲁棒的回声消除模型。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是可以应用本申请实施例的示例性系统架构图;
图2为本申请实施例提供的回声消除模型的示意图;
图3a~图3c为本申请实施例提供的三种回声消除模型的原理性示意图;
图4为本申请实施例提供的训练回声消除模型的方法流程图;
图5为本申请实施例提供的模型训练的原理性示意图;
图6为本申请实施例提供的回声消除装置的示意性框图;
图7为本申请实施例提供的训练回声消除模型的装置示意性框图;
图8为本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在数字化驱动的今天,人工智能逐渐应用于语音技术,使得很多语音前端任务的性能得到提升。应用到回声消除场景,可以使用自适应滤波器对回声路径进行学习来调整自适应滤波器的权值,由自适应滤波器依据学习结果估计回声信号并利用自适应滤波器估计的回声信号进行滤波处理,从而得到预测信号。这种方式的回声消除效果相比较传统信号处理方式已经得到了提升,但鲁棒性较差。并且自适应滤波同样需要依赖专家经验进行平滑参数的设置,人工和时间成本较高,且效果受限于专家经验。
有鉴于此,本申请在回声消除模型中引入了参数估计模型来解决上述技术问题。为了方便对本申请的理解,首先对本申请所适用的系统架构进行简单描述。
图1示出了可以应用本申请实施例的示例性系统架构。如图1中所示,本申请实施例中涉及的回声消除装置设置于近端麦克风向远端进行语音传输的路径中。从远端传输至近端扬声器的信号为参考信号,该信号经过扬声器播放后再经过回声路径传输至近端麦克风,连同近端语音信号一起作为麦克风输入信号被近端麦克风采集。本申请实施例提供的回声消除装置利用参考信号以及麦克风输入信号进行近端语音信号的预测,得到预测信号,然后将预测信号传输至远端。
其中,回声消除装置利用回声消除模型进行回声消除处理,从而得到预测信号。回声消除模型是由模型训练装置利用训练数据预先训练得到。
回声消除装置可以设置于语音交互设备,对语音交互设备所能够麦克风采集到的输入信号进行回声消除后,传输至远端。语音交互设备可以包括但不限于智能手机、平板电脑、智能音箱等。
模型训练装置可以设置于服务器端,服务器可以是单一服务器,也可以是多个服务器构成的服务器群组,还可以是云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPs,VirtualPrivate Server)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置也可以设置于计算机终端。
模型训练装置训练得到的回声消除模型可以预置于语音交互设备,也可以通过网络方式传输给语音交互设备。
应该理解,图1中的回声消除装置、回声消除模型和模型训练装置的数目仅仅是示意性的。根据实现需要,可以具有任意数目的回声消除装置、回声消除模型和模型训练装置。
本申请实施例提供的回声消除方法可以由图1所示系统架构中的回声消除装置执行。该回声消除方法基于回声消除模型实现,即回声消除装置将参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型,获取回声消除模型预测得到的近端信号。
回声消除模型的输入是参考信号和麦克风输入信号,输出是预测得到的近端信号,但本申请实施例中的回声消除模型采用了全新的结构。如图2中所示,该回声消除模型可以包括参数估计模块和滤波处理模块。
其中,参数估计模块利用参考信号和麦克风输入信号对滤波统计量进行估计,得到滤波统计量估计值。
滤波处理模块利用参考信号和参数估计模块输出的滤波统计量估计值,对麦克风输入信号进行滤波处理,输出对近端信号的预测结果。
可以看出,本申请采用基于深度学习模型的回声消除模型,在该回声消除模型中引入了参数估计模块对滤波统计量进行估计,帮助滤波处理模块利用滤波统计量估计值对麦克风输入信号进行滤波处理得到对近端信号的预测结果。这种方式通过数据驱动的方式自适应地辅助优化滤波过程,无需依赖专家经验额外设置平滑参数,降低了人工和时间成本,并且效果不再受限于人工经验,提高了回声消除的效果。
下面对回声消除模型的各部分进行详细描述。
本申请实施例中提供的参数估计模块能够在输入参考信号(表示为
Figure 770263DEST_PATH_IMAGE001
)和麦克风输入信号(表示为/>
Figure 147673DEST_PATH_IMAGE002
)后,进行滤波统计量的估计,得到滤波统计量估计值(表示为λ)。作为其中一种可实现的方式,参数估计模块可以采用GRU(Gate Recurrent Unit,门控循环单元),也可以采用其他RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long short-term memory,长短时记忆网络)。
在本申请实施例中以GRU为例。远端信号、麦克风输入信号会经过时域到频域的变换,例如进行傅里叶变换,得到序列维度和特征维度的矩阵,称为特征矩阵,表示为T×F大小。两路信号的特征矩阵可以拼接起来得到T×2F大小,将拼接得到的矩阵作为GRU的输入,预测得到的滤波统计量估计值实际上也是一个矩阵。其中,特征维度可以采用多种类型的特征,例如倒谱参数、基音参数、幅度调制谱参数等等。后续实施例中各模块被输入的信号也均是转换到频率后的序列维度和特征维度的矩阵。鉴于GRU的具体原理和结构是一个已知的原理和结构,在此不做详述。
在本申请实施例中参数估计模块估计的滤波统计量可以是近端语音的谱密度、自适应滤波模块采用的控制收敛速度的步长等中的一种或任意组合,这些滤波统计量是自适应滤波模块在进行自适应滤波(即第一滤波处理)过程中使用的统计类型的参数。
作为其中一种可实现的方式,上述滤波处理模块可以采用自适应滤波模块。由自适应滤波模块利用参考信号和滤波统计量估计值对麦克风输入信号进行滤波处理,过滤掉其中的回声信号,得到对近端信号的预测结果。
但作为另一种更优选的方式,上述滤波处理模块可以包括两部分,即图2中示出的结构,包括自适应滤波模块和后滤波模块。
自适应滤波模块利用参考信号样本和滤波统计量估计值对麦克风输入信号进行第一滤波处理。
后滤波模块利用第一滤波处理的结果进行第二滤波处理,得到对近端信号的预测结果。
需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分,例如“第一滤波处理”和“第二滤波处理”用以区分两种滤波处理。
麦克风输入信号
Figure 525696DEST_PATH_IMAGE003
的产生过程实际上是:远端信号即参考信号/>
Figure 768459DEST_PATH_IMAGE004
经过扬声器播放后,经过回声路径形成回声信号/>
Figure 430384DEST_PATH_IMAGE005
,回声信号/>
Figure 303662DEST_PATH_IMAGE005
与近端信号/>
Figure 418249DEST_PATH_IMAGE006
一起被麦克风采集,就得到了麦克风输入信号/>
Figure 949855DEST_PATH_IMAGE003
。本申请实施例中进行的回声消除目的是为了从麦克风输入信号/>
Figure 731867DEST_PATH_IMAGE003
中还原近端信号/>
Figure 572784DEST_PATH_IMAGE006
,还原的过程由自适应滤波模块和后滤波模块实现,先后执行两次滤波,最终预测近端信号v。
第一滤波由自适应滤波模块执行。自适应滤波模块利用参考信号
Figure 174666DEST_PATH_IMAGE004
和滤波统计量估计值λ,对麦克风输入信号/>
Figure 962494DEST_PATH_IMAGE003
进行的第一滤波处理实际上就是线性自适应滤波处理,即对回声进行线性预测。自适应滤波模块实际上是模拟回声路径,通过自适应算法调整使其冲激响应和真实回声路径相逼近。例如,麦克风输入信号可以表示为:
Figure 349744DEST_PATH_IMAGE007
(1)
其中,
Figure 361562DEST_PATH_IMAGE008
为扬声器到麦克风的冲激响应,自适应滤波模块就是调整得到上述/>
Figure 388424DEST_PATH_IMAGE008
后,预测/>
Figure 776680DEST_PATH_IMAGE009
的过程。
本申请实施例中采用的自适应滤波模块可以采用卡尔曼自适应滤波模块、递归最小二乘自适应滤波模块等。
以卡尔曼滤波模块为例,卡尔曼滤波的更新过程可以表示为:
Figure 267704DEST_PATH_IMAGE010
(2)
Figure 198227DEST_PATH_IMAGE011
(3)
Figure 977964DEST_PATH_IMAGE012
(4)
Figure 904331DEST_PATH_IMAGE013
(5)
Figure 249862DEST_PATH_IMAGE014
(6)
其中,
Figure 869062DEST_PATH_IMAGE015
是误差信号的第/>
Figure 870516DEST_PATH_IMAGE016
帧。/>
Figure DEST_PATH_IMAGE017
是麦克风输入信号的第/>
Figure 882466DEST_PATH_IMAGE016
帧。/>
Figure 82503DEST_PATH_IMAGE018
是针对第/>
Figure 75867DEST_PATH_IMAGE016
帧估计的回声路径。上标/>
Figure 95775DEST_PATH_IMAGE019
表示共轭转置,上标/>
Figure 645837DEST_PATH_IMAGE020
表示转置。/>
Figure 700380DEST_PATH_IMAGE021
是参考信号的缓存数组,由第/>
Figure 599066DEST_PATH_IMAGE016
帧及其前n帧组成,n为预设的正整数。/>
Figure 371850DEST_PATH_IMAGE022
是对应的卡尔曼增益,用于控制自适应滤波模块更新的速度。/>
Figure 709291DEST_PATH_IMAGE023
为第/>
Figure 369073DEST_PATH_IMAGE016
帧的先验状态的误差协方差,/>
Figure 704239DEST_PATH_IMAGE024
为第/>
Figure 698740DEST_PATH_IMAGE016
帧的后验状态的误差协方差,
Figure 839872DEST_PATH_IMAGE025
为第/>
Figure 72270DEST_PATH_IMAGE016
-1帧的先验状态的误差协方差。/>
Figure 109496DEST_PATH_IMAGE026
为第/>
Figure 598816DEST_PATH_IMAGE027
帧的噪声协方差。
在本申请实施例中,参数估计模块估计的滤波统计量估计值实际上也是针对各帧进行的估计,针对第
Figure 278059DEST_PATH_IMAGE016
帧估计的滤波统计量估计值可以表示为/>
Figure 161701DEST_PATH_IMAGE028
。在上述卡尔曼滤波模块的更新过程中,就是将上述公式(4)中的谱密度/>
Figure 573091DEST_PATH_IMAGE029
替换为参数估计模块输出的/>
Figure 542184DEST_PATH_IMAGE030
,即在计算卡尔曼增益时将上述公式(4)变为:
Figure 775850DEST_PATH_IMAGE031
(7)
上面实施例中已经提到,参数估计模块还可以是对自适应滤波模块控制迭代速度采用的步长进行估计,该估计也是针对各帧进行的。这种情况下,上述公式(4)替换为:
Figure 779578DEST_PATH_IMAGE032
(8)
其中,
Figure 689765DEST_PATH_IMAGE033
就是参数估计模块估计的自适应滤波模块针对第/>
Figure 896887DEST_PATH_IMAGE034
帧采用的步长,即一个对各帧步长控制的矩阵。
如果回声路径发生了变化,相比较传统自适应滤波,基于滤波统计量估计能够使得自适应滤波的迭代过程能够更快的收敛,从而避免回声路径突变的影响,达到更鲁棒的回声消除效果。
通过卡尔曼滤波过程,自适应滤波模块最终可以得到以下三种输出:
第一种输出:对回声信号的预测结果
Figure 855616DEST_PATH_IMAGE035
以及误差信号/>
Figure 713850DEST_PATH_IMAGE036
第二种输出:误差信号
Figure 794939DEST_PATH_IMAGE036
第三种输出:对回声信号的预测结果
Figure 473045DEST_PATH_IMAGE037
相应地,对于后滤波模块的输入可以采用以下三种输入:
第一种输入:对回声信号的预测结果
Figure 782934DEST_PATH_IMAGE037
以及误差信号/>
Figure 698938DEST_PATH_IMAGE036
,如图3a中所示;
第二种输入:参考信号
Figure 685348DEST_PATH_IMAGE038
和误差信号/>
Figure 381909DEST_PATH_IMAGE036
,如图3b中所示;
第三种输入:麦克风输入信号
Figure 479178DEST_PATH_IMAGE039
和对回声信号的预测结果/>
Figure 794228DEST_PATH_IMAGE040
,如图3c中所示。
除了上述三种输入之外,也可以在上述输入的基础上结合其他情况信号中的一种或全部。例如,输入对回声信号的预测结果
Figure 951540DEST_PATH_IMAGE040
、误差信号/>
Figure 807501DEST_PATH_IMAGE041
和麦克风输入信号/>
Figure 708461DEST_PATH_IMAGE042
。再例如,输入对回声信号的预测结果/>
Figure 661373DEST_PATH_IMAGE040
、误差信号/>
Figure 192849DEST_PATH_IMAGE041
和参考信号/>
Figure 83575DEST_PATH_IMAGE043
。再例如,输入参考信号/>
Figure 788226DEST_PATH_IMAGE043
、误差信号
Figure 330066DEST_PATH_IMAGE041
、麦克风输入信号/>
Figure 563601DEST_PATH_IMAGE042
和对回声信号的预测结果/>
Figure 941624DEST_PATH_IMAGE040
后滤波模块的目的是进一步对过滤掉残余回声和噪声的影响。在采用上述第一种输入时,可以利用对回声信号的预测结果
Figure 184386DEST_PATH_IMAGE040
对误差信号/>
Figure 846312DEST_PATH_IMAGE041
进行第二滤波处理,得到对近端信号的预测结果/>
Figure 516328DEST_PATH_IMAGE044
。这里的第二滤波处理实际上是依据回声信号的预测结果/>
Figure 381647DEST_PATH_IMAGE040
所体现出的噪声特征,对误差信号/>
Figure 428100DEST_PATH_IMAGE041
进行进一步地滤波,消除掉噪声的影响,得到预测的近端信号/>
Figure 944532DEST_PATH_IMAGE044
在采用上述第二种输入时,可以利用参考信号
Figure 785449DEST_PATH_IMAGE043
对误差信号/>
Figure 406573DEST_PATH_IMAGE041
进行第二滤波处理,得到对近端信号/>
Figure 194401DEST_PATH_IMAGE044
的预测结果。这里的第二滤波处理实际上是依据参考信号/>
Figure 362077DEST_PATH_IMAGE043
和误差信号
Figure 124627DEST_PATH_IMAGE041
所体现出的噪声特征的差异,对误差信号/>
Figure 213806DEST_PATH_IMAGE041
进行进一步地滤波,消除掉噪声的影响,得到预测的近端信号/>
Figure 336483DEST_PATH_IMAGE044
在采用上述第三种输入时,可以对回声信号的预测结果
Figure 827507DEST_PATH_IMAGE040
对麦克风输入信号/>
Figure 760959DEST_PATH_IMAGE042
进行第二滤波处理。这里的第二滤波处理实际上是首先基于回声信号的预测结果/>
Figure 275117DEST_PATH_IMAGE040
和麦克风输入信号/>
Figure 201485DEST_PATH_IMAGE042
得到误差信号/>
Figure 547016DEST_PATH_IMAGE041
,再依据对回声信号的预测结果/>
Figure 900637DEST_PATH_IMAGE040
所体现出的噪声特征的差异,对误差信号/>
Figure 449561DEST_PATH_IMAGE041
进行进一步地滤波,消除掉噪声的影响,得到预测的近端信号/>
Figure 179619DEST_PATH_IMAGE044
在本申请实施例中,后滤波模块可以采用DFSMN(Deep Feedforward SequentialMemory Networks,深度前馈序列记忆网络)、LSTM和GRU等中的一种或任意组合。关于这些网络的原理和结构在此不做详述。
后滤波模块预测得到的是频域上的近端信号,在进行频域到时域上的转换,得到最终对近端信号
Figure 645236DEST_PATH_IMAGE044
的预测结果。
以上是利用回声消除模型进行回声消除的过程,下面结合实施例对训练回声消除模型的过程进行描述。图4为本申请实施例提供的训练回声消除模型的方法流程图,该方法可以由图1所示系架构中的模型训练装置执行。如图4中所示,该方法可以包括以下步骤:
步骤402:获取多个训练样本,各训练样本包括:参考信号样本、麦克风输入信号样本和近端信号样本。
在获取训练样本时,作为其中一种可实现的方式,可以预先录制第一语音和第二语音,将第一语音作为参考信号样本,将第二语音作为近端信号样本,在目标环境下播放第一语音和第二语音时麦克风采集到的信号作为麦克风输入信号样本。其中,第一语音模拟播放远端信号,第二语音在靠近麦克风的位置模拟近端信号。通过这种方式录制大量的第一语音和第二语音就可以得到训练集。
在本申请实施例中,可以分别针对不同类型的目标环境构建不同的训练集,分别用以训练适用于不同类型环境的回声消除模型。上述目标环境的类型可以是诸如:在房间内进行电话会议的环境、在大会议室进行电话会议的环境、在房间内进行语音或视频通话的环境、在房间内进行直播的环境,等等。
除了上述方式之外,也可以采用其他方式来获取训练样本。例如通过仿真工具模拟目标环境,在仿真工具中设置麦克风和扬声器,并模拟产生远端信号、近端信号分别作为参考信号样本和近端信号样本,并在仿真工具中获取麦克风采集到的信号作为麦克风输入信号样本。通过仿真工具可以获取大量的训练样本来构建训练集。
步骤404:将参考信号样本和麦克风输入信号样本作为回声消除模型的输入,将近端信号样本作为回声消除模型的目标输出,训练回声消除模型。
关于回声消除模型的具体结构可以参见图2中所示,回声消除模型基于深度学习模型实现,包括参数估计模块和滤波处理模块。
参数估计模块利用参考信号样本和麦克风输入信号样本,对滤波统计量进行估计得到滤波统计量估计值。
其中预测的滤波统计量可以包括近端语音的谱密度,和/或,自适应滤波模块采用的步长。
作为其中一种可实现的方式,上述滤波处理模块可以采用自适应滤波模块。由自适应滤波模块利用参考信号样本和滤波统计量估计值对麦克风输入信号样本进行滤波处理,过滤掉其中的回声信号,得到对近端信号的预测结果。
但作为另一种更优选的方式,上述滤波处理模块可以包括两部分,即图2中示出的结构,包括自适应滤波模块和后滤波模块。
自适应滤波模块利用参考信号样本和滤波统计量估计值,对麦克风输入信号样本进行第一滤波处理。对麦克风输入信号样本进行的第一滤波处理实际上就是自适应滤波处理,即对回声进行预测。自适应滤波模块实际上是模拟回声路径,通过自适应算法调整使其冲激响应和真实回声路径相逼近。
本申请实施例中采用的自适应滤波模块可以采用卡尔曼滤波模块、递归最小二乘滤波模块等。
自适应滤波模块最终可以得到以下三种输出:
第一种输出:对回声信号的预测结果以及误差信号;
第二种输出:误差信号;
第三种输出:对回声信号的预测结果。
相应地,对于后滤波模块的输入可以采用以下三种输入:
第一种输入:对回声信号的预测结果以及误差信号,如图3a中所示;
第二种输入:参考信号样本和误差信号,如图3b中所示;
第三种输入:麦克风输入信号样本和对回声信号的预测结果,如图3c中所示。
后滤波模块利用第一滤波处理的结果进行第二滤波处理,输出对近端信号的预测结果。
在采用上述第一种输入时,后滤波模块可以利用对回声信号的预测结果对误差信号进行第二滤波处理,得到对近端信号的预测结果。这里的第二滤波处理实际上是依据回声信号的预测结果所体现出的噪声特征,对误差信号进行进一步地滤波,消除掉噪声的影响,得到预测的近端信号。
在采用上述第二种输入时,可以利用参考信号样本对误差信号进行第二滤波处理,得到对近端信号的预测结果。这里的第二滤波处理实际上是依据参考信号样本和误差信号所体现出的噪声特征的差异,对误差信号进行进一步地滤波,消除掉噪声的影响,得到预测的近端信号。
在采用上述第三种输入时,可以对回声信号的预测结果对麦克风输入信号样本进行第二滤波处理。这里的第二滤波处理实际上是首先基于回声信号的预测结果和麦克风输入信号样本得到误差信号,再依据对回声信号的预测结果所体现出的噪声特征的差异,对误差信号进行进一步地滤波,消除掉噪声的影响,得到预测的近端信号。
在本申请实施例中,后滤波模块可以采用DFSMN(Deep Feedforward SequentialMemory Networks,深度前馈序列记忆网络)、LSTM和GRU等中的一种或任意组合。
关于回声消除模型的更多原理和细节可以参见回声消除方法实施例中的相关记载,在此不做赘述。
回声消除模型的训练目标为最小化对近端信号的预测结果与对应的近端信号样本之间的差异。在本申请实施例中,可以依据上述训练目标构造损失函数(loss),例如构造MSE(Mean Square Error,均方误差)损失函数。在每一轮迭代中利用损失函数的取值,采用诸如梯度下降的方式更新回声消除模型的模型参数,如图5中所示。由于本申请实施例提供的回声消除模型采用的是端到端模型,每一次迭代过程中是对参数估计模块、自适应滤波模块和后滤波模块采用端到端的联合优化,利用梯度下降的方式对参数估计模块、自适应滤波模块和后滤波模块的模型参数进行更新,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
可以看出,本申请提供了一种端到端的回声消除模型,梯度在参数估计模块、自适应滤波模块和后滤波模块进行反向传播,实现联合优化,从而得到更鲁棒的回声消除模型。
本申请实施例提供的上述方法可以应用于多种应用场景,在此列举两种:
应用场景1:
预先针对电话会议的环境获取训练样本,并利用训练样本采用本申请实施例中的方式训练得到回声消除模型,并将该回声消除模型预置于会议终端设备,或者通过服务推送的方式将回声消除模型推送至会议终端设备,还可以在后续对该回声消除模型进行更新。
用户使用会议终端设备进行电话会议的过程中,通过扬声器播放的远端语音经过会议环境的回声路径后,与近端用户的语音一起被麦克风采集。针对麦克风采集的麦克风输入信号,可以利用回声消除模型进行回声消除,预测得到近端语音,并将近端语音通过网络传输至远端的会议终端设备。同样,在远端的会议终端设备也采用类似方式进行回声消除处理。这样就能够保证电话会议的通话质量,降低受到回声的影响。
应用场景2:
预先针对智能音箱的环境获取训练样本,并利用训练样本采用本申请实施例中的方式训练得到回声消除模型,并将该回声消除模型预置于智能音箱,或者通过服务推送的方式将回声消除模型推送至智能音箱,还可以在后续对智能音箱中的回声消除模型进行更新。
用户使用智能音箱的过程中,通过扬声器播放的声音经过智能音箱的播放环境的回声路径后,与近端用户的语音一起被智能音箱的麦克风阵列采集。针对麦克风阵列采集的麦克风输入信号,可以利用回声消除模型进行回声消除,预测得到近端语音即近端用户的语音,从而方便对近端语音进行进一步的语音识别并依据语音识别结果为用户提供服务。这样就能够保证智能音箱对近端用户语音的识别准确度,提高用户的服务体验,例如达到精准唤醒,精准服务的效果。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种回声消除装置。图6示出根据一个实施例的该回声消除装置的示意性框图,如图6所示,该装置600包括:信号获取单元601和回声消除单元602。其中各组成单元的主要功能如下:
信号获取单元601,被配置为获取参考信号和麦克风输入信号。
回声消除单元602,被配置为将参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型,获取回声消除模型预测得到的近端信号;其中回声消除模型包括参数估计模块和滤波处理模块。
参数估计模块用以利用参考信号和麦克风输入信号对滤波统计量进行估计,得到滤波统计量估计值。
滤波处理模块用以利用参考信号和滤波统计量估计值,对麦克风输入信号进行滤波处理,输出对近端信号的预测结果。
作为其中一种可实现的方式,滤波统计量包括近端语音的谱密度,和/或,第一滤波处理采用的步长。
作为其中一种可实现的方式,滤波处理模块包括自适应滤波模块和后滤波模块。
自适应滤波模块利用参考信号和滤波统计量估计值,对麦克风输入信号进行第一滤波处理,第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种。
后滤波模块利用第一滤波处理的结果进行第二滤波处理,输出对近端信号的预测结果。
其中,若第一滤波处理的结果包括对回声信号的预测结果和误差信号,则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括:后滤波模块利用对回声信号的预测结果对误差信号进行第二滤波处理。
若第一滤波处理的结果包括误差信号,则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括:后滤波模块利用参考信号对误差信号进行第二滤波处理。
若第一滤波处理的结果包括对回声信号的预测结果,则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括:后滤波模块利用对回声信号的预测结果对麦克风输入信号进行第二滤波处理。
其中,误差信号为:将麦克风输入信号过滤掉对回声信号的预测结果后得到的信号。
作为其中一种可实现的方式,参数估计模块可以采用门控循环单元。自适应滤波模块采用卡尔曼自适应滤波模块或者递归最小二乘自适应滤波模块。后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。
根据另一方面的实施例,提供了一种训练回声消除模型的装置。图7示出根据一个实施例的训练回声消除模型的装置结构图,如图7所示,该装置700包括:样本获取单元701和模型训练单元702。其中各组成单元的主要功能如下:
样本获取单元701,被配置为获取多个训练样本,各训练样本包括:参考信号样本、麦克风输入信号样本和近端信号样本。
模型训练单元702,被配置为将参考信号样本和麦克风输入信号样本作为回声消除模型的输入,将近端信号样本作为回声消除模型的目标输出,训练回声消除模型;其中,回声消除模型基于深度学习模型实现,包括参数估计模块和滤波处理模块。
参数估计模块用以利用参考信号样本和麦克风输入信号样本,对滤波统计量进行估计得到滤波统计量估计值;
滤波处理模块用以利用参考信号样本和滤波统计量估计值,对麦克风输入信号样本进行滤波处理,输出对近端信号的预测结果。
作为其中一种可实现的方式,样本获取单元701可以具体被配置为:预先录制第一语音和第二语音,将第一语音作为参考信号样本,将第二语音作为近端信号样本,在目标环境下播放第一语音和第二语音时麦克风采集到的信号作为麦克风输入信号样本。
作为其中一种可实现的方式,滤波统计量估计值包括对近端语音谱密度的估计值,和/或,对自适应滤波模块所采用步长的估计值。
作为其中一种可实现的方式,滤波处理模块包括自适应滤波模块和后滤波模块;
自适应滤波模块利用参考信号样本和滤波统计量估计值,对麦克风输入信号样本进行第一滤波处理,第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种。
后滤波模块利用第一滤波处理的结果进行第二滤波处理,输出对近端信号的预测结果。
其中,若第一滤波处理的结果包括对回声信号的预测结果和误差信号,则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括:后滤波模块利用对回声信号的预测结果对误差信号进行第二滤波处理。
若第一滤波处理的结果包括误差信号,则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括:后滤波模块利用参考信号样本对误差信号进行第二滤波处理。
若第一滤波处理的结果包括对回声信号的预测结果,则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括:后滤波模块利用对回声信号的预测结果对麦克风输入信号样本进行第二滤波处理。
其中,误差信号为:将麦克风输入信号样本过滤掉对回声信号的预测结果后得到的信号。
作为其中一种可实现的方式,参数估计模块采用门控循环单元。自适应滤波模块采用卡尔曼滤波模块或者递归最小二乘滤波模块。后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。
作为其中一种可实现的方式,模型训练单元702在训练回声消除模型的过程中,在每一轮迭代中利用损失函数的取值,采用梯度下降的方式更新参数估计模块、自适应滤波模块和后滤波模块的模型参数,直至满足预设的训练结束条件。其中损失函数是依据训练目标预先构造的,训练目标为最小化对近端信号的预测结果与近端信号样本之间的差异。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下( 例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
其中,图8示例性的展示出了电子设备的架构,具体可以包括处理器810,视频显示适配器811,磁盘驱动器812,输入/输出接口813,网络接口814,以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820之间可以通过通信总线830进行通信连接。
其中,处理器810可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器820可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821,用于控制电子设备800的低级别操作的基本输入输出系统(BIOS) 822。另外,还可以存储网页浏览器823,数据存储管理系统824,以及回声消除装置/模型训练装置825等等。上述回声消除装置/模型训练装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器820中,并由处理器810来调用执行。
输入/输出接口813用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口814用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线830包括一通路,在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,存储器820,总线830等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种训练回声消除模型的方法,其特征在于,所述方法包括:
获取多个训练样本,各训练样本包括:参考信号样本、麦克风输入信号样本和近端信号样本;
将所述参考信号样本和麦克风输入信号样本作为回声消除模型的输入,将所述近端信号样本作为回声消除模型的目标输出,训练所述回声消除模型;其中,所述回声消除模型基于深度学习模型实现,包括参数估计模块和滤波处理模块;
所述参数估计模块利用所述参考信号样本和所述麦克风输入信号样本,对滤波统计量进行估计得到滤波统计量估计值,所述滤波统计量估计值包括对近端语音谱密度的估计值,和/或,对自适应滤波模块所采用步长的估计值;
所述滤波处理模块利用所述参考信号样本和所述滤波统计量估计值,对所述麦克风输入信号样本进行滤波处理,输出对近端信号的预测结果,所述滤波处理包括线性自适应滤波处理。
2.根据权利要求1所述的方法,其特征在于,所述获取多个训练样本包括:
预先录制第一语音和第二语音,将第一语音作为参考信号样本,将第二语音作为近端信号样本,在目标环境下播放第一语音和第二语音时麦克风采集到的信号作为麦克风输入信号样本。
3.根据权利要求1所述的方法,其特征在于,所述滤波处理模块包括自适应滤波模块和后滤波模块;
所述自适应滤波模块利用所述参考信号样本和所述滤波统计量估计值,对所述麦克风输入信号样本进行第一滤波处理,所述第一滤波处理为线性自适应滤波处理,第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种;
所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理,输出对近端信号的预测结果。
4.根据权利要求3所述的方法,其特征在于,若所述第一滤波处理的结果包括对回声信号的预测结果和误差信号,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述对回声信号的预测结果对所述误差信号进行第二滤波处理;或者,
若所述第一滤波处理的结果包括误差信号,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述参考信号样本对所述误差信号进行第二滤波处理;或者,
若所述第一滤波处理的结果包括对回声信号的预测结果,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述对回声信号的预测结果对所述麦克风输入信号样本进行第二滤波处理;
其中,所述误差信号为:将所述麦克风输入信号样本过滤掉对回声信号的预测结果后得到的信号。
5.根据权利要求3所述的方法,其特征在于,所述参数估计模块采用门控循环单元;
所述自适应滤波模块采用卡尔曼自适应滤波模块或者递归最小二乘自适应滤波模块;
所述后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。
6.根据权利要求3所述的方法,其特征在于,训练所述回声消除模型包括:
在每一轮迭代中利用损失函数的取值,采用梯度下降的方式更新所述参数估计模块、自适应滤波模块和后滤波模块的模型参数,直至满足预设的训练结束条件;
其中所述损失函数是依据训练目标预先构造的,所述训练目标为最小化所述对近端信号的预测结果与所述近端信号样本之间的差异。
7.一种回声消除方法,其特征在于,所述方法包括:
获取参考信号和麦克风输入信号;
将所述参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型,获取所述回声消除模型预测得到的近端信号;其中所述回声消除模型包括参数估计模块和滤波处理模块;
所述参数估计模块利用参考信号和麦克风输入信号对滤波统计量进行估计,得到滤波统计量估计值,所述滤波统计量估计值包括对近端语音谱密度的估计值,和/或,对自适应滤波模块所采用步长的估计值;
所述滤波处理模块利用所述参考信号和所述滤波统计量估计值,对所述麦克风输入信号进行滤波处理,输出对近端信号的预测结果,所述滤波处理包括线性自适应滤波处理。
8.根据权利要求7所述的方法,其特征在于,所述滤波处理模块包括自适应滤波模块和后滤波模块;
所述自适应滤波模块利用所述参考信号和所述滤波统计量估计值,对所述麦克风输入信号进行第一滤波处理,所述第一滤波处理为线性自适应滤波处理,第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种;
所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理,输出对近端信号的预测结果。
9.根据权利要求8所述的方法,其特征在于,若所述第一滤波处理的结果包括对回声信号的预测结果和误差信号,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述对回声信号的预测结果对所述误差信号进行第二滤波处理;或者,
若所述第一滤波处理的结果包括误差信号,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述参考信号对所述误差信号进行第二滤波处理;或者,
若所述第一滤波处理的结果包括对回声信号的预测结果,则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括:所述后滤波模块利用所述对回声信号的预测结果对所述麦克风输入信号进行第二滤波处理;
其中,所述误差信号为:将所述麦克风输入信号过滤掉对回声信号的预测结果后得到的信号。
10.根据权利要求8所述的方法,其特征在于,所述参数估计模块采用门控循环单元;
所述自适应滤波模块采用卡尔曼滤波模块或者递归最小二乘滤波模块;
所述后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。
11.一种训练回声消除模型的装置,其特征在于,所述装置包括:
样本获取单元,被配置为获取多个训练样本,各训练样本包括:参考信号样本、麦克风输入信号样本和近端信号样本;
模型训练单元,被配置为将所述参考信号样本和麦克风输入信号样本作为回声消除模型的输入,将所述近端信号样本作为回声消除模型的目标输出,训练所述回声消除模型;其中,所述回声消除模型基于深度学习模型实现,包括参数估计模块和滤波处理模块;
所述参数估计模块用以利用所述参考信号样本和所述麦克风输入信号样本,对滤波统计量进行估计得到滤波统计量估计值,所述滤波统计量估计值包括对近端语音谱密度的估计值,和/或,对自适应滤波模块所采用步长的估计值;
所述滤波处理模块用以利用所述参考信号样本和所述滤波统计量估计值,对所述麦克风输入信号样本进行滤波处理,输出对近端信号的预测结果,所述滤波处理包括线性自适应滤波处理。
12.一种回声消除装置,其特征在于,所述装置包括:
信号获取单元,被配置为获取参考信号和麦克风输入信号;
回声消除单元,被配置为将所述参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型,获取所述回声消除模型预测得到的近端信号;其中所述回声消除模型包括参数估计模块和滤波处理模块;
所述参数估计模块用以利用参考信号和麦克风输入信号对滤波统计量进行估计,得到滤波统计量估计值,所述滤波统计量估计值包括对近端语音谱密度的估计值,和/或,对自适应滤波模块所采用步长的估计值;
所述滤波处理模块用以利用所述参考信号和所述滤波统计量估计值,对所述麦克风输入信号进行滤波处理,输出对近端信号的预测结果,所述滤波处理包括线性自适应滤波处理。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10中任一项所述的方法的步骤。
CN202310030085.7A 2023-01-10 2023-01-10 训练回声消除模型的方法、回声消除方法及对应装置 Active CN115762552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310030085.7A CN115762552B (zh) 2023-01-10 2023-01-10 训练回声消除模型的方法、回声消除方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310030085.7A CN115762552B (zh) 2023-01-10 2023-01-10 训练回声消除模型的方法、回声消除方法及对应装置

Publications (2)

Publication Number Publication Date
CN115762552A CN115762552A (zh) 2023-03-07
CN115762552B true CN115762552B (zh) 2023-06-27

Family

ID=85348827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310030085.7A Active CN115762552B (zh) 2023-01-10 2023-01-10 训练回声消除模型的方法、回声消除方法及对应装置

Country Status (1)

Country Link
CN (1) CN115762552B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195085A (ja) * 1999-11-05 2001-07-19 Alpine Electronics Inc 音声認識用オーディオキャンセル装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778183B (zh) * 2009-01-13 2013-06-05 华为终端有限公司 一种残留回声抑制方法及设备
CN104427144B (zh) * 2013-09-11 2017-06-13 联芯科技有限公司 一种线性回声消除方法及其装置
CN109841206B (zh) * 2018-08-31 2022-08-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
US10891936B2 (en) * 2019-06-05 2021-01-12 Harman International Industries, Incorporated Voice echo suppression in engine order cancellation systems
CN111048061B (zh) * 2019-12-27 2022-12-27 西安讯飞超脑信息科技有限公司 回声消除滤波器的步长获取方法、装置及设备
CN111161752B (zh) * 2019-12-31 2022-10-14 歌尔股份有限公司 回声消除方法和装置
CN111885275B (zh) * 2020-07-23 2021-11-26 海尔优家智能科技(北京)有限公司 语音信号的回声消除方法、装置、存储介质以及电子装置
CN111951819B (zh) * 2020-08-20 2024-04-09 北京字节跳动网络技术有限公司 回声消除方法、装置及存储介质
CN113763977A (zh) * 2021-04-16 2021-12-07 腾讯科技(深圳)有限公司 消除回声信号的方法、装置、计算设备和存储介质
CN113823304A (zh) * 2021-07-12 2021-12-21 腾讯科技(深圳)有限公司 语音信号的处理方法、装置、电子设备及可读存储介质
CN113362844B (zh) * 2021-07-26 2022-05-10 西南交通大学 一种低复杂度分离去相关自适应声学回声消除方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195085A (ja) * 1999-11-05 2001-07-19 Alpine Electronics Inc 音声認識用オーディオキャンセル装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡坚 ; 樊可清 ; 易利 ; .基于归一化互相关法的声学回声消除及仿真.微计算机信息.2010,(第10期),全文. *

Also Published As

Publication number Publication date
CN115762552A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
CN109841206B (zh) 一种基于深度学习的回声消除方法
CN111161752B (zh) 回声消除方法和装置
CN111755019A (zh) 用深度多任务递归神经网络来声学回声消除的系统和方法
CN108429994B (zh) 音频识别、回声消除方法、装置及设备
MXPA05008740A (es) Metodo y aparato para el mejoramiento de lenguaje multi-sensorial.
CN105379239B (zh) 回波去除的方法、设备及计算机可读存储介质
CN112863535B (zh) 一种残余回声及噪声消除方法及装置
CN111564160A (zh) 一种基于aewgan的语音降噪的方法
CN111031448B (zh) 回声消除方法、装置、电子设备和存储介质
CN112634923B (zh) 基于指挥调度系统的音频回声消除方法、设备、存储介质
CN111885275A (zh) 语音信号的回声消除方法、装置、存储介质以及电子装置
CN112687288B (zh) 回声消除方法、装置、电子设备和可读存储介质
CN108010536B (zh) 回声消除方法、装置、系统及存储介质
CN111261179A (zh) 回声消除方法及装置和智能设备
CN112634933B (zh) 一种回声消除方法、装置、电子设备和可读存储介质
CN114792524B (zh) 音频数据处理方法、装置、程序产品、计算机设备和介质
CN111048061A (zh) 回声消除滤波器的步长获取方法、装置及设备
Huemmer et al. Estimating parameters of nonlinear systems using the elitist particle filter based on evolutionary strategies
CN103493384A (zh) 回声消除装置、回声消除方法及通话装置
CN113055787B (zh) 回声消除方法、装置、电子设备和存储介质
CN115762552B (zh) 训练回声消除模型的方法、回声消除方法及对应装置
CN110021289B (zh) 一种声音信号处理方法、装置及存储介质
CN111353258A (zh) 基于编码解码神经网络的回声抑制方法及音频装置及设备
CN113763978B (zh) 语音信号处理方法、装置、电子设备以及存储介质
CN115620737A (zh) 语音信号处理装置、方法、电子设备和扩音系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant