CN117219107A

CN117219107A - 一种回声消除模型的训练方法、装置、设备及存储介质

Info

Publication number: CN117219107A
Application number: CN202311480839.5A
Authority: CN
Inventors: 杨清山; 高毅; 陈静聪; 罗程; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2023-12-12
Anticipated expiration: 2043-11-08
Also published as: CN117219107B

Abstract

本申请提供了一种回声消除模型的训练方法、装置及计算机可读存储介质；方法包括：获取语音样本，其中，语音样本包括远端语音信号、回音消除语音信号和传感器信号；通过远端语音信号、回音消除语音信号和传感器信号调用回声消除模型，得到预测频谱；确定目标频谱和预测频谱对应第一均方误差损失函数的第一均方误差损失值，并确定对应第二均方误差损失函数的第二均方误差损失值；确定第一均方误差损失值和第二均方误差损失值的组合损失值；根据组合损失值更新回声消除模型的参数，基于更新的参数生成训练后的回声消除模型。通过本申请，能够使回声消除模型在训练过程中快速收敛并提升回声消除模型的泛化能力。

Description

一种回声消除模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种回声消除模型的训练方法、装置、设备及存储介质。

背景技术

声学回声消除（Acoustic Echo Cancellation，AEC）是一种在语音通信中的常见问题，在单人和多人语音通话中，远端通话人的声音传到近端后，在近端的声音设备中播放，播放出来的声音再经近端麦克风设备采集后传到远端，形成回声，导致远端用户听到自己说的话。利用神经网络模型处理麦克风采集到的声音，可以消除掉远端通话人的回声，并保留近端通话人的声音，这样远端用户只听到对方的声音，而听不到自己的声音。

然而，现有技术构建的深度学习模型在训练阶段仍然存在消除回声的精度不足的情况。

发明内容

本申请实施例提供一种回声消除模型的训练方法、装置及计算机可读存储介质，能够提升回声消除模型的消除回声的精度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种回声消除模型的训练方法，所述方法包括：

获取语音样本，其中，所述语音样本包括远端语音信号、回音消除语音信号和传感器信号；

通过所述远端语音信号、所述回音消除语音信号和所述传感器信号调用回声消除模型，得到预测频谱，其中，所述预测频谱是所述传感器信号包括的近端语音信号的频谱预测结果；

确定目标频谱和所述预测频谱对应第一均方误差损失函数的第一均方误差损失值，并确定对应第二均方误差损失函数的第二均方误差损失值，其中，所述第二均方误差损失函数是在所述第一均方误差损失函数中进行用于实现频谱的尺度不变的数学变换得到的，所述目标频谱是所述近端语音信号的真实频谱；

确定所述第一均方误差损失值和所述第二均方误差损失值的组合损失值；

根据所述组合损失值更新所述回声消除模型的参数，基于更新的所述参数生成训练后的所述回声消除模型。

本申请实施例提供一种回声消除模型的音频信号处理方法，所述方法包括：

获取待处理语音信号；

通过所述回声消除模型生成对应所述待处理语音信号的预测频谱；

通过所述待处理语音信号的预测频谱获取回声消除后的语音信号。

本申请实施例提供一种回声消除模型的训练装置，包括：

数据采集模块，用于获取语音样本，其中，所述语音样本包括远端语音信号、回音消除语音信号和传感器信号；

数据处理模块，用于通过所述远端语音信号、所述回音消除语音信号和所述传感器信号调用回声消除模型，得到预测频谱，其中，所述预测频谱是所述传感器信号包括的近端语音信号的频谱预测结果；

损失构建模块，用于确定目标频谱和所述预测频谱对应第一均方误差损失函数的第一均方误差损失值，并确定对应第二均方误差损失函数的第二均方误差损失值，其中，所述第二均方误差损失函数是在所述第一均方误差损失函数中进行用于实现频谱的尺度不变的数学变换得到的，所述目标频谱是所述近端语音信号的真实频谱；

所述损失构建模块，还用于确定所述第一均方误差损失值和所述第二均方误差损失值的组合损失值；

模型训练模块，用于根据所述组合损失值更新所述回声消除模型的参数，基于更新的所述参数生成训练后的所述回声消除模型。

本申请实施例提供一种回声消除模型的音频信号处理装置，包括：

数据获取模块，用于获取待处理语音信号；

生成模块，用于通过所述回声消除模型生成对应所述待处理语音信号的预测频谱；

所述生成模块，还用于通过所述待处理语音信号的预测频谱获取回声消除后的语音信号。

本申请实施例提供一种电子设备，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的回声消除模型的训练方法或回声消除模型的音频信号处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机程序或计算机可执行指令，用于被处理器执行时实现本申请实施例提供的回声消除模型的训练方法或回声消除模型的音频信号处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的回声消除模型的训练方法或回声消除模型的音频信号处理方法。

本申请实施例具有以下有益效果：

通过在回声消除模型的训练阶段引入第一均方误差损失函数，实现促使回声消除模型侧重减小目标频谱和预测频谱的绝对值的差异的效果，通过在第一均方误差损失函数中进行用于实现频谱的尺度不变的数学变换得到第二均方误差损失函数，实现促使回声消除模型输出的预测频谱的形状能够适应不同尺度的语音样本，通过上述两个损失函数的组合来监督回声消除模型的输出音频的频谱变化，使回声消除模型既关注语音信号频谱的形状，也关注频谱绝对值的大小，从而实现提升回声消除模型的消除回声的精度的有益效果。

附图说明

图1是本申请实施例提供的回声消除系统架构的结构示意图；

图2A是本申请实施例提供的服务器100-1的结构示意图；

图2B是本申请实施例提供的服务器100-2的结构示意图；

图3是本申请实施例提供回声消除模型的训练的原理示意图；

图4A是本申请实施例提供的回声消除模型的训练方法的第一流程示意图；

图4B是本申请实施例提供的回声消除模型的训练方法的第二流程示意图；

图4C是本申请实施例提供的回声消除模型的训练方法的第三流程示意图；

图4D是本申请实施例提供的回声消除模型的训练方法的第四流程示意图；

图4E是本申请实施例提供的回声消除模型的训练方法的第五流程示意图；

图4F是本申请实施例提供的回声消除模型的训练方法的第六流程示意图；

图4G是本申请实施例提供的回声消除模型的训练方法的第七流程示意图；

图4H是本申请实施例提供的回声消除模型的训练方法的第八流程示意图；

图4I是本申请实施例提供的回声消除模型的训练方法的第九流程示意图；

图4J是本申请实施例提供的语音样本数据构造原理的示意图；

图4K是本申请实施例提供的回声消除模型的模型结构示意图；

图4L是本申请实施例提供的组合损失值计算原理的示意图；

图5是本申请实施例提供的回声消除模型的音频信号处理方法的流程示意图；

图6A是本申请实施例提供的音频信号回声消除处理的流程示意图；

图6B是本申请实施例提供的回声消除处理效果的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）声学回声消除（Acoustic Echo Cancellation，AEC），是一种信号处理技术，用于从音频信号中移除由音频输出设备引起的回声。当一个音频信号通过扬声器播放出来并在麦克风中被捕捉到时，会产生回声。回声消除的目标是通过分析和建模回声信号，将其从麦克风中的输入信号中减去，以便更好地进行通信或音频处理。

2）近端语音信号，指近端说话人的语音信号，为清晰的语音信号。

3）远端语音信号，指被远端麦克风采集的信号（远端说话人语音），也等于近端扬声器播放的语音，也称为参考语音。

4）传感器信号，指远端说话人的声音（远端语音信号）被远端麦克风采集并传入通信设备，经过无线或有线传输之后达到近端的通信设备，并通过近端扬声器播放，播放的远端声音信号又会被近端传感器例如麦克风采集到变成回音信号，同时，传感器采集到的信号还包括环境噪音以及近端语音。

5）回音消除语音信号，指传感器信号与估计回声信号的差值，估计回声信号指的是远端信号经过线性滤波器（例如卡尔曼滤波器）得到的信号。

相关技术中，基于深度学习的回声消除方法通过神经网络模型处理麦克风采集到的声音，可以消除掉远端说话人的回声，并保留近端说话人的声音，这样远端用户只听到对方的声音，而听不到自己的声音。然而，构建深度学习模型后，在模型训练阶段很容易出现模型训练不收敛、漏回声和误消近端语音的情况，导致神经网络模型消除回声的精度受到影响。

为了解决上述问题，本申请实施例提供一种回声消除模型的训练方法、装置、设备及计算机可读存储介质及计算机程序产品，能够提升回声消除模型的回声消除的精度。

本申请实施例提供的设备可以实施为笔记本电脑、平板电脑，台式计算机、机顶盒、移动设备（例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备）、智能手机、智能音箱、智能手表、智能电视、车载终端等各种类型的用户终端，也可以实施为服务器。以本申请实施例应用于电话通话和视频会议场景（例如会议室视频会议或车载场景下的视频会议）为例，参见图1，图1是本申请实施例提供的回声消除系统架构的结构示意图，示例的，图1中涉及服务器100、终端200-1、终端200-2及网络300。终端200-1和终端200-2通过网络300连接服务器100，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，本申请实施例提供的回声消除系统可以由服务器和终端协同实现。例如，终端200-1向终端200-2发送远端语音信号，终端200-2接收远端信号并进行播放，传感器（例如麦克风）采集环境中的音频信号，其中，传感器信号包括终端200-2的近端语音信号（目标频谱）、远端语音信号播放形成的回声信号和环境中的噪音信号等，响应于终端200-1传感器信号的传输操作，向服务器100发送回声消除请求，服务器100接收回声消除请求，通过本申请实施例提供的回声消除模型的训练方法或回声消除模型的音频信号处理方法获取目标频谱对应的预测频谱，将预测频谱从频域转换到时域的数字信号，基于数字信号获取回声消除之后的传感器信号对应的语音信号，将语音信号传输给终端200-1，终端200-1接收回声消除处理后的语音信号并进行播放，这里，对于终端200-1和终端200-2的电话通话和视频会议场景仅作为示例，本申请实施例不限制回声消除系统中终端的个数（例如大型会议和多人语音通话）。

在另一些实施例中，终端200-1向终端200-2发送远端语音信号，终端200-2接收远端信号并进行播放，传感器（例如麦克风）采集环境中的传感器信号，其中，传感器信号包括终端200-2的近端语音信号（目标频谱）、远端语音信号播放形成的回声信号和环境中的噪音信号等，响应于终端200-1传感器信号的传输操作，向服务器100发送回声消除请求，服务器100接收回声消除请求，将通过本申请实施例提供的回声消除模型的训练方法得到的回声消除模型发送给终端200-2，终端200-2将回声消除模型保存到本地，通过本申请实施例提供的回声消除模型的音频信号处理方法对传感器信号进行处理，获取对应目标频谱的预测频谱，将预测频谱从频域转换到时域的数字信号，基于数字信号获取回声消除之后的传感器信号对应的语音信号，将语音信号通过网络300传输给终端200-1。

这里，服务器100可以是单个服务器，对于这种情况，本申请实施例提供的回声消除模型的训练方法和回声消除模型的音频信号处理方法可以由同一个服务器实现。服务器100也可以是服务器的集群，对于服务器100是服务器集群的情况，本申请实施例提供的回声消除模型的训练方法和回声消除模型的音频信号处理方法可以由不同的服务器实现，本申请实施例不进行限定。

在一些实施例中，终端或服务器可以通过运行各种计算机可执行指令或计算机程序来实现本申请实施例提供的回声消除模型的训练方法和回声消除模型的音频处理方法。举例来说，计算机可执行指令可以是微程序级的命令、机器指令或软件指令。计算机程序可以是操作系统中的原生程序或软件模块；可以是本地（Native）应用程序（APP，Application），即需要在操作系统中安装才能运行的程序，如游戏类的应用程序、直播应用程序或者即时通信应用程序；也可以是嵌入至任意APP中的小程序，即只需要下载到浏览器环境中就可以运行的程序。总而言之，上述的计算机可执行指令可以是任意形式的指令，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是交互处理服务，供终端进行调用。

在一些实施例中，多个服务器可组成为一区块链，而服务器100为区块链上的节点，区块链中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。其中，本申请实施例提供的回声消除模型的训练方法和回声消除模型的音频信号处理方法所相关的数据可保存于区块链上。

本申请实施例可以借助人工智能（Artificial Intelligence，AI）技术实现，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

以上述的服务器100用于进行回声消除模型的训练为例，参见图2A，图2A是本申请实施例提供的服务器100-1的结构示意图，图2A所示的服务器100-1包括：至少一个处理器110-1、存储器130-1和至少一个网络接口120-1。服务器100-1中的各个组件通过总线系统140-1耦合在一起。可理解，总线系统140-1用于实现这些组件之间的连接通信。总线系统140-1除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线系统140-1。

处理器110-1可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（Digital Signal Processor，DSP），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器130-1可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固、态存储器，硬盘驱动器，光盘驱动器等。存储器130-1可选地包括在物理位置上远离处理器110-1的一个或多个存储设备。

存储器130-1包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（Random Access Memory，RAM）。本申请实施例描述的存储器130-1旨在包括任意适合类型的存储器。

在一些实施例中，存储器130-1能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统131-1，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块132-1，用于经由一个或多个（有线或无线）网络接口120-1到达其他电子设备，示例性的网络接口120-1包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（Universal Serial Bus，USB）等；

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2A示出了存储在存储器130-1中的回声消除模型的训练装置133，其可以是程序和插件等形式的软件，包括以下软件模块：数据采集模块1331，数据处理模块1332，损失构建模块1333和模型训练模块1334，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

以上述的服务器100用于进行音频信号的处理为例，参见图2B，图2B是本申请实施例提供的服务器100-2的结构示意图，图2B所示的服务器100-2包括：至少一个处理器110-2、存储器130-2和至少一个网络接口120-2。服务器100中的各个组件通过总线系统140-2耦合在一起。可理解，总线系统140-2用于实现这些组件之间的连接通信。总线系统140-2除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2B中将各种总线都标为总线系统140-2。对于处理器110-2和存储器130-2的具体说明参见上文，这里不再赘述。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2B示出了存储在存储器130-2中的回声消除模型的音频信号处理装置134，其可以是程序和插件等形式的软件，包括以下软件模块：数据获取模块1341和生成模块1342，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的回声消除模型的训练方法或回声消除模型的音频信号处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ApplicationSpecific Integrated Circuit，ASIC）、数字信号处理器（Digital Signal Processor，DSP）、可编程逻辑器件（Programmable Logic Device，PLD）、复杂可编程逻辑器件（ComplexProgrammable Logic Device，CPLD）、现场可编程门阵列（Field-Programmable GateArray，FPGA）或其他电子元件。

参见图3，图3是本申请实施例提供回声消除模型的训练的原理示意图，首先，对输入的远端信号（对应图3中的信号x）、传感器信号（对应图3中的信号d）和回音消除语音信号（对应图中的信号e，回音消除语音信号是回声估计信号与传感器信号的差值，回声估计信号是通过将远端语音信号进行线性滤波处理得到的）进行短时傅里叶变换（Short TimeFourier Transformation，STFT），获取远端信号、传感器信号和回音消除语音信号对应的频谱，将这些频谱输入深度神经网络，其中，深度神经网络由阶段1至阶段5共5个阶段组成，经过神经网络的前向运算，输出对目标频谱（传感器信号中的近端语音信号的频谱，近端语音信号即传感器信号中排除回声信号以及噪音信号的纯净语音信号）的预测频谱，将目标频谱和预测频谱输入到组合损失函数中，计算组合损失值，根据组合损失值和反向传播更新回声消除模型的参数。

下面将结合本申请实施例提供的服务器的示例性应用和实施，以服务器为执行主体，说明本申请实施例提供的回声消除模型的训练方法。参见图4A，是本申请实施例提供的回声消除模型的训练方法的第一流程示意图，将结合图4A示出的步骤进行说明。

在步骤101中，获取语音样本，其中，语音样本包括远端语音信号、回音消除语音信号和传感器信号。

在一些实施例中，参见图4J，图4J是本申请实施例提供的语音样本数据构造原理的示意图，其中，语音样本包括远端语音信号（对应信号x）、回音消除语音信号（对应信号e）和传感器信号（对应信号d），为简明表述，以两人语音通话为例，将两个通话对象分别表述为A和B，A为近端对象，B为远端对象。A在近端对着传感器（例如麦克风）说的话为近端语音信号c，从远端传输来的B的语音信号x，语音信号x经扬声器播放出来，经过一定延时后与信号c融合，并被传感器采集。传感器采集到声音信号d，信号x经过线性滤波器（例如卡尔曼滤波器）以后，输出估计的回声信号y，信号d与信号y的差值为线性回声消除后的声音信号e。在真实场景中，与传感器采集到的信号d对应的信号c无法被直接获取，因此，构造训练数据时，首先收集近端语音信号c，然后按一定的延时和信噪比与信号x融合，以构造信号d。

在步骤102中，通过远端语音信号、回音消除语音信号和传感器信号调用回声消除模型，得到预测频谱，其中，预测频谱是传感器信号包括的近端语音信号的频谱预测结果。

在一些实施例中，参见图4B，图4A示出的步骤102可以通过以下步骤1021至步骤1025实现，下面具体说明。

在步骤1021中，获取远端语音信号、回音消除语音信号和传感器信号分别对应的复数频谱图特征，将复数频谱图特征拼接为第一阶段输出特征。

在一些实施例中，参见图4C，图4B示出的步骤1021可以通过以下步骤10211至步骤10213实现，下面具体说明。

在步骤10211中，获取远端语音信号、回音消除语音信号和传感器信号分别对应的实部和虚部。

在一些实施例中，将远端语音信号、回音消除语音信号和传感器信号分别进行短时傅里叶变换，获取远端语音信号、回音消除语音信号和传感器信号分别对应的实部和虚部，其中，短时傅里叶变换包括分帧（将语音信号分成多个固定长度的帧，通常每帧长度为20-30ms，相邻帧之间有一定的重叠）、加窗（对每一帧进行加窗处理，以减小边缘效应，常用的窗函数有汉明窗、海宁窗等）和堆叠（将加窗后的每一帧按照一定的步长进行堆叠，得到一个二维矩阵，对这个二维矩阵进行傅里叶变换，得到信号对应的频谱）操作，本申请实施例中远端语音信号、回音消除语音信号和传感器信号的频谱均以pytorch中的张量形式存储，张量的形状为[ch，f，t]，对应的ch（通道数，用于存储多个不同类型的特征或者多个不同方向的卷积核的输出，这里指频谱的实部和虚部）、f（频率维度数）、t（帧维度数）的值分别为2、257、11。

在步骤10212中，对远端语音信号、回音消除语音信号和传感器信号中每个信号对应的实部和虚部分别进行卷积处理，将卷积处理后的实部和虚部拼接，得到每个信号的复数频谱图特征。

在一些实施例中，对远端语音信号、回音消除语音信号和传感器信号中每个信号对应的实部和虚部分别通过二维卷积进行卷积处理，将卷积处理后的实部和虚部拼接，得到每个信号的复数频谱图特征。

作为示例，对远端语音信号对应的实部和虚部分别通过二维卷积进行卷积处理，将卷积处理后的实部和虚部拼接，得到远端语音信号的复数频谱图特征。对于回音消除语音信号和传感器信号的处理是类似的。

作为示例，每个信号的复数频谱图特征的张量形式可以为[4,257,11]，其中，[:2,257,11]为实部信息，[2:,257,11]为虚部信息，[:2]表示张量[4,257,11]中复数频谱对应的特征维度“4”中的前两个维度（包含实部信息），同理，[2:]表示后两个维度（包含虚部信息）。

在步骤10213中，将远端语音信号、回音消除语音信号和传感器信号中每个信号的复数频谱图特征拼接，得到第一阶段输出特征。

在一些实施例中，把远端语音信号、回音消除语音信号和传感器信号的复数频谱图特征的实部和虚部分别拼接，通过二维卷积对拼接后的特征进行卷积处理，并按照实部和虚部分为两个向量，最后使用求实部虚部平方根的方式对上述两个张量进行处理，得到第一阶段输出特征。

承接上文的示例，每个信号的复数频谱图特征的张量形式可以为[4,257,11]，把远端语音信号、回音消除语音信号和传感器信号的复数频谱图特征拼接，得到形状为[12,257,11]的张量，其中，[:6,257,11]为实部信息，[6:,257,11]为虚部信息，之后，通过二维卷积对拼接后的张量进行卷积处理输出相同形状[12,257,11]的张量，将该张量按实部和虚部分为形状为[6,257,11]的两个张量，最后使用求实部虚部平方根的方式对上述两个张量进行处理，得到张量形状为[6,257,11]的输出（对应第一阶段输出特征）。

继续参见图4B，在步骤1022中，对第一阶段输出特征进行下采样特征编码，得到第二阶段输出特征。

在一些实施例中，参见图4D，图4B示出的步骤1022可以通过以下步骤10221至步骤 10223实现，参见图4K，图4K是本申请实施例提供的回声消除模型的模型结构示意图，步骤 10221至步骤10223（对应图4K中的阶段2）可以进行多次迭代处理（例如图4K中的，代表框选部分的模型结构重复堆叠三次），即第1次迭代时，输入是第一阶段输出特征，第2次迭代时，输入是上一次迭代得到的注意力子编码特征，下面具体说明。

在步骤10221中，对第一阶段输出特征进行降采样子编码处理，得到第二阶段降采样特征。

在一些实施例中，对第一阶段输出特征进行至少一次降采样子编码处理，降采样子编码处理指的是通过设置二维卷积的卷积核尺寸和卷积操作的滑动步数，降低频率维度数，这里，频率维度数为傅里叶变换得到的频点数（傅里叶变换得到的频点数指的是信号在频域中的分量个数，也就是信号中包含的不同频率的数量）。

在步骤10222中，对第二阶段降采样特征进行卷积子编码处理，得到第二阶段卷积特征。

在一些实施例中，对第二阶段降采样特征进行至少一次卷积子编码处理，得到第二阶段卷积特征，参见图4K，卷积子编码处理指的是通过二维卷积、归一化操作（例如BatchNorm）和激活函数（例如PReLU）对第一阶段输出特征进行处理，图4K中的常数填充用于控制卷积核尺寸，从而控制特征的提取范围，卷积子编码处理的目的是进一步学习特征在当前尺寸下，特征点之间的关系，其中，对于第一阶段输出特征的时间维度采用空洞卷积（Dilated Convolution）进行卷积处理操作，用于增大感受野，使得回声消除模型能够捕捉更广阔的上下文信息。

在步骤10223中，对第二阶段卷积特征进行注意力子编码处理，得到第二阶段输出特征。

在一些实施例中，参见图4E，图4D示出的步骤10223可以通过以下步骤102231至步骤102235实现，下面具体说明。

在步骤102231中，获取第二阶段卷积特征在频率维度上的频率权重矩阵。

在一些实施例中，利用二维卷积学习频率维度上的重要性分数矩阵，频率维度上的重要性分数矩阵（F-attention）可以表示为：

（1）

其中，、和分别表示键（Key）、查询（Query）以及F-attention在时间（帧）上的得分矩阵，和分别表示时间维度数（帧数）和频率维度数，表示注意力通道数。

在步骤102232中，获取第二阶段卷积特征在时间维度上的时间权重矩阵。

在一些实施例中，利用二维卷积学习时间维度上的重要性分数矩阵，时间维度上的重要性分数矩阵（T-attention）可以表示为：

（2）

其中，、和分别表示键（Key）、查询（Query）以及T-attention在频率上的得分矩阵，用来调整模型需要捕获多长时间段内的时序依赖性。

在步骤102233中，通过频率权重矩阵获取频率特征。

在一些实施例中，将频率维度上的重要性分数矩阵以向量、矩阵相乘的方式作用到频率维度上，以实现调整频率维度中特征点的重要程度，将相乘的结果作为频率特征。

在步骤102234中，通过时间权重矩阵获取时间特征。

在一些实施例中，将时间维度上的重要性分数矩阵以向量、矩阵相乘的方式作用到时间维度上，以实现调整时间维度中特征点的重要程度，将相乘的结果作为时间特征。

在步骤102235中，将频率特征和时间特征组合为第二阶段输出特征。

作为示例，第二阶段输出特征可以表示为张量形状为[192,4,11]的输出，其中，“192”对应复数频谱特征的维度数，“4”对应频率特征的频率维度数，“11”对应时间特征的时间维度数。

继续参见图4B，在步骤1023中，对第二阶段输出特征进行卷积编码，得到第三阶段输出特征。

在一些实施例中，参见图4K，对第二阶段输出特征进行两次级联的卷积编码，得到第三阶段输出特征（对应图4K中阶段3），阶段3中的卷积编码是通过步骤10222中的卷积子编码处理和步骤10223中的注意力子编码处理堆叠实现的，作为示例，第三阶段输出特征可以表示为张量形状为[192,4,11]的输出，阶段3为中间阶段，经过连续的下采样（对应阶段2）后，特征在频率维度的维度数变小，为提升模型的表示能力，在阶段3进行两次卷积编码学习特征点之间的相互关系，同时，阶段2中的第二阶段卷积特征可以作为残差，以作为阶段3卷积编码的输入之一，这里，阶段2与阶段3之间的残差连接仅作为示例，本申请实施例不限制将阶段2的中间处理过程中输出的特征以残差的形式输入到阶段3以作为阶段3最初处理过程的输入，或者将阶段2中间处理过程中输出的特征以残差的形式输入到阶段3以作为阶段3的中间处理过程的输入，便于回声消除模型学习残差信息，从而进一步提升回声消除模型的表征能力。

在步骤1024中，对第二阶段输出特征和第三阶段输出特征进行上采样特征编码，得到第四阶段输出特征。

在一些实施例中，参见图4F，图4B示出的步骤1024，可以通过以下步骤10241至步骤10244实现，参见图4K，图4K是本申请实施例提供的回声消除模型的模型结构示意图， 10241至步骤10244（对应图4K中阶段4）可以进行迭代处理（例如图4K中的，代表框选部分的模型结构重复堆叠三次），下面具体说明。

在步骤10241中，将第二阶段输出特征和第三阶段输出特征叠加，得到第四阶段输入特征。

在一些实施例中，将第二阶段输出特征和第三阶段输出特征的对应维度（复数频谱特征、频率特征和时间特征）叠加，得到第四阶段输入特征。

在一些实施例中，将第二阶段输出特征作为残差和第三阶段输出特征进行叠加融合，得到第四阶段输入特征。

承接上文的示例，第二阶段输出特征和第三阶段输出特征都可以表示为张量形状为[192,4,11]的输出，其中，“192”对应复数频谱特征的维度数，“4”对应频率特征的频率维度数，“11”对应时间特征的时间维度数，将第二阶段输出特征和第三阶段输出特征的对应维度（复数频谱特征、频率特征和时间特征）叠加（例如残差融合操作），得到第四阶段输入特征的张量形状可以表示为[192,4,11]，由于第二阶段输出特征和第三阶段输出特征在每个维度相应位置对应的元素进行了相加或叠加运算，所以叠加融合后的特征张量仍然保持与原始特征相同的形状。

在步骤10242中，对第四阶段输入特征进行上采样子编码处理，得到第四阶段上采样特征。

在一些实施例中，对第四阶段输入特征通过设置二维转置卷积的卷积核尺寸和卷积操作的滑动步数，增加频率维度的维度数，承接上述示例，使得特征的频率维度数从第三阶段输出特征中的“4”恢复到上文第一阶段输出特征中的“257”，从而得到第四阶段上采样特征。

在步骤10243中，对第四阶段上采样特征进行卷积子编码处理，得到第四阶段卷积特征。

承接上述示例，参照步骤10222的说明，阶段2中的第二阶段卷积特征（对应上文步骤10222）可以作为残差输入阶段4，用于阶段4的卷积子编码处理的输入之一，本申请实施例不限制将阶段2的中间处理过程中输出的特征以残差的形式输入到阶段4以作为阶段4最初处理过程的输入，或者将阶段2中间处理过程中输出的特征以残差的形式输入到阶段4以作为阶段4的中间处理过程的输入，便于回声消除模型学习残差信息，从而进一步提升回声消除模型的表征能力。

在步骤10244中，对第四阶段卷积特征进行注意力子编码处理，得到第四阶段输出特征。

这里，参照步骤10223的说明，作为示例，第四阶段输出特征可以表示为张量形状为[4,257,11]的输出。

继续参见图4B，在步骤1025中，通过传感器信号和第四阶段输出特征对目标频谱进行估算处理，得到预测频谱。

在一些实施例中，参见图4G，图4B示出的步骤1025，可以通过以下步骤10251至步骤10255实现，下面具体说明。

在步骤10251中，获取传感器信号的相位信息和幅度信息。

在一些实施例中，参照步骤10211获取传感器信号的实部和虚部，用传感器信号的实部、虚部的平方根作为幅度信息的表示，用传感器信号的实部、虚部的反正切值作为相位信息的表示。

在步骤10252中，通过第四阶段输出特征获取相位掩码和幅度掩码。

在一些实施例中，将第四阶段输出特征的通过两个卷积操作分别对复数频谱特征中的实部和虚部进行变换，使得变换后的特征张量与步骤10251中传感器信号的频谱的实部和虚部的大小相同，接下来，将变换后的特征的实部、虚部的反正切值作为相位掩码，将实部、虚部特征的平方根作为幅度掩码。

在步骤10253中，将相位掩码应用到相位信息，得到对目标频谱的相位估计。

在一些实施例中，将相位掩码应用到相位信息，将相位信息中非感兴趣区域的相位置为零，得到对目标频谱的相位估计。

在步骤10254中，将幅度掩码应用到幅度信息，得到对目标频谱的幅度估计。

在一些实施例中，将幅度掩码应用到幅度信息，将幅度信息中非感兴趣区域的幅度置为零，得到对目标频谱的幅度估计。

在步骤10255中，通过幅度估计和相位估计确定预测频谱。

在一些实施例中，幅度估计和相位估计表示为实部和虚部组成的复数（例如通过极坐标表示为：复数=幅度估计（相位估计/>），其中，j是复数单位，/>是指数函数，幅度估计表示复数的大小或模，相位估计表示复数的角度），将所有频率分量的复数形式进行叠加，得到预测频谱。

继续参见图4A，在步骤103中，确定目标频谱和预测频谱对应第一均方误差损失函数的第一均方误差损失值，并确定对应第二均方误差损失函数的第二均方误差损失值，其中，第二均方误差损失函数是在第一均方误差损失函数中进行用于实现频谱的尺度不变的数学变换得到的，目标频谱是近端语音信号的真实频谱。

在一些实施例中，参见图4H，图4A示出的步骤103，可以通过以下步骤1031至步骤1039实现，其中，步骤1031用于将多个语音样本划分为多个批次，步骤1032至步骤1033用于确定第一均方误差损失函数在当前批次的第一均方误差损失值，步骤1034至步骤1039用于确定第二均方误差损失函数在当前批次的第二均方误差损失值，下面具体说明。

在步骤1031中，将多个语音样本划分为多个批次。

针对每个批次，执行下述的步骤1032至步骤1039。

在步骤1032中，获取批次中每个语音样本的目标频谱与预测频谱的差值，将差值平方作为第一差异值。

在一些实施例中，每个语音样本的第一差异值可以表示为：第一差异值=，其中，表示目标频谱，表示预测频谱。

在步骤1033中，将批次中每个语音样本的第一差异值的平均值，作为批次的第一均方误差损失值。

在一些实施例中，当前批次的第一均方误差损失值可以表示为：第一均方误差损失值=，其中，表示当前批次中语音样本的总数，表示遍历到的语音样本。

在步骤1034中，对每个批次包括的每个语音样本，通过第二均方误差损失函数转入执行以下步骤1035至步骤1039的处理。

在步骤1035中，将语音样本的目标频谱和预测频谱按照预设参数进行频谱增强。

在一些实施例中，对目标频谱和预测频谱取a次幂（a对应预设参数，例如将a取值为0.3）。

通过步骤1035，实现了增强频谱中较小的值，使得回声消除模型对于低能量区域（例如频谱中频率较低并且具有低幅度的区域）更加敏感的有益效果。

在步骤1036中，对频谱增强后的目标频谱和预测频谱进行第一标准化处理。

在一些实施例中，目标频谱减去目标频谱均值并除以目标频谱的标准差得到第一标准化处理后的目标频谱，对预测频谱的第一标准化处理同理。

在步骤1037中，确定第一标准化处理后的目标频谱与预测频谱的对数差异值。

在一些实施例中，对数差异值可以表示为：对数差异值=，其中，表示目标频谱，表示预测频谱。

在步骤1038中，确定每个语音样本对应的对数差异值的平均值，以作为全局对数差异值。

在一些实施例中，当前批次的全局对数差异值可以表示为：，其中，表示当前批次中语音样本的总数，表示遍历到的语音样本。

在步骤1039中，确定每个语音样本对应的对数差异值与全局对数差异值的平均值，以作为批次的第二均方误差损失值。

在一些实施例中，当前批次的第二均方误差损失值可以表示为：第二均方误差损失值=，其中，表示当前批次中语音样本的总数，表示遍历到的语音样本。

通过步骤1036至步骤1039，对目标频谱和预测频谱进行频谱第一标准化处理，保留语音样本数据的数据分布形状减少异常值对整体数据分布的影响，将目标频谱与预测频谱的对数差异值和全局对数差异值进行结合，实现了在语音样本中包含的回声信号在不同尺度下（具有不同的延迟和强度），适应不同尺度的语音样本，从而提升回声消除模型的鲁棒性和泛化能力的有益效果。

继续参见图4A，在步骤104中，确定第一均方误差损失值和第二均方误差损失值的组合损失值。

在一些实施例中，参见图4L，图4L是本申请实施例提供的组合损失值计算原理的示意图，通过对第一均方误差损失值和第二均方误差损失值的加权，以及异常值判断操作（对应下文步骤1042至步骤1043）确定最终的组合损失值。参见图4I，图4A示出的步骤104可以通过以下步骤1041至步骤1044实现，下面具体说明。

在步骤1041中，按照预设权重对第一均方误差损失值和第二均方误差损失值进行加权，得到融合损失值。

在一些实施例中，通过预设权重对第一均方误差损失值（例如设置权重为0.995）和第二均方误差损失值（例如设置权重为0.005）进行加权求和操作，确定融合损失值。

通过步骤1041，实现了结合第一均方误差损失和第二均方误差损失，使回声消除模型既关注频谱的形状，也关注频谱的绝对值大小，从而达到提升回声消除模型的消除回声的精度的有益效果。

在步骤1042中，响应于融合损失值低于损失异常阈值，将融合损失值作为组合损失值。

在一些实施例中，当融合损失值低于损失异常阈值时直接将此训练批次的融合损失值作为组合损失值。

在步骤1043中，响应于融合损失值高于损失异常阈值，按照预设幅度减小预设参数，并基于减小后的预设参数对目标频谱和预测频谱进行第二标准化处理，得到新的第二均方误差损失值。

在一些实施例中，当融合损失值高于损失异常阈值时，按照预设幅度减小预设参数（例如将预设参数a从0.3减小到0.1），基于减小后的预设参数对目标频谱和预测频谱进行如步骤1035中的频谱增强，接下来，将目标频谱减去目标频谱均值得到差值，并将差值除以目标频谱和预测频谱的标准差之和，得到第二标准化处理后的目标频谱，对预测频谱的第二标准化处理同理，之后进行如步骤1037至步骤1039的求取第二均方误差损失值操作，计算得到新的第二均方误差损失值。

在步骤1044中，将新的第二均方误差损失值按照预设权重与第一均方误差损失值进行加权处理，得到组合损失值。

这里，步骤1044的实现可以参照步骤1041的说明。

通过步骤1042至步骤1044，引入异常值阈值进行异常值判断操作，避免了回声消除模型在训练过程中由于受到异常值的影响而出现梯度爆炸和模型参数出现非法值等问题，实现了使回声消除模型快速收敛和提升模型泛化能力的有益效果。

继续参见图4A，在步骤105中，根据组合损失值更新回声消除模型的参数，基于更新的参数生成训练后的回声消除模型。

在一些实施例中，可以通过反向传播和优化算法（例如Adam）计算回声消除模型的梯度，根据梯度方向更新回声消除模型的参数使得组合损失值最小化，通过反复迭代更新参数得到训练后的回声消除模型。

下面说明上文所述的回声消除模型的一个具体的音频信号处理的示例。

参见图5，图5是本申请实施例提供的回声消除模型的音频信号处理方法的流程示意图，将结合图5示出的步骤进行说明。

在步骤201中，获取待处理语音信号。

在一些实施例中，将获取到的待处理语音信号进行预处理操作，例如去除静音段、降噪等。这些预处理操作旨在提高待处理信号质量并减少噪声的影响。

在步骤202中，通过回声消除模型生成对应待处理语音信号的预测频谱。

在一些实施例中，参见图4K，图4K是本申请实施例提供的回声消除模型的模型结构示意图，通过回声消除模型生成对应待处理语音信号的预测频谱分为五个阶段，下面分阶段进行说明。

在第一阶段（阶段1），获取待处理信号对应的复数频谱图特征，将复数频谱图特征作为第一阶段输出特征，获取第一阶段输出特征可以通过以下方式实现：

获取待处理信号对应的实部和虚部。将待处理信号进行短时傅里叶变换，获取待处理信号对应的实部和虚部，其中，短时傅里叶变换包括分帧（将语音信号分成多个固定长度的帧，通常每帧长度为20-30ms，相邻帧之间有一定的重叠）、加窗（对每一帧进行加窗处理，以减小边缘效应，常用的窗函数有汉明窗、海宁窗等）和堆叠（将加窗后的每一帧按照一定的步长进行堆叠，得到一个二维矩阵，对这个二维矩阵进行傅里叶变换，得到信号对应的频谱）操作，本申请实施例中待处理信号的频谱均以pytorch中的张量形式存储，张量的形状为[ch，f，t]，对应的ch（通道数，用于存储多个不同类型的特征或者多个不同方向的卷积核的输出，这里指频谱的实部和虚部）、f（频率维度数）、t（帧维度数）的值分别为2、257、11。

对待处理信号的实部和虚部分别通过二维卷积进行卷积处理，将卷积处理后的实部和虚部拼接，得到待处理信号的复数频谱图特征即第一阶段输出特征，作为示例，对待处理信号对应的实部和虚部分别通过二维卷积进行卷积处理，将卷积处理后的实部和虚部拼接，得到待处理信号的复数频谱图特征，待处理信号的复数频谱图特征的张量形式可以表示为[4,257,11]，其中，[:2,257,11]为实部信息，[2:,257,11]为虚部信息，[:2]表示张量[4,257,11]中复数频谱对应的特征维度“4”中的前两个维度（包含实部信息），同理，[2:]表示后两个维度（包含虚部信息）。

在第二阶段（阶段2），对第一阶段输出特征进行下采样特征编码，得到第二阶段输出特征，获取第二阶段输出特征可以通过以下方式实现：

对第一阶段输出特征进行降采样子编码处理，得到第二阶段降采样特征。对第一阶段输出特征进行至少一次降采样子编码处理和降采样子编码处理，通过设置二维卷积的卷积核尺寸和卷积操作的滑动步数，降低频率维度数，这里，频率维度数为傅里叶变换得到的频点数（傅里叶变换得到的频点数指的是信号在频域中的分量个数，也就是信号中包含的不同频率的数量）。

对第二阶段降采样特征进行至少一次卷积子编码处理，得到第二阶段卷积特征，参见图4K，卷积子编码处理指的是通过二维卷积、归一化操作（例如BatchNorm）和激活函数（例如PReLU）对第一阶段输出特征进行处理，图4K中的常数填充用于控制卷积核尺寸，从而控制特征的提取范围，卷积子编码处理的目的是进一步学习特征在当前尺寸下，特征点之间的关系，其中，对于第一阶段输出特征的时间维度采用空洞卷积（Dilated Convolution）进行卷积处理操作，用于增大感受野，使得回声消除模型能够捕捉更广阔的上下文信息。

对第二阶段卷积特征进行注意力子编码处理，得到第二阶段输出特征。获取第二阶段卷积特征在频率维度上的频率权重矩阵。通过二维卷积学习频率维度上的重要性分数矩阵，频率维度上的重要性分数矩阵（F-attention）可以表示为：

（3）

获取第二阶段卷积特征在时间维度上的时间权重矩阵。通过二维卷积学习时间维度上的重要性分数矩阵，时间维度上的重要性分数矩阵（T-attention）可以表示为：

（4）

将频率维度上的重要性分数矩阵以向量、矩阵相乘的方式作用到频率维度上，以实现调整频率维度中特征点的重要程度，将相乘的结果作为频率特征；将时间维度上的重要性分数矩阵以向量、矩阵相乘的方式作用到时间维度上，以实现调整时间维度中特征点的重要程度，将相乘的结果作为时间特征。

将频率特征和时间特征组合为第二阶段输出特征，作为示例，第二阶段输出特征可以表示为张量形状为[192,4,11]的输出，其中，“192”对应复数频谱特征的维度数，“4”对应频率特征的频率维度数，“11”对应时间特征的时间维度数。

在第三阶段（阶段3），对第二阶段输出特征进行卷积编码，得到第三阶段输出特征，获取第三阶段输出特征可以通过以下方式实现：

对第二阶段输出特征进行两次级联的卷积编码，得到第三阶段输出特征（对应图4K中阶段3），阶段3中的卷积编码是通过上述的卷积子编码处理和注意力子编码处理堆叠实现的，作为示例，第三阶段输出特征可以表示为张量形状为[192,4,11]的输出，阶段3为中间阶段，经过连续的下采样（对应阶段2）后，特征在频率维度的维度数变小，为提升模型的表示能力，在阶段3进行两次卷积编码学习特征点之间的相互关系，同时，阶段2中的第二阶段卷积特征可以作为残差，以作为阶段3卷积编码的输入之一，这里，阶段2与阶段3之间的残差连接仅作为示例，本申请实施例不限制将阶段2的中间处理过程中输出的特征以残差的形式输入到阶段3以作为阶段3最初处理过程的输入，或者将阶段2中间处理过程中输出的特征以残差的形式输入到阶段3以作为阶段3的中间处理过程的输入。

在第四阶段（阶段4），对第二阶段输出特征和第三阶段输出特征进行上采样特征编码，得到第四阶段输出特征，获取第四阶段输出特征可以通过以下方式实现：

将第二阶段输出特征和第三阶段输出特征叠加，得到第四阶段输入特征。即将第二阶段输出特征和第三阶段输出特征的对应维度（复数频谱特征、频率特征和时间特征）叠加，得到第四阶段输入特征。承接上文的示例，第二阶段输出特征可以表示为张量形状为[192,4,11]的输出，其中，“192”对应复数频谱特征的维度数，“4”对应频率特征的频率维度数，“11”对应时间特征的时间维度数，第三阶段输出特征可以表示为张量形状为[192,4,11]的输出，将第二阶段输出特征和第三阶段输出特征的对应维度（复数频谱特征、频率特征和时间特征）叠加（例如残差融合操作），得到第四阶段输入特征的张量形状可以表示为[192,4,11]，由于第二阶段输出特征和第三阶段输出特征在每个维度位置上对应的元素进行了相加或叠加运算，所以叠加融合后的特征张量仍然保持与原始特征相同的形状。

对第四阶段输入特征进行上采样子编码处理，得到第四阶段上采样特征。对第四阶段输入特征通过设置二维转置卷积的卷积核尺寸和卷积操作的滑动步数，增加频率维度的维度数，承接上述示例，使得特征的频率维度数从第三阶段输出特征中的“4”恢复到上文第一阶段输出特征中的“257”，从而得到第四阶段上采样特征。

对第四阶段上采样特征进行卷积子编码处理，得到第四阶段卷积特征。承接上述示例，阶段2中的第二阶段卷积特征可以作为残差输入阶段4，用于阶段4的卷积子编码处理的输入之一，本申请实施例不限制将阶段2的中间处理过程中输出的特征以残差的形式输入到阶段4以作为阶段4最初处理过程的输入，或者将阶段2中间处理过程中输出的特征以残差的形式输入到阶段4以作为阶段4的中间处理过程的输入，便于回声消除模型学习残差信息，从而进一步提升回声消除模型的表征能力。

对第四阶段卷积特征进行注意力子编码处理，得到第四阶段输出特征，这里，参照上文对第二阶段卷积特征进行注意力子编码处理的相关说明。

最后，在第五阶段（阶段5），通过待处理信号和第四阶段输出特征对目标频谱进行估算处理，得到待处理信号对应的预测频谱，估算处理可以通过以下方式实现：

获取待处理信号的相位信息和幅度信息。获取待处理信号的实部和虚部，用待处理信号的实部、虚部的平方根作为幅度信息的表示，用待处理信号的实部、虚部的反正切值作为相位信息的表示。

通过第四阶段输出特征获取相位掩码和幅度掩码。将第四阶段输出特征的通过两个卷积操作分别对复数频谱特征中的实部和虚部进行变换，使得变换后的特征张量与待处理信号的频谱的实部和虚部的大小相同，接下来，将变换后的特征的实部、虚部的反正切值作为相位掩码，将实部、虚部特征的平方根作为幅度掩码。将相位掩码应用到相位信息，得到对目标频谱的相位估计。将相位掩码应用到相位信息，将相位信息中非感兴趣区域的相位置为零，得到对目标频谱的相位估计；将幅度掩码应用到幅度信息，得到对目标频谱的幅度估计。将幅度掩码应用到幅度信息，将幅度信息中非感兴趣区域的幅度置为零，得到对目标频谱的幅度估计。

通过幅度估计和相位估计确定预测频谱。幅度估计和相位估计表示为实部和虚部组成的复数（例如通过极坐标表示为：复数=幅度估计（相位估计/>），其中，j是复数单位，/>是指数函数，幅度估计表示复数的大小或模，相位估计表示复数的角度），将所有频率分量的复数形式进行叠加，得到待处理语音信号的预测频谱。

在步骤203中，通过待处理语音信号的预测频谱获取回声消除后的语音信号。

在一些实施例中，将预测频谱进行傅里叶逆变换（IFFT），将频域信号转换回时域信号，从而获取回声消除后的语音信号。

本申请实施例提供的回声消除模型的训练方法或回声消除模型的音频处理处理方法可以应用于需要进行音频信号的回声消除处理的各类场景，其中一些包括：（1）电话通话和视频会议：通过回声消除可以提供更清晰的声音质量，增强通话的可理解性和舒适性；（2）语音识别和语音控制：回声消除可以提高语音识别系统的准确性，确保正确地捕捉用户的语音指令；（3）直播连麦：在大型直播时，如果有观众与主播连麦，在主播和观众端实施回声消除，使得主播和观众都能清晰地听到对方的声音，同时避免听到经对方麦克风采集到的自己声音的回声。

下面，将说明本申请实施例在即时通信客户端应用场景中的示例性应用。假设第一用户持有第一终端，第二用户持有第二终端，两个用户通过终端中安装的即时通信客户端进行语音通话，为方便描述，将第一终端中安装的即时通信客户端称为第一即时通信客户端，将第二终端中安装的即时通信客户端称为第二即时通信客户端，在通话过程中，即时通信客户端通过本申请实施例提供的回声消除模型消除回声，这里，第一用户和第二用户的语音通话仅作为示例，本申请实施例不限制即时通信客户端的同一通话场景中进行通话的用户人数。

参见图6A，图6A是本申请实施例提供的音频信号回声消除处理的流程示意图，下面具体说明。

在步骤301中，第一即时通信客户端调用第一终端的传感器采集传感器信号。

在一些实施例中，响应于第一用户接收第二用户的语音信号并进行播放，第一终端中的第一即时通信客户端调用第一终端的传感器（例如麦克风）采集环境中的语音信号，其中，传感器信号包括第一用户的近端语音信号（回声消除处理需要预测的目标信号）、第二用户的语音信号形成的回声信号和环境中的噪音信号等。

在步骤302中，第一即时通信客户端调用回声消除模型对第一用户的传感器信号进行处理，得到去除回声的第一用户的回声消除信号。

在一些实施例中，在第一即时通信客户端调用本申请实施例提供的回声消除模型的训练方法训练得到的回声消除模型之前，还可以通过线性滤波器（例如卡尔曼滤波器、自适应滤波方法等）消除线性回声，之后通过回声消除模型消除非线性回声和其它杂音，从而增强语音通话体验，通过回声消除模型获取去除回声的回声消除信号参见上文步骤201至步骤203。

在步骤303中，第一即时通信客户端将回声消除信号发送给第二终端中的第二即时通信客户端。

在一些实施例中，第一即时通信客户端通过服务器或直接点对点连接的方式与第二即时通信客户端建立连接，在建立连接后客户端之间进行身份验证，身份验证成功后第一即时通信客户端将回声消除信号打包成数据包，通过网络将数据包发送给第二终端中的第二即时通信客户端。

在步骤304中，第二即时通信客户端接收第一用户的回声消除信号，并输出为声音。

在一些实施例中，第二用户接收第一用户的回声消除信号，第二用户听到的声音是经过回声消除处理的清晰语音，参见图6B，图6B是本申请实施例提供的回声消除处理效果的示意图，其中，图6B中示出了带回声的语音信号（a）（对应步骤302中的传感器信号）和消除回声后的语音信号（b）（对应步骤303中的回声消除信号），从图6B可以看出，通过本申请实施例提供的回声消除模型的训练方法或回声消除模型的音频信号的处理方法，可以达到抑制语音通话中的回声以及其他杂声，从而提升通话质量的有益效果。

在步骤305中，第二即时通信客户端调用第二终端的传感器采集第二用户的传感器信号，调用回声消除模型对第二用户的传感器信号进行处理，得到去除回声的第二用户的回声消除信号，将回声消除信号发送给第一终端中的第一即时通信客户端，第一即时通信客户端接收第二用户的回声消除信号，并输出为声音。

在一些实施例中，这里的处理方法参照上文步骤301至步骤304的说明，在接下来的语音通话过程不断进行上述的回声消除处理流程，直至第一用户和第二用户的语音通话结束。

下面继续说明本申请实施例提供的回声消除模型的训练装置133的实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器130-1的回声消除模型的训练装置133可以包括：

数据采集模块1331，用于获取语音样本，其中，所述语音样本包括远端语音信号、回音消除语音信号和传感器信号。

数据处理模块1332，用于通过所述远端语音信号、所述回音消除语音信号和所述传感器信号调用回声消除模型，得到预测频谱，其中，所述预测频谱是所述传感器信号包括的近端语音信号的频谱预测结果。

损失构建模块1333，用于确定目标频谱和所述预测频谱对应第一均方误差损失函数的第一均方误差损失值，并确定对应第二均方误差损失函数的第二均方误差损失值，其中，所述第二均方误差损失函数是在所述第一均方误差损失函数中进行用于实现频谱的尺度不变的数学变换得到的，所述目标频谱是所述近端语音信号的真实频谱。

模型训练模块1334，用于根据所述组合损失值更新所述回声消除模型的参数，基于更新的所述参数生成训练后的所述回声消除模型。

在一些实施例中，所述数据处理模块1332，还用于获取所述远端语音信号、所述回音消除语音信号和所述传感器信号分别对应的复数频谱图特征，将所述复数频谱图特征拼接为第一阶段输出特征；对所述第一阶段输出特征进行下采样特征编码，得到第二阶段输出特征；对所述第二阶段输出特征进行卷积编码，得到第三阶段输出特征；对所述第二阶段输出特征和所述第三阶段输出特征进行上采样特征编码，得到第四阶段输出特征；通过所述传感器信号和所述第四阶段输出特征对所述目标频谱进行估算处理，得到预测频谱。

在一些实施例中，所述数据处理模块1332，还用于获取所述远端语音信号、所述回音消除语音信号和所述传感器信号分别对应的实部和虚部；对所述远端语音信号、所述回音消除语音信号和所述传感器信号中每个信号对应的所述实部和所述虚部分别进行卷积处理，将所述卷积处理后的实部和虚部拼接，得到每个所述信号的所述复数频谱图特征；将所述远端语音信号、所述回音消除语音信号和所述传感器信号中每个信号的所述复数频谱图特征拼接，得到第一阶段输出特征。

在一些实施例中，所述数据处理模块1332，还用于对所述第一阶段输出特征进行降采样子编码处理，得到第二阶段降采样特征；对所述第二阶段降采样特征进行卷积子编码处理，得到第二阶段卷积特征；对所述第二阶段卷积特征进行注意力子编码处理，得到第二阶段输出特征。

在一些实施例中，所述数据处理模块1332，还用于获取所述第二阶段卷积特征在频率维度上的频率权重矩阵；获取所述第二阶段卷积特征在时间维度上的时间权重矩阵；通过所述频率权重矩阵获取频率特征；通过所述时间权重矩阵获取时间特征；将所述频率特征和所述时间特征组合为第二阶段输出特征。

在一些实施例中，所述数据处理模块1332，还用于将所述第二阶段输出特征和所述第三阶段输出特征叠加，得到第四阶段输入特征；对所述第四阶段输入特征进行上采样子编码处理，得到第四阶段上采样特征；对所述第四阶段上采样特征进行所述卷积子编码处理，得到第四阶段卷积特征；对所述第四阶段卷积特征进行所述注意力子编码处理，得到第四阶段输出特征。

在一些实施例中，所述数据处理模块1332，还用于获取所述传感器信号的相位信息和幅度信息；通过所述第四阶段输出特征获取相位掩码和幅度掩码；将所述相位掩码应用到所述相位信息，得到对所述目标频谱的相位估计；将所述幅度掩码应用到所述幅度信息，得到对所述目标频谱的幅度估计；通过所述幅度估计和所述相位估计确定所述预测频谱。

在一些实施例中，所述损失构建模块1333，还用于确定所述第一均方误差损失值和所述第二均方误差损失值的组合损失值。

在一些实施例中，所述损失构建模块1333，还用于将多个所述语音样本划分为多个批次，通过所述第一均方误差损失函数对每个所述批次执行以下处理：获取所述批次中每个所述语音样本的所述目标频谱与所述预测频谱的差值，将所述差值平方作为第一差异值；将所述批次中每个所述语音样本的所述第一差异值的平均值，作为所述批次的第一均方误差损失值；对每个所述批次包括的每个所述语音样本，通过所述第二均方误差损失函数执行以下处理：将所述语音样本的所述目标频谱和所述预测频谱按照预设参数进行频谱增强；对所述频谱增强后的所述目标频谱和所述预测频谱进行第一标准化处理；确定所述第一标准化处理后的所述目标频谱与所述预测频谱的对数差异值；确定每个所述语音样本对应的所述对数差异值的平均值，以作为全局对数差异值；确定每个所述语音样本对应的所述对数差异值与所述全局对数差异值的平均值，以作为所述批次的第二均方误差损失值。

在一些实施例中，所述损失构建模块1333，还用于按照预设权重对所述第一均方误差损失值和所述第二均方误差损失值进行加权，得到融合损失值；响应于所述融合损失值低于损失异常阈值，将所述融合损失值作为组合损失值；响应于所述融合损失值高于所述损失异常阈值，按照预设幅度减小所述预设参数，并基于减小后的所述预设参数对所述目标频谱和所述预测频谱进行第二标准化处理，得到新的第二均方误差损失值；将所述新的第二均方误差损失值按照所述预设权重与所述第一均方误差损失值进行加权处理，得到组合损失值。

下面继续说明本申请实施例提供的回声消除模型的音频信号处理装置134的实施为软件模块的示例性结构，在一些实施例中，如图2B所示，存储在存储器130-2的回声消除模型的音频信号处理装置134可以包括：数据获取模块1341，用于获取待处理语音信号；生成模块1342，用于通过所述回声消除模型生成对应所述待处理语音信号的预测频谱；所述生成模块1342，还用于通过所述待处理语音信号的预测频谱获取回声消除后的语音信号。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的回声消除模型的训练方法或回声消除模型的音频信号处理方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的回声消除模型的训练方法或回声消除模型的音频信号处理方法，例如，如图4A示出的回声消除模型的训练方法或如图5示出的回声消除模型的音频信号处理方法。

在一些实施例中，计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（Hyper TextMarkup Language，HTML）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例，在回声消除模型中采用了包含降采样子编码、卷积子编码和注意力子编码的处理方式，并对第二阶段输出特征进行两次卷积编码得到第三阶段输出特征，从而学习特征点之间的相互关系达到以提升模型的表示能力的有益效果，通过结合第一均方误差损失和第二均方误差损失，使回声消除模型既关注频谱的形状，也关注绝对值的大小，同时，引入异常值判断操作，避免回声消除模型在训练过程中受到异常值的影响，达到使回声消除模型在训练过程中快速收敛的有益效果。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种回声消除模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述确定所述目标频谱和所述预测频谱对应第一均方误差损失函数的第一均方误差损失值，包括：

将多个所述语音样本划分为多个批次，通过所述第一均方误差损失函数对每个所述批次执行以下处理：

获取所述批次中每个所述语音样本的所述目标频谱与所述预测频谱的差值，将所述差值平方作为第一差异值；

将所述批次中每个所述语音样本的所述第一差异值的平均值，作为所述批次的第一均方误差损失值；

所述确定对应第二均方误差损失函数的第二均方误差损失值，包括：

对每个所述批次包括的每个所述语音样本，通过所述第二均方误差损失函数执行以下处理：

将所述语音样本的所述目标频谱和所述预测频谱按照预设参数进行频谱增强；

对所述频谱增强后的所述目标频谱和所述预测频谱进行第一标准化处理；

确定所述第一标准化处理后的所述目标频谱与所述预测频谱的对数差异值；

确定每个所述语音样本对应的所述对数差异值的平均值，以作为全局对数差异值；

确定每个所述语音样本对应的所述对数差异值与所述全局对数差异值的平均值，以作为所述批次的第二均方误差损失值。

3.根据权利要求2所述的方法，其特征在于，所述确定所述第一均方误差损失值和所述第二均方误差损失值的组合损失值，包括：

按照预设权重对所述第一均方误差损失值和所述第二均方误差损失值进行加权，得到融合损失值；

响应于所述融合损失值低于损失异常阈值，将所述融合损失值作为组合损失值；

响应于所述融合损失值高于所述损失异常阈值，按照预设幅度减小所述预设参数，并基于减小后的所述预设参数对所述目标频谱和所述预测频谱进行第二标准化处理，得到新的第二均方误差损失值；

将所述新的第二均方误差损失值按照所述预设权重与所述第一均方误差损失值进行加权处理，得到组合损失值。

4.根据权利要求1所述的方法，其特征在于，所述通过所述远端语音信号、所述回音消除语音信号和所述传感器信号调用回声消除模型，得到预测频谱，包括：

获取所述远端语音信号、所述回音消除语音信号和所述传感器信号分别对应的复数频谱图特征，将所述复数频谱图特征拼接为第一阶段输出特征；

对所述第一阶段输出特征进行下采样特征编码，得到第二阶段输出特征；

对所述第二阶段输出特征进行卷积编码，得到第三阶段输出特征；

对所述第二阶段输出特征和所述第三阶段输出特征进行上采样特征编码，得到第四阶段输出特征；

通过所述传感器信号和所述第四阶段输出特征对所述目标频谱进行估算处理，得到预测频谱。

5.根据权利要求4所述的方法，其特征在于，

所述回音消除语音信号是回声估计信号与所述传感器信号的差值，所述回声估计信号是通过所述远端语音信号进行滤波处理得到的；

所述获取所述远端语音信号、所述回音消除语音信号和所述传感器信号分别对应的复数频谱图特征，包括：

获取所述远端语音信号、所述回音消除语音信号和所述传感器信号分别对应的实部和虚部；

对所述远端语音信号、所述回音消除语音信号和所述传感器信号中每个信号对应的所述实部和所述虚部分别进行卷积处理，将所述卷积处理后的实部和虚部拼接，得到每个所述信号的所述复数频谱图特征；

所述将所述复数频谱图特征拼接，得到第一阶段输出特征，包括：

将所述远端语音信号、所述回音消除语音信号和所述传感器信号中每个信号的所述复数频谱图特征拼接，得到第一阶段输出特征。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一阶段输出特征进行下采样特征编码，得到第二阶段输出特征，包括：

对所述第一阶段输出特征进行降采样子编码处理，得到第二阶段降采样特征；

对所述第二阶段降采样特征进行卷积子编码处理，得到第二阶段卷积特征；

对所述第二阶段卷积特征进行注意力子编码处理，得到第二阶段输出特征。

7.根据权利要求6所述的方法，其特征在于，所述对所述第二阶段卷积特征进行注意力子编码处理，得到第二阶段输出特征，包括：

获取所述第二阶段卷积特征在频率维度上的频率权重矩阵；

获取所述第二阶段卷积特征在时间维度上的时间权重矩阵；

通过所述频率权重矩阵获取频率特征；

通过所述时间权重矩阵获取时间特征；

将所述频率特征和所述时间特征组合为第二阶段输出特征。

8.根据权利要求4所述的方法，其特征在于，所述对所述第二阶段输出特征和所述第三阶段输出特征进行上采样特征编码，得到第四阶段输出特征，包括：

将所述第二阶段输出特征和所述第三阶段输出特征叠加，得到第四阶段输入特征；

对所述第四阶段输入特征进行上采样子编码处理，得到第四阶段上采样特征；

对所述第四阶段上采样特征进行所述卷积子编码处理，得到第四阶段卷积特征；

对所述第四阶段卷积特征进行注意力子编码处理，得到第四阶段输出特征。

9.根据权利要求4所述的方法，其特征在于，所述通过所述传感器信号和所述第四阶段输出特征对所述目标频谱进行估算处理，得到预测频谱，包括：

获取所述传感器信号的相位信息和幅度信息；

通过所述第四阶段输出特征获取相位掩码和幅度掩码；

将所述相位掩码应用到所述相位信息，得到对所述目标频谱的相位估计；

将所述幅度掩码应用到所述幅度信息，得到对所述目标频谱的幅度估计；

通过所述幅度估计和所述相位估计确定所述预测频谱。

10.一种回声消除模型的音频信号处理方法，其特征在于，所述回声消除模型是通过权利要求1至9任一项所述的方法训练得到的，所述方法包括：

获取待处理语音信号；

11.一种回声消除模型的训练装置，其特征在于，所述装置包括：

12.一种回声消除模型的音频信号处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取待处理语音信号；

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现权利要求1至9任一项所述的回声消除模型的训练方法，或实现权利要求10所述的回声消除模型的音频信号处理方法。

14.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至9任一项所述的回声消除模型的训练方法，或实现权利要求10所述的回声消除模型的音频信号处理方法。

15.一种计算机程序产品，包括计算机可执行指令或计算机程序，其特征在于，所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至9任一项所述的回声消除模型的训练方法，或实现权利要求10所述的回声消除模型的音频信号处理方法。