CN117789743A

CN117789743A - 回声抑制方法、回声抑制模型训练方法及相关设备

Info

Publication number: CN117789743A
Application number: CN202311575483.3A
Authority: CN
Inventors: 马峰; 李明子; 高建清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-03-29

Abstract

本申请公开了一种回声抑制方法、回声抑制模型训练方法及相关设备，本申请基于麦克风接收到的第一语音信号来估计目标语音信号的幅度谱，在此基础上，本申请进一步基于短时傅里叶STFT变换的冗余性，对目标信号的相位进行不断优化，也即将估计出的目标语音信号的幅度谱作为初始幅度谱，对该初始幅度谱进行多轮短时傅里叶STFT正反变换，通过多轮STFT正反变换，可以迭代得到相位更加干净的时域语音信号，从而提升了回声抑制后的语音信号的质量。

Description

回声抑制方法、回声抑制模型训练方法及相关设备

技术领域

本申请涉及语音信号处理技术领域，更具体的说，是涉及一种回声抑制方法、回声抑制模型训练方法及相关设备。

背景技术

在扬声器与麦克风耦合的系统中，由扬声器到麦克风之间的回声如果不及时消除，会对系统产生较大的影响。例如，在通信领域，如果近端说话人和远端说话人的声音同时传向远端，经过网络传输产生时延，则远端说话人会听到自己的回声，造成沟通困难。在智能硬件领域，例如对智能电视、音响等能够播放声音的智能交互系统进行语音控制，若播放的声音和说话人一同传入识别系统，造成识别系统的错误识别。

在一些场景下，回声信号可能同时包含线性部分和非线性部分。现有回声消除技术一般通过更新自适应线性滤波器，将其与扬声器播放的参考信号卷积，得到估计的线性回声，并从麦克风接收到的信号中减去，得到输出信号。输出信号中还包含残留回声(主要包括非线性回声，以及部分线性回声)。进一步通过神经网络模型来估计非线性部分的回声，将非线性部分回声从上述输出信号中减去，从而抑制残留回声。

现有方案使用神经网络估计非线性回声的过程，一般是估计目标信号与去除线性回声后的输出信号在频域的幅度谱的比值(可以称之为实数掩码mask)，进而基于估计出的比值从输出信号中还原出目标信号，达到抑制残留回声的目的。但是，现有神经网络估计实数掩码的过程仅考虑了幅度的影响，在一些恶略场景下(示例如信回比较低的信号)，麦克风接收的信号的相位也包含了噪声，仅估计幅度谱的mask而不考虑相位包含的噪声，导致还原后的语音信号仍包含带噪相位，听感会收到极大的影响，甚至会出现“机械声”等抑制问题，严重降低了语音信号的质量。

发明内容

鉴于上述问题，提出了本申请以便提供一种回声抑制方法、回声抑制模型训练方法及相关设备，以在回声抑制过程中同时对语音信号的幅度和相位进行优化，提升回声抑制后的语音信号的质量。具体方案如下：

第一方面，提供了一种回声抑制方法，包括：

获取麦克风接收到的第一语音信号，所述第一语音信号包括回声信号及目标语音信号；

基于所述第一语音信号，预测所述目标语音信号的幅度谱；

将所述目标语音信号的幅度谱作为初始幅度谱，对所述初始幅度谱进行多轮短时傅里叶STFT正反变换，并将最后一轮STFT反变换后得到的干净相位的时域语音信号作为最终输出的语音信号。

优选地，基于所述第一语音信号，预测所述目标语音信号的幅度谱的过程，包括：

获取对所述第一语音信号进行线性回声消除后的第二语音信号；

基于所述第一语音信号和所述第二语音信号，预测实数掩码mask，所述mask表示所述目标语音信号和所述第二语音信号在频域的幅度谱的比值；

将所述mask乘以所述第二语音信号在频域的幅度谱，得到所述目标语音信号的幅度谱。

优选地，基于所述第一语音信号和所述第二语音信号，预测实数掩码mask的过程，包括：

将所述第一语音信号和所述第二语音信号输入预训练的回声抑制模型，得到所述实数掩码mask，其中，所述回声抑制模型被配置为参考输入的所述第一语音信号和所述第二语音信号预测所述实数掩码mask的内部状态表示。

优选地，所述回声抑制模型的训练过程，包括：

获取训练样本及样本标签，所述训练样本包括：包含回声信号和目标语音信号的第一语音训练信号，以及对所述第一语音训练信号进行线性回声消除后的第二语音信号，所述样本标签包括：所述目标语音信号和所述第二语音训练信号在频域的幅度谱的比值；

将所述训练样本送入所述回声抑制模型，得到模型预测的实数掩码mask；

基于所述预测的实数掩码mask和所述样本标签计算损失函数的值，并按照所述损失函数的值更新回声抑制模型的参数。

优选地，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

以所述预测的实数掩码mask作为目标预测值，按照设定类型的损失函数计算所述目标预测值和所述样本标签之间的损失值。

基于所述预测的实数掩码mask计算所述目标语音信号的幅度谱，并作为初始幅度谱，对所述初始幅度谱进行多轮STFT正反变换，基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K；

按照设定类型的损失函数计算所述更新后的实数掩码mask^K和所述样本标签之间的损失值。

优选地，所述基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K的过程，包括：

将所述第二语音训练信号在频域的幅度谱减去所述目标语音信号的幅度谱和所述噪声信号的幅度谱，结果作为残留回声信号的幅度谱Re；

按照下述公式计算更新后的实数掩码mask^K：

其中，X_K表示最后一轮STFT反变换得到的干净相位的时域语音信号在频域的幅度谱，N表示所述噪声信号的幅度谱。

优选地，所述第一语音训练信号还包括噪声信号；

获取训练样本及样本标签的过程，包括：

将近端扬声器播放的参考信号与房间冲激响应进行卷积，得到线性部分的回声信号，获取由所述近端扬声器和所述麦克风组成的耦合系统的非线性部分的回声信号，由所述非线性部分的回声信号和所述线性部分的回声信号组成完整的回声信号；

将目标声源和所述房间冲激响应进行卷积，得到目标语音信号，将噪声声源和所述房间冲激响应进行卷积，得到噪声信号；

由所述目标语音信号、所述完整的回声信号和所述噪声信号组合得到所述第一语音训练信号；

对所述第一语音训练信号进行线性回声消除，得到所述第二语音训练信号，由所述第一语音训练信号和所述第二语音训练信号作为训练样本；

对所述目标语音信号和所述第二语音训练信号分别进行短时傅里叶STFT变换，并取频域的幅度谱，计算所述目标语音信号和所述第二语音训练信号在频域的幅度谱的比值，作为样本标签。

第二方面，提供了一种回声抑制模型的训练方法，包括：

将所述训练样本送入所述回声抑制模型，得到模型预测的实数掩码mask⁰；

基于所述预测的实数掩码mask⁰计算所述目标语音信号的幅度谱，并作为初始幅度谱，对所述初始幅度谱进行多轮STFT正反变换，基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K；

按照设定类型的损失函数计算所述更新后的实数掩码mask^K和所述样本标签之间的损失值，并按照所述损失值更新回声抑制模型的参数。

第三方面，提供了一种回声抑制方法，包括：

获取麦克风接收到的第一语音信号及对所述第一语音信号进行线性回声消除后的第二语音信号，所述第一语音信号包括回声信号及目标语音信号；

将所述第一语音信号和所述第二语音信号输入回声抑制模型，得到预测的实数掩码mask，所述实数掩码mask表示所述目标语音信号和所述第二语音信号在频域的幅度谱的比值，所述回声抑制模型为通过前述回声抑制模型的训练方法行训练得到；

将所述预测的实数掩码mask乘以所述第二语音信号在频域的幅度谱，得到所述目标语音信号的幅度谱；

对所述目标语音信号的幅度谱做短时傅里叶反变换ISTFT，得到最终输出的语音信号。

第四方面，提供了一种回声抑制装置，包括：

信号获取单元，用于获取麦克风接收到的第一语音信号，所述第一语音信号包括回声信号及目标语音信号；

幅度谱预测单元，用于基于所述第一语音信号，预测所述目标语音信号的幅度谱；

后处理单元，用于将所述目标语音信号的幅度谱作为初始幅度谱，对所述初始幅度谱进行多轮短时傅里叶STFT正反变换，并将最后一轮STFT反变换后得到的干净相位的时域语音信号作为最终输出的语音信号。

第五方面，提供了一种回声抑制模型的训练装置，包括：

训练数据获取单元，用于获取训练样本及样本标签，所述训练样本包括：包含回声信号和目标语音信号的第一语音训练信号，以及对所述第一语音训练信号进行线性回声消除后的第二语音信号，所述样本标签包括：所述目标语音信号和所述第二语音训练信号在频域的幅度谱的比值；

第一计算单元，用于将所述训练样本送入所述回声抑制模型，得到模型预测的实数掩码mask；

第二计算单元，用于基于所述预测的实数掩码mask计算所述目标语音信号的幅度谱，并作为初始幅度谱，对所述初始幅度谱进行多轮STFT正反变换，基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K；

更新单元，用于按照设定类型的损失函数计算所述更新后的实数掩码mask^K和所述样本标签之间的损失值，并按照所述损失值更新回声抑制模型的参数。

第六方面，提供了一种回声抑制装置，包括：

信号获取单元，用于获取麦克风接收到的第一语音信号及对所述第一语音信号进行线性回声消除后的第二语音信号，所述第一语音信号包括回声信号及目标语音信号；

模型计算单元，用于将所述第一语音信号和所述第二语音信号输入回声抑制模型，得到预测的实数掩码mask，所述实数掩码mask表示所述目标语音信号和所述第二语音信号在频域的幅度谱的比值，所述回声抑制模型为通过前述回声抑制模型的训练装置进行训练得到；

幅度谱计算单元，用于将所述预测的实数掩码mask乘以所述第二语音信号在频域的幅度谱，得到所述目标语音信号的幅度谱；

短时傅里叶反变换单元，用于对所述目标语音信号的幅度谱做短时傅里叶反变换ISTFT，得到最终输出的语音信号。

第七方面，提供了一种回声抑制设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如前所述的回声抑制方法的各个步骤。

第八方面，提供了一种回声抑制模型的训练设备，包括存储器和处理器；

所述处理器，用于执行所述程序，实现如前所述的回声抑制模型的训练方法的各个步骤。

第九方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的回声抑制方法的各个步骤。

第十方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的回声抑制模型的训练方法的各个步骤。

借由上述技术方案，本申请基于麦克风接收到的第一语音信号来估计目标语音信号的幅度谱，在此基础上，本申请进一步基于短时傅里叶STFT变换的冗余性，对目标信号的相位进行不断优化，也即将估计出的目标语音信号的幅度谱作为初始幅度谱，对该初始幅度谱进行多轮短时傅里叶STFT正反变换，通过多轮STFT正反变换，可以迭代得到相位更加干净的时域语音信号，从而提升了回声抑制后的语音信号的质量。

需要说明的是，上述对初始幅度谱进行多轮STFT正反变换的过程，可以是作为后处理操作，也即对预测出的目标语音信号的幅度谱进行后处理，得到最终输出的语音信号。除此之外，还可以是直接对回声抑制模型训练阶段的损失函数值进行修改，也即在回声抑制模型训练阶段，在模型预测出的实数掩码后计算目标语音信号的幅度谱，作为初始幅度谱，经过上述多轮STFT正反变换得到干净相位的时域语音信号，并基于此计算更新后的实数掩码，按照更新后的实数掩码和样本标签来计算损失值，使得训练后的回声抑制模型可以更加准确的预测实数掩码，进而基于预测的实数掩码还原出质量更高的目标语音信号。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示例了一种幅度谱和相位谱的对比示意图；

图2示例了一种STFT正反变换的前后两轮迭代过程信号变化示意图；

图3示例了一种回声抑制方法的流程示意图；

图4示例了一种STFT正反变换的流程示意图；

图5示例了一种回声抑制模型的输入输出示意图；

图6示例了一种回声抑制模型的网络结构示意图；

图7示例了一种回声抑制模型的训练过程示意图；

图8示例了一种回声抑制模型的训练流程示意图；

图9示例了另一种回声抑制方法的流程示意图；

图10示例了一种回声抑制装置结构示意图；

图11示例了一种回声抑制模型的训练装置结构示意图；

图12示例了另一种回声抑制装置结构示意图；

图13示例了一种回声抑制设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

鉴于前述背景技术部分提出的问题，在回声抑制任务中，尤其是在信回比(目标信号和回声信号的比值)较低时，如果仅将幅度mask作为估计目标，得到的回声抑制后的语音信号听感会受到极大的影响，甚至会出现“机械声”等抑制问题，即使回声被抑制，信号的可懂度也并没有明显的提升，也即回声抑制后的语音信号的质量不高。

为了能够提升回声抑制后的语音信号的质量，对于目标信号相位估计的需求日益增加。为此，本案申请人首先想到的解决方案是，采用神经网络模型同时估计目标信号的幅度谱和相位，进而还原出干净的目标语音信号。但是，参照图1所示(图1左侧示例的为幅度谱，右侧示例的为相位谱)，相比于幅度而言，相位信息本身的结构性不强，直接显式地估计相位的难度较大。

在此基础上，本案申请人进一步想到，在有一定幅度估计的基础上，可以利用短时傅里叶STFT(Short-Time Fourier Transform)变换的冗余性，对目标信号的相位进行不断优化，通过多轮STFT正反变换，可以迭代得到相位更加干净的时域语音信号，也即本申请不需要显式的对目标信号的相位进行估计，而是利用STFT的冗余性，迭代得到干净的时域语音信号。

为了便于理解，首先对STFT的冗余性进行介绍：

短时傅里叶变换STFT是一种常用的时频分析方法，它可以将信号分解为时间和频率两个维度。STFT的基本思想是将信号分成多个时间窗口，对每个时间窗口进行傅里叶变换，然后将这些傅里叶变换的结果叠加在一起，形成一个二维矩阵。

在STFT变换中，重叠(overlap)是一个非常重要的参数。由于STFT将信号分成多个时间窗口，并对每个时间窗口进行傅里叶变换，因此会产生重叠的信息。具体来说，重叠是指在对信号进行分帧时，后一帧信号的起始部分与前一帧信号的结束部分有重叠的部分。这样做的好处是可以避免因为分帧而导致的信号断裂和信息的丢失，可以帮助保留更多的信息，提高频率分析的准确性。

STFT变换的冗余性指的即为，不同时间窗口之间存在的重叠和冗余信息。这种冗余性可以帮助我们更好地理解信号的频率特性。

由于STFT变换后的每帧信号都存在overlap，幅度和相位存在一定的互补性，因而在得到一定精度的语音幅度谱的基础上，经过多轮STFT正反变换，可以对目标语音信号的相位及幅度进行优化，最终得到质量更高的目标语音信号。

该迭代的直观解释可以参照图2所示，在复平面上，假设干净语音信号的幅度谱值Y为1，故其在单位圆上。第i次STFT正反变换后得到的估计幅度为1，相位为当前时刻的相位，从图2中可以看出，经过一次迭代后，第i+1次迭代后估计出的信号/>与之间的距离小于/>与/>之间的距离。经过多轮STFT正反变换，该估计会收敛到干净信号的幅度和相位。

接下来，对本申请的回声抑制方案进行介绍。

本申请的回声抑制方案可以应用于多种需要进行回声抑制的场景，如通信场景、智能交互系统的语音控制场景等。

本申请的回声抑制方案包括对回声抑制模型的训练阶段，以及回声抑制模型的推理阶段，也即利用训练后的回声抑制模型对实际场景下麦克风接收到的语音信号进行回声抑制的过程。其中，训练阶段和推理阶段可以部署于相同的设备中，也可以部署于不同的设备中。例如，训练阶段可以部署于云端或者服务器中，推理阶段则可以部署于智能终端中，如手机、平板、会议终端等。

本申请利用STFT变换的冗余性对目标语音信号的相位及幅度进行优化。其中，对初步预测的目标语音信号的幅度谱进行多轮STFT正反变换的处理过程，可以通过两种形式融合到回声抑制方案中，第一种方式下，可以将上述多轮STFT正反变换的过程作为后处理操作，对预测的目标语音信号的幅度谱进行处理，得到回声抑制后的语音信号。第二种方式下，可以在回声抑制模型训练阶段，在计算损失函数值时融合多轮STFT正反变换的处理过程，也即在回声抑制模型预测得到实数掩码mask后，基于mask计算目标语音信号的幅度谱作为初步幅度谱，对初步幅度谱进行多轮STFT正反变换，得到干净相位的时域语音信号，基于该时域信号计算更新后的实数掩码mask，进而利用更新后的实数掩码mask和样本标签计算损失函数的值。

接下来，结合图3所述，介绍回声抑制方法的一种可选实现方式，具体可以包括如下步骤：

步骤S100、获取麦克风接收到的第一语音信号，所述第一语音信号包括回声信号及目标语音信号。

具体地，在麦克风和扬声器耦合的系统中，麦克风在接收目标声源发出的目标语音信号的同时，也会接收到扬声器播放的声音，作为回声信号。本步骤中，将麦克风接收到的信号定义为第一语音信号，第一语音信号包括了回声信号和目标语音信号。

进一步地，若环境中还存在噪声的话，则第一语音信号还可以进一步包括噪声信号。

步骤S110、基于所述第一语音信号，预测所述目标语音信号的幅度谱。

具体地，本实施例中可以预先训练神经网络模型，借助神经网络对非线性模型较强的建模能力，能够较好的处理包含非线性回声的第一语音信号。可以通过预训练的神经网络模型，预测第一语音信号中所包含的目标语音信号的幅度谱。

步骤S120、将所述目标语音信号的幅度谱作为初始幅度谱，对所述初始幅度谱进行多轮短时傅里叶STFT正反变换，并将最后一轮STFT反变换后得到的干净相位的时域语音信号作为最终输出的语音信号。

具体地，上述麦克风接收到的第一语音信号的相位也包含了噪声，特别是在一些恶略场景下采集的第一语音信号，其信号和回声信号的比值较低，在上述步骤S110中仅对第一语音信号估计了目标信号的幅度谱，并未考虑相位所包含的噪声，因而若直接基于该目标语音信号的幅度谱通过短时傅里叶反变换ISTFT，还原出时域的语音信号，其相位仍然包含噪声，语音信号的质量仍较低。

为此，本步骤中借助STFT变换的冗余性，在已经估计出一定精度的目标语音信号的幅度谱的基础上，将该幅度谱作为初始幅度谱，对其进行多轮短时傅里叶STFT正反变换，不断对目标语音信号的相位和幅度进行优化，直至将最后一轮STFT反变换后得到的干净相位的时域语音信号作为最终输出的语音信号(也即目标语音信号)。

其中，对估计出的目标语音信号的幅度谱进行STFT正反变换的过程可以参照图4所示：

目标语音信号的初始幅度谱记为第i次STFT正变换得到：

对进行STFT反变换：/>得到时域的语音信号xⁱ⁺¹(n)。重复对语音信号xⁱ⁺¹(n)进行下一轮的STFT正反变换，直至达到设定轮次为止，得到最后一轮的时域的语音信号。

可以理解的是，上述STFT正反变换的轮数越多，最终得到的时域的语音信号的精度越高，但是数据处理时间也越长。因此，实际情况下可以根据用户对系统时效和精度的要求，选定STFT正反变换的轮数，示例如平衡系统时效和精度的情况下，STFT正反变换的轮数取值为5-10。

本申请实施例提供的回声抑制方法，基于麦克风接收到的第一语音信号来估计目标语音信号的幅度谱，在此基础上，本申请进一步基于短时傅里叶STFT变换的冗余性，对目标信号的相位进行不断优化，也即将估计出的目标语音信号的幅度谱作为初始幅度谱，对该初始幅度谱进行多轮短时傅里叶STFT正反变换，通过多轮STFT正反变换，可以迭代得到相位更加干净的时域语音信号，从而提升了回声抑制后的语音信号的质量。

在本申请的一些实施例中，对上述步骤S110，基于第一语音信号，预测所述目标语音信号的幅度谱的过程进行说明。

考虑到实际场景下，第一语音信号中包含的回声信号一般包含两种类型，即线性部分回声信号和非线性部分回声信号。

对于线性部分回声信号，可以采用线性回声消除算法，示例如AEC(Acoustic EchoCancellation)算法或其它线性回声消除算法。

具体地，对上述第一语音信号进行线性回声消除，得到第二语音信号。第二语音信号包含目标语音信号和非线性回声信号。可以理解的是，第二语音信号中还可能包含少量残留的线性回声信号，以及可能包含环境噪声信号。

在此基础上，本实施例中可以基于第一语音信号和第二语音信号，预测实数掩码mask。该mask表示目标语音信号和第二语音信号在频域的幅度谱的比值。

为了便于表述，定义第一语音信号表示为m(t)，目标语音信号表示为x(t)，回声信号表示为echo(t)，噪声信号表示为n(t)。第二语音信号表示为aec(t)。则存在如下公式：

m(t)＝x(t)+echo(t)+n(t)

aec(t)＝x(t)+re(t)+n(t)

其中，re(t)表示经过线性回声消除后残留回声信号(包括线性和非线性两部分)。

实数掩码mask可以表示为：

其中，X表示目标语音信号的幅度谱，Re表示残留回声信号的幅度谱，N表示噪声信号的幅度谱。分母部分将各成分的能量相加，是建立在目标语音信号、残留回声信号和噪声信号是独立分布这一假设的基础上。

若要得到目标语音信号，可以将上述mask乘以第二语音信号在频域的幅度谱，即可将残留回声和噪声的能量去掉，得到目标语音信号的幅度谱。

上述步骤中，基于第一语音信号m(t)和第二语音信号aec(t)，预测实数掩码mask的过程，可以通过预训练的回声抑制模型实现。

如图5所示，将第一语音信号m(t)和第二语音信号aec(t)输入预训练的回声抑制模型，得到实数掩码mask。

回声抑制模型被配置为参考输入的第一语音信号m(t)和第二语音信号aec(t)预测实数掩码mask的内部状态表示。

回声抑制模型可以采用多种结构的神经网络模型，如图6，其示例了一种Unet结构的回声抑制模型，其中左侧为特征提取网络，右侧为特征融合网络，底部通过一个长短时记忆网络LSTM连接左右两侧。除此之外，回声抑制模型还可以采用其它类型的神经网络结构，如CNN等。

进一步，对上述回声抑制模型的训练过程进行说明，包括如下步骤：

S1、获取训练样本及样本标签。

其中，所述训练样本包括：包含回声信号和目标语音信号的第一语音训练信号，以及对所述第一语音训练信号进行线性回声消除后的第二语音信号。进一步地，为了模拟真实场景，还可以在训练样本中添加噪声信号。

样本标签包括：目标语音信号和第二语音训练信号在频域的幅度谱的比值，也即实数掩码mask。

上述训练样本中的回声信号可以通过如下方式获取：

将近端扬声器播放的参考信号与房间冲激响应进行卷积，得到线性部分的回声信号。其中，房间冲激响应可以通过仿真得到，示例如采用Image Method软件仿真得到房间冲激响应。可以制作大量不同房间尺寸和混响时间的房间冲激响应，进而得到大量不同的线性回声信号。

非线性部分回声信号可以针对扬声器和麦克风的耦合系统进行采集，或者，可以通过对近端扬声器播放的参考信号进行hardclip、softclip、sigmoid等非线性处理，产生非线性回声信号。

由上述得到的非线性部分的回声信号和线性部分的回声信号组成完整的回声信号。

上述训练样本中的目标语音信号可以通过如下方式获取：

将目标声源和房间冲激响应进行卷积，得到目标语音信号。

上述训练样本中的噪声信号可以通过如下方式获取：

将噪声声源和房间冲激响应进行卷积，得到噪声信号。

由所述目标语音信号、所述完整的回声信号和所述噪声信号组合得到第一语音训练信号。

为了提高模型的泛化能力，通过组合不同的目标语音信号、回声信号和噪声信号，可以使得第一语音训练信号覆盖更大范围的信噪比和信回比。

对得到的第一语音训练信号进行线性回声消除，得到第二语音训练信号。

进一步，对上述得到的目标语音信号和第二语音训练信号分别进行短时傅里叶STFT变换，并取频域的幅度谱，计算目标语音信号和第二语音训练信号在频域的幅度谱的比值，作为样本标签。

S2、将训练样本送入回声抑制模型，得到模型预测的实数掩码mask。

S3、基于预测的实数掩码mask和样本标签计算损失函数的值，并按照损失函数的值更新回声抑制模型的参数。

模型的损失函数可以有多种形式，示例如均方误差损失MSEloss、L1范数损失等。

一种可选的情况下，上述步骤S3的过程，可以包括：

以模型预测的实数掩码mask作为目标预测值，按照设定类型的损失函数计算目标预测值和样本标签之间的损失值。

以MSEloss为例，损失函数的值可以表示为：

Loss＝∑(mask-label)²

另一种可选的情况下，为了进一步提高回声抑制模型对目标信号的幅度谱的实数掩码mask预测的准确度，可以在计算模型损失函数的值的过程中融合多轮STFT正反变换的处理步骤，也即利用相位优化提高幅度谱估计的精度，进而提高回声抑制模型对目标信号的幅度谱的实数掩码mask的预测准确度。

具体地，结合图7所示，上述步骤S3的过程可以包括：

基于模型预测的实数掩码mask⁰(这里为了便于与下文区分表述，将模型预测的实数掩码表示为mask⁰)，计算目标语音信号的幅度谱，并作为初始幅度谱

对初始幅度谱进行多轮STFT正反变换，基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K。如图7所示，可以进行K轮STFT正反变换，则基于最后一轮STFT反变换得到的时域语音信号，可以计算更新的实数掩码mask^K。

其中，X_K表示最后一轮STFT反变换得到的干净相位的时域语音信号在频域的幅度谱，N表示噪声信号的幅度谱，Re表示残留回声信号的幅度谱，可以将第二语音训练信号aec(t)在频域的幅度谱减去目标语音信号x(t)的幅度谱和噪声信号n(t)的幅度谱得到。

可以理解的是，经过上述多轮STFT正反变换，得到的时域语音信号更加准确，基于此得到的更新后的实数掩码mask^K相比于初始的实数掩码mask⁰也更加准确。

按照设定类型的损失函数计算该更新后的实数掩码mask^K和样本标签之间的损失值。

Loss＝∑(mask^K-label)²

按照上述损失函数的值来更新回声抑制模型，可以使得回声抑制模型预测的实数掩码mask⁰越来越贴近真实的样本标签，也即进一步提升了回声抑制模型预测的实数掩码mask⁰的准确度。

本实施例提供的回声抑制模型的训练过程，在计算损失函数的值的过程中加入了多轮STFT正反变换，模型每一次迭代过程，基于预测的实数掩码mask⁰计算初始幅度谱对该初始幅度谱/>进行多轮STFT正反变换，可以进一步提升STFT正反变换对于幅度的估计精度，最终提升了回声抑制模型预测的实数掩码mask⁰的准确度。

需要说明的是，采用上述训练方法训练得到的回声抑制模型，在后续推理阶段，可以将回声抑制模型所预测得到的实数掩码mask⁰作为预测结果输出，执行后续处理过程。

参照图8，图8示例了一种回声抑制模型的训练方法流程图，具体包括如下步骤：

步骤S200、获取训练样本及样本标签。

其中，所述训练样本包括：包含回声信号和目标语音信号的第一语音训练信号，以及对所述第一语音训练信号进行线性回声消除后的第二语音信号，所述样本标签包括：所述目标语音信号和所述第二语音训练信号在频域的幅度谱的比值。

步骤S210、将训练样本送入回声抑制模型，得到模型预测的实数掩码mask⁰。

需要说明的是，此处的mask⁰是为了便于与下文更新后的实数掩码mask^K区分表示，mask⁰和mask^K本质上都是实数掩码，也即表示目标语音信号和第二语音训练信号在频域的幅度谱的比值。

步骤S220、基于预测的实数掩码mask⁰计算目标语音信号的幅度谱，并作为初始幅度谱，对初始幅度谱进行多轮STFT正反变换，基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K。

步骤S230、按照设定类型的损失函数计算更新后的实数掩码mask^K和样本标签之间的损失值，并按照损失值更新回声抑制模型的参数。

采用本申请实施例提供的回声抑制模型的训练方法，在计算模型的损失函数的值的过程中加入了多轮STFT正反变换，模型每一次迭代过程，基于预测的实数掩码mask⁰计算初始幅度谱对该初始幅度谱/>进行多轮STFT正反变换，可以进一步提升STFT正反变换对于幅度的估计精度，最终提升了回声抑制模型预测的实数掩码mask⁰的准确度。

基于上述实施例训练的回声抑制模型，本申请实施例中进一步提供了另一种回声抑制方法，结合图9所示，具体包括如下步骤：

步骤S300、获取麦克风接收到的第一语音信号及对第一语音信号进行线性回声消除后的第二语音信号。

其中，所述第一语音信号包括回声信号及目标语音信号。进一步地，若环境中还存在噪声的话，则第一语音信号还可以进一步包括噪声信号。

对第一语音信号进行线性回声消除后的第二语音信号，包括目标语音信号、残留回声信号(包括线性和非线性两部分)和噪声信号。

步骤S310、将第一语音信号和第二语音信号输入改进训练方法所得到的回声抑制模型，得到预测的实数掩码mask。

其中，所述实数掩码mask表示所述目标语音信号和所述第二语音信号在频域的幅度谱的比值，所述回声抑制模型为采用图8对应实施例的训练方法所训练得到的回声抑制模型。

将第一语音信号和第二语音信号输入回声抑制模型后，由回声抑制模型预测得到实数掩码mask(对应前述实施例中的mask⁰)。

步骤S320、将预测的实数掩码mask乘以第二语音信号在频域的幅度谱，得到目标语音信号的幅度谱。

具体地，对第二语音信号进行短时傅里叶STFT变换，取频域的幅度谱，并乘以实数掩码mask，得到目标语音信号的幅度谱。

步骤S330、对目标语音信号的幅度谱做短时傅里叶反变换ISTFT，得到最终输出的语音信号。

本实施例提供的回声抑制方法，采用了改进训练方法所训练得到的回声抑制模型，该回声抑制模型预测的实数掩码mask更加准确，基于此还原出的目标语音信号的幅度谱也更加准确，进而经过ISTFT后可以输出质量更高的语音信号(也即目标语音信号)。

下面对本申请实施例提供的回声抑制装置进行描述，下文描述的回声抑制装置与上文描述的回声抑制装置可相互对应参照。

参见图10，图10为本申请实施例公开的一种回声抑制装置结构示意图。

如图10所示，该装置可以包括：

信号获取单元11，用于获取麦克风接收到的第一语音信号，所述第一语音信号包括回声信号及目标语音信号；

幅度谱预测单元12，用于基于所述第一语音信号，预测所述目标语音信号的幅度谱；

后处理单元13，用于将所述目标语音信号的幅度谱作为初始幅度谱，对所述初始幅度谱进行多轮短时傅里叶STFT正反变换，并将最后一轮STFT反变换后得到的干净相位的时域语音信号作为最终输出的语音信号。

可选的，上述幅度谱预测单元基于所述第一语音信号，预测所述目标语音信号的幅度谱的过程，包括：

可选的，上述幅度谱预测单元基于所述第一语音信号和所述第二语音信号，预测实数掩码mask的过程，包括：

可选的，本申请的装置还可以包括模型训练单元，用于训练回声抑制模型，该过程包括：

可选的，上述回声抑制模型基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程可以有两种不同的实现方式，

其一实现方式包括：

其二实现方式包括：

可选的，上述回声抑制模型基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K的过程，包括：

按照下述公式计算更新后的实数掩码mask^K：

可选的，上述第一语音训练信号还包括噪声信号，模型训练单元获取训练样本及样本标签的过程，包括：

在本申请的一些实施例中，进一步公开了一种回声抑制模型的训练装置，结合图11所示，该训练装置可以包括：

训练数据获取单元21，用于获取训练样本及样本标签，所述训练样本包括：包含回声信号和目标语音信号的第一语音训练信号，以及对所述第一语音训练信号进行线性回声消除后的第二语音信号，所述样本标签包括：所述目标语音信号和所述第二语音训练信号在频域的幅度谱的比值；

第一计算单元22，用于将所述训练样本送入所述回声抑制模型，得到模型预测的实数掩码mask；

第二计算单元23，用于基于所述预测的实数掩码mask计算所述目标语音信号的幅度谱，并作为初始幅度谱，对所述初始幅度谱进行多轮STFT正反变换，基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K；

更新单元24，用于按照设定类型的损失函数计算所述更新后的实数掩码mask^K和所述样本标签之间的损失值，并按照所述损失值更新回声抑制模型的参数。

基于上述回声抑制模型的训练装置所训练的回声抑制模型，本申请的一些实施例中进一步公开了另一种回声抑制装置，结合图12所示，该回声抑制装置可以包括：

信号获取单元31，用于获取麦克风接收到的第一语音信号及对所述第一语音信号进行线性回声消除后的第二语音信号，所述第一语音信号包括回声信号及目标语音信号；

模型计算单元32，用于将所述第一语音信号和所述第二语音信号输入回声抑制模型，得到预测的实数掩码mask，所述实数掩码mask表示所述目标语音信号和所述第二语音信号在频域的幅度谱的比值，所述回声抑制模型为通过前述图11对应的回声抑制模型的训练装置训练得到；

幅度谱计算单元33，用于将所述预测的实数掩码mask乘以所述第二语音信号在频域的幅度谱，得到所述目标语音信号的幅度谱；

短时傅里叶反变换单元34，用于对所述目标语音信号的幅度谱做短时傅里叶反变换ISTFT，得到最终输出的语音信号。

本申请实施例提供的回声抑制装置可应用于回声抑制设备，如手机、电脑等。可选的，图13示出了回声抑制设备的硬件结构框图，参照图13，设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：实现前述各实施例公开的回声抑制方法的各个步骤。

进一步地，本申请实施例提供的回声抑制模型的训练装置可应用于回声抑制模型的训练设备，如电脑、服务器等。回声抑制模型的训练设备的硬件结构也可以参照图13所示，区别在于，存储器中所存储的程序，用于实现前述回声抑制模型的训练方法的各个步骤。

再进一步地，本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：实现前述各实施例公开的回声抑制方法的各个步骤，或者，实现前述回声抑制模型的训练方法的各个步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种回声抑制方法，其特征在于，包括：

基于所述第一语音信号，预测所述目标语音信号的幅度谱；

2.根据权利要求1所述的方法，其特征在于，基于所述第一语音信号，预测所述目标语音信号的幅度谱的过程，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述第一语音信号和所述第二语音信号，预测实数掩码mask的过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述回声抑制模型的训练过程，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

6.根据权利要求4所述的方法，其特征在于，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码mask^K的过程，包括：

按照下述公式计算更新后的实数掩码mask^K：

8.根据权利要求4所述的方法，其特征在于，所述第一语音训练信号还包括噪声信号；

获取训练样本及样本标签的过程，包括：

9.一种回声抑制模型的训练方法，其特征在于，包括：

10.一种回声抑制方法，其特征在于，包括：

将所述第一语音信号和所述第二语音信号输入回声抑制模型，得到预测的实数掩码mask，所述实数掩码mask表示所述目标语音信号和所述第二语音信号在频域的幅度谱的比值，所述回声抑制模型为通过如权利要求9所述的方法进行训练得到；

11.一种回声抑制装置，其特征在于，包括：

12.一种回声抑制模型的训练装置，其特征在于，包括：

13.一种回声抑制装置，其特征在于，包括：

模型计算单元，用于将所述第一语音信号和所述第二语音信号输入回声抑制模型，得到预测的实数掩码mask，所述实数掩码mask表示所述目标语音信号和所述第二语音信号在频域的幅度谱的比值，所述回声抑制模型为通过如权利要求12所述的装置进行训练得到；

14.一种回声抑制设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的回声抑制方法的各个步骤。

15.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的回声抑制方法的各个步骤。