CN112634933B

CN112634933B - 一种回声消除方法、装置、电子设备和可读存储介质

Info

Publication number: CN112634933B
Application number: CN202110262385.9A
Authority: CN
Inventors: 马路; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-22
Anticipated expiration: 2041-03-10
Also published as: CN112634933A

Abstract

本申请提供了一种回声消除方法、装置、电子设备和可读存储介质，以提高回音消除效果。包括：获取待处理混合语音信号和待处理远端语音信号；将待处理混合语音信号输入预训练的网络模型，得到第一特征向量；将待处理远端语音信号输入网络模型，得到第二特征向量；将第一特征向量和第二特征向量输入预训练的注意力模型，获得第三特征向量；根据第一特征向量和第三特征向量，获得消除回声后的近端语音信号。本申请提供的回声消除方法、装置、电子设备和可读存储介质，具有更好的回音消除效果。

Description

一种回声消除方法、装置、电子设备和可读存储介质

技术领域

本申请涉及声学领域，尤其涉及一种回声消除方法、装置、电子设备和可读存储介质。

背景技术

在语音交互和语音通话等场景中，回声消除性能的好坏直接影响后端语音识别率和用户听感体验，是语音技术的关键核心技术。

现有技术通过源自网页即时通信技术（Web Real-Time Communication，缩写为：WebRTC）回声消除，即：首先利用时延估计算法对齐近端语音数据和远端语音数据，再利用自适应滤波器估计回声，从而消除线性回声。其不足在于，易存在残余回声，回声消除效果差。

发明内容

为了解决上述技术问题中的至少一个，本申请提供了一种回声消除方法、装置、电子设备和可读存储介质，以提高回音消除效果。

本申请的第一方面，一种回声消除方法，包括：

获取待处理混合语音信号和待处理远端语音信号；

将所述待处理混合语音信号输入预训练的网络模型，得到第一特征向量；以及，将所述待处理远端语音信号输入所述网络模型，得到第二特征向量；

将所述第一特征向量和所述第二特征向量输入预训练的注意力模型，获得第三特征向量，所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息；

根据所述第一特征向量和所述第三特征向量，获得消除回声后的近端语音信号。

可选的，所述第一特征向量为第一Embedding向量；所述第二特征向量为第二Embedding向量；所述第三特征向量为第三Embedding向量；所述网络模型是Embedding模型。

可选的，所述第一Embedding向量包括所述待处理混合语音信号在每个时频点的Embedding向量；

所述第二Embedding向量包括所述待处理远端语音信号在每个时频点的Embedding向量。

可选的，所述预训练的注意力模型包括第一参数矩阵、第二参数矩阵和第三参数矩阵；所述第一参数矩阵、第二参数矩阵和第三参数矩阵通过对所述注意力模型进行训练得到；

所述将所述第一特征向量和所述第二特征向量输入预训练的注意力模型，获得第三特征向量，包括：

将所述第一特征向量和所述第二特征向量输入所述注意力模型；

所述注意力模型根据所述第一参数矩阵与所述第一特征向量的乘积得到查询向量，根据第二参数矩阵与所述第二特征向量的乘积得到键向量，根据所述第三参数矩阵与所述第二特征向量的乘积得到值向量；

所述注意力模型根据所述查询向量、所述键向量和所述值向量，计算得到所述第三特征向量。

可选的，根据所述第一特征向量和所述第三特征向量，获得消除回声后的所述近端语音信号，包括：

将所述第一特征向量和所述第三特征向量输入预训练的掩膜值估计模型，获得所述待处理混合语音的每个时频点的掩膜值；

根据所述待处理混合语音的每个时频点的值和所述掩膜值，获得消除回声后的所述近端语音信号。

可选的，对所述网络模型进行训练，包括：

获取待训练远端语音信号和待训练近端语音信号；

根据所述待训练远端语音信号模拟得到待训练回声信号；

叠加所述待训练回声信号和待训练近端语音信号得到待训练混合语音信号；

将所述待训练混合语音信号转化为待训练混合语音时频域信号，将所述待训练近端语音信号转化为待训练近端语音时频域信号，将所述待训练回声信号转化为待训练回声时频域信号；

比较所述待训练近端语音时频域信号和所述待训练回声时频域信号在每个时频点上的能量大小，根据比较结果设置每个时频点的标签；

根据所述待训练混合语音时频域信号和所述每个时频点的标签，训练所述网络模型。

可选的，对所述注意力模型进行训练，包括：

将待训练远端语音信号转化为待训练远端语音时频域信号；

将第一训练数据和第二训练数据作为所述注意力模型的输入，将第三训练数据作为所述注意力模型的输出，训练所述注意力模型；

所述第一训练数据为将所述待训练混合语音时频域信号输入已训练的所述网络模型所得到的数据；

所述第二训练数据为将所述待训练远端语音时频域信号输入已训练的所述网络模型所得到的数据；

所述第三训练数据为将所述待训练回声时频域信号输入已训练的网络模型所得到的数据。

可选的，对所述掩膜值估计模型进行训练，包括：

计算每个时频点的所述待训练近端语音时频域信号在和所述待训练混合语音时频域信号中的能量占比，作为掩膜值；

将所述第一训练数据和第四训练数据作为所述掩膜值估计模型的输入，将所述掩膜值作为所述掩膜值估计模型的输出，训练所述掩膜值估计模型；

其中，所述第四训练数据为所述第一训练数据和第二训练数据输入已训练的所述注意力模型所得到的数据。

可选的，对联合模型进行训练，包括：

加载训练所述网络模型得到的第一网络参数，加载训练所述注意力模型得到的第二网络参数，加载训练所述掩膜值估计模型得到的第三网络参数；

将所述待训练远端语音信号和所述待训练混合语音信号作为联合模型的输入，将所述掩膜值作为所述联合模型的输出，训练所述联合模型；所述联合模型包括所述网络模型、所述注意力模型和所述掩膜值估计模型；

根据所述联合模型的训练结果更新所述第一网络参数、所述第二网络参数和所述第三网络参数。

本申请的第二方面，一种回声消除装置，包括：

信号获取模块，用于获取待处理混合语音信号和待处理远端语音信号；

网络模型处理模块，用于将所述待处理混合语音信号输入预训练的网络模型，得到第一特征向量；以及，将所述待处理远端语音信号输入所述网络模型，得到第二特征向量；

注意力模型处理模块，用于将所述第一特征向量和所述第二特征向量输入预训练的注意力模型，获得第三特征向量，所述第三特征向量包括所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息；

回声消除模块，用于根据所述第一特征向量和所述第三特征向量，获得消除回声后的近端语音信号。

可选的，所述回声消除模块，具体用于：

将所述第三特征向量和所述第一特征向量输入预训练的掩膜值估计模型，获得所述待处理混合语音的每个时频点的掩膜值；

可选的，所述装置包括网络模型训练模块，所述网络模型训练模块用于：

获取待训练远端语音信号和待训练近端语音信号；

根据所述待训练远端语音信号模拟得到待训练回声信号；

可选的，所述装置包括注意力模型训练模块，所述注意力模型训练模块，用于：

将待训练远端语音信号转化为待训练远端语音时频域信号；

可选的，所述装置包括掩膜值估计模型训练模块，所述掩膜值估计模型训练模块，用于：

可选的，所述装置包括联合模型训练模块，所述联合模型训练模型，用于：

本申请的第三方面，一种电子设备，包括存储器和处理器，所述存储器用于存储计算机指令，所述计算机指令被所述处理器执行以实现如本申请第一方面任一所述的方法。

本申请的第四方面，一种可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如本申请第一方面任一所述的方法。

通过实施本申请的技术方案可以取得以下有益技术效果：基于预先训练的网络模型能将待处理数据转化为能更好区分语音与回声的第一特征向量和第二特征向量；利用预先训练的注意力模型根据第一特征向量和第二特征向量确定第三特征向量，根据第一特征向量和第三特征向量，获得回声消除后的近端语音信号，实现回声消除。本申请公开的技术方案，相对于现有技术的回声消除方法，具有更好的回声消除效果，提高了语音的质量。

附图说明

附图示出了本申请的示例性实施方式，并与其说明一起用于解释本申请的原理，其中包括了这些附图以提供对本申请的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本申请实施例公开的一种回声消除方法的流程示意图；

图2是本申请实施例公开的一种网络模型的示意图；

图3是本申请实施例公开的一种网络模型的训练数据示意图；

图4是本申请实施例公开的一种模型训练数据关系示意图；

图5是本申请实施例公开的一种注意力模型的示意图；

图6是本申请实施例公开的一种注意力模型的训练数据示意图；

图7是本申请实施例公开的一种掩膜值估计模型的训练数据示意图；

图8是本申请实施例公开的一种回声消除网络的示意图；

图9是本申请实施例公开的一种回声消除装置的结构框图；

图10是本申请实施方式中的一种电子设备的结构框图；

图11是本申请实施方式中的一种回声消除方法的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施方式及实施方式中的特征可以相互组合。下面将待训练附图并结合实施方式来详细说明本申请。

本申请实施例提供的回声消除方法及装置可应用在语音交互场景中，其中，该语音交互场景可以为用户用座机通话、用户用车载电话通话等，本申请实施例对此不做特别限定。

参见图1，本申请实施例提供的一种回声消除方法，可包括如下步骤：

S101，获取待处理混合语音信号和待处理远端语音信号；

待处理混合语音信号是近端语音与回声混合的语音信号，例如麦克风接收的混合语音信号，待处理远端语音信号是参考语音信号，待处理远端语音信号是回声的主要形成原因，例如扬声器播放的语音数据，其中，待处理混合语音信号和待处理远端语音信号可以是时频域信号，在获取待处理数据时，可以先获取待处理远端语音和待处理混合语音，再将其转换为时频域信号。

S102，将待处理混合语音信号输入预训练的网络模型，得到第一特征向量；以及，将待处理远端语音信号输入网络模型，得到第二特征向量；

其中，网络模型用于根据待处理远端语音信号和待处理混合语音信号转换得到能更好的区别语音与回声的特征向量；

具体的，该网络模型可以是Embedding模型，那么此时，Embedding模型生成的特征向量是Embedding向量，即第一特征向量是第一Embedding向量，第二特征向量是第二Embedding向量，以及，后续得到的第三特征向量是第三Embedding向量；Embedding模型将待处理远端语音信号和待处理混合语音信号从时频域转换到高维表示的第一Embedding向量和第二Embedding向量，以使得该第一Embedding向量和第二Embedding向可以能更好的区分语音和回声。可以知道的，网络模型训练的目的是使网络模型可以将待处理远端语音信号和待处理混合语音信号从时频域转换到能更好区分语音与回声的表示，所以网络模型是基于此目的训练。

其中，网络模型可基于待训练混合语音信号和目标结果训练得到，其中，目标结果根据待训练混合语音信号中每个时频信号的语音能量与回声能量的大小关系确定。

其中，第一Embedding向量可包括待处理混合语音的每个时频点的Embedding向量，第二Embedding向量可包括待处理远端语音的每个时频点的Embedding向量，以使每个时频点用一个Embedding向量表示。

S103，将第一特征向量和第二特征向量输入预训练的注意力模型，获得第三特征向量，第三特征向量包括待处理远端语音信号对待处理混合语音信号的回声估计信息；

其中，注意力模型（Attention模型）用于实现第一特征向量和第二特征向量的对齐，进而计算得到待处理远端语音对待处理混合语音的估计回声。

在第一特征向量是第一Embedding向量，第二特征向量是第二Embedding向量时，此处第三特征向量是第三Embedding向量；

其中，第三Embedding向量可包括估计回声的每个时频点的Embedding向量，估计回声是待处理远端语音对待处理混合语音中的回声进行估计得到。

S104，根据第一特征向量和第三特征向量，获得消除回声后的近端语音信号。

其中，S104中的近端语音信号也就是把待处理混合语音信号的回声消除后所得到的信号；上述根据第一特征向量和第三特征向量，获得消除回声后的近端语音信号，具体可以是：根据第三特征向量确定待处理混合语音信号的每个时频点的掩膜值，再根据掩膜值和待处理混合语音信号确定回音消除后的语音，本实施方式此处仅仅是举例说明，对此不作特别限定。

本实施例的一种回声消除方法，基于预先训练的网络模型能将待处理混合语音信号和待处理远端语音信号转化为能更好区分语音与回声的第一特征向量和第二特征向量；利用预先训练的注意力模型根据第一特征向量和第二特征向量确定第三特征向量，注意力模型可对齐第一特征向量和第二特征向量，故得到的第三特征向量更接近真实回声的特征向量；根据第一特征向量和第三特征向量，获得消除回声后的近端语音信号，实现了回声的消除。相对于现有技术的回声消除方法，本实施例的回声消除方法具有更好的回声消除效果，提高了语音的质量。

本实施例的一种回声消除方法由于是基于预先训练的网络模型和注意力模型估计回声，故能更好的估计非线性回声，达到更好的非线性回声消除效果。

本实施例的一种回声消除方法并未直接利用聚类模型聚类第一特征向量和第二特征向量；而是采用注意力模获得回声的特征向量，再根据回声的特征向量得到消除回声后的语音，其回声消除的精度更高，效果更好。

为了便于理解，针对上述出现的术语进行进一步说明：

Embedding：利用深度学习将输入特征转换到另一个深层特征空间。

Attention：一种信息分配机制或信息对齐机制。

在一个可选实施方式中，参见图2，网络模型包括两层BLSTM（bi-directionallong short-term memory，双向长短期记忆层）和一层FC（fully connection, 全连接层），其中，全连接层的输出采用Tanh（双曲正切激活函数）。全连接输出的T×F*D形状数据会被转换成T*F×D形状用于后续网络的计算。其中，T表示时间长度，F表示频域长度，D表示特征向量维度，H表示网络计算中间维度。可以知道的，当特征向量是Embedding向量时，特征向量维度是Embedding向量维度。

在一个可选实施方式中，对网络模型进行训练，包括：

获取待训练远端语音信号和待训练近端语音信号；

根据待训练远端语音信号模拟得到待训练回声信号；

叠加待训练回声信号和待训练近端语音信号得到待训练混合语音信号；

将待训练混合语音信号转化为待训练混合语音时频域信号，将待训练近端语音信号转化为待训练近端语音时频域信号，将待训练回声信号转化为待训练回声时频域信号；

比较待训练近端语音时频域信号和待训练回声时频域信号在每个时频点上的能量大小，根据比较结果设置每个时频点的标签；

根据待训练混合语音时频域信号和每个时频点的标签，训练网络模型。

参见图3和图4，可以将近端语音source1经过房间冲激响应RIR（Room ImpulseResponse），并经过短时傅里叶变换STFT（Short-Time Fourier Transform）得到近端语音的时频域信号S(t,f)，计算该近端语音的每个时频点S(t,f)的能量，其中，t是时间，f是频率，后续描述中(t,f)内的t和f均分别表示时间和频率；同理，将远端语音source2分别经过房间冲激响应RIR和非线性处理NLP（Non-Linear Processing）后叠加作为模拟回声echo，该模拟回声echo经过STFT变换后得到模拟回声的时频域信号E(t,f)，计算该模拟回声的每个时频点E(t,f)的能量；将该模拟回声叠加到近端语音source1上得到麦克风（相当于麦克风）接收到的混合语音的时频域信号X(t,f)；比较每个时频点上的近端语音S(t,f)能量和模拟回声E(t,f)能量，若近端语音S(t,f)能量大于模拟回声E(t,f)能量，则该时频点的标签label为Y(t,f)=1，否则Y(t,f)=0。将混合语音X(t,f)以及标签Y(t,f)送入Embedding模型进行训练。其中，上述RIR用来构建混响数据，模拟回声，STFT用来将时域波形转换成时频域，NLP用来构建非线性数据，模拟扬声器引入的非线性。

在一个可选实施例方式中，预训练的注意力模型包括第一参数矩阵、第二参数矩阵和第三参数矩阵；第一参数矩阵、第二参数矩阵和第三参数矩阵通过对注意力模型进行训练得到；

将第一特征向量和第二特征向量输入预训练的注意力模型，获得第三特征向量，包括：

将第一特征向量和第二特征向量输入注意力模型；

注意力模型根据第一参数矩阵与第一特征向量的乘积得到查询向量，根据第二参数矩阵与第二特征向量的乘积得到键向量，根据第三参数矩阵与第二特征向量的乘积得到值向量；

注意力模型根据查询向量、键向量和值向量，计算得到第三特征向量。

参见图5，本实施例的注意力模型可以采用典型的Scaled Dot-ProductAttention结构；本实施方式中，Attention的查询向量Q（Query）取自第一特征向量与第一参数矩阵W_Q的相乘结果，Attention的键向量K（Key）取自第二特征向量与第二参数矩阵W_K相乘结果，Attention的值向量V（Value）取自第二特征向量与第三参数矩阵W_V相乘结果。其中，W_Q、W_K和W_V分别是Attention模型需要训练的参数。第二特征向量依次存储在N个寄存器中作为Key和Value的基础数据。Attention的输出为

，其中

为尺度因子以防止Q和K^T相乘结果过大，上标T表示矩阵转置，d _k为一个query和key的向量维度。通过Attention的（query， key）查询机制，可以实现近端与远端数据的对齐，即：真实场景中，近端回声信号相对远端语音信号（参考信号）有延迟，这里采用Attention可以实现时间对齐，从而更好的估计回声。Attention中根据（query，key）查询得到的权重对Value信息的提取可以实现对回声的估计，实时跟踪回声路径变化。Attention模型的输出Z是根据第二特征向量对第一特征向量中的回声的一个估计。最后，将该回声从近端语音消去即可得到近端语音信号。其中，需要说明的是，图5中，T表示时间长度，F表示频域长度，D表示特征向量维度，H表示网络计算中间维度，MatMul表示矩阵相乘，Scale是除以尺度因子

，Mask表示做掩码操作，即：通过一个由0和1组成的向量指示对应位置是否参与后面的softmax操作，opt.表示可选项，SoftMax表示进行归一化操作

在一个可选实施方式中，对注意力模型进行训练，包括：

将待训练远端语音信号转化为待训练远端语音时频域信号；

将第一训练数据和第二训练数据作为注意力模型的输入，将第三训练数据作为注意力模型的输出，训练注意力模型；

第一训练数据为将待训练混合语音时频域信号输入已训练的网络模型所得到的数据；

第二训练数据为将待训练远端语音时频域信号输入已训练的网络模型所得到的数据；

第三训练数据为将待训练回声时频域信号输入训练的网络模型所得到的数据。

参见图4和图6，可以将远端语音source2经过STFT变换后得到远端语音的时频域信号R(t,f)，其中，t是时间，f是频率，source2分别经过房间冲激响应RIR和非线性处理NLP后叠加作为模拟回声echo，该模拟回声经过STFT变换后得到该模拟回声的时频域信号E(t, f)，该模拟回声叠加到近端语音source1上得到混合信号的时频域信号X(t,f)，该混合语音的时频域信号X(t,f)相当于是麦克风接收到的混合信号，将R(t,f)、X(t,f)和E(t,f)分别经过训练好的Embedding模型之后得到对应的特征向量，其中，E(t,f)的特征向量作为Attention模型的输出label，R(t,f)和X(t,f)的特征向量作为Attention模型的输入。

在一个可选实施方式中，根据第一特征向量和第三特征向量，获得消除回声后的近端语音信号，包括：

将第一特征向量和第三特征向量输入预训练的掩膜值估计模型，获得待处理混合语音的每个时频点的掩膜值；

根据待处理混合语音的每个时频点的值和掩膜值，获得消除回声后的近端语音信号。

此处，待处理混合语音信号的每个时频点的掩膜值与待处理混合语音信号的时频点的值依次相乘后经过ISTFT转换回时域即可得到回声消除后的近端语音信号。

在一个可选的实施方式中，对掩膜值估计模型进行训练，包括：

计算每个时频点的待训练近端语音时频域信号在待训练混合语音时频域信号中的能量占比，作为掩膜值；

将第二训练数据和第四训练数据作为掩膜值估计模型的输入，将掩膜值作为掩膜值估计模型的输出，训练掩膜值估计模型；

其中，第四训练数据为第一训练数据和第二训练数据输入已训练的注意力模型所得到的数据；

如图4和图7所示，近端语音source1经过房间冲激响应RIR之后（用于模拟近端人说话声音经过周围环境反射后被麦克风收到的声音），经过STFT变换后计算近端语音时频域信号的每个时频点S(t,f)的能量，其中t表示时间，f表示频率；同理，远端语音 source2经过房间冲激响应RIR和非线性处理NLP后叠加作为模拟回声echo，该模拟回声叠加到S(t, f)上得到混合语音的时频域信号X(t,f)，该混合语音的时频域信号X(t,f)相当于是麦克风接收到的混合信号，经过STFT变换到频域后计算每个时频点X(t,f)的能量；计算每个时频点语音信号的占比，即mask(t,f)；将混合信号X(t,f)、远端语音信号R(t,f)分别经过前面训练好的网络模型(可以是embedding模型)和注意力模型（attention）之后作为掩膜值估计模型（Mask Estimation）的输入，mask(t,f)作为网络的输出，送给掩膜值估计模型进行模型训练。

参见图8，图8是一种回声消除网络的示意图，待处理混合语音信号mix_end和待处理远语音信号far_end分别经过网络模型（可以是Embedding模型）；输入网络模型前，待处理混合语音信号mix_end和待处理远语音信号far_end均是T×F形状数据，其中，T表示时间长度，F表示频域长度，网络模型输出相应的T*F×D形状数据的第一特征向量和第二特征向量，其中，D表示特征向量维度；注意力模型将第一特征向量的Query与第二特征向量的Key进行比对得到信息权重，即：待处理混合语音当前帧的特征向量在待处理远语音的特征向量中的信息分布，该信息权重与第二特征向量的Value相乘之后得到第三特征向量。掩膜值估计模型利用待处理混合语音信号的第一特征向量与估计回声的第三特征向量进行每个时频点的mask估计，即：估计每个时频点上近端的能量占比。将该mask与待处理混合语音的时频点依次相乘之后经过ISTFT转换回时域即可得到回声消除后的近端语音。其中，此处掩膜值估计模型可采用一个GRU (Gated Recurrent Unit，是长短期记忆网络的一种变体)和Dense（全连接层）组成的网络模型实现对每个时频点中语音占比的估计，即掩膜值估计，其中，GRU将T*F×D形状数据转化为T*F×H形状数据，H表示网络计算中间维度，附图中的M表示注意力模型的寄存器数量，ReLU表示线性整流函数，sigmoid是一种激活函数。

在一个可选实施方式中，以网络模型是Embedding模型为例，网络模型、注意力模型和掩膜值估计模型可采用多目标的方式训练，也就是说，网络模型、注意力模型和掩膜值估计模型有各自的训练目标，其中，总的损失函数Loss_total表示为：

上述α和β是预设的权重，Loss_embedding是网络模型的损失函数，Loss_attention是注意力模型的损失函数，Loss_mask是掩膜值估计模型的损失函数。

其中，网络模型的训练目标是尽可能的在特征向量域将近端语音和回声分开，若网络模型输出的D维的特征向量可以表示为

，其中，

表示网络参数，N表示输入时频点数量，D表示embedding长度。考虑单位模的embedding表示，即：

，其中，v_n={v _n,d}，v _n,d表示第n个特征向量的第d维。网络模型期望找到一种embedding表示，即：将每一个时频点n表示成一个D维的特征向量，在这个特征向量中可以通过简单的聚类方法即可将语音和回声分开，即：第n个时频点表示的D维特征向量经过聚类之后归属于语音还是归属于回声，若属于语音，则对应的第n个时频点可以标记为1，若属于回声的，则可以标记为0。经过embedding之后可以将每个时频点标记为0或者1。真实分类可以表示为：

表示将第n个时频点分类到第c个类别，即：

表示第n个时频点属于第c个类别（在这里，类别数量为2，即：语音或者回声）。网络的训练目标即是根据标签

去寻找一种embedding使得尽可能的分类正确。

网络模型的目标函数可以表示为：

其中，上标T表示矩阵转置。

注意力模型（Attention）的目标是尽可能准的估计回声。若真实回声表示为

，Attention估计得到的回声表示为

，其中t表示时间、f表示频率、d表示特征向量的元素，则其Loss计算方式如下：

其中，

是一个感知参数，控制抑制回声的程度。由于

，因此

表示最小化对数能量的均方误差，其中，γ根据具体应用情况设置，具体的，可以设置为0.5。

掩膜值估计模型（Mask Estimation）的目标是准确估计每个时频点的掩膜值mask。若混合语音每个时频点的能量为E _x (t,f)，其中，每个时频点中近端语音的能量为

，则每个时频点的mask(t,f)计算如下：

若掩膜值估计模型估计的mask表示为

，则采用交叉熵损失函数计算Loss _mask (t,f)如下：

本申请的回声消除方法可以依次单独训练网络模型、注意力模型和掩膜值估计模型，再联合训练网络模型、注意力模型和掩膜值估计模型，达到更好的训练效果。

本申请的回声消除方法在联合训练训练网络模型、注意力模型和掩膜值估计模型时，加载训练网络模型得到的第一网络参数，加载训练注意力模型得到的第二网络参数，加载训练掩膜值估计模型得到的第三网络参数；将待训练远端语音信号和待训练混合语音信号作为联合模型的输入，将掩膜值作为联合模型的输出，训练联合模型；联合模型包括网络模型、注意力模型和掩膜值估计模型；根据联合模型的训练结果更新第一网络参数、第二网络参数和第三网络参数。

具体的，参见图8从左到右逐个模型单独训练，首先训练网络模型(如图中的embedding模型)，使用Loss_embedding作为损失函数；之后固定网络模型的参数，将输入数据经过网络模型之后送入注意力模型进行训练，用Loss_attention作为损失函数训练注意力模型；最后，固定网络模型和注意力模型的参数，将输入经过这两个网络之后送入掩膜值估计模型，使用Loss_mask作为损失函数训练网络。

再将上一步得到的网络权重作为初始参数加载到网络中，之后采用Loss_total作为损失函数进行网络的联合训练。

参见图9，一种回声消除装置，包括：

信号获取模块901，用于获取待处理混合语音信号和待处理远端语音信号；

网络模型处理模块902，用于将待处理混合语音信号输入预训练的网络模型，得到第一特征向量；以及，将待处理远端语音信号输入预训练的网络模型，得到第二特征向量；

注意力模型处理模块903，用于将第一特征向量和第二特征向量输入预训练的注意力模型，获得第三特征向量，第三特征向量包括待处理远端语音信号对待处理混合语音信号的回声估计信息；

回声消除模块904，用于根据第一特征向量和第三特征向量，获得消除回声后的近端语音信号。

在一个可选实施方式中，第一特征向量为第一Embedding向量；第二特征向量为第二Embedding向量；第三特征向量为第三Embedding向量；网络模型是Embedding模型。

具体的，第一Embedding向量包括待处理混合语音信号在每个时频点的Embedding向量；

第二Embedding向量包括待处理远端语音信号在每个时频点的Embedding向量。

在一个可选实施方式中，将第一特征向量和第二特征向量输入预训练的注意力模型，获得第三特征向量，包括：

将第一特征向量和第二特征向量输入预训练的注意力模型；

预训练的注意力模型包括第一参数矩阵、第二参数矩阵和第三参数矩阵；第一参数矩阵、第二参数矩阵和第三参数矩阵通过对注意力模型进行训练得到；

将第一特征向量和第二特征向量输入注意力模型；

将第一特征向量和第三特征向量输入掩膜值估计模型，获得待处理混合语音的每个时频点的掩膜值；

在一个可选实施方式中，回声消除装置还包括网络模型训练模型，网络模型训练模块用于：

获取待训练远端语音信号和待训练近端语音信号；

根据待训练远端语音信号模拟得到待训练回声信号；

在一个可选实施方式中，回声消除装置包括注意力模型训练模块，注意力模型训练模块用于：

将待训练远端语音信号转化为待训练远端语音时频域信号；

第三训练数据为将待训练回声时频域信号输入已训练的网络模型所得到的数据。

在一个可选实施方式中，回声消除装置包括掩膜值估计模型训练模块，掩膜值估计模型训练模块，用于：

将第一训练数据和第四训练数据作为掩膜值估计模型的输入，将掩膜值作为掩膜值估计模型的输出，训练掩膜值估计模型；

其中，第四训练数据为第一训练数据和第二训练数据输入已训练的注意力模型所得到的数据。

在一个可选实施方式中，回声消除装置包括联合模型训练模块，联合模型训练模块用于：

加载训练网络模型得到的第一网络参数，加载训练注意力模型得到的第二网络参数，加载训练掩膜值估计模型得到的第三网络参数；

将待训练远端语音信号和待训练混合语音信号作为联合模型的输入，将掩膜值作为联合模型的输出，训练联合模型；联合模型包括网络模型、注意力模型和掩膜值估计模型；

根据联合模型的训练结果更新第一网络参数、第二网络参数和第三网络参数。

本实施例的可选实施方式可以参考上述一种回声消除方法的技术方案。

参见图10，一种电子设备1000，包括处理器1001和存储器1002，存储器1002用于存储计算机指令，计算机指令被处理器1001执行以实现本申请实施例中任一的回声消除方法。

本申请还提供了一种可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例中任一的回声消除方法。

图11为适于用来实现根据本申请一实施方式的一种回声消除方法的计算机系统的结构示意图。

参见图11，计算机系统包括处理单元1101，其可以根据存储在只读存储器（ROM）1102中的程序或者从存储部分1108加载到随机访问存储器（RAM）1103中的程序而执行上述附图所示的实施方式中的各种处理。在RAM1103中，还存储有系统操作所需的各种程序和数据。处理单元1101、ROM1102以及RAM1103通过总线1104彼此相连。输入/输出（I/O）接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。其中，处理单元1101可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本申请的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。

附图中的流程图和框图，图示了按照本申请各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

在本说明书的描述中，术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本申请，而并非是对本申请的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本申请的范围内。

Claims

1.一种回声消除方法，其特征在于，包括：

获取待处理混合语音信号和待处理远端语音信号；

将所述待处理混合语音信号输入预训练的网络模型，得到第一特征向量；以及，将所述待处理远端语音信号输入所述网络模型，得到第二特征向量；其中，所述第一特征向量包括所述待处理混合语音信号在每个时频点的Embedding向量，所述第二特征向量包括所述待处理远端语音信号在每个时频点的Embedding向量；

将所述第一特征向量和所述第二特征向量输入预训练的注意力模型，获得第三特征向量，所述第三特征向量包括所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息；其中，所述注意力模型用于对齐所述第一特征向量和所述第二特征向量，以得到所述第三特征向量；

根据所述第一特征向量和所述第三特征向量，获得所述待处理混合语音信号消除回声后的近端语音信号。

2.根据权利要求1所述的回声消除方法，其特征在于，所述第三特征向量为第三Embedding向量；所述网络模型是Embedding模型。

3.根据权利要求1所述的回声消除方法，其特征在于，所述预训练的注意力模型包括第一参数矩阵、第二参数矩阵和第三参数矩阵；所述第一参数矩阵、第二参数矩阵和第三参数矩阵通过对所述注意力模型进行训练得到；

4.根据权利要求1所述的回声消除方法，其特征在于，根据所述第一特征向量和所述第三特征向量，获得消除回声后的所述近端语音信号，包括：

5.根据权利要求4所述的回声消除方法，其特征在于，对所述网络模型进行训练，包括：

获取待训练远端语音信号和待训练近端语音信号；

根据所述待训练远端语音信号模拟得到待训练回声信号；

6.根据权利要求5所述的回声消除方法，其特征在于，对所述注意力模型进行训练，包括：

将待训练远端语音信号转化为待训练远端语音时频域信号；

7.根据权利要求6所述的回声消除方法，其特征在于，对所述掩膜值估计模型进行训练，包括：

8.根据权利要求7所述的回声消除方法，其特征在于，对联合模型进行训练，包括：

9.一种回声消除装置，其特征在于，包括：

网络模型处理模块，用于将所述待处理混合语音信号输入预训练的网络模型，得到第一特征向量；以及，将所述待处理远端语音信号输入所述网络模型，得到第二特征向量；其中，所述第一特征向量包括所述待处理混合语音信号在每个时频点的Embedding向量，所述第二特征向量包括所述待处理远端语音信号在每个时频点的Embedding向量；

注意力模型处理模块，用于将所述第一特征向量和所述第二特征向量输入预训练的注意力模型，获得第三特征向量，所述第三特征向量包括所述待处理远端语音信号对所述待处理混合语音信号的回声估计信息；其中，所述注意力模型用于对齐所述第一特征向量和所述第二特征向量，以得到所述第三特征向量；

回声消除模块，用于根据所述第一特征向量和所述第三特征向量，获得所述待处理混合语音信号消除回声后的近端语音信号。

10.根据权利要求9所述的一种回声消除装置，其特征在于，所述回声消除模块，具体用于：

11.根据权利要求9所述的一种回声消除装置，其特征在于，所述装置包括网络模型训练模块，所述网络模型训练模块用于：

获取待训练远端语音信号和待训练近端语音信号；

根据所述待训练远端语音信号模拟得到待训练回声信号；

12.根据权利要求11所述的一种回声消除装置，其特征在于，所述装置包括注意力模型训练模块，所述注意力模型训练模块，用于：

将待训练远端语音信号转化为待训练远端语音时频域信号；

13.根据权利要求12所述的一种回声消除装置，其特征在于，所述装置包括掩膜值估计模型训练模块，所述掩膜值估计模型训练模块，用于：

14.根据权利要求13所述的一种回声消除装置，其特征在于，所述装置包括联合模型训练模块，所述联合模型训练模型，用于：

15.一种电子设备，包括存储器和处理器，所述存储器用于存储计算机指令，其特征在于，所述计算机指令被所述处理器执行以实现如权利要求1-8任一项所述的方法。

16.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现如权利要求1-8任一项所述的方法。