CN115602184A

CN115602184A - 回声消除方法、装置、电子设备及存储介质

Info

Publication number: CN115602184A
Application number: CN202211164547.6A
Authority: CN
Inventors: 马路; 魏伟
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-01-13
Also published as: WO2024060644A1

Abstract

本公开提出一种回声消除方法、装置、电子设备及存储介质，其中，回声消除方法包括：获取第一远端语音信号和第一近端语音信号；分别对第一远端语音信号和第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征；基于第一语音特征和第二语音特征，对第一远端语音信号和第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号；基于第二远端语音信号，对第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号。由此，能够准确地将远端语音信号和近端语音信号对齐，从而提升回声消除的效果，并能够将远端语音从近端混合信号中消除，以达到回声消除的目的。

Description

回声消除方法、装置、电子设备及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种回声消除方法、装置、电子设备及存储介质。

背景技术

近几年来，互联网的发展推动了网络电话和视频会议等VoIP(Voice overInternet Protocol)技术的广泛应用。与此同时，其语音质量也日益受到关注，其中一个最关键的因素就是回声的影响。由于扬声器播放出来的声音被麦克风拾取后发回远端，再加上各种延迟的影响，使得远端谈话者能听到自己的回声，严重影响了通话的质量。

相关回声消除方法在房间混响严重，环境噪声复杂的情况下，时延估计不准，难以将远端语音信号和近端语音信号对齐，从而影响回声消除的效果。

发明内容

本公开提出一种回声消除方法、装置、电子设备和存储介质。

本公开第一方面实施例提出了一种回声消除方法，包括：获取第一远端语音信号和第一近端语音信号；分别对所述第一远端语音信号和所述第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征；基于所述第一语音特征和所述第二语音特征，对所述第一远端语音信号和所述第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号；基于所述第二远端语音信号，对所述第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号。

本公开实施例的回声消除方法，获取第一远端语音信号和第一近端语音信号；分别对第一远端语音信号和第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征；基于第一语音特征和第二语音特征，对第一远端语音信号和第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号；基于第二远端语音信号，对第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号。本实施例分别对远端语音信号和近端语音信号进行特征提取，并通过提取的特征对远端语音信号和近端语音进行时延对齐，能够准确地将远端语音信号与近端语音信号对齐，从而提升回声消除的效果，进而有效地将远端语音从近端混合信号中消除，以达到回声消除的目的。

本公开第二方面实施例提出一种回声消除装置，包括：获取模块，用于获取第一远端语音信号和第一近端语音信号；特征提取模块，用于分别对所述第一远端语音信号和所述第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征；时延对齐模块，用于基于所述第一语音特征和所述第二语音特征，对所述第一远端语音信号和所述第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号；回声消除模块，用于基于所述第二远端语音信号，对所述第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号。

本公开第三方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述第一方面实施例的回声消除方法。

本公开第四方面实施例提出了一种存储有计算机指令的计算机可读存储介质，所述计算机指令用于使所述计算机执行如上述第一方面实施例的回声消除方法。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开一实施例提供的回声消除方法的流程示意图；

图2为回声消除的原理图；

图3为本公开另一实施例提供的回声消除方法的流程示意图；

图4为基于注意力机制网络时延对齐的原理图；

图5为本公开另一实施例提供的回声消除方法的流程示意图；

图6为本公开另一实施例提供的回声消除方法的流程示意图；

图7为注意力机制网络的训练过程的示意图；

图8为本公开另一实施例提供的回声消除方法的流程示意图；

图9为状态检测和发散检测的原理图；

图10为本公开另一实施例提供的回声消除方法的流程示意图；

图11为非线性回声消除模型的训练过程示意图；

图12为本公开另一实施例提供的回声消除方法的流程示意图；

图13为模型训练迭代过程的示意图；

图14为本公开另一实施例提供的回声消除装置的结构示意图；

图15为本公开一实施例提供的电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参考附图描述本公开实施例的回声消除方法、装置、电子设备和存储介质。

图1为本公开一实施例提供的回声消除方法的流程示意图。如图1所示，该方法包含以下步骤：

S101，获取第一远端语音信号和第一近端语音信号。

本公开实施例的回声消除方法可以应用于视频通话和语音通话等通话场景。

其中，第一远端语音信号为远端设备生成的信号，第一近端语音信号为近端设备生成的信号，远端设备和近端设备可以为手机、计算机、平板电脑、智能电视等通话设备，此处不做任何限定。

参见图2，第一远端语音信号x(n)传输到近端设备之后会通过近端设备的扬声器播放出去，在经过周围物体反射形成回声y(n)之后被近端设备的麦克风接收，与此同时语音s(n)和环境噪声v(n)一同被近端设备的麦克风接收，近端设备接收到回声y(n)、语音s(n)和噪声v(n)后，生成第一近端语音信号d(n)。

其中，语音s(n)为用户在近端说话的音频，不包括噪声和回声。

S102，分别对第一远端语音信号和第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征。

在获取第一远端语音信号和第一近端语音信号后，可通过缓存器将第一远端语音信号和第一近端语音信号进行缓存，其缓存长度为信号的长度，假设第一远端语音信号的缓存长度为M，则可以将第一远端语音信号划分为M帧远端数据，假设第一近端语音信号的缓存长度为N，则可以将第一近端语音信号划分成N帧近端数据。

对于第一远端语音信号，可以对第一远端语音信号中每一帧远端数据进行特征提取，得到每一帧远端数据对应的第一语音特征；对于第一近端语音信号，可以对第一近端语音信号中每一帧近端数据进行特征提取，得到每一帧近端数据对应的第二语音特征。

其中，第一语音特征和第二语音特征可以为高维特征，用于计算远端数据与近端数据之间的相似度。

在一些实现中，分别将远端数据和近端数据输入到神经网络中，由神经网络将远端数据和近端数据映射成高维特征，即第一语音特征和第二语音特征。

S103，基于第一语音特征和第二语音特征，对第一远端语音信号和第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号。

第一远端语音信号被近端设备的扬声器播放出去到被近端设备的麦克风接收并转换成数字信号的过程中，会与原始的第一远端信号存在时延，即第一近端语音信号中的回声信号与第一远端语音信号存在时延，若要消除第一近端语音信号中的回声信号，便要将第一远端语音信号和第一近端语音信号进行时延对齐。

在一些实现中，可以计算第一语音特征与第二语音特征之间的相似度，根据第一语音特征与第二语音特征相似度确定相似的远端数据和近端数据，将相似的远端数据和近端数据对齐，从而将第一远端语音信号和第一近端语音信号对齐，得到对齐后的第二远端语音信号和第二近端语音信号。

S104，基于第二远端语音信号，对第二近端语音信号进行回声消除，得到消除回声后的目标近端语音信号。

在得到对齐后第二远端语音信号和第二近端语音信号后，可以对第二远端语音信号进行回声估计，得到第二近端语音信号中混合的回声信号，根据该回声信号对第二近端语音信号进行线性回声消除和非线性回声消除，得到消除回声后的目标近端语音信号。

本公开实施例中，获取第一远端语音信号和第一近端语音信号，分别对第一远端语音信号和第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征，基于第一语音特征与第二语音特征，对第一远端语音信号和第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号。本公开实施例分别对远端语音信号和近端语音信号进行特征提取，并通过提取的特征对远端语音信号和近端语音进行时延对齐，能够准确地将远端语音信号与近端语音信号对齐，从而提升回声消除的效果，进而有效地将远端语音从近端混合信号中消除，以达到回声消除的目的。

图3为本公开一实施例提供的回声消除方法的流程示意图，如图3所示，回声消除方法还包含以下步骤：

S301，获取第一远端语音信号和第一近端语音信号。

关于步骤S301的过程可以参见步骤S101的相关介绍，此处不再赘述。

S302，将第一远端语音信号和第一近端语音信号输入到训练好的注意力机制网络中，分别对第一远端语音信号和第一近端语音信号进行特征提取，得到第一语音特征和第二语音特征。

参见图4，可以将第一远端语音信号和第一近端语音信号输入到训练好的注意力机制网络中，由注意力机制网络中的特征提取层，分别对第一远端语音信号和第一近端语音信号进行特征提取，得到对应的第一语音特征和第二语音特征。

S303，基于第一语音特征和第二语音特征，对第一远端语音信号和第一近端语音信号时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号。

关于步骤S303的过程可以参见步骤S103中的相关介绍，此处不再赘述。

S304，基于第二远端语音信号，对第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号。

关于步骤S303的过程可以参见步骤S104中的相关介绍，此处不再赘述。

本公开实施例中，获取第一远端语音信号和第一近端语音信号，将第一远端语音信号和第一近端语音信号输入到训练好的注意力机制网络中，分别对第一远端语音信号和第一近端语音信号进行特征提取，得到第一语音特征和第二语音特征，基于第一语音特征和第二语音特征，对第一远端语音信号和第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号，基于第二远端语音信号，对第二近端语音信号进行回声消除，得到第一目标近端语音信号。本公开实施例基于注意力机制网络对远端语音信号和近端语音信号进行时延对齐，能够准确地将远端语音信号和近端语音信号对齐，从而提升对近端语音信号进行回声消除的效果。

图5为本公开一实施例提供的回声消除方法的流程示意图，在上述实施例的基础上，进一步结合图5，对基于第一语音特征和第二语音特征，对第一远端语音信号和第一近端语音信号进行时延对齐的过程进行解释说明，包含以下步骤：

S501，获取第一语音特征和第二语音特征之间的相似度。

可选地，参见图4，将第一远端语音信号和第一近端语音信号输入到训练好的注意力机制网络中，由注意力机制网络中的特征提取层，分别对第一远端语音信号和第一近端语音信号进行特征提取，得到第一语音特征和第二语音特征，由注意力机制网络中的全连接层对第一语音特征和第二语音特征进行处理，得到第一语音特征与第二语音特征之间的相似度。

其中，注意力机制网络中的全连接层可以对第一语音特征和第二语音特征进行相似度计算，得到第一语音特征与第二语音特征之间的相似度，而后将第一语音特征和第二语音特征之间的初始相似度进行归一化处理，得到归一化处理后的相似度，其计算过程可以参见下述公式(1)。

其中，α_m,n为第一远端语音信号中第m帧远端数据对应的第一语音特征与第一近端语音信号中第n帧近端数据对应的第二语音特征之间归一化处理后的相似度，m为第一远端语音信号的帧数，n第一近端语音信号的帧数，

为m帧远端数据对应的第一语音特征(F)，

为第n帧近端数据第二语音特征(N)，Score表示对

和

进行相似度计算，exp表示以自然常数e为底的指数函数。

S502，基于相似度，将第一远端语音信号和第一近端语音信号进行时延对齐。

可选地，确定最大相似度对应的目标第一语音特征和目标第二语音特征，将目标第一语音特征对应的目标远端数据与目标第二语音特征对应的目标近端数据对齐。

参见图4，第一远端语音信号包括M帧远端数据，第一近端语音信号包括N帧近端数据，可以依次将M帧远端数据中的每一帧远端数据与其中一帧近端数据进行相似度计算，得到M个相似度，然后可以从该M个相似度中确定最大相似度，该最大相似度对应的远端数据和近端数据即为目标远端数据和目标近端数据，可以将该目标远端数据和目标近端数据对齐。

举例而言，依次将M帧远端数据中的每一帧远端数据与第1帧近端数据进行相似度计算，可以得到M个相似度，分别为α_1,1，α_2,1，……，α_m,1，若α_2,1为最大相似度，则第一远端语音信号中的第2帧远端数据与第一近端语音信号中的第1帧近端数据最相似，因此第2帧远端数据为目标远端数据，第1帧近端数据为目标近端数据，可以将第一远端语音信号中的第2帧远端数据与第一近端语音信号中的第1近端数据对齐。

在一些实现中，获取目标远端数据和目标近端数据的帧引索，根据帧引索，确定目标远端数据与目标近端数据之间的时间差值，根据时间差值，将目标远端数据和目标近端数据对齐。

可以根据目标远端数据与目标近端数据之间的时间差值，分别对目标远端数据和目标近端数据的数据缓存器进行移位，从而将目标远端数据与目标近端数据的对齐，以此方式可以将第一近端语音信号中的每一帧近端数据与第一远端语音信号中的每一帧远端数据对齐，从而将第一远端语音信号和第一近端语音信号对齐。

进一步地，可以通过下述公式(2)对相似度α_m,n进行32位比特量化得到T_m,n，而后调用应用程序接口(Application Programming Interface，API)例如网页即时通信(WebReal-Time Communication，WebRTC)，通过WebRTC根据量化结果T_m,n确定最大相似度，并确定最大相似度对应的目标远端数据和目标近端数据，然后对目标远端数据和目标近端数据的数据缓存器进行移位，从而将目标远端数据与目标近端数据的对齐，进而将第一远端语音信号和第一近端语音信号对齐。

T_m,n＝int(α_m,n·2³²) (2)

其中，T_m,n为相似度α_m,n的32位量化值，int()函数的作用是将数字转换成整数。

本公开实施例中，获取第一语音特征和第二语音特征之间的相似度，基于相似度，将第一远端语音信号和第一近端语音信号进行时延对齐。本公开实施例通过语音特征之间的相似度，确定相似的远端数据和近端数据，提高了从远端语音信号和近端语音信号中确定相似数据的准确性，从而能够准确地将远端语音信号和近端语音信号对齐。

综上，如图4所示，在将第一近端语音信号与第一远端语音信号进行时延对齐时，依次通过注意力机制网络的特征提取层，对第一近端语音信号中的每一帧远端数据特征提取，得到每一帧远端数据对一个的第一语音特征，以及通过注意力机制网络的特征提取层，对第一近端语音数据的第n帧进行特征提取得到对应的第二语音特征，然后通过注意力机制网络的全连接层，计算每一个第一语音特征与第二语音特征之间的相似度，并将计算的相似度进行归一化处理，然后对归一化处理后的相似度进行32位量化处理，得到32位量化值，最后调用WebRTC根据根据该32位量化值，确定第一近端语音信号中与第n帧近端数据相似的远端数据，并将该远端数据与该第n帧近端数据对齐，以此方式，可以将第一远端语音信号和第一近端语音信号中每一帧相似的数据对齐，从而将第一远端语音信号和第一近端语音信号对齐。

图6为本公开一实施例提供的回声消除方法的流程示意图，如图6所示，注意力机制网络的训练过程，包含以下步骤：

S601，采集第一样本远端语音信号和第一样本近端语音信号。

参见图7，从干净(无噪声)的音频库中随机选择两个不同说话人的音频，其中一个音频作为远端语音信号，该远端语音信号为第一样本远端语音信号，另一个音频作为近端语音信号，并从噪声库中随机选择一种噪声，按照设定的信噪比调整噪声信号功率，将噪声信号与近端语音信号进行叠加，然后从房间冲激响应模拟器中随机选择两种房间冲激响应，其中，房间冲激响应可以是人工模拟的，也可以是实际采集得到的，根据具体的麦克风、扬声器和说话人三者之间的相对距离进行设定。将该两种房间冲激响应分别与叠加噪声信号后的近端语音信号和远端语音信号进行叠加，然后按照设定功率比(在一定范围内随机设定，比如-10dB～30dB)将近端语音信号和远端语音信号进行叠加，最后对叠加后的信号进行时延处理，得到第一样本近端语音信号。

其中，可以通过设定的开关控制是否需要叠加近端语音信号，以此模拟真实场景中的单讲状态。另外，在同一种房间配置中，说话人和扬声器距离与麦克风之间的相对位置可以按照应用场景进行设置。例如，如果是手持设备，则扬声器和说话人距离麦克风间距可以设置的相对较小；如果是大屏会议场景，则扬声器和说话人距离麦克风间距可以设置的相对较大。

需要说明的是，在从房间冲激响应模拟器这种选择选择房间冲激响应时，应该从同一种房间配置中随机选择。

S602，将第一样本远端语音信号和第一样本近端语音信号输入初始注意力机制网络中，生成第一样本远端语音信号的第一样本远端数据与第一样本近端语音信号的第一样本近端数据之间的预测相似度。

在将第一样本远端语音信号和第一样本近端语音信号输入初始注意力机制网络中后，初始注意力机制网络中的特征提取层，分别对第一样本远端语音信号和第一样本近端语音信号中的每一帧数据进行特征提取，得到第一语音特征和第二语音特征，然后初始注意力机制网络中的全连接层对第一语音特征和第二语音特征进行处理，得到第一语音特征与第二语音特征之间的相似度，该相似度即为第一样本远端语音信号的第一样本远端数据与第一样本近端语音信号的第一样本近端数据之间的预测相似度。

S603，基于预测相似度和标签相似度，对初始注意力机制网络的模型参数进行调整，得到训练后的注意力机制网络。

参见图7，可以将第一样本远端信号的远端数据和第一样本近端信号和近端数据进行相关度计算，得到第一样本近端语音信号的第一样本近端数据与第一样本远端语音信号之间的相关度，并将该相关度作为标签相似度，然后获取标签相似度与预测相似度之间的误差，根据该误差对初始注意力机制网络的模型参数进行调整，得到训练后的注意力机制网络。

本公开实施例中，采集第一样本远端语音信号和第一样本近端语音信号，将第一样本远端语音信号和第一样本近端语音信号输入初始注意力机制网络中，生成第一语音特征与第二语音特征之间的预测相似度，基于预测相似度和标签相似度，对初始注意力机制网络的模型参数进行调整，得到训练后的注意力机制网络。本公开实施例对注意力机制网络进行训练，能够提高注意力机制网络的相似度计算的准确性，从而提高时延估计的准确性，进而提高时延对齐的准确性。

图8为本公开一实施例提供的回声消除方法的流程示意图，在上述实施例的基础上，进一步结合图8，对第二近端语音信号的回声消除过程进行解释说明，包含以下步骤：

S801，对第二远端语音信号进行回声估计，得到回声信号。

可选地，将第二远端语音信号输入到自适应滤波器中，生成回声信号。

自适应滤波器可以采用任何一种数字自适应滤波算法或者达到类似功能的自适应算法，例如：Speex(一种开源语音算法库)中的多时延滤波算法或者WebRTC中的分块频域自适应滤波算法等，此处不做任何限定。

在一些实现中，通过下述公式(3)计算得到回声信号。

其中，

为第n帧，频率分量为k的回声信号，w_k(l)为第l帧，第k频率分量的自适应滤波器权重参数，L为自适应滤波器的长度，l为自适应滤波器的帧数引索，x_k(n-l)为第n-l帧，第k频率分量的第二远端语音信号。

在本公开实施例中，远端设备与近端设备之间的语音通话状态包括远讲状态、近讲状态、双讲状态和双默状态，其中，远讲状态为只有远端讲话的状态，近讲为只用近端讲话的状态，双讲状态为远端和近端同时讲话的状态，双默状态为远端和近端均不讲话的状态。

参见图9，可以根据第二远端语音信号和第三近端语音信号的能量判断远端设备与近端设备之间的语音通话状态，即状态检测，若第二远端语音信号的能量大于或等于第一能量门限，第三近端语音信号的能量小于第二能量门限，则远端设备与近端设备之间的语音通话状态为远讲状态；若第二远端语音信号的能量小于第一能量门限，第三近端语音信号的能量大于或等于第二能量门限，则远端设备与近端设备之间的语音通话状态为近讲状态；若第二远端语音信号的能量大于或等于第一能量门限，第三近端语音信号的能量大于或等于第二能量门限，则远端设备与近端设备之间的语音通话状态为双讲状态；若第二远端信号的能量小于第一能量门限，第三近端语音信号的能量小于第二能量门限，则远端设备与近端设备之间的语音通话状态为双默状态。

需要说明的是，第一能量门限和第二能量门限可以根据实际情况设定，此处不做任何限定。

在通过自适应滤波器对第二远端语音信号进行回声估计时，可以检测远端设备与近端设备之间的语音通话状态，若远端设备与近端设备之间的语音通话状态为远讲状态时，则需更新自适应滤波器的权重参数w_k(l)；若远端设备与近端设备之间的语音通话状态为非远讲状态(近讲状态、双讲状态或双默状态)，则不要更新自适应滤波器的权重参数。

在一些实现中，可以获取自适应滤波器的更新步长，基于更新步长对自适应滤波器的权重参数进行更新。其中，可通过下述公式(4)计算自适应滤波器更新后的权重参数。

其中，w_k(l，i+1)为第i+1次更新时第l帧，第k频率分量的自适应滤波器权重参数，w_k(l，i)为第i次更新时第l帧，第k频率分量的自适应滤波器权重参数，x_k ^*(n-l)表示x_k(n-l)的共轭，μ为自适应滤波器的步长，i为自然数。

可选地，选取自适应滤波器的最优步长对自适应滤波器的权重参数进行更新，其中，可以通过下述公式(5)计算自适应滤波器的最优步长。

其中，μ_opt(k,l)表示第l帧第k频率分量的自适应滤波器的最优(optimal)步长，

表示第l帧第k频率分量的非线性(残余)回声信号的方差，

表示第l帧第k频率分量第三近端语音信号的方差。

其中，

可以通过下述公式(6)计算得到。

其中，

表示第l帧第k频率分量的回声信号的方差，

为泄露系数，

可以通过下述公式(7)计算得到。

其中，R_EY(k，l)表示第三近端语音信号与回声信号的互相关函数，R_YY(k，l)表示回声信号的自相关函数。

进一步地，参见图9，可以通过第三近端语音信号和第二近端语音信号的能量检测自适应滤波器是否发散，若第三近端语音信号的能量大于第二近端语音信号的能量，则自适应滤波器发散；若第三近端语音信号的能量小于第二近端语音信号的能量，则自适应滤波器不发散。响应于检测到自适应滤波器发散，切换至备份的自适应滤波器对第二远端语音信号进行回声估计。

S802，基于回声信号，对第二近端语音信号进行回声消除，得到第一目标近端语音信号。

在一些实现中，基于回声信号，对第二近端语音信号进行线性回声消除，得到消除线性回声后的第三近端语音信号，而后基于回声信号，对第三近端语音信号进行非线性回声消除，得到消除非线性回声后的第一目标近端语音信号。

线性回声消除的过程：可以通过下述公式(8)计算得到消除线性回声后的第三近端语音信号。

其中，e_k(n)为第n帧，第k频率分量的第三近端语音信号，d_k(n)为第n帧，第k频率分量的第二近端语音信号。

非线性回声消除的过程：将回声信号和第三近端语音信号输入到训练好的目标非线性回声消除模型中，生成第一频谱掩码，基于第一频谱掩码和第三近端语音信号，获取消除非线性回声后的第一目标近端语音信号。

其中，目标非线性回声消除模型是对预训练后的非线性模型进一步进行训练后得到的模型。

其中，第一频谱掩码指每个频点(频率分量)处第二近端语音信号中的用户语音信号(参见图2中的s(n))的能量与第二近端语音信号的能量的比值。

在一些实现中，将第一频谱掩码在每个频率分量的掩码值与对应频率分量的第三近端语音信号相乘，得到消除非线性回声后的第一目标近端语音信号。

在本公开实施例中，近端设备的麦克风以及硬件电路中非线性器件(例如放大器等)在近端语音信号进行处理时会引入非线性回声，同时自适应滤波器在进行回声估计时也会引入残余回声，相关技术能够很好的消除线性回声，并对非线性回声起到一定的抑制作用，但是对非线性回声的抑制程度有限，本公开实施例通过训练好的非线性回声消除模型对近端语音信号进行非线性回声消除，能够有效地消除近端语音信号中的非线性回声，提升了非线性回声消除的效果。

图10为本公开一实施例提供的回声消除方法的流程示意图，在上述实施例的基础上，进一步结合图10，对预训练后的非线性回声消除模型进行迭代训练，得到训练后的目标非线性回声消除模型的过程进行解释说明，包含以下步骤：

S1001，采集第二样本远端语音信号和第二样本近端语音信号。

在一些实现中，参见图11，首先从干净(无噪声)的音频库中随机选择两个不同说话人的不同音频信号：音频信号1和音频信号2，其中，音频信号1作为第二样本远端语音信号，音频信号2作为输入的近端语音信号，然后从房间冲激响应模拟器中随机选择两种房间冲激响应:房间冲激响应1和房间冲激响应2，其中，房间冲激响应可以是人工模拟的，也可以是实际采集得到的，根据具体的麦克风、扬声器和说话人三者之间的相对距离进行设定。将房间冲激响应1与音频信号1进行卷积，将房间冲激响应2与音频信号2进行卷积，然后根据设定的功率比(在一定范围内随机设定，比如-10dB～30dB)分别调整卷积后的音频信号1和音频信号2的功率，并将调整功率后的音频信号1和音频信号2进行叠加，得到混合有回声的近端语音信号。

进一步地，从噪声库中随机选择一种噪声，按照设定的信噪比(相对于近端语音信号的功率)调整原始音频信号1的功率，然后将原始音频信号1和调整功率后的噪声信号进行叠加，得到近端混合语音信号，最后按照一定的时间大小将近端混合语音信号进行时延，得到第二样本近端语音信号。

由于第二样本近端语音信号进行了时延处理，采集的第二样本远端语音信号与第二样本近端语音信号之间存在时延，此时需要对第二样本近端语音信号和第二样本远端信号进行时延对齐处理，参见图11，可以通过注意力机制网路对第二样本近端语音信号和第二样本远端信号进行时延估计，得到第二样本近端语音信号与第二样本远端信号之间的时延，然后根据该时延将对第二样本近端语音信号和第二样本远端信号进行缓存移位，将第二样本近端语音信号和第二样本远端语音信号时延对齐，得到对齐后第二样本近端语音信号和第二样本远端语音信号。

在又一些实现中，将混合有回声的近端语音信号和噪声进行叠加得到近端混合信号之后，将近端混合信号作为第二样本近端语音信号，即不对近端混合信号进行时延处理，此时采集第二样本远端语音信号与第二样本近端语音信号之间不存在时延，不需要对第二样本远端语音信号和第二样本近端语音信号进行时延对齐处理。

S1002，将第二样本远端语音信号输入到自适应滤波器中，生成目标回声信号。

其中，目标回声信号为对第二样本远端语音信号进行回声估计得到信号。

关于对第二样本远端语音信号的回声估计过程可以参见步骤S801中的相关介绍，此处不再赘述。

S1003，基于目标回声信号，对第二样本近端语音信号进行线性回声消除，得到消除线性回声后的第二目标近端语音信号。

其中，第二目标近端语音信号为对第二样本近端语音信号线性回声消除后的语音信号。

关于步骤S1003的相关描述可以参见步骤S802中线性回声消除的相关介绍，此处不再赘述。

S1004，基于目标回声信号、第二目标近端语音信号和自适应滤波器的目标权重参数，对预训练后的非线性回声消除模型进行迭代训练，得到训练后的目标非线性回声消除模型。

其中，自适应滤波器的目标权重参数为自适应滤波器用于下一次回声估计的权重参数。

基于预训练后的非线性回声消除模型对目标回声信号和第二目标近端语音信号进行处理，得到预测近端语音信号，而后根据预测近端语音信号和第二样本近端语音信号获取损失函数，基于损失函数对预训练后的非线性回声消除模型进行调整，并基于预测近端语音信号获取用于下一次训练的自适应滤波器的目标权重参数，根据该目标权重参数进行下一次的回声估计，从而进行下一次的模型训练，在损失函数的收敛达到最小值，或者预测近端语音信号的信噪比达到最大值时，结束整个迭代训练过程，并得到训练后的目标非线性回声消除模型。

其中，预测近端语音信号为第二样本近端语音信号消除线性回声和非线性回声之后的语音信号。

可选地，损失函数可以表示为下述公式(9)：

其中，

为n帧的预测近端语音信号，s(n)为n帧的用户语音信号(即音频信号2)，

表示预测近端语音信号

与近端语音信号s(n)(即音频信号2)之间的损失函数，N表示信号长度。

本公开实施例中，采集第二样本远端语音信号和第二样本近端语音信号，将第二样本远端语音信号输入到自适应滤波器中，生成目标回声信号，基于目标回声信号，对第二样本近端语音信号进行线性回声消除，得到消除线性回声后的第二目标近端语音信号，基于目标回声信号、第二目标近端语音信号和自适应滤波器的目标权重参数，对非线性回声消除模型进行迭代训练，得到训练后的目标非线性回声消除模型。本公开实施例将自适应滤波器与非线性回声消除模型联合在一起进行多次的迭代训练，可以提升非线性回声消除模型的非线性回声消除效果，从而有效地消除近端语音信号中的非线性回声。

图12为本公开一实施例提供的回声消除方法的流程示意图，在上述实施例的基础上，对预训练后的非线性回声消除模型进行迭代训练的过程进行解释说明，包含以下步骤：

S1201，将目标回声信号和第二目标近端语音信号输入到非线性回声消除模型中，生成第二频谱掩码。

需要说明的是，本公开实施例中的非线性回声消除模型为预训练后的非线性回声消除模型。

其中，第二频谱掩码指每个频点(频率分量)处第二目标近端语音信号中用户语音信号s(n)(即音频信号2)的能量与第二目标近端语音信号的能量的比值

关于步骤S1201的描述可以参见步骤S802中的相关介绍，此处不再赘述。

S1202，基于第二频谱掩码和第二目标近端语音信号，获取预测近端语音信号。

关于步骤S1201和S1202的描述可以参见步骤S802中的相关介绍，此处不再赘述。

S1203，基于预测近端语音信号，获取用于下一次训练的自适应滤波器的目标权重参数。

基于第二样本远端语音信号和第二样本近端语音信号的能量，确定远端设备与近端设备之间的语音通话状态，响应于语音通话状态为远讲状态，基于预测近端语音信号，获取自适应滤波器的目标权重参数，响应于语音通话状态为非远讲状态，将自适应滤波器的当前权重参数作为目标权重参数。

参见图11，在对非线性回声消除模型进行迭代训练的过程中，可以进行状态检测，确定远端设备与近端设备之间的语音通话状态，若语音通话状态为远讲状态，则基于预测近端语音信号，获取用于下一次训练的自适应滤波器的目标权重参数；若语音通话状态为非远讲状态(近讲状态、双讲状态或双默状态)，则将自适应滤波器当前的权重参数，作为下一次训练的自适应滤波器的目标权重参数。

在一些实现中，当远端设备与近端设备之间的语音通话状态为远讲状态时，可以通过下述公式(10)计算用于下一次训练的自适应滤波器的最优步长。

其中，

为第l帧第k频率分量的预测近端语音信号的方差。

进一步地，在通过上述公式(10)计算出用于下一次训练的自适应滤波器的最优步长后，可以通过上述公式(4)计算出用于下一次训练的自适应滤波器的目标权重参数。

在又一些实现中，由于在对非线性回声消除模型进行迭代训练的过程中，当前时刻非线性回声消除模型的输入依赖于上一时刻计算的最优步长，会降低模型的训练速度。为了提高训练速度，可以采用平均步长(batch)来修正自适应滤波器的步长，即每个batch进行训练的时候，对预测近端语音信号的功率在该batch内求平均，同样的，对该batch内自适应滤波器进行非线性回声的功率求平均，然后将两个平均功率按照公式(10)计算得到该batch内的平均最优步长，将该平均最优步长作为下一个batch训练时自适应滤波器的步长。

假设每个batch有M个样本，每个样本的平均非线性回声功率为

每个样本的的平均预测近端语音信号功率为

则一个batch的M个样本的平均最优步长可以通过下述公式(11)进行计算：

其中，k表示第k个batch，每个batch共M个样本，因此，第k个batch中，样本的索引从kM到kM+M-1。

图13为模型训练迭代过程的示意图，如图13所示，第k-1个batch计算得到的最优步长用于第k个batch的自适应滤波器计算。

S1204，基于目标权重参数，对非线性回声消除模型进行下一次的模型训练。

将自适应滤波器的权重参数更新为目标权重参数，并将用于下一次训练的第二样本远端信号输入到更新后的自适应滤波器中，生成用于下一次训练的目标回声信号，基于目标回声信号，对用于下一次训练的第二样本近端语音信号进行线性回声消除，得到用于下一次训练的第二目标近端语音信号，基于目标回声信号和第二目标近端语音信号，对非线性回声消除模型进行下一次的模型训练。

进一步地，参见图11，对非线性回声消除模型进行预训练的过程进行解释说明：

如图11所示，采集用于非线性回声消除模型的预训练的第二样本远端语音信号和第二样本近端语音信号，若采集的第二样本远端语音信号与第二样本近端语音信号之间存在时延，则基于注意力机制网络对第二样本远端语音信号和第二样本近端语音信号进行时延对齐，将对齐后的第二样本远端语音信号输入自适应滤波器中，进行回声估计得到回声信号。

基于回声信号对第二样本近端语音信号进行线性回声消除得到第二目标近端语音信号，将回声信号和第二目标近端语音信号输入到待训练的非线性回声消除模型中，生成频谱掩码，将频谱掩码每个频率分量处的掩码值与对应频率分量的第二目标近端语音信号相乘，得到预测近端语音信号，根据预测近端语音信号与用户语音信号(音频信号2)之间的误差对待训练的非线性回声消除模型的模型参数进行调整。

在对待训练的非线性回声消除模型的模型参数进行调整之后，基于第二目标近端语音信号获取用于下一次训练的自适应滤波器的目标步长，基于该目标步长获取用于下一次训练的自适应滤波器的目标权重参数。

需要说明的是，在训练的过程中可以对远端设备与近端设备之间的语音通话状态进行状态检测，若远端设备与近端设备之间的语音通话状态进行状态检测为远讲状态，则基于第二目标近端语音信号获取自适应滤波器的权重参数；若远端设备与近端设备之间的语音通话状态进行状态检测为非远讲状态(近讲状态、双讲状态或双默状态)，则将自适应滤波器当前的权重参数作为目标权重参数。

在对待训练的非线性回声消除模型进行下一次的训练时，基于自适应滤波器的目标权重参数对用于下一次训练第二样本远端语音信号进行回声估计，得到用于下一次训练的目标回声信号，然后基于该目标回声信号对用于下一次训练的第二样本近端语音信号进行非线性回声消除，得到用于下一次训练的第二目标近端语音信号，并基于该目标回声信号和第二目标近端语音信号，对待训练的非线性回声消除模型进行用于下一次训练的训练，在整个迭代训练过程结束之后，得到预训练后的非线性回声消除模型。

本公开实施例中，将目标回声信号和第二目标近端语音信号输入到非线性回声消除模型中，生成第二频谱掩码，基于第二频谱掩码和第二目标近端语音信号，获取预测近端语音信号，基于预测近端语音信号，获取用于下一次训练的自适应滤波器的目标权重参数，基于目标权重参数，对非线性回声消除模型进行下一次的模型训练。本公开实施例能够实现非线性回声消除模型多个轮次的迭代训练，以充分对非线性回声消除模型进行训练，从而提高非线性回声消除模型的非线性回声消除效果。

为了实现上述实施例，本公开实施例还提出一种回声消除装置。图14为本公开一实施例的回声消除装置的结构示意图。如图14所示，回声消除装置1400包括：

获取模块1410，用于获取第一远端语音信号和第一近端语音信号；

特征提取模块1420，分别对第一远端语音信号和第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征；

时延对齐模块1430，用于基于第一语音特征和第二语音特征，对第一远端语音信号和第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号；

回声消除模块1440，用于基于第二远端语音信号，对第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号。

在本公开的一个实施例中，时延对齐模块1430，还用于获取第一语音特征和第二语音特征之间的相似度；基于相似度，对第一远端语音信号和第一近端语音信号进行时延对齐。

在本公开的一个实施例中，时延对齐模块1430，还用于确定最大相似度对应的目标第一语音特征和目标第二语音特征；将目标第一语音特征对应的目标远端数据与目标第二语音特征对应的目标近端数据对齐。

在本公开的一个实施例中，时延对齐模块1430，还用于获取目标远端数据和目标近端数据的帧引索；根据帧引索，确定目标远端数据与目标近端数据之间的时间差值；根据时间差值，将目标远端数据和目标近端数据对齐。

在本公开的一个实施例中，回声消除模块1440，还用于对第二远端语音信号进行回声估计，得到回声信号；基于回声信号，对第二近端语音信号进行回声消除，得到第一目标近端语音信号。

在本公开的一个实施例中，回声消除模块1440，还用于基于回声信号，对第二近端语音信号进行线性回声消除，得到消除线性回声后的第三近端语音信号；基于回声信号，对第三近端语音信号进行非线性回声消除，得到消除非线性回声后的第一目标近端语音信号。

在本公开的一个实施例中，时延对齐模块1430还用于将第一远端语音信号和第一近端语音信号输入到预训练后的初始注意力机制网络中；由目标注意力机制网络中的特征提取层，分别对第一远端语音信号和第一近端语音信号进行特征提取，得到第一语音特征和第二语音特征；由注意力机制网络中的全连接层对第一语音特征和第二语音特征进行处理，得到第一语音特征与第二语音特征之间的相似度。

在本公开的一个实施例中，回声消除装置1400，还包括第一训练模块1450，用于采集第一样本远端语音信号和第一样本近端语音信号；将第一样本远端语音信号和第一样本近端语音信号输入到注意力机制网络中，生成第一语音特征与第二语音特征之间的预测相似度；基于预测相似度和标签相似度，对初始注意力机制网络的模型参数进行调整，得到训练后的注意力机制网络。

在本公开的一个实施例中，回声消除模块1440还用于将回声信号和第三近端语音信号输入到训练好的目标非线性回声消除模型中，生成第一频谱掩码；基于第一频谱掩码和第三近端语音信号，获取第一目标近端语音信号。

在本公开的一个实施例中，回声消除装置1400，还包括第二训练模块1460，用于采集第二样本远端语音信号和第二样本近端语音信号；将第二样本远端语音信号输入到自适应滤波器中，生成目标回声信号；基于目标回声信号，对第二样本近端语音信号进行线性回声消除，得到消除线性回声后的第二目标近端语音信号；基于目标回声信号、第二目标近端语音信号和自适应滤波器的目标权重参数，对非线性回声消除模型进行迭代训练，得到训练后的目标非线性回声消除模型。

在本公开的一个实施例中，第二训练模块1460，还用于将目标回声信号和第二目标近端语音信号输入到非线性回声消除模型中，生成第二频谱掩码；基于第二频谱掩码和第二目标近端语音信号，获取预测近端语音信号；基于预测近端语音信号，获取用于下一次训练的自适应滤波器的目标权重参数；基于目标权重参数，对非线性回声消除模型进行下一次的模型训练。

在本公开的一个实施例中，第二训练模块1460，还用于基于第二样本远端语音信号和第二样本近端语音信号的能量，确定远端设备与近端设备之间的语音通话状态；响应于语音通话状态为远讲状态，基于预测近端语音信号，获取自适应滤波器的目标权重参数；响应于语音通话状态为非远讲状态，将自适应滤波器的当前权重参数作为目标权重参数。

在本公开的一个实施例中，第二训练模块1460，还用于将自适应滤波器的权重参数更新为目标权重参数；将用于下一次训练的第二样本远端信号输入到更新后的自适应滤波器中，生成用于下一次训练的目标回声信号；基于目标回声信号，对用于下一次训练的第二样本近端语音信号进行线性回声消除，得到用于下一次训练的第二目标近端语音信号；基于目标回声信号和第二目标近端语音信号，对非线性回声消除模型进行下一次的模型训练。

需要说明的是，上述对回声消除方法实施例的解释说明，也适用于本公开实施例的回声消除装置，具体过程此处不再赘述。

本公开实施例中，获取第一远端语音信号和第一近端语音信号，分别对第一远端语音信号和第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征，基于第一语音特征与第二语音特征，对第一远端语音信号和第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号。本实施例对分别远端语音信号和近端语音信号进行特征提取，并通过提取的特征对远端语音信号和近端语音进行时延对齐，能够准确地将远端语音信号与近端语音信号对齐，从而提升回声消除的效果，进而有效地将远端语音从近端混合信号中消除，以达到回声消除的目的。

如图15所示，是根据本公开实施例的回声消除方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，智能语音交互设备、个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，该电子设备包括：一个或多个处理器1501、存储器1502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器1501可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图15中以一个处理器1501为例。

存储器1502即为本公开所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本公开所提供的回声消除方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的回声消除方法。

存储器1502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的回声消除方法对应的程序指令/模块。处理器1501通过运行存储在存储器1502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的回声消除方法。

存储器1502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据回声消除方法的电子设备的使用所创建的数据等。此外，存储器1502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1502可选包括相对于处理器1501远程设置的存储器，这些远程存储器可以通过网络连接至回声消除方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

回声消除方法的电子设备还可以包括：输入装置1503和输出装置1504。处理器1501、存储器1502、输入装置1503和输出装置1504可以通过总线或者其他方式连接，图15中以通过总线连接为例。

输入装置1503可接收输入的数字或字符信息，以及产生与回声消除方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种回声消除方法，其特征在于，包括：

获取第一远端语音信号和第一近端语音信号；

分别对所述第一远端语音信号和所述第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征；

基于所述第一语音特征和所述第二语音特征，对所述第一远端语音信号和所述第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号；

基于所述第二远端语音信号，对所述第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一语音特征与所述第二语音特征，对所述第一远端语音信号和所述第一近端语音信号进行时延对齐，包括：

获取所述第一语音特征和所述第二语音特征之间的相似度；

基于所述相似度，对所述第一远端语音信号和所述第一近端语音信号进行时延对齐。

3.根据权利要求2所述的方法，其特征在于，所述基于所述相似度，将所述第一远端语音信号和所述第一近端语音信号进行时延对齐，包括：

确定最大相似度对应的目标第一语音特征和目标第二语音特征；

将所述目标第一语音特征对应的目标远端数据与所述目标第二语音特征对应的目标近端数据对齐。

4.根据权利要求3所述的方法，其特征在于，所述将所述目标第一语音特征对应的目标远端数据与所述目标第二语音特征对应的目标近端数据对齐，包括：

获取所述目标远端数据和所述目标近端数据的帧引索；

根据所述帧引索，确定所述目标远端数据与所述目标近端数据之间的时间差值；

根据所述时间差值，将所述目标远端数据和所述目标近端数据对齐。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第二远端语音信号，对所述第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号，包括：

对所述第二远端语音信号进行回声估计，得到回声信号；

基于所述回声信号，对所述第二近端语音信号进行回声消除，得到所述第一目标近端语音信号。

6.根据权利要求5所述的方法，其特征在于，所述基于所述回声信号，对所述第二近端语音信号进行回声消除，得到所述第一目标近端语音信号，包括：

基于所述回声信号，对所述第二近端语音信号进行线性回声消除，得到消除线性回声后的第三近端语音信号；

基于所述回声信号，对所述第三近端语音信号进行非线性回声消除，得到消除非线性回声后的所述第一目标近端语音信号。

7.根据权利要求1所述的方法，其特征在于，所述获取第一远端语音信号和第一近端语音信号之后，还包括：

将所述第一远端语音信号和所述第一近端语音信号输入到训练好的注意力机制网络中，分别对所述第一远端语音信号和所述第一近端语音信号进行特征提取，得到所述第一语音特征和所述第二语音特征；

基于所述第一语音特征和所述第二语音特征，对所述第一远端语音信号和所述第一近端语音信号时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号；

基于所述第二远端语音信号，对所述第二近端语音信号进行回声消除，得到所述第一目标近端语音信号。

8.根据权利要求2所述的方法，其特征在于，所述获取所述第一语音特征和所述第二语音特征之间的相似度，包括：

将所述第一远端语音信号和所述第一近端语音信号输入到训练好的注意力机制网络中；

由所述注意力机制网络中的特征提取层，分别对所述第一远端语音信号和所述第一近端语音信号进行特征提取，得到所述第一语音特征和所述第二语音特征；

由所述注意力机制网络中的全连接层对所述第一语音特征和所述第二语音特征进行处理，得到所述第一语音特征与所述第二语音特征之间的相似度。

9.根据权利要求8所述的方法，其特征在于，所述注意力机制网络的训练过程，包括：

采集第一样本远端语音信号和第一样本近端语音信号；

将所述第一样本远端语音信号和所述第一样本近端语音信号输入初始注意力机制网络中，生成所述第一样本远端语音信号的第一样本远端数据与第一样本近端语音信号的第一样本近端数据之间的预测相似度；

基于所述预测相似度和标签相似度，对所述初始注意力机制网络的模型参数进行调整，得到训练后的注意力机制网络。

10.根据权利要求6所述的方法，其特征在于，所述基于所述回声信号，对所述第三近端语音信号进行非线性回声消除，得到消除非线性回声后的所述第一目标近端语音信号，包括：

将所述回声信号和所述第三近端语音信号输入到训练好的目标非线性回声消除模型中，生成第一频谱掩码；

基于所述第一频谱掩码和所述第三近端语音信号，获取所述第一目标近端语音信号。

11.根据权利要求10所述的方法，其特征在于，所述目标非线性回声消除模型的训练过程，包括：

采集第二样本远端语音信号和第二样本近端语音信号；

将所述第二样本远端语音信号输入到自适应滤波器中，生成目标回声信号；

基于所述目标回声信号，对所述第二样本近端语音信号进行线性回声消除，得到消除线性回声后的第二目标近端语音信号；

基于所述目标回声信号、所述第二目标近端语音信号和所述自适应滤波器的目标权重参数，对预训练后的非线性回声消除模型进行迭代训练，得到训练后的目标非线性回声消除模型。

12.根据权利要求11所述的方法，其特征在于，所述基于所述目标回声信号、所述第二目标近端语音信号和所述自适应滤波器的目标权重参数，对预训练后的非线性回声消除模型进行迭代训练，包括：

将所述目标回声信号和所述第二目标近端语音信号输入到所述非线性回声消除模型中，生成第二频谱掩码；

基于所述第二频谱掩码和所述第二目标近端语音信号，获取预测近端语音信号；

基于所述预测近端语音信号，获取用于下一次训练的所述自适应滤波器的目标权重参数；

基于所述目标权重参数，对所述非线性回声消除模型进行下一次的模型训练。

13.根据权利要求12所述的方法，其特征在于，所述获取用于下一次训练的所述自适应滤波器的目标权重参数，包括：

基于所述第二样本远端语音信号和所述第二样本近端语音信号的能量，确定远端设备与近端设备之间的语音通话状态；

响应于所述语音通话状态为远讲状态，基于所述预测近端语音信号，获取所述自适应滤波器的目标权重参数；

响应于所述语音通话状态为非远讲状态，将所述自适应滤波器的当前权重参数作为所述目标权重参数。

14.根据权利要求12所述的方法，其特征在于，所述基于所述目标权重参数，对所述非线性回声消除模型进行下一次的模型训练，包括：

将所述自适应滤波器的权重参数更新为所述目标权重参数；

将用于下一次训练的第二样本远端信号输入到更新后的自适应滤波器中，生成用于下一次训练的目标回声信号；

基于所述目标回声信号，对用于下一次训练的第二样本近端语音信号进行线性回声消除，得到用于下一次训练的第二目标近端语音信号；

基于所述目标回声信号和所述第二目标近端语音信号，对所述非线性回声消除模型进行下一次的模型训练。

15.一种回声消除装置，其特征在于，包括：

获取模块，用于获取第一远端语音信号和第一近端语音信号；

特征提取模块，用于分别对所述第一远端语音信号和所述第一近端语音信号进行特征提取，以得到第一语音特征和第二语音特征；

时延对齐模块，用于基于所述第一语音特征和所述第二语音特征，对所述第一远端语音信号和所述第一近端语音信号进行时延对齐，得到对齐后的第二远端语音信号和第二近端语音信号；

回声消除模块，用于基于所述第二远端语音信号，对所述第二近端语音信号进行回声消除，得到消除回声后的第一目标近端语音信号。

16.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-14中任一项所述的方法。

17.一种存储有计算机指令的计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如权利要求1-14中任一项所述的方法。