CN113257267B

CN113257267B - 干扰信号消除模型的训练方法和干扰信号消除方法及设备

Info

Publication number: CN113257267B
Application number: CN202110596675.7A
Authority: CN
Inventors: 崔凡; 李楠; 张晨; 韩润强
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-10-15
Anticipated expiration: 2041-05-31
Also published as: CN113257267A

Abstract

本公开提供了一种干扰信号消除模型的训练方法和干扰信号消除方法及设备。所述训练方法包括：获取包括麦克风信号、远端参考信号、以及干净语音信号的训练样本；根据所述远端参考信号，对所述麦克风信号进行线性回声消除；获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱；将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码；根据第一幅度谱掩码和所述干净语音信号，计算所述干扰信号消除模型的损失函数；通过根据所述损失函数调整所述干扰信号消除模型的模型参数，对所述干扰信号消除模型进行训练。

Description

干扰信号消除模型的训练方法和干扰信号消除方法及设备

技术领域

本公开总体说来涉及音频技术领域，更具体地讲，涉及一种干扰信号消除模型的训练方法和设备、及干扰信号消除方法和设备。

背景技术

随着通信技术的飞速发展，语音通信系统被越来越广泛地使用。在全双工语音通信系统中，回声现象是扬声器的声音反馈到麦克风引起的。如果无法有效抑制声学回声，则用户可以听到自己被延迟的声音。因此，语音回声消除在提高语音通信质量方面起着至关重要的作用。

回声消除的目的是将干净的语音和回声分开，因此回声消除可以看作为一类语音分离问题。而如何尽量消除其他端语音的回声又保留本端语音，是一个值得研究的问题。

发明内容

本公开的示例性实施例在于提供一种干扰信号消除模型的训练方法和干扰信号消除方法及设备，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种干扰信号消除模型的训练方法，包括：获取包括麦克风信号、远端参考信号、以及干净语音信号的训练样本，其中，所述麦克风信号是基于所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述远端参考信号的回声信号；根据所述远端参考信号，对所述麦克风信号进行线性回声消除；获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱；将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了所述干扰信号后的幅度谱掩码；根据第一幅度谱掩码和所述干净语音信号，计算所述干扰信号消除模型的损失函数；通过根据所述损失函数调整所述干扰信号消除模型的模型参数，对所述干扰信号消除模型进行训练。

可选地，所述训练样本还包括所述干扰信号；其中，将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码的步骤包括：将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码；其中，根据第一幅度谱掩码和所述干净语音信号，计算所述干扰信号消除模型的损失函数的步骤包括：根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数。

可选地，根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数的步骤包括：根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号；根据第二幅度谱掩码，确定预测的所述干扰信号；根据预测的消除了所述干扰信号后的所述麦克风信号和所述干净语音信号计算第一损失函数，根据预测的所述干扰信号和所述干扰信号计算第二损失函数，并基于第一损失函数和第二损失函数计算所述干扰信号消除模型的损失函数。

可选地，根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数的步骤包括：根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱和所述干净语音信号的幅度谱计算第三损失函数，根据预测的所述干扰信号的幅度谱和所述干扰信号的幅度谱计算第四损失函数，并基于第三损失函数和第四损失函数计算所述干扰信号消除模型的损失函数。

可选地，所述干扰信号消除模型包括交叉神经网络，所述交叉神经网络包括第一分支和第二分支两个分支，每个分支包括：N层二维卷积层、M层门控循环单元网络、一层全连接层、以及一层输出层；其中，N和M为大于0的整数。

可选地，在每个分支中，第一层二维卷积层的输入为所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱，第i层二维卷积层的输出分别作为该分支和另一分支中的第i+1层二维卷积层的输入，第N层二维卷积层的输出分别作为该分支和另一分支中的第一层门控循环单元网络的输入，第j层门控循环单元网络的输出分别作为该分支和另一分支中的第j+1层门控循环单元网络的输入；在第一分支中，M层门控循环单元网络的输出还作为第一分支中的全连接层的输入，第一分支中的全连接层的输出作为第一分支中的输出层的输入；在第二分支中，第M层门控循环单元网络的输出作为第二分支中的全连接层的输入，第二分支中的全连接层的输出作为第二分支中的输出层的输入；其中，i为大于0且小于N的整数，j为大于0且小于M的整数。

可选地，所述干扰信号还包括：环境噪声信号。

可选地，根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号的步骤包括：根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号；根据第二幅度谱掩码，确定预测的所述干扰信号的步骤包括：根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；根据预测的所述干扰信号的幅度谱，确定预测的所述干扰信号。

可选地，根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号的步骤包括：将第一幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述麦克风信号消除了所述干扰信号后的幅度谱；将预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的消除了所述干扰信号后的所述麦克风信号；根据第二幅度谱掩码，确定预测的所述干扰信号的步骤包括：将第二幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述干扰信号的幅度谱；将预测的所述干扰信号的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的所述干扰信号。

可选地，根据所述远端参考信号，对所述麦克风信号进行线性回声消除的步骤包括：将所述远端参考信号与所述麦克风信号进行对齐处理；使用双滤波算法，根据与所述麦克风信号对齐后的所述远端参考信号，获取所述麦克风信号消除了线性回声后的频谱；获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱的步骤包括：根据所述麦克风信号消除了线性回声后的频谱，获取所述麦克风信号消除了线性回声后的幅度谱；根据对齐后的所述远端参考信号的频谱，获取所述远端参考信号的幅度谱。

可选地，将所述远端参考信号与所述麦克风信号进行对齐处理的步骤包括：预测所述麦克风信号与所述远端参考信号之间的延迟，并基于预测的延迟，获取与所述麦克风信号对齐后的所述远端参考信号。

根据本公开实施例的第二方面，提供一种干扰信号消除方法，包括：根据远端参考信号，对麦克风信号进行线性回声消除，其中，所述麦克风信号包括所述远端参考信号的回声信号；获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱；将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了干扰信号后的幅度谱掩码；根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号。

可选地，所述干扰信号包括：所述远端参考信号的回声信号；或者，所述干扰信号包括：环境噪声信号和所述远端参考信号的回声信号。

可选地，所述干扰信号消除模型包括交叉神经网络，所述交叉神经网络用于同时预测第一幅度谱掩码和第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码。

可选地，所述交叉神经网络包括第一分支和第二分支两个分支，每个分支包括：N层二维卷积层、M层门控循环单元网络、一层全连接层、以及一层输出层；其中，N和M为大于0的整数。

可选地，根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号的步骤包括：根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号。

可选地，根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱的步骤包括：将第一幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述麦克风信号消除了所述干扰信号后的幅度谱；

和/或

根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号的步骤包括：将预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的消除了所述干扰信号后的所述麦克风信号。

可选地，将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码的步骤包括：将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码；其中，所述干扰信号消除方法还包括：基于第二幅度谱掩码，获取预测的所述干扰信号。

可选地，所述干扰信号消除模型是使用如上所述的训练方法训练得到的。

根据本公开实施例的第三方面，提供一种干扰信号消除模型的训练设备，包括：训练样本获取单元，被配置为获取包括麦克风信号、远端参考信号、以及干净语音信号的训练样本，其中，所述麦克风信号是基于所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述远端参考信号的回声信号；线性回声消除单元，被配置为根据所述远端参考信号，对所述麦克风信号进行线性回声消除；幅度谱获取单元，被配置为获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱；幅度谱掩码获取单元，被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了所述干扰信号后的幅度谱掩码；损失函数计算单元，被配置为根据第一幅度谱掩码和所述干净语音信号，计算所述干扰信号消除模型的损失函数；模型参数调整单元，被配置为通过根据所述损失函数调整所述干扰信号消除模型的模型参数，对所述干扰信号消除模型进行训练。

可选地，所述训练样本还包括所述干扰信号；其中，幅度谱掩码获取单元被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码；其中，损失函数计算单元被配置为根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数。

可选地，损失函数计算单元被配置为根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号；根据第二幅度谱掩码，确定预测的所述干扰信号；根据预测的消除了所述干扰信号后的所述麦克风信号和所述干净语音信号计算第一损失函数，根据预测的所述干扰信号和所述干扰信号计算第二损失函数，并基于第一损失函数和第二损失函数计算所述干扰信号消除模型的损失函数。

可选地，损失函数计算单元被配置为根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱和所述干净语音信号的幅度谱计算第三损失函数，根据预测的所述干扰信号的幅度谱和所述干扰信号的幅度谱计算第四损失函数，并基于第三损失函数和第四损失函数计算所述干扰信号消除模型的损失函数。

可选地，所述干扰信号还包括：环境噪声信号。

可选地，损失函数计算单元被配置为根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号；损失函数计算单元被配置为根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；根据预测的所述干扰信号的幅度谱，确定预测的所述干扰信号。

可选地，损失函数计算单元被配置为将第一幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述麦克风信号消除了所述干扰信号后的幅度谱；将预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的消除了所述干扰信号后的所述麦克风信号；损失函数计算单元被配置为将第二幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述干扰信号的幅度谱；将预测的所述干扰信号的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的所述干扰信号。

可选地，线性回声消除单元被配置为将所述远端参考信号与所述麦克风信号进行对齐处理；使用双滤波算法，根据与所述麦克风信号对齐后的所述远端参考信号，获取所述麦克风信号消除了线性回声后的频谱；幅度谱获取单元被配置为根据所述麦克风信号消除了线性回声后的频谱，获取所述麦克风信号消除了线性回声后的幅度谱；根据对齐后的所述远端参考信号的频谱，获取所述远端参考信号的幅度谱。

可选地，线性回声消除单元被配置为预测所述麦克风信号与所述远端参考信号之间的延迟，并基于预测的延迟，获取与所述麦克风信号对齐后的所述远端参考信号。

根据本公开实施例的第四方面，提供一种干扰信号消除设备，包括：线性回声消除单元，被配置为根据远端参考信号，对麦克风信号进行线性回声消除，其中，所述麦克风信号包括所述远端参考信号的回声信号；幅度谱获取单元，被配置为获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱；幅度谱掩码获取单元，被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了干扰信号后的幅度谱掩码；干净信号确定单元，被配置为根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号。

可选地，干净信号确定单元被配置为根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号。

可选地，干净信号确定单元被配置为将第一幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述麦克风信号消除了所述干扰信号后的幅度谱；和/或干净信号确定单元被配置为将预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的消除了所述干扰信号后的所述麦克风信号。

可选地，幅度谱掩码获取单元被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码；其中，所述设备还包括：干扰信号获取单元，被配置为基于第二幅度谱掩码，获取预测的所述干扰信号。

可选地，所述干扰信号消除模型是使用如上所述的训练设备训练得到的。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的干扰信号消除模型的训练方法和/或如上所述的干扰信号消除方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的干扰信号消除模型的训练方法和/或如上所述的干扰信号消除方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开示例性实施例的干扰信号消除模型的训练方法和干扰信号消除方法及设备，先去除麦克风信号的线性回声部分，然后再将线性回声消除后的麦克风信号的幅度谱输入到干扰信号消除模型来预测消除了干扰信号的麦克风信号，通过将用于消除线性回声的信号处理方式和机器学习模型相结合，能够很好地消除麦克风信号中的回声又保留近端语音，并且有助于简化所使用的干扰信号消除模型（例如，减小干扰信号消除模型的参数量），从而能够有效降低训练模型的计算量、使用模型预测时的计算量以满足实时处理的需求；

此外，根据本公开示例性实施例的干扰信号消除模型的训练方法和干扰信号消除方法及设备，针对线性回声消除后残留的回声和噪声，提出一种交叉神经网络从两个分支来预测消除了干扰信号的麦克风信号和干扰信号，相对于单预测目标任务能够有效增强模型的泛化能力，并且两个分支之间有多个交叉连接共享双支之间的信息提升了两个任务的预测效果，从而即使由于现实生活包含各种复杂场景，训练数据难以覆盖，本公开也能够达到很好的预测效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开示例性实施例的干扰信号消除方法及设备的实施场景的示意图。

图2示出根据本公开示例性实施例的干扰信号消除模型的训练方法的流程图。

图3示出根据本公开示例性实施例的交叉神经网络的示例。

图4示出根据本公开示例性实施例的干扰信号消除方法的流程图。

图5示出根据本公开示例性实施例的干扰信号消除方法的示例。

图6示出根据本公开示例性实施例的干扰信号消除模型的训练设备的结构框图。

图7示出根据本公开示例性实施例的干扰信号消除设备的结构框图。

图8示出根据本公开示例性实施例的电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：（1）包括A；（2）包括B；（3）包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：（1）执行步骤一；（2）执行步骤二；（3）执行步骤一和步骤二。

参照图1，在通信双方（或更多方）进行语音通信的场景下，本端（以下，也称为近端）和其他端（以下，也称为远端）进行语音通信时，本端的麦克风可采集本端的音频信号（例如，包括用户的声音的音频信号）发送到远端，并且通过本端的扬声器播放从远端接收的音频信号（以下，也称为远端参考信号，例如，远端的麦克风所采集的包括用户的声音的音频信号），本端的扬声器播放远端参考信号所发出的声音会被本端的麦克风采集到，换言之，麦克风信号中会包括远端参考信号的回声信号，如果不从麦克风信号中去除远端参考信号的回声信号，远端的用户可以听到自己被延迟的声音。因此，需要将麦克风信号中的远端参考信号的回声信号消除，又要很好地保留麦克风采集到的近端的有用音频（例如，用户的语音），此外，本端的麦克风采集到的环境噪声也需要从麦克风信号中消除。通过根据本公开的干扰信号消除方法及设备，能够很好地将麦克风信号中的远端参考信号的回声信号消除并保留近端的语音信号，使得远端的用户不会听到自己的回声，提高了收听人的用户体验。当然，根据本公开的干扰信号消除方法及设备不仅可应用于上述场景，还可应用于任何需要从麦克风信号中消除回声信号的场景。

参照图2，在步骤S101，获取包括麦克风信号、远端参考信号、以及干净语音信号的训练样本。

这里，所述麦克风信号是基于所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述远端参考信号的回声信号。

应该理解，可使用各种适当的方式基于所述远端参考信号，生成所述远端参考信号的回声信号，本公开对此不作限制。

作为示例，所述远端参考信号可以是语音信号。

作为示例，所述干扰信号还可包括：环境噪声信号。

在步骤S102，根据所述远端参考信号，对所述麦克风信号进行线性回声消除。

作为示例，可使用各种适当的方式根据所述远端参考信号对所述麦克风信号进行线性回声消除，即，从所述麦克风信号中消除线性回声部分。例如，可使用双滤波算法，基于所述远端参考信号，对所述麦克风信号进行线性回声消除。例如，可使用自适应滤波器估计从扬声器到麦克风的回声路径，并从麦克风信号中减去估计的回声信号。例如，可使用基于双滤波器的线性回声消除算法消除所述麦克风信号中的线性回声部分。

在步骤S103，获取所述麦克风信号消除了线性回声后的幅度谱（也即，线性回声消除后的所述麦克风信号的频谱）和所述远端参考信号的幅度谱。

作为示例，可将所述远端参考信号与所述麦克风信号进行对齐处理；并根据对齐后的所述远端参考信号，获取所述远端参考信号的幅度谱。此外，还可基于与所述麦克风信号对齐后的所述远端参考信号，对所述麦克风信号进行线性回声消除，并获取所述麦克风信号消除了线性回声后的幅度谱。

应该理解，可使用各种适当的方式来将所述远端参考信号与所述麦克风信号进行对齐处理，作为示例，可预测所述麦克风信号与所述远端参考信号之间的延迟，并基于预测的延迟，获取与所述麦克风信号对齐后的所述远端参考信号。例如，可根据互相关性，预测所述麦克风信号与所述远端参考信号之间的延迟。

作为示例，可将所述远端参考信号与所述麦克风信号进行对齐处理；并使用双滤波算法，根据与所述麦克风信号对齐后的所述远端参考信号，获取所述麦克风信号消除了线性回声后的频谱。

作为示例，可根据所述麦克风信号消除了线性回声后的频谱，获取所述麦克风信号消除了线性回声后的幅度谱；根据对齐后的所述远端参考信号的频谱，获取所述远端参考信号的幅度谱。

作为示例，可通过式（1）根据线性回声消除后的所述麦克风信号的频谱

获取线性回声消除后的所述麦克风信号的幅度谱

，可通过式（2）根据对齐后的所述远端参考信号的频谱

获取对齐后的所述远端参考信号的幅度谱

：

（1）

（2）

其中，n为帧序列，

，

为总帧数；k为频率序列，

，

为总频点数。

在步骤S104，将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码mask，其中，第一幅度谱掩码是所述麦克风信号消除了所述干扰信号后的幅度谱掩码（也即，消除了所述干扰信号后的所述麦克风信号的幅度谱掩码）。

作为示例，可将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码。即，所述干扰信号消除模型可实现针对两个目标的拟合，也即双预测任务，相比单预测任务，能够大幅提高模型的泛化能力。

作为示例，所述干扰信号消除模型可包括交叉神经网络，所述交叉神经网络包括第一分支和第二分支两个分支。作为示例，每个分支可包括：N层二维卷积层（Conv2d）、M层门控循环单元网络（GRU）、一层全连接层（Dense）、以及一层输出层，其中，N和M为大于0的整数。例如，所述输出层可使用Sigmoid函数。

作为示例，在每个分支中，第一层二维卷积层的输入为所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱，第i层二维卷积层的输出分别作为该分支和另一分支中的第i+1层二维卷积层的输入，第N层二维卷积层的输出分别作为该分支和另一分支中的第一层门控循环单元网络的输入，第j层门控循环单元网络的输出分别作为该分支和另一分支中的第j+1层门控循环单元网络的输入。其中，i为大于0且小于N的整数，j为大于0且小于M的整数。

作为示例，在第一分支中，M层门控循环单元网络的输出还可作为第一分支中的全连接层的输入，第一分支中的全连接层的输出作为第一分支中的输出层的输入，第一分支中的输出层用于输出预测的第一幅度谱掩码。

作为示例，在第二分支中，第M层门控循环单元网络的输出作为第二分支中的全连接层的输入，第二分支中的全连接层的输出作为第二分支中的输出层的输入，第二分支中的输出层用于输出预测的第二幅度谱掩码。

图3示出根据本公开示例性实施例的交叉神经网络的示例。如图3所示，每个分支包括：4层卷积层（Conv block）、3层门控循环单元网络（GRU block）、一层全连接层（Dense）、以及一层输出层（Sigmoid）。

在步骤S105，根据第一幅度谱掩码和所述干净语音信号，计算所述干扰信号消除模型的损失函数。

作为示例，当所述干扰信号消除模型用于预测第一幅度谱掩码和第二幅度谱掩码两者时，可根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数。

作为示例，用于训练所述干扰信号消除模型的损失函数可以是：基于关于预测的消除了所述干扰信号后的所述麦克风信号与所述干净语音信号的损失函数、关于预测的所述干扰信号与所述干扰信号的损失函数两者得到的总的损失函数。

作为示例，所述干扰信号消除模型的损失函数

可如式（3）所示：

（3）

其中，

表示关于预测的消除了所述干扰信号后的所述麦克风信号

与所述干净语音信号

的损失函数，

表示关于预测的所述干扰信号

与所述干扰信号

的损失函数。

作为示例，

函数可使用各种适合的损失函数，例如，时域损失函数或频谱距离损失函数或两种损失函数的结合。

在一个示例中，可先根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号；根据第二幅度谱掩码，确定预测的所述干扰信号；然后，根据预测的消除了所述干扰信号后的所述麦克风信号与所述干净语音信号、预测的所述干扰信号与所述干扰信号，计算所述干扰信号消除模型的损失函数。

这里，预测的消除了所述干扰信号后的所述麦克风信号也即预测的所述麦克风信号中的所述干净语音信号，也即从所述麦克风信号中分离出的所述干净语音信号。

作为示例，可先根据预测的消除了所述干扰信号后的所述麦克风信号和所述干净语音信号计算第一损失函数，根据预测的所述干扰信号和所述干扰信号计算第二损失函数；然后基于第一损失函数和第二损失函数计算所述干扰信号消除模型的损失函数。

例如，第一损失函数

可如式（4）所示，其中，

，

表示预测的消除了所述干扰信号后的所述麦克风信号，

表示所述干净语音信号。

（4）

在另一示例中，可先根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；然后，根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述干净语音信号的幅度谱、预测的所述干扰信号的幅度谱与所述干扰信号的幅度谱，计算所述干扰信号消除模型的损失函数。

作为示例，可根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱和所述干净语音信号的幅度谱计算第三损失函数，根据预测的所述干扰信号的幅度谱和所述干扰信号的幅度谱计算第四损失函数；然后基于第三损失函数和第四损失函数计算所述干扰信号消除模型的损失函数。

例如，第三损失函数

可如式（5）所示，其中，

表示预测的所述麦克风信号消除了所述干扰信号后的幅度谱，

表示所述干净语音信号的幅度谱。

（5）

作为示例，根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号的步骤可包括：根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；并根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号。

作为示例，可将第一幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述麦克风信号消除了所述干扰信号后的幅度谱。作为示例，可将预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换（（例如，短时傅里叶逆变换（Inverse Short-Time Fourier Transform，ISTFT））），以获得预测的消除了所述干扰信号后的所述麦克风信号。

作为示例，可通过式（6），根据第一幅度谱掩码

，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱

，并可通过式（7），根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱

，获取预测的消除了所述干扰信号后的所述麦克风信号

：

（6）

（7）

其中，

表示所述麦克风信号的幅度谱，

表示所述麦克风信号的相位谱。

作为示例，根据第二幅度谱掩码，确定预测的所述干扰信号的步骤可包括：根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；并根据预测的所述干扰信号的幅度谱，确定预测的所述干扰信号。

作为示例，可将第二幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述干扰信号的幅度谱。作为示例，可将预测的所述干扰信号的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的所述干扰信号。

作为示例，可通过式（8）根据第二幅度谱掩码

，确定预测的所述干扰信号的幅度谱

，并通过式（9）根据预测的所述干扰信号的幅度谱

，获取预测的所述干扰信号

：

（8）

（9）

其中，

表示所述麦克风信号的幅度谱，

表示所述麦克风信号的相位谱。

在步骤S106，通过根据所述损失函数调整所述干扰信号消除模型的模型参数，对所述干扰信号消除模型进行训练。

应该理解，可以进行多轮训练，每轮训练可使用至少一个训练样本进行训练。

参照图4，在步骤S201，根据远端参考信号，对麦克风信号进行线性回声消除。

这里，所述麦克风信号即麦克风采集的信号，所述麦克风信号包括所述远端参考信号的回声信号。例如，所述远端参考信号可以是所述麦克风信号被麦克风采集时被扬声器播放的信号。例如，所述麦克风和所述扬声器可为近端（例如，本端或本端附近）的麦克风和扬声器，例如，所述麦克风和所述扬声器可被配置在本端同一或不同电子设备上。作为示例，所述远端参考信号可为与本端通信的对方通信端（也称为远端）的麦克风采集的麦克风信号，本端接收到所述远端参考信号后会通过扬声器进行播放。

在步骤S202，获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱。

作为示例，步骤S201可包括：将所述远端参考信号与所述麦克风信号进行对齐处理；并使用双滤波算法，根据与所述麦克风信号对齐后的所述远端参考信号，获取所述麦克风信号消除了线性回声后的频谱。

作为示例，步骤S202可包括：根据所述麦克风信号消除了线性回声后的频谱，获取所述麦克风信号消除了线性回声后的幅度谱；并根据对齐后的所述远端参考信号的频谱，获取所述远端参考信号的幅度谱。

作为示例，可预测所述麦克风信号与所述远端参考信号之间的延迟，并基于预测的延迟，获取与所述麦克风信号对齐后的所述远端参考信号。

在步骤S203，将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了干扰信号后的幅度谱掩码。

作为示例，所述干扰信号消除模型可以是使用如上述示例性实施例所述的训练方法训练得到的。

作为示例，所述干扰信号可包括：所述远端参考信号的回声信号。作为另一示例，所述干扰信号可包括：环境噪声信号和所述远端参考信号的回声信号。

作为示例，所述干扰信号消除模型可包括交叉神经网络，所述交叉神经网络用于同时预测第一幅度谱掩码和第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码。

作为示例，所述交叉神经网络可包括第一分支和第二分支两个分支，每个分支可包括：N层二维卷积层、M层门控循环单元网络、一层全连接层、以及一层输出层，其中，N和M为大于0的整数。

作为示例，在第一分支中，M层门控循环单元网络的输出还作为第一分支中的全连接层的输入，第一分支中的全连接层的输出作为第一分支中的输出层的输入。

作为示例，在第二分支中，第M层门控循环单元网络的输出作为第二分支中的全连接层的输入，第二分支中的全连接层的输出作为第二分支中的输出层的输入。

在步骤S204，根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号。

作为示例，可根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；并根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号。

作为示例，可将第一幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述麦克风信号消除了所述干扰信号后的幅度谱。

作为示例，可将预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的消除了所述干扰信号后的所述麦克风信号。

作为示例，步骤S203可包括：将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码。相应地，根据本公开示例性实施例的干扰信号消除方法还可包括：基于第二幅度谱掩码，获取预测的所述干扰信号。

如图5所示，可基于远端参考信号对近端麦克风信号进行线性回声消除，然后将远端参考信号的幅度谱和线性回声消除后的近端麦克风信号的幅度谱输入到交叉神经网络，并基于交叉神经网络的输出得到干扰信号和干净的近端语音信号。

作为示例，可使用各种适当的方式对麦克风信号进行线性回声消除，即，从麦克风信号中消除线性回声部分。例如，可使用线性滤波器（例如，自适应滤波器或双滤波器）估计从扬声器到麦克风的回声路径，并从麦克风信号中减去估计的回声信号。作为示例，可将线性滤波器的频域输出和远端参考信号的频域特征直接作为交叉神经网络的输入，以避免整个系统的额外延迟。

根据本公开示例性实施例的干扰信号消除方法中的具体处理，已经在上述相关的干扰信号消除模型的训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6示出根据本公开示例性实施例的干扰信号消除模型的训练设备10的结构框图。

如图6所示，根据本公开示例性实施例的干扰信号消除模型的训练设备10包括：训练样本获取单元101、线性回声消除单元102、幅度谱获取单元103、幅度谱掩码获取单元104、损失函数计算单元105、以及模型参数调整单元106。

具体说来，训练样本获取单元101被配置为获取包括麦克风信号、远端参考信号、以及干净语音信号的训练样本，其中，所述麦克风信号是基于所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述远端参考信号的回声信号。

线性回声消除单元102被配置为根据所述远端参考信号，对所述麦克风信号进行线性回声消除。

幅度谱获取单元103被配置为获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱。

幅度谱掩码获取单元104被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了所述干扰信号后的幅度谱掩码。

损失函数计算单元105被配置为根据第一幅度谱掩码和所述干净语音信号，计算所述干扰信号消除模型的损失函数。

模型参数调整单元106被配置为通过根据所述损失函数调整所述干扰信号消除模型的模型参数，对所述干扰信号消除模型进行训练。

作为示例，所述训练样本还可包括所述干扰信号；其中，幅度谱掩码获取单元104可被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码；其中，损失函数计算单元105可被配置为根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数。

作为示例，损失函数计算单元105可被配置为根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号；根据第二幅度谱掩码，确定预测的所述干扰信号；根据预测的消除了所述干扰信号后的所述麦克风信号和所述干净语音信号计算第一损失函数，根据预测的所述干扰信号和所述干扰信号计算第二损失函数，并基于第一损失函数和第二损失函数计算所述干扰信号消除模型的损失函数。

作为示例，损失函数计算单元105可被配置为根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱和所述干净语音信号的幅度谱计算第三损失函数，根据预测的所述干扰信号的幅度谱和所述干扰信号的幅度谱计算第四损失函数，并基于第三损失函数和第四损失函数计算所述干扰信号消除模型的损失函数。

作为示例，所述干扰信号消除模型可包括交叉神经网络，所述交叉神经网络可包括第一分支和第二分支两个分支，每个分支可包括：N层二维卷积层、M层门控循环单元网络、一层全连接层、以及一层输出层；其中，N和M为大于0的整数。

作为示例，在每个分支中，第一层二维卷积层的输入为所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱，第i层二维卷积层的输出分别作为该分支和另一分支中的第i+1层二维卷积层的输入，第N层二维卷积层的输出分别作为该分支和另一分支中的第一层门控循环单元网络的输入，第j层门控循环单元网络的输出分别作为该分支和另一分支中的第j+1层门控循环单元网络的输入；在第一分支中，M层门控循环单元网络的输出还作为第一分支中的全连接层的输入，第一分支中的全连接层的输出作为第一分支中的输出层的输入；在第二分支中，第M层门控循环单元网络的输出作为第二分支中的全连接层的输入，第二分支中的全连接层的输出作为第二分支中的输出层的输入；其中，i为大于0且小于N的整数，j为大于0且小于M的整数。

作为示例，所述干扰信号还可包括：环境噪声信号。

作为示例，损失函数计算单元105可被配置为根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号；损失函数计算单元105可被配置为根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；根据预测的所述干扰信号的幅度谱，确定预测的所述干扰信号。

作为示例，损失函数计算单元105可被配置为将第一幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述麦克风信号消除了所述干扰信号后的幅度谱；将预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的消除了所述干扰信号后的所述麦克风信号；损失函数计算单元105可被配置为将第二幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述干扰信号的幅度谱；将预测的所述干扰信号的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的所述干扰信号。

作为示例，线性回声消除单元102可被配置为将所述远端参考信号与所述麦克风信号进行对齐处理；使用双滤波算法，根据与所述麦克风信号对齐后的所述远端参考信号，获取所述麦克风信号消除了线性回声后的频谱。

作为示例，幅度谱获取单元103可被配置为根据所述麦克风信号消除了线性回声后的频谱，获取所述麦克风信号消除了线性回声后的幅度谱；根据对齐后的所述远端参考信号的频谱，获取所述远端参考信号的幅度谱。

作为示例，线性回声消除单元102可被配置为预测所述麦克风信号与所述远端参考信号之间的延迟，并基于预测的延迟，获取与所述麦克风信号对齐后的所述远端参考信号。

图7示出根据本公开示例性实施例的干扰信号消除设备20的结构框图。

如图7所示，根据本公开示例性实施例的干扰信号消除设备20包括：线性回声消除单元201、幅度谱获取单元202、幅度谱掩码获取单元203、以及干净信号确定单元204。

具体说来，线性回声消除单元201被配置为根据远端参考信号，对麦克风信号进行线性回声消除，其中，所述麦克风信号包括所述远端参考信号的回声信号。

幅度谱获取单元202被配置为获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱。

幅度谱掩码获取单元203被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了干扰信号后的幅度谱掩码。

干净信号确定单元204被配置为根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号。

作为示例，所述干扰信号可包括：所述远端参考信号的回声信号；或者，所述干扰信号包括：环境噪声信号和所述远端参考信号的回声信号。

作为示例，所述干扰信号消除模型可包括交叉神经网络，所述交叉神经网络可用于同时预测第一幅度谱掩码和第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码。

作为示例，所述交叉神经网络可包括第一分支和第二分支两个分支，每个分支可包括：N层二维卷积层、M层门控循环单元网络、一层全连接层、以及一层输出层；其中，N和M为大于0的整数。

作为示例，干净信号确定单元204可被配置为根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号。

作为示例，干净信号确定单元204可被配置为将第一幅度谱掩码与所述麦克风信号的幅度谱相乘，获得预测的所述麦克风信号消除了所述干扰信号后的幅度谱；和/或干净信号确定单元204可被配置为将预测的所述麦克风信号消除了所述干扰信号后的幅度谱与所述麦克风信号的相位谱结合并执行时频逆变换，以获得预测的消除了所述干扰信号后的所述麦克风信号。

作为示例，线性回声消除单元201可被配置为将所述远端参考信号与所述麦克风信号进行对齐处理；使用双滤波算法，根据与所述麦克风信号对齐后的所述远端参考信号，获取所述麦克风信号消除了线性回声后的频谱。

作为示例，幅度谱获取单元202可被配置为根据所述麦克风信号消除了线性回声后的频谱，获取所述麦克风信号消除了线性回声后的幅度谱；根据对齐后的所述远端参考信号的频谱，获取所述远端参考信号的幅度谱。

作为示例，线性回声消除单元201可被配置为预测所述麦克风信号与所述远端参考信号之间的延迟，并基于预测的延迟，获取与所述麦克风信号对齐后的所述远端参考信号。

作为示例，幅度谱掩码获取单元203可被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码；其中，所述设备20还可包括：干扰信号获取单元（未示出），干扰信号获取单元被配置为基于第二幅度谱掩码，获取预测的所述干扰信号。

作为示例，所述干扰信号消除模型可以是使用如上述示例性实施例所述的训练设备10训练得到的。

关于上述实施例中的设备，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，应该理解，根据本公开示例性实施例的干扰信号消除模型的训练设备10和干扰信号消除设备20中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列（FPGA）或专用集成电路（ASIC）来实现各个单元。

图8示出根据本公开示例性实施例的电子设备的结构框图。参照图8，该电子设备30包括：至少一个存储器301和至少一个处理器302，所述至少一个存储器301中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器302执行时，执行如上述示例性实施例所述的干扰信号消除模型的训练方法和/或干扰信号消除方法。

作为示例，电子设备30可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备30并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令（或指令集）的装置或电路的集合体。电子设备30还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程（例如，经由无线传输）以接口互联的便携式电子设备。

在电子设备30中，处理器302可包括中央处理器（CPU）、图形处理器（GPU）、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器302还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器302可运行存储在存储器301中的指令或代码，其中，存储器301还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器301可与处理器302集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器301可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器301和处理器302可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器302能够读取存储在存储器中的文件。

此外，电子设备30还可包括视频显示器（诸如，液晶显示器）和用户交互接口（诸如，键盘、鼠标、触摸输入装置等）。电子设备30的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行如上述示例性实施例所述的干扰信号消除模型的训练方法和/或干扰信号消除方法。这里的计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种干扰信号消除模型的训练方法，其特征在于，包括：

获取包括麦克风信号、远端参考信号、干扰信号、以及干净语音信号的训练样本，其中，所述麦克风信号是基于所述干净语音信号添加所述干扰信号得到的，所述干扰信号包括所述远端参考信号的回声信号；

根据所述远端参考信号，对所述麦克风信号进行线性回声消除；

获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱；

将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了所述干扰信号后的幅度谱掩码，第二幅度谱掩码为所述干扰信号的幅度谱掩码；

根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数；

通过根据所述损失函数调整所述干扰信号消除模型的模型参数，对所述干扰信号消除模型进行训练。

2.根据权利要求1所述的训练方法，其特征在于，根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数的步骤包括：

根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号；

根据第二幅度谱掩码，确定预测的所述干扰信号；

根据预测的消除了所述干扰信号后的所述麦克风信号和所述干净语音信号计算第一损失函数，根据预测的所述干扰信号和所述干扰信号计算第二损失函数，并基于第一损失函数和第二损失函数计算所述干扰信号消除模型的损失函数。

3.根据权利要求1所述的训练方法，其特征在于，根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数的步骤包括：

根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；

根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；

根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱和所述干净语音信号的幅度谱计算第三损失函数，根据预测的所述干扰信号的幅度谱和所述干扰信号的幅度谱计算第四损失函数，并基于第三损失函数和第四损失函数计算所述干扰信号消除模型的损失函数。

4.根据权利要求1所述的训练方法，其特征在于，所述干扰信号消除模型包括交叉神经网络，所述交叉神经网络包括第一分支和第二分支两个分支，每个分支包括：N层二维卷积层、M层门控循环单元网络、一层全连接层、以及一层输出层；

其中，N和M为大于0的整数。

5.根据权利要求4所述的训练方法，其特征在于，在每个分支中，第一层二维卷积层的输入为所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱，第i层二维卷积层的输出分别作为该分支和另一分支中的第i+1层二维卷积层的输入，第N层二维卷积层的输出分别作为该分支和另一分支中的第一层门控循环单元网络的输入，第j层门控循环单元网络的输出分别作为该分支和另一分支中的第j+1层门控循环单元网络的输入；

在第一分支中，M层门控循环单元网络的输出还作为第一分支中的全连接层的输入，第一分支中的全连接层的输出作为第一分支中的输出层的输入；

在第二分支中，第M层门控循环单元网络的输出作为第二分支中的全连接层的输入，第二分支中的全连接层的输出作为第二分支中的输出层的输入；

其中，i为大于0且小于N的整数，j为大于0且小于M的整数。

6.根据权利要求2所述的训练方法，其特征在于，根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号的步骤包括：根据第一幅度谱掩码，确定预测的所述麦克风信号消除了所述干扰信号后的幅度谱；根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号；

根据第二幅度谱掩码，确定预测的所述干扰信号的步骤包括：根据第二幅度谱掩码，确定预测的所述干扰信号的幅度谱；根据预测的所述干扰信号的幅度谱，确定预测的所述干扰信号。

7.根据权利要求1所述的训练方法，其特征在于，

根据所述远端参考信号，对所述麦克风信号进行线性回声消除的步骤包括：将所述远端参考信号与所述麦克风信号进行对齐处理；使用双滤波算法，根据与所述麦克风信号对齐后的所述远端参考信号，获取所述麦克风信号消除了线性回声后的频谱；

获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱的步骤包括：根据所述麦克风信号消除了线性回声后的频谱，获取所述麦克风信号消除了线性回声后的幅度谱；根据对齐后的所述远端参考信号的频谱，获取所述远端参考信号的幅度谱。

8.一种干扰信号消除方法，其特征在于，包括：

根据远端参考信号，对麦克风信号进行线性回声消除，其中，所述麦克风信号包括所述远端参考信号的回声信号；

将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了干扰信号后的幅度谱掩码；

其中，所述干扰信号消除模型包括交叉神经网络，所述交叉神经网络用于同时预测第一幅度谱掩码和第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码。

9.根据权利要求8所述的干扰信号消除方法，其特征在于，所述干扰信号包括：所述远端参考信号的回声信号；或者，所述干扰信号包括：环境噪声信号和所述远端参考信号的回声信号。

10.根据权利要求8所述的干扰信号消除方法，其特征在于，所述交叉神经网络包括第一分支和第二分支两个分支，每个分支包括：N层二维卷积层、M层门控循环单元网络、一层全连接层、以及一层输出层；

其中，N和M为大于0的整数。

11.根据权利要求10所述的干扰信号消除方法，其特征在于，在每个分支中，第一层二维卷积层的输入为所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱，第i层二维卷积层的输出分别作为该分支和另一分支中的第i+1层二维卷积层的输入，第N层二维卷积层的输出分别作为该分支和另一分支中的第一层门控循环单元网络的输入，第j层门控循环单元网络的输出分别作为该分支和另一分支中的第j+1层门控循环单元网络的输入；

其中，i为大于0且小于N的整数，j为大于0且小于M的整数。

12.根据权利要求8所述的干扰信号消除方法，其特征在于，根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号的步骤包括：

根据预测的所述麦克风信号消除了所述干扰信号后的幅度谱，确定预测的消除了所述干扰信号后的所述麦克风信号。

13.根据权利要求8所述的干扰信号消除方法，其特征在于，

14.根据权利要求8所述的干扰信号消除方法，其特征在于，将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码的步骤包括：将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到所述干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第二幅度谱掩码为所述干扰信号的幅度谱掩码；

其中，所述干扰信号消除方法还包括：基于第二幅度谱掩码，获取预测的所述干扰信号。

15.根据权利要求8所述的干扰信号消除方法，其特征在于，所述干扰信号消除模型是使用如权利要求1至7中任意一项权利要求所述的训练方法训练得到的。

16.一种干扰信号消除模型的训练设备，其特征在于，包括：

训练样本获取单元，被配置为获取包括麦克风信号、远端参考信号、干扰信号、以及干净语音信号的训练样本，其中，所述麦克风信号是基于所述干净语音信号添加所述干扰信号得到的，所述干扰信号包括所述远端参考信号的回声信号；

线性回声消除单元，被配置为根据所述远端参考信号，对所述麦克风信号进行线性回声消除；

幅度谱获取单元，被配置为获取所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱；

幅度谱掩码获取单元，被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码和预测的第二幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了所述干扰信号后的幅度谱掩码，第二幅度谱掩码为所述干扰信号的幅度谱掩码；

损失函数计算单元，被配置为根据第一幅度谱掩码、第二幅度谱掩码、所述干净语音信号、以及所述干扰信号，计算所述干扰信号消除模型的损失函数；

模型参数调整单元，被配置为通过根据所述损失函数调整所述干扰信号消除模型的模型参数，对所述干扰信号消除模型进行训练。

17.一种干扰信号消除设备，其特征在于，包括：

线性回声消除单元，被配置为根据远端参考信号，对麦克风信号进行线性回声消除，其中，所述麦克风信号包括所述远端参考信号的回声信号；

幅度谱掩码获取单元，被配置为将所述麦克风信号消除了线性回声后的幅度谱和所述远端参考信号的幅度谱输入到干扰信号消除模型，得到预测的第一幅度谱掩码，其中，第一幅度谱掩码是所述麦克风信号消除了干扰信号后的幅度谱掩码；

干净信号确定单元，被配置为根据第一幅度谱掩码，确定预测的消除了所述干扰信号后的所述麦克风信号；

18.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至7中任一项所述的干扰信号消除模型的训练方法或如权利要求8至15中任一项所述的干扰信号消除方法。

19.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至7中任一项所述的干扰信号消除模型的训练方法或如权利要求8至15中任一项所述的干扰信号消除方法。