CN114974286A

CN114974286A - 信号增强方法、模型训练方法、装置、设备、音箱及介质

Info

Publication number: CN114974286A
Application number: CN202210771743.3A
Authority: CN
Inventors: 韩润强; 赵昊然; 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-08-30

Abstract

本公开提供了一种信号增强方法、模型训练方法、装置、设备、音箱及介质。所述信号增强方法包括：获得待增强语音信号、线性回声消除信号和参考信号，其中，所述待增强语音信号包括所述参考信号的回声信号，所述线性回声消除信号是根据所述参考信号对所述待增强语音信号进行线性回声消除后得到的信号；将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码；根据所述幅度谱掩码和所述待增强语音信号，获得所述增强语音信号。

Description

信号增强方法、模型训练方法、装置、设备、音箱及介质

技术领域

本公开总体说来涉及音频技术领域，更具体地讲，涉及一种信号增强方法、模型训练方法、装置、设备、音箱及介质。

背景技术

语音增强算法在实时通信领域与语音识别领域有着广泛的应用。语音增强的目的是为了提高语音在复杂噪声环境下的信噪比和可懂度，从而提升人与人交流以及人与机器交互的体验。而在语音增强技术中，声学回声消除和噪声抑制又是其中重要的组成部分。目前常见的解决方案是基于传统信号处理的声学回声消除和噪声抑制。传统的方法能够在一定程度上提升语音信号的信噪比，但在愈发复杂的应用场景和噪声环境下，例如低信噪比的非稳态噪声环境下和低信回比的回声场景下，传统信号处理往往难以有效地降低噪声和回声。

发明内容

本公开的示例性实施例在于提供一种信号增强方法、模型训练方法、装置、设备、音箱及介质，其能够有效进行回声消除，且尽可能减少处理过程中所带来的语音失真。

根据本公开实施例的第一方面，提供一种信号增强方法，包括：获得待增强语音信号、线性回声消除信号和参考信号，其中，所述待增强语音信号包括所述参考信号的回声信号，所述线性回声消除信号是根据所述参考信号对所述待增强语音信号进行线性回声消除后得到的信号；将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码；根据所述幅度谱掩码和所述待增强语音信号，获得所述增强语音信号。

可选地，将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码的步骤包括：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码，其中，第一分支包括：N层卷积神经网络、M层门控循环单元网络、一层全连接层和一层输出层，第二分支包括：N层卷积神经网络和M-1层门控循环单元网络，其中，N和M为大于1的整数。

可选地，在每个分支中，第N-1层卷积神经网络的输出分别作为该分支和另一分支中的第N层卷积神经网络的输入，其中，第一分支中的第M-1层门控循环单元网络的输出和第二分支中的第M-1层门控循环单元网络的输出均作为第一分支中的第M层门控循环单元网络的输入。

可选地，第一分支中的M层门控循环单元网络的输出均作为第一分支中的全连接层的输入。

可选地，根据所述幅度谱掩码和所述待增强语音信号，获得所述增强语音信号的步骤包括：将所述幅度谱掩码和所述待增强语音信号的幅度谱相乘，获得所述增强语音信号的幅度谱；将所述增强语音信号的幅度谱与所述待增强语音信号的相位谱结合并对结合结果执行时频逆变换，获得所述增强语音信号。

可选地，获得所述线性回声消除信号的步骤包括：预测所述待增强语音信号与所述参考信号之间的延迟，并基于预测的延迟获取与所述待增强语音信号对齐后的参考信号；根据所述对齐后的参考信号，对所述待增强语音信号进行线性回声消除，得到所述线性回声消除信号。

根据本公开实施例的第二方面，提供一种信号增强模型的训练方法，包括：获取训练样本，其中，所述训练样本包括：含干扰语音信号、参考信号和干净语音信号，其中，所述含干扰语音信号是对所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述参考信号的回声信号；获得线性回声消除信号，其中，所述线性回声消除信号是根据所述参考信号对所述含干扰语音信号进行线性回声消除后得到的信号；将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到信号增强模型，得到所述含干扰语音信号对应的增强语音信号的幅度谱掩码；根据所述幅度谱掩码和所述含干扰语音信号，获得所述增强语音信号，并根据所述增强语音信号和所述干净语音信号，计算所述信号增强模型的损失函数；通过根据所述损失函数调整所述信号增强模型的模型参数，对所述信号增强模型进行训练。

可选地，所述训练样本还包括所述干扰信号；将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到信号增强模型，得到所述含干扰语音信号对应的增强语音信号的幅度谱掩码的步骤包括：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型，得到所述增强语音信号的幅度谱掩码和预测的所述含干扰语音信号中的干扰信号的幅度谱掩码；根据所述增强语音信号和所述干净语音信号，计算所述信号增强模型的损失函数的步骤包括：根据所述增强语音信号和所述干净语音信号、所述干扰信号和预测的干扰信号的幅度谱掩码，计算所述信号增强模型的损失函数。

可选地，将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型，得到所述增强语音信号的幅度谱掩码和预测的所述含干扰语音信号中的干扰信号的幅度谱掩码的步骤包括：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码和第二分支输出的预测的干扰信号的幅度谱掩码，其中，每个分支包括：N层卷积神经网络、M层门控循环单元网络、一层全连接层和一层输出层，其中，N和M为大于1的整数。

可选地，在每个分支中，第N-1层卷积神经网络的输出分别作为该分支和另一分支中的第N层卷积神经网络的输入，第M-1层门控循环单元网络的输出分别作为该分支和另一分支中的第M层门控循环单元网络的输入。

可选地，第一分支中的M层门控循环单元网络的输出均作为第一分支中的全连接层的输入；仅第二分支中的第M层门控循环单元网络的输出作为第二分支中的全连接层的输入。

可选地，根据所述幅度谱掩码和所述含干扰语音信号，获得所述增强语音信号的步骤包括：将所述幅度谱掩码和所述含干扰语音信号的幅度谱相乘，获得所述增强语音信号的幅度谱；将所述增强语音信号的幅度谱与所述含干扰语音信号的相位谱结合并对结合结果执行时频逆变换，获得所述增强语音信号。

可选地，获得所述线性回声消除信号的步骤包括：预测所述含干扰语音信号与所述参考信号之间的延迟，并基于预测的延迟获取与所述含干扰语音信号对齐后的参考信号；根据所述对齐后的参考信号，对所述含干扰语音信号进行线性回声消除，得到所述线性回声消除信号。

根据本公开实施例的第三方面，提供一种信号增强装置，包括：信号获取单元，被配置为获得待增强语音信号、线性回声消除信号和参考信号，其中，所述待增强语音信号包括所述参考信号的回声信号，所述线性回声消除信号是根据所述参考信号对所述待增强语音信号进行线性回声消除后得到的信号；预测单元，被配置为将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码；增强信号获取单元，被配置为根据所述幅度谱掩码和所述待增强语音信号，获得所述增强语音信号。

可选地，预测单元被配置为：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码，其中，第一分支包括：N层卷积神经网络、M层门控循环单元网络、一层全连接层和一层输出层，第二分支包括：N层卷积神经网络和M-1层门控循环单元网络，其中，N和M为大于1的整数。

可选地，增强信号获取单元被配置为：将所述幅度谱掩码和所述待增强语音信号的幅度谱相乘，获得所述增强语音信号的幅度谱；将所述增强语音信号的幅度谱与所述待增强语音信号的相位谱结合并对结合结果执行时频逆变换，获得所述增强语音信号。

可选地，信号获取单元被配置为：预测所述待增强语音信号与所述参考信号之间的延迟，并基于预测的延迟获取与所述待增强语音信号对齐后的参考信号；根据所述对齐后的参考信号，对所述待增强语音信号进行线性回声消除，得到所述线性回声消除信号。

根据本公开实施例的第四方面，提供一种信号增强模型的训练装置，包括：训练样本获取单元，被配置为获取训练样本，其中，所述训练样本包括：含干扰语音信号、参考信号和干净语音信号，其中，所述含干扰语音信号是对所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述参考信号的回声信号；回声消除信号获取单元，被配置为获得线性回声消除信号，其中，所述线性回声消除信号是根据所述参考信号对所述含干扰语音信号进行线性回声消除后得到的信号；预测单元，被配置为将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到信号增强模型，得到所述含干扰语音信号对应的增强语音信号的幅度谱掩码；损失函数计算单元，被配置为根据所述幅度谱掩码和所述含干扰语音信号，获得所述增强语音信号，并根据所述增强语音信号和所述干净语音信号，计算所述信号增强模型的损失函数；训练单元，被配置为通过根据所述损失函数调整所述信号增强模型的模型参数，对所述信号增强模型进行训练。

可选地，所述训练样本还包括所述干扰信号；预测单元被配置为：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型，得到所述增强语音信号的幅度谱掩码和预测的所述含干扰语音信号中的干扰信号的幅度谱掩码；损失函数计算单元被配置为：根据所述增强语音信号和所述干净语音信号、所述干扰信号和预测的干扰信号的幅度谱掩码，计算所述信号增强模型的损失函数。

可选地，预测单元被配置为：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码和第二分支输出的预测的干扰信号的幅度谱掩码，其中，每个分支包括：N层卷积神经网络、M层门控循环单元网络、一层全连接层和一层输出层，其中，N和M为大于1的整数。

可选地，损失函数计算单元被配置为：将所述幅度谱掩码和所述含干扰语音信号的幅度谱相乘，获得所述增强语音信号的幅度谱；将所述增强语音信号的幅度谱与所述含干扰语音信号的相位谱结合并对结合结果执行时频逆变换，获得所述增强语音信号。

可选地，回声消除信号获取单元被配置为：预测所述含干扰语音信号与所述参考信号之间的延迟，并基于预测的延迟获取与所述含干扰语音信号对齐后的参考信号；根据所述对齐后的参考信号，对所述含干扰语音信号进行线性回声消除，得到所述线性回声消除信号。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的信号增强方法和/或如上所述的信号增强模型的训练方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的信号增强方法和/或如上所述的信号增强模型的训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现如上所述的信号增强方法和/或如上所述的信号增强模型的训练方法。

根据本公开实施例的第八方面，提供一种音箱，包括：如上所述的信号增强装置。

根据本公开实施例的第九方面，提供一种音箱，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的信号增强方法。

根据本公开示例性实施例的信号增强方法、模型训练方法、装置、设备、音箱及介质，将原始待增强语音信号、参考信号以及线性回声消除信号相结合作为模型输入，并将原始待增强语音信号作为需要增强的信号，一方面提升了回声和噪声场景下的语音信噪比和可懂度，另一方面尽可能地减少线性回声消除处理过程中所带来的语音失真。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开示例性实施例的信号增强方法及装置的实施场景的示意图；

图2示出根据本公开示例性实施例的信号增强方法的流程图；

图3示出根据本公开示例性实施例的信号增强模型的示例；

图4示出根据本公开示例性实施例的信号增强方法的示例；

图5示出根据本公开示例性实施例的信号增强方法的另一示例；

图6示出根据本公开示例性实施例的信号增强模型的训练方法的流程图；

图7示出根据本公开示例性实施例的信号增强装置的结构框图；

图8示出根据本公开示例性实施例的信号增强模型的训练装置的结构框图；

图9示出根据本公开示例性实施例的音箱的结构框图；

图10示出根据本公开的另一示例性实施例的音箱的结构框图；

图11示出根据本公开示例性实施例的电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1示出根据本公开示例性实施例的信号增强方法及装置的实施场景的示意图。

参照图1，在通信双方(或更多方)进行语音通信的场景下，本端(以下，也称为近端)和其他端(以下，也称为远端)进行语音通信时，本端的麦克风可采集本端的语音信号(例如，包括本端用户的声音的语音信号)发送到远端，并且通过本端的扬声器播放从远端接收的语音信号(以下，也称为参考信号，例如，远端的麦克风所采集的包括远端用户的声音的语音信号)，本端的扬声器播放参考信号所发出的声音经反射形成的回音会被本端的麦克风采集到，换言之，麦克风信号中会包括参考信号的回声信号，如果不从麦克风信号中去除参考信号的回声信号，远端的用户可以听到自己被延迟的声音。因此，需要将麦克风信号中的参考信号的回声信号消除，又要很好地保留麦克风采集到的近端的有用语音(例如，近端用户的语音)，此外，本端的麦克风采集到的环境噪声也需要从麦克风信号中消除。通过根据本公开的信号增强方法及装置，能够很好地将待增强语音信号(例如，麦克风信号)中的参考信号的回声信号消除并保留近端的语音信号，使得远端的用户不会听到自己的回声，提高了收听人的用户体验。当然，根据本公开的信号增强方法及装置不仅可应用于上述场景，还可应用于任何需要从待增强语音信号中消除回声信号的场景，例如，人机交互场景，通过根据本公开的信号增强方法及装置，能够很好地将待增强语音信号(例如，麦克风信号)中的参考信号(例如，扬声器所播放的音频信号)的回声信号消除并保留近端的语音信号，以提高用户语音命令识别的准确性。

图2示出根据本公开示例性实施例的信号增强方法的流程图。

参照图2，在步骤S101，获得待增强语音信号、线性回声消除信号和参考信号。所述待增强语音信号包括所述参考信号的回声信号，所述线性回声消除信号是根据所述参考信号对所述待增强语音信号进行线性回声消除后得到的信号。

作为示例，所述待增强语音信号可为麦克风信号，这里，所述麦克风信号即麦克风采集的信号，所述麦克风信号可包括所述参考信号的回声信号。例如，所述参考信号可以是所述麦克风信号被麦克风采集时扬声器所播放的音频信号。例如，所述麦克风和所述扬声器可为近端(例如，本端或本端附近)的麦克风和扬声器，例如，所述麦克风和所述扬声器可被配置在本端同一或不同电子设备上。作为示例，所述参考信号可为与本端通信的对方通信端(也称为远端)的麦克风信号，本端接收到所述参考信号后会通过扬声器进行播放。

作为示例，可先预测所述待增强语音信号与所述参考信号之间的延迟，并基于预测的延迟获取与所述待增强语音信号对齐后的参考信号；然后，根据对齐后的参考信号，对所述待增强语音信号进行线性回声消除，得到所述线性回声消除信号。例如，可对所述待增强语音信号进行线性声学回声消除(AEC，Acoustic Echo Cancellation)，得到所述线性回声消除信号。

在步骤S102，将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码mask，也即，得到预测的所述待增强语音信号消除了干扰信号后的幅度谱掩码。所述增强语音信号是通过所述信号增强模型得到的预测的对所述待增强语音信号进行增强后的语音信号，也即，预测的所述待增强语音信号消除了干扰信号后的语音信号。

作为示例，所述干扰信号可包括：所述参考信号的回声信号。作为另一示例，所述干扰信号可包括：环境噪声信号和所述参考信号的回声信号。

作为示例，所述信号增强模型可以是基于卷积递归神经网络(CRNN，Convolutional Recurrent Neural Network)构建的。应该理解，也可以是基于其他类型的神经网络构建的，本公开对此不作限制。

作为示例，步骤S102可包括：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码。换言之，所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱既作为第一分支的输入，也作为第二分支的输入。

作为示例，第一分支可包括：N层卷积神经网络(即，N个CNN)、M层门控循环单元网络(即，M个GRU)、一层全连接层(Dense)和一层输出层。例如，所述输出层可使用Sigmoid函数。N为大于1的整数

作为示例，第二分支可包括：N层卷积神经网络和M-1层门控循环单元网络。M为大于1的整数。

例如，每个分支中的第一层卷积神经网络的输入为：所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱。

作为示例，在每个分支中，第N-1层卷积神经网络的输出可分别作为该分支和另一分支中的第N层卷积神经网络的输入。

作为示例，第一分支中的第M-1层门控循环单元网络的输出和第二分支中的第M-1层门控循环单元网络的输出可均作为第一分支中的第M层门控循环单元网络的输入。

作为示例，第一分支中的M层门控循环单元网络的输出均可作为第一分支中的全连接层的输入。即，第一分支中的各层门控循环单元网络的输出均作为第一分支中的全连接层的输入。

作为示例，所述信号增强模型可以是使用如下述结合图6的示例性实施例所述的训练方法训练得到的。

图3示出根据本公开示例性实施例的信号增强模型的示例。如图3所示，每个分支可包括：4层卷积神经网络(Conv block)、3层门控循环单元网络(GRU)、一层全连接层(Dense)、以及一层输出层(Sigmoid)。在根据本公开示例性实施例的信号增强方法中，可不使用第二分支处于虚线框内的部分，但这一部分会在训练该信号增强模型时使用，可参照结合图6的信号增强模型的训练方法的示例性实施例。

根据本公开的示例性实施例，每个分支中最后一个CNN和最后一个GRU的输入，除了包括本分支的输入外，还引入另一分支的信息来辅助这一分支进行预测，从而能够有效提升信号增强模型的预测效果。

返回图2，在步骤S103，根据所述幅度谱掩码和所述待增强语音信号，获得所述增强语音信号。

作为示例，可将所述幅度谱掩码和所述待增强语音信号的幅度谱相乘，获得所述增强语音信号的幅度谱；并将所述增强语音信号的幅度谱与所述待增强语音信号的相位谱结合并对结合结果执行时频逆变换(例如，短时傅里叶逆变换(ISTFT，Inverse Short-TimeFourier Transform))，获得所述增强语音信号。

本公开考虑到如果仅将线性回声消除后得到的线性回声消除信号与参考信号作为模型的输入，即，对经过线性回声消除后的信号，进行非线性残余处理，会导致一定程度上的语音失真，因为线性回声消除有时也会对语音产生失真影响。因此，本公开将原始待增强语音信号、参考信号以及线性AEC后的线性回声消除信号相结合作为模型输入，并将原始待增强语音信号作为需要增强的信号，一方面提升了回声和噪声场景下的语音信噪比和可懂度，另一方面尽可能地减少处理过程中所带来的语音失真，即，减少了来自线性AEC的失真。

图4和图5示出根据本公开示例性实施例的信号增强方法的示例。

如图4和图5所示，待增强语音信号可为原始麦克风信号d(t)，语音、环境噪声以及扬声器播放参考信号f(t)所发出的声音形成的回声被麦克风采集到形成了该原始麦克风信号。可先估计原始麦克风信号与参考信号之间的延迟，并基于估计的延迟获取与原始麦克风信号对齐后的参考信号；然后，根据对齐后的参考信号，对原始麦克风信号进行线性回声消除(例如，从原始麦克风信号中减去估计出的回声信号)，以得到线性回声消除信号l(t)。然后，对原始麦克风信号d(t)、参考信号f(t)、线性回声消除信号l(t)做短时傅立叶变换(STFT，Short-Time Fourier Transform)变换，转化为频域复数信号并求取幅度谱或log域幅度谱，分别转为实数信号输入到基于CRNN的信号增强模型，并基于信号增强模型输出的幅度谱掩码和原始麦克风信号得到增强语音信号。具体地，延时估计处理用来估计并对齐麦克风信号和参考信号；线性回声消除处理用来消除齐麦克风信号中的线性回声部分并为信号增强模型提供线性AEC后的信号；信号增强模型用来集中消除噪声与回声，输出短时傅里叶变换信号的幅度mask值，和原始麦克风信号相乘，做短时逆傅里叶变换后，输出增强之后的信号。

图6示出根据本公开示例性实施例的信号增强模型的训练方法的流程图。

如图6所示，在步骤S201，获取训练样本。

所述训练样本包括：含干扰语音信号、参考信号、以及干净语音信号，其中，所述含干扰语音信号是对所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述参考信号的回声信号。

作为示例，所述干扰信号还可包括：环境噪声信号。

在步骤S202，获得线性回声消除信号，其中，所述线性回声消除信号是根据所述参考信号对所述含干扰语音信号进行线性回声消除后得到的信号。

作为示例，可预测所述含干扰语音信号与所述参考信号之间的延迟，并基于预测的延迟获取与所述含干扰语音信号对齐后的参考信号；然后，根据对齐后的参考信号，对所述含干扰语音信号进行线性回声消除，得到所述线性回声消除信号。

在步骤S203，将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到信号增强模型，得到所述含干扰语音信号对应的增强语音信号的幅度谱掩码。所述增强语音信号是通过所述信号增强模型得到的预测的对所述含干扰语音信号进行增强后的语音信号。

这里，预测的增强语音信号也即预测的所述含干扰语音信号中的所述干净语音信号，也即从所述含干扰语音信号中分离出的干净语音信号。

作为示例，所述信号增强模型可以是基于卷积递归神经网络构建的。

在步骤S204，根据所述幅度谱掩码和所述含干扰语音信号，获得所述增强语音信号，并根据所述增强语音信号和所述干净语音信号，计算所述信号增强模型的损失函数。

作为示例，损失函数可使用适合类型的损失函数，例如，时域损失函数或频谱距离损失函数或两种损失函数的结合，本公开对此不作限制。

在步骤S205，通过根据所述损失函数调整所述信号增强模型的模型参数，对所述信号增强模型进行训练。

作为示例，可将所述幅度谱掩码和所述含干扰语音信号的幅度谱相乘，获得所述增强语音信号的幅度谱；然后，将所述增强语音信号的幅度谱与所述含干扰语音信号的相位谱结合并对结合结果执行时频逆变换，获得所述增强语音信号。

作为示例，所述训练样本还可包括所述干扰信号；步骤S203可包括：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型，得到所述增强语音信号的幅度谱掩码和预测的所述含干扰语音信号中的干扰信号的幅度谱掩码；步骤S204可包括：根据所述增强语音信号和所述干净语音信号、所述干扰信号和预测的干扰信号的幅度谱掩码，计算所述信号增强模型的损失函数。

这里，预测的干扰信号的幅度谱掩码也即预测的所述含干扰语音信号中的干扰信号的幅度谱掩码，也即从所述含干扰语音信号中分离出的干扰信号的幅度谱掩码。

作为示例，可根据所述增强语音信号和所述干净语音信号计算第一损失函数，根据预测的干扰信号的幅度谱掩码，确定从所述含干扰语音信号中分离出的干扰信号，并根据分离出的干扰信号和训练样本中的干扰信号计算第二损失函数，然后，基于第一损失函数和第二损失函数计算所述信号增强模型的损失函数。

作为示例，根据预测的干扰信号的幅度谱掩码，确定从所述含干扰语音信号中分离出的干扰信号的步骤可包括：将预测的干扰信号的幅度谱掩码和所述含干扰语音信号的幅度谱相乘，获得预测的干扰信号的幅度谱；将预测的干扰信号的幅度谱与所述含干扰语音信号的相位谱结合并对结合结果执行时频逆变换，获得从所述含干扰语音信号中分离出的干扰信号。

作为示例，步骤S203可包括：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码和第二分支输出的预测的干扰信号的幅度谱掩码。

作为示例，每个分支可包括：N层卷积神经网络、M层门控循环单元网络、一层全连接层和一层输出层，其中，N和M为大于1的整数。

作为示例，在每个分支中，第N-1层卷积神经网络的输出分别作为该分支和另一分支中的第N层卷积神经网络的输入。

作为示例，在每个分支中，第M-1层门控循环单元网络的输出分别作为该分支和另一分支中的第M层门控循环单元网络的输入。

作为示例，第一分支中的M层门控循环单元网络的输出均作为第一分支中的全连接层的输入。

作为示例，仅第二分支中的第M层门控循环单元网络的输出作为第二分支中的全连接层的输入。

根据本公开的示例性实施例，在训练过程中，信号增强模型可实现针对两个目标的拟合，也即双预测任务，相比单预测任务，能够大幅提高模型的泛化能力。并且两个分支之间有多个交叉连接共享双支之间的信息提升了两个任务的预测效果，从而即使由于现实生活包含各种复杂场景，训练数据难以覆盖，本公开也能够达到很好的预测效果。

应该理解，可以进行多轮训练，每轮训练可使用至少一个训练样本进行训练。

图7示出根据本公开示例性实施例的信号增强装置的结构框图。

如图7所示，根据本公开示例性实施例的信号增强装置10包括：信号获取单元101、预测单元102、增强信号获取单元103。

具体说来，信号获取单元101被配置为获得待增强语音信号、线性回声消除信号和参考信号，其中，所述待增强语音信号包括所述参考信号的回声信号，所述线性回声消除信号是根据所述参考信号对所述待增强语音信号进行线性回声消除后得到的信号。

预测单元102被配置为将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码。

增强信号获取单元103被配置为根据所述幅度谱掩码和所述待增强语音信号，获得所述增强语音信号。

作为示例，预测单元102可被配置为：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码，其中，第一分支包括：N层卷积神经网络、M层门控循环单元网络、一层全连接层和一层输出层，第二分支包括：N层卷积神经网络和M-1层门控循环单元网络，其中，N和M为大于1的整数。

作为示例，在每个分支中，第N-1层卷积神经网络的输出分别作为该分支和另一分支中的第N层卷积神经网络的输入，其中，第一分支中的第M-1层门控循环单元网络的输出和第二分支中的第M-1层门控循环单元网络的输出均作为第一分支中的第M层门控循环单元网络的输入。

作为示例，增强信号获取单元103可被配置为：将所述幅度谱掩码和所述待增强语音信号的幅度谱相乘，获得所述增强语音信号的幅度谱；将所述增强语音信号的幅度谱与所述待增强语音信号的相位谱结合并对结合结果执行时频逆变换，获得所述增强语音信号。

作为示例，信号获取单元101可被配置为：预测所述待增强语音信号与所述参考信号之间的延迟，并基于预测的延迟获取与所述待增强语音信号对齐后的参考信号；根据对齐后的参考信号，对所述待增强语音信号进行线性回声消除，得到所述线性回声消除信号。

图8示出根据本公开示例性实施例的信号增强模型的训练装置的结构框图。

如图8所示，根据本公开示例性实施例的信号增强模型的训练装置20包括：训练样本获取单元201、回声消除信号获取单元202、预测单元203、损失函数计算单元204、训练单元205。

具体说来，训练样本获取单元201被配置为获取训练样本，其中，所述训练样本包括：含干扰语音信号、参考信号和干净语音信号，其中，所述含干扰语音信号是对所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述参考信号的回声信号。

回声消除信号获取单元202被配置为获得线性回声消除信号，其中，所述线性回声消除信号是根据所述参考信号对所述含干扰语音信号进行线性回声消除后得到的信号。

预测单元203被配置为将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到信号增强模型，得到所述含干扰语音信号对应的增强语音信号的幅度谱掩码。

损失函数计算单元204被配置为根据所述幅度谱掩码和所述含干扰语音信号，获得所述增强语音信号，并根据所述增强语音信号和所述干净语音信号，计算所述信号增强模型的损失函数。

训练单元205被配置为通过根据所述损失函数调整所述信号增强模型的模型参数，对所述信号增强模型进行训练。

作为示例，所述训练样本还可包括所述干扰信号；预测单元203可被配置为：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型，得到所述增强语音信号的幅度谱掩码和预测的所述含干扰语音信号中的干扰信号的幅度谱掩码；损失函数计算单元204可被配置为：根据所述增强语音信号和所述干净语音信号、所述干扰信号和预测的干扰信号的幅度谱掩码，计算所述信号增强模型的损失函数。

作为示例，预测单元203可被配置为：将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码和第二分支输出的预测的干扰信号的幅度谱掩码，其中，每个分支包括：N层卷积神经网络、M层门控循环单元网络、一层全连接层和一层输出层，其中，N和M为大于1的整数。

作为示例，在每个分支中，第N-1层卷积神经网络的输出分别作为该分支和另一分支中的第N层卷积神经网络的输入，第M-1层门控循环单元网络的输出分别作为该分支和另一分支中的第M层门控循环单元网络的输入。

作为示例，第一分支中的M层门控循环单元网络的输出均作为第一分支中的全连接层的输入；仅第二分支中的第M层门控循环单元网络的输出作为第二分支中的全连接层的输入。

作为示例，损失函数计算单元204可被配置为：将所述幅度谱掩码和所述含干扰语音信号的幅度谱相乘，获得所述增强语音信号的幅度谱；将所述增强语音信号的幅度谱与所述含干扰语音信号的相位谱结合并对结合结果执行时频逆变换，获得所述增强语音信号。

作为示例，回声消除信号获取单元202可被配置为：预测所述含干扰语音信号与所述参考信号之间的延迟，并基于预测的延迟获取与所述含干扰语音信号对齐后的参考信号；根据对齐后的参考信号，对所述含干扰语音信号进行线性回声消除，得到所述线性回声消除信号。

作为示例，所述干扰信号还可包括：环境噪声信号。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，应该理解，根据本公开示例性实施例的信号增强装置10和信号增强模型的训练装置20中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

图9示出根据本公开示例性实施例的音箱的结构框图。如图9所示，根据本公开示例性实施例的音箱30包括：信号增强装置10。

图10示出根据本公开的另一示例性实施例的音箱的结构框图。如图10所示，根据本公开示例性实施例的音箱40包括：至少一个存储器401和至少一个处理器402，所述至少一个存储器401中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器402执行时，执行如上述示例性实施例所述的信号增强方法。

作为示例，上述示例性实施例中的音箱30和音箱40可理解为集成了扬声器和/或麦克风的装置，例如，可为智能音箱、家用音箱、视频会议装置、电话会议装置，此外，其还可被集成在其他装置上。即，需要明确的是，只要是采用根据本公开示出的信号增强方法进行语音信号增强的音箱，都属于本公开所欲保护的范围。

作为示例，音箱30和音箱40还可包括其作为音箱执行其自身功能的其它器件。例如，还可包括但不限于以下项之中的至少一项：信号采集单元、信号处理单元，其中，信号采集单元可采集环境中的声音形成音频信号，信号处理单元可对信号采集单元采集到的音频信号进行处理(例如，放大处理等)。

作为示例，音箱30和音箱40可应用于但不限于以下场景中的至少一项：视频会议场景、居家环境场景、在线教学场景，应该理解，也可应用于其他适当场景，本公开对此不作限制。在不同的使用场景中，音箱30和音箱40的组成结构可能有所不同，需要明确的是，只要是采用根据本公开示出的信号增强方法进行语音信号增强的音箱，都属于本公开所欲保护的范围。

图11示出根据本公开示例性实施例的电子设备的结构框图。参照图11，该电子设备50包括：至少一个存储器501和至少一个处理器502，所述至少一个存储器501中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器502执行时，执行如上述示例性实施例所述的信号增强方法和/或信号增强模型的训练方法。

作为示例，电子设备50可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备50并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备50还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备50中，处理器502可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器502还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器502可运行存储在存储器501中的指令或代码，其中，存储器501还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器501可与处理器502集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器501可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器501和处理器502可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器502能够读取存储在存储器中的文件。

此外，电子设备50还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备50的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行如上述示例性实施例所述的信号增强方法和/或信号增强模型的训练方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由至少一个处理器执行以完成如上述示例性实施例所述的信号增强方法和/或信号增强模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种信号增强方法，其特征在于，包括：

获得待增强语音信号、线性回声消除信号和参考信号，其中，所述待增强语音信号包括所述参考信号的回声信号，所述线性回声消除信号是根据所述参考信号对所述待增强语音信号进行线性回声消除后得到的信号；

将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码；

根据所述幅度谱掩码和所述待增强语音信号，获得所述增强语音信号。

2.根据权利要求1所述的信号增强方法，其特征在于，将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码的步骤包括：

将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到所述信号增强模型中彼此交叉的第一分支和第二分支，得到第一分支输出的所述增强语音信号的幅度谱掩码，

其中，第一分支包括：N层卷积神经网络、M层门控循环单元网络、一层全连接层和一层输出层，第二分支包括：N层卷积神经网络和M-1层门控循环单元网络，

其中，N和M为大于1的整数。

3.一种信号增强模型的训练方法，其特征在于，包括：

获取训练样本，其中，所述训练样本包括：含干扰语音信号、参考信号和干净语音信号，其中，所述含干扰语音信号是对所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述参考信号的回声信号；

获得线性回声消除信号，其中，所述线性回声消除信号是根据所述参考信号对所述含干扰语音信号进行线性回声消除后得到的信号；

将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到信号增强模型，得到所述含干扰语音信号对应的增强语音信号的幅度谱掩码；

根据所述幅度谱掩码和所述含干扰语音信号，获得所述增强语音信号，并根据所述增强语音信号和所述干净语音信号，计算所述信号增强模型的损失函数；

通过根据所述损失函数调整所述信号增强模型的模型参数，对所述信号增强模型进行训练。

4.一种信号增强装置，其特征在于，包括：

信号获取单元，被配置为获得待增强语音信号、线性回声消除信号和参考信号，其中，所述待增强语音信号包括所述参考信号的回声信号，所述线性回声消除信号是根据所述参考信号对所述待增强语音信号进行线性回声消除后得到的信号；

预测单元，被配置为将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述待增强语音信号的幅度谱，输入到预先训练的信号增强模型，得到所述待增强语音信号对应的增强语音信号的幅度谱掩码；

增强信号获取单元，被配置为根据所述幅度谱掩码和所述待增强语音信号，获得所述增强语音信号。

5.一种信号增强模型的训练装置，其特征在于，包括：

训练样本获取单元，被配置为获取训练样本，其中，所述训练样本包括：含干扰语音信号、参考信号和干净语音信号，其中，所述含干扰语音信号是对所述干净语音信号添加干扰信号得到的，所述干扰信号包括所述参考信号的回声信号；

回声消除信号获取单元，被配置为获得线性回声消除信号，其中，所述线性回声消除信号是根据所述参考信号对所述含干扰语音信号进行线性回声消除后得到的信号；

预测单元，被配置为将所述线性回声消除信号的幅度谱、所述参考信号的幅度谱和所述含干扰语音信号的幅度谱，输入到信号增强模型，得到所述含干扰语音信号对应的增强语音信号的幅度谱掩码；

损失函数计算单元，被配置为根据所述幅度谱掩码和所述含干扰语音信号，获得所述增强语音信号，并根据所述增强语音信号和所述干净语音信号，计算所述信号增强模型的损失函数；

训练单元，被配置为通过根据所述损失函数调整所述信号增强模型的模型参数，对所述信号增强模型进行训练。

6.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至2中任一项所述的信号增强方法和/或如权利要求3所述的信号增强模型的训练方法。

7.一种计算机可读存储介质，其特征在于，当述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至2中任一项所述的信号增强方法和/或如权利要求3所述的信号增强模型的训练方法。

8.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1至2中任一项所述的信号增强方法和/或如权利要求3所述的信号增强模型的训练方法。

9.一种音箱，其特征在于，包括：

如权利要求4所述的信号增强装置。

10.一种音箱，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至2中任一项所述的信号增强方法。