CN113077812A

CN113077812A - 语音信号生成模型训练方法、回声消除方法和装置及设备

Info

Publication number: CN113077812A
Application number: CN202110295525.2A
Authority: CN
Inventors: 吴俊�; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-07-06
Anticipated expiration: 2041-03-19
Also published as: CN113077812B

Abstract

本申请公开了一种语音信号生成模型训练方法、回声消除方法和装置及设备，该方法包括：获取语音信号样本和对应的理想语音信号样本；将所述语音信号样本输入到语音信号生成模型，以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整；将所述语音信号生成模型输出的理想语音预测信号输入到语音辨别模型；利用所述语音辨别模型预测所述理想语音预测信号为真实的理想语音信号样本的概率；根据预测结果确定所述理想语音预测信号的质量类别，并根据识别的质量类别调整所述语音信号生成模型的模型参数。以此解决现有非线性回声消除时拟合理想IRM导致分类结果不是很准确，回声消除结果不理想的问题。

Description

语音信号生成模型训练方法、回声消除方法和装置及设备

技术领域

本申请涉及语音信号处理技术领域，特别涉及一种语音信号生成模型训练方法、回声消除方法和装置及设备。

背景技术

回声消除是用来解决与设备(如智能音箱)对话的回声问题，设备可以采集到近端和远端两种信号。近端是设备的音频输入端，即设备的麦克风收到的声音信号；远端是设备的音频输出端，即设备的扬声器发出的声音。在人机交互的过程当中，近端与远端无法独立分开，远端的信号往往通过室内的反射又传回到近端，与人声掺杂到一起，使得设备收到的话音信号出现一定程度的失真，影响设备的下一步识别。

回声消除算法用来消除近端收到的信号中回声的部分，目前的回声消除主要分为两部分：

第一部分是通用方法的线性消除，既对照远端信号对近端信号进行线性的衰减，但由于回声在反射期间会产生非线性的变换，既回声与远端的声音并不是完全相同，传统的线性消除无法完全消除回声。

第二部分是基于深度学习的非线性消除回声消除，即在对近端信号进行线性消除后，再对处理后的信号进行第二级非线性消除。非线性消除往往使用DNN(Deep NeuralNetwork，深度神经网络)或RNN(Recursive Neural Network，循环神经网络)结构预进行模型训练，而近来该领域最新的发展是使用双向LSTM(Long Short-Term Memory，长短期记忆算法)模型来进行训练和预测。训练时网络模型以采集的近端的语音信号为输入，参考理想的语音信号对远端信号导致的信号衰减进行预测，利用预测的远端信号导致的信号衰减进行非线性回声消除。

上述非线性消除方案中采用的深度学习网络模型为回归模型，网络模型对每个时频单元进行特征提取，依据提取的特征计算每个时频单元的语音信号的IRM(Ideal RatioMask，理想语音掩膜)，得到一个介于0～1之间的一个数，然后根据该IRM改变时频单元的能量大小，因此网络训练的目标是拟合理想的IRM。上述回归模型训练的结果往往无法像分类模型一样准确，难以得到一个较好的结果。

发明内容

本申请的目的是提供一种语音信号生成模型训练方法、回声消除方法和装置及设备。用于解决现有非线性回声消除时采用回归模型导致语音增强效果不是很理想的问题。

第一方面，本申请实施例提供了一种语音信号生成模型训练方法，所述方法包括：

获取语音信号样本和对应的理想语音信号样本；

将所述语音信号样本输入到语音信号生成模型，利用所述语音信号生成模型计算所述语音信号样本中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号样本进行回声消除后，以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整；

将所述语音信号生成模型输出的理想语音预测信号输入到语音辨别模型；

利用所述语音辨别模型预测所述理想语音预测信号为真实的理想语音信号样本的概率；

根据预测结果确定所述理想语音预测信号的质量类别，并根据识别的质量类别调整所述语音信号生成模型的模型参数。

在一些可能的实施例中，采用如下方式训练所述语音辨别模型：

将语音信号样本输入到语音信号生成模型；

将所述语音信号生成模型输出的理想语音预测信号和理想语音信号样本输入到语音辨别模型；

利用所述语音辨别模型预测输入的理想语音预测信号和理想语音信号样本为真实的理想语音信号样本的概率；

根据预测结果得到损失函数，利用所述损失函数调整语音辨别模型的模型参数。

在一些可能的实施例中，所述语音信号生成模型和语音辨别模型，采用交替训练的方式进行训练。

在一些可能的实施例中，采用交替训练的方式训练所述语音信号生成模型和语音辨别模型之前，还包括：

初始时以语音信号样本为输入，以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整。

在一些可能的实施例中，根据预测结果确定所述理想语音预测信号的质量类别，包括：

若所述理想语音预测信号为真实的理想语音信号样本的概率大于预设阈值时，确定所述理想语音预测信号的质量类别为不带回声的理想语音预测信号；

若所述理想语音预测信号为真实的理想语音信号样本的概率不大于预设阈值时，确定所述理想语音预测信号的质量类别为带回声的理想语音预测信号。

在一些可能的实施例中，所述语音信号生成模型和语音辨别模型的网络模型为双向长短期记忆算法Bi-LSTM。

在一些可能的实施例中，将所述语音信号样本输入到语音信号生成模型，包括：

从音频采集设备采集语音信号样本和远端的音频播放设备播放的远端语音信号样本输入到语音信号生成模型；

其中，所述语音信号生成模型根据所述语音信号样本和远端语音信号样本，计算所述语音信号样本中理想语音信号功率占比得到理想比率掩膜IRM。

第二方面，本申请实施例提供了一种回声消除方法，该方法包括：

从音频采集设备采集待处理的语音信号，输入到利用上述第一方面提供的方法训练生成的语音信号生成模型；

利用所述语音信号生成模型计算所述语音信号中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号进行回声消除后，输出理想语音预测信号。

第三方面，本申请实施例提供了一种语音信号生成模型训练装置，所述装置包括：

样本获取模块，用于获取语音信号样本和对应的理想语音信号样本；

第一模型训练模块，用于将所述语音信号样本输入到语音信号生成模型，利用所述语音信号生成模型计算所述语音信号样本中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号样本进行回声消除后，以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整；

信号输入模块，用于将所述语音信号生成模型输出的理想语音预测信号输入到语音辨别模型；

质量分类模块，用于利用所述语音辨别模型预测所述理想语音预测信号为真实的理想语音信号样本的概率；

第二模型训练模块，用于根据预测结果确定所述理想语音预测信号的质量类别，并根据识别的质量类别调整所述语音信号生成模型的模型参数。

第四方面，本申请实施例提供了一种回声消除装置，该装置包括：

语音信号采集模块，用于从音频采集设备采集待处理的语音信号，输入到利用上述第一方面提供的方法训练生成的语音信号生成模型；

回声消除模块，用于利用所述语音信号生成模型计算所述语音信号中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号进行回声消除后，输出理想语音预测信号。

第五方面，本申请另一实施例还提供了一种语音信号生成模型训练设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面提供的所述的语音信号生成模型训练方法。

第六方面，本申请另一实施例还提供了一种回声消除设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面提供的所述的回声消除的方法。

第七方面，本申请另一实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行本申请实施例第一方面提供的语音信号生成模型训练方法，或者执行第二方面提供的回声消除的方法。

本申请实施例，在语音信号生成模型的训练过程中，通过连接语音辨别模型，利用语音辨别模型预测理想语音预测信号为真实的理想语音信号样本的概率，从而得到理想语音预测信号的质量分类，再反向传播给语音信号生成模型调整模型参数，上述训练过程将现有的回归模型训练调整为分类模型训练，使得语音信号生成模型的参数更准确，通过不断对抗使得语音信号生成模型的回声消除的结果更逼真。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据现有对语音进行回声消除的网络模型的示意图；

图2为根据本公开一个实施例的对语音信号进行回声消除的方法流程示意图；

图3为根据本公开一个实施例的语音信号生成模型训练过程示意图；

图4为根据本公开一个实施例的语音信号生成模型的网络结构示意图；

图5为根据本公开一个实施例的语音辨别模型的网络结构示意图；

图6为根据本公开一个实施例的模型训练详细示意图；

图7为根据本公开一个实施例的回声消除方法流程图；

图8为根据公开实施例的语音信号生成模型训练装置结构示意图；

图9为根据本公开实施例的回声消除装置示意图结构示意图；

图10为根据本公开实施例的语音信号生成模型训练设备的结构图；

图11为根据本公开一个实施例的回声消除设备的结构图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

在本申请实施例的描述中，除非另有说明，术语“多个”是指两个或两个以上，其它量词与之类似应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

在近端音频采集设备采集的音频信号除了麦克风收到的理想语音信号，还包括回声信号，其中回声信号包括环境噪音和远端音频播放设备播放传递回来的回声信号。语音分离的目标就是从这些回声干扰中分离出理想语音信号。

根据干扰的不同，语音分离任务可以分为三类：

当干扰为噪声信号时，可以称为语音增强(Speech Enhancement)；

当干扰为其他说话人时，可以称为“多说话人分离”(Speaker Separation)；

当干扰为目标说话人自己声音的反射波时，可以称为“解混响”(De-reverberation)。

由于音频采集设备例如麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰，不做语音分离、直接进行识别的话，会影响到识别的准确率。因此在语音识别的前端加上语音分离技术，把目标说话人的声音和其它回声干扰分开就可以提高语音识别系统的鲁棒性，这从而也成为现代语音识别系统中不可或缺的一环。

基于深度学习的语音分离，主要是用基于深度学习的方法，从训练数据中学习语音、说话人和噪音的特征，从而实现语音分离的目标。

LSTM的方法中把语音作为一个随时间变化的序列进行建模，比较适合语音数据；卷积神经网络CNN通过共享权值，可以在减少训练参数的同时获得比全连接的DNN更好的性能。

现有的LSTM模型在训练时采用基于Mask的方法，以输出理想的IRM(Ideal RatioMask，语音比率掩膜)进行训练，如图1所示为现有的进行回声消除的LSTM模型，在训练过程中获取训练样本，训练样本包括语音信号样本和对应的理想语音信号样本，其中语音信号样本包括回声信号和理想语音信号，语音信号样本为近端接收信号，在LSTM模型的y端输入，将远端播放信号在的x端输入，LSTM模型接收输入的语音信号样本和远端播放信号，将语音信号样本和远端播放信号进行特征提取，根据提取的特征，计算回声信号对以理想语音信号造成的能量衰减，根据造成的能量衰减对语音信号样本进行回声消除，得到输出的理想语音预测样本，并根据输出的理想语音预测样本和理想语音信号样本的差值进行模型参数调整。

上述计算回声信号对以理想语音信号样本造成的能量衰减时，具体为计算采集的语音信号中理想语音信号功率占比得到能量比IRM，得到介于0到1之间的一个数，将该IRM作为增益值作用到y端的语音信号样本，得到输出的理想语音预测样本。

由于网络训练的目标是拟合理想的IRM，采用回归模型进行非线性回声消除导致的消音效果不是很理想的问题，本申请提出一种能够准确地对语音信号进行回声消除的解决方案。

下面结合附图对本申请实施例中的语音信号生成模型训练方法和回声消除方法进行详细说明。

本申请实施例提供的对语音信号生成模型训练方法和回声消除方法应用于电子设备，该电子设备可以为计算机、PAD、智能设备等。

图2示出了本申请一个实施例提供的语音信号生成模型训练方法流程示意图，包括：

步骤201，获取语音信号样本和对应的理想语音信号样本；

语音信号样本为从音频采集设备采集的近端接收信号，语音信号样本中带有回声信号，即语音信号包括主说话人的纯语音信号、环境噪音信号和远端播放设备传递回来的回声信号，理想语音信号样本为不带回声的近端接收信号。

步骤202，将所述语音信号样本输入到语音信号生成模型，利用所述语音信号生成模型计算所述语音信号样本中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号样本进行回声消除后，以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整；

以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整的过程中，会根据语音信号生成模型输出的理想语音预测信号，计算理想语音预测信号和理想语音信号样本的差值，根据差值得到损失函数值，利用损失函数值调整语音信号生成模型的模型参数。

步骤203，将所述语音信号生成模型输出的理想语音预测信号输入到语音辨别模型；

步骤204，利用所述语音辨别模型预测所述理想语音预测信号为真实的理想语音信号样本的概率；

步骤205，根据预测结果确定所述理想语音预测信号的质量类别，并根据识别的质量类别调整所述语音信号生成模型的模型参数。

本申请实施例提供的语音信号生成模型训练方法，利用语音信号生成模型对输入的语音信号样本，计算语音信号样本中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号样本进行回声消除后，输出理想语音预测信号，具体计算IRM及利用IRM进行增益的过程与现有技术不同，不同的是本申请中的语音信号生成模型的训练过程与现有模型的训练过程不同，在模型训练过程中，将语音信号生成模型的训练由现有的回归模型变型为分类模型，即在训练过程中，语音信号生成模型的输出端连接语音辨别模型，该语音辨别模型的作用在于根据输入的理想语音预测信号，预测所述理想语音预测信号为真实的理想语音信号样本的概率，具体预先训练使得语音辨别模型具有该功能，同时该语音辨别模型还根据预测结果确定理想语音预测信号的质量类别，并根据识别的质量类别调整所述语音信号生成模型的模型参数。通过训练后的语音辨别模型，可以在语音信号生成模型的训练过程中，根据识别的理想语音预测信号的质量类型调整所述语音信号生成模型的模型参数，以语音信号生成模型输出接近于真实的理想语音信号样本为目标进行模型参数，具体的模型参数调整为现有过程，这里不再详述。

下面给出本申请实施例的语音信号生成模型和语音辨别模型的具体训练过程。

如图3所示本发明实施例中模型训练中的模型结构示意图，在模型训练过程中，整个模型结构包括两个部分：

第一部分为语音信号生成模型，本申请实施例也称为生成器；

第二部分为语音辨别模型，本申请实施例也称为辨别器。

生成器可以采用现有网络结构模型，具体可以采用基于深度学习的AEC降噪模块，该模块利用RNN模型对每一帧不同频段需要进行能量衰减进行预测。生成器的输入端包括近端接收信号y输入端和远端播放信号x输入端，也可以仅包括近端接收信号y，输出为拟合的IRM，将IRM作为增益值作用到近端接收信号可以得到非线性消除后的信号，在模型同时输入x和y的情况下，模型可以参考x计算语音信号样本中理想语音信号的IRM，如果仅输入y的情况下，模型可以直接计算语音信号样本中理想语音信号的IRM。

本申请实施例在模型训练过程中获取语音信号样本和理想语音信号样本，语音信号样本可以从近端音频采集设备端在回声环境中进行采集，理想语音信号样本可以在无回声环境中进行采集，当前可以从语音库中获取不带回声的理想语音信号样本和掺杂回声的语音信号样本。

在得到上述语音信号样本和理想语音信号样本后，可以对语音信号样本和理想语音信号样本后经过短时傅里叶变换得到频域后输入到生成器，具体是将语音信号样本输入到y端，将理想语音信号样本输入到x端。

语音信号生成模型在训练过程中，包括两部分的模型参数调整：

1)以语音信号样本为输入，通过计算所述语音信号样本中理想语音信号功率占比得到IRM，利用所述IRM作为能量增益值对所述语音信号样本进行回声消除后，输出理想语音预测信号，根据输出的理想语音预测信号与理想语音信号样本的差值进行模型训练；

生成器的作用在于根据输入的语音信号，计算语音信号中理想语音信号功率占比得到IRM，利用IRM进行能量恢复后得到增益语音信号，具体采用如下方式计算IRM：

计算：

其中，S²(m,c)为模型输入的语音信号中的理想语音信号，D²(m,c)为模型输入的语音信号中的远端音频采集设备传递的回声信号，V²(m,c)为模型输入的语音信号中的环境噪声，m为频率索引，c为帧索引。

2)辨别器根据输入的理想语音预测信号，预测所述理想语音预测信号为真实的理想语音信号样本的概率，并根据预测结果确定理想语音预测信号的质量类别，并根据识别的质量类别调整所述语音信号生成模型的模型参数，真实的理想语音信号样本，为理想语音预测信号完全去除回声后对应的语音信号样本。

预测所述理想语音预测信号为真实的理想语音信号样本的概率越大，说明理想语音预测信号与真实的理想语音信号样本的相似度越高，说明回声消除的效果越好，对应较高的质量分类，相似度越低，说明回声消除的效果不好，对应较低的质量分类。

作为一种可选的实施方式，上述辨别器可以采用二分类器模型，若所述理想语音预测信号为真实的理想语音信号样本的概率大于预设阈值时，确定理想语音预测信号的质量类别为不带回声的理想语音预测信号；若所述理想语音预测信号为真实的理想语音信号样本的概率不大于预设阈值时，确定理想语音预测信号的质量类别为带回声的理想语音预测信号。

为了使上述辨别器具有识别理想语音预测信号质量分类的作用，需要对辨别器进行训练，作为一种可选的实施方式，将语音信号样本输入到语音信号生成模型，将输出的理想语音预测信号和理想语音信号样本输入到语音辨别模型；语音辨别模型根据输入的理想语音预测信号和理想语音信号样本，预测理想语音预测信号和理想语音信号样本为真实的理想语音信号样本的概率，并根据理想语音预测信号和理想语音信号样本对应的为真实的理想语音信号样本的标签(理想语音预测信号的标签为0，理想语音信号样本的标签为1)，得到损失函数，利用损失函数进行语音辨别模型的模型参数调整，在模型参数调整的过程中，在损失函数值达到设定值时，说明满足预测精度要求，可以进行理想语音预测信号的质量分类。

本申请实施例中生成器和辨别器形成一种对抗网络，即生成器和辨别器之间的对抗，在模型训练过程中，可以首先加入一个生成器，生成出来的理想语音预测信号的标签label标为0，也就是Fake；而理想语音样本的标签label标为1，也就是Real。数据比例要求近似1：1。利用两组数据来对辨别器进行训练，得到更精准的辨别器。训练好辨别器后，再反过来利用辨别器的结果训练生成器，此时生成器生成理想语音预测信号，辨别器预测输入的语理想语音预测信号为真实的理想语音信号样本的概率，根据预测的概率值得到质量分类作为新的目标函数，从而反向传播给生成器，更新生成器的参数。

作为一种可选的实施方式，上述语音信号生成模型和所述语音辨别模型，采用交替训练的方式进行训练，即通过不断交替地训练生成器和辨别器，实现一种对抗，直到达到平衡，既辨别器的结果不再有太大的变化，此时生成器会得到更精准的效果。

采用交替训练的方式训练所述语音信号生成模型和所述语音辨别模型之前，可以利用现有方式对语音信号生成模型进行初步训练，具体采用如下方式：

初始时以语音信号样本为输入，以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整，具体根据输出的理想语音预测信号与理想语音信号样本的差值得到损失函数值，利用损失函数值对语音信号生成模型进行单独训练。

作为一种可选的实施方式，将所述语音信号样本输入到语音信号生成模型，包括：

作为一种可选的实施方式，本申请实施例中的语音信号生成模型和语音辨别模型的网络模型为双向长短期记忆算法Bi-LSTM。

假设采样率为16000Hz情况下，设每一帧的时长为20ms，相邻两帧距离为10ms，并用320个点的短时傅里叶变换，每帧得到161维的近端麦克信号和161维的远端信号，总共为322维。

如图4所示，本申请实施例中语音信号生成模型可以但不限于中使用4层双向LSTM模型，每层的节点数为300，最后用一个全连接层来提取出161个点特征作为输出。

辨别器是对输入的信号进行分类，输入信号有可能是真实的话音信号(无回声残留的信号)，也可能是有回声残留的信号。辨别器用来辨别具体是哪种信号。如图5所示，辨别器结构与生成器类似，可以但不限于中使用4层双向LSTM模型，每层的节点数为300，区别在于：输入信号只有一路，既每帧只有161维；神经网络最后一层不再是161个节点的全连接层，而是将LSTM输出的结果经过一维的最大池化maxpooling层之后直接连接输出为1个节点的全连接层，即判定质量分类结果为1(无回声残留的信号)，或为0(有回声残留的信号)。

下面结合附图给出本发明实施例模型具体训练过程，如图6所示，具体包括如下步骤：

步骤601，获取包括语音信号样本和理想语音信号样本的样本集；

步骤602，以语音信号样本为输入，根据输出的理想语音预测信号与理想语音信号样本的差值对语音信号生成模型进行单独训练；

需要说明的是，单独训练语音信号生成模型为可选步骤，可以在执行步骤601后，直接执行步骤603开始交替训练过程。

语音信号生成模型对语音信号样本进行特征提取，通过计算语音信号样本中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号样进行回声消除后，输出理想语音预测信号，根据输出的理想语音预测信号和理想语音信号样本的差值进行模型参数调整。

步骤603，将语音信号样本输入到语音信号生成模型，将语音信号生成模型输出的理想语音预测信号和理想语音信号样本输入到语音辨别模型；

步骤604，语音辨别模型根据输入的理想语音预测信号和理想语音信号样本，预测理想语音预测信号和理想语音信号样本为真实的理想语音信号样本的概率，根据预测结果得到损失函数，利用损失函数调整语音辨别模型的模型参数；

具体的模型参数调整参见上述实施例，这里不再详述。

步骤605，将语音信号样本输入到语音信号生成模型，根据输出的理想语音预测信号与理想语音信号样本的差值进行模型训练，且输出端连接语音辨别模型，所述语音辨别模型根据输入的理想语音预测信号，预测所述理想语音预测信号为真实的理想语音信号样本的概率，并根据预测结果确定理想语音预测信号的质量类别，并根据识别的质量类别调整所述语音信号生成模型的模型参数；

步骤606，确定模型训练是否结束，若是，执行步骤607，否则执行步骤603；

可以根据语音辨别模型的结果，在语音辨别模型的结果为1且变化频率小于设定阈值的时候，认为可以结束模型训练。

步骤607，结束语音信号生成模型和语音辨别模型的训练。

基于利用本发明上述实施例提供方法训练的语音信号生成模型，本申请实施例还提供一种回声消除方法，如图7所示，该方法包括：

步骤701，从音频采集设备采集待处理的语音信号，输入到上述实施例提供的方法训练生成的语音信号生成模型；

步骤702，利用所述语音信号生成模型计算所述语音信号中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号进行回声消除后，输出理想语音预测信号。

作为一种可选的实施方式，在采集到远端播放信号时，将远端播放信号和语音信号一起输入到语音信号生成模型，则音信号生成模型可以在计算IRM时，参考远端播放信号计算语音信号中理想语音信号功率占比，利用IRM作为能量增益值对所述语音信号进行回声消除后，输出理想语音预测信号。

基于相同的发明构思，本申请还提供一种语音信号生成模型训练装置，如图8所示，该语音信号生成模型训练装置800包括：

样本获取模块801，用于获取语音信号样本和对应的理想语音信号样本；

第一模型训练模块802，用于将所述语音信号样本输入到语音信号生成模型，利用所述语音信号生成模型计算所述语音信号样本中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号样本进行回声消除后，以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整；

信号输入模块803，用于将所述语音信号生成模型输出的理想语音预测信号输入到语音辨别模型；

质量分类模块804，用于利用所述语音辨别模型预测所述理想语音预测信号为真实的理想语音信号样本的概率；

第二模型训练模块805，用于根据预测结果确定所述理想语音预测信号的质量类别，并根据识别的质量类别调整所述语音信号生成模型的模型参数。

作为一种可选的实施方式，还包括：

第三模型训练模块，用于采用如下方式训练所述语音辨别模型：

将语音信号样本输入到语音信号生成模型；

作为一种可选的实施方式，所述语音信号生成模型和语音辨别模型，采用交替训练的方式进行训练。

作为一种可选的实施方式，该装置还包括：

第四模型训练模块，用于采用交替训练的方式训练所述语音信号生成模型和语音辨别模型之前，初始时以语音信号样本为输入，以输出对应的理想语音信号样本为目标，对所述语音信号生成模型进行参数调整。

作为一种可选的实施方式，质量分类模块根据预测结果确定所述理想语音预测信号的质量类别，包括：

作为一种可选的实施方式，所述语音信号生成模型和语音辨别模型的网络模型为双向长短期记忆算法Bi-LSTM。

作为一种可选的实施方式，第一模型训练模块将所述语音信号样本输入到语音信号生成模型，包括：

基于相同的发明构思，本申请还提供一种回声消除装置，如图9所示，该回声消除装置900包括：

语音信号采集模块901，用于从音频采集设备采集待处理的语音信号，输入到利用上述实施例提供的方法训练生成的语音信号生成模型；

回声消除模块902，用于利用所述语音信号生成模型计算所述语音信号中理想语音信号功率占比得到理想比率掩膜IRM，利用所述IRM作为能量增益值对所述语音信号进行回声消除后，输出理想语音预测信号。

在介绍了本申请示例性实施方式的语音信号生成模型训练方法、回声消除方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的语音信号生成模型训练设备、回声消除的设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的语音信号生成模型训练设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的语音信号生成模型训练方法中的步骤，具体执行以下步骤：

获取语音信号样本和对应的理想语音信号样本；

在一些可能的实施例中，上述处理器采用如下方式训练所述语音辨别模型：

将语音信号样本输入到语音信号生成模型；

在一些可能的实施例中，所述语音信号生成模型和所述语音辨别模型，采用交替训练的方式进行训练。

在一些可能的实施例中，上述处理器采用交替训练的方式训练所述语音信号生成模型和语音辨别模型之前，还包括：

在一些可能的实施例中，上述处理器在一些可能的实施例中，根据预测结果确定所述理想语音预测信号的质量类别，包括：

在一些可能的实施例中，上述处理器将所述语音信号样本输入到语音信号生成模型，包括：

在一些可能的实施方式中，根据本申请的回声消除设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的回声消除方法中的步骤，具体执行以下步骤：

从音频采集设备采集待处理的语音信号，输入到利用上述实施例方法训练生成的语音信号生成模型；

下面参照图10来描述根据本申请的这种实施方式的语音信号生成模型训练设备1000。图10显示的语音信号生成模型训练设备1000仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，语音信号生成模型训练设备1000以通用电子设备的形式表现。语音信号生成模型训练设备1000的组件可以包括但不限于：上述至少一个处理器1001、上述至少一个存储器1002、连接不同系统组件(包括存储器1002和处理器1001)的总线1003。

总线1003表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器1002可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1021和/或高速缓存存储器1022，还可以进一步包括只读存储器(ROM)1023。

存储器1002还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025，这样的程序模块1024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

语音信号生成模型训练设备1000也可以与一个或多个外部设备1004(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与语音信号生成模型训练设备1000交互的设备通信，和/或与使得该语音信号生成模型训练设备1000能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1005进行。并且，语音信号生成模型训练设备1000还可以通过网络适配器1006与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1006通过总线1003与用于对语音信号生成模型训练设备1000的其它模块通信。应当理解，尽管图中未示出，可以结合对语音信号生成模型训练设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

下面参照图11来描述根据本申请的这种实施方式的回声消除设备1100。图11显示的回声消除设备1100仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，回声消除设备1100以通用电子设备的形式表现。回声消除设备1100的组件可以包括但不限于：上述至少一个处理器1101、上述至少一个存储器1102、连接不同系统组件(包括存储器1102和处理器1101)的总线1103。

总线1103表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器1102可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1121和/或高速缓存存储器1122，还可以进一步包括只读存储器(ROM)1123。

存储器1102还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125，这样的程序模块1124包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

回声消除设备1100也可以与一个或多个外部设备1104(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与回声消除设备1100交互的设备通信，和/或与使得该回声消除设备1100能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1105进行。并且，回声消除设备1100还可以通过网络适配器1106与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1106通过总线1103与用于对回声消除设备1100的其它模块通信。应当理解，尽管图中未示出，可以结合对回声消除设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的语音信号生成模型训练方法或回声消除方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式任一方法的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于监控的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和方框图来描述的。应理解可由计算机程序指令实现流程图和方框图中的每一流程和/或方框、以及流程图和方框图中的流程和方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音信号生成模型训练方法，其特征在于，所述方法包括：

获取语音信号样本和对应的理想语音信号样本；

2.根据权利要求1所述的方法，其特征在于，采用如下方式训练所述语音辨别模型：

将语音信号样本输入到语音信号生成模型；

3.根据权利要求2所述的方法，其特征在于，

所述语音信号生成模型和语音辨别模型，采用交替训练的方式进行训练。

4.根据权利要求3所述的方法，其特征在于，采用交替训练的方式训练所述语音信号生成模型和语音辨别模型之前，还包括：

5.根据权利要求1所述的方法，其特征在于，根据预测结果确定所述理想语音预测信号的质量类别，包括：

6.根据权利要求1所述的方法，其特征在于，所述语音信号生成模型和语音辨别模型的网络模型为双向长短期记忆算法Bi-LSTM。

7.根据权利要求1所述的方法，其特征在于，将所述语音信号样本输入到语音信号生成模型，包括：

8.一种回声消除方法，其特征在于，该方法包括：

从音频采集设备采集待处理的语音信号，输入到利用权利要求1～7任一方法训练生成的语音信号生成模型；

9.一种语音信号生成模型训练装置，其特征在于，所述装置包括：

10.一种回声消除装置，其特征在于，该装置包括：

语音信号采集模块，用于从音频采集设备采集待处理的语音信号，输入到利用权利要求1～7任一方法训练生成的语音信号生成模型；

11.一种语音生成信号模型训练设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任何一项所述的语音信号生成模型训练方法。

12.一种回声消除设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求8所述的回声消除的方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行如权利要求1-7任何一项所述的语音信号生成模型训练方法，或者执行权利要求8所述的回声消除方法。