CN113763936A

CN113763936A - 一种基于语音提取的模型训练方法、装置及设备

Info

Publication number: CN113763936A
Application number: CN202111032300.4A
Authority: CN
Inventors: 尹首一; 史慧宇; 韩慧明; 刘雷波; 魏少军
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-07

Abstract

本说明书实施例提供一种基于语音提取的模型训练方法、装置及设备。所述方法包括：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型；将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音；基于所述预测目标语音和预设损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。上述方法准确有效地从单通道语音中进行了语音提取，满足了后续语音处理的相关需求。

Description

一种基于语音提取的模型训练方法、装置及设备

技术领域

本说明书实施例涉及语音信号处理技术领域，特别涉及一种基于语音提取的模型训练方法、装置及设备。

背景技术

随着计算机以及人工智能等技术的发展，基于智能设备的自动语音识别也获得了广泛的应用。而在实际应用中，智能设备在采集目标对象的语音的同时，往往也同时收纳了其他对象的语音、环境中的噪声等干扰信号。因此，在进行语音识别之前，首先要从所获取的语音信号中提取出对应于目标对象的语音信号。

目前在处理多通道语音信号时，可以通过比对不同通道的语音信号来进行语音提取。但在处理单通道语音信号时，直接从嘈杂和混响的环境中提取出相应的声源具有更大的难度，目前主流的处理多通道语音信号的方式若直接应用至处理单通道语音信号，并不具备较好的处理效果。在不存在一种准确度高、适用性强的对单通道语音信号进行提取的技术的情况下，无法有效应对实际应用中的该类问题，进而无法保证特定用户的使用体验。因此，目前亟需一种能够准确有效地针对单通道语音进行提取的技术方案。

发明内容

本说明书实施例的目的是提供一种基于语音提取的模型训练方法、装置及设备，以解决如何准确有效地针对单通道语音进行提取的问题。

为解决上述技术问题，本说明书实施例提供一种基于语音提取的模型训练方法，包括：获取混合语音样本数据；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型；将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音；基于所述预测目标语音和预设损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。

本说明书实施例还提出一种基于语音提取的模型训练装置，包括：混合语音样本数据获取模块，用于获取混合语音样本数据；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；初始语音提取模型构建模块，用于构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型；混合语音样本数据输入模块，用于将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音；初始语音提取模型优化模块，用于基于所述预测目标语音和损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。

本说明书实施例还提出一种基于语音提取的模型训练设备，包括存储器和处理器；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取混合语音样本数据；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型；将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音；基于所述预测目标语音和损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。

由以上本说明书实施例提供的技术方案可见，本说明书实施例基于深度神经网络架构预先构建了相应的初始语音提取模型，再通过将混合语音样本数据输入所述初始语音提取模型，结合所得到的预测结果，利用损失函数对模型进行优化，进而得到最终的语音提取模型，从而能够利用所述语音提取模型提取单通道语音信号中的目标语音信号。上述方法保证了准确有效地对单通道语音信号进行提取，进而能够在后续过程中对提取到的语音进行语音识别等利用，改善了用户的使用体验。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种基于语音提取的模型训练方法的流程图；

图2为本说明书实施例一种初始语音提取模型的结构示意图；

图3为本说明书实施例一种提取器的结构示意图；

图4为本说明书实施例一种多比例分离器的结构示意图；

图5为本说明书实施例一种多比例卷积单元的结构示意图；

图6为本说明书实施例一种重构器的结果示意图；

图7为本说明书实施例一种基于语音提取的模型训练装置的模块图；

图8为本说明书实施例一种基于语音提取的模型训练设备的结构图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

为了解决上述技术问题，介绍本说明书实施例一种基于语音提取的模型训练方法。所述基于语音提取的模型训练方法的执行主体为基于语音提取的模型训练设备，所述基于语音提取的模型训练设备包括但不限于服务器、工控机、PC机等。如图1所示，所述基于语音提取的模型训练方法可以包括以下具体实施步骤。

S110：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号。

在本实施例中，为了达到从单通道语音中提取一个或多个对象的语音的目的，需要构建并训练相应的模型，最终能够利用该模型实现语音提取的目的。

混合语音样本数据即为训练所述模型时所利用到的数据。为了达到从语音信号中分离到目标对象的语音的目的，所述混合语音样本数据中可以包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号。

噪声信号可以语音采集过程中由于麦克风采集语音信号的不完整、信号传输过程中的损失等原因，对原语音造成干扰的信号。干扰语音信号可以是区别于目标对象外的其他对象所产生的语音，例如，在语音采集区域中包含有多个发出声响的对象，而其中只有一个对象是本次提取语音所需要的目标对象，则采集到的对应于其他对象的语音信号即为所述干扰语音信号。混响信号可以是目标对象自身所发出的声音基于周围的障碍物、屏障等物体反射后被声音采集设备接收到的信号。由于这些声音相较于目标对象直接发出的声音在采集时存在一定的延迟，则也对语音提取造成了一定的干扰。

目标语音信号可以是对应于目标对象所产生的语音的信号。所述目标对象的数量可以是一个或多个。为了在后续过程针对所述目标语音信号进行语音识别等处理，需要从所述混合语音样本数据中分离出所述目标语音信号。

具体的，为了契合本说明书实施例针对单通道语音进行语音提取的目的，所述混合语音样本数据还可以是单通道语音信号。所述单通道语音信号可以是只通过一个麦克风所采集到的声音信号。

具体的，在训练模型的过程是基于有监督学习而实现的情况下，所述混合语音样本数据还可以对应有相应的标记，用于对其中的目标语音信号进行标识。具体的标识方式可以基于实际应用的需求进行设置，对此不做限制。

在一些实施方式中，所述混合语音样本数据可以通过以下方式制备得到：首先，将至少两个人声语音信号在第一信噪比范围内混合得到人声混合语音信号，人声语音信号可以是预先采集或分离得到的独立的对应于人声的语音信号，第一信噪比范围用于限定混合上述人声语音信号的信噪比区间，例如，可以是0dB至5dB之间。其次，将所述人声混合语音信号与噪声信号在第二信噪比范围内混合得到综合语音信号，噪声信号可以是额外产生的对上述语音信号造成干扰的信号，第二信噪比范围用于限定混合上述两种信号的信噪比区间，例如，可以是-6dB至3dB之间。最终，利用语音信号生成函数处理所述综合语音信号得到混合语音样本数据，语音信号生成函数可以基于相应的数据生成对应的语音信号，以达到模拟实际应用的语音的效果，具体的可以是pyroomacoustics函数，所述pyroomacoustics函数能够在2D/3D房间中快速构建单/多个声源以及麦克风的模拟场景，从而帮助构建模拟的语音样本数据。

利用具体的示例对上述过程进行详细说明，在制备混合语音样本数据时，首先，将WSJ0语音信号样本和WHAM噪声样本的时域信号在8kHz下重采样，并将两个不同的说话人语音在信噪比0dB至5dB之间进行任意混合，再将混合后的语音与随机抽取的噪声样本在-6dB至3dB的信噪比范围内做混合，将最终混合得到的语音基于表1中的房间配置参数，基于pyroomacoustics函数得到房间脉冲相应，即得到最终的含有噪声、混响以及其他说话人干扰的混合语音样本数据y。

表1

基于上述实施方式，在制备得到一定数量的混合语音样本数据之后，还可以对所述混合语音样本数据进行划分。具体的，可以将所述混合语音样本数据划分为训练样本数据、验证样本数据和测试样本数据。其中，所述训练样本数据用于在后续步骤中针对模型进行训练；所述测试样本数据和验证样本数据可以在模型训练完毕后分别对模型进行测试和验证，以保证模型的效果。

利用一个具体的示例进行说明，假设基于上述步骤生成的样本数据的总数为28000个，可以将其中的20000个划分为训练样本数据，3000个划分为测试样本数据，5000个划分为验证样本数据，进而分别用于后续的模型训练和模型验证过程。实际应用中可以根据样本总数和应用需求设置为其他比例，并不限制于上述示例。

S120：构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型。

初始语音提取模型即为所构建的用于针对单通道语音进行语音提取的模型。所述初始语音提取模型具有固定的结构，但模型所涉及的各项参数只是基于一般的初始化处理所得到的参数，并不适用于实际应用中对模型参数的需求。

所述初始语音提取模型包括基于深度神经网络所构建的模型，如图2所示，所述初始语音提取模型包括提取器、多比例分离器和重构器。提取器主要用于实现数据中的特征的提取，多比例分离器是模型的核心结构，用于实现对应于各个语音信号的数据的分离，重构器用于基于分离得到的数据重新构建为语音信号。

具体的，针对所述初始语音提取模型中的各个部分的结构进行进一步介绍。其中，如图3所示，所述提取器主要包括一层卷积网络，在将混合语音样本数据输入所述提取器，基于卷积网络进行计算后，基于层归一化处理，可以得到对应于提取器的输出，同时可以将该输出作为多比例分离器的输入。

所述多比例分离器依次可以包括一层归一化层、一层卷积网络、五个重复计算单元和一层卷积网络。其中，主要是利用重复计算单元进行相应的计算，所述重复计算单元包括三个多比例卷积单元和一个图卷积网络，所述多比例卷积单元具体可以包括一层卷积单元、一层批归一化网络、一层深度分离卷积网络、一层批归一化网络、一层多比例连接网络和一层卷积网络。

如图4所示，为所述多比例分离器的结构示意图，输入数据在基于层归一化网络和卷积网络处理后，依次基于多个重复计算单元进行计算，其中，各个多比例卷积单元计算得到的结果综合进行卷积运算，并将得到的结果与最后的重复计算单元计算得到的结果一同进行卷积计算后，再输入卷积网络，得到对应于多比例分离器的输出结果。基于图中的示例可以看出，所述重复计算单元和每个重复计算单元中的多比例卷积单元的数量可以基于实际应用的需求进行设置，对此不做限制。

如图5所示，为重复计算单元中的多比例卷积单元的结构示意图，在将数据输入多比例卷积单元后，将输入依次利用卷积网络、PReLU、全局归一化网络、深度分离卷积网络、PReLU、全局归一化网络，将两个全局归一化网络的输出一同输入多比例连接网络，再基于卷积网络进行处理，结合原始的输入数据进行卷积计算，得到最终的输出结果。

其中，PReLU(Parametric Rectified Linear Unit)为带参数的修正线性单元，是在神经网络中所设置的激活函数，所述激活函数可以设置在网络神经元节点之间，主要用于使神经网络能够拟合各种曲线。在本申请中，通过激活函数来增加网络之间的非线性关系，最后能够生成输入与输出结果间的非线性映射。需要说明的是，实际应用中也可以在神经网络中设置其他类型的激活函数，并不限于上述示例，对此不做限制。

如图6所示，为所述重构器的结构示意图。所述重构器主要包含一层卷积网络，在接收到多比例分离器所输出的数据后，将其输入所述卷积网络，即可对数据进行重构，以得到所述预测目标语音。

在一些实施方式中，在构建所述初始语音提取模型后，可以对所述初始语音提取模型中的模型参数进行初始化。模型参数主要可以包括网络神经元节点之间的权重值和偏重值，模型参数构成了模型处理数据的具体方式，具体到本说明书实施例，即用于从单通道语音中提取目标语音。

S130：将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音。

在将混合语音样本数据输入所述初始语音提取模型后，基于所述初始语音提取模型中各部分的结构以及不同结构之间的数据流关系即可对数据进行相应处理以得到最终的预测目标语音。

下面结合步骤S120中对初始语音提取模型的结构介绍，对输出预测目标语音的具体过程进行介绍。首先，所述初始语音提取模型的提取器部分将混合语音样本数据y输入网络输入端，经过一层卷积网络对信号进行更高级特征的提取，得到初级语音特征H＝{h₀,…,h_M-1}，其中，M为提取器最后一层网络所对应的输出长度。

对于多比例分离器，将上一步中所得到的初级语音特征H输入多比例分离器的输入端中，经过归一化处理和一层卷积神经网络计算后得到更高级的第一语音特征G1，将第一语音特征G1输入重复计算单元中，结合图4中重复计算单元的结构，首先将第一语音特征G1输入第一个多比例卷积计算单元中，经过一层卷积网络和一层批归一化网络计算得到第二语音特征G2，再利用深度分离卷积网络和层批归一化网络计算得到第三语音特征G3，之后将第二语音特征G2和第三语音特征G3这两个不同层级的高级特征利用多比例连接网络融合为整体，输入到下一层卷积网络中进行特征计算得到第四语音特征G4，并将第四语音特征G4和初级语音特征H相结合得到每个多比例卷积单元的第一单元输出G。将第一单元输出G输入到下一个多比例卷积单元进行特征计算，如图中所示，经过3个多比例卷积单元的计算后，提取得到的高级特征被输入至重复计算单元的最后一个网络层，即图卷积计算网络。经由所述图卷积计算网络进行进一步的全局特征提取后，得到整个重复计算单元的第二单元输出C。基于重复计算单元的数量，按照前述步骤计算5次后，每次的结果均建立残差路径，得到阶段性结果D后，输入至后续的卷积网络中，得到多比例分离器的输出，即为目标语音对应的高维提取特征映射P。

针对重构器部分，将上一步中得到的高维提取特征映射P输入到该模块的输入端，经过一层卷积神经网络层后得到预测目标语音，即为与目标说话人所对应的预估得到的语音。

上述获取预测目标语音的过程是基于步骤S120中的实施例中的模型结构所进行的描述，实际应用中根据模型的具体结构可以对计算过程进行适应性调整，在此不再赘述。

S140：基于所述预测目标语音和预设损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。

在获取到预测目标语音后，可以根据所述预测目标语音，利用预设损失函数对模型进行优化。预设损失函数可以是预先设置的对应于所述初始语音提取模型的损失函数，用于根据预测结果对模型的损失进行评估，进而结合计算结果对模型进行修正以使其具备更为准确的预测结果。

具体的，所述预设损失函数可以为

式中，L为预设损失函数，

用于表示语音信号中的有效信号，其中，s为理想目标语音，具体的，可以通过预先在混合语音样本数据中进行标注进行体现，

为预测目标语音，

用于表示语音信号中的噪声信号，<·,·>表示两个向量之间的点积，而‖·‖²表示欧式距离。其中，SNR为信噪比，MSE为均方误差。

在一些实施方式中，可以利用梯度下降法，结合所述预设损失函数对模型进行优化。优化过程可以是，先计算对应于所述初始语音提取模型的输出层的损失函数的第一梯度，再基于所述第一梯度，依次计算所述初始语音提取模型中各层所对应的梯度，最终结合各层的梯度更新初始语音提取模型的权重和偏置。

具体的，利用梯度下降法更新多比例提取深度神经网络的参数可以是在一定时间内，固定所述深度神经网络的参数，并利用上述公式计算输出层损失函数的梯度，之后，将初始的网络层级作为第L层，再依次计算网络层数为L-1，L-2，…，2时每一层所对应的梯度，其中，L为神经网络的层数。在计算得到所有的梯度后，根据计算得到的梯度更新整个网络的权重和偏置，从而完成模型的优化。

相应的，由于初始语音提取模型的差异性主要是由模型中的模型参数进行体现，因此，针对初始语音提取模型的优化过程可以主要是针对模型参数进行优化。具体的优化过程可以基于实际应用的需求进行调整，在此不再赘述。

在一些实施方式中，在训练得到语音提取模型后，还可以对模型进行测试与验证，以保证模型的训练效果。具体的，基于步骤S110中的实施方式，在获取到混合语音样本数据后，可以从中获取测试样本数据和验证样本数据。

利用训练得到的语音提取模型，对所述测试样本数据中的测试目标语音信号进行提取，再将提取得到的测试目标语音信号与所述验证样本数据进行比对，根据比对结果对所述语音提取模型进行优化。通过分析预测结果与原本结果的一致性，能够有效判断模型的预测准确率，从而确定是否可以直接应用模型或是再次对模型进行训练，进而有效保证模型的训练效果。

在获取得到所述语音提取模型后，可以准确有效地对单通道语音中的目标对象的语音进行提取，从而有效保证后续的应用过程。具体的提取语音的过程可以基于实际应用的需求进行设置，在此不再赘述。

基于上述实施例的介绍，可以看出，上述方法基于深度神经网络架构预先构建了相应的初始语音提取模型，再通过将混合语音样本数据输入所述初始语音提取模型，结合所得到的预测结果，利用损失函数对模型进行优化，进而得到最终的语音提取模型，从而能够利用所述语音提取模型提取单通道语音信号中的目标语音信号。上述方法保证了准确有效地对单通道语音信号进行提取，进而能够在后续过程中对提取到的语音进行语音识别等利用，改善了用户的使用体验。

基于图1所对应的基于语音提取的模型训练方法，介绍本说明书实施例一种基于语音提取的模型训练装置。所述基于语音提取的模型训练装置设置于基于语音提取的模型训练设备。如图7所示，所述基于语音提取的模型训练装置包括以下模块。

混合语音样本数据获取模块710，用于获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号。

初始语音提取模型构建模块720，用于构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型。

混合语音样本数据输入模块730，用于将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音。

初始语音提取模型优化模块740，用于基于所述预测目标语音和损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。

基于图1所对应的基于语音提取的模型训练方法，本说明书实施例提供一种基于语音提取的模型训练设备。如图8所示，所述基于语音提取的模型训练设备可以包括存储器和处理器。

在本实施例中，所述存储器可以按任何适当的方式实现。例如，所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机程序指令。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型；将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音；基于所述预测目标语音和损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。

虽然上文描述的过程流程包括以特定顺序出现的多个操作，但是，应当清楚了解，这些过程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。

本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于语音提取的模型训练方法，其特征在于，包括：

获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；

构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型；

将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音；

基于所述预测目标语音和预设损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。

2.如权利要求1所述的方法，其特征在于，所述混合语音样本数据通过以下方式获取：

将至少两个人声语音信号在第一信噪比范围内混合得到人声混合语音信号；

将所述人声混合语音信号与噪声信号在第二信噪比范围内混合得到综合语音信号；

利用语音信号生成函数处理所述综合语音信号得到混合语音样本数据。

3.如权利要求1所述的方法，其特征在于，所述混合语音样本数据包括训练样本数据、验证样本数据和测试样本数据；所述将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音，包括：

将所述训练样本数据输入所述初始语音提取模型得到预测目标语音；

相应的，所述基于所述预测目标语音和损失函数对所述初始语音提取模型进行优化，得到语音提取模型之后，还包括：

利用所述语音提取模型提取测试样本数据中的测试目标语音信号；

根据所述测试目标语音信号和验证样本数据的比对结果对所述语音提取模型进行优化。

4.如权利要求1所述的方法，其特征在于，所述初始语音提取模型包括提取器、多比例分离器和重构器；所述提取器包括一层卷积网络；所述多比例分离器依次包括一层归一化层、一层卷积网络、五个重复计算单元和一层卷积网络；所述重构器包括一层卷积网络；其中，所述重复计算单元包括三个多比例卷积单元和一个图卷积网络；所述多比例卷积单元依次包括一层卷积单元、一层批归一化网络、一层深度分离卷积网络、一层批归一化网络、一层多比例连接网络和一层卷积网络；所述重复计算单元建立有残差路径。

5.如权利要求4所述的方法，其特征在于，所述将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音，包括：

利用提取器中的卷积网络对所述混合语音样本数据进行特征提取得到初级语音特征；

将所述初级语音特征输入多比例分离器中以通过归一化层和卷积网络进行归一化处理和卷积网络计算得到第一语音特征；

基于多比例卷积单元中的卷积单元和批归一化网络对第一语音特征进行计算得到第二语音特征；

利用多比例卷积单元中的深度分离卷积网络和批归一化网络对第二语音特征进行计算得到第三语音特征；

将所述第二语音特征和第三语音特征通过多比例连接网络进行融合后，输入至卷积网络进行特征计算后得到第四语音特征；

将第四语音特征与初级语音特征结合得到对应于多比例卷积单元的第一单元输出；

基于所述第一单元输出，利用重复计算单元中的所有多比例卷积单元进行计算得到高级语音特征；

将高级语音特征输入图卷积计算网络进行全局特征提取得到对应于重复计算单元的第二单元输出；

基于所述第二单元输出，利用多比例分离器中的所有重复计算单元进行计算得到阶段计算结果；

将所有阶段计算结果输入卷积网络得到高维提取特征映射；

利用重构器中的卷积神经网络对所述高维提取特征映射进行计算得到预测目标语音。

6.如权利要求1所述的方法，其特征在于，所述将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音之前，还包括：

对所述初始语音提取模型中的模型参数进行初始化；其中，包括：对所述初始语音提取模型中的神经元节点之间的权重和偏置进行初始化；所述初始语音提取模型中的网络神经元节点之间设置有激活函数；所述激活函数用于生成对应于所述网络神经元节点的输入和输出之间的非线性映射；

相应的，所述基于所述预测目标语音和损失函数对所述初始语音提取模型进行优化，得到语音提取模型，包括：

基于所述预测目标语音和损失函数对所述模型参数进行优化。

7.如权利要求1所述的方法，其特征在于，所述预设损失函数为

式中，L为预设损失函数，

其中，s为理想目标语音，

为预测目标语音，

8.如权利要求1所述的方法，其特征在于，所述基于所述预测目标语音和预设损失函数对所述初始语音提取模型进行优化，包括：

计算对应于所述初始语音提取模型的输出层的损失函数的第一梯度；

基于所述第一梯度，依次计算所述初始语音提取模型中各层所对应的梯度；

结合各层的梯度更新初始语音提取模型的权重和偏置。

9.一种基于语音提取的模型训练装置，其特征在于，包括：

混合语音样本数据获取模块，用于获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；

初始语音提取模型构建模块，用于构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型；

混合语音样本数据输入模块，用于将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音；

初始语音提取模型优化模块，用于基于所述预测目标语音和损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。

10.一种基于语音提取的模型训练设备，包括存储器和处理器；

所述存储器，用于存储计算机程序指令；

所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；构建初始语音提取模型；所述初始语音提取模型包括基于深度神经网络所构建的模型；将所述混合语音样本数据输入所述初始语音提取模型得到预测目标语音；基于所述预测目标语音和损失函数对所述初始语音提取模型进行优化，得到语音提取模型；所述语音提取模型用于对单通道语音信号中的目标语音信号进行提取。