CN113744719A

CN113744719A - 一种语音提取方法、装置及设备

Info

Publication number: CN113744719A
Application number: CN202111032297.6A
Authority: CN
Inventors: 史慧宇; 尹首一; 韩慧明; 刘雷波; 魏少军
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-03

Abstract

本说明书实施例提供一种语音提取方法、装置及设备。所述方法包括：获取混合语音样本数据；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型；基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数；基于所述网络参数确定目标量化策略；利用目标量化策略更新所述预训练语音分离模型得到语音提取模型；利用所述语音提取模型从待处理语音数据中提取目标对象语音信号。上述方法减小了语音提取模型的规模，进而快速有效地对单通道语音中的目标对象的语音实现了分离。

Description

一种语音提取方法、装置及设备

技术领域

本说明书实施例涉及语音信号处理技术领域，特别涉及一种语音提取方法、装置及设备。

背景技术

随着计算机以及人工智能等技术的发展，基于智能设备的自动语音识别也获得了广泛的应用。而在实际应用中，智能设备在采集目标对象的语音的同时，往往也同时收纳了其他对象的语音、环境中的噪声等干扰信号。因此，在进行语音识别之前，首先要从所获取的语音信号中提取出对应于目标对象的语音信号。

目前在处理多通道语音信号时，可以通过比对不同通道的语音信号来进行语音提取。但在处理单通道语音信号时，直接从嘈杂和混响的环境中提取出相应的声源具有更大的难度。当前所存在一些对单通道语音信号进行分离的方法主要是在原有模型的基础上，通过扩展模型结构以及增加模型参数量的方式来提升模型性能，但这样一来，不仅对于计算设备的性能提出了更高的要求，同时也大大延长了计算时间。因此，目前亟需一种能够在保证语音分离效果的前提下，减小语音提取模型的规模以实现快速有效地对单通道语音进行提取的方法。

发明内容

本说明书实施例的目的是提供一种语音提取方法、装置及设备，以解决如何减小语音提取模型的规模以实现快速有效地对语音进行提取的问题。

为解决上述技术问题，本说明书实施例提供一种语音提取方法，包括：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型；基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数；基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式；利用目标量化策略更新所述预训练语音分离模型得到语音提取模型；利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。

本说明书实施例还提出一种语音提取装置，包括：混合语音样本数据获取模块，用于获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；预设语音分离模型训练模块，用于利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型；网络构建模块，用于基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数；目标量化策略确定模块，用于基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式；预训练语音分离模型更新模块，用于通过所述目标量化策略更新所述预训练语音分离模型得到语音提取模型；目标对象语音信号提取模块，用于利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。

本说明书实施例还提出一种语音提取设备，包括存储器和处理器；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型；基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数；基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式；利用目标量化策略更新所述预训练语音分离模型得到语音提取模型；利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。

由以上本说明书实施例提供的技术方案可见，本说明书实施例在获取到混合语音样本数据之后，利用混合语音样本数据对预设语音分离模型进行训练后，再根据训练得到的预训练语音分离模型构建策略网络和评估网络，进而根据所构建的网络对应的网络参数来确定目标量化策略，从而利用所得到的策略实现预训练语音分离模型的更新，最终实现利用更新得到的语音提取模型从待处理语音数据中提取目标对象语音信号。通过上述方法，在完成模型的预训练后，能够通过确定量化策略来对模型进行更新，以保证模型的准确性，进而在确定模型结构时可以尽可能地减小预设语音分离模型的结构细节以及参数量，从而加快了模型训练的时间，保证了快速有效地实现相应模型的构建，进而有效实现单通道语音中对应于目标对象的语音信号的提取，改善了用户的使用体验。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种语音提取方法的流程图；

图2为本说明书实施例一种Actor-Critic网络的结构示意图；

图3为本说明书实施例一种获取语音提取模型的流程示意图；

图4为本说明书实施例一种语音提取装置的模块图；

图5为本说明书实施例一种语音提取设备的结构图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

为了解决上述技术问题，介绍本说明书实施例一种语音提取方法。所述语音提取方法的执行主体为语音提取设备，所述语音提取设备包括但不限于服务器、工控机、PC机等。如图1所示，所述语音提取方法可以包括以下具体实施步骤。

S110：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号。

在本实施例中，为了达到从单通道语音中提取一个或多个对象的语音的目的，需要构建并训练相应的模型，最终能够利用该模型实现语音提取的目的。

混合语音样本数据即为训练所述模型时所利用到的数据。为了达到从语音信号中分离到目标对象的语音的目的，所述混合语音样本数据中可以包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号。

噪声信号可以语音采集过程中由于麦克风采集语音信号的不完整、信号传输过程中的损失等原因，对原语音造成干扰的信号。干扰语音信号可以是区别于目标对象外的其他对象所产生的语音，例如，在语音采集区域中包含有多个发出声响的对象，而其中只有一个对象是本次提取语音所需要的目标对象，则采集到的对应于其他对象的语音信号即为所述干扰语音信号。混响信号可以是目标对象自身所发出的声音基于周围的障碍物、屏障等物体反射后被声音采集设备接收到的信号。由于这些声音相较于目标对象直接发出的声音在采集时存在一定的延迟，则也对语音提取造成了一定的干扰。

目标语音信号可以是对应于目标对象所产生的语音的信号。所述目标对象的数量可以是一个或多个。为了在后续过程针对所述目标语音信号进行语音识别等处理，需要从所述混合语音样本数据中分离出所述目标语音信号。

具体的，为了契合本说明书实施例针对单通道语音进行语音提取的目的，所述混合语音样本数据还可以是单通道语音信号。所述单通道语音信号可以是只通过一个麦克风所采集到的声音信号。

具体的，在训练模型的过程是基于有监督学习而实现的情况下，所述混合语音样本数据还可以对应有相应的标记，用于对其中的目标语音信号进行标识。具体的标识方式可以基于实际应用的需求进行设置，对此不做限制。

在一些实施方式中，所述混合语音样本数据可以通过以下方式制备得到：首先，将至少两个人声语音信号在第一信噪比范围内混合得到人声混合语音信号，人声语音信号可以是预先采集或分离得到的独立的对应于人声的语音信号，第一信噪比范围用于限定混合上述人声语音信号的信噪比区间，例如，可以是0dB至5dB之间。其次，将所述人声混合语音信号与噪声信号在第二信噪比范围内混合得到综合语音信号，噪声信号可以是额外产生的对上述语音信号造成干扰的信号，第二信噪比范围用于限定混合上述两种信号的信噪比区间，例如，可以是-6dB至3dB之间。最终，利用语音信号生成函数处理所述综合语音信号得到混合语音样本数据，语音信号生成函数可以基于相应的数据生成对应的语音信号，以达到模拟实际应用的语音的效果，具体的可以是pyroomacoustics函数，所述pyroomacoustics函数能够在2D/3D房间中快速构建单/多个声源以及麦克风的模拟场景，从而帮助构建模拟的语音样本数据。

利用具体的示例对上述过程进行详细说明，在制备混合语音样本数据时，首先，将WSJ0语音信号样本和WHAM噪声样本的时域信号在8kHz下重采样，并将两个不同的说话人语音在信噪比0dB至5dB之间进行任意混合，再将混合后的语音与随机抽取的噪声样本在-6dB至3dB的信噪比范围内做混合，将最终混合得到的语音基于表1中的房间配置参数，基于pyroomacoustics函数得到房间脉冲相应，即得到最终的含有噪声、混响以及其他说话人干扰的混合语音样本数据y。

表1

基于上述实施方式，在制备得到一定数量的混合语音样本数据之后，还可以对所述混合语音样本数据进行划分。具体的，可以将所述混合语音样本数据划分为训练样本数据、验证样本数据和测试样本数据。其中，所述训练样本数据用于在后续步骤中针对模型进行训练；所述测试样本数据和验证样本数据可以在模型训练完毕后分别对模型进行测试和验证，以保证模型的效果。

利用一个具体的示例进行说明，假设基于上述步骤生成的样本数据的总数为28000个，可以将其中的20000个划分为训练样本数据，3000个划分为测试样本数据，5000个划分为验证样本数据，进而分别用于后续的模型训练和模型验证过程。实际应用中可以根据样本总数和应用需求设置为其他比例，并不限制于上述示例。

S120：利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型。

预设语音分离模型可以是预先构建的用于针对单通道语音进行语音提取的模型。

优选的，为了实现本申请的技术目的，即快速有效地对实现语音提取，所述预设语音分离模型可以在保证能够完整实现提取语音的效果的情况下，尽可能地缩小模型自身的规模，以减小利用模型对语音进行提取所消耗的时间。相应的，通过后续的步骤能够有效地保证提取结果的准确性。

在一些实施方式中，所述预设语音分离模型可以是基于深度神经网络所构建的模型。在对模型进行训练时，可以是基于所述预设语音分离模型中的神经网络节点之间的连接顺序依次进行前向传播和后向传播，以对模型进行更新进而完成训练。

基于上述实施方式，在对模型进行训练时，可以是先对所述预设语音分离模型中的模型参数进行初始化。模型参数主要可以包括网络神经元节点之间的权重值和偏重值，模型参数构成了模型处理数据的具体方式，具体到本说明书实施例，即用于从单通道语音中提取目标语音。

在完成模型的初始化后，可以根据所述混合语音样本数据，计算所述预设语音分离模型的损失函数。在将混合语音样本数据输入所述预设语音分离模型后，基于所述预设语音分离模型中各部分的结构以及不同结构之间的数据流关系即可对数据进行相应处理以得到最终的预测目标语音。具体的利用所述预设语音分离模型对数据进行计算的过程可以基于所述预设语音分离模型的实际结构进行设置，在此不做赘述。

具体的，所述初始语音提取模型中的网络神经元节点之间可以设置有激活函数。所述激活函数用于在神经网络前向传播的过程中，通过激活函数来增加网络之间的非线性关系，最后能够生成输入与输出结果间的非线性映射。具体的激活函数的类型可以根据应用需求进行设置，例如可以是PReLU等激活函数，对此不做限制。

在获取到预测目标语音后，可以根据所述预测目标语音，利用损失函数对模型进行优化。所述损失函数可以是预先设置的对应于所述预设语音分离模型的损失函数，用于根据预测结果对模型的损失进行评估，进而结合计算结果对模型进行修正以使其具备更为准确的预测结果。

具体的，所述预设损失函数可以为

式中，L为预设损失函数，

用于表示语音信号中的有效信号，其中，s为理想目标语音，具体的，可以通过预先在混合语音样本数据中进行标注进行体现，

为预测目标语音，

用于表示语音信号中的噪声信号，<·,·>表示两个向量之间的点积，而‖·‖²表示欧式距离。其中，SNR为信噪比。

在一些实施方式中，可以利用梯度下降法，结合所述预设损失函数对模型进行优化。优化过程可以是，先计算对应于所述初始语音提取模型的输出层的损失函数的第一梯度，再基于所述第一梯度，依次计算所述初始语音提取模型中各层所对应的梯度，最终结合各层的梯度更新初始语音提取模型的权重和偏置。

具体的，利用梯度下降法更新多比例提取深度神经网络的参数可以是在一定时间内，固定所述深度神经网络的参数，并利用上述公式计算输出层损失函数的梯度，之后，将初始的网络层级作为第L层，再依次计算网络层数为L-1，L-2，…，2时每一层所对应的梯度，其中，L为神经网络的层数。在计算得到所有的梯度后，根据计算得到的梯度更新整个网络的权重和偏置，从而完成模型的优化，得到预训练语音分离模型。

相应的，由于预设语音分离模型的差异性主要是由模型中的模型参数进行体现，因此，针对预设语音分离模型的优化过程可以主要是针对模型参数进行优化。具体的优化过程可以基于实际应用的需求进行调整，在此不再赘述。

由于在本说明书实施例中尽可能缩减预设语音分离模型的规模以及参数量，在针对预设语音分离模型进行训练时，必然会相对地减小训练时长以及训练所必须的计算资源等。但是，相应的，训练得到的模型分离语音的准确性也存在一定欠缺，因此，可以在后续步骤中通过其他方式来弥补模型的准确性。

S130：基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数。

在实际应用中，针对训练完毕的模型，还可以利用一些预先设置的优化规则来对模型进行优化，例如可以是将分析特征输入模型中，获取对应的性能参数后，在确定相应的优化策略。

具体的，在通过该种方式对模型进行优化时，可以采用Actor-Critic评估点优化，使用Actor基于策略函数，负责生成Action并和环境不断交互试错获得用于训练的样本，并采用Critic基于价值函数，负责评估Actor的表现，并结合实际运行的反馈情况，并指导Actor进行下一步的动作，从而保证对于模型进行更新的准确性。在具体的实施过程中，可以将上述问题转化为一个强化学习的场景。先定义强化学习四原组(S,A,P,R)，其中，分别为状态(State)、动作(Action)、奖励(Reward)和策略(Policy)。其中，状态(State)可以代表模型当前所具备的相关参数；动作(Action)包括基于网络的当前状态所执行的内容，以得到网络的新的状态。奖励(Reward)包括可以表示当前网络所能实现的效果与理想效果之间的差异，进而构成优化网络所实现的奖励。策略(Policy)用于对应于所生成的奖励而实现的最大化实现理想效果而采取的策略，并最终实现模型更新得到语音提取模型的效果。

所述策略网络和评估网络可以分别用于指代Actor网络和Critic网络，其中，Actor网络负责动作的生成以及与环境之间的交互，Critic网络负责评估Actor网络，并指导Actor网络下一步的动作。

具体应用时，所构建的策略网络包括当前策略网络和目标策略网络，评估网络包括当前评估网络和目标评估网络。其中，目标策略网络可以是基于当前策略网络中的参数进行相应调整后的网络，从而能够基于优化过程对策略网络进行逐次更新，当前评估网络和目标评估网络也是对应的关系。

如图2所示，为所述Actor-Critic网络的结构示意图，其中，Actor当前网络基于动作A与预训练模型进行交互，产生样本数据输入经验池，再从经验池中提取样本数据y_j，并基于样本数据y_j反馈Critic当前网络，实现网络的进一步更新。相应的，Actor当前网络和Critic当前网络也可以进一步用于实现Actor目标网络和Critic目标网络，从而推动最终策略的生成。

所述策略网络和评估网络分别对应有各自的网络参数。所述网络参数在初始的应用阶段可以分别进行初始化。具体的初始化方式以及当前策略网络与目标策略网络、当前评估网络与目标评估网络之间参数的对应关系可以基于实际应用的需求进行设置，在此不再赘述。

S140：基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式。

确定目标量化策略是为了对预训练语音分离模型预训练语音分离模型进行优化以得到最终的语音提取模型。为了确定出所述目标量化策略，可以先制定一个初始的混合量化策略a₀，在后续过程中在对该策略进行更新。具体的指定的初始的混合量化策略可以基于具体的参数进行设置。

在执行具体的步骤之前，还可以先对网络参数进行初始化，具体的，可以设置目标策略网络的网络参数与当前策略网络的网络参数相同，设置目标评估网络的网络参数与当前评估网络的网络参数相同。还可以设置经验回放集合D，用于在后续的步骤中存放相应的样本，相应的，在初始化过程中，对所述经验回放集合进行清空，以保证后续的应用效果。

之后，可以基于当前策略网络、目标策略网络、当前评估网络和目标评估网络中的网络参数构建第一状态S，所述第一状态对应有第一特征向量φ(S)。

其后，在当前策略网络中基于所述第一状态S可以得到第一动作A，具体的，可以利用公式A＝πθ(φ(S))+N构建第一动作，式中，A为第一动作，θ为当前策略网络的网络参数，φ(S)为第一特征向量，N为噪声，具体的，可以是一定的额外补充的噪声。

基于前述对于策略网络的介绍，所述第一动作可以在当前策略网络中被执行，进而产生对应于所述预训练语音分离模型的第二状态S′，对应于执行结果的执行奖励R和状态终止判断结果“is_end”。执行奖励用于表示当前模型实现效果与理想效果之间的差异，状态终止判断结果用于判断基于策略网络和评估网络的更新过程是否达到终止条件。相应的，所述第二状态S′也对应有第二特征向量φ(S′)。

将所得到的第一特征向量φ(S)、第一动作A、执行奖励R、第二特征向量φ(S′)和状态终止判断结果“is_end”作为一组样本{φ(S),A,R,φ(S′),is_end}存入经验回放集合D中。之后，基于所得到的第二状态S′重复执行上述操作，并得到若干组样本，一同存入所述经验回放集合中。

基于经验回放集合中的样本，可以进行当前目标值的计算。当前目标值可以具体地实现对网络的更新。具体的，可以是从经验回放集合中提取出m个样本，这些样本可以分别被表示为{φ(S_j)，A_j，R_j，φ(S′_j)，is_end_j},其中，j＝1…m。之后，再利用公式

计算当前目标值，式中，y_i为经验回放集合中第j个样本对应的当前目标值，R_j为经验回放集合中第j个样本对应的执行奖励，is_end为状态终止判断结果，ture为终止状态，false为非终止状态，γ为衰减因子，可以基于实际经验获得，Q'为目标评估网络所得到的反馈值，φ(S'_j)为第二特征向量，π_θ'为转换函数，在上述公式中可以将第二特征向量转化为对应的第二动作，ω'为目标评估网络的网络参数。

完成当前目标值的计算后，在利用均方差损失函数，通过神经网络的梯度反向传播来更新当前评估网络中的所有网络参数ω。具体的，可以是利用公式

更新当前评估网络的网络参数，式中，m为经验回放集合中样本的数量，Q为当前评估网络所得到的反馈值，A_j为经验回放集合中第j个样本对应的第一动作，ω为当前评估网络的网络参数。

相应的，基于当前目标值、初始混合量化策略以及其他网络参数，同样可以实现对于当前策略网络的更新，具体的，可以是利用公式

更新当前策略网络的网络参数，式中，s_i为经验回放集合中第j个样本对应的第一状态，a_i为经验回放集合中第j个样本对应的目标量化策略，θ为当前策略网络的网络参数。

在对当前评估网络和当前策略网络完成更新之后，可以利用更新后的网络来对目标评估网络和目标策略网络分别进行更新，具体的，可以是基于公式ω'←τω+(1-τ)ω'更新目标评估网络，式中，τ为调节系数；基于公式θ'←τθ+(1-τ)θ'更新目标策略网络，式中，θ'为目标策略网络的网络参数，其中，←可以用于表示赋值。

在状态终止判断结果为终止状态的情况下，可以基于更新后的当前评估网络、当前策略网络目标、评估网络和目标策略网络来确定出最终的目标量化策略。

若在执行上一步对目标评估网络和目标策略网络的更新后，终止判断条件不为终止状态，则可以重复执行构建第一动作、获取第二状态、执行奖励和状态终止判断结果、构建经验回放集合、计算当前目标值、更新当前评估网络和当前策略网络、更新目标评估网络和目标策略网络的步骤，直至所述状态终止判断结果为终止状态。

S150：利用目标量化策略更新所述预训练语音分离模型得到语音提取模型。

在获取到所述目标量化策略后，即可利用所述目标量化策略对所述预训练语音分离模型进行更新，以得到最终的语音提取模型。具体的，可以是针对模型进行参数量化，来得到所需要的语音提取模型。

优选的，在针对模型进行参数量化后，还可以基于步骤S120中的训练方法对模型进行一至两个epoch的微调，以使优化模型的语音提取效果。具体的实施过程可以基于实际应用的需求进行调整，在此不再赘述。

由于预设语音分离模型在结构上相对简单，使得模型在训练过程中可以尽可能减少训练时间和资源，而利用目标量化策略对模型进行更新又进一步保证了模型的识别准确性，从而能够快速有效地得到相应的模型，实现单通道语音的分离。

S160：利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。

在获取到语音提取模型后，通过将待处理语音数据输入到量化微调后的网络模型中，经过模型的计算即可得到目标语音的分离结果，从而保证了后续语音识别等需求。在一些实施方式中，在训练得到语音提取模型后，还可以对模型进行测试与验证，以保证模型的训练效果。具体的，基于步骤S110中的实施方式，在获取到混合语音样本数据后，可以从中获取测试样本数据和验证样本数据。

利用训练得到的语音提取模型，对所述测试样本数据中的测试目标语音信号进行提取，再将提取得到的测试目标语音信号与所述验证样本数据进行比对，根据比对结果对所述语音提取模型进行优化。通过分析预测结果与原本结果的一致性，能够有效判断模型的预测准确率，从而确定是否可以直接应用模型或是再次对模型进行训练，进而有效保证模型的训练效果。

如图3所示，为结合上述过程对语音提取模型获取过程的总结，其中，在针对预设语音分离模型进行预训练后，基于网络的自动搜索对网络参数进行更新，再结合模型的训练方式对模型进行微调，最终根据测试来验证模型的准确性，保证了模型对于单通道语音的提取结果的准确性。

在获取得到所述语音提取模型后，可以准确有效地对单通道语音中的目标对象的语音进行提取，从而有效保证后续的应用过程。具体的提取语音的过程可以基于实际应用的需求进行设置，在此不再赘述。

基于上述实施例的介绍，可以看出，上述方法在获取到混合语音样本数据之后，利用混合语音样本数据对预设语音分离模型进行训练后，再根据训练得到的预训练语音分离模型构建策略网络和评估网络，进而根据所构建的网络对应的网络参数来确定目标量化策略，从而利用所得到的策略实现预训练语音分离模型的更新，最终实现利用更新得到的语音提取模型从待处理语音数据中提取目标对象语音信号。通过上述方法，在完成模型的预训练后，能够通过确定量化策略来对模型进行更新，以保证模型的准确性，进而在确定模型结构时可以尽可能地减小预设语音分离模型的结构细节以及参数量，从而加快了模型训练的时间，保证了快速有效地实现相应模型的构建，进而有效实现单通道语音中对应于目标对象的语音信号的提取，改善了用户的使用体验。

基于图1所对应的语音提取方法，介绍本说明书实施例一种语音提取装置。所述语音提取装置设置于语音提取设备。如图4所示，所述语音提取装置包括以下模块。

混合语音样本数据获取模块410，用于获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号。

预设语音分离模型训练模块420，用于利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型。

网络构建模块430，用于基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数。

目标量化策略确定模块440，用于基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式。

预训练语音分离模型更新模块450，用于通过所述目标量化策略更新所述预训练语音分离模型得到语音提取模型。

目标对象语音信号提取模块460，用于利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。

基于图1所对应的语音提取方法，本说明书实施例提供一种语音提取设备。如图5所示，所述语音提取设备可以包括存储器和处理器。

在本实施例中，所述存储器可以按任何适当的方式实现。例如，所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机程序指令。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型；基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数；基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式；利用目标量化策略更新所述预训练语音分离模型得到语音提取模型；利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。

虽然上文描述的过程流程包括以特定顺序出现的多个操作，但是，应当清楚了解，这些过程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。

本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音提取方法，其特征在于，包括：

获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；

利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型；

基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数；

基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式；

利用目标量化策略更新所述预训练语音分离模型得到语音提取模型；

利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。

2.如权利要求1所述的方法，其特征在于，所述混合语音样本数据通过以下方式获取：

将至少两个人声语音信号在第一信噪比范围内混合得到人声混合语音信号；

将所述人声混合语音信号与噪声信号在第二信噪比范围内混合得到综合语音信号；

利用语音信号生成函数处理所述综合语音信号得到混合语音样本数据。

3.如权利要求1所述的方法，其特征在于，所述混合语音样本数据包括训练样本数据、验证样本数据和测试样本数据；所述利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型，包括：

利用所述训练样本数据训练预设语音分离模型，得到预训练语音分离模型；

所述利用所述语音提取模型从待处理语音数据中提取目标对象语音信号之前，还包括：

利用所述语音提取模型提取测试样本数据中的测试目标语音信号；

根据所述测试目标语音信号和验证样本数据的比对结果对所述语音提取模型进行优化；

相应的，所述利用所述语音提取模型从待处理语音数据中提取目标对象语音信号，包括：

利用优化后的语音提取模型从待处理语音数据中提取目标对象语音信号。

4.如权利要求1所述的方法，其特征在于，所述利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型，包括：

对所述预设语音分离模型中的模型参数进行初始化以使神经网络进行前向传播；其中，包括：对所述预设语音分离模型中的神经元节点之间的权重和偏置进行初始化；所述初始语音提取模型中的网络神经元节点之间设置有激活函数；所述激活函数用于在神经网络前向传播的过程中，生成对应于所述网络神经元节点的输入和输出之间的非线性映射；

基于所述混合语音样本数据，计算所述预设语音分离模型的损失函数；

根据所述损失函数，利用梯度下降法更新所述模型参数。

5.如权利要求4所述的方法，其特征在于，所述基于所述混合语音样本数据，计算所述预设语音分离模型的损失函数，包括：

将所述混合语音样本数据输入预设语音分离模型得到预测目标语音；

利用公式

计算损失函数，式中，L为损失函数，

其中，s为理想目标语音，

为预测目标语音，

6.如权利要求1所述的方法，其特征在于，所述基于所述预训练语音分离模型构建策略网络和评估网络，包括：

基于所述预训练语音分离模型构建当前策略网络、目标策略网络、当前评估网络和目标评估网络；

所述基于所述网络参数确定目标量化策略，包括：

基于当前策略网络、目标策略网络、当前评估网络和目标评估网络中的网络参数构建第一状态；所述第一状态对应有第一特征向量；

根据当前策略网络和初始状态构建第一动作；

执行所述第一动作得到对应于预训练语音分离模型的第二状态、执行奖励和状态终止判断结果；所述第二状态对应有第二特征向量；

基于所述第一特征向量、第一动作、执行奖励、第二特征向量和状态终止判断结果构建经验回放集合；

利用所述经验回放集合计算当前目标值；

基于所述经验回放集合和当前目标值分别更新当前评估网络和当前策略网络；

基于更新后的当前评估网络和当前策略网络对目标评估网络和目标策略网络进行更新；

在状态终止判断结果为终止状态的情况下，基于更新后的当前评估网络、当前策略网络目标、评估网络和目标策略网络确定目标量化策略。

7.如权利要求6所述的方法，其特征在于，所述根据当前策略网络和初始状态构建第一动作，包括：

利用公式A＝πθ(φ(S))+N构建第一动作，式中，A为第一动作，θ为当前策略网络的网络参数，φ(S)为第一特征向量，N为噪声；

所述利用所述经验回放集合计算当前目标值，包括：

利用公式

计算当前目标值，式中，y_i为经验回放集合中第j个样本对应的当前目标值，R_j为经验回放集合中第j个样本对应的执行奖励，is_end为状态终止判断结果，ture为终止状态，false为非终止状态，γ为衰减因子，Q'为目标评估网络所得到的反馈值，φ(S'_j)为第二特征向量，π_θ'为转换函数，ω'为目标评估网络的网络参数；

所述基于所述经验回放集合和当前目标值分别更新当前评估网络和当前策略网络，包括：

利用公式

更新当前评估网络的网络参数，式中，m为经验回放集合中样本的数量，Q为当前评估网络所得到的反馈值，A_j为经验回放集合中第j个样本对应的第一动作，ω为当前评估网络的网络参数；

利用公式

更新当前策略网络的网络参数，式中，s_i为经验回放集合中第j个样本对应的第一状态，a_i为经验回放集合中第j个样本对应的目标量化策略，θ为当前策略网络的网络参数；

所述基于更新后的当前评估网络和当前策略网络对目标评估网络和目标策略网络进行更新，包括：

基于公式ω'←τω+(1-τ)ω'更新目标评估网络，式中，τ为调节系数；

基于公式θ'←τθ+(1-τ)θ'更新目标策略网络，式中，θ'为目标策略网络的网络参数。

8.如权利要求6所述的方法，其特征在于，所述基于更新后的当前评估网络、当前策略网络目标、评估网络和目标策略网络确定目标量化策略之前，还包括：

重复执行构建第一动作、获取第二状态、执行奖励和状态终止判断结果、构建经验回放集合、计算当前目标值、更新当前评估网络和当前策略网络、更新目标评估网络和目标策略网络的步骤，直至所述状态终止判断结果为终止状态。

9.一种语音提取装置，其特征在于，包括：

混合语音样本数据获取模块，用于获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；

预设语音分离模型训练模块，用于利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型；

网络构建模块，用于基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数；

目标量化策略确定模块，用于基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式；

预训练语音分离模型更新模块，用于通过所述目标量化策略更新所述预训练语音分离模型得到语音提取模型；

目标对象语音信号提取模块，用于利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。

10.一种语音提取设备，包括存储器和处理器；

所述存储器，用于存储计算机程序指令；

所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取混合语音样本数据；所述混合语音样本数据为单通道语音信号；所述混合语音样本数据中包括噪声信号、干扰语音信号、混响信号中的至少一种和目标语音信号；利用所述混合语音样本数据训练预设语音分离模型，得到预训练语音分离模型；基于所述预训练语音分离模型构建策略网络和评估网络；所述策略网络和评估网络对应有网络参数；基于所述网络参数确定目标量化策略；所述目标量化策略用于确定对于预训练语音分离模型的优化方式；利用目标量化策略更新所述预训练语音分离模型得到语音提取模型；利用所述语音提取模型从待处理语音数据中提取目标对象语音信号；所述待处理语音数据包括单通道语音信号。