CN113345464A

CN113345464A - 语音提取方法、系统、设备及存储介质

Info

Publication number: CN113345464A
Application number: CN202110605310.6A
Authority: CN
Inventors: 刘博卿; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-03
Anticipated expiration: 2041-05-31
Also published as: CN113345464B

Abstract

本发明涉及语音处理技术领域，尤其涉及一种语音提取方法、系统、设备及存储介质。包括：将混合语音输入到分离网络的特征提取模块，获取混合语音对应的特征向量；将预设向量和混合语音对应的特征向量输入到分离网络的语音提取模块，从混合语音中提取出目标对象的语音。该方法将混合语音输入到特征提取模块中，得到对应的特征向量，并将预先提取的目标对象的预设向量和该特征向量输入到语音提取模块，在该语音提取模块的作用下，以该预设向量作为参考，保留混合语音中目标对象的语音遗弃噪声语音，从而实现从混合语音中提取出目标对象的语音的功能。即使在多个说话人语音重合时，可以对混合语音中的非目标说话人进行过滤，将目标对象语音提取出来。

Description

语音提取方法、系统、设备及存储介质

技术领域

本发明涉及人语音处理技术领域，尤其涉及一种语音提取方法、系统、设备及存储介质。

背景技术

针对特定说话人的语音提取系统是用来将特定说话人的语音从嘈杂的环境中抽取出来，嘈杂环境不仅包括环境噪声，还包含多人对话。传统方法一般是先对语音进行切割、提取说话人特征、再对说话人进行聚类验证，在多人说话具有重合的问题时，就无法将特定说话人的语音分离出来。

因此，亟需一种针对特定说话人的语音提取方法。

发明内容

本发明实施例提供一种语音提取方法、系统、设备及存储介质，以解决多人说话重合时无法抽取出目标对象语音的问题。

第一方面，本发明实施例提供一种语音提取方法，包括：

将混合语音输入到分离网络的特征提取模块，获取所述混合语音对应的特征向量，所述混合语音包括目标对象的语音和噪声语音；

将预设向量和所述特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，其中，所述分离网络通过样本和标签训练得到，所述预设向量根据所述目标对象的预设语音获得，所述语音提取模块以所述预设向量为参考，调整所述目标对象的语音和所述噪声语音在所述混合语音中所占的比例，从而保留所述目标对象的语音而忘记所述噪声语音。

优选地，所述语音提取模块以所述预设向量为参考，调整所述目标对象的语音和所述噪声语音在所述混合语音中所占的比例，从而保留所述目标对象的语音而忘记所述噪声语音，通过如下方式实现：

LSTM优化网络中的遗忘门将所述目标对象的语音映射成1，将所述噪声语音映射成0，所述语音提取模块包括LSTM优化网络。

优选地，LSTM优化网络中的遗忘门计算公式如下：

f_t＝σ(W_e[h_t-1,e_j]+b_e)，

其中，f_t表示t时刻遗忘门的输出，σ表示sigmoid函数，W_e表示遗忘门的权重矩阵，b_e表示遗忘门的偏置，h_t-1表示t-1时刻的隐藏状态，e_j表示所述预设向量，j表示所述目标对象的语音在所述混合语音中的位置。

优选地，所述预设向量通过如下方式获得：

将所述预设语音依次输入到若干个依次连接的LSTM网络，获取所述预设向量。

优选地，所述特征提取模块为若干个依次连接的空洞卷积层。

优选地，将预设向量和所述混合语音对应的特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，包括：

将所述预设向量和所述混合语音对应的特征向量输入到修改后的LSTM网络中，并将修改后的LSTM网络的输出结果作为全连接层的输入，获取所述目标对象的语音。

优选地，所述分离网络在训练时的损失函数如下：

X_E＝X^*-X_T，

其中，SI-SNR表示所述损失函数，X^*表示所述分离网络的输出结果，

表示标签。

第二方面，本发明实施例提供一种语音提取系统，包括：

特征提取模块，用于将混合语音输入到分离网络的特征提取模块，获取所述混合语音对应的特征向量，所述混合语音包括目标对象的语音和噪声语音；

语音提取模块，用于将预设向量和所述特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，其中，所述分离网络通过样本和标签训练得到，所述预设向量根据所述目标对象的预设语音获得，所述语音提取模块以所述预设向量为参考，调整所述目标对象的语音和所述噪声语音在所述混合语音中所占的比例，从而保留所述目标对象的语音而忘记所述噪声语音。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音提取方法的步骤。

第四方面，本发明实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音提取方法的步骤。

上述语音提取方法、系统、设备及存储介质中，首先将混合语音输入到特征提取模块中，得到对应的特征向量，并将预先提取的目标对象的预设向量和该特征向量输入到语音提取模块，在该语音提取模块的作用下，以该预设向量作为参考，会保留混合语音中目标对象的语音，而遗弃噪声语音，从而实现从混合语音中提取出目标对象的语音。该方法即使在多个说话人语音重合时，可以对多个人同时说话时对非目标说话人进行过滤，将目标对象从混合语音中提取出来。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音提取方法的一应用环境示意图；

图2是本发明实施例提供的一种语音提取方法的流程图；

图3是本发明一实施例提供的一种语音提取方法的系统框图；

图4是本发明实施例提供的一种语音提取系统的结构示意图；

图5是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

该语音提取方法可应用在如图1的应用环境中，在具体实施时，客户端可以在线实时采集混合语音，也可以将存储的离线语音作为混合语音，获取到混合语音后，客户端通过网络与服务端进行通信，服务端接收到该混合语音后，执行该语音提取方法，最后将目标对象的语音从混合语音中抽取出来。

客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器来实现，也可以由多个服务器组成的集群来实现。

如图2所示，该方法在图1所示的服务端中执行，该方法包括：

S210，将混合语音输入到分离网络的特征提取模块，获取所述混合语音对应的特征向量，所述混合语音包括目标对象的语音和噪声语音；

本实施例的目标是从包含各种语音的混合语音中提取出特定对象(即目标对象)的语音，该混合语音可以是在线采集的实时语音，也可以是事先采集的离线语音，可以是包含多个说话对象的语音，也可以是环境中的各种噪音。该目标对象可以是人，也可以是动物，也可以是其它自然声音，比如水流声、雷电声等，该混合语音中除去目标对象的语音外都是噪声语音。

本发明实施例中以从包含多个说话人的混合语音提取出目标说话人语音为例进行说明。

将该混合语音输入到分离网络的特征提取模块，得到该混合语音对应的特征向量。此处的特征向量可以是包括多种类型的特征组合，也可以是只包括一种类型的特征。特征提取的目的是通过给定数量的信号分量来描述语音信号；特征提取方法通常为每个语音信号提取一个多维特征向量，将语音信号参数化。语音信号的参数化表示方法有很多种，如感知线性预测(PLP)、线性预测编码(LPC)和mel-频率倒谱系数(MFCC)，本实施例对此不做具体的限定。

具体地，该分离网络的特征提取模块主要功能是进行特征提取，将在时域的混合语音信息表示为对应的特征向量。假设一段混合录音包括I个说话人，在时域，这段混合语音可以表示为：

其中，x_i(n)表示第i个说话人的语音信号，n表示时间索引，本实施例的目标是从混合语音信号中提取目标对象j的语音信号。

该特征提取模块可以由若干个卷积层组成，将混合语音y(n)输入到依次连接的卷积层中，每个卷积层由若干个卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入混合语音信号的不同特征，第一层卷积层可能只提取一些低级的特征，比如声强、响度、因高、基因周期和基因频率等，后面的卷积层可以从低级特征中迭代提取更加复杂的特征。

该特征提取模块还可以通过如下方式提取混合语音的特征向量，先对混合语音进行预加重、分帧和加窗；然后对于每一个短时分析窗(即分出的每一帧)，通过FFT得到对应的频谱；接着将上面计算得到的频谱通过Mel滤波器组，得到Mel频谱；最后在Mel频谱上进行倒谱分析(取对数、逆变换)，获得Mel频谱倒谱系数MFCC，这个MFCC就是这帧语音的特征，所有帧语音的特征组成该混合语音对应的特征向量。

S220，将预设向量和所述特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，其中，所述分离网络通过样本和标签训练得到，所述预设向量根据所述目标对象的预设语音获得，所述语音提取模块以所述预设向量为参考，调整所述目标对象的语音和所述噪声语音在所述混合语音中所占的比例，从而保留所述目标对象的语音而忘记所述噪声语音。

接着将预设向量和混合语音对应的特征向量一起输入到分离网络的语音提取模块中，该语音提取模块以预设向量为参考，保留混合语音中特定对象的语音，抛弃其它非目标说话人的语音，从而最终使得该混合语音中只剩下特定对象的语音。

该预设向量是该目标对象的语音经过处理后提取出来的特征向量，该目标对象的语音可以实时采集的，也可以是预先离线采集的。

在具体实施时，本发明实施例中通过说话人向量网络来将目标对象的语音转换成预设向量，说话人向量网络与上述分离网络中特征提取模块的结构可以相同，也可以是其它任何能够实现同样功能的网络。在使用该说话人向量网络对目标对象的预设语音进行转换前，同样也需要先对该说话人向量网络进行训练，该说话人向量网络的训练过程可以分为三个步骤：定义说话人向量网络的结构和前向传播的输出结果；定义损失函数以及反向传播优化的算法；最后生成会话并在训练数据上反复运行反向传播优化算法。

该语音提取模块通过保留目标对象的语音而忘记噪声语音实现，具体实现方式可以是：通过权重实现，将目标对象的语音的权重设置成1，将噪声语音的权重设置成0；也可以是通过注意力机制实现，将目标对象的语音的注意力设置成1，将噪声语音的注意力设置成0。

同样地，该分离网络属于神经网络中的一种，在使用该分离网络前，也需要对其进行训练，通过预先取得的样本和标签，对分离网络进行训练。该分离网络的训练过程可以分为三个步骤：定义分离网络的结构和前向传播的输出结果；定义损失函数以及反向传播优化的算法；最后生成会话并在训练数据上反复运行反向传播优化算法。

其中，神经元是构成神经网络的最小单位，一个神经元可以有多个输入和一个输出，每个神经元的输入既可以是其它神经元的输出，也可以是整个神经网络的输入。该神经网络的输出即是所有神经元的输入加权和，不同输入的权重就是神经元参数，神经网络的优化过程就是优化神经元参数取值的过程。

神经网络的效果及优化的目标是通过损失函数来定义的，损失函数给出了神经网络的输出结果与真实标签之间差距的计算公式，监督学习为神经网络训练的一种方式，其思想就是在已知答案的标注数据集上，该神经网络给出的结果要尽量接近真实的答案(即标签)。通过调整神经网络中的参数对训练数据进行拟合，使得神经网络对未知的样本提供预测能力。

反向传播算法实现了一个迭代的过程，每次迭代开始的时候，先取一部分训练数据，通过前向传播算法得到神经网络的预测结果。因为训练数据都有正确的答案，所以可以计算出预测结果和正确答案之间的差距。基于这个差距，反向传播算法会相应的更新神经网络参数的取值，使得和真实答案更加接近。

通过上述方法完成训练过程后，即可利用完成训练后的分离网络进行应用。

本实施例提供一种语音提取方法，首先将混合语音输入到特征提取模块中，得到对应的特征向量，并将预先提取的目标对象的预设向量和该特征向量输入到语音提取模块，在该语音提取模块的作用下，以该预设向量作为参考，会保留混合语音中目标对象的语音，而遗弃噪声语音，从而实现从混合语音中提取出目标对象的语音。该方法即使在多个说话人语音重合时，可以在多个人说话重合的情况下对非目标说话人进行过滤，将目标对象从混合语音中提取出来。

进一步地，在一个可选的实施方式中，在步骤S220之后，还包括如下步骤：

S230，将所述目标对象的语音上传至区块链中，以使得所述区块链对所述目标对象的语音进行加密存储。

在步骤S230中，基于所述目标对象的语音得到对应的摘要信息，具体来说，摘要信息为由所述目标对象的语音进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证所述目标对象的语音是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在上述实施例的基础上，优选地，所述语音提取模块以所述预设向量为参考，调整所述目标对象的语音和所述噪声语音在所述混合语音中所占的比例，从而保留所述目标对象的语音而忘记所述噪声语音，通过如下方式实现：

具体地，该语音提取模块中主要通过LSTM优化网络来实现保留目标对象的语音而抛弃噪声语音。语音提取模块需要学习如何把目标对象的相关信息保留住，扔掉和抛弃目标对象无关的信息，普通的LSTM网络无法做到这一点，因此通过修改遗忘门实现该功能。LSTM优化网络中只对传统LSTM网络中的遗忘门进行了改进，而不对输入门和遗忘门进行修改，其原因为：输入门只能从当前时刻的单元状态中加东西，但不能移除信息，如果给输入门做相同的改变，那么会导致下一时刻隐藏状态的相关信息缺失。

LSTM优化网络是在原始LSTM网络的基础上对遗忘门进行修改得到，LSTM单元的作用像内存一样，可以记住不同时刻的信息，在每一时刻，可以增加或删减信息，而LSTM单元中的遗忘门的作用主要是根据上一时刻的隐藏状态和当前输入，来决定需要保留或抛弃的信息。

当前时刻LSTM单元的输出为遗忘门的输出与上一时刻的单元状态相乘，如果遗忘门的输出为0，就相当于把上个单元状态置于0，即当上一时刻的单元状态记录的是噪声语音时，将遗忘门的输出置为0，从而实现抛弃噪声语音的功能；如果遗忘门的输出为1，就相当于把上个单元状态置为1，即当上一时刻的单元状态记录的是目标对象的语音时，就将遗忘门的输出置为1，从而实现保留目标对象语音的功能。

本发明实施例中通过修改遗忘门，使得遗忘门将目标对象的语音映射成1，将噪声语音映射成0，从而实现保留目标对象语音而抛弃噪声语音的功能。并且只需要对LSTM网络中的遗忘门进行简单修改即可，既不会增加LSTM网络的复杂性，也不会增加系统的计算量。

在上述实施例的基础上，优选地，LSTM优化网络中的遗忘门计算公式如下：

f_t＝σ(W_e[h_t-1，e_j]+b_e)，

具体地，该LSTM优化网络的遗忘门输出公式如上所述，输入门决定单元状态存储或更新什么信息，其输出公式如下：

i_t＝σ(W_i[h_t-1,(r,e_j)]+b_i)，

其中，i_t表示t时刻输入门的输出，h_t-1表示t-1时刻的隐藏状态，W_i、b_i为输入门的权重矩阵和偏置项，r为特征向量，e_j表示预设向量。

单元状态可以类比为网络的内存，更新如下：

其中，c_t表示t时刻单元状态的输出，W_c、b_c为控制门的权重矩阵和偏置项，h_t-1表示t-1时刻的隐藏状态，r为特征向量，e_j表示预设向量，c_t-1表示t时刻单元状态的输出，i_t表示t时刻输入门的输出，f_t表示t时刻遗忘门的输出。

输出门决定单元状态的哪一部分传到下一个隐藏状态，计算公式如下：

o_t＝σ(W_o[h_t-1,(r,e_j)]+b_o)，

其中，o_t表示输出门的输出，W_o、b_o为输出门的权重矩阵和偏置项，h_t-1表示t-1时刻的隐藏状态，r为特征向量，e_j表示预设向量。

隐藏状态更新如下：

h_t＝o_t*tanh(c_t)，

其中，h_t表示t时刻的隐藏状态，c_t表示当前时刻的单元状态，o_t表示输出门的输出。

在上述实施例的基础上，优选地，所述预设向量通过如下方式获得：

具体地，本发明实施例中预设语音的输入格式为40维的log-mel谱，将其输入到3个依次连接的传统LSTM网络中，每个传统LSTM网络包括768个节点，得到预设向量，该预设向量为256维。

LSTM(Long Short-Term Memory,长短期记忆)网络，是一种RNN特殊的类型，可以学习长期依赖信息，其主要包括遗忘门、输入门、输出门和单元状态，传统的遗忘门的输出公式为：

f_t＝σ(W_f[h_t-1,(r,e_j)]+b_f)。

其中，f_t表示t时刻遗忘门的输出，σ表示sigmoid函数，W_e表示遗忘门的权重矩阵，b_e表示遗忘门的偏置，h_t-1表示t-1时刻的隐藏状态，r为特征向量，e_j表示所述预设向量，j表示所述目标对象的语音在所述混合语音中的位置。

传统的输入门输出公式如下：

i_t＝σ(W_i[h_t-1,(r,e_j)]+b_i)，

传统的单元状态更新如下：

传统的输出门计算公式如下：

o_t＝σ(W_o[h_t-1,(r,e_j)]+b_o)，

传统的隐藏状态更新如下：

h_t＝o_t*tanh(c_t)，

传统LSTM网络的输入门、单元状态的更新公式、输出门和隐藏状态更新公式与上述LSTM优化网络的相同。

在上述实施例的基础上，优选地，所述特征提取模块为若干个依次连接的空洞卷积层。

具体地，本发明实施例中特征提取模块为8个依次连接的二维空洞卷积层，每个卷积层后面都会有一个标准化层，并用ReLU作为激活函数，其中，空洞卷积层用来增大网络的感受野。

空洞卷积(atrous convolution)又叫扩张卷积(dilated convolution)，其实就是向卷积层引入了一个称为“扩张率(dilation rate)”的新参数，这个参数定义了卷积核处理数据时各值的间距。特征图相同情况下，空洞卷积可以得到更大的感受野，从而获得更加密集的数据；特征图相同情况下，更大的感受野可以提高在目标检测和语义分割的任务中的小物体识别分割的的效果。

显而易见地，使用空洞卷积代替下采样/上采样可以很好的保留图像的空间特征，也不会损失图像信息。当网络层需要更大的感受野，但是由于计算资源有限无法提高卷积核数量或大小时，可以考虑使用空洞卷积。

在上述实施例的基础上，优选地，将预设向量和所述混合语音对应的特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，包括：

具体地，本发明实施例中的语音提取模块由一个优化LSTM网络和2个全连接层组成，优化LSTM网络、第一全连接层和第二全连接层依次首尾相连，第一个全连接层使用ReLU激活函数，第二个全连接层使用Sigmoid激活函数。

全连接层的作用是根据这些特征进行分类，全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息，为了提升神经网络的网络性能，全连接层每个神经元的激励函数一般采用ReLU函数。最后一层全连接层的输出值被传递给一个输出，可以采用softmax逻辑回归(softmax regression)进行分类，该层也可称为softmax层(softmaxlayer)，对于一个具体的分类任务，选择一个合适的损失函数是十分重要的，神经网络有几种常用的损失函数，各自都有不同的特点。

所谓激活函数(Activation Function)，就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。

在上述实施例的基础上，优选地，所述分离网络在训练时的损失函数如下：

X_E＝X^*-X_T，

表示标签。

神经网络模型在具体应用之前都需要利用样本和标签进行训练，具体在训练时的目标函数如上述公式所示。

本发明一实施例提供一种语音提取方法，如图3所示，该方法包括说话人向量网络和分离网络，其中，说话人向量网络事先将只含有目标对象干净的预设语音转换为预设向量，若该说话人向量是神经网络，在使用之前，需要先对其进行训练，利用训练之后的说话人向量网络对预设语音进行特征提取，得到预设向量；然后将混合语音输入到分离网络的特征提取模块，同样地，该特征提取模块用来对混合语音进行特征提取，提取到该混合语音对应的特征向量；接着将预设向量和特征向量输入到该分离网络的语音提取模块中，提取出目标对象的语音。

具体地，对于一段混合录音，包括I个说话人，在时域，这段混合语音可以表示为：

整个系统可以用如下公式表示：

r＝g(|Y(k,l)|)。

表示经过整个网络提取后只含有目标对象j的语音，k为频率索引，l为时域索引，g()代表分离网络的特征提取模块，

代表分离网络的语音提取模块，e_j表示预设向量，r表示特征向量。

具体地，本实施例中说话人向量网络为3个首尾依次连接的LSTM，每个LSTM网络有768个节点，且输入的预设语音格式为40维的log-mel谱，输出的预设向量为256维。

本实施例中的分离网络由特征提取模块和语音提取模块两部分组成，该特征提取模块为8个依次连接的二维空洞卷积层，每个空洞卷积层后面都会连接一个标准化层，并且用ReLU作为激活函数，空洞卷积层用来增大感受野。

该语音提取模块为依次连接的LSTM优化网络和2个全连接层，LSTM优化网络是在传统LSTM网络的基础上对遗忘门进行修改后得到，第一个全连接使用ReLU激活函数，第二个全连接层使用Sigmoid激活函数。

由上可知，该分离网络由8个二维空洞卷积层、LSTM优化网络和2个全连接层组成，表1为分离网络的结构参数图，各层的参数如表1所示：

表1

层	卷积核大小	空洞值	卷积核个数/节点个数
				Conv1	1*7	1*1	64
Conv2	7*1	1*1	64
				Conv3	5*5	1*1	64
Conv4	5*5	2*1	64
				Conv5	5*5	4*1	64
Conv6	5*5	8*1	64
				Conv7	5*5	16*1	64
Conv8	1*1	1*1	8
				Lstm			600
Fc1			514
				Fc2			257

LSTM优化网络是在原始LSTM网络的基础上，修改遗忘门得到。LSTM网络包括遗忘门、输入门和输出门，LSTM单元的作用像内存一样，可以记住不同时刻的信息，在每一时刻，可以增加或删减信息。由于输入门只能从当前时刻的单元状态中加东西，但不能移除信息，如果改变输入门会导致下一时刻隐藏状态的相关信息缺失，而遗忘门的作用主要是根据上一时刻的隐藏状态和当前输入，来决定LSTM单元需要保留或抛弃的信息。因此，通过修改遗忘门可以达到保留目标对象的语音信息而抛弃噪声语音的功能。

当前时刻LSTM单元的输出为遗忘门的输出与上一时刻LSTM单元状态相乘，如果遗忘门的输出为0，就相当于把上一时刻LSTM单元状态置于0，即当上一时刻的单元状态记录的是噪声语音时，将遗忘门的输出置为0，从而实现抛弃噪声语音的功能；如果遗忘门的输出为1，就相当于把上一时刻LSTM单元状态置为1，即当上一时刻的单元状态记录的是目标对象的语音时，就将遗忘门的输出置为1，从而实现保留目标对象语音的功能。

本实施例中通过修改遗忘门，使得遗忘门将目标对象的语音映射成1，将噪声语音映射成0，从而实现保留目标对象语音而抛弃噪声语音的功能。

另，该分离网络中包括多个神经网络，神经网络在应用之前，都需要利用样本和标签进行训练，在训练过程中，通过目标函数来评价训练的好坏，本实施例中目标函数的具体公式如下：

X_E＝X^*-X_T，

表示标签。

综上，本实施例提供一种语音提取方法，首先将混合语音输入到特征提取模块中，得到对应的特征向量，并将预先提取的目标对象的预设向量和该特征向量输入到语音提取模块，在该语音提取模块的作用下，以该预设向量作为参考，会保留混合语音中目标对象的语音，而遗弃噪声语音，从而实现从混合语音中提取出目标对象的语音。该方法即使在多个说话人语音重合时，可以对多个人同时说话时对非目标说话人进行过滤，将目标对象从混合语音中提取出来。

且，本发明实施例中通过修改遗忘门，使得遗忘门将目标对象的语音映射成1，将噪声语音映射成0，从而实现保留目标对象语音而抛弃噪声语音的功能。并且只需要对LSTM网络中的遗忘门进行简单修改即可，既不会增加LSTM网络的复杂性，也不会增加系统的计算量。

本发明实施例还提供一种语音提取系统，该系统的结构如图4所示，该系统包括特征提取模块410和语音提取模块420，其中：

特征提取模块410用于将混合语音输入到分离网络的特征提取模块，获取所述混合语音对应的特征向量，所述混合语音包括目标对象的语音和噪声语音；

语音提取模块420用于将预设向量和所述混合语音对应的特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，其中，所述预设向量根据所述目标对象的预设语音获得，所述语音提取模块以所述预设向量为参考，调整所述目标对象的语音和所述噪声语音在所述混合语音中所占的比例，从而保留所述目标对象的语音而忘记所述噪声语音。

本实施例提供的语音提取系统中，首先将混合语音输入到特征提取模块中，得到对应的特征向量，并将预先提取的目标对象的预设向量和该特征向量输入到语音提取模块，在该语音提取模块的作用下，以该预设向量作为参考，会保留混合语音中目标对象的语音，而遗弃噪声语音，从而实现从混合语音中提取出目标对象的语音。该方法即使在多个说话人语音重合时，可以对多个人同时说话时对非目标说话人进行过滤，将目标对象从混合语音中提取出来。

具体地，该语音提取模块中，通过保留所述目标对象的语音而忘记所述噪声语音实现，通过如下方式实现：

具体地，LSTM优化网络中的遗忘门计算公式如下：

f_t＝σ(W_e[h_t-1,e_j]+b_e)，

具体地，所述预设向量通过如下方式获得：

具体地，所述特征提取模块为若干个依次连接的空洞卷积层。

具体地，该特征提取模块中，将预设向量和所述混合语音对应的特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，包括：

具体地，所述分离网络在训练时的损失函数如下：

X_E＝X^*-X_T，

表示标签。

关于语音提取系统的具体限定可以参见上文中对于语音提取方法的限定，其实施过程与上述语音提取方法的过程相同，详情请参考上述语音提取方法实施例，本系统实施例在此不再赘述。上述语音提取系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行语音提取方法过程中生成或获取的数据，如混合语音、预设语音。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音提取方法，具体如下：

将预设向量和所述混合语音对应的特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，其中，所述分离网络通过样本和标签训练得到，所述预设向量根据所述目标对象的预设语音获得，所述语音提取模块以所述预设向量为参考，调整所述目标对象的语音和所述噪声语音在所述混合语音中所占的比例，从而保留所述目标对象的语音而忘记所述噪声语音。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的语音提取方法的步骤。或者，处理器执行计算机程序时实现应急车道图像处理装置这一实施例中的各模块/单元的功能，例如图4所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中应急车道图像处理方法的步骤。或者，该计算机程序被处理器执行时实现上述语音提取系统这一实施例中的各模块/单元的功能，例如图4所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音提取方法，其特征在于，包括：

2.如权利要求1所述语音提取方法，其特征在于，所述语音提取模块以所述预设向量为参考，调整所述目标对象的语音和所述噪声语音在所述混合语音中所占的比例，从而保留所述目标对象的语音而忘记所述噪声语音，通过如下方式实现：

3.如权利要求2所述语音提取方法，其特征在于，LSTM优化网络中的遗忘门计算公式如下：

f_t＝σ(W_e[h_t-1,e_j]+b_e)，

4.如权利要求1至3任一所述语音提取方法，其特征在于，所述预设向量通过如下方式获得：

5.如权利要求1至3任一所述语音提取方法，其特征在于，所述特征提取模块为若干个依次连接的空洞卷积层。

6.如权利要求1至3任一所述语音提取方法，其特征在于，将预设向量和所述混合语音对应的特征向量输入到所述分离网络的语音提取模块，从所述混合语音中提取出所述目标对象的语音，包括：

7.如权利要求1至3任一所述语音提取方法，其特征在于，所述分离网络在训练时的损失函数如下：

X_E＝X^*-X_T，

表示标签。

8.一种语音提取系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音提取方法的步骤。

10.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音提取方法的步骤。