CN111128222B

CN111128222B - 语音分离方法、语音分离模型训练方法和计算机可读介质

Info

Publication number: CN111128222B
Application number: CN201811276692.7A
Authority: CN
Inventors: 石自强; 林慧镔; 刘柳; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2023-09-08
Anticipated expiration: 2038-10-30
Also published as: CN111128222A; JP2020071482A

Abstract

本发明涉及一种语音分离方法，包括：使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算；对经第一卷积运算的数据执行降采样；使用激活函数处理经降采样后的数据；对经激活函数处理后的数据进行第二卷积运算；通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系；根据对应关系提取与讲话人对应的数据；使用全连接层处理所提取的数据；对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的语音数据。

Description

语音分离方法、语音分离模型训练方法和计算机可读介质

技术领域

本公开涉及语音分离方法、语音分离模型训练方法和计算机可读介质。

背景技术

语音分离的目标是把目标语音从背景干扰中分离出来。在信号处理中，语音分离属于基本的任务类型，应用范围广泛，包括助听器设计、移动通信、音频信息检索、自动语音以及说话人识别等等。人类的听觉系统能轻易地将一个人的声音与另一个人的声音的分离开。即使在非常嘈杂的声音环境中，一个人也能毫不费力地在其他人的说话声和环境噪声的包围中分辨另一个特定人的说话内容。因此语音分离问题通常也被叫做鸡尾酒会问题(cocktail party problem)。基于机器的语音分离，是指使用计算机和其他设备将目标语音与背景噪声引起的干扰分开的问题。通过用单个麦克风或其他源进行的输入实现的单声道语音分离是许多现实世界应用的核心。然而，尽管经过数十年的努力，单声道语音分离仍然是信号和语音处理中最重要的挑战之一。

传统的语音分离算法分为两类：语音增强和波束形成。语音增强主要是基于信号处理的方法，其基于语音和噪声的广泛统计来估计目标语音，而波束成形利用传感器或麦克风阵列。

最近，随着神经网络的流行，也出现了利用神经网络进行语音分离的尝试，实验证明神经网络比其他替代方案具有更好的效果。

然而，现有的采用神经网路的语音分离方案对于非常复杂的嘈杂环境往往也不能做到对于目标语音的准确分离，并且通常复杂度较高而无法满足例如端到端(end to end)应用的实时性要求。

因此，本发明旨在提供一种新的、具有良好的语音分离效果的语音分离方法、语音分离模型训练方法和计算机可读介质。相比于现有技术，本发明提出了一种新的语音分离方案，其能够满足端到端应用的实时性要求，且具有较高的分离准确度。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

在下文中将给出关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本公开的目的在于提供一种新的、具有良好的语音分离效果的语音分离方法、语音分离模型训练方法和计算机可读介质。相比于现有技术，本发明能够满足端到端应用的实时性要求，且具有较高的分离准确度。

为了实现本公开的目的，根据本公开的一个方面提供了一种语音分离方法，包括：使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算；对经第一卷积运算的数据执行降采样；使用激活函数处理经降采样后的数据；对经激活函数处理后的数据进行第二卷积运算；通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系；根据对应关系提取与讲话人对应的数据；使用全连接层处理所提取的数据；以及对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的语音数据。

根据本公开的另一方面，还提供了一种训练语音分离模型的方法，该语音分离模型包括深度神经网络模型和至少一个基于核的卷积滤波器，方法包括：获取对应于讲话人的第一语音数据；合成至少包括第一语音数据的第二语音数据；利用作为语音分离模型的输入的第二语音数据和作为语音分离模型的输出的对应于讲话人的第三语音数据对语音分离模型进行训练，其中，对语音分离模型进行训练包括：使用基于核的至少一个卷积滤波器对第二语音数据进行第一卷积运算；对经第一卷积运算的数据执行降采样；使用激活函数处理经降采样后的数据；对经激活函数处理后的数据进行第二卷积运算；通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系；根据对应关系提取与讲话人对应的数据；使用全连接层处理所提取的数据；以及对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的第三语音数据。

根据本公开的另一方面，还提供了一种存储有计算机可读的程序指令的计算机可读介质，当所述程序指令由计算机执行时，用于实现语音分离的方法或训练语音分离模型的方法。

附图说明

参照下面结合附图对本公开实施方式的说明，会更加容易地理解本公开的以上和其它目的、特点和优点，在附图中：

图1是示出根据本公开的实施方式的端到端的语音分离系统的示意图；

图2是示出根据本公开的实施方式的语音分离模型训练系统的示意图；

图3是示出根据本公开的实施方式的语音分离方法的流程图；

图4是示出根据本公开的实施方式的语音分离模型的训练方法的流程图；

图5是示出如图1所示的语音分离系统中以及如图2所示的语音分离模型训练系统中的LSTM的示意性框图；

图6是示出示出可用来实现根据本公开的实施方式的信息处理装置和信息处理方法的通用机器的结构简图。

具体实施方式

在下文中将结合附图对本公开的示例性实施方式进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施方式的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的部件，而省略了与本公开关系不大的其他细节。

本领域的技术人员可以理解，示例性实施例的各方面可以被实施为系统、方法或计算机程序产品。因此，示例性实施例的各个方面可以具体实现为以下形式，即，可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例，本文可以一般称为"电路"、"模块"或"系统"。此外，示例性实施例的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来分发计算机程序，或者计算机程序可以位于一个或更多个远程服务器上，或被嵌入设备的存储器中。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是，但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行这里公开的示例性实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如"C"程序设计语言或类似的程序设计语言。

以下参照按照示例性实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述这里公开的示例性实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

图1是示出根据本公开的实施方式的端到端的语音分离系统的示意图。

首先对端到端的含义进行说明。以类似语音分离的语音识别系统为例，在训练层面上，传统的语音识别系统是由例如声学模型、发音词典、语言模型等多个模型组成。其中声学模型和语言模型是经训练得到的。这些模块的训练通常是独立进行的，每个模块具有各自不同的目标函数，例如声学模型的训练目标是最大化训练语音识别的概率，而语言模型的训练目标是最小化语音间的混淆度。由于用于实现不同训练目标的各个模块在训练时不能进行信息共用，并且所训练的目标函数与系统整体的性能指标有所偏差，因此这样训练出的网络往往达不到最优性能。此外，由于各个模块独立运行，在训练时以及在识别时往往存在延迟。而解决上述问题的方式包括端到端训练，对于语音识别来说，端到端训练指的是在训练好语言模型后，例如将声学模型和语言模型组合在一起，再以目标函数去训练声学模型。由于训练声学模型时要计算系统整体的输出，所以称为端到端训练。可以看出这种方法并没有彻底解决问题，因为语言模型还是独立训练的。因而出现了端到端模型，对于端到端模型，系统中不再有独立的声学模型、发音词典、语言模型等模块，而是从输入端(语音波形或特征序列)到输出端(序列)直接用一个神经网络相连，由神经网络来承担原有的所有模块的所有功能。

如图1所示，根据本公开实施方式的语音分离方案即为端到端的方案，输入的语音数据经由经训练的整体模型后得到分离的语音数据，需要注意的是，该整体模型包括同时进行训练的各个模型，因此从模型训练的角度来说，根据本公开实施方式的语音分离模型为端到端模型。

而从应用角度来看，以会议场景为例，存在在会议中由各自持有麦克风的多人同时讲话的情况，所采集的包括多人语音的语音数据可以通过如图1所示的系统的输入端输入，经过整体模型的处理，在输出端得到分离的属于多人中的每个人的语音数据，因此，从应用层面来说，图1所示的语音分离系统可以实现端到端的实时的语音分离，是端到端的语音分离系统。

下面对应用于图1所示的语音分离系统的语音分离模型的组成进行说明。其中，100为输入的包含至少一个讲话人的语音的语音数据。101为基于核的P个卷积滤波器，用于对输入的语音数据进行第一卷积运算，其中P为大于1的整数。102为经第一卷积运算后得到的中间数据。103为降采样和激活层，这里示出的降采样处理为池化Pooling处理，激活函数为线性整流函数Relu，当然，图示所示的处理仅出于示出的目的，本领域技术人员也可以领会采用能够实现相同或类似功能的其他方式。104为第二卷积运算处理。105和106示出了两个长短期记忆网络LSTM，需要注意的是，根据本公开实施方式的语音分离方法和语音分离系统并不限于仅采用两个长短期记忆网络LSTM，而是可以是一个或多于两个，图示所示的处理仅出于示出的目的，此外，也不限于采用长短期记忆网络LSTM，也可以是能够实现类似或相同功能的其他类型的深度神经网络。107为全连接层(fully connected layers，FC)，其在整个网络中起到分类器的作用，将用于将经训练学习到的分布式特征表示映射到样本标记空间。108和109为两个反卷积层，其中108中的反卷积运算是与104的第二卷积运算对应的逆运算，109中的反卷积运算是与101的第一卷积运算对应的逆运算。经过包括101-109的各部件的语音分离模型后，输出经分离后的语音110和111，需要注意的是，根据本公开实施方式的语音分离方法和语音分离系统并不限于输出如图1所示的两个人的语音，而是可以是一个或多于两个，图示所示的处理仅出于示出的目的。112示出了P个序列组成的帧表达，需要注意的是，该帧表达仅出于示出的目的用于示出P个序列中的各个序列间的不同之处，而不用于后续处理。

图2是示出根据本公开的实施方式的语音分离模型训练系统的示意图。经如图2所示的语音分离模型训练系统训练出的模型可以用于如图1所示的语音分离系统以实现端到端的语音分离。

下面对应用于图2所示的语音分离模型训练系统的语音分离模型训练的组成进行说明。其中，语音数据212和213是预先采集的来自不同讲话人的语音数据。截取语音数据212和213的一部分作为样本，请注意，经该截取操作的语音数据用于后续的损失值的计算。语音数据214为将语音数据212和213进行合成而得到的语音数据。语音数据200为利用与对语音数据212和213进行截取所使用的时间窗的相同的截取时间窗来对合成的语音数据214进行截取而得到的数据。滤波器组201包括基于核的P个卷积滤波器，用于对待输入的语音数据200进行第一卷积运算。中间数据202为经第一卷积运算后得到的中间数据。203为降采样和激活层，这里示出的降采样处理为池化Pooling处理，激活函数为线性整流函数Relu，当然，图示所示的处理仅出于示出的目的，本领域技术人员也可以领会采用能够实现相同或类似功能的其他方式。204为进行第二卷积运算处理的卷积层。205和206示出了两个长短期记忆网络LSTM，需要注意的是，根据本公开实施方式的语音分离方法和语音分离系统并不限于仅采用两个长短期记忆网络LSTM，而是可以是一个或多于两个，图示所示的处理仅出于示出的目的，此外，也不限于采用长短期记忆网络LSTM，也可以是能够实现类似或相同功能的其他类型的网络。207为全连接层(fully connected layers，FC)，其在整个网络中起到分类器的作用，将用于将经训练学习到的分布式特征表示映射到样本标记空间。208和209为两个反卷积层，其中208中的反卷积运算是与204的第二卷积运算对应的逆运算，209中的反卷积运算是与滤波器组201中应用的第一卷积运算对应的逆运算。经过包括201-209的各部件的语音分离模型后，输出经初步分离后的语音210和211，需要注意的是，根据本公开实施方式的语音分离训练方法和系统并不限于训练如图2所示的两个人的语音，而是可以是一个或多于两个，图示所示的处理仅出于示出的目的。基于经初步分离后的语音210和211与预先采集的来自不同讲话人的语音数据212和213计算由损失函数215输出的损失值，通过迭代地减少该损失值来训练该语音分离模型，从而用于如图1所示的语音分离系统以实现端到端的语音分离。

图3是示出根据本公开的实施方式的语音分离方法的流程图。

在步骤301中，接收待分离讲话人声音的语音数据包括但不限于实时接收的数据、经采集并存储的数据、经由通信而实时获得的数据或者经通信传输并存储的数据等。在采集时，该语音数据可以是例如经由诸如麦克风的语音采集设备采集并经过音频处理(例如模数转换、压缩)后得到的采样数据，其中采样后的数据可以是时间上离散的。在该步骤中，可以接收一段长时间的语音，然后基于其中语音内容的特性对该段语音进行适应性地截取，例如是否包含足够的能够区别不用讲话人的语音特征。也可以采用仅采集一段语音，而不进行截取。

在步骤302中，使用基于核的至少一个卷积滤波器对经步骤301中的处理得到的语音数据进行第一卷积运算。通常情况下，语音分离都是基于时频分析后的语音谱完成的，而其中语音谱是具有结构特点的。要提高语音分离准确率，就需要克服语音信号所面临各种各样的多样性，包括说话人的多样性(说话人自身、以及说话人之间)、环境的多样性等。基于核的卷积滤波器提供在时间和空间上的平移不变性卷积，因此使用卷积滤波器可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看，则可以认为是将整个语音信号分析得到的语音谱当作一张图像来处理，采用图像中广泛应用的基于核的卷积滤波器对其进行识别是有效的。需要注意的是，卷积滤波器的核和卷积滤波器的数量是通过迭代学习经不断完善来确定的。发明人发现，通过对包括卷积滤波器的整体模型进行训练，其中在训练LSTM的同时对卷积滤波器的核和数量进行训练可以提高语音分离的准确率，这也是本发明的优势之一。在步骤302中，假设输入的语音数据具有M个采样点，卷积滤波器的卷积核为N×N，经过P个卷积滤波器的处理后将得到如图1所示的P个序列，每个序列包括M-N+1个元素，图1中的112示出了这P个时域序列组成的帧表达，需要注意的是，该帧表达仅出于示出的目的用于示出P个序列中的各个序列间的不同之处，而不用于后续处理。

在步骤303中，对经卷积滤波处理的数据执行降采样并使用激活函数处理经降采样后的数据。根据本公开的一个实施方式，降采样可以是池化Pooling处理，激活函数可以是线性整流函数Relu。下面对Pooling处理和Relu进行简单的说明。在通过卷积获得了特征之后，下一步希望利用这些特征去做分类。理论上讲，可以用提取到的所有特征去训练分类器，但这样做面临计算量的挑战。学习一个拥有大量特征输入的分类器十分不便，并且容易出现过拟合(over-fitting)。为了解决这个问题，同时为了描述数据量较大的语音，考虑对不同位置的特征进行聚合统计，例如，可以计算一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就是池化，有时也称为平均池化或者最大池化(取决于计算池化的方法)。线性整流函数(Rectified Linear Unit，Relu)，又称修正线性单元，是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。比于传统的神经网络激活函数，诸如逻辑函数和tanh等双曲函数，线性整流函数具有以下优势：符合仿生物学原理；更加有效率的梯度下降以及反向传播，避免了梯度爆炸和梯度消失；简化计算过程，没有其他复杂激活函数中诸如指数函数的影响，同时活跃度的分散性使得神经网络整体计算成本下降。经过了步骤303上的上述处理后，在步骤304中，对经激活函数处理后的数据进行第二卷积运算以便于作为LSTM的输入。

在步骤305中，通过应用至少一个深度神经网络模型例如LSTM识别经第二卷积运算后的数据与讲话人间的对应关系并根据对应关系提取与讲话人对应的数据。

然后，在步骤306中，使用全连接层处理所提取的数据。

在步骤307中，对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成估计出的对应于讲话人的语音数据。

图4是示出根据本公开的实施方式的语音分离模型的训练方法的流程图。

在步骤401中，获取来自多个讲话人的语音数据，为了保证训练的准确度，所获取的语音数据可以选取尽量少的背景噪音的语音数据，以使得所训练的模型可以适用于不同场景下的讲话人的语音分离。

在步骤402中，对步骤401中获取到的来自多个讲话人的语音数据进行混合，这里的混合可以是在同一时间段上对多个语音数据的叠加处理，而最好不是对多个语音数据的拼接(因为这样的处理对于模型训练没有显著帮助)。

在步骤403中，利用预设时间窗对步骤402中获得的合成的语音数据进行截取，并将截取后的语音数据输入到待训练的语音分离模型中。

在步骤404中，使用基于核的至少一个卷积滤波器对输入的合成语音数据进行第一卷积运算。通常情况下，要提高语音分离准确率，需要克服语音信号所面临各种各样的多样性，包括说话人的多样性(说话人自身、以及说话人之间)、环境的多样性等。基于核的卷积滤波器提供在时间和空间上的平移不变性卷积，因此使用卷积滤波器可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看，则可以认为是将整个语音信号分析得到的语音谱当作一张图像来处理，采用图像中广泛应用的基于核的卷积滤波器对其进行识别是有效的。需要注意的是，卷积滤波器的核和卷积滤波器的数量是通过迭代学习经不断完善来确定的，并且是与LSTM模型同时训练的。发明人发现，通过对包括卷积滤波器的整体模型进行训练，其中在训练LSTM的同时对卷积滤波器的核和数量进行训练可以提高语音分离的准确率，这也是本发明的优势之一。在步骤405中，假设输入的语音数据具有M个采样点，卷积滤波器的卷积核为N×N，经过P个卷积滤波器的处理后将得到如图2所示的P个序列，每个序列包括M-N+1个元素，图2中的216示出了这P个时域序列组成的帧表达，需要注意的是，该帧表达仅出于示出的目的用于示出P个序列中的各个序列间的不同之处，而不用于后续处理。

在步骤405中，对经卷积滤波处理的数据执行降采样并使用激活函数处理经降采样后的数据。根据本公开的一个实施方式，降采样可以是池化Pooling处理，激活函数可以是线性整流函数Relu。在通过卷积获得了特征之后，下一步希望利用这些特征去做分类。理论上讲，可以用提取到的所有特征去训练分类器，但这样做面临计算量的挑战。学习一个拥有大量特征输入的分类器十分不便，并且容易出现过拟合。为了解决这个问题，同时为了描述数据量较大的语音，考虑对不同位置的特征进行聚合统计，例如，可以计算一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度(相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化，有时也称为平均池化或者最大池化(取决于计算池化的方法)。线性整流函数,又称修正线性单元,是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。比于传统的神经网络激活函数，诸如逻辑函数和tanh等双曲函数，线性整流函数具有以下优势：符合仿生物学原理；更加有效率的梯度下降以及反向传播，避免了梯度爆炸和梯度消失；简化计算过程，没有其他复杂激活函数中诸如指数函数的影响，同时活跃度的分散性使得神经网络整体计算成本下降。经过了步骤405上的上述处理后，在步骤406中，对经激活函数处理后的数据进行第二卷积运算以便于作为LSTM的输入。

在步骤407中，通过应用至少一个深度神经网络模型例如LSTM识别经第二卷积运算后的数据与讲话人间的对应关系并根据对应关系提取与讲话人对应的数据。

然后，在步骤408中，使用全连接层处理所提取的数据。

在步骤409中，对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成估计出的对应于讲话人的语音数据。

在步骤410中，利用作为语音分离模型的输入的步骤401中的来自多个讲话人的语音数据和作为语音分离模型的输出的步骤409中生成的语音数据对包括LSTM和P个基于核的卷积滤波器的语音分离模型进行训练，其中训练过程包括基于讲话人的语音特性确定卷积滤波器的数量P和核。

在步骤410中，对包括LSTM和P个基于核的卷积滤波器的语音分离模型进行训练具体为，基于经步骤410中得到的初步分离后的语音与预先采集的来自不同讲话人的目标语音数剧计算由损失函数输出的损失值，基于该损失值来更新语音分离模型，对神经网络进行训练时采用的损失函数可采用本领域知晓的常规损失函数，在此不再赘述。

通过对上述步骤403至410进行迭代，以通过不断减少损失函数的损失值来训练该语音分离模型，当损失值达到预设的期望阈值以下时，完成对于语音分离模型的训练。

通过如图4所示的语音分离模型的训练方法训练得到的语音分离模型，可以用于如图1所示的语音分离系统以实现端到端的语音分离。

下面对根据本公开实施方式的深度神经网络LSTM进行说明。

图5是示出如图1所示的语音分离系统中以及如图2所示的语音分离模型训练系统中的LSTM的示意性框图。长短期记忆网络LSTM递归神经网络Recurrent Neuron Network的一种，递归神经网络RNN是一种对序列数据建模的神经网络。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，预测句子的下一个单词一般需要使用前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为递归神经网络，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再是无连接的而是相互连接的，隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

所有RNN都具有一种重复神经网络模块的链式的形式。在标准的RNN中，这个重复的模块只有一个简单的结构，例如一个tanh层。LSTM同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，而是以一种特定的方式进行交互。

LSTM神经网络是一种时间递归神经网络(RNN)，其适用于处理和预测时间序列中间隔和延迟非常长的重要事件。鉴于LSTM神经网络对于本领域技术人员是公知，本文仅对其在本公开的实施方式中的应用进行描述，而不对其原理进行更详细的描述。

本公开的各种实施方式采用LSTM的初衷在于，LSTM是RNN的一个优秀的变种模型，继承了大部分RNN模型的特性，同时解决了梯度反传过程由于逐步缩减而产生的梯度消失问题，因此LSTM非常适合用于处理与时间序列高度相关的问题，而经实践，LSTM在根据本公开的各种实施方式中作为整体模型的一部分提高了分离的准确度。需要注意的是，本公开的实施方式使用了两个LSTM实现了在保证实时性的同时提高了分离准确度，也不限于采用两个LSTM，可以是一个或多于两个LSTM。

图6是示出可用来实现根据本公开的实施方式的信息处理装置和信息处理方法的通用机器700的结构简图。通用机器700可以是例如计算机系统。应注意，通用机器700只是一个示例，并非暗示对本公开的方法和装置的使用范围或者功能的局限。也不应将通用机器700解释为对上述信息处理方法和信息处理装置中示出的任一组件或其组合具有依赖或需求。

在图6中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件也连接到输入/输出接口705：输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由网络例如因特网执行通信处理。根据需要，驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上，使得从中读出的计算机程序可根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有计算机可读的程序指令的计算机程序产品。所述指令代码由计算机读取并执行时，可执行上述根据本公开的信息处理方法。相应地，用于承载这种程序指令的上面列举的各种存储介质也包括在本公开的范围内。

上面已通过框图、流程图和/或实施方式进行了详细描述，阐明了根据本公开的实施方式的装置和/或方法的具体实施方式。当这些框图、流程图和/或实施方式包含一个或多个功能和/或操作时，本领域的技术人员明白，这些框图、流程图和/或实施方式中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中，本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而，本领域的技术人员会认识到，本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如，以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如，以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施，并且，根据本说明书中公开的内容，设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”，“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。

综上，在根据本公开的实施方式中，本公开提供了如下方案，但不限于此：

方案1.一种语音分离方法，包括：

使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算；

对经所述第一卷积运算的数据执行降采样；

使用激活函数处理经所述降采样后的数据；

对经所述激活函数处理后的数据进行第二卷积运算；

通过应用至少一个深度神经网络模型识别经所述第二卷积运算后的数据与讲话人间的对应关系；

根据所述对应关系提取与所述讲话人对应的数据；

使用全连接层处理所提取的数据；以及

对经所述全连接层处理的数据分别进行所述第二卷积运算的逆运算和所述第一卷积运算的逆运算以生成对应于所述讲话人的语音数据。

方案2.根据方案1所述的方法，其中，所述降采样处理为池化Pooling。

方案3.根据方案1所述的方法，其中，所述激活函数为线性整流函数Relu。

方案4.根据方案1所述的方法，其中，依次应用两个深度神经网络模型识别经所述第二卷积运算后的数据与讲话人间的对应关系。

方案5.根据方案1至4中任一项所述的方法，其中所述深度神经网络模型为长短期记忆网络LSTM。

方案6.根据方案1至4中任一项所述的方法，其中，所述对应关系包括经所述第二卷积运算后的数据与多个讲话人的多个对应关系。

方案7.根据方案1至4中任一项所述的方法，其中，基于讲话人的语音特性确定所使用的卷积滤波器的数量和核。

方案8.根据方案1至4中任一项所述的方法，其中，所述语音数据是时间上离散的数据。

方案9.根据方案5所述的方法，其中，所述LSTM的数量大于或等于2。

方案10.一种训练语音分离模型的方法，所述语音分离模型包括深度神经网络模型和至少一个基于核的卷积滤波器，所述方法包括：

获取对应于讲话人的第一语音数据；

合成至少包括所述第一语音数据的第二语音数据；

利用作为所述语音分离模型的输入的所述第二语音数据和作为所述语音分离模型的输出的对应于所述讲话人的第三语音数据对所述语音分离模型进行训练，

其中，对所述语音分离模型进行训练包括：

使用所述基于核的至少一个卷积滤波器对所述第二语音数据进行第一卷积运算；

对经所述第一卷积运算的数据执行降采样；

使用激活函数处理经所述降采样后的数据；

对经所述激活函数处理后的数据进行第二卷积运算；

通过应用至少一个深度神经网络模型识别经所述第二卷积运算后的数据与所述讲话人间的对应关系；

根据所述对应关系提取与所述讲话人对应的数据；

使用全连接层处理所提取的数据；以及

对经所述全连接层处理的数据分别进行所述第二卷积运算的逆运算和所述第一卷积运算的逆运算以生成对应于所述讲话人的第三语音数据。

方案11.根据方案10所述的方法，其中，基于所述讲话人的语音特性确定所述卷积滤波器的数量和核。

方案12.根据方案10所述的方法，其中，通过不断减少损失函数的损失值来训练所述语音分离模型。

方案13.根据方案12所述的方法，当所述损失值达到预设的期望阈值以下时，完成对于所述语音分离模型的训练。

方案14.一种存储有计算机可读的程序指令的计算机可读介质，当所述程序指令由计算机执行时，用于实现根据方案1-13中任一项所述的方法。

尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims

1.一种语音分离方法，包括：

对经所述第一卷积运算的数据执行降采样；

使用激活函数处理经所述降采样后的数据；

对经所述激活函数处理后的数据进行第二卷积运算；

根据所述对应关系提取与所述讲话人对应的数据；

使用全连接层处理所提取的数据；以及

2.根据权利要求1所述的方法，其中，所述降采样处理为池化Pooling。

3.根据权利要求1所述的方法，其中，所述激活函数为线性整流函数Relu。

4.根据权利要求1所述的方法，其中，依次应用两个深度神经网络模型识别经所述第二卷积运算后的数据与讲话人间的对应关系。

5.根据权利要求1至4中任一项所述的方法，其中所述深度神经网络模型为长短期记忆网络LSTM。

6.根据权利要求1至4中任一项所述的方法，其中，所述对应关系包括经所述第二卷积运算后的数据与多个讲话人的多个对应关系。

7.根据权利要求1至4中任一项所述的方法，其中，基于讲话人的语音特性确定所使用的卷积滤波器的数量和核。

8.一种训练语音分离模型的方法，所述语音分离模型包括深度神经网络模型和至少一个基于核的卷积滤波器，所述方法包括：

获取对应于讲话人的第一语音数据；

合成至少包括所述第一语音数据的第二语音数据；

其中，对所述深语音分离模型进行训练包括：

对经所述第一卷积运算的数据执行降采样；

使用激活函数处理经所述降采样后的数据；

对经所述激活函数处理后的数据进行第二卷积运算；

根据所述对应关系提取与所述讲话人对应的数据；

使用全连接层处理所提取的数据；以及

9.根据权利要求8所述的方法，其中，基于所述讲话人的语音特性确定所述卷积滤波器的数量和核。

10.一种存储有计算机可读的程序指令的计算机可读介质，当所述程序指令由计算机执行时，用于实现根据权利要求1-9中任一项所述的方法。