CN112567459B

CN112567459B - 声音分离装置、声音分离系统、声音分离方法以及存储介质

Info

Publication number: CN112567459B
Application number: CN201880096367.4A
Authority: CN
Inventors: 相原龙; 花泽利行; 冈登洋平; G·P·维彻恩; J·勒劳克斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2023-12-12
Anticipated expiration: 2038-08-24
Also published as: DE112018007846T5; JPWO2020039571A1; US20210233550A1; US11798574B2; JP6789455B2; WO2020039571A1; DE112018007846B4; CN112567459A

Abstract

声音分离系统的声音分离装置(12)具备：特征量抽出部(121)，抽出混合声音的声音特征量的时间序列数据；块分割部(122)，将声音特征量的时间序列数据分割成具有一定的时间宽度的块；声音分离神经网络(1b)，根据块化的声音特征量的时间序列数据，制作多个说话者各自的掩码的时间序列数据；以及声音恢复部(123)，从掩码的时间序列数据和混合声音的声音特征量的时间序列数据，恢复多个说话者各自的声音数据。在多个说话者各自的掩码的时间序列数据的制作中，声音分离神经网络(1b)在正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据，在逆向的LSTM神经网络中使用与当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据。

Description

声音分离装置、声音分离系统、声音分离方法以及存储介质

技术领域

本发明涉及用于从包含多个说话者的声音的混合声音的混合声音数据分离多个说话者各自的声音的声音数据的声音分离装置、声音分离方法及声音分离程序、以及包括声音分离装置的声音分离系统。

背景技术

声音识别处理一般是对从1名说话者发声的声音进行的。在对包含从多个说话者同时发声的多个声音的混合声音进行声音识别处理时，声音识别的精度大幅降低。因此，需要将多个说话者的混合声音分离成这些多个说话者中的某一个说话者(以下还称为“各说话者”或者“原说话者”)的声音、即把混合声音数据分离成各说话者的声音数据。

非专利文献1提出将多个说话者的混合声音分离的声音分离方法。在该方法中，使用Bidirectional Long Short-Term Memory(BLSTM)，根据多个说话者的混合声音的功率谱，推测各说话者的掩码、和能够通过无教师聚类(unsupervised clustering)分离说话者的埋入矢量。通过将推测的各说话者的掩码应用于多个说话者的混合声音，从混合声音分离各说话者的声音。将包括BLSTM的神经网络称为BLSTM神经网络。

掩码是用于输入多个说话者的混合声音的声音特征量并输出各说话者的声音的声音特征量的过滤器。掩码被大致分为软掩码(soft mask)和二元掩码(binary mask)这2种。软掩码能够针对频率-时间的每个库(bin)，用比值表示包含于多个说话者的混合声音的声音特征量的各说话者的声音的声音特征量的分量。二元掩码能够针对频率-时间的每个库，通过二元表现来表示支配性的说话者。

时间-频率的库是表示针对每一定的时间宽度以及一定的频率宽度进行分析而得到的声音信息的标量值或者矢量。例如，时间-频率的库是表示关于如下范围的功率以及相位的复数值：该范围是将以采样频率8kHz录音的声音在时间方向上以32ms的窗宽以8ms的间隔划分，并且在频率方向上将0Hz至4kHz的频率等间隔地划分成1024个而得到的。

埋入矢量是针对声音特征量的时间-频率的每个库进行推测的矢量。通过学习BLSTM神经网络，同一说话者的埋入矢量相互类似，不同说话者的埋入矢量不会相互类似。通过这样学习BLSTM神经网络，每当对推测的埋入矢量进行聚类时，能够从多个说话者的混合声音分离各说话者的声音。

现有技术文献

非专利文献

非专利文献1：Z.-Q.Wang、外2名、“Alternative Objective Functions for DeepClustering”、IEEE International Conference on Acoustics,Speech,and SignalProcessing(ICASSP)、2018

发明内容

然而，使用BLSTM神经网络的声音分离方法是组合利用声音信号的从过去向未来的回归和从未来向过去的回归的方法。因此，在使用BLSTM神经网络的声音分离方法中，如果不是在完成所有声音信号的输入之后，则无法分离输出各说话者的声音。即，存在会发生与输入的声音信号的声音长度对应的时间以上的处理延迟这样的课题。

另外，虽然还能够代替BLSTM而使用仅用声音信号的从过去向未来的回归的LongShort-Term Memory(LSTM)，但存在各说话者的声音的分离精度降低这样的课题。此外，包括LSTM的神经网络被称为LSTM神经网络。

本发明是为了解决上述课题而完成的，其目的在于提供一种能够一边减少声音分离中的处理延迟一边减轻声音的分离精度的降低的声音分离装置、声音分离方法、声音分离程序以及声音分离系统。

本发明的一个方案的声音分离装置从包含多个说话者的声音的混合声音的混合声音数据，分离所述多个说话者各自的声音的声音数据，该声音分离装置的特征在于，具备：特征量抽出部，从所述混合声音数据，抽出所述混合声音的声音特征量的时间序列数据；块分割部，通过将所述声音特征量的时间序列数据分割成具有一定的时间宽度的块，生成块化的声音特征量的时间序列数据；声音分离神经网络，包括在时间轴方向上正向的LSTM神经网络和在所述时间轴方向上逆向的LSTM神经网络的组合，根据所述块化的所述声音特征量的时间序列数据，制作所述多个说话者各自的掩码的时间序列数据；以及声音恢复部，从所述掩码的时间序列数据和所述混合声音的所述声音特征量的时间序列数据，恢复所述多个说话者各自的声音的所述声音数据，在所述多个说话者各自的掩码的时间序列数据的制作中，所述声音分离神经网络在所述正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据，在所述逆向的LSTM神经网络中使用与所述当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据。

本发明的其他方案的声音分离系统的特征在于，具备：所述声音分离装置；以及声音分离模型学习装置，学习所述声音分离神经网络，所述声音分离模型学习装置具备：混合声音制作部，根据包含多个说话者各自发声的单独声音的声音数据的学习数据，制作包含所述多个说话者的声音的混合声音的声音数据；学习用的特征量抽出部，从所述混合声音的声音数据抽出所述混合声音的声音特征量的时间序列数据，从所述单独声音的声音数据抽出所述单独声音的声音特征量的时间序列数据；掩码制作部，根据由所述学习用的特征量抽出部抽出的所述混合声音的声音特征量的时间序列数据及所述单独声音的声音特征量的时间序列数据，制作所述多个说话者各自的掩码的时间序列数据；以及模型学习部，根据由所述学习用的特征量抽出部抽出的所述混合声音的声音特征量的时间序列数据及所述单独声音的声音特征量的时间序列数据、和由所述掩码制作部制作的所述掩码的时间序列数据，学习所述声音分离神经网络。

本发明的其他方案的声音分离方法从包含多个说话者的声音的混合声音的混合声音数据，分离所述多个说话者各自的声音的声音数据，该声音分离方法的特征在于，具有：特征量抽出步骤，从所述混合声音数据抽出所述混合声音的声音特征量的时间序列数据；块分割步骤，通过将所述声音特征量的时间序列数据分割成具有一定的时间宽度的块，生成块化的声音特征量的时间序列数据；掩码制作步骤，包括在时间轴方向上正向的LSTM神经网络和在所述时间轴方向上逆向的LSTM神经网络的组合的声音分离神经网络根据所述块化的所述声音特征量的时间序列数据，制作所述多个说话者各自的掩码的时间序列数据；以及声音恢复步骤，从所述掩码的时间序列数据和所述混合声音的所述声音特征量的时间序列数据，恢复所述多个说话者各自的声音的所述声音数据，在所述多个说话者各自的掩码的时间序列数据的制作中，所述声音分离神经网络在所述正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据，在所述逆向的LSTM神经网络中使用与所述当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据。

根据本发明，能够一边减少声音分离中的处理延迟一边减轻声音的分离精度的降低。

附图说明

图1是概略地示出本发明的实施方式1所涉及的声音分离系统的结构的功能框图。

图2是示出实施方式1所涉及的声音分离系统的硬件结构的例子的图。

图3是概略地示出实施方式1所涉及的声音分离系统的声音分离模型学习装置的结构的功能框图。

图4是概略地示出实施方式1所涉及的声音分离系统的声音分离装置的结构的功能框图。

图5是示出实施方式1所涉及的声音分离系统的声音分离神经网络的构造的例子的图。

图6是示出图3所示的声音分离模型学习装置的动作的流程图。

图7是概略地示出声音分离模型学习装置的块分割部以及声音分离装置的块分割部进行的块化的例子的图。

图8是示出图4所示的声音分离装置的动作的流程图。

图9是示出BLSTM神经网络的概略构造的图。

图10是示出实施方式1中的构成声音分离神经网络的LC-BLSTM神经网络的概略构造的图。

图11是概略地示出本发明的实施方式2所涉及的声音分离系统的声音分离装置的结构的功能框图。

图12是示出图11所示的声音分离装置的动作的流程图。

图13是概略地示出本发明的实施方式3所涉及的声音分离系统的声音分离模型学习装置的结构的功能框图。

图14是示出图13所示的声音分离模型学习装置的动作的流程图。

图15是示出利用图13所示的声音分离模型学习装置的学生神经网络学习部的学习的方案的图。

图16是示出利用本发明的实施方式4所涉及的声音分离系统的声音分离模型学习装置的学生神经网络学习部的学习的方案的图。

图17是示出利用本发明的实施方式5所涉及的声音分离系统的声音分离模型学习装置的学生神经网络学习部的学习的方案的图。

(附图标记说明)

1：声音分离系统；1a：学习数据；1b、2b、2c、2d：声音分离NN；1c：教师声音分离NN；1d：学生声音分离NN；11、31：声音分离模型学习装置；12、22：声音分离装置；12a：声音分离部；111：混合声音制作部；112：特征量抽出部(学习用的特征量抽出部)；113：掩码制作部；114：块分割部(学习用的块分割部)；115：模型学习部；116：学生NN学习部；121：特征量抽出部；122：块分割部(声音分离用用的块分割部)；123：声音恢复部；124：块长度选择部。

具体实施方式

以下，参照附图，说明本发明的实施方式所涉及的声音分离装置、声音分离方法、声音分离程序、以及声音分离系统。以下的实施方式仅为例子，能够在本发明的范围内进行各种变更。

《1》实施方式1

《1-1》结构

图1是概略地示出实施方式1所涉及的声音分离系统1的结构的功能框图。如图1所示，声音分离系统1具备声音分离模型学习装置11和声音分离装置12。

对声音分离模型学习装置11输入学习数据1a。学习数据1a是由多个说话者发声的声音的声音数据。学习数据1a包含多个说话者各自的声音、即由1名说话者发声的声音的声音数据。由1名说话者发声的声音还被称为单独声音。学习数据1a例如是预先存储于存储装置的声音数据。声音分离模型学习装置11根据输入的学习数据1a，制作声音分离神经网络(以下还称为“声音分离NN”)1b。声音分离NN1b例如存储于声音分离装置12的存储装置。

声音分离装置12具备声音分离部12a，该声音分离部12a使用声音分离NN1b，从包含多个说话者的多个声音的混合声音的数据、即混合声音数据，分离各说话者的声音的声音数据。对声音分离部12a输入包含由多个说话者发声的多个声音的混合声音的混合声音数据。混合声音是多个说话者的声音混在一起而成的声音。声音分离部12a使用声音分离NN1b，将输入的混合声音数据分离成这些多个说话者各自的声音数据。即，声音分离装置12使用声音分离NN1b，将多个说话者的混合声音数据分离成各说话者的声音数据。

图2是示出实施方式1所涉及的声音分离系统1的硬件结构的例子的图。图2所示的声音分离系统1具备储存作为软件的程序的作为存储部的存储器92、作为执行储存于存储器92的程序的处理器的CPU(Central Processing Unit，中央处理单元)91、以及如半导体存储装置或者硬盘驱动器(HDD)等那样的存储装置93。存储器92例如是ROM(Read OnlyMemory，只读存储器)以及RAM(Random Access Memory，随机存取存储器)等半导体存储器。

声音分离系统1例如能够通过计算机实现。图1中的学习数据1a以及声音分离NN1b能够储存到存储装置93。但是，学习数据1a以及声音分离NN1b也可以设置于以能够与声音分离系统1进行通信的方式连接的外部的设备。

声音分离模型学习装置11能够通过执行作为存储于存储器92的软件程序的声音分离模型学习程序的CPU91实现。但是，声音分离模型学习装置11也可以由包括半导体集成电路的处理电路构成。另外，声音分离模型学习装置11也可以由包括半导体集成电路的处理电路和执行程序的处理器的组合构成。

声音分离部12a能够通过执行作为存储于存储器92的软件程序的声音分离程序的CPU91实现。但是，声音分离部12a也可以由包括半导体集成电路的处理电路构成。另外，声音分离部12a也可以由包括半导体集成电路的处理电路和执行程序的处理器的组合构成。

在图2中，示出了1个CPU91，但用于学习声音分离模型的处理、和用于分离声音的处理也可以通过相互独立的CPU执行。

图3是概略地示出实施方式1所涉及的声音分离系统1的声音分离模型学习装置11的结构的功能框图。如图3所示，声音分离模型学习装置11具备混合声音制作部111、特征量抽出部(学习用的特征量抽出部)112、掩码制作部113、块分割部(学习用的块分割部)114、以及模型学习部115。

对混合声音制作部111输入学习数据1a。混合声音制作部111通过基于学习数据1a混合由多个说话者发声的多个声音的声音数据，制作多个说话者的混合声音的混合声音数据。即，混合声音制作部111根据基于学习数据1a的多个声音数据，制作混合声音数据。

对特征量抽出部112输入学习数据1a。另外，对特征量抽出部112输入由混合声音制作部111制作的混合声音数据。特征量抽出部112根据学习数据1a，从各说话者的声音数据抽出各说话者的声音特征量，即制作各说话者的声音特征量。另外，特征量抽出部112从由混合声音制作部111制作的混合声音数据抽出混合声音的声音特征量，即制作混合声音的声音特征量。声音特征量例如是通过对声音信号实施FFT(快速傅里叶变换)的处理而得到的功率谱的时间序列数据。

掩码制作部113根据多个说话者的混合声音数据和这些多个说话者各自的声音数据，制作掩码。“掩码”是用于从混合声音的声音特征量输出各说话者的声音特征量的过滤器。掩码可大致分为软掩码和二元掩码这2种。软掩码能够针对频率-时间的每个库，用比值表示包含于多个说话者的混合声音的声音特征量的、各说话者的声音的声音特征量的分量。二元掩码能够针对频率-时间的每个库，通过二元表现来表示支配性的说话者。针对声音特征量的时间序列数据的各个时刻的每一个，制作掩码。即，声音特征量是时间序列数据，掩码也是时间序列数据。

块分割部114将由特征量抽出部112抽出的声音特征量的时间序列数据和由掩码制作部113制作的掩码的时间序列数据的各个，分割成时间轴方向的块。“块”是通过将时间序列数据在时间轴方向上以一定的时间宽度切出而得到的时间序列数据。将1个块的时间宽度称为块长度。

模型学习部115使用分割成块的掩码的时间序列数据和分割成块的声音特征量的时间序列数据，以块单位学习声音分离NN1b。分割成块的掩码的时间序列数据还被称为块化的掩码的时间序列数据。分割成块的声音特征量的时间序列数据还被称为块化的声音特征量的时间序列数据。

此外，声音分离模型学习装置11能够不具备块分割部114。在未具备块分割部114的情况下，模型学习部115在学习声音分离模型时，用发声的声音的整体来学习声音分离模型，另一方面，声音分离装置12在进行声音分离时，进行将声音特征量的时间序列数据和掩码的时间序列数据各自分割成时间轴方向的块的块化的处理。

图4是概略地示出实施方式1所涉及的声音分离系统1的声音分离装置12的结构的功能框图。如图4所示，声音分离装置12具备特征量抽出部121、块分割部(声音分离用的块分割部)122、声音分离NN1b、以及声音恢复部123。特征量抽出部121、块分割部122、以及声音恢复部123构成图1所示的声音分离部12a。

对特征量抽出部121输入混合声音数据。特征量抽出部121从输入的混合声音数据抽出混合声音的声音特征量，即制作混合声音的声音特征量。声音特征量例如是通过对声音信号实施FFT的处理而得到的功率谱的时间序列数据。特征量抽出部121具有与图3所示的声音分离模型学习装置11的特征量抽出部112同样的结构。

块分割部122将由特征量抽出部121抽出的声音特征量的时间序列数据分割成时间轴方向的块。分割成块的声音特征量还被称为谱特征量。块分割部122通过将谱特征量输入给声音分离NN1b，推测掩码的时间序列数据。即，块分割部122利用声音分离NN1b，从谱特征量制作掩码的时间序列数据。块分割部122具有与图3所示的声音分离模型学习装置11的块分割部114同样的结构。

声音恢复部123将求出的掩码的时间序列数据应用于混合声音的谱特征量的时间序列数据。声音恢复部123例如通过对谱特征量的时间序列数据实施逆FFT(逆快速傅里叶变换)的处理，从混合声音数据恢复1名说话者的声音数据。

图5是示出实施方式1所涉及的声音分离系统1的声音分离NN1b的构造的图。对声音分离NN1b输入混合声音的声音特征量的时间序列数据。声音分离NN1b能够推测包含于混合声音数据的、各说话者的掩码和各说话者的埋入矢量。声音分离NN1b在声音分离装置12中实施声音分离时，使用各说话者的掩码，不使用各说话者的埋入矢量。但是，声音分离NN1b也可以以推测各说话者的掩码和各说话者的埋入矢量这两方的方式学习。在该情况下，利用掩码的各说话者的声音的推测精度提高。使用埋入矢量的技术本身是公知的，例如记载于非专利文献1。

如图5所示，声音分离NN1b具有输入层1b1、中间层1b2、掩码输出层1b3、以及埋入矢量输出层1b4。具有掩码输出层1b3和埋入矢量输出层1b4、即2个输出层的神经网络的构造被称为Chimera构造。输入层1b1、中间层1b2、掩码输出层1b3、以及埋入矢量输出层1b4各自包括多个单元。例如，各单元是用于计算阈值的部分，该阈值被用于判断对单元的输入乘以结合负荷的权重而得到的总和是否超过阈值。例如，在所述总和超过阈值的情况下，单元输出1，在未超过的情况下，输出0。输入层1b1具有与成为输入的混合声音的声音特征量的谱特征量即混合声音谱特征量的维数相等的数量的单元。中间层1b2的单元的数量以及层的数量可任意地设定。掩码输出层1b3具有与输入层1b1的单元的数量相等的数量的单元。埋入矢量输出层1b4具有对输入层1b1的单元的数量、和可任意地设定的埋入矢量的维数进行相乘而得到的数量的单元。

《1-2》声音分离模型学习装置11的动作

以下说明利用声音分离模型学习装置11的声音分离模型的学习。图6是示出声音分离模型学习装置11的动作的流程图。

首先，混合声音制作部111使用学习数据1a，将相互不同的多个说话者的声音数据相加，由此制作混合声音数据(步骤S1101)。

接下来，特征量抽出部112从多个说话者的混合声音数据和其混合前的各说话者的声音数据，抽出声音特征量的时间序列数据(步骤S1102)。该声音特征量例如是通过对声音信号实施FFT的处理而得到的功率谱。

接下来，掩码制作部113根据混合前的声音的声音特征量和混合后的声音的声音特征量，制作掩码(步骤S1103)。由掩码制作部113制作的掩码例如是软掩码。软掩码是公知的，作为软掩码例如能够使用非专利文献1记载的掩码。针对声音特征量的时间序列数据的每个时刻，制作由掩码制作部113制作的掩码。即，由掩码制作部113制作的掩码是时间序列数据。

接下来，块分割部114将混合声音数据的声音特征量的时间序列数据和由掩码制作部113制作的掩码的时间序列数据，分割成时间轴方向的块(步骤S1104)。

图7是示出实施方式1所涉及的声音分离系统1的声音分离模型学习装置11中的块分割部114进行的声音特征量的块化的方案的图。在图7中，示出从声音特征量的时间序列数据依次分割出用粗线表示的包括5个帧的主要块和用细线表示的包括3个帧的辅助块的方案。主要块在时间轴方向上相互连续。辅助块也可以在时间轴方向上相互连续。1个主要块包括预先决定的数量的帧。1个辅助块包括预先决定的数量的帧。辅助块后续于主要块。接着某个主要块分割的主要块与紧接之前的主要块在时间上连续。即，对某个主要块的后端的帧，连续有接下来的主要块的前端的帧。

返回到图6的说明。模型学习部115根据混合声音的声音特征量和掩码，作为声音分离模型，学习声音分离NN(步骤S1105)。“学习神经网络”意味着，进行决定作为神经网络的参数的输入权重系数的处理。混合声音的声音特征量被输入到图5的声音分离NN1b的输入层1b1，通过中间层1b2，传播到掩码输出层1b3和埋入矢量输出层1b4。

例如，如以下所述计算从中间层1b2的最终层、即图5中的中间层1b2中的最上方的层传播到掩码输出层1b3以及埋入矢量输出层1b4的值。图5中的中间层1b2中的最上方的层针对图5中的中间层1b2中从上方起第2个层中的多个单元各自的输出值乘以输入权重系数，将乘以输入权重系数而得到的多个值相加而取得相加值，将利用非线性函数变换该相加值得到的值输出给掩码输出层1b3和埋入矢量输出层1b4。作为该非线性函数，例如，使用逻辑Sigmoid函数。

中间层1b2中的最上方的层以外的层之间的声音分离NN1b的传播能够用类似于LSTM的方法进行。

由掩码输出层1b3推测的掩码和由埋入矢量输出层1b4推测的埋入矢量被输入到非专利文献1所示的损失函数。由此，根据由掩码制作部113制作的掩码来计算误差。然后，掩码输出层1b3例如使用Adam(Adaptive Moment Estimation，自适应矩估计)等最佳化方法，例如根据逆误差传播法(BP)，学习声音分离NN1b的输入层1b1、中间层1b2、掩码输出层1b3、以及埋入矢量输出层1b4各自的输入的权重系数。

《1-3》声音分离装置12的动作

接下来，说明声音分离装置12的动作。图8是示出实施方式1所涉及的声音分离装置12的动作的流程图。

首先，特征量抽出部121从混合声音输出声音特征量的时间序列数据(步骤S1201)。在此，声音特征量是指，例如通过对声音信号实施FFT的处理而得到的功率谱。

接下来，块分割部122将从混合声音得到的声音特征量的时间序列数据分割成时间轴方向的块(步骤S1202)。

分割成块的声音特征量被输入到声音分离NN1b。声音分离NN1b推测(即制作)掩码(步骤S1203)。声音分离NN1b具有如图5所示的Chimera构造。从输入层1b1向中间层1b2的最终层的被分割成块的声音特征量的传播是使用包括类似于BLSTM神经网络的块处理方法的Latency Controlled-Bidirectional Long Short Time Memory(LC-BLSTM)的神经网络进行的。包括LC-BLSTM的神经网络还被称为LC-BLSTM神经网络。其他层之间的声音特征量的传播与使用图6说明的传播相同。在图8所示的声音分离处理中，能够仅使用图5所示的声音分离NN1b的输出中的掩码输出层1b3的输出。

图9是示出BLSTM神经网络的概略构造的图。在将当前的帧设为第t(t是正的整数)个帧时，如以下的(1)所示记载第t个帧的第n(n是正的整数)个层的输出。

【数学式1】

BLSTM神经网络包括正向的LSTM神经网络和逆向的LSTM神经网络的组合。如以下的(2)所示记载第t个帧的第n个层中的正向的LSTM神经网络的输出。

【数学式2】

另外，如以下的(3)所示记载第t个帧的第n个层中的逆向的LSTM神经网络的输出。

【数学式3】

如图9所示，第t个帧的第n个层的输出是将第t个帧的第n个层中的正向的LSTM神经网络的输出和第t个帧的第n个层中的逆向的LSTM神经网络的输出连结而成的。

如图9所示，正向的LSTM神经网络的输入(Inputs)和输出(Output)如以下的(4)以及(5)所示。

【数学式4】

输入：和/>

输出：

另外，如图9所示，逆向的LSTM神经网络的输入(Inputs)和输出(Output)如以下的(6)以及(7)所示。

【数学式5】

输入：和/>

输出：

如图9所示，在将双方的LSTM神经网络的输出连结时，作为第t个帧的第n个层的输出，得到以下的(8)的输出。

【数学式6】

这样，在BLSTM神经网络中，为了得到第t个帧的第n个层的输出，将第t-1个帧的输出和第t+1个帧的输出这两方用作正向的LSTM神经网络的输入和逆向的LSTM神经网络的输入。即，在BLSTM神经网络中，使用以下的(9)的2个输出。

【数学式7】

因此，在图9所示的BLSTM神经网络中，如果不是在将发声的声音整体进行了输入之后，则无法进行声音的分离处理。即，在声音的分离处理中发生延迟。

图10是示出构成实施方式1所涉及的声音分离系统1的声音分离NN1b的LC-BLSTM神经网络的概略构造的图。在图10中，例如，使用帽号(circumflex)“^”，记载辅助块的输出。例如，如以下的(10)所示记载第n个层的第t+2个帧的辅助块的输出和第n个层的第t+3个帧的辅助块的输出。

【数学式8】

在正向的LSTM神经网络中，作为最初的帧的第t-1个帧的主要块接受前面的第t-2个帧的主要块(未图示)的输出。作为最后的帧的第t+1个帧的主要块的输出被输入到后续的主要块、即第t+2个帧的主要块(未图示)。

在图10中，如以下的(11)所示记载前面的第t-2个帧的主要块(未图示)的输出。

【数学式9】

该输出被输入到当前的主要块、即第t-1个帧的主要块的前端的帧。

在图10中，输入到后续的主要块的最初的帧、即第t+2个帧(未图示)的输出是以下的(12)的输出。

【数学式10】

如图10所示，在逆向的LSTM神经网络中，输入到辅助块的最后的帧、即第t+2个帧的输出作为主要块的最初的帧的输入而进行交接。在图10中，辅助块的最后的帧、即第t+2个帧的输出是以下的(13)的输出。

【数学式11】

如图10所示，通过将LC-BLSTM神经网络用作声音分离NN1b进行处理，相比于将图9所示的BLSTM神经网络用作声音分离NN1b进行处理的情况，能够削减处理延迟。如图10所示，通过将LC-BLSTM神经网络用作声音分离NN1b进行处理，能够使处理延迟时间成为图10所示的主要块的块长度和辅助块的块长度的合计的时间。

在此，说明辅助块的作用。着眼于逆向的LSTM神经网络。在图10中，在假设没有辅助块的情况下，主要块无法接受图10中的第n个层的第t+2个帧的信息、即未来的帧的信息。即，主要块无法接受以下的辅助块的(14)的输出。

【数学式12】

在该情况下，关于第t+1个以前的帧，也在逆向的LSTM神经网络中，相比于有辅助块的情况，接受的信息量更少。在图10所示的例子中，通过辅助块的效果，逆向的LSTM神经网络包含未来的帧的信息，所以能够接受大量的信息。

返回到图8的说明。声音恢复部123通过针对混合声音的声音特征量的各要素乘以对应的掩码的各要素，变换为分离后的声音特征量。之后，声音恢复部123例如通过实施逆FFT的处理，将声音特征量恢复为声音信号(步骤S1204)。

此外，在声音分离模型学习装置11未具备块分割部114的情况下，模型学习部115将未分割成块的混合声音的声音特征量的时间序列数据的整体和掩码的时间序列数据的整体作为输入，学习神经网络。另一方面，在声音分离装置12中，通过特征量抽出部121进行块分割，所以声音分离模型的学习时和声音分离时的数据构造不同。因此，在声音分离模型学习装置11未具备块分割部114的情况下，相比于声音分离模型学习装置11具备块分割部114的情况，存在声音的分离精度降低的情况。因此，声音分离模型学习装置11最好具备块分割部114。

《1-4》效果

如以上说明，在实施方式1中，声音分离模型学习装置11学习声音分离NN1b。另外，声音分离装置12将抽出的声音特征量的时间序列数据分割成时间轴方向的块。声音特征量的块在作为LC-BLSTM神经网络的声音分离NN1b中传播而被变换为掩码的时间序列数据。声音分离装置12使用这样得到的掩码的时间序列数据，恢复各说话者的声音数据。声音分离NN1b以时间轴方向的块单位进行处理，所以声音分离装置12相比于使用在输入所有声音数据后进行处理的BLSTM神经网络的装置，能够减少处理延迟。即，根据实施方式1，用包括缩短处理延迟的LC-BLSTM神经网络的声音分离NN1b，推测声音分离所需的各说话者的掩码和埋入矢量，所以能够减少处理延迟。

另外，声音分离装置12使用包括LC-BLSTM神经网络的声音分离NN1b，所以能够减少声音的分离精度的降低。即，LC-BLSTM神经网络通过具有主要块和辅助块，能够向逆向的LSTM神经网络传递从辅助块得到的信息。因此，能够减少声音的分离精度的降低。

《2》实施方式2

在实施方式1所涉及的声音分离系统1中，声音分离装置12在进行声音分离时使用包括LC-BLSTM神经网络的声音分离NN1b。在使用LC-BLSTM神经网络的情况下，声音的分离精度根据LC-BLSTM神经网络的块长度而变化。在实施方式2所涉及的声音分离系统中，声音分离装置具备选择适合于输入的声音特征量的块长度的LC-BLSTM神经网络的功能。

图11是概略地示出实施方式2所涉及的声音分离系统的声音分离装置22的结构的功能框图。在图11中，对与图4所示的构成要素相同或者对应的构成要素，附加与图4所示的符号相同的符号。实施方式2所涉及的声音分离装置22在具备块长度选择部124这一点、以及具备多个声音分离NN2b、2c、2d这一点上，与实施方式1所涉及的声音分离装置12相异。

图12是示出实施方式2所涉及的声音分离系统的声音分离装置22的动作的流程图。在图12中，对与图8所示的处理步骤相同或者对应的处理步骤，附加与图8所示的步骤编号相同的步骤编号。实施方式2所涉及的声音分离装置22的动作在具有选择块长度的处理(步骤S1205)这一点上，与实施方式1所涉及的声音分离装置12的动作相异。

块长度选择部124根据包含于混合声音的声音特征量的时间序列数据的噪音或者余音，选择预先在实验上求出的最佳的块长度。在选择时，例如，预先在实验上求出表示噪音的S/N比或者余音时间和块长度的对应关系的信息，块长度选择部124依照预先在实验上求出的表示对应关系的信息，从声音分离NN2b、2c、2d中，选择使用的声音分离NN。将表示该对应关系的信息例如作为表格存储到存储装置。块分割部122依照选择的块长度，将声音特征量的时间序列数据分割成具有时间宽度的块，使用声音分离NN2b、2c、2d中的与选择的块长度一致的声音分离NN，推测掩码。

如以上说明，在实施方式2所涉及的声音分离装置22中，块长度选择部124根据混合声音的声音特征量选择块长度，使用与该块长度一致的声音分离NN。通过根据声音特征量选择适合的块长度，相比于使块长度成为恒定的情况，能够提高声音的分离精度。例如，通过加长块长度，能够提高声音的分离精度。另外，通过缩短块长度，能够减少处理延迟。

此外，关于上述以外的方面，实施方式2与实施方式1相同。

《3》实施方式3

《3-1》结构

能够通过LSTM神经网络以及LC-BLSTM神经网络取得的信息的量比能够通过BSLTM神经网络取得的信息的量少。因此，在使用包括LC-BLSTM神经网络的声音分离NN的声音分离装置中，存在声音的分离精度降低的可能性。

因此，实施方式3所涉及的声音分离系统的声音分离模型学习装置31在制作声音分离NN时，使用使学生神经网络(以下还称为“学生NN”)学习教师神经网络(以下还称为“教师NN”)的Teacher-student学习。Teacher-student学习是使学生NN模仿教师NN的输出或者中间层的权重的学习方法。Teacher-student学习使用学生NN，所以通过使用Teacher-student学习，能够削减参数的数量。例如，能够使BLSTM神经网络作为教师NN，使LSTM神经网络或者LC-BLSTM神经网络作为学生NN进行学习。在该情况下，能够使BLSTM神经网络的信息反映到LSTM神经网络。在该情况下，相比于未使用Teacher-student学习的情况，能够提高声音的分离精度。

图13是概略地示出实施方式3所涉及的声音分离系统的声音分离模型学习装置31的结构的功能框图。在图13中，对与图3所示的构成要素相同或者对应的构成要素，附加与图3所示的符号相同的符号。实施方式3所涉及的声音分离模型学习装置31在具备学生NN学习部116这一点、以及生成多个声音分离NN这一点上，与实施方式1所涉及的声音分离模型学习装置11相异。在图13中，多个声音分离NN是教师声音分离神经网络(以下还称为“教师声音分离NN”)1c和学生声音分离神经网络(以下还称为“学生声音分离NN”)1d。

在实施方式3中，通过模型学习部115，作为声音分离模型，学习教师声音分离NN1c。教师声音分离NN1c制作混合声音的声音特征量的时间序列数据和掩码的时间序列数据。教师声音分离NN1c制作的掩码还被称为教师掩码。

学生NN学习部116根据教师声音分离NN1c的输出、由块分割部114分割的混合声音的声音特征量的时间序列数据、以及教师掩码的时间序列数据，作为声音分离模型，学习学生声音分离NN1d。学生声音分离NN1d制作混合声音的声音特征量的时间序列数据和掩码的时间序列数据。

《3-2》动作

图14是示出实施方式3所涉及的声音分离系统的声音分离模型学习装置31的动作的流程图。在图14中，对与图6所示的处理步骤相同或者对应的处理步骤，附加与图6所示的步骤编号相同的步骤编号。在图14中，步骤S1101～S1103的处理与图6中的对应的处理相同。

接下来，模型学习部115根据混合声音的声音特征量和教师掩码，学习教师声音分离NN1c(步骤S1106)。教师声音分离NN1c例如是具有Chimera构造的BLSTM神经网络。

块分割部114将混合声音的声音特征量的时间序列数据、教师掩码的时间序列数据、以及从教师声音分离NN1c得到的教师数据，分割成块(步骤S1107)。从教师声音分离NN1c得到的教师数据的详情将后述。

学生NN学习部116使用由块分割部114分割成块的、混合声音的声音特征量、教师掩码、以及从教师声音分离NN1c得到的教师数据，作为声音分离模型而学习学生声音分离NN1d(步骤S1108)。此外，在学生声音分离NN1d中使用不需要块处理的神经网络、例如LSTM神经网络的情况下，能够不进行利用块分割部114的块处理。在不进行利用块分割部114的块处理的情况下，学生声音分离NN1d根据混合声音的声音特征量的时间序列数据、单独声音的声音特征量的时间序列数据、以及由教师声音分离NN1c制作的教师掩码的时间序列数据，学习学生声音分离NN。

图15是示出利用实施方式3的声音分离系统的学生NN学习部116的学习的方案的图。作为从教师声音分离NN1c得到的教师数据，使用教师声音分离NN1c的中间层的输出、即从图5的中间层1b2得到的中间层的输出。学生声音分离NN1d除了在教师声音分离NN1c的学习中使用的损失函数以外，还将教师声音分离NN1c的中间层1b2的输出和学生声音分离NN1d的中间层1b2的输出的差作为损失函数，以使以下的(15)的式所示的2个损失函数的加权和L成为最小化的方式进行学习。

【数学式13】

L＝L_chi+βL_diff (15)

在此，L_chi是损失函数。例如，在非专利文献1中示出损失函数L_chi。L_diff是教师声音分离NN1c的中间层1b2的输出和学生声音分离NN1d的中间层1b2的输出的距离。作为距离，例如，能够使用各输出之间的L2范数或者交叉熵。β是权重系数。β例如是在实验上决定的值。关于学生声音分离NN1d模仿的层，如果在学生声音分离NN1d与教师声音分离NN1c之间维数一致，则可以模仿任意的层。学生声音分离NN1d在模仿维数不一致的层的情况下，学习如将教师声音分离NN1c的维数变换为学生声音分离NN1d的维数那样的神经网络。

《3-3》效果

如以上说明，在实施方式3所涉及的声音分离系统的声音分离模型学习装置31中，以使模型学习部115学习教师声音分离NN1c，使学生NN学习部116模仿教师声音分离NN1c的中间层1b2的输出的方式，通过Teacher-student学习，学习学生声音分离NN1d。在实施方式3中，在学生声音分离NN1d中模仿教师声音分离NN1c的信息，所以相比于在实施方式1中学习的声音分离NN1b，声音的分离精度提高。

此外，关于上述以外的方面，实施方式3与实施方式1或者2相同。

《4》实施方式4

实施方式4所涉及的声音分离系统是将从实施方式3所涉及的声音分离系统的声音分离模型学习装置31的教师声音分离NN1c得到的教师数据，变更为从教师声音分离NN1c得到的埋入矢量，与其相伴地变更学生NN学习部116的损失函数的例子。在说明实施方式4时，还参照图13以及图14。

在教师声音分离NN1c和学生声音分离NN1d这两方中使用具有Chimera构造的NN的情况下，能够将教师声音分离NN1c输出的埋入矢量作为教师，使学生声音分离NN1d学习。在该情况下，从教师声音分离NN1c得到的学习数据是从教师声音分离NN1c输出的埋入矢量。

图16是示出利用实施方式4所涉及的声音分离系统的学生NN学习部116的学习的方案的图。学生声音分离NN1d除了在教师声音分离NN1c的学习中使用的损失函数以外，还将教师声音分离NN1c输出的埋入矢量和自身输出的埋入矢量的差作为损失函数，以使(16)的式所示的2个损失函数的加权和L成为最小化的方式进行学习。

【数学式14】

L＝L_chi+γL_diffDC (16)

在此，L_chi是损失函数。L_diffDC表示教师声音分离NN1c输出的埋入矢量和自身输出的埋入矢量的距离。L_diffDC例如是各输出之间的L2范数或者交叉熵。γ是权重系数。γ例如是在实验上决定的值。

如以上说明，在实施方式4所涉及的声音分离系统的声音分离模型学习装置31中，以使模型学习部115学习教师声音分离NN1c，使学生NN学习部116模仿教师声音分离NN1c输出的埋入矢量的方式，通过Teacher-student学习，学习学生声音分离NN1d。在实施方式4所涉及的声音分离系统中，通过埋入矢量，学生声音分离NN1d模仿教师声音分离NN1c的信息，所以相比于实施方式1所涉及的声音分离系统，声音的分离精度提高。

此外，关于上述以外的方面，实施方式4与实施方式3相同。

《5》实施方式5

实施方式5所涉及的声音分离系统是将从实施方式3所涉及的声音分离系统的声音分离模型学习装置31使用的教师声音分离NN1c得到的教师数据，变更为教师声音分离NN1c的中间层的输出和从教师声音分离NN1c得到的埋入矢量这两方，与其相伴地变更学生NN学习部116的损失函数的例子。在说明实施方式5时，还参照图13至图16。

在教师声音分离NN1c和学生声音分离NN1d这两方中使用具有Chimera构造的NN的情况下，能够组合图15和图16，将教师声音分离NN1c输出的埋入矢量和教师声音分离NN1c的中间层1b2的输出作为教师，使学生声音分离NN1d学习。

图17是示出利用实施方式5所涉及的声音分离系统的声音分离模型学习装置的学习的方案的图。学生声音分离NN1d除了在教师声音分离NN1c的学习中使用的损失函数L_chi以外，还对教师声音分离NN1c的中间层1b2的输出与学生声音分离NN1d的中间层1b2的输出之间的距离的损失函数L_diff、进而对教师声音分离NN1c输出的埋入矢量与自身输出的埋入矢量的距离的损失函数L_diffDC，以使(17)的式所示的3个损失函数的加权和L成为最小化的方式进行学习。

【数学式15】

L＝L_chi+βL_diff+γL_diffDC (17)

在此，L_chi是损失函数。L_diff是教师声音分离NN1c的中间层1b2的输出和学生声音分离NN1d的中间层1b2的输出的距离。L_diffDC是教师声音分离NN1c输出的埋入矢量和自身输出的埋入矢量的距离。β是损失函数L_diff的权重系数。γ是损失函数L_diffDC的权重系数。

如以上说明，在实施方式5所涉及的声音分离系统的声音分离模型学习装置31中，以使模型学习部115学习教师声音分离NN1c，使学生NN学习部116模仿教师声音分离NN1c的中间层1b2的输出和埋入矢量的方式，通过Teacher-student学习，学习声音分离NN1d。在实施方式5所涉及的声音分离系统中，通过中间层的输出和埋入矢量，学生声音分离NN模仿教师声音分离NN的信息，所以相比于实施方式1所涉及的声音分离系统，声音的分离精度提高。

此外，关于上述以外的方面，实施方式5与实施方式3或者4相同。

【产业上的可利用性】

实施方式1至5所涉及的声音分离装置、声音分离方法、声音分离程序、以及声音分离系统能够以较少的延迟处理时间分离多个说话者的混合声音。因此，实施方式1至5所涉及的声音分离装置、声音分离方法、声音分离程序、以及声音分离系统能够利用于需要声音的分离的装置、例如声音识别装置。

Claims

1.一种声音分离装置，从包含多个说话者的声音的混合声音的混合声音数据，分离所述多个说话者各自的声音的声音数据，该声音分离装置的特征在于，具备：

特征量抽出部，从所述混合声音数据，抽出所述混合声音的声音特征量的时间序列数据；

块分割部，通过将所述声音特征量的时间序列数据分割成具有一定的时间宽度的块，生成块化的声音特征量的时间序列数据；

声音分离神经网络，包括在时间轴方向上正向的LSTM神经网络和在所述时间轴方向上逆向的LSTM神经网络的组合，根据所述块化的所述声音特征量的时间序列数据，制作所述多个说话者各自的掩码的时间序列数据；以及

声音恢复部，从所述掩码的时间序列数据和所述混合声音的所述声音特征量的时间序列数据，恢复所述多个说话者各自的声音的所述声音数据，

在所述多个说话者各自的掩码的时间序列数据的制作中，所述声音分离神经网络在所述正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据，在所述逆向的LSTM神经网络中使用与所述当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据。

2.根据权利要求1所述的声音分离装置，其特征在于，

所述声音分离装置还具备块长度选择部，该块长度选择部在将所述声音特征量的时间序列数据在时间轴方向上分割成1个以上的所述块时，根据所述声音特征量选择指定所述块的所述时间宽度的块长度，

作为所述声音分离神经网络，具备多个声音分离神经网络，

使用所述多个声音分离神经网络中的与所述块长度对应的声音分离神经网络，制作所述多个说话者各自的所述掩码的时间序列数据。

3.一种声音分离系统，其特征在于，具备：

权利要求1或者2所述的声音分离装置；以及

声音分离模型学习装置，学习所述声音分离神经网络，

所述声音分离模型学习装置具备：

混合声音制作部，根据包含多个说话者各自发声的单独声音的声音数据的学习数据，制作包含所述多个说话者的声音的混合声音的声音数据；

学习用的特征量抽出部，从所述混合声音的声音数据抽出所述混合声音的声音特征量的时间序列数据，从所述单独声音的声音数据抽出所述单独声音的声音特征量的时间序列数据；

掩码制作部，根据由所述学习用的特征量抽出部抽出的所述混合声音的声音特征量的时间序列数据及所述单独声音的声音特征量的时间序列数据，制作所述多个说话者各自的掩码的时间序列数据；以及

模型学习部，根据由所述学习用的特征量抽出部抽出的所述混合声音的声音特征量的时间序列数据及所述单独声音的声音特征量的时间序列数据、和由所述掩码制作部制作的所述掩码的时间序列数据，学习所述声音分离神经网络。

4.根据权利要求3所述的声音分离系统，其特征在于，

所述声音分离模型学习装置还具备学习用的块分割部，该学习用的块分割部将由所述混合声音制作部制作的所述混合声音的声音特征量的时间序列数据以及所述单独声音的声音特征量的时间序列数据、和由所述掩码制作部制作的所述掩码的时间序列数据在时间轴方向上分割成1个以上的块，

所述模型学习部根据由所述学习用的块分割部进行了块化的混合声音的声音特征量的时间序列数据、由所述学习用的块分割部进行了块化的所述单独声音的声音特征量的时间序列数据、以及由所述学习用的块分割部进行了块化的所述掩码的时间序列数据，学习所述声音分离神经网络。

5.一种声音分离系统，其特征在于，具备：

权利要求1或者2所述的声音分离装置；以及

声音分离模型学习装置，学习所述声音分离神经网络，

所述声音分离模型学习装置具备：

掩码制作部，根据由所述学习用的特征量抽出部抽出的所述混合声音的声音特征量的时间序列数据及所述单独声音的声音特征量的时间序列数据，制作所述多个说话者各自的掩码的时间序列数据；

模型学习部，根据由所述学习用的特征量抽出部抽出的所述混合声音的声音特征量的时间序列数据及所述单独声音的声音特征量的时间序列数据、和由所述掩码制作部制作的所述掩码的时间序列数据，学习教师声音分离神经网络；以及

学生神经网络学习部，学习作为学生声音分离神经网络的所述声音分离神经网络，

根据所述混合声音的声音特征量的时间序列数据、所述单独声音的声音特征量的时间序列数据、以及由所述教师声音分离神经网络制作的所述掩码的时间序列数据，学习所述学生声音分离神经网络。

6.根据权利要求5所述的声音分离系统，其特征在于，

所述学生神经网络学习部根据由所述学习用的块分割部进行了块化的混合声音的声音特征量的时间序列数据、由所述学习用的块分割部进行了块化的所述单独声音的声音特征量的时间序列数据、以及由所述学习用的块分割部进行了块化的所述掩码的时间序列数据，学习所述学生声音分离神经网络。

7.根据权利要求3至6中的任意一项所述的声音分离系统，其特征在于，

所述声音分离神经网络具有：

输入层，被输入所述混合声音的声音特征量；

中间层，制作所述掩码及所述混合声音的声音特征量的埋入矢量的至少一方；

掩码输出层，输出在所述中间层中制作的掩码；以及

埋入矢量输出层，输出所述埋入矢量。

8.一种声音分离方法，从包含多个说话者的声音的混合声音的混合声音数据，分离所述多个说话者各自的声音的声音数据，该声音分离方法的特征在于，具有：

特征量抽出步骤，从所述混合声音数据抽出所述混合声音的声音特征量的时间序列数据；

块分割步骤，通过将所述声音特征量的时间序列数据分割成具有一定的时间宽度的块，生成块化的声音特征量的时间序列数据；

掩码制作步骤，包括在时间轴方向上正向的LSTM神经网络和在所述时间轴方向上逆向的LSTM神经网络的组合的声音分离神经网络根据所述块化的所述声音特征量的时间序列数据，制作所述多个说话者各自的掩码的时间序列数据；以及

声音恢复步骤，从所述掩码的时间序列数据和所述混合声音的所述声音特征量的时间序列数据，恢复所述多个说话者各自的声音的所述声音数据，

9.一种存储介质，存储声音分离程序，该声音分离程序使计算机执行从包含多个说话者的声音的混合声音的混合声音数据分离出所述多个说话者各自的声音的声音数据的处理，

该声音分离程序使计算机执行：

特征量抽出处理，从所述混合声音数据抽出所述混合声音的声音特征量的时间序列数据；

块分割处理，通过将所述声音特征量的时间序列数据分割成具有一定的时间宽度的块，生成块化的声音特征量的时间序列数据；

掩码制作处理，通过包括在时间轴方向上正向的LSTM神经网络和在所述时间轴方向上逆向的LSTM神经网络的组合的声音分离神经网络，根据所述块化的所述声音特征量的时间序列数据制作所述多个说话者各自的掩码的时间序列数据，其中，在所述多个说话者各自的掩码的时间序列数据的制作中，所述声音分离神经网络在所述正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据，在所述逆向的LSTM神经网络中使用与所述当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据；以及

声音恢复处理，从所述掩码的时间序列数据和所述混合声音的所述声音特征量的时间序列数据，恢复所述多个说话者各自的声音的所述声音数据。