CN111696572B

CN111696572B - 语音分离装置、方法及介质

Info

Publication number: CN111696572B
Application number: CN201910188493.9A
Authority: CN
Inventors: 林慧镔; 石自强; 刘柳; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2023-07-18
Anticipated expiration: 2039-03-13
Also published as: JP2020149044A; CN111696572A

Abstract

公开了一种语音分离装置、方法及介质，所述语音分离装置包括：预处理单元，其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达；多分支网络，其具有多个分支，每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息；分支权重网络，其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重，其中，所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征；掩模生成单元，其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模；以及分离单元，其基于所述掩模和所述混合表达生成分离的语音信号。

Description

语音分离装置、方法及介质

技术领域

本公开涉及语音处理的技术领域，具体地涉及语音分离装置和语音分离的方法。

背景技术

这个部分提供了与本公开有关的背景信息，这不一定是现有技术。

人类在有多个人声的复杂环境中，能够通过听觉选择注意力机制，从多个声源中选择感兴趣的内容去聆听和理解，并且能够非常轻易地在不同生源中转移注意力。这被称为“鸡尾酒会效应”。

基于深度学习的语音分离技术，能够类似人类一样实现从多人交谈的单声道语音中分离每位参与交谈的说话人的清晰语音。然而，这项技术在实际使用时，不能等待这个交谈结束后再处理，而是需要对交谈的语音使用滑动窗的技术分块，以实现对语音信号实时分离。这里，分块的长度由几百毫秒到若干秒。但以分块的形式处理会带来前后两块的分离结果说话排列并不一致，称为“说话人排列问题”。

以分离两位说话人混合的语音作为例子说明，第一块分离结果是说话人A的语音在信道1，说话人B的语音在信道2。而第二块分离结果是说话人A的语音在信道2，说话人B的语音在信道1。可见，这种排列严重影响这项技术的实际使用。产生这个问题的原因是，每个分块中可能存在某一说话人或者全体说话人的静音部分，且静音部分长度几乎是随机。但传统方法对从该分块中每一时刻获得的信息都是等权重处理。因此，静音部分的信息将严重干扰分离结果，导致结果中说话人的信道位置发生变动。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种针对上述问题的解决方案，具体地，提供一种以多分支分离网络、分支权重网络和门控卷积单元三者为核心的端到端分离神经网络，在提取多时间尺度的信息基础上添加自适应的权重，实现在前后分块的分离结果中说话人的顺序是固定的结果。

根据本公开的一方面，提供了一种语音分离装置，包括：预处理单元，其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达；多分支网络，其具有多个分支，每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息；分支权重网络，其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重，其中，所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征；掩模生成单元，其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模；以及分离单元，其基于所述掩模和所述混合表达生成分离的语音信号。

根据本公开的另一方面，提供了一种语音分离的方法，包括：对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达；多分支网络的每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息；基于所述混合语音信号，分支权重网络为所述多分支网络中的每个分支的结果分配权重，其中，所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征；基于所述估计特征针对所述预定数目的语音中的每一个生成掩模；以及基于所述掩模和所述混合表达生成分离的语音信号。

根据本公开的另一方面，提供了一种程序产品，该程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的语音分离的方法。

根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有根据本公开的程序产品。

本公开提供了一种以多分支分离网络、分支权重网络和门控卷积单元三者为核心的端到端分离神经网络，其在提取多时间尺度的信息的基础上添加了自适应的权重，实现了在前后分块的分离结果中说话人的顺序是固定的结果。

从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1示出根据本公开的一个实施例的语音分离装置的框图；

图2示出根据本公开的一个实施例的分离神经网络的整体框架；

图3示出根据本公开的一个实施例的多分支分离网络和分支权重网络的工作流程；

图4示出根据本公开的一个实施例的卷积分离层的工作流程；

图5示出根据本公开的一个实施例的语音分离的方法的流程图；以及

图6为其中可以实现根据本公开的实施例的语音分离装置和语音分离的方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

根据本公开的一个实施例，提供了一种语音分离装置，包括：预处理单元，其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达；多分支网络，其具有多个分支，每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息；分支权重网络，其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重，其中，所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征；掩模生成单元，其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模；以及分离单元，其基于所述掩模和所述混合表达生成分离的语音信号。

如图1所示，根据本公开的语音分离装置100可以包括预处理单元101、多分支网络102、分支权重网络103、掩模生成单元104以及分离单元105。

根据本公开的一个实施例，预处理单元101可以对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达。例如，预处理单元101可以对包含两人语音混合而成的混合语音进行预处理。所述预处理可以包括对混合语音信号进行变换以得到非负的高维变换结果，这样的非负高维变换结果也可以称为“混合表达”。其中，所述混合语音信号可以是单一声道的混合语音的时域信号。这里，本领域技术人员应该清楚，两人混合语音仅为示例性的，本公开并不限于此。本公开当然可以应用于多人混合语音或其他种类的混合声音。然而，为了便于理解，本公开下文将以两人混合语音为例进行具体实施例的描述。

接下来，多分支网络102可以具有多个分支，每个分支可以使用不同的感受野处理所述混合表达以获取不同时间尺度的信息。在卷积神经网络CNN中，决定某一层输出结果中一个元素所对应的输入层的区域大小(映射)被称作感受野(receptive field)。例如，所述多分支网络中的每个分支可以使用不同的感受野从所述混合表达中学习到用于语音分离的各自的时间尺度特征。

然后，分支权重网络103可以基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重，其中，所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征。

接下来，掩模生成单元104可以基于所述估计特征针对所述预定数目的语音中的每一个生成掩模。这里，根据本公开的实施例即可以生成两个掩模，所述掩模分别与两人的单独语音对应。所述掩模的内容例如是“1”和“0”，“1”表示在特征矩阵中的那一块区域对应的“混合表达”属于一人，而“0”表示在特征矩阵中的那一块区域对应的“混合表达”不属于该一人。这里，本领域技术人员应该清楚，所述掩模的数目和内容仅是示例性的，本公开并不限于此。

接下来，分离单元105可以基于所述掩模和所述混合表达生成分离的语音信号。根据本公开的实施例，分别与两人的单独语音对应的掩模与所述混合表达进行乘法运算，即可获得理论上全部属于一人的“混合表达”，最后经过变换可以得到分离后的一维语音信号。

使用根据本公开的实施例的语音分离装置，其提出了一种以多分支分离网络和分支权重网络为核心的端到端分离神经网络，其在提取多时间尺度信息的基础上，添加了自适应权重，实现了在前后分块的分离结果中预定数目的语音排列顺序是固定的效果。

根据本公开的一个实施例，所述预处理单元101可以配置成对混合语音信号进行变换以得到非负的高维变换结果。这种变换将时域信号变换为一个新的变换域，基于该变换域可以更有效地提取用于分离任务的特征。所述变换可以包括但不限于一维卷积和常规整流线性运算(ReLU)。亦即，所述预处理单元101可以配置成对所述混合语音信号执行一维卷积运算和常规整流线性运算。这里，本领域技术人员应该清楚，所述一维卷积和常规整流线性运算的变换仅是示例性的，本公开并不限于此。

根据本公开的一个实施例，所述预处理单元101还可以配置成对所述混合语音信号执行归一化运算和1×1卷积运算以得到所述混合表达。归一化运算即对混合表达进行归一化处理，以提高训练速度。1×1卷积运算可以用于修改所述混合表达的最后一维的尺寸。亦即，经由1×1卷积运算处理后的混合表达可以保持一致的尺寸。同样地，本领域技术人员应该清楚，归一化运算和1×1卷积运算的变换也仅是示例性的，本公开并不限于此。

例如，如图2所示，一方面，输入的混合语音信号可以经过一维卷积运算和常规整流线性运算以生成所述混合语音信号的第一混合表达。另一方面，输入的混合语音信号可以经过一维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算后生成所述混合语音信号的第二混合表达，然后，将所述第二混合表达送入多分支分离网络，同时，所述输入的混合语音信号在经过分支权重网络处理后将为每个分支的结果分配的权重送入所述多分支分离网络。接下来，所述多分支分离网络基于为每个分支的结果分配的权重从所述第二混合表达提取特征。接下来，所提取的特征在经过1×1卷积运算和softmax运算后，将生成针对所述输入的混合语音中的每一个的掩模。然后，将第一混合表达与所生成的掩模一对一进行乘法运算后得到一维语音信号。最后，将所述一维语音信号通过全连接网络(FC)进行处理后获得分离后的语音信号。

根据本公开的一个实施例，多分支网络和分支权重网络的细节如图3所示，其中，右侧表示多分支网络，而左侧表示分支权重网络。右侧的多分支网络目的是通过从不同时间长度的信息学习用于分离的特征。左侧的分支权重网络目的是从“输入的混合语音信号”学习到对应“多分支网络”中每一个分支的权重。

根据本公开的一个实施例，所述多分支网络中的每个分支可以包含不同数目的卷积分离层。其中，每一卷积分离层的结构一致亦即每一卷积分离层具有相同的感受野。

如图3所示，根据本公开的一个实施例，所述多分支网络具有4个分支，分支1、分支2、分支3和分支4。所述4个分支分别包含黑色方框所示的6个、5个、4个和3个卷积分离层。这里，本领域技术人员应该清楚，根据本公开的4的分支以及每个分支所具有的卷积分离层的数目都仅是示例性的，本公开并不限于此。本领域技术人员可以根据实际数据的需要及经验设定不同数目的分支及卷积分离层。

根据本公开的一个实施例，所述多分支网络中的每个分支共用预定数目的卷积分离层。例如，如图3所示，多分支网络中的每个分支共用两个卷积分离层。这里，本领域技术人员应该清楚，共用的两个卷积分离层仅是示例性的，本公开并不仅限于图3所示的两个卷积分离层。本领域技术人员可以根据经验及实际需要设定更多或更少的共用卷积分离层。

根据本公开的一个实施例，随着卷积分离层层数的增大，分支的感受野随之增大。假设一层的感受野是T，在具有n层的情况下，感受野就是nT。例如，如图3所示，根据本公开的实施例，分支1到分支4的感受野分别是6T、5T、4T和3T，由此，根据本公开的多分支网络可以通过不同时间长度的信息学习用于分离的特征即多时间尺度特征。

根据本公开的一个实施例，所述分支权重网络可以对输入的混合语音信号执行一维卷积运算、常规整流线性运算、归一化运算、1×1卷积运算、多层的卷积结构和softmax运算以得到每个分支的结果的权重。

根据本公开的一个实施例，多层的卷积结构可以包括卷积神经网络CNN和最大池化层。这里，本领域技术人员应该清楚，分支权重网络的结构仅是示例性的，本公开不限于图3所示的结构，本领域技术人员可以根据实际的需要设置分支权重网络的结构。

最后，多分支网络每一分支将输出各自分支学到的特征。然后，每一分支的特征与分支权重网络输出的对应权重相乘后累加得到多分支网络输出即提取的特征。

根据本公开的一个实施例，所述卷积分离层可以对所述混合表达执行扩张卷积运算。

具体地，如图4所述，所述卷积分离层由多层卷积分离单元组成。所述多层卷积分离单元的结构与扩张卷积类似，扩张卷积中每一个圆圈从左到右表示时刻点即一个时间序列，而每一层的卷积分离单元具有一个扩张率。扩张率成指数上升，以确保卷积分离层能够获得足够时间长度的信息。例如，在具有M个卷积分离单元的情况下，扩张率可以依次为1、2、4、…、2^M-1。例如，如图4所示，根据本公开的卷积分离层示例性地示出了四层，其中，第一层的扩张率d＝1，第二层的扩张率d＝2，第三层的扩张率d＝4，第四层的扩张率d＝8。所述扩张率表示混合表达时间尺度上的信息量。这里，本领域技术人员应该清楚，本公开图4所示的卷积分离层及卷积分离单元仅是示例性的，本公开并不限于此。

为了提高每一卷积分离单元对时间序列信息的学习能力，根据本公开的一个实施例，所述卷积分离单元可以配置成对所述混合表达执行门控卷积分离运算。

具体地，如图4所示，在卷积分离单元中的每一卷积运算例如第一卷积运算和第二卷积运算都附加上一个门结构，来控制从该卷积运算输出的信息，亦即类似于添加一个自适应的过滤器。其中，所述第一卷积运算可以是1×1卷积运算。因此，从时间维度上观察，门结构赋予了这个卷积运算时间记忆的特性。门结构由一个卷积运算和“sigmoid”组成，卷积运算与被门结构附加的卷积运算一样，但参数不一样。“sigmoid”是使用sigmoid函数将变量映射到0,1之间，得到门结构输出的权重。门结构的权重和被附加门的卷积运算结果相乘(非矩阵乘法)实现门的控制作用。

下面将结合图5来描述根据本公开的实施例的语音分离的方法。如图5所示，根据本公开的实施例的语音分离的方法开始于步骤S510。

在步骤S510中，对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达。

接下来，在步骤S520中，多分支网络的每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息。

然后，在步骤S530中，基于所述混合语音信号，分支权重网络为所述多分支网络中的每个分支的结果分配权重，其中，所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征。

接下来，在步骤S540中，基于所述估计特征针对所述预定数目的语音中的每一个生成掩模。

最后，在步骤S550中，基于所述掩模和所述混合表达生成分离的语音信号。

根据本公开的一个实施例的语音分离的方法还包括对所述混合语音信号执行1维卷积运算和常规整流线性运算以得到所述混合表达的步骤。

根据本公开的一个实施例的语音分离的方法还包括对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达的步骤。

根据本公开的一个实施例的语音分离的方法还包括所述分支权重网络对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算、1×1卷积运算、多层卷积运算和softmax运算以得到每个分支的结果的权重的步骤。

根据本公开的一个实施例的语音分离的方法，其中，所述多分支网络中的每个分支包含不同数目的卷积分离层。

根据本公开的一个实施例的语音分离的方法，其中，所述多分支网络中的每个分支共用预定数目的卷积分离层。

根据本公开的一个实施例的语音分离的方法，其中，所述多分支网络中的每个分支共用两个卷积分离层。

根据本公开的一个实施例的语音分离的方法，其中，所述多分支网络具有4个分支，所述4个分支分别包含6个、5个、4个和3个卷积分离层。

根据本公开的一个实施例的语音分离的方法，其中，所述卷积分离层具有相同的感受野。

根据本公开的一个实施例的语音分离的方法，其中，所述卷积分离层对所述混合表达执行扩张卷积运算。

根据本公开的一个实施例的语音分离的方法，其中，所述卷积分离层对所述混合表达执行门控卷积分离运算。

根据本公开的实施例的语音分离的方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本公开的语音分离的方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其他适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。

图6为其中可以实现根据本公开的实施例的语音分离装置和语音分离的方法的通用个人计算机1300的示例性结构的框图。

如图6所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种语音分离装置，包括：

预处理单元，其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达；

多分支网络，其具有多个分支，每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息；

分支权重网络，其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重，其中，所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征；

掩模生成单元，其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模；以及

分离单元，其基于所述掩模和所述混合表达生成分离的语音信号。

附记2.根据附记1所述的语音分离装置，其中，所述预处理单元对所述混合语音信号执行1维卷积运算和常规整流线性运算以得到所述混合表达。

附记3.根据附记1所述的语音分离装置，其中，所述预处理单元对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达。

附记4.根据附记1所述的语音分离装置，其中，所述分支权重网络对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算、1×1卷积运算、多层卷积运算和softmax运算以得到每个分支的结果的权重。

附记5.根据附记1所述的语音分离装置，其中，所述多分支网络中的每个分支包含不同数目的卷积分离层。

附记6.根据附记5所述的语音分离装置，其中，所述多分支网络中的每个分支共用预定数目的卷积分离层。

附记7.根据附记6所述的语音分离装置，其中，所述多分支网络中的每个分支共用两个卷积分离层。

附记8.根据附记5所述的语音分离装置，其中，所述多分支网络具有4个分支，所述4个分支分别包含6个、5个、4个和3个卷积分离层。

附记9.根据附记5所述的语音分离装置，其中，所述卷积分离层具有相同的感受野。

附记10.根据附记5所述的语音分离装置，其中，所述卷积分离层对所述混合表达执行扩张卷积运算。

附记11.根据附记10所述的语音分离装置，其中，所述卷积分离层对所述混合表达执行门控卷积分离运算。

附记12.一种语音分离的方法，包括：

对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达；

多分支网络的每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息；

基于所述混合语音信号，分支权重网络为所述多分支网络中的每个分支的结果分配权重，其中，所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征；

基于所述估计特征针对所述预定数目的语音中的每一个生成掩模；以及

基于所述掩模和所述混合表达生成分离的语音信号。

附记13.根据附记12所述的方法，还包括对所述混合语音信号执行1维卷积运算和常规整流线性运算以得到所述混合表达。

附记14.根据附记12所述的方法，还包括对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达。

附记15.根据附记12所述的方法，其中，所述分支权重网络对所述混合语音信号执行1维卷积运算、常规整流线性运算、归一化运算、1×1卷积运算、多层卷积运算和softmax运算以得到每个分支的结果的权重。

附记16.根据附记12所述的方法，其中，所述多分支网络中的每个分支包含不同数目的卷积分离层。

附记17.根据附记16所述的方法，其中，所述多分支网络中的每个分支共用预定数目的卷积分离层。

附记18.根据附记17所述的方法，其中，所述多分支网络具有4个分支，所述4个分支分别包含6个、5个、4个和3个卷积分离层。

附记19.根据附记17所述的方法，其中，所述卷积分离层对所述混合表达执行扩张卷积运算，并且其中，所述卷积分离层对所述混合表达执行门控卷积分离运算。

附记20.一种程序产品，包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记12-19中任何一项所述的方法。

Claims

1.一种语音分离装置，包括：

分离单元，其基于所述掩模和所述混合表达生成分离的语音信号，

其中，所述多分支网络中的每个分支包含不同数目的卷积分离层，并且某一层输出结果中一个元素所对应的输入层的区域大小为感受野，并且

其中，随着卷积分离层层数的增大，分支的感受野随之增大。

2.根据权利要求1所述的语音分离装置，其中，所述预处理单元对所述混合语音信号执行一维卷积运算和常规整流线性运算以得到所述混合表达。

3.根据权利要求1所述的语音分离装置，其中，所述预处理单元对所述混合语音信号执行一维卷积运算、常规整流线性运算、归一化运算和1×1卷积运算以得到所述混合表达。

4.根据权利要求1所述的语音分离装置，其中，所述多分支网络中的每个分支共用预定数目的卷积分离层。

5.根据权利要求4所述的语音分离装置，其中，所述多分支网络具有4个分支，所述4个分支分别包含6个、5个、4个和3个卷积分离层。

6.根据权利要求5所述的语音分离装置，其中，所述卷积分离层对所述混合表达执行扩张卷积运算。

7.根据权利要求6所述的语音分离装置，其中，所述卷积分离单元对所述混合表达执行门控卷积分离运算。

8.一种语音分离的方法，包括：

基于所述掩模和所述混合表达生成分离的语音信号，

9.一种机器可读存储介质，其上携带有程序产品，所述程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据权利要求8所述的方法。