CN111899758B

CN111899758B - 语音处理方法、装置、设备和存储介质

Info

Publication number: CN111899758B
Application number: CN202010927751.3A
Authority: CN
Inventors: 王珺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2024-01-30
Anticipated expiration: 2040-09-07
Also published as: CN111899758A

Abstract

提供了一种语音处理方法、装置、设备和存储介质，该方法包括：获取混合语音输入；对混合语音输入进行特征编码以获取第一混合语音特征序列；对第一混合语音特征序列进行特征提取以获取第二混合语音特征序列；基于第二混合语音特征序列获取表征多个说话人中的每个说话人的识别信息的语音识别特征；基于第二混合语音特征序列以及语音识别特征获取分别与多个说话人中的每个说话人相对应的多个分离语音表示；以及对多个分离语音表示进行解码以获取分别与多个说话人中的每个说话人相对应的多个分离语音。本方法结构简单，并且允许更有效的模型训练，能够在严重干扰的情况下获得可分离的和泛化的语音表示并且能够获得更高的信噪比改善。

Description

语音处理方法、装置、设备和存储介质

技术领域

本公开涉及语音处理领域，更具体地，涉及一种语音处理方法、装置、设备和存储介质。

背景技术

深度说话人嵌入(embedding)在用于说话人识别(speaker identification，SI)、说话人验证(speaker verification，SV)和说话人分类(speaker diarization，SD)等任务的现代系统中具有成功的应用。这些系统通常需要复杂的处理流水线。例如，在学习说话人嵌入之前，需要例如语音活动检测(speech activity detection，SAD)模块和分段模块来生成没有干扰或重叠的短语音片段；在提取说话人嵌入之后，需要例如聚类模块来对短语音片段进行分组以对应于一个特定的说话人身份。如果系统需要处理重叠的语音或干扰，在处理流水线中还需要例如检测器和分类器模块来移除重叠的片段。然而，在语音高度重叠的场景中，这些系统的性能仍会受到显著的损伤。为了简化这些复杂的处理过程以及提高在高度重叠和干扰场景下的处理性能，需要一种新颖的优效语音处理方法。

发明内容

本公开的实施例提供了一种基于神经网络的语音处理方法，包括：获取混合语音输入，所述混合语音输入包括来自多个说话人的语音；由编码器，对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列；由特征提取器，对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列，其中，所述第二混合语音特征序列与所述第一混合语音特征序列的维度相同；由语音识别器，基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征；由语音分离器，基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示；以及由解码器，对所述多个分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音。

根据本公开的实施例，其中，由编码器，对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列，包括：对所述混合语音输入进行特征编码，以获取初始混合语音特征序列，所述初始混合语音特征序列的第一维度为特征维度，且所述初始混合语音特征序列的第二维度为时域步长维度；对所述初始混合语音特征序列进行分段，以获取所述第一混合语音特征序列，所述第一混合语音特征序列的第一维度为特征维度，所述第一混合语音特征序列的第二维度为块内索引维度，且所述第一混合语音特征序列的第三维度为分块索引维度。

根据本公开的实施例，其中，所述特征提取器包括级联的第一数量M个特征提取块，其中，由特征提取器，对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列包括：由第1个特征提取块，对所述第一混合语音特征序列进行特征提取，以获取第1中间特征序列；由第m个特征提取块，对从第m-1个特征提取块接收的第m-1中间特征序列进行特征提取，以获取第m中间特征序列，其中，m为大于1且小于M的整数，M为大于等于2的整数；由第M个特征提取块，对从第M-1个特征提取块接收的第M-1中间特征序列进行特征提取，以获取所述第二混合语音特征序列，其中，对于所述第1中间特征序列、所述第m中间特征序列以及所述第二混合语音特征序列中的每一个序列，其第一维度为特征维度，其第二维度为块内索引维度，且其第三维度为分块索引维度。

根据本公开的实施例，其中，所述语音识别器包括投影器、嵌入提取器以及级联的第二数量A个语音识别块，其中，由语音识别器，基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征包括：由所述级联的第二数量A个语音识别块，对所述第二混合语音特征序列进行特征转换，以获取第一混合语音识别特征，其中，所述第一混合语音识别特征的第一维度为特征维度，第二维度为块内索引维度，且第三维度为分块索引维度；由所述投影器，对所述第一混合语音识别特征进行投影，以获取第二混合语音识别特征，其中，所述第二混合语音识别特征的第一维度为特征维度，第二维度为说话人索引维度，第三维度为块内索引维度，且第四维度为分块索引维度；由所述嵌入提取器，对所述第二混合语音识别特征在块内索引维度上进行池化处理，以获取粗尺度语音识别特征，其中，所述粗尺度语音识别特征的第一维度为特征维度，第二维度为说话人索引维度，且第三维度为分块索引维度；以及由所述嵌入提取器，对所述粗尺度语音识别特征在分块索引维度上进行池化处理，以获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征。

根据本公开的实施例，其中，所述语音分离器包括语音调制块，其中，基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示包括：由语音调制块，利用所述语音识别特征对所述第二混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示。

根据本公开的实施例，其中，所述语音分离器包括级联的第三数量B个语音分离块，并且每个所述语音分离块包括对应的语音调制块，其中，由语音调制块，利用所述语音识别特征对所述第二混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示包括：由第1个语音分离块，对所述第二混合语音特征序列进行特征转换，以获取第1中间混合语音特征序列；由第1个语音调制块，利用所述语音识别特征对所述第1中间混合语音特征序列进行调制，以获取第1中间调制序列；由第i个语音分离块，对从第i-1个语音调制块接收的第i-1中间调制序列进行特征转换，以获取第i中间混合语音特征序列，其中，i为大于1且小于B的整数，B为大于等于2的整数；由第i个语音调制块，利用所述语音识别特征对所述第i中间混合语音特征序列进行调制，以获取第i中间调制序列；由第B个语音分离块，对从第B-1个语音调制块接收的第B-1中间调制序列进行特征转换，以获取第B中间混合语音特征序列；以及由第B个语音调制块，利用所述语音识别特征对所述第B中间混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示，其中，对于所述第1中间混合语音特征序列、第1中间调制序列、第i中间混合语音特征序列、第i中间调制序列、第B中间混合语音特征序列以及所述第二混合语音特征序列中的每一个序列，其第一维度为特征维度，其第二维度为块内索引维度，且其第三维度为分块索引维度。

根据本公开的实施例，其中，所述特征提取器、所述语音识别器以及所述语音分离器的训练过程包括预训练阶段和联合训练阶段，其中，所述预训练阶段包括：获取包括多个预训练混合语音样本的预训练样本集合，其中每个预训练混合语音样本包括来自多个说话人的语音；针对预训练样本集合中的每个预训练混合语音样本，由待训练的编码器，对所述预训练混合语音样本进行特征编码，以获取所述预训练混合语音样本的第一预训练混合语音特征序列；由待训练的提取分离器，对所述第一预训练混合语音特征序列进行特征提取，以获取第二预训练混合语音特征序列，其中，所述待训练的提取分离器包括级联的第四数量F个待训练的提取分离块；由待训练的投影器，对所述第二预训练混合语音特征序列进行投影，以获取分别与所述多个说话人中的每个说话人相对应的多个估计掩模；由待训练的解码器，基于所述多个估计掩模获取分别与所述多个说话人中的每个说话人相对应的多个估计分离语音；根据所述来自多个说话人的语音以及所述多个估计分离语音，基于提取分离损失函数计算所述预训练混合语音样本的提取分离损失；以及基于所述提取分离损失训练所述待训练的编码器、所述待训练的提取分离器、所述待训练的投影器以及所述待训练的解码器的参数，以生成经预训练的编码器、提取分离器、投影器以及解码器。

根据本公开的实施例，其中，所述提取分离损失函数基于所述来自多个说话人的语音以及所述多个估计分离语音的尺度不变信噪比来确定。

根据本公开的实施例，其中，所述联合训练阶段包括：获取包括多个联合训练混合语音样本的联合训练样本集合，其中每个联合训练混合语音样本包括来自多个说话人的语音；针对联合训练样本集合中的每个联合训练混合语音样本，由经预训练的编码器，对所述联合训练混合语音样本进行特征编码，以获取所述联合训练混合语音样本的第一联合训练混合语音特征序列；由经预训练的特征提取器，对所述第一联合训练混合语音特征序列进行特征提取，以获取第二联合训练混合语音特征序列，其中，所述经预训练的特征提取器包括级联的第一数量M个经预训练的特征提取块，其中，所述M个经预训练的特征提取块是F个经预训练的提取分离块的一部分；由待训练的语音识别器，基于所述第二联合训练混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的联合训练语音识别特征，其中，所述待训练的语音识别器包括级联的第二数量A个经预训练的语音识别块，其中，所述A个经预训练的语音识别块是F个经预训练的提取分离块的一部分；由待训练的语音分离器，基于所述第二联合训练混合语音特征序列以及所述联合训练语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个联合训练分离语音表示；由经预训练的解码器，对所述多个联合训练分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个联合训练估计分离语音；根据所述待训练的语音识别器获取的联合训练语音识别特征以及所述多个联合训练估计分离语音，基于联合训练损失函数计算所述联合训练混合语音样本的联合训练损失；以及基于所述联合训练损失来联合训练所述待训练的语音识别器以及所述待训练的语音分离器的参数，以生成经联合训练的语音识别器和语音分离器。

根据本公开的实施例，其中，所述预训练混合语音样本中包括的来自每个说话人的语音包括与该语音相对应的干扰语音，其中，所述干扰语音为来自其他说话人的语音。

本公开的实施例提供了一种基于神经网络的语音处理装置，包括：输入模块，用于获取混合语音输入，所述混合语音输入包括来自多个说话人的语音；编码器，用于对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列；特征提取器，用于对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列，其中，所述第二混合语音特征序列与所述第一混合语音特征序列的维度相同；语音识别器，用于基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征；语音分离器，用于基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示；以及解码器，用于对所述多个分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音。

根据本公开的实施例，其中，所述语音识别器包括投影器、嵌入提取器以及级联的第二数量A个语音识别块，其中，基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征包括：由所述级联的第二数量A个语音识别块，对所述第二混合语音特征序列进行特征转换，以获取第一混合语音识别特征，其中，所述第一混合语音识别特征的第一维度为特征维度，第二维度为块内索引维度，且第三维度为分块索引维度；由所述投影器，对所述第一混合语音识别特征进行投影，以获取第二混合语音识别特征，其中，所述第二混合语音识别特征的第一维度为特征维度，第二维度为说话人索引维度，第三维度为块内索引维度，且第四维度为分块索引维度；由所述嵌入提取器，对所述第二混合语音识别特征在块内索引维度上进行池化处理，以获取粗尺度语音识别特征，其中，所述粗尺度语音识别特征的第一维度为特征维度，第二维度为说话人索引维度，且第三维度为分块索引维度；以及由所述嵌入提取器，对所述粗尺度语音识别特征在分块索引维度上进行池化处理，以获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征。

本公开的实施例提供了一种语音处理设备，包括：处理器；和存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现根据本公开实施例的语音处理方法。

本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现根据本公开实施例的语音处理方法。

本公开的实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开实施例的语音处理方法。

本公开的实施例提供了一种语音处理方法、装置、设备和存储介质。该语音处理方法首先针对通用的内在任务预先训练模型来建模自底而上的过程，从有干扰的混合语音的波形比特中提取具有可分离性的通用语音表示，然后，针对下游任务(诸如识别和分离)来对模型的一部分进行联合训练和微调。该语音处理方法尝试在联合训练和微调过程中建模自顶而下的过程，即通过反馈提取出的高级抽象表示(例如，说话人嵌入)来调整模型在低级逐比特分离任务中对语音信号的分离。根据本公开的语音处理方法不需要聚类、语音活动检测、重叠检测等复杂处理，结构简单，并且允许更有效的模型训练，能够在严重干扰的情况下获得可分离的和泛化的语音表示并且能够获得更高的信噪比改善。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本公开的一些示例性实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本公开实施例的语音处理系统的示意性应用场景示意图；

图2示出了根据本公开实施例的语音处理方法的流程图；

图3示出了根据本公开实施例的语音处理方法的示意性处理流程框图；

图4A示出了根据本公开实施例的混合语音特征序列的分段过程示意图；

图4B示出了根据本公开实施例的语音处理中的特征提取块的示例网络结构；

图5示出了根据本公开实施例的语音处理系统的示例训练过程；

图6A-图6C示出了根据本公开实施例的语音处理方法提取的说话人嵌入的示意图。

图7示出了根据本公开实施例的不同模型在不同信号干扰比(SIR)下的操作特性曲线(operating characteristic curve，ROC)；

图8示出了根据本公开实施例的语音处理装置的示意图；并且

图9示出了根据本公开实施例的语音处理设备的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参考附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，基本上相同或相似的步骤和元素用相同或相似的附图标记来表示，并且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

在本说明书和附图中，根据实施例，元素以单数或复数的形式来描述。然而，单数和复数形式被适当地选择用于所提出的情况仅仅是为了方便解释而无意将本公开限制于此。因此，单数形式可以包括复数形式，并且复数形式也可以包括单数形式，除非上下文另有明确说明。

本公开的实施例涉及人工智能的机器学习以及语音处理等技术，为便于理解，以下首先介绍与本公开的实施例相关的一些基本概念。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

鸡尾酒会效应：即听众可以在高度干扰性的情况下立即察觉到来自熟人的语音，例如在广泛的听觉输入中听到朋友在叫自己的名字。在这个过程中，人类听觉系统不单独执行说话人识别和语音分离或提取任务，而是遵循自底而上和自顶而下的过程。

下面将继续结合附图对本公开的实施例进行进一步地描述。

图1示出了根据本公开实施例的语音处理系统的示意性应用场景示意图100。

如图1所示，混合语音输入101可以是包括来自多个说话人(例如，说话人1和说话人2)的语音的混合语音信号。混合语音输入101还可以包括噪声信号或干扰语音。语音处理系统102可以对混合语音输入101进行语音处理，例如，语音处理系统102可以进行语音识别和语音分离等处理，从而从混合语音输入101中识别并分离出与说话人1相对应的分离语音103以及与说话人2相对应的分离语音104。根据本公开的实施例，语音处理系统102可以由基于人工智能的神经网络来实现，并且可以执行根据本公开实施例的语音处理方法，下面进一步结合图2和图3描述根据本公开实施例的语音处理方法。

具体地，图2示出了根据本公开实施例的语音处理方法200的流程图，并且图3示出了根据本公开实施例的语音处理方法200的示意性处理流程框图300。

如图2和图3所示，在步骤S201中，可以获取混合语音输入101，混合语音输入101可以包括来自多个说话人的语音。图3示出了混合语音输入101包括来自说话人1的语音信号s₁和来自说话人2的语音信号s₂的示例。更一般地，混合语音输入101可以是包括来自C个说话人的语音(以及噪声或干扰语音)的混合语音信号其中s_c表示来自第c个说话人的语音，C为大于等于2的整数。

在步骤S202中，可以由编码器，对混合语音输入进行特征编码，以获取混合语音输入的第一混合语音特征序列。根据本公开的实施例，可以对混合语音输入进行特征编码，以获取初始混合语音特征序列，该初始混合语音特征序列的第一维度为特征维度，且该初始混合语音特征序列的第二维度为时域步长维度。进一步地，可以对初始混合语音特征序列进行分段，以获取第一混合语音特征序列，该第一混合语音特征序列的第一维度为特征维度，该第一混合语音特征序列的第二维度为块内索引维度，且该第一混合语音特征序列的第三维度为分块索引维度。

具体地，根据本公开的实施例，如图3所示，可以由编码器302对混合语音输入101的混合波形进行特征编码，以获取混合语音输入101的二维初始混合语音特征序列该初始混合语音特征序列/>的第一维度N可以为表征混合语音输入101的语音特征的特征维度，且该初始混合语音特征序列的第二维度L可以为混合语音输入101的时域步长。进一步地，在编码器302中，可以在时域步长维度L上对初始混合语音特征序列/>进行分段，以获取混合语音输入101的第一混合语音特征序列。具体地，图4A示出了根据本公开实施例的混合语音特征序列的分段过程示意图。如图4A所示，例如，可以在时域步长维度L上将初始混合语音特征序列/>分为S个分块，并且每个分块的时域步长为K，从而可以获取混合语音输入101的第一混合语音特征序列/>该第一混合语音特征序列/>的第一维度N可以为特征维度，第二维度K可以为每个分块内的块内索引，且第三维度S可以为每个分块的分块索引。应当理解，在编码器302中对初始混合语音特征序列/>进行分段仅仅是示例，还可以在例如下文所述的特征提取器303或其他中间模块中对初始混合语音特征序列/>进行分段处理，这里不做限制。应了解，这里N、L、K、S均为大于等于2的整数，并且对初始混合语音特征序列进行分段得到的每个分块可以重叠或不重叠，在每个分块不重叠的情况下满足L＝K×S。

在步骤S203中，可以由特征提取器，对混合语音输入的第一混合语音特征序列进行特征提取，以获取混合语音输入的第二混合语音特征序列。

根据本公开的实施例，如图3所示，特征提取器303可以包括级联的第一数量M个特征提取块304。M可以是大于等于2的整数。通过M个级联的特征提取块304的处理，可以不断地提取出混合语音输入101的更深层的语音特征。在一些实施例中，特征提取块304可以采用双路径递归神经网络(dual-path recurrent neural network，DPRNN)的模型结构，如图4B所示。

图4B示出了根据本公开实施例的特征提取块304的示例网络结构400。如图4B所示，特征提取块304可以包括块内递归神经网络(recurrent neural network，RNN)402和块间RNN 404。例如，当输入为时，块内RNN 402可以对特征序列的每个分块内部(局部)进行特征提取和转换等处理，并且残差连接&归一化块403可以将块内RNN 402的输入和输出进行层归一化和残差连接等处理，以生成与输入/>相同维度的输出/>块间RNN 404可以结合每个分块的块间信息(全局)进行特征提取和转换等处理，并且类似地，残差连接&归一化块405可以将块间RNN404的输入和输出进行层归一化和残差连接等处理，以生成与块间RNN 404的输入/>相同维度的输出因此，每个特征提取块304可以将输入特征序列/>转换为相同维度的输出特征序列/>

回到图3，当向特征提取器303输入混合语音输入101的第一混合语音特征序列时，M个特征提取块304中的第一个特征提取块304可以对/>进行特征提取，以获取第1中间特征序列/>然后，对于1<m<M，可以由第m个特征提取块304对从第m-1个特征提取块接收的第m-1中间特征序列/>进行特征提取，以获取第m中间特征序列/>最后，可以由第M个特征提取块304对从第M-1个特征提取块接收的第M-1中间特征序列/>进行特征提取，并将输出作为混合语音输入101的第二混合语音特征序列。在该实施例中，每个中间特征序列以及第二混合语音特征序列/>的维度均与混合语音输入101的第一混合语音特征序列/>的维度相同。

接下来，在步骤S204中，可以由语音识别器，基于第二混合语音特征序列，获取分别与多个说话人中的每个说话人相对应的语音识别特征。

如图3所示，语音识别器305可以包括级联的第二数量A个语音识别块306以及投影器307、嵌入提取器308。在一些实施例中，每个语音识别块306同样可以采用如图4B所示的DPRNN结构，并且可以针对语音识别任务进行预先训练，具体训练过程将在下文进行描述。

类似于特征提取器303，经训练的A个级联的语音识别块306可以对从特征提取器303接收的第二混合语音特征序列进行特征转换，以生成与混合语音输入101相对应的第一混合语音识别特征/>其中，类似地，第一维度N可以为经过多层特征提取和转换之后的特征维度，第二维度K可以为每个分块内的块内索引，且第三维度S可以为每个分块的分块索引。经过A个级联的语音识别块306的处理，第一混合语音识别特征/>对于C个说话人语音已经具有可分离性，因此，可以通过经训练的投影器307对第一混合语音识别特征/>进行针对C个说话人的投影，以生成与C个说话人相对应的第二混合语音识别特征/> 其中，第一维度N可以为特征维度，第二维度C可以为说话人索引维度，第三维度K可以为块内索引维度，且第四维度S可以为分块索引维度。

接下来，嵌入提取器308可以对第二混合语音识别特征进行嵌入提取。例如，嵌入提取器308可以在块内索引维度上对第二混合语音识别特征进行池化处理，以获取粗尺度语音识别特征/> 并且可以进一步在分块索引维度S上对/>进行池化处理，以获取表征C个说话人中的每个说话人的识别信息的语音识别特征(即，说话人嵌入)/>为使得混合语音输入101中的每个说话人语音和其目标说话人一一对应，可以基于语音级的置换不变训练(utterance-level permutation invariant training，u-PIT)来训练语音识别器305。例如，在如上所述混合语音输入101包含来自说话人1的语音s₁和来自说话人2的语音s₂的情况下，可以分别假设所有排列对应情况，即，可以假设“/>s₁对应于说话人1并且s₂对应说话人2”以及“/>s₁对应于说话人2并且s₂对应说话人1”两种排列，并分别计算每种排列下的识别损失函数并将使得识别损失函数/>最小的排列/>作为表征C个说话人中的每个说话人的识别信息的语音识别特征输入到语音分离器309进行语音分离等处理。具体的示例训练过程以及识别损失函数/>的示例将在下文详细描述。

在步骤S205中，可以由语音分离器，基于第二混合语音特征序列以及语音识别特征，获取分别与多个说话人中的每个说话人相对应的多个分离语音表示。

如图3所示，语音分离器309可以包括级联的第三数量B个语音分离块310，并且每个语音分离块310可以包括对应的语音调制块311。B可以为大于等于2的整数。在一些实施例中，每个语音分离块310同样可以采用如图4B所示的DPRNN结构，并在每个块间RNN 404和残差连接&归一化块405之间设置与其相对应的语音调制块311。可以针对语音分离任务对语音分离器309进行预先训练，具体训练过程将在下文进行描述。

根据本公开的实施例，可以由语音调制块311，利用从语音识别器305获取的语音识别特征对从特征提取器303获取的第二混合语音特征序列/>进行调制，以获取分别与多个说话人中的每个说话人相对应的多个分离语音表示。例如，可以由B个语音分离块310中的第1个语音分离块310，对从特征提取器303获取的第二混合语音特征序列进行特征转换，以获取第1中间混合语音特征序列/>在一些实施例中，更具体地，中间混合语音特征序列可以是从特征提取器303中所包含的块间RNN 404获取的。此后，可以由对应的第1个语音调制块311，利用从语音识别器305获取的语音识别特征/>对第1中间混合语音特征序列/> 以生成第1中间调制序列例如，可以采用如下等式(1)来进行调制。这种调制方式可以称为按特征的线性调制(feature-wise linear modulation，FiLM)方法。

其中，表示由对应的语音分离块生成的中间混合语音特征序列；/>表示从语音识别器305获取的语音识别特征，{j}表示如上所述混合语音输入101中所包括的语音和不同说话人的全排列，即，{j}可以为/>f(·)和h(·)是可以针对语音识别和分离等任务进行学习和训练的函数，例如，可以是诸如全连接网络等神经网络结构。

上述实时从语音识别器305获取语音识别特征的模式可以称为“在线”模式。在一些实施例中，语音识别特征/>也可以是使用任何方法预先估计和计算出的，在进行语音分离任务时可以由语音分离器309直接调用而不需要语音识别器305进行实时地在线估计，这种预先估计语音识别特征/>的模式可以称为“引导”模式。

接下来，对于1<i<B，可以由第i个语音分离块310对从第i-1个语音分离块接收的第i-1中间调制序列进行特征转换，以获取第i中间混合语音特征序列然后，可以由对应的第i个语音调制块311对第i中间混合语音特征序列进行调制，以获取第i中间调制序列/>例如，仍可以采用如等式(1)所示的调制函数进行调制。接下来，可以由第B个语音分离块310对从第B-1个语音调制块接收的第B-1中间调制序列进行特征转换，以获取第B中间混合语音特征序列/> 并且由第B个语音调制块311，利用从语音识别器305接收的语音识别特征/>对第B中间混合语音特征序列进行调制。对于第1中间混合语音特征序列、第1中间调制序列、第i中间混合语音特征序列、第i中间调制序列、第B中间混合语音特征序列以及第二混合语音特征序列中的每一个序列，其第一维度可以为特征维度N，其第二维度可以为块内索引维度K，且其第三维度可以为分块索引维度S。经过语音分离块210和语音调制块311的多层分离和调制，可以在语音分离器309中得到分别与C个说话人中的每个说话人相对应的C个分离语音表示，即，/>

最后，在步骤S206中，可以由解码器312，对多个分离语音表示进行解码，以获取分别与C个说话人中的每个说话人相对应的C个分离语音

下面结合图5描述根据本公开实施例的语音处理系统的训练过程。

图5示出了根据本公开实施例的语音处理系统的示例训练过程500。

根据本公开实施例的语音处理系统的训练过程可以包括预训练阶段和联合训练阶段。

如图5所示，在预训练阶段，首先可以对包括多个待训练的提取分离块的提取分离器进行预先训练。具体地，预训练阶段可以包括从预训练混合语音样本501生成估计分离语音的过程。

首先，可以获取包括多个预训练混合语音样本(例如，预训练混合语音样本501)的预训练样本集合。如上所述，每个预训练混合语音样本可以包括来自多个说话人的语音。进一步地，来自每个说话人的语音可以包括与该语音相对应的干扰语音，例如，可以使用特定信噪比的来自其它说话人的语音作为该说话人语音的干扰语音。

下面，以预训练混合语音样本501为例进行说明，例如，预训练混合语音样本501可以包括来自说话人1的语音信号s₁和来自说话人2的语音信号s₂。类似于上述结合图3所述的语音处理过程，在预训练阶段，可以由待训练的编码器502对预训练混合语音样本501进行特征编码，以获取预训练混合语音样本501的第一预训练混合语音特征序列

接下来，可以由待训练的提取分离器504对第一预训练混合语音特征序列进行特征提取。在一些实施例中，待训练的提取分离器504可以包括级联的第四数量F个待训练的提取分离块503。类似地，每个提取分离块503可以采用类似于如图4B所示的DPRNN网络结构。经过级联的F个待训练的提取分离块503的特征提取处理，可以生成预训练混合语音样本501的第二预训练混合语音特征序列/>经过多层的特征提取，第二预训练混合语音特征序列/>对于预训练混合语音样本501中包括的C个说话人已经具有可分离性。

接下来，可以由待训练的投影器509将第二预训练混合语音特征序列进行针对C个说话人的投影，以生成与C个说话人中的每个说话人相对应的估计掩模。例如，在投影器509中，可以对第二预训练混合语音特征序列/>进行非线性映射(例如，参数修正线性单元PReLU)和二维卷积处理，以将其投影到对应于C个说话人的更高维度的特征空间，如下等式(2)所示。

其中，PReLU表示参数修正线性单元非线性映射，Conv2D表示二维卷积处理。

进一步地，在投影器509中，可以从特征空间T_o合并出与C个说话人相对应的C个说话人序列合并过程可以和上文所述的分段过程相反。然后可以对C个说话人序列/>进行一维卷积和非线性层操作，从而生成与多个说话人中的每个说话人相对应的估计掩模Q_c,c＝1,…,C，如下等式(3)所示。

其中，Tanh和Sigmoid为两种示例性的非线性函数，Conv1D为一维卷积处理，并且⊙表示矩阵的哈达玛(Hadamard)乘积。

接下来，可以由待训练的解码器510将C个估计掩模Q_c,c＝1,…,C应用于预训练混合语音样本501，并进行例如如下等式(4)所示的重叠相加等处理，从而解码出C个估计分离语音

其中，OverlapAdd可以表示DPRNN网络的重叠相加操作，Linear表示线性映射处理，W表示预训练混合语音样本501的特征序列，ReLU表示修正线性单元非线性映射，Conv1D表示一维卷积处理，并且⊙表示矩阵的哈达玛乘积。

接下来，可以基于提取分离损失函数来计算预训练混合语音样本501的提取分离损失。提取分离损失函数/>可以采用如下等式5所示的形式。

其中，可以表示预训练混合语音样本501中包含的语音和估计的分离语音的尺度不变信噪比，/>可以表示估计语音的全排列。例如，假设预训练混合语音样本501中包含来自说话人1的语音s₁和来自说话人2的语音s₂，并且估计得到两个分离语音/>和/>可以分别在“s₁对应于/>并且s₂对应于/>”以及“s₁对应于/>并且s₂对应于/>”两种情况计算尺度不变信噪比，并将其中的最小值作为提取分离损失函数值。/>

可以基于该提取分离损失函数来训练待训练的编码器502、提取分离器504、投影器509以及解码器510，从而生成经预训练的编码器、提取分离器、投影器和解码器。经训练的提取分离器能够从混合语音输入中提取混合语音的特征序列，并且能够分离混合语音输入中包括的多个语音。

经过预训练阶段，对编码器502、F个级联的提取分离块503、投影器509以及解码器510进行了预训练。然后，利用经过预训练的编码器502、F个级联的提取分离块503、投影器509以及解码器510构造上文中参考图3描述的语音处理模型，该模型包括编码器302、特征提取器303、语音识别器305、语音分离器309以及解码器312。图5中的编码器512、特征提取器514、语音识别器515、语音分离器518以及解码器521分别对应于图3中的编码器302、特征提取器303、语音识别器305、语音分离器309以及解码器312，并表示经过对图5的语音识别器515和语音分离器518进行联合训练，来生成图3中的编码器302、特征提取器303、语音识别器305、语音分离器309以及解码器312。

根据本公开实施例，特征提取器514可以包括级联的M个经预训练的特征提取块513。例如，可以将在预训练阶段中训练的F个提取分离块503中的M个提取分离块503作为联合训练阶段中的M个经预训练的特征提取块513，用于特征提取，并且在联合训练阶段中，该M个经预训练的特征提取块513(即特征提取器514)的参数固定并且不再调整。

根据本公开实施例，语音识别器515可以包括级联的第二数量A个经预训练的语音识别块516。例如，可以将在预训练阶段中训练的F个提取分离块503中的A个提取分离块503作为联合训练阶段中的初始的A个经预训练的语音识别块516。A个经预训练的语音识别块516的参数将在联合训练过程中进一步训练。此外，所述语音识别器515还可以包括投影器519和嵌入提取器520，投影器519可以由经过预训练的投影器509构成，嵌入提取器520可以是能够提取说话人嵌入(例如，能够进行池化处理)的任何模块。

根据本公开实施例，语音分离器518可以包括级联的第三数量B个经预训练的语音分离块517。例如，可以将在预训练阶段中训练的F个提取分离块503中的B个提取分离块503作为联合训练阶段中的初始的B个经预训练的语音分离块517。B个经预训练的语音分离块517的参数将在联合训练过程中进一步训练。此外，语音分离器518在每个语音分离块517中包括由语音调制块。

根据本公开实施例，可以将经过预训练的编码器502作为编码器512，并且可以将经过预训练的解码器510作为解码器521。

可以进一步对待训练的语音识别器和待训练的语音分离器进行联合训练。联合训练阶段可以包括以下过程。

首先，可以获取包括多个联合训练混合语音样本(例如，联合训练混合语音样本511)的联合训练样本集合。如上所述，每个联合训练混合语音样本可以包括来自多个说话人的语音。下面以联合训练混合语音样本511为例进行说明，例如，联合训练混合语音样本511可以包括来自说话人1的语音信号s₁和来自说话人2的语音信号s₂。类似于上述结合图3所述的语音处理过程，在联合训练阶段，可以由经预训练的编码器512对联合训练混合语音样本511进行特征编码，以获取联合训练混合语音样本511的第一联合训练混合语音特征序列然后，可以由经预训练的特征提取器514对第一联合训练混合语音特征序列/>进行特征提取，以获取联合训练混合语音样本511的第二联合训练混合语音特征序列。如前所述，经预训练的特征提取器514可以包括级联的M个经预训练的特征提取块513。例如，可以将在预训练阶段中训练的F个提取分离块503中的M个提取分离块503作为联合训练阶段中的M个经预训练的特征提取块513，用于特征提取，并且在联合训练阶段中，该M个经预训练的特征提取块513(即特征提取器514)的参数固定并且不再调整。经过M个经预训练的特征提取块513的特征提取，可以获取联合训练混合语音样本511的第二联合训练混合语音特征序列/>

接下来，可以由待训练的语音识别器515基于第二联合训练混合语音特征序列获取表征多个说话人中的每个说话人的识别信息的联合训练语音识别特征。在一些实施例中，如上所述，语音识别器515可以包括级联的第二数量A个经预训练的语音识别块516。例如，可以将在预训练阶段中训练的F个提取分离块503中的A个提取分离块503作为联合训练阶段中的初始的A个经预训练的语音识别块516。A个经预训练的语音识别块516的参数将在联合训练过程中进一步训练。

类似于上文结合步骤S204的描述，可以由待训练的语音识别器515对第二联合训练混合语音特征序列进行特征转换，以生成与联合训练混合语音样本511相对应的第一中间识别特征/>然后，可以通过投影器519对第一中间识别特征/>进行针对C个说话人的投影转换，以生成与联合训练混合语音样本511中包括的C个说话人相对应的第二中间识别特征/>其中，第一维度N可以为特征维度，第二维度C可以为说话人索引维度，第三维度K可以为块内索引维度，且第四维度S可以为分块索引维度。接下来，嵌入提取器520可以对第二中间识别特征进行嵌入提取。例如，嵌入提取器520可以在块内索引维度上对第二中间识别特征/>进行池化处理，以获取粗尺度语音识别特征/>并且可以进一步在分块索引维度S上对/>进行池化处理，以获取表征C个说话人中的每个说话人的识别信息的联合训练语音识别特征/>为使得联合训练混合语音样本511中的每个说话人语音和其目标说话人一一对应，可以基于如上所述的语音级置换不变训练(u-PIT)来训练语音识别器515。例如，在如上所述联合训练混合语音样本511包含来自说话人1的语音s₁和来自说话人2的语音s₂的情况下，可以分别假设所有排列对应情况，即，可以假设“/>s₁对应于说话人1并且s₂对应说话人2”以及“/>s₁对应于说话人2并且s₂对应说话人1”两种排列，并分别计算每种排列下的识别损失函数/>并将使得识别损失函数/>最小的排列/>作为表征C个说话人中的每个说话人的识别信息的联合训练语音识别特征输入到语音分离器518进行后续处理。在一些实施例中，识别损失函数/>可以采用如下等式(6)的形式。/>

其中，可以表示联合训练样本集合中包括的所有训练说话人的目标语音识别特征，G可以表示联合训练样本集合中包括的所有训练说话人的数量；/>可以表示具有可学习的尺度参数α(α＞0)和偏置参数β的余弦相似度损失；i_k(k＝1,2，…,C)表示每个联合训练混合语音样本中包含的说话人在所有训练说话人集合(G)中的索引。/>可以表示/>和语音识别特征/>的全排列。/>可以使得语音识别特征/>和对应的目标语音识别特征/>更接近；/>可以计算每个语音识别特征/>和所有的目标语音识别特征/>之前的所有余弦相似度损失，并且可以用作归一化项；可以用作正则化项，以避免出现全零解，其中，γ为正则化项的权重因子。

接下来，可以由待训练的语音分离器518基于从特征提取器514获取的第二联合训练混合语音特征序列以及从待训练的语音识别器515获取的联合训练语音识别特征/>来获取分别与训练样本中包含的多个说话人中的每个说话人相对应的多个联合训练分离语音表示。在一些实施例中，如上所述，语音分离器518可以包括级联的第三数量B个经预训练的语音分离块517。例如，可以将在预训练阶段中训练的F个提取分离块503中的B个提取分离块503作为联合训练阶段中的初始的B个经预训练的语音分离块517。B个经预训练的语音分离块517的参数将在联合训练过程中进一步训练。此外，每个语音分离块517中还可以包括对应的语音调制块，以用于基于从待训练的语音识别器515获取的联合训练语音识别特征/>来调制从特征提取514获取的特征序列。类似于上文结合步骤S205的描述，在每个语音调制块中，可以根据如上等式(1)来进行调制。经过级联的调制和分离处理，在待训练的语音分离器518中可以生成与训练样本中包含的多个说话人中的每个说话人相对应的多个联合训练分离语音表示/>此后，可以由解码器521对多个联合训练分离语音表示/>进行解码，以获取分别与C个说话人中的每个说话人相对应的C个联合训练估计分离语音/>

接下来，可以根据待训练的语音识别器515获取的联合训练语音识别特征以及多个联合训练估计分离语音/>基于联合训练损失函数/>来计算联合训练混合语音样本511的联合训练损失，并基于计算出的联合训练损失值来对待训练的语音识别器515以及待训练的语音分离器518进行联合训练。在一些实施例中，联合训练损失函数/>可以采用如下等式(7)的形式。/>

其中，可以是如上等式(6)所示的识别损失函数，λ可以是识别损失函数/>的权重系数，并且/>是针对于分离任务的分离损失函数。在一些实施例中，/>可以采用如下等式(8)的形式。

其中，可以表示联合训练混合语音样本511中包含的语音和估计的联合训练估计分离语音/>的尺度不变信噪比。

为使得根据本公开实施例的语音处理系统能够具有更好的泛化性，在训练过程中可以采用如下三种训练更新方案，如下表1所示。

[表1]

下面，将结合实验数据描述根据本公开实施例的语音处理方法在基准数据集WSJ0-2mix上的处理性能。基准数据集WSJ0-2mix可以包括由来自G＝101个说话人的20000个语音组成的30小时的训练集、由来自相同的101个说话人的5000个语音组成的10小时的验证集、以及由训练过程中未出现的18个说话人的3000个语音组成的5小时的测试数据。

如上所述，为了便于比较，在一个实施例中，预训练模型采用与DPRNN类似的网络结构，更具体地，在预训练阶段训练了F＝6个级联的DPRNN块。在后续的微调和联合训练阶段，M＝4个DPRNN块用作特征提取器，A＝2个DPRNN块用作语音识别器，并且B＝2个DPRNN块用作语音分离块。特征维度可以设置为N＝64，分块尺寸(或分块时域步长)可以设置为K＝64。可以经验性地将超参数设置为γ＝3,λ＝10,ε＝0.05，并且将学习速率μ的初始值设置为0.001，且每两个训练周期0.96的衰减速率。

对于每个训练周期，WSJ0-2mix训练集中的每个干净语音在随机的起始位置用来自相同训练集的不同随机语音加掩，并且从0到5dB的均匀分布中随机采样信号干扰比(SIR)值。如果在10个连续时期内没有出现更低的验证损失，则认为训练过程收敛。

结合图6A-6C，给出了根据本公开实施例的语音处理方法通过上述三种方案学得的说话人特征(即，说话人嵌入)的泛化能力的比较结果。图6A-图6C示出了根据本公开实施例的语音处理方法提取的说话人嵌入的示意图。为了可视化，在图6A-图6C中通过主成分分析(Principal Component Analysis，PCA)将说话人嵌入投影到3-D空间，其中每个点表示从语音中提取的说话人嵌入向量，并且来自同一说话人的说话人嵌入向量用相同形状的点表示。图6A示出来自训练集的7个随机说话人的嵌入(由于所有三种方案在训练中给出了相似的图，所以仅示出了使用方案#3的情况)；图6B示出了不同于在训练过程中出现的7个随机测试说话人的嵌入，其中，这些嵌入是使用方案#1的模型计算出的；图6C示出了相同的7个随机的未出现过的说话人的嵌入，并且这些嵌入是使用方案#3的模型计算出的。

尽管如图6A所示，对于那些出现过的说话人，可以很好地学习具有分辨性的嵌入，但是如图6B所示，对于首次出现的说话人，使用方案#1的模型很难保持和在训练过程中出现过的说话人相同的分辨性(方案#2也产生了类似较差的分辨性，为节省空间，仅示出了方案#1的情况)。相比之下，如图6C所示，方案#3给出了具有显著分辨性的嵌入。经过分析方案#3不同于方案#1和方案#2的关键因素，发现：该模型不用学习预测说话人身份信息的琐碎任务；相反，方案#3使模型能够以自监督的方式学习更多的说话人表示。

上述实验的目的之一可以是评估首次出现说话人的学得的表征的分辨能力。为此，进行了一项特殊的说话人验证任务。首先，可以从测试集中随机抽取每个说话人的20个语音，组成一个WSJ0注册集；收集根据本公开实施例提取的说话人嵌入并对其进行归一化和平均以生成每个说话人一个目标向量。然后，在评估过程中，收集根据本公开实施例提取的剩余语音(WSJ0-test)的说话人嵌入/>对其进行归一化，并测量它们到所有说话人的目标向量的余弦距离。可以使用等误差率(equal error rate，EER)和曲线下面积(areaunder the curve，AUC)作为指标来表示根据本公开实施例的语音处理方法学得的说话人表征的可分辨性。

图7示出了根据本公开实施例的不同模型在不同信号干扰比(SIR)下的操作特性曲线(operating characteristic curve，ROC)。图7右下方标出了每个ROC所对应的SIR。模型使用方案#1和#3。参考图7中的曲线可以看出，本公开的方案在0～5dB干扰条件下的EER(0.024)已经相当于(甚至略好于)在干净数据上的得分。

作为参考，传统的语音识别分离系统的AUC接近0.5(如图7中斜线所示)，这说明传统系统在不利的干扰中性能较差。而如图7所示，根据本公开实施例的方案#3表明(图7中最上方3条曲线)，在不利的干扰条件下学习更好的说话人表示是可行的，并且该方法不需要传统系统所需要的干净的语音条件以及包括SAD、分段和重叠检测器等的冗长预处理流程。

然后，将根据本公开实施例的语音处理方法的语音分离性能与传统的DPRNN模型进行了比较。请注意，通过进一步减小编码器和解码器中的超参数窗口大小(滤波器长度)，两个系统的性能可以得到一致的改善，但代价是训练时间成比例地增加。为了公平比较，在相同的设置下评估了根据本公开实施例的语音处理方法和传统DPRNN模型的性能。

这里，本公开使用了方案#3的模型，并在如上文所述的“引导”和“在线”两种模式下针对尺度不变信噪比改善(SI-SNRi)进行评估。如表2所示，“引导”和“在线”两种模式都表现出了优于传统DPRNN的信噪比改善。

[表2]

应当理解，在本公开的实施例中采用DPRNN的模型结构仅仅是用于示例。本公开实施例提供的语音识别方法及其训练过程也可以采用任何其他的网络结构，例如卷积时域音频分离网络(convolution time-domain audio separation network，Conv-Tasnet)等。根据本公开的实施例，编码器和解码器也可以采用不同于传统DPRNN模型中的结构，例如，可以采用实施傅里叶变换的模型作为编码器并且采用实施傅里叶逆变换的模型作为解码器。并且编码器不限于支持处理时域输入波形，也可以支持处理频域信号输入。本公开实施例中采用的任何网络参数也可以具有其他任何合适的配置。在一些实施例中，本公开实施例中的预训练阶段和联合训练(微调)阶段也可以合并为一个阶段进行联合训练处理，例如，可以简化为面向任务(识别和分离)的端到端训练。本公开的上述实施例采用了余弦相似度损失函数_cos作为示例，应当理解，本公开的训练过程也可以采用其他任何合适的损失函数，包括但不限于对比损失(Contrastive loss)、三元组损失(Triple loss)、球面和余弦面损失(Sphere face and CosFace loss)函数等等，并且本公开的实施例所使用的SI-SNRi也可以根据采用的损失函数的不同而采用其它类型的值。

图8示出了根据本公开实施例的语音处理装置800的示意图。

如图8所示，根据本公开实施例的语音处理装置800可以包括输入模块801、编码器802、特征提取器803、语音识别器804、语音分离器805以及解码器806。其中，输入模块801可以用于获取混合语音输入，该混合语音输入可以包括来自多个说话人的语音；编码器802可以用于对混合语音输入进行特征编码，以获取混合语音输入的第一混合语音特征序列；特征提取器803可以用于对第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列，其中，该第二混合语音特征序列与第一混合语音特征序列的维度相同；语音识别器804可以用于基于第二混合语音特征序列，获取表征多个说话人中的每个说话人的识别信息的语音识别特征；语音分离器805可以用于基于第二混合语音特征序列以及语音识别特征，获取分别与多个说话人中的每个说话人相对应的多个分离语音表示；并且解码器806可以用于对多个分离语音表示进行解码，以获取分别与多个说话人中的每个说话人相对应的多个分离语音。

图9示出了根据本公开实施例的语音处理设备900的示意图。

如图9所示，根据本公开实施例的语音处理设备900可以包括处理器901以及存储器902，其可以通过总线903进行互联。

处理器901可以根据存储在存储器902中的程序或代码执行各种动作和处理。具体地，处理器901可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中公开的各种方法、步骤、流程及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或者是ARM架构等。

存储器902存储有可执行指令，该指令在被处理器901执行时用于实现根据本公开实施例的语音处理方法。存储器902可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开的实施例还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机指令被处理器执行时可以实现根据本公开实施例语音处理方法。类似地，本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开实施例的语音处理方法。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本公开的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本公开的范围内。

Claims

1.一种基于神经网络的语音处理方法，包括：

获取混合语音输入，所述混合语音输入包括来自多个说话人的语音；

由编码器，对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列；

由特征提取器，对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列，其中，所述第二混合语音特征序列与所述第一混合语音特征序列的维度相同；

由包括投影器、嵌入提取器以及级联的多个语音识别块的语音识别器，基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征，其中，由所述级联的多个语音识别块，对所述第二混合语音特征序列进行特征转换，以获取第一混合语音识别特征，由所述投影器，对所述第一混合语音识别特征进行投影，以获取第二混合语音识别特征，由所述嵌入提取器，对所述第二混合语音识别特征进行嵌入提取，以获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征；

由语音分离器，基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示；以及

由解码器，对所述多个分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音。

2.如权利要求1所述的方法，其中，由编码器，对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列，包括：

对所述混合语音输入进行特征编码，以获取初始混合语音特征序列，所述初始混合语音特征序列的第一维度为特征维度，且所述初始混合语音特征序列的第二维度为时域步长维度；

对所述初始混合语音特征序列进行分段，以获取所述第一混合语音特征序列，所述第一混合语音特征序列的第一维度为特征维度，所述第一混合语音特征序列的第二维度为块内索引维度，且所述第一混合语音特征序列的第三维度为分块索引维度。

3.如权利要求1所述的方法，其中，所述特征提取器包括级联的第一数量M个特征提取块，其中，由特征提取器，对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列包括：

由第1个特征提取块，对所述第一混合语音特征序列进行特征提取，以获取第1中间特征序列；

由第m个特征提取块，对从第m-1个特征提取块接收的第m-1中间特征序列进行特征提取，以获取第m中间特征序列，其中，m为大于1且小于M的整数，M为大于等于2的整数；

由第M个特征提取块，对从第M-1个特征提取块接收的第M-1中间特征序列进行特征提取，以获取所述第二混合语音特征序列，

其中，对于所述第1中间特征序列、所述第m中间特征序列以及所述第二混合语音特征序列中的每一个序列，其第一维度为特征维度，其第二维度为块内索引维度，且其第三维度为分块索引维度。

4.如权利要求1所述的方法，其中，

由所述嵌入提取器，对所述第二混合语音识别特征进行嵌入提取，以获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征包括：

由所述嵌入提取器，对所述第二混合语音识别特征在块内索引维度上进行池化处理，以获取粗尺度语音识别特征；以及

由所述嵌入提取器，对所述粗尺度语音识别特征在分块索引维度上进行池化处理，以获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征。

5.如权利要求4所述的方法，其中，

所述第一混合语音识别特征的第一维度为特征维度，第二维度为块内索引维度，且第三维度为分块索引维度；

所述第二混合语音识别特征的第一维度为特征维度，第二维度为说话人索引维度，第三维度为块内索引维度，且第四维度为分块索引维度；

所述粗尺度语音识别特征的第一维度为特征维度，第二维度为说话人索引维度，且第三维度为分块索引维度。

6.如权利要求1所述的方法，其中，所述语音分离器包括语音调制块，其中，基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示包括：

由语音调制块，利用所述语音识别特征对所述第二混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示。

7.如权利要求6所述的方法，其中，所述语音分离器包括级联的第三数量B个语音分离块，并且每个所述语音分离块包括对应的语音调制块，

其中，由语音调制块，利用所述语音识别特征对所述第二混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示包括：

由第1个语音分离块，对所述第二混合语音特征序列进行特征转换，以获取第1中间混合语音特征序列；

由第1个语音调制块，利用所述语音识别特征对所述第1中间混合语音特征序列进行调制，以获取第1中间调制序列；

由第i个语音分离块，对从第i-1个语音调制块接收的第i-1中间调制序列进行特征转换，以获取第i中间混合语音特征序列，其中，i为大于1且小于B的整数，B为大于等于2的整数；

由第i个语音调制块，利用所述语音识别特征对所述第i中间混合语音特征序列进行调制，以获取第i中间调制序列；

由第B个语音分离块，对从第B-1个语音调制块接收的第B-1中间调制序列进行特征转换，以获取第B中间混合语音特征序列；以及

由第B个语音调制块，利用所述语音识别特征对所述第B中间混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示，

其中，对于所述第1中间混合语音特征序列、第1中间调制序列、第i中间混合语音特征序列、第i中间调制序列、第B中间混合语音特征序列以及所述第二混合语音特征序列中的每一个序列，其第一维度为特征维度，其第二维度为块内索引维度，且其第三维度为分块索引维度。

8.如权利要求7所述的方法，其中，所述特征提取器、所述语音识别器以及所述语音分离器的训练过程包括预训练阶段和联合训练阶段，其中，

所述预训练阶段包括：

获取包括多个预训练混合语音样本的预训练样本集合，其中每个预训练混合语音样本包括来自多个说话人的语音；

针对预训练样本集合中的每个预训练混合语音样本，

由待训练的编码器，对所述预训练混合语音样本进行特征编码，以获取所述预训练混合语音样本的第一预训练混合语音特征序列；

由待训练的提取分离器，对所述第一预训练混合语音特征序列进行特征提取，以获取第二预训练混合语音特征序列，其中，

所述待训练的提取分离器包括级联的第四数量F个待训练的提取分离块；

由待训练的投影器，对所述第二预训练混合语音特征序列进行投影，以获取分别与所述多个说话人中的每个说话人相对应的多个估计掩模；

由待训练的解码器，基于所述多个估计掩模获取分别与所述多个说话人中的每个说话人相对应的多个估计分离语音；

根据所述来自多个说话人的语音以及所述多个估计分离语音，基于提取分离损失函数计算所述预训练混合语音样本的提取分离损失；以及

基于所述提取分离损失训练所述待训练的编码器、所述待训练的提取分离器、所述待训练的投影器以及所述待训练的解码器的参数，以生成经预训练的编码器、提取分离器、投影器以及解码器。

9.如权利要求8所述的方法，其中，所述提取分离损失函数基于所述来自多个说话人的语音以及所述多个估计分离语音的尺度不变信噪比来确定。

10.如权利要求8所述的方法，其中，所述联合训练阶段包括：

获取包括多个联合训练混合语音样本的联合训练样本集合，其中每个联合训练混合语音样本包括来自多个说话人的语音；

针对联合训练样本集合中的每个联合训练混合语音样本，

由经预训练的编码器，对所述联合训练混合语音样本进行特征编码，以获取所述联合训练混合语音样本的第一联合训练混合语音特征序列；

由经预训练的特征提取器，对所述第一联合训练混合语音特征序列进行特征提取，以获取第二联合训练混合语音特征序列，其中，所述经预训练的特征提取器包括级联的第一数量M个经预训练的特征提取块，其中，所述M个经预训练的特征提取块是F个经预训练的提取分离块的一部分；

由待训练的语音识别器，基于所述第二联合训练混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的联合训练语音识别特征，其中，所述待训练的语音识别器包括级联的第二数量A个经预训练的语音识别块，其中，所述A个经预训练的语音识别块是F个经预训练的提取分离块的一部分；

由待训练的语音分离器，基于所述第二联合训练混合语音特征序列以及所述联合训练语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个联合训练分离语音表示；

由经预训练的解码器，对所述多个联合训练分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个联合训练估计分离语音；

根据所述待训练的语音识别器获取的联合训练语音识别特征以及所述多个联合训练估计分离语音，基于联合训练损失函数计算所述联合训练混合语音样本的联合训练损失；以及

基于所述联合训练损失来联合训练所述待训练的语音识别器以及所述待训练的语音分离器的参数，以生成经联合训练的语音识别器和语音分离器。

11.如权利要求8所述的方法，其中，所述预训练混合语音样本中包括的来自每个说话人的语音包括与该语音相对应的干扰语音，其中，所述干扰语音为来自其他说话人的语音。

12.一种基于神经网络的语音处理装置，包括：

输入模块，用于获取混合语音输入，所述混合语音输入包括来自多个说话人的语音；

编码器，用于对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列；

特征提取器，用于对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列，其中，所述第二混合语音特征序列与所述第一混合语音特征序列的维度相同；

语音识别器，包括投影器、嵌入提取器以及级联的多个语音识别块，所述语音识别器用于基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征，其中，由所述级联的多个语音识别块，对所述第二混合语音特征序列进行特征转换，以获取第一混合语音识别特征，由所述投影器，对所述第一混合语音识别特征进行投影，以获取第二混合语音识别特征，由所述嵌入提取器，对所述第二混合语音识别特征进行嵌入提取，以获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征；

语音分离器，用于基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示；以及

解码器，用于对所述多个分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音。

13.一种语音处理设备，包括：

处理器；和

存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-11中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-11中任一项所述的方法。