CN111899727A

CN111899727A - 用于多说话人的语音识别模型的训练方法及系统

Info

Publication number: CN111899727A
Application number: CN202010680303.8A
Authority: CN
Inventors: 钱彦旻; 张王优
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-06
Anticipated expiration: 2040-07-15
Also published as: CN111899727B

Abstract

本发明实施例提供一种用于多说话人的语音识别模型的训练方法。该方法包括：将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型，获得多个说话人的高维特征序列表示；基于上下文嵌入提取器，确定多说话人的单通道混合语音特征中每个说话人的上下文嵌入表示，组成上下文混合嵌入序列表示，将上下文混合嵌入序列表示分别与多个说话人的高维特征序列表示拼接，确定每个说话人的拼接高维特征序列表示；基于注意力机制的解码器对每个说话人的拼接高维特征序列表示进行解码输出每个说话人的预测说话文本。本发明实施例还提供一种用于多说话人的语音识别模型的训练系统。本发明推进鸡尾酒会场景下的语音识别问题的解决，提高语音识别效果。

Description

用于多说话人的语音识别模型的训练方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种用于多说话人的语音识别模型的训练方法及系统。

背景技术

近年来，随着越来越多的研究集中在更真实场景下的语音处理，端到端多说话人语音识别已经成为一个热门话题。对于语音识别通常会使用端到端单通道多说话人语音识别、基于说话人嵌入表示的目标说话人语音识别。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

端到端单通道多说话人语音识别：由于同时存在多人说话的语音信号，该模型仅能利用混合语音的信息，在训练时缺少单个说话人的语音信息，较难训练出好的效果，与单说话人语音识别系统相比性能差距较大。

基于说话人嵌入表示的目标说话人语音识别：虽然识别效果相比端到端单通道多说话人语音识别有提升，但只能针对事先已知混合语音中的特定说话人信息的情况，如果在测试时无法获知输入混合语音中的说话人信息，则该方法对识别没有帮助。

发明内容

为了至少解决现有技术中在训练时缺少对应混合语音的单个说话人的语音，没有提供额外的信息，仅能利用输入的混合语音，使得模型的语音识别效果较差，基于说话人嵌入表示的目标说话人语音识别需要提供仅包含目标说话人的干净语音才能提供相应的说话人嵌入表示，而在测试阶段往往无法得到关于输入语音中的说话人信息，使得语音识别效果较差的问题。

第一方面，本发明实施例提供一种用于多说话人的语音识别模型的训练方法，包括：

将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型，获得所述多个说话人的高维特征序列表示，其中，所述训练数据还包括：所述多说话人的单通道混合语音特征中每个说话人的实际说话文本；

基于预训练的上下文嵌入提取器，确定所述多说话人的单通道混合语音特征中，每个说话人的上下文嵌入表示，将所述每个说话人的上下文嵌入表示逐帧拼接，组成上下文混合嵌入序列表示，将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接，利用连接时序分类模块确定每个说话人的拼接高维特征序列表示，以避免排列不确定；

基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码，语音识别模型输出每个说话人的预测说话文本；

基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练，以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。

第二方面，本发明实施例提供一种用于多说话人的语音识别模型的训练系统，包括：

高维特征确定程序模块，用于将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型，获得所述多个说话人的高维特征序列表示，其中，所述训练数据还包括：所述多说话人的单通道混合语音特征中每个说话人的实际说话文本；

序列表示拼接程序模块，用于基于预训练的上下文嵌入提取器，确定所述多说话人的单通道混合语音特征中，每个说话人的上下文嵌入表示，将所述每个说话人的上下文嵌入表示逐帧拼接，组成上下文混合嵌入序列表示，将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接，利用连接时序分类模块确定每个说话人的拼接高维特征序列表示，以避免排列不确定；

预测说话文本程序模块，用于基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码，语音识别模型输出每个说话人的预测说话文本；

训练程序模块，用于基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练，以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于多说话人的语音识别模型的训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于多说话人的语音识别模型的训练方法的步骤。

本发明实施例的有益效果在于：本方法的语音识别模型在训练中，不需要针对每个说话人单独提供其干净的语音样本，因此无论是训练还是测试阶段都能直接使用，没有明显的失配问题。也解决了每个人的上下文嵌入表示和编码器输出的多个高维音频特征进行配对，就会存在的排列不确定性问题。使得语音识别模型更好地处理实际生活中多人同时说话的场景，推进鸡尾酒会场景下的语音识别等问题的解决，提高语音识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的流程图；

图2是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的结合上下文嵌入表示的单通道多说话人语音识别框架结构图；

图3是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的上下文嵌入表示提取器模块的网络架构与训练框架结构图；

图4是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的上下文嵌入在2个说话人混合WSJ语料库上的性能(平均词错误率WER)(％)数据图；

图5是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的上下文嵌入在2个说话人混合WSJ语料库上的不同嵌入集成位置的性能(平均词错误率WER)(％)数据图；

图6是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的上下文嵌入在2个说话人混合的WSJ语料库上的不同训练策略的性能(平均词错误率WER)(％)数据图；

图7是本发明一实施例提供的一种用于多说话人的语音识别模型的训练系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的流程图，包括如下步骤：

S11：将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型，获得所述多个说话人的高维特征序列表示，其中，所述训练数据还包括：所述多说话人的单通道混合语音特征中每个说话人的实际说话文本；

S12：基于预训练的上下文嵌入提取器，确定所述多说话人的单通道混合语音特征中，每个说话人的上下文嵌入表示，将所述每个说话人的上下文嵌入表示逐帧拼接，组成上下文混合嵌入序列表示，将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接，利用连接时序分类模块确定每个说话人的拼接高维特征序列表示，以避免排列不确定；

S13：基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码，语音识别模型输出每个说话人的预测说话文本；

S14：基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练，以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。

在本实施方式中，在端到端单通道多说话人语音识别模型的基础上，考虑了结合额外的上下文嵌入表示信息，从而进一步提升语音识别的性能。

对于步骤S11，训练数据包括了多个说话人的单通道混合语音，提取出多个说话人的单通道混合语音的语音特征，还需要准备每个说话人的实际说话文本。例如混合语音可以直接从实际中采集，每个说话人的实际说话文本可以由音频采集人员识别出混合语音中每个说话人的实际说话文本。

将多说话人的单通道混合语音特征(对数梅尔滤波器组系数)输入至语音识别模型模型当中，通过语音识别模型获得多个说话人的高维特征序列表示。

在本实施方式中，所述语音识别模型包括：语音特征的编码器，基于注意力机制的解码器，连接时序分类模块；

其中，所述语音特征的编码器包括：

混合语音编码器，用于单通道混合语音特征的特征采样，

说话人编码器，用于从所述单通道混合语音特征的特征采样中分别提取对应于每个说话人的中间特征，

识别编码器，用于将所述中间特征转换成每个说话人的高维特征序列表示；

所述基于注意力机制的解码器用于将所述高维特征序列表示转换为文本序列；

所述连接时序分类模块用于辅助训练所述语音特征的编码器，同时也用于辅助在置换不变性训练方法中确定高维特征序列表示与每个说话人的目标说话文本之间的排列顺序。

在本实施方式中，结合上下文嵌入表示的单通道多说话人语音识别框架如图2所示，首先通过语音特征的编码器将多说话人的单通道混合语音特征投影到高维空间，得到高维空间的特征序列表示。

编码器由三个部分组成，依次是混合语音编码器(用于初步的采样和特征映射)、说话人相关的编码器1和2(从混合语音编码器的输出中分别提取对应于每个说话人的中间特征)、识别编码器(将中间特征转换成最终的高维特征表示，用于语音识别)。

“特征投影”就是将输入的混合语音的特征(如滤波器组特征)进行某种投影变换(通过神经网络完成)，得到在新的特征空间下的表示，这个过程称作特征投影。

对于步骤S12，在语音识别之前，需要预先训练上下文嵌入提取器，这里是考虑到，使用类似人类听觉机制的额外上下文信息来提升多说话人语音识别的性能，基于预训练的上下文嵌入提取器，确定多说话人的单通道混合语音特征中，每个说话人的上下文嵌入表示，通过对每个说话人的上下文嵌入表示逐帧拼接，这样将多个说话人的上下文嵌入表示，合并成一个单独的上下文混合嵌入序列表示。

然后将它逐帧拼接到图2左侧语音识别模型的编码器输出上面，用于后续的解码器进行识别，确定每个说话人的拼接高维特征序列表示，来避免多个说话人的高维特征序列表示与上下文混合嵌入序列表示拼接的排列不确定。

对于步骤S13，基于注意力机制的解码器模块负责将从编码器得到的特征序列表示转换到文本序列；同时，连接时序分类(CTC)模块作为一个辅助任务，帮助模型更好的学习输入和输出之间的对齐，同时也用于在置换不变性训练方法中，确定标注的排列方式。

所述基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码，语音识别模型输出每个说话人的预测说话文本包括：

基于注意力机制的解码器将所述每个说话人的拼接高维特征序列表示转换为每个说话人的预测文本序列；

将所述每个说话人的文本序列，转换成所述每个说话人的预测说话文本。

语音识别模型最终的输出为解码器输出的2个说话人语音所对应的标签(即2个输出标签，标签可以理解为语音对应的文本，但经过字典映射过了，方便计算机处理)，真实标签是实现人工标注好的每个单人语音对应的文本(并经过字典映射后的结果)。

对于步骤S14，基于预先准备的每个说话人的实际说话文本以及语音识别模型的预测说话文本对所述语音识别模型进行置换不变性训练，其中，置换不变性方法(PIT)是一种用来解决多个预测标签(输出标签)与多个真实标签配对的算法。在本例中，模型在处理混合语音时，会分别输出2个说话人语音所对应的标签，但是在训练时需要能够计算每个输出标签与相应的真实标签的误差，而我们并不知道模型的2个输出标签实际分别对应的是哪个说话人(比如预测的两个标签向量分别是P1和P2，真实标签是Y1和Y2，我们不知道应该P1-Y1，P2-Y2还是P1-Y2，P2-Y1)，所以采用了置换不变性方法来帮助配对。

输出排列就是通过置换不变性方法之后得到的标签排列，比如输出排列为1,0则代表当前索引处P1对应Y2，P2对应Y1，若输出排列为0,1则相反。通过对语音识别模型的训练，进而使所述每个说话人的预测说话文本趋近于对应的实际说话文本。

通过该实施方式可以看出，本方法的语音识别模型在训练中，不需要针对每个说话人单独提供其干净的语音样本，因此无论是训练还是测试阶段都能直接使用，没有明显的失配问题。也解决了每个人的上下文嵌入表示和编码器输出的多个高维音频特征进行配对，就会存在的排列不确定性问题。使得语音识别模型更好地处理实际生活中多人同时说话的场景，推进鸡尾酒会场景下的语音识别等问题的解决。

要注意的是，语音识别任务与语音分离任务是不同的任务/领域，语音分离任务的模型采用了单个的编码器来对混合语音进行编码，因此加入上下文嵌入表示时只需要分别对同一个混合语音高维特征拼接不同人的上下文嵌入表示即可，而语音识别模型采用了能够处理多人信息的编码器结构，它的输出是从混合语音中提取的对应每个说话人的高维音频特征。这时如果要将每个人的上下文嵌入表示和编码器输出的多个高维音频特征进行配对，就会存在排列不确定性问题。

作为一种实施方式，在本实施例中，在所述将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接之前，所述方法还包括：

通过注意力机制确定所述上下文混合嵌入序列表示对于所述多个说话人的高维特征序列表示的权值；

基于所述多个说话人的高维特征序列表示的权值分别对所述上下文混合嵌入序列表示加权，将加权后的上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接，以提高语音识别效果。

在本实施方式中，在拼接上下文嵌入表示之前，先在上下文嵌入表示和语音识别模型的编码器输出之间通过注意力机制计算一个加权之后的上下文嵌入表示，然后再进行拼接。这样可以达到更好的效果，但是注意力机制的设计需要较为精细的调整，可以根据具体的项目需求进行适当调整。

作为一种实施方式，在本实施例中，所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得，包括：

通过端到端语音识别编码器分别提取所述多个说话人各自的干净语音中的理想上下文特征；

将由所述多个说话人各自的干净语音生成的混合音频的幅度谱作为所述上下文嵌入提取器的输入，输出多个说话人各自的预测上下文特征；

基于所述多个说话人各自的所述理想上下文特征以及所述预测上下文特征对所述上下文嵌入提取器进行训练。

在本实施方式中，上下文嵌入表示提取器模块的网络架构与训练框架如图3所示，其中图中间部分展示了上下文嵌入表示提取器的网络结构，它类似于语音识别中的编码器结构，也由3个编码器模块组成，但不同的是，上下文嵌入表示提取器的网络结构可以是与语音识别中相同的循环神经网络(比如双向长短期记忆BLSTM)，也可以是前向网络(比如卷积神经网络CNN)。图中还展示了上下文嵌入表示提取器的训练过程，其训练标签是从单说话人语音识别的编码器模块输出中得到的对应于每个说话人的上下文嵌入表示，单说话人语音识别的编码器是从预先训练好的语音识别模型中直接获得的，其输入为与混合语音相对应的每个说话人的平行干净语音数据，输出为对应每个说话人语音的上下文嵌入表示。在训练上下文嵌入表示提取器时，损失函数为提取器输出的上下文嵌入表示和单说话人语音识别编码器输出的上下文嵌入表示之间的L1范数损失函数；而且由于存在多对模型预测输出和标签，因此计算损失函数时也和语音识别类似地用到了置换不变性训练(PIT)方法。

通过该实施方式可以看出，上下文嵌入表示提取器不仅适用于端到端单通道多说话人语音识别，也可以拓展到多通道多说话人语音识别中，并且在训练和测试时都可以使用同样的上下文信息提取器来提供额外信息，使得模型具有较好的泛化能力，在更加复杂的真实环境中能取得鲁棒和更好的识别性能。

对本方法进行具体说明，基本的端到端单声道多说话人ASR(Automatic SpeechRecognition，自动语音识别)系统，这是本方法的基准模型。通过在编码器中引入分离级并在目标函数中应用置换不变训练，它将基于CTC(Connectionist TemporalClassification，连接时序分类)/注意力的联合编解码器系统扩展到多说话人情况。可以在图2的左侧说明模型体系结构，但是没有上下文知识的其他信息。

首先，将J个说话人的输入语音混合O送入多说话人编码器，在此将其显式分离为J个向量序列，每个向量代表一个说话人源。多说话人编码器模块由三个阶段组成，即Encoder_Mix，Encoder_SD和Encoder_Rec，如下所示：H＝Encoder_Mix(O)，

G^j＝Encoder_Rec(H^j)，j＝1，…，J

然后将编码的表示G^j送入联合CTC/注意模块，该模块以多任务方式进行训练。具有置换不变性训练的CTC目标函数不仅用作联合训练编码器的辅助任务，而且还可以解决等式中所示的标签歧义问题：

其中P表示{1，...，J}上所有可能置换的集合，π(j)是置换π∈P中的第j个元素，Y^j表示CTC根据表示G^j计算的输出序列，R是输入混合物中J说话人的参考标签集。

然后，在基于注意力的解码器中使用具有最小CTC损失函数的最佳排列

来确定每个解码器输出的参考标签。对于每对表示和参考标记索引

解码过程可以表述为：

其中，下标n表示解码的第n个时间步长，h_n-1是参考标签序列Rπ(j)或预测标签序列Y^j中的第(n-1)个元素。在训练期间选择h_n-1的技术也称为计划抽样，可以用以下等式描述：

h～Bernoulli(p)，

其中历史信息h_n-1按概率p从预测中获取，按概率(1-p)从真实标签中获取。

系统的最终损失函数定义为两个目标的组合：

其中λ是插值因子，0≤λ≤1。

本方法描述了用于改进端到端单通道多说话人ASR系统的建议方法。首先，提出了一种利用上下文语言嵌入学习的新颖方法。接下来，将介绍多阶段训练和嵌入采样策略，它们可以进一步改善所提出的体系结构。

单声道多说话人语音识别比单说话人情况更具挑战性，因为从输入混合语音中分离出多个语音流是一个不确定的问题，其中语音流的组合数量是无限的。当人类从混合语音中识别目标说话人时，除了音频信号本身之外，人类还将利用上下文相关的信息来更好地区分目标说话人的语音。受到这种人为机制的启发，我们还希望探索用上下文信息来识别多说话人的混合语音的方法。

一种简单的方法是利用来自单说话人端到端ASR系统的中间表示，其输入是混合中的平行单说话人语音。原始的单说话人语音可以输入到经过预训练的ASR模型中，并且编码器的输出可以视为嵌入了该语音的上下文信息。

尽管以这种方式获取上下文嵌入进行训练是可行的，但以相同的方式进行测试却无法获得上下文嵌入，因为通常没有原始的干净语音。为了解决这个问题，需要直接从混合语音中估算每个说话人的上下文嵌入。在本方法中，设计了一种新颖的知识蒸馏方法来学习混合语音的上下文嵌入。与传统的知识蒸馏工作不同，传统的知识蒸馏工作通常会迫使学生模型模仿教师模型的输出分布，我们在单说话人上下文嵌入标签和预测的多说话人上下文嵌入之间进行知识蒸馏，使得上下文嵌入预测模型学习单说话人ASR的编码器输出的嵌入表示。

图3说明了用于学习混合语音上下文嵌入的知识蒸馏框架。教师模型是预训练的端到端单说话人ASR系统的编码器模块，该模块将每个说话人的对应干净语音作为输入并输出相应的表示形式

学生模型是上下文嵌入预测模型，其结构与基线ASR模型的编码器类似。它由三个阶段组成：混合编码器Encoder_Mix首先将输入混合物O编码为中间表示H_S，由J个独立的说话人-差分(SD)编码器Encoder_SD进一步处理。不同SD编码器的输出

对应于混音中的不同说话人。最后，识别编码器Encoder_Rec，S将特征

转换为高级表示

目标是直接从混合物中学习两个说话人的个体上下文表示，因此知识蒸馏的损失函数可以表述为：

其中

是通过置换不变训练使L_ctx最小化的最佳排列，而平滑l1-loss用于计算最终损失。需要注意，图3中的模型是分别训练的，然后用于为图2中的多个说话人的ASR模型提供上下文嵌入。

图2显示了新提出的多说话人ASR体系结构，该体系结构将上下文嵌入集成到ASR模型中。主要区别在于编码器输出，可以将其表示为：

G^j′＝Concat(G^j，G_context)，j＝1，…，J，

α∈{T，S}，

其中G^j是在等式中生成的表示。Concat(·)表示逐帧拼接。需要注意的是，上下文嵌入G_context可以来自单说话人教师编码器(α＝T)，也可以来自多说话人ASR训练中的上下文嵌入预测模型(α＝S)，但是在测试中只能使用预测的上下文嵌入。

在本步骤中，介绍两种增强的训练策略，以进一步提高模型性能。

第一种训练策略将训练过程分为两个阶段。在第一阶段，通常会在没有上下文嵌入的情况下完成多说话人ASR模型的几轮训练。然后在第二阶段，如图3所示利用上下文嵌入，并继续训练模型直至收敛。我们的动机是，上下文嵌入本身已经包含了足够的声学信息以供识别，因此过早地涉及这些功能可能会导致多说话人编码器不能得到充分训练，而对于训练而言可能不是最佳选择。因此，我们提出了一种两阶段训练策略，允许在引入上下文嵌入之前对多说话人ASR模型进行适度的训练，这可以防止模型滥用或过分强调上下文信息。

第二种训练策略在训练中同时利用了单说话人ASR编码器的理想上下文嵌入和预测模型的预测上下文嵌入，而在测试中仅使用了预测上下文嵌入。在训练期间，从等式中的伯努利分布中随机抽样，确定上下文嵌入的来源。更具体地说，上下文嵌入按概率p来自理想上下文嵌入，以及按概率(1-p)来自预测上下文嵌入。我们将此策略称为“嵌入采样”，它与计划采样技术有一些相似之处。它还可以缓解训练与测试之间的不匹配，并增强了上下文中建议的多通话者ASR模型的通用性嵌入。

为了评估本方法的性能，使用了人工生成的单通道两说话人混合语音数据集，该数据集基于《华尔街日报》(WSJ0)语音语料库。

在本步骤中，首先描述这项工作中的实验设置。然后介绍并讨论了在生成的WSJ0-2mix数据集上的实验结果。使用MERL发布的工具对WSJ0-2mix数据集进行了人工模拟。生成的样本的采样率为16kHz。在每个样本中，一个说话人相对于另一个说话人的SNR从[-5,5]dB中均匀采样，训练集、开发集和测试集的时长分别为88.2小时，1.1小时和0.9小时。

所有模型的输入特征都是80维对数梅尔滤波器组系数，每帧具有音高特征，以及它们的一阶和二阶差异。使用Kaldi工具包提取特征，并将其归一化为零均值和单位方差以进行训练。

图2中使用的多说话人编码器以及图3中用于上下文嵌入预测的学生模型由两个VGG样式的CNN块(Encoder_Mix)，一个由带有投影的双向长短期记忆(BLSTMP)组成的说话人编码器(Encoder_SD)和由两个共享的BLSTMP层组成的识别编码器(Encoder_Rec)。图3中的单说话人ASR教师模型的编码器具有相似的结构，具有两个VGG样式的CNN块，其后是三个BLSTMP层。多说话人和单说话人ASR模型的解码器均由具有300个单元的单个单向长短期记忆(LSTM)层组成。所有网络均基于带有PyTorch后端的ESPnet框架构建。

在训练阶段，使用ρ＝0.95和的AdaDelta优化器，以及等式中的插值因子。设置为λ＝0.2。在解码阶段，引入了单词级别循环神经网络语言模型(RNNLM)进行记录，该模型在WSJ0 SI-84的转录文本上进行了预训练，并具有包含1000个单元的单个LSTM层。插值因子λ设置为0.3，而RNNLM的权重设置为1.0。关于知识蒸馏学习，使用与相同的单说话人ASR教师模型，该模型在原始WSJ0语料库上进行了训练。但是只有编码器模块用于以后的知识蒸馏，在实验中，计划抽样和嵌入抽样的概率分别为p＝0.4和p＝0.7。

对所有模型进行了最多15个轮次的训练，并选择了在开发集上具有最佳性能的模型进行最终评估。

首先评估基线端到端模型和所提出的基于上下文嵌入的新模型的性能，并在生成的混合语音测试集上进行测试。结果显示在图4中。第一个基线是端到端多说话人ASR基线系统，表示为PIT-E2E，且未使用计划采样技术。它以强制使用教师信息的方式进行了训练，其中等式中的历史信息h_n-1始终来自真实标签。我们还对PIT-E2E应用了计划抽样，如图4中的第二行所示，它是第二基线。从图4中可以看出，PITE2E模型的性能在训练过程中应用计划采样后可以略微改善，因为它可以减轻训练过程中因强制使用教师信息而导致的训练与推断阶段的差异。因此，默认情况下，我们提出的所有方法都将在训练期间应用计划采样。

然后，我们评估了我们提出的上下文嵌入方法的上限，其中训练和测试中的上下文嵌入都来自单说话人教师编码器，表示为上下文(理想)。如图4所示，利用上下文信息后，开发集和测试集的性能都得到了显著改善，在开发集和测试集上的词错误率相对改进分别超过15％和27％。但是，这样的上下文嵌入并非总是可用于解码阶段，因为需要来自每个说话人的平行干净语音。因此，我们进一步评估了使用预测模型提供的上下文嵌入的性能，表示为上下文(预测)，该上下文嵌入不依赖于平行数据进行测试。尽管在将预测的嵌入与理想嵌入进行比较时可以观察到性能下降，但它仍然明显优于基线方法，在开发集和测试集上分别有12％和17％的相对改进。

最后使用的上下文嵌入方法在最后一个编码器层(Encoder_Rec)之后进行嵌入集成。在本步骤中，将进一步研究不同位置如何影响所提出方法的性能。训练和评估了在混合编码器(Encoder_Mix)之后集成上下文嵌入的多说话人ASR模型，这是一个相对较浅的集成级别，结果如图5所示。我们可以看到，与Encoder_Rec之后相比，将上下文嵌入集成在混合编码器之后时性能会急剧下降。因此，合适的嵌入集成位置对于所提出的方法非常重要，在下面的实验中，我们将在Encoder_Rec之后使用集成。

在本步骤中，我们将进一步探讨不同的训练策略，以优化上下文嵌入的使用。图6显示了使用不同策略训练的模型的性能。如我们所见，与带上下文嵌入的基本训练过程相比，这两种所提出的训练策略仍可以带来适度且一致的改进。如图6的最后一行所示，进一步研究了两种所提出的训练策略的组合。可以看到，性能进一步提高，与基线模型相比，最终词错误率WER相对减少了约25％。这证明了本方法的有效性。

本方法提出了一种新颖的基于上下文嵌入的多说话人语音识别框架，该框架能够直接从输入混合语音中学习上下文嵌入，从而改进多说话人ASR系统。此外还研究了不同的嵌入集成位置，并设计了两种训练策略来进一步提高性能。新的体系结构可以使系统模仿人类的做法，利用音频和上下文信息来聚焦和分离混合语音中的每个目标说话人。在人工生成的两个说话人混合语音语料库上的实验结果表明，该方法可以显著提高多说话人的语音识别性能。

如图7所示为本发明一实施例提供的一种用于多说话人的语音识别模型的训练系统的结构示意图，该系统可执行上述任意实施例所述的用于多说话人的语音识别模型的训练方法，并配置在终端中。

本实施例提供的一种用于多说话人的语音识别模型的训练系统包括：高维特征确定程序模块11，序列表示拼接程序模块12，预测说话文本程序模块13和训练程序模块14。

其中，高维特征确定程序模块11用于将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型，获得所述多个说话人的高维特征序列表示，其中，所述训练数据还包括：所述多说话人的单通道混合语音特征中每个说话人的实际说话文本；序列表示拼接程序模块12用于基于预训练的上下文嵌入提取器，确定所述多说话人的单通道混合语音特征中，每个说话人的上下文嵌入表示，将所述每个说话人的上下文嵌入表示逐帧拼接，组成上下文混合嵌入序列表示，将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接，利用连接时序分类模块确定每个说话人的拼接高维特征序列表示，以避免排列不确定；预测说话文本程序模块13用于基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码，语音识别模型输出每个说话人的预测说话文本；训练程序模块14用于基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练，以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。

进一步地，所述预测说话文本程序模块用于：

进一步地，所述语音识别模型包括：语音特征的编码器，基于注意力机制的解码器，连接时序分类模块；

其中，所述语音特征的编码器包括：

混合语音编码器，用于单通道混合语音特征的特征采样，

所述连接时序分类模块用于辅助训练所述语音特征的编码器，用于辅助在置换不变性训练方法中确定高维特征序列表示与每个说话人的目标说话文本之间的排列顺序。

进一步地，所述序列表示拼接程序模块用于：

进一步地，所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得，包括：

将由所述多个说话人各自的干净语音生成的混合音频的滤波器组系数特征作为所述上下文嵌入提取器的输入，输出多个说话人各自的预测上下文特征；

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于多说话人的语音识别模型的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于多说话人的语音识别模型的训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于多说话人的语音识别模型的训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于多说话人的语音识别模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码，语音识别模型输出每个说话人的预测说话文本包括：

3.根据权利要求1所述的方法，其中，所述语音识别模型包括：语音特征的编码器，基于注意力机制的解码器，连接时序分类模块；

其中，所述语音特征的编码器包括：

混合语音编码器，用于单通道混合语音特征的特征采样，

4.根据权利要求1所述的方法，其中，在将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接之前，所述方法还包括：

5.根据权利要求1所述的方法，其中，所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得，包括：

6.一种用于多说话人的语音识别模型的训练系统，包括：

7.根据权利要求6所述的系统，其中，所述预测说话文本程序模块用于：

8.根据权利要求6所述的系统，其中，所述语音识别模型包括：语音特征的编码器，基于注意力机制的解码器，连接时序分类模块；

其中，所述语音特征的编码器包括：

混合语音编码器，用于单通道混合语音特征的特征采样，

9.根据权利要求6所述的系统，其中，所述序列表示拼接程序模块用于：

10.根据权利要求6所述的系统，其中，所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得，包括：