CN111081259A

CN111081259A - 基于说话人扩充的语音识别模型训练方法及系统

Info

Publication number: CN111081259A
Application number: CN201911311760.3A
Authority: CN
Inventors: 俞凯; 杜晨鹏
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-28
Anticipated expiration: 2039-12-18
Also published as: CN111081259B

Abstract

本发明实施例提供一种基于说话人扩充的语音识别模型训练方法。该方法包括：接收语音训练集，将训练数据输入至音频编码器，确定训练语音中各说话人的深度特征；将各说话人的深度特征输入至说话人分类器，确定各说话人的声谱特征，建立说话人声谱网络；基于说话人声谱网络模拟新的说话人声谱，生成新的说话人的模拟语音训练集；基于语音训练集以及模拟语音训练集训练语音识别模型。本发明实施例还提供一种基于说话人扩充的语音识别模型训练系统。本发明实施例通过对说话人建模，建立说话人声谱网络，在声谱网络中采样出丰富的说话人信息，生成新的说话人语音，提升了语音训练集的多样性，提升了语音识别模型鲁棒性，降低了语音识别的词错率。

Description

基于说话人扩充的语音识别模型训练方法及系统

技术领域

本发明涉语音识别领域，尤其涉及一种基于说话人扩充的语音识别模型训练方法及系统。

背景技术

语音识别系统的性能和所使用的训练数据量密切相关。使用越充足的数据，往往可以得到越高的性能。使用语音合成来进行语音识别数据的扩充是一种很有效的数据增强方案。它仅仅使用文本进行语音合成，之后将合成的数据作为语音识别的训练数据，从而实现语音识别系统性能的提升。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

在低资源语音识别任务中，训练数据中只包含少量的说话人，现有方法通过数据增强获得的语音数据，虽然能提高语音训练数据的数量，但是无法提高训练数据中说话人的种类，由于训练数据中说话人个数十分有限，从而使得合成数据中所包含的说话人数量较少，所覆盖的音频变化不够丰富，使得语音识别系统鲁棒性较差。

发明内容

为了至少解决现有技术中在训练语音识别模型时，无法提高说话人的数量和种类，使得语音识别系统的鲁棒性较差的问题。

第一方面，本发明实施例提供一种基于说话人扩充的语音识别模型训练方法，包括：

接收语音训练集，将所述训练数据输入至音频编码器，确定训练语音中各说话人的深度特征；

将所述各说话人的深度特征输入至说话人分类器，确定各说话人的声谱特征，建立说话人声谱网络；

基于所述说话人声谱网络模拟新的说话人声谱，生成新的说话人的模拟语音训练集；

基于所述语音训练集以及所述模拟语音训练集训练所述语音识别模型。

第二方面，本发明实施例提供一种基于说话人扩充的语音识别模型训练系统，包括：

深度特征确定程序模块，用于接收语音训练集，将所述训练数据输入至音频编码器，确定训练语音中各说话人的深度特征；

声谱网络建立程序模块，用于将所述各说话人的深度特征输入至说话人分类器，确定各说话人的声谱特征，建立说话人声谱网络；

新说话人生成程序模块，用于基于所述说话人声谱网络模拟新的说话人声谱，生成新的说话人的模拟语音训练集；

模型训练程序模块，用于基于所述语音训练集以及所述模拟语音训练集训练所述语音识别模型。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于说话人扩充的语音识别模型训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的基于说话人扩充的语音识别模型训练方法的步骤。

本发明实施例的有益效果在于：通过对说话人建模，建立说话人声谱网络，在声谱网络中采样出丰富的说话人信息，生成新的说话人语音，提升了语音训练集的多样性，提升了语音识别模型鲁棒性，降低了语音识别的词错率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于说话人扩充的语音识别模型训练方法的流程图；

图2是本发明一实施例提供的一种基于说话人扩充的语音识别模型训练方法的低资源ASR数据扩充体系结构示意图；

图3是本发明一实施例提供的一种基于说话人扩充的语音识别模型训练方法的swbd和callhm测试集上的WER字错误率示意图；

图4是本发明一实施例提供的一种基于说话人扩充的语音识别模型训练方法的对应于同一转录的一组mel谱示意图；

图5是本发明一实施例提供的一种基于说话人扩充的语音识别模型训练方法的5小时swbd和callhm测试字错误率示意图；

图6是本发明一实施例提供的一种基于说话人扩充的语音识别模型训练方法的50小时swbd和callhm测试字错误率示意图；

图7是本发明一实施例提供的一种基于说话人扩充的语音识别模型训练方法的作为TTS文本的ASR性能示意图；

图8是本发明一实施例提供的一种基于说话人扩充的语音识别模型训练系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种基于说话人扩充的语音识别模型训练方法的流程图，包括如下步骤：

S11：接收语音训练集，将所述训练数据输入至音频编码器，确定训练语音中各说话人的深度特征；

S12：将所述各说话人的深度特征输入至说话人分类器，确定各说话人的声谱特征，建立说话人声谱网络；

S13：基于所述说话人声谱网络模拟新的说话人声谱，生成新的说话人的模拟语音训练集；

S14：基于所述语音训练集以及所述模拟语音训练集训练所述语音识别模型。

在本实施方式中，主要利用低资源数据训练语音合成系统，再使用变分编码器建模说话人的信息，从而创建新的说话人，进而合成出新的说话人的训练语音。例如，项目立项，要训练一种小语种语音识别系统。由于小语种语音不易获得，通过网络、或者其他途径只能获取少量的语音训练数据。

对于步骤S11，接收这些少量不易获得的语音训练数据，将所述训练数据输入至音频编码器，确定训练语音中各说话人的深度特征，也可以理解为确定各说话人的潜在特征，以便于在后续的步骤中，通过在各说话人的潜在特征中采样，来合成新的说话人的语音。

在本实施方式中，所述音频编码器包括：

用于提取多种深层特征的卷积层，

用于提高不发音字符鲁棒性的长短时记忆单元网络。

进一步地，所述长短时记忆单元网络包括：1层单向长短时记忆单元网络或2层双向长短时记忆单元网络。可以根据具体需求在这两种长短时记忆单元网络进行选择。如果语音训练数据较少，建议使用1层单向长短时记忆单元网络，确保新说话人的语音训练数据生成，如果语音训练数据相对较多，可以使用2层双向长短时记忆单元网络，其建模能力更强，可以处理更加丰富的音频变化。

对于步骤S12，将在步骤S11中确定各说话人的深度特征输入至说话人分类器，确定每个说话人的声谱，比如说，由于语音训练数据数量较少，说话人的类型也不多，只有深沉男声和稚嫩童声，确定这些男声和童声的声谱，将确定出来的声谱，建立一个大的说话人声谱网络，网络中分布着各种说话人的声谱特征。

在本实施方式中，所述说话人分类器由线性网络构成，用于提高说话人声谱特征的输出。

对于步骤S13，基于在步骤S12建立的说话人声谱网络，模拟出新的说话人声谱，例如，可以通过高斯空间采样，生成新的说话人，丰富了说话人的数量以及类型，从而生成了新的说话人的模拟语音训练集，例如生成了原本语音训练集中没有的女声。

对于步骤S14，基于已有的语音训练数据，和生成的新的说话人的模拟语音训练集来训练语音识别模型。

通过该实施方式可以看出，通过对说话人建模，建立说话人声谱网络，在声谱网络中采样出丰富的说话人信息，生成新的说话人语音，提升了语音训练集的多样性，提升了语音识别模型鲁棒性，降低了语音识别的词错率。

作为一种实施方式，在本实施例中，所述基于所述语音训练集以及所述模拟语音训练集训练所述语音识别模型包括：

分别在第一数量的语音训练集和第二数量的模拟语音训练集提取相同数量的数据训练所述语音识别模型，其中，第一数量小于第二数量。

在本实施方式中，由于生成的新的说话人的模拟语音训练集的数量较多，远超过已有的少量不易获得的语音训练数据。如果两个不平衡数据集的简单混合中训练ASR可能会导致对合成语音的严重偏见，为了避免这种情况，将这两部分数据按照1:1的比例混合使用，从而使其训练的模型在真实使用中，保持良好的性能。

对本方法进行具体的说明，本方法提高了训练数据说话人类型较低时，训练语音数据中说话人的多样性，让语音识别模型识别效果更准确，鲁棒性更强。本方法的语音训练集由文本和mel(梅尔谱)序列对(X,Y)＝{(x_i,y_i)}组成。每句语音都有说话人标签s_i。TTS(Text-to-speech，文本到语音合成模型)基于Tacotron2(声谱预测网络)。为了提高合成语音中说话人的多样性，将潜在变量z用作说话人嵌入，而不是来自说话人嵌入表的向量。Z的先验分布是各向同性标准高斯N(0,I)。

音频编码器设计用于将梅尔频谱图映射到两个向量，分别表示潜变量(表示为q(z|y))的后验概率分布的均值和对数方差。Tacotron2的条件是训练中从q(z|y)和p(z)采样的z。

在资源匮乏的任务中，TTS模型倾向于忽略潜在变量并且不学习说话人信息。在本方法中，为音频编码器添加了一个线性层，用于与TTS联合训练的说话人分类。它接受z作为输入，并输出说话人类别预测C(s；z)。因此，鼓励音频编码器产生包含说话人信息的z，有助于模型收敛。

应用以上技术，可以将TTS训练的损失函数表述为：

L^TTS＝E_q(z|y)[logp(y；x，z)]+λ₁·D_KL[q(z|y)||N(0，I)]+λ₂·CE[C(s；z)，s]

其中λ₁和λ₂是超参数，用于调整三个项之间的相对权重。第一项表示生成的质谱图和相应目标之间的重建损失。第二项是q(z|y)和N(0，I)之间的KL发散。最后一项表示说话人后方和说话人标签之间的交叉熵损失。

如图2所示，为本方法策略的完整架构。给定资源不足的数据集，首先与上述可变自动编码器一起训练TTS模型。然后，合成其他文本的语音以进行数据增强。从潜在空间采样的虚拟说话人中随机选择每种说话的说话人，以尝试在合成数据中提供说话人多样性。

最后得到一个小的实际数据集和一个大型的合成数据集。在两个不平衡数据集的简单混合中训练ASR(Automatic Speech Recognition，自动语音识别)可能会导致对合成语音的严重偏见，而本方法只关心ASR如何对真实数据执行。因此，将两个部分按1：1比例混合使用，在真实数据上保持良好的ASR性能，并利用综合数据进行概括。此外，尝试将本方法与SpecAugment相结合以进一步改进。具体来说，SpecAugment将时间扭曲和频率屏蔽应用于真实数据和合成数据。

对本方法进行试验，总机语料库(LDC97S62)包含大约260个小时的8kHz 16位电话对话。实验是在总机的一部分上完成的，模拟了资源不足的情况。使用eval2000作为包含两个分区的文本集，即swbd文本集和callhm文本集。

使用电话序列作为输入，而不是字符序列。还将说话人嵌入投影层添加到其编码器，解码器和post网络模块，从而实现多说话人训练和生成。使用包含42种类型的非静音电话的总机词典从输入的电话序列转换为字符序列。输出的80维mel频谱图是从50ms窗口偏移12.5ms来计算的。应用前向注意机制来加快收敛速度，并使用Griffin-Lim算法从预测的80维梅尔谱图中重建波形。

音频编码器被设计为对资源较少的任务很简单。它将梅尔频谱图映射到两个向量，分别表示512维潜在变量z的后验概率分布的均值和对数方差。

输入的Mel频谱图通过三个卷积层，分别包含512个形状为3×1、9×1和3×1的滤波器。紧随其后的是256个单位的LSTM层和跨时间的平均池化层。这些层的输出被线性投影以预测z的后均值和对数方差。从训练中的q(z|y)和推理中的p(z)中采样说话人嵌入(即本工作中的z)，从而调节TTS生成。

如果直接在低资源ASR数据集上训练模型，则TTS模型很难收敛，因此首先使用LJSpeech语料库初始化TTS模型20个时期，其中包含大约24小时阅读单个女性的语音说话人。初始化之后，我们在低资源ASR数据集上将模型训练为最大等式1，其中λ1＝10和λ2＝0.1。使用亚当优化器，其初始学习率为10-，β₁＝0.9，β₂＝0.99。每2000步验证一次模型，并且只要验证集上的重建损失不减少，学习率就会减半。

为了提高推理的稳定性，在自回归解码的注意力计算中使用了开窗技术。具体来说，只考虑一个子序列。

整个比对序列α的[α_k-1，α_k，α_k+1，α_k+2]，其中α_k是α中的最大值。自回归解码中的另一个问题是，由于输入序列较长或合成错误，模型无法结束。因此，为了避免这种情况，将最大解码步骤设置为1000。对于所有实验，所有达到最大解码步长的话语都将被丢弃。

根据训练基于变压器的序列到序列(S2S)ASR模型。它以具有音调特征的83个昏暗的对数梅尔滤波器组帧为输入序列，并输出一个字节对编码(BPE)序列。输入由两层2D卷积和256个滤波器(步幅大小2和内核大小3)进行二次采样，然后与正弦位置编码连接，并通过12层Transformer块，带有4个自动关注头和256个隐藏大小。编码器输出用于CTC和解码器。解码器包含6层Transformer块和一个线性投影层，用于预测下一个BPE的后验分布。ASR训练的损失函数公式为：

L^ASR＝-α·logp_s2s(x；y)-(1-α)·logp_ctc(x；y)

其中α是一个超参数，用于调整S2S和CTC损失之间的相对权重。为所有实验设置α＝0.8。真实数据和合成数据都用于ASR训练。使用Adam优化器，β₁＝0.9，β₂＝0.98，初始学习率为5.0。

对于训练结果，首先给出一个上限，该上限使用所有260小时总机数据进行ASR培训。然后，假设只有5个小时的总机数据可用，其中包含25个说话人。使用5个小时的数据训练TTS系统，并仅使用转录来合成总机的其余部分(约255个小时的语音)。在基准系统中，从5小时真实数据中出现的25个说话人中随机选择每个合成话语的说话人。本方法能够从潜在空间中采样看不见的新说话人，即虚拟说话人，从而改善了合成语音中说话人的多样性。对各种虚拟说话人进行采样，以进行数据增强，并对真实和合成数据进行ASR训练。结果如图3所示。通常，随着对更多虚拟说话人的采样，ASR性能得以提高。当使用300个虚拟说话人时，在swbd和callhm测试集上均达到了最佳结果，相对于基准系统分别降低了6.5％和7.7％的相对WER。

图4展示了一组Mel谱图，它们对应于低资源训练集中未包含的相同转录。正如所期望的，图4(b)与(a)类似，而(c)在持续时间和基频上与(a)和(b)不同。

SpecAugment是一种强大的ASR数据增强方法。进一步研究当SpecAugment合并时ASR是否能从本方法中获益。SpecAugment的F和T分别设置为30和40，m_F和m_T都设置为2，W设置为5。如图5所示，与如图3相比，获得的相对功率降低较小。这部分是因为SpecAugment还带来了语音数据的多样性，并导致了更强的基线注意到在资源极低的情况下只使用SpecAugment进行数据扩充并没有得到改善，在图5中省略了这个结果。

然后，探讨当有更多真实数据可用时的情况。具体来说，将实际数据增加到50小时，并且仍然应用SpecAugment。图6表明，相对于swbd和callhm的基线，相对WER分别降低了7.3％和5.1％，表明当SpecAugment合并时，ASR仍然受益于本方法，特别是当有更多的真实数据可用时。

尽管转录的训练数据通常是有限的，但通过因特网或其他来源获得文本要容易得多。因此，研究当TTS文本增加时，本方法如何执行。仍然假设50小时转录的交换台数据可用，然后使用交换台转录和来自Fisher语料库(ldc204t19和ldc205t19)的附加文本进行语音合成。从300个虚拟说话人中随机抽取每个话语的合成语音。然后，应用SpecAugment对实际数据和合成数据进行ASR训练。实验结果如图7所示。使用Fisher提供的250万单词的附加文本后，可以进一步降低16.3％/26.7％的WER。与没有任何数据增强的系统相比，使用SpecAugment的说话人增强显著降低了30％的相对功耗，而使用SpecAugment的系统则降低了18％的相对功耗。图7还表明，当使用更多文本时，功率降低趋于收敛。

本方法提高了ASR的性能。然后发现当SpecAugment合并时，ASR仍然受益于本方法，特别是当有更多的真实数据可用时。最后，实验表明，增加TTS的文本可以提高ASR的效率。此外，当使用更多的文本时，降低功率收敛。

如图8所示为本发明一实施例提供的一种基于说话人扩充的语音识别模型训练系统的结构示意图，该系统可执行上述任意实施例所述的基于说话人扩充的语音识别模型训练方法，并配置在终端中。

本实施例提供的一种基于说话人扩充的语音识别模型训练系统包括：深度特征确定程序模块，声谱网络建立程序模块12，新说话人生成程序模块13和模型训练程序模块14。

其中，深度特征确定程序模块11用于接收语音训练集，将所述训练数据输入至音频编码器，确定训练语音中各说话人的深度特征；声谱网络建立程序模块12用于将所述各说话人的深度特征输入至说话人分类器，确定各说话人的声谱特征，建立说话人声谱网络；新说话人生成程序模块13用于基于所述说话人声谱网络模拟新的说话人声谱，生成新的说话人的模拟语音训练集；模型训练程序模块14用于基于所述语音训练集以及所述模拟语音训练集训练所述语音识别模型。

进一步地，所述音频编码器包括：

用于提取多种深层特征的卷积层，

用于提高不发音字符鲁棒性的长短时记忆单元网络。

进一步地，所述说话人分类器由线性网络构成，用于提高说话人声谱特征的输出。

进一步地，所述长短时记忆单元网络包括：1层单向长短时记忆单元网络或2层双向长短时记忆单元网络。

进一步地，所述模型训练程序模块用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于说话人扩充的语音识别模型训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的基于说话人扩充的语音识别模型训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于说话人扩充的语音识别模型训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于说话人扩充的语音识别模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述音频编码器包括：

用于提取多种深层特征的卷积层，

用于提高不发音字符鲁棒性的长短时记忆单元网络。

3.根据权利要求1所述的方法，其中，所述说话人分类器由线性网络构成，用于提高说话人声谱特征的输出。

4.根据权利要求2所述的方法，其中，所述长短时记忆单元网络包括：1层单向长短时记忆单元网络或2层双向长短时记忆单元网络。

5.根据权利要求1所述的方法，其中，所述基于所述语音训练集以及所述模拟语音训练集训练所述语音识别模型包括：

6.一种基于说话人扩充的语音识别模型训练系统，包括：

7.根据权利要求6所述的系统，其中，所述音频编码器包括：

用于提取多种深层特征的卷积层，

用于提高不发音字符鲁棒性的长短时记忆单元网络。

8.根据权利要求6所述的系统，其中，所述说话人分类器由线性网络构成，用于提高说话人声谱特征的输出。

9.根据权利要求7所述的系统，其中，所述长短时记忆单元网络包括：1层单向长短时记忆单元网络或2层双向长短时记忆单元网络。

10.根据权利要求6所述的系统，其中，所述模型训练程序模块用于：