CN113611293B

CN113611293B - 一种蒙古语数据集扩充方法

Info

Publication number: CN113611293B
Application number: CN202110955831.4A
Authority: CN
Inventors: 李晋益; 马志强; 张俊鹏
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-10-11
Anticipated expiration: 2041-08-19
Also published as: CN113611293A

Abstract

本发明公开了一种生成蒙古语音频的扩充方法，应用于语音识别技术领域，首先获取包含指定地区特征的蒙古语文本、指定地区特征以及带有真实音频的指定地区特征的蒙古语音频；然后构建指定地区对抗生成网络模型；最后对所述指定地区对抗生成网络模型进行对抗训练，并将所述带有真实音频的指定地区特征的蒙古语音频输入到经过训练的所述对抗生成网络模型进行处理，生成蒙古语扩充数据集。本发明将指定地区的蒙古语数据进行扩充，解决了收集蒙古语语料的经济成本高、时间消耗大和地区不均匀问题。

Description

一种蒙古语数据集扩充方法

技术领域

本发明涉及语音识别技术领域，更具体的说是涉及一种蒙古语数据集扩充方法。

背景技术

数据扩充是指原始数据集通过不同方法扩大数据集容量，得到更为适合当前应用环境的新数据集。训练语音识别模型需要充足的数据集，而数据扩充是在短时间内获取充足的有标注蒙古语数据集的可行方法之一。近年来，开源的有标注蒙古语数据集量级非常小，研究者通常需要在高校和企业的支持下采集数据。但是，采集数据集是一项经济成本高且时间消耗大的工作。想要在短时间内获得充足的数据量，数据扩充方法显得格外重要。

目前，语音扩充方法根据实现技术的不同分为两类。

(1)通过算法修改原始音频或语音特征进行扩充，如语速扰动、声带长度归一化、音频遮蔽。该类方法可以立刻生成音频，但为了取得优秀的生成音频通常需要人工不断调整。

(2)通过生成技术合成音频进行扩充，如噪音音频生成、房间模拟音频生成。该类方法通过合成技术生成新音频。研究主要集中在为现有音频添加特定任务需要的环境信息，但合成技术通常要求原始数据较为充足。

综上所述，现有的蒙古语数据集中有标注的蒙古语音频匮乏，且地区分布不均衡。语音识别模型使用当前蒙古语数据集会导致过拟合数据占比大的地区，基于注意力机制的序列到序列模型会过拟合。

因此，如何提供一种蒙古语数据集扩充方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种蒙古语数据集扩充方法，利用指定地区的生成对抗模型，得到蒙古语扩充数据集，平衡数据集地区分布，提高蒙古语语音识别模型的识别准确率。

为了实现上述目的，本发明提供如下技术方案：

一种蒙古语数据集扩充方法，包括：

获取包含指定地区特征的蒙古语文本、指定地区特征以及带有真实音频的指定地区特征的蒙古语音频；

构建指定地区对抗生成网络模型；

对所述指定地区对抗生成网络模型进行对抗训练，并将所述带有真实音频的指定地区特征的蒙古语音频输入到经过训练的所述对抗生成网络模型进行处理，生成蒙古语扩充数据集。

优选的，所述指定地区对抗生成网络模型包括：条件语音生成器以及多项融合判别器，所述条件语音生成器与所述多项融合判别器连接，所述条件语音生成器由合成器以及声码器组成；

其中，

所述生成器：根据所述蒙古语文本及所述指定地区特征得到构建蒙古语梅尔频谱图；

所述声码器：与所述生成器连接，根据所述蒙古语梅尔频谱图生成指定地区蒙古语音频；

所述多项融合判别器：根据所述蒙古语梅尔频谱图以及所述指定地区特征判别指定地区蒙古语音频是否为真实数据，生成所述蒙古语扩充数据集。

优选的，所述合成器包括依次连接的因果卷积层、编码层、注意力层、解码层和反卷积层；

其中，

所述因果卷积层用于降低所述蒙古语文本、所述指定地区特征以及所述蒙古语音频梅尔频谱图之间的信息量差；

所述编码层、所述注意力层及所述解码层用于从时间维度上映射输入特征和输出梅尔频谱图之间的关系；

所述反卷积层用于提升所述蒙古语音频梅尔频谱图的清晰度。

优选的，所述生成器根据指定地区特征和蒙古语文本得到蒙古语梅尔频谱图的分布，公式如下：

式中，z为指定地区特征，t蒙古语文本，x为蒙古语梅尔频谱图，p(x|z·t)为蒙古语梅尔频谱图的分布；

对蒙古语梅尔频谱图的分布进行建模，得到蒙古语梅尔频谱图特征，计算公式如下：

式中，*表示卷积操作，W_conv表示卷积核参数，W_enc表示LSTM编码参数，c表示注意力上下文，W_att表示注意力权重，g表示LSTM解码操作，

表示反卷积参数，

表示模型计算得到的蒙古语梅尔频谱图特征。

优选的，所述多项融合判别器由地区分类器以及清晰度分类器组成，所述地区分类器用于判别蒙古语音频发音地区，所述清晰度分类器用于判别蒙古语音频清晰度，得到判别结果，具体包括：

对所述带有真实音频的指定地区特征的蒙古语音频利用所述地区分类器以及清晰度分类器分别进行蒙古语音频发音地区以及蒙古语音频清晰度判别，若判别为真则加入真实蒙古语数据集X，若判别为假则舍弃，形成蒙古语扩充数据集。

优选的，所述地区分类器判别蒙古语音频发音地区的包括：

对所述蒙古语梅尔频谱图进行二维卷积计算，得到卷积特征；

对所述卷积特征进行池化处理；

根据卷积特征进行分类；

对每个地区分类计算概率值，取最大概率地区作为蒙古语音频发音地区判别结果，计算公式如下：

式中，x表示蒙古语梅尔频谱图，*表示卷积操作，Wconv表示卷积核参数，pool表示池化操作，W_fc表示全连接层参数，

表示地区分类判别的地区。

优选的，所述清晰度分类器判别蒙古语音频清晰度包括：

对所述卷积特征进行池化处理；

根据卷积特征进行分类；

对蒙古语音频清晰度计算分值，分值范围为[-1,1]，当分值高于设定的分值界限则认为符合清晰度要求，反之不符合，计算公式如下：

表示清晰度分类判别的清晰度。

优选的，所述多项融合判别器进行对抗训练的具体过程包括：

所述多项融合判别器使用真实的蒙古语数据集和多项融合判别器的随机参数W_D训练；

所述条件语音生成器使用蒙古语数据集和条件语音生成器的随机参数W_G训练；

根据条件语音生成器损失函数进行反向传播，更新条件语音生成器的随机参数W_G；根据多项融合判别器损失函数进行反向传播，更新多项融合判别器的随机参数W_D，循环n轮次。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种蒙古语数据集扩充方法，该对抗生成网络模型的生成器使用条件语音生成器，判别器由多相融合判断器组成。条件语音生成器根据蒙古语文本和指定地区特征生成蒙古语音频和梅尔频谱图。多项融合判别器根据梅尔频谱图和指定地区特征判别地区特征和清晰度。经过条件语音生成器和多项融合判断器相互对抗学习，最终条件生成器合成的指定地区蒙古语音频被多项融合判别器判定为真实数据。扩充数据集由所有被多项融合判别器判定为真的生成蒙古语音频组成。本发明将指定地区的蒙古语数据进行扩充，解决了收集蒙古语语料的经济成本高、时间消耗大和地区不均匀问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的蒙古语数据集扩充方法流程示意图；

图2为本实施例提供的对抗生成网络模型的结构示意图；

图3为本实施例提供的指定地区的生成对抗网络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1所示，本发明实施例公开了一种蒙古语数据集扩充方法，包括：

构建指定地区对抗生成网络模型；

对指定地区对抗生成网络模型进行对抗训练，并将带有真实音频的指定地区特征的蒙古语音频输入到经过训练的对抗生成网络模型进行处理，生成蒙古语扩充数据集。

具体的，蒙古语文本中的地区特征与蒙古语音频中的地区特征一致，均代表要扩充的目标地区特征。

参见附图2所示，在一个具体实施例中，指定地区对抗生成网络模型主要包括条件语音生成器和多项融合判别器，条件语音生成器与多项融合判别器连接，其中，条件语音生成器由合成器以及声码器组成，多项融合判别器由地区分类器以及清晰度分类器组成。

参见附图3所示，为本实施例提供的指定地区的生成对抗网络示意图，在一个具体实施例中，条件语音生成器构建指定地区条件下蒙古语文本和蒙古语音频之间的映射，考虑到蒙古语音频信息与蒙古语文本的信息量差，合成器构建蒙古语文本及地区特征与蒙古语梅尔频谱图之间的映射，声码器构建蒙古语梅尔频谱图与蒙古语音频之间的映射。在多项融合判别器中，多项融合判别器构建蒙古语梅尔频谱图与指定地区蒙古语音频分类的映射，为了完成判别蒙古语音频发音地区任务和判别蒙古语音频清晰度任务，多项融合判别器分为地区分类器和清晰度分类器，将条件语音生成器和多项融合判别器之间的对抗学习。条件语音生成器合成具有地区特征的蒙古语音频，而多项融合判别器去除不具备指定地区特点和足够清晰度的蒙古语音频，从而生成蒙古语扩充数据集。

在一个具体实施例中，条件语音生成器由合成器和声码器组成，合成器包括因果卷积层、LSTM编码层、注意力层、LSTM解码层和反卷积层组成。声码器采用Griffin-Lim算法将梅尔频谱图转换为蒙古语音频。

具体的，为了最大限度的还原音频，梅尔频谱图需要转换为时频谱。

在一个具体实施例中，条件语音生成器合成器在特定地区特征和蒙古语文本的条件下，对蒙古语梅尔频谱图的分布进行建模。其公式为：

式中，z为特定地区特征，t为蒙古语文本，x蒙古语梅尔频谱图，p(x|z·t)为蒙古语梅尔频谱图x的分布。

在一个具体实施例中，将获取的包含指定地区特征的蒙古语文本以及指定地区特征拼接成编码共同作为合成器的输入，合成器包括因果卷积层、LSTM编码层、注意力层、LSTM解码层和反卷积层组成。

具体的，因果卷积层可以降低蒙古语文本及地区特征和蒙古语音频梅尔频谱图之间的信息量差。

具体的，LSTM编码层、注意力层和LSTM解码层从时间维度上映射输入特征和输出梅尔频谱图之间的关系。

具体的，反卷积层能提升梅尔频谱图的清晰度。

具体的，计算公式为：

表示反卷积参数，

表示模型计算得到的蒙古语梅尔频谱图特征。

具体的，上述各层的初始参数均为随机生成，为了取得更好的建模效果还需要进行梯度下降算法(Gradient Descent Algorithm)修正模型参数。梯度下降算法需要的损失函数L的公式为：

在一个具体实施例中，声码器采用Griffin-Lim算法将梅尔频谱图转换为蒙古语音频。

具体的，为了最大限度的还原音频，梅尔频谱图需要转换为时频谱(Spectrogram)。时频谱保留每一帧的频率分布，但缺乏相位信息，即缺乏讯号波形变化信息。设P为相位谱，S为时频谱，X为语音波形信息，f代表傅里叶变换，f^-1是逆时傅里叶变换。具体算法步骤如下：

(1)随机初始化相位谱P；

(2)用时频谱S与相位谱P经过逆傅里叶变换f^-1合成新的语音波形信息X；

(3)用合成音频做傅里叶变换f，得到新的时频谱S_new和相位谱P_new；

(4)丢弃新的时频谱S_new，用原时频谱S和新的相位谱P_new合成新的语音波形信息X；

(5)重复若干轮步骤(3)到(4)，输出最后一轮得到的音频波形信息X；

在一个具体实施例中，为了完成判别蒙古语音频发音地区任务和判别蒙古语音频清晰度能力，多项融合判别器分为地区分类器和清晰度分类器。

具体的，地区分类器首先对梅尔频谱图进行二维卷积计算，得到卷积特征，每次卷积运算后，卷积特征应用修正线性单元(ReLU)转换将非线性规律引入模型中。接着，池化操作降低卷积特征的采样率，从而减少特征图的位数，同时仍保留关键的特征信息。然后，全连接层根据卷积提出的特征进行分类。最后，激活函数softmax对每一个地区分类计算概率值，取最大概率地区作为判定结果。

具体计算公式为：

式中，x表示蒙古语梅尔频谱图，*表示卷积操作，W_conv表示卷积核参数，pool表示池化操作，W_fc表示全连接层参数，

表示地区分类器判定的地区。

在一个具体实施例中，清晰度分类器和地区分类器设计类似，但最后激活函数换为sigmoid对蒙古语音频清晰度计算分值，分值范围为[-1,1]。当分值高于设定的分值界限则认为符合清晰度要求，反之不符合。

具体计算公式为：

表示清晰度分类判别的清晰度，

表示清晰度分类器判定的清晰度。

具体的，多项融合判别器先计算地区分类器，地区分类正确才计算清晰度分类器，否则直接返回不通过。若清晰度分类器结果

高于设定要求y，返回通过；否则仍返回不通过。于是，多相融合判别器的损失函数公式为：

在一个具体实施例中，指定地区对抗生成网络模型进行对抗训练的最终目标是：

式中，D为多项融合判别器，G为条件语音生成器，X为真实的蒙古音频，X_C表示作为条件语音生成器中表示条件的地区信息，Z代表指定地区的语音特征，W_D表示训练多项融合判别器时的随机初始化参数，W_G表示训练条件语音生成器时的随机初始化参数。

具体的，多项融合判别器D使用真实的蒙古语数据X集和随机参数W_D训练。

条件语音生成器G使用蒙古语数据集X和随机参数W_G训练，通过指定地区特征z得到蒙古语扩充数据集Y，并被标注为假。根据条件语音生成器损失Loss_G进行反向传播，更新参数W_G，其中，损失公式为

多项融合判别器D对蒙古语扩充数据集Y区分，若判别为真，则加入数据集X；否则抛弃对应项。根据多项融合判别器损失Loss_D进行反向传播，更新多参数W_D，循环n轮次。将蒙古语数据X中标注为假的数据为蒙古语扩充数据集Y_Z。

在一个具体实施例中，由于现有数据集中包头市的蒙古语音频较少，因此，从现有的包头市蒙古语音频中提取包头市的地区特征，将该地区特征重构后与蒙古语本发明结合得到带包头市地区特征的文本，并送入条件语音生成器中的合成器生成带包头市地区特征的蒙古语频谱图，接着利用声码器将其转化成语音。生成对抗网络中的多项融合判别器利用真实的包头市蒙古语音频来判别生成的包头市蒙古语音频是否清晰，是否具有包头市的地区特征，通过计算对抗损失，不断调整条件语音生成器，使其生成带包头市地区特征的蒙古语音频，最终实现数据集扩充。

经由上述的技术方案可知，与现有技术相比，本发明提出的数据扩充方法能够平衡数据集地区分布，从而提高蒙古语语音识别模型的识别准确率。解决了当前蒙古语数据集中有标注的蒙古语音频匮乏，且地区分布不均衡的问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。