CN116665705A

CN116665705A - 基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法

Info

Publication number: CN116665705A
Application number: CN202310627760.4A
Authority: CN
Inventors: 高盛祥; 杨元樟; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-29

Abstract

本发明涉及基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，属于语音信号处理技术领域。本发明借助中英文等富资源语种，将柬埔寨说话人音色，转为中英文说话人音色。柬埔寨多说话人语料库稀缺，常规方法实现柬埔寨语说话人迁移性能不佳。使用中英富资源扩充数据面临着语言特征、说话人音色特征难解耦的问题，本发明使用中英富资源语料库扩增说话人音色数据，构建跨语言特征解耦器，实现柬埔寨说话人音色有效转换为中英说话人音色而不改变柬埔寨语的语音内容，实验结果显示，本发明方法合成音频达到了3.81的MOS评分。实现了说话人音色的有效解耦及可控迁移。

Description

基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法

技术领域

本发明涉及基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，属于语音信号处理技术领域。

背景技术

说话人音色迁移任务，旨在不改变语言内容的情况下将源说话者的语音转为目标说话者的语音。这个任务可以从多个方向实现，例如语音合成(Text To Speech，TTS)和语音转换(Voice Conversion，VC)，两者本质都是从语音中解耦说话人音色，使得音色和语音内容任意组合(Hsu et al.,2018)。合成不同音色的柬埔寨语音，对语音合成及识别等任务的数据增强具有重要的支撑作用，还有着较为广阔的实际应用，如智能语音个性化定制、电影和游戏的配音、在线教育和智能家居等。

在基于中、英等大语种的说话人音色迁移及语音转换方面，已经取得了不错的研究成果，性能也在不断提高。语音转换任务可以表述为从源语音到目标语音的映射函数的回归问题，早期在说话人迁移及语音转换使用基于统计学方法，包括频率弯折和高斯混合模型，随着深度学习(Deep Learning，DL)技术的快速发展，由于其强大的特征学习和非线性映射能力近年来转换性能得到了显著提高。然而柬埔寨多说话人语料库稀缺，常规方法实现柬埔寨语说话人音色迁移性能不佳。本发明使用语音转换的方法实现说话人音色迁移任务，预借助中英文等富资源语种扩充数据，将柬埔寨说话人音色，转为中英文说话人音色。

发明内容

本发明提供了基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，以用于解决说话人音色特征难以解耦及音节丢失的问题、常规方法实现柬埔寨语说话人音色迁移性能不佳的问题。

本发明的技术方案是：基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，所述基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法的具体步骤如下：

Step1、收集一位柬埔寨语说话人语音数据和多位中英文说话人语音数据；具体的收集整理了柬埔寨、中文和英文三个语种的音频数据，其中柬埔寨语语音，首先通过爬虫从柬埔寨新闻网站上爬取柬埔寨文本，并让母语为柬埔寨语的专家对文本进行数据标注，获取柬埔寨语语音；中文和英文数据使用开源数据集ESD；

本发明总共使用320条柬埔寨语女声数据，训练集和验证测试集的数量分别为300条和20条，总时长约1小时，由一位柬埔寨女性录制。其他语音使用公共数据集BZNSYP(中文女声)和ESD数数据集中的010(中文男声)、014(英文男声)、015(英文女声)和016(英文女声)五位说话人的语音数据。语音数据转为为.wav格式，全部采样为22050Hz。

Step2、对语音数据进行预处理，将语音数据转换为梅尔谱图，提取梅尔谱图，梅尔谱图作为输入经过音色转换器进行训练；

Step3、训练模型，模型有三个模块构成：音色转换器、音色判别器和语种分类器；音色判别器和语种分类器分别对语音中音色特征和语种特征进行相关建模，解耦语音中音色特征和语言说话人音色迁移中语种信息，与音色转换器同时进行训练；梅尔谱图作为模型的输入和输出，最终训练出音色转换器，能够将一个人音色的梅尔谱图转换为另一个人音色的梅尔谱图；

本发明最终要使用的模型仅有音色转换器，可音色转换器的训练，需要与音色判别器、语种分类器同时进行，因为仅使用音色转换器进行训练无法达到跨语言说话人音色解耦的目的，需要借GAN网络对抗训练的思想，结合音色判别器和语种分类器进行联合训练。

Step4、在步骤Step3的基础上，训练过程中，在音色转换器中融入时频域正则化模块，弥补不同语种在音色转换器中丢失的信息；

Step5、将经过音色转换器输出的梅尔谱图，用mel-gan声码器将谱图转换为音频。

作为本发明的进一步方案，所述Step2中，对语音信号进行频谱分析是语音转换处理中的一种重要方法，语音信号整体上是一个非平稳过程，故对语音数据进行预处理包括进行采样和量化处理，将连续的语音信号离散化，再通过短时傅里叶变换进行时频分解，通过梅尔滤波将音频转变为梅尔谱图，然后对梅尔谱图进行归一化处理，最后保存为.np文件，以供训练和测试使用。其中，梅尔谱图已经包含语音中的各种特征，包括语音的内容、语音的音色、语音的音调、语音的能量等；

作为本发明的进一步方案，所述Step2中，音色转换器具体用于将源说话人音色转换为目标说话人音色，梅尔谱图作为输入经过音色转换器进行训练包括：

(1)音色转换器训练时将输入的梅尔谱图首先使用掩码屏蔽一部分内容；因为进行转换的只有语音信号中的音色信息，而使用掩码可以让模型能够更好的学习到这种音色函数映射关系，推理时则不使用掩码，其输入输出都是梅尔谱图；

(2)先从源音频中提取音色特征，再将音频特征转换为目标音色特征，梅尔谱图作为输入经过音色转换器进行训练。

作为本发明的进一步方案，所述Step2中，音色转换器包括下采样模块和上采样模块；

所述下采样模块用于将高维梅尔谱图特征映射为低维进行特征的提取；上采样模块将低维特征映射为高维进行特征的转换。

作为本发明的进一步方案，所述Step3中的音色判别器，用于与音色转换器配合进行对抗训练，用于提取音频中音色特征，把语音特征从高维映射为低维进行特征提取，配合音色转换器，利用对抗训练的思想解耦说话人音色特征，在训练阶段利用下列方式进行训练：

式中X表示源说话人，Y表示目标说话人，x表示输入的源梅尔谱图，y表示目标说话人梅尔谱图且x∈X，y∈Y，表示训练X转Y的音色转换器和音色判别器的对抗损失，G_X→Y表示由X音色转换为Y音色的音色转换器，D_Y表示目标说话人Y的音色判别器，/>和/>分别表示说话人Y和X的梅尔谱图服从某一个可学习的分布；最小化/>来训练音色判别器识别Y说话人音色的能力，最小化/>来训练音色转换器将X音色转为Y音色的能力。

作为本发明的进一步方案，所述Step3中的语种分类器，即跨语言特征解耦器，用对抗说话人语种分类器实现跨语言语音转换音色解耦，它与音色判别器和音色转换器共同训练，它包括五个卷积层，两个全连接层，一个softmax层以及梯度反转层；该语种分类器将音色转换器生成的目标说话人的梅尔谱图作为输入，通过卷积后将梅尔谱图从高位映射为低维，为了稳定训练，对梯度进行了裁剪，以最小化CE损失来对说话人的语言进行解耦，语种分类损失如下：

l_lan＝CE(C_lan(G_X→Y),y_lan) (2)

其中C_lan表示对抗说话人语种分类器，G_X→Y表示音色转换器，y_lan表示说话人的语种,由于使用三个语种，因此y_lan∈{0,1,2}。

作为本发明的进一步方案，所述Step4中，时频域正则化模块TFAN是音色转换器上采样中的子模块，这个模块是对IN的拓展，以调整输入梅尔谱图下采样后数据的权重和偏差，同时弥补在下采样后丢失的某些语音信息；对于已经经过下采样后的数据f，TFAN以类似于IN的方式对其进行正则化，然后使用权重系数γ(x)和偏差β(x)对数据进行调制，这两个系数都是使用CNN从输入的源梅尔谱图计算得出的；TFAN计算方式如下为：

其中，x表示输入的源梅尔谱图，f表示的是经过下采样后的数据，f^′表示经过时频正则化模块输出的数据，μ(f)和σ(f)表示f的均值和方差；γ(x)和β(x)是由x经过卷积计算得到的权重系数和偏差。

本发明的有益效果是：

1、本发明使用GAN网络，构建跨语言特征解耦器，通过对抗学习最大化语言特征分类器误差项，达到柬埔寨语与中英多说话人数据集下说话人音色有效解耦及可控分离的目的；

2、由于柬埔寨语音节音调变化更丰富，导致转换出的语音质量低，甚至还会出现某些音节丢失的情况，极大影响了合成语音的流畅性与自然性，因此还在音色转换器中融入时频域正则化模块(time-frequency adaptive normalization，TFAN)防止转换语音中的信息丢失，实现柬埔寨说话人音色有效转换为中英说话人音色而不改变柬埔寨语的语音内容；

3、本发明借助中英文等富资源语种，将柬埔寨说话人音色，转为中英文说话人音色，使用中英富资源语料库扩增说话人音色数据，构建跨语言特征解耦器，实现柬埔寨说话人音色有效转换为中英说话人音色而不改变柬埔寨语的语音内容，实验结果显示，本发明方法合成音频达到了3.81的MOS评分；实现了说话人音色的有效解耦及可控迁移；

4、可以有效的提升跨语言说话人迁移性能，在音色转换器中加入TFAN可以有效弥补在下采样中丢失的语音说话人声纹信息和音节信息，利用跨语言特征解耦器，能够让模型从不同语种中学习到语言的差异，从而从语音中更好的解耦出内容、音色与语种特征，表明该方法的有效性，增强语音质量自然度和可理解性。

附图说明

图1为本发明中的流程图。

具体实施方式

实施例1：如图1所示，基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，所述方法的具体步骤如下：

Step1、收集一位柬埔寨语说话人语音数据和多位中英文说话人语音数据；

本发明收集整理了柬埔寨、中文和英文三个语种的音频数据，其中柬埔寨语语音，首先通过爬虫从柬埔寨新闻网站上爬取柬埔寨文本，并让母语为柬埔寨语的专家对文本进行数据标注，获取柬埔寨语语音；中文和英文数据使用开源数据集ESD；

Step2、对收集到的数据进行数据集与测试集划分，比例为9：1，对语音数据全部采样为22050Hz，对语音数据进行采样和量化处理，将连续的语音信号离散化，再通过短时傅里叶变换进行时频分解，通过梅尔滤波将音频转变为梅尔谱图，然后对梅尔谱图进行归一化处理，最后保存为.np文件，以供训练和测试使用，梅尔谱图作为输入经过音色转换器进行训练；

音色转换器具体用于将源说话人音色转换为目标说话人音色，梅尔谱图作为输入经过音色转换器进行训练包括：

(1)音色转换器训练时将输入的梅尔谱图首先使用掩码屏蔽一部分内容；其中将需要训练的数据随机进行掩码，得到用于训练的数据测试数据则不进行掩码；

音色转换器包括下采样模块和上采样模块；音色转换器由下采样和上采样两个模块组成，这些模块都是由一系列卷积和池化模块构成，

所述下采样模块用于将高维梅尔谱图特征映射为低维进行特征的提取，这一步可以理解为音色特征的提取；上采样模块将低维特征映射为高维进行特征的转换。

Step3、训练模型，将可用于训练的梅尔谱图输入模型中进行训练，模型有三个模块构成：音色转换器、音色判别器和语种分类器；音色判别器和语种分类器分别对语音中音色特征和语种特征进行相关建模，解耦语音中音色特征和语言说话人音色迁移中语种信息，与音色转换器同时进行训练；梅尔谱图作为模型的输入和输出，最终训练出音色转换器，能够将一个人音色的梅尔谱图转换为另一个人音色的梅尔谱图；

训练音色转换器，需要与音色判别器配合进行对抗训练达到理想的效果。由于跨语言的音色转换任务中，不同语种之间发音存在差异，若仅使用音色转换器和音色判别器进行训练会出现音色特征难以解耦及音节丢失的问题，该方法在训练时增加语种分类器(跨语言特征解耦器)进一步解耦跨语言中的音色特征，并在原有模型中融入TFAN防止转换梅尔谱图的信息丢失。

所述Step3中的音色判别器，用于与音色转换器配合进行对抗训练，用于提取音频中音色特征，其结构是也是由一系列卷积和池化模块构成，与音色转换器不同的是，该模块仅把语音特征从高维映射为低维进行特征提取，配合音色转换器，利用对抗训练的思想解耦说话人音色特征，在训练阶段利用下列方式进行训练：

l_lan＝CE(C_lan(G_X→Y),y_lan) (2)

其中C_lan表示对抗说话人语种分类器，G_X→Y表示音色转换器，y_lan表示说话人的语种,由于使用三个语种，因此y_lan∈{0,1,2}。为了避免其和音色判别器做同样的工作，所提到的语种分类器首先使用300条柬埔寨语单说话人数据和ESD数据集中10位说话人总共3000条中文语音和10位说话人总共3000条英文语音单独对语种分类器做预训练，训练整个模型时，将其学习率降低，进行微调。

Step4、在步骤Step3的基础上，训练过程中，在音色转换器上采样模块中融入时频域正则化模块，弥补不同语种在音色转换器中丢失的信息；结合步骤Step3，经过音色转换器输出的目标说话人梅尔谱图中分别输入到音色判别器与语种分类器中，用于对语音数据中的音色、内容和语种信息进行解耦，由此构造损失函数，共同训练，对网络权重进行调节；

所述Step4中，时频域正则化模块TFAN是音色转换器上采样中的子模块，这个模块是对IN(Instance normalization)的拓展，以调整输入梅尔谱图下采样后数据的权重和偏差，同时弥补在下采样后丢失的某些语音信息；对于已经经过下采样后的数据f，TFAN以类似于IN的方式对其进行正则化，然后使用权重系数γ(x)和偏差β(x)对数据进行调制，这两个系数都是使用CNN从输入的源梅尔谱图计算得出的；TFAN计算方式如下为：

Step5、音色转换器、音色判别器和语种分类器模块同时训练完成后，使用已经训练好的音色转换器，对测试数据进行验证，进行模型验证和使用时，仅需使用音色转换器，将测试数据进行同样的特征提取转为梅尔谱图后，输入到已经训练好的音色转换器中，此时会转为另一位说话人的梅尔谱图，将经过音色转换器输出的梅尔谱图通过mel-gan声码器将谱图转换回音频。mel-gan声码器是一个卷积神经网络模型，输入是梅尔谱图，输出是语音，该模型使用大量梅尔谱图-语音数据对训练后，已经开源成为一个可直接使用的工具。

为了说明本发明的效果，表1为使用本发明方法，对不同语种之间进行6组跨语言转换实验。

表2为只加入TFAN，只加入解耦器，和TFAN解耦器同时加入，对跨语言说话人迁移方法的影响。

表1使用不同说话人数据音色转换实验结果

表2：依次加入各个不同模块的对模型的最终实验结果柬(女)-中(女)

由表1和表2中的评测结果表明通过融入基于跨语言非平行语料库的语言特征解耦器(语种分类器)和TFAN的语音转换模型，在柬(女)-中(女)实验中，自然度与相似度评分分别达到了3.81和3.68，客观评分MCD和RMSE达到5.85和29.88。本发明所提出的方法，可以有效的提升跨语言说话人迁移性能，在音色转换器中加入TFAN可以有效弥补在下采样中丢失的语音说话人声纹信息和音节信息，利用跨语言特征解耦器，能够让模型从不同语种中学习到语言的差异，从而从语音中更好的解耦出内容、音色与语种特征，表明该方法的有效性，增强语音质量自然度和可理解性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，其特征在于：所述基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法的具体步骤如下：

2.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，其特征在于：所述Step2中，对语音数据进行预处理包括进行采样和量化处理，将连续的语音信号离散化，再通过短时傅里叶变换进行时频分解，通过梅尔滤波将音频转变为梅尔谱图，然后对梅尔谱图进行归一化处理，最后保存为.np文件。

3.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，其特征在于：所述Step2中，音色转换器具体用于将源说话人音色转换为目标说话人音色，梅尔谱图作为输入经过音色转换器进行训练包括：

(1)音色转换器训练时将输入的梅尔谱图首先使用掩码屏蔽一部分内容；

4.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，其特征在于：所述Step2中，音色转换器包括下采样模块和上采样模块；

5.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，其特征在于：所述Step3中的音色判别器，用于与音色转换器配合进行对抗训练，用于提取音频中音色特征，把语音特征从高维映射为低维进行特征提取，配合音色转换器，利用对抗训练的思想解耦说话人音色特征，在训练阶段利用下列方式进行训练：

6.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，其特征在于：所述Step3中的语种分类器，即跨语言特征解耦器，用对抗说话人语种分类器实现跨语言语音转换音色解耦，它与音色判别器和音色转换器共同训练，它包括五个卷积层，两个全连接层，一个softmax层以及梯度反转层；该语种分类器将音色转换器生成的目标说话人的梅尔谱图作为输入，通过卷积后将梅尔谱图从高位映射为低维，为了稳定训练，对梯度进行了裁剪，以最小化CE损失来对说话人的语言进行解耦，语种分类损失如下：

l_lan＝CE(C_lan(G_X→Y),y_lan) (2)

7.根据权利要求1所述的基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法，其特征在于：所述Step4中，时频域正则化模块TFAN是音色转换器上采样中的子模块，这个模块是对IN的拓展，以调整输入梅尔谱图下采样后数据的权重和偏差，同时弥补在下采样后丢失的某些语音信息；对于已经经过下采样后的数据f，TFAN以类似于IN的方式对其进行正则化，然后使用权重系数γ(x)和偏差β(x)对数据进行调制，这两个系数都是使用CNN从输入的源梅尔谱图计算得出的；TFAN计算方式如下为：

其中，x表示输入的源梅尔谱图，f表示的是经过下采样后的数据，f′表示经过时频正则化模块输出的数据，μ(f)和σ(f)表示f的均值和方差；γ(x)和β(x)是由x经过卷积计算得到的权重系数和偏差。