CN117079636A

CN117079636A - 一种基于注意力变分自编码器的短视频博主风格化语音合成方法

Info

Publication number: CN117079636A
Application number: CN202310878728.3A
Authority: CN
Inventors: 王元刚; 陈波; 段晓东
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-11-17

Abstract

一种基于注意力变分自编码器的短视频博主风格化语音合成方法，属于变分自编码器网络模型技术领域。这种风格化语音合成方法将短视频博主语音合成方法分为两个部分，一部分利用短视频博主视频构建风格化语音合成数据集，第二部分为通过一种基于注意力变分自编码器合成风格化语音。该方法通过加入新的iAFF注意力机制模块，建立基于β‑VAE方法的有监督注意力机制网络，通过标签属性可以直接合成风格化博主语音。

Description

一种基于注意力变分自编码器的短视频博主风格化语音合成方法

技术领域

本发明涉及变分自编码器模型技术领域，更具体地说，本发明涉及一种基于注意力变分自编码器的短视频博主风格化语音合成方法。

背景技术

语音合成技术是将文本转换为可被人类听懂的语音的技术。它利用计算机算法和声学模型的组合，将输入的文本转化为自然流畅的语音输出。随着计算机性能和语音合成算法的不断提升，语音合成系统变得更加复杂且输出质量更高。现如今，语音合成技术广泛应用于各个领域，如语音播报、虚拟博主语音合成等，为我们的日常生活带来了乐趣和便利。

传统的语音生成方法通常由前端和后端两个模块组成。前端模块负责对输入文本进行分析，提取后端模块所需的语言学信息，包括文本正则化、词性预测、多音字消歧、韵律预测等。后端根据前端的分析结果，采用特定的方法生成语音波形。

目前，语音合成通常采用端到端的方式，只需输入文本或注音字符，系统就可以直接生成相应的音频波形。然而，如果希望合成多种风格的声音，则需要具有不同说话人的声音样本以便合成，无法直接合成多种风格的声音。

发明内容

针对现有技术中出现的不足，本专利提出一种基于注意力变分自编码器的短视频博主风格化语音合成方法。基于注意力变分自编码器的短视频博主风格化语音合成方法能够生成多种风格化的声音。它根据提供的人物风格，无需提供特定说话人的声音样本，就能够合成多种风格化的语音。该方法还引入了大五人格和情感风格标签，使得可以合成具有多种不同人格和情感的声音。

本发明的基于注意力变分自编码器的短视频博主风格化语音合成分为两个部分。第一部分为利用短视频博主视频构建风格化语音合成数据集。第二部分为通过一种基于注意力变分自编码器生成短视频博主风格化语音。再采用Tacotron2生成模型从视频博主数据集中提取语音，并使用基于注意力的变分自动编码器将声音和短视频博主人物的属性相结合生成风格化的扬声器嵌入。然后使用Tacotron2模型基于这些语音嵌入合成语音。通过博主相关的属性特征，合成风格化的声音。

为实现上述目的，本发明采用的技术方案：一种基于注意力变分自编码器的短视频博主风格化语音合成方法，包括以下步骤:

S1.构建人脸-语音数据集，下载第一印象数据集，从第一印象视频数据集中提取人脸图片和对应的语音声音；

S2.获得人脸关键特征的轮廓检测图像，输入步骤S1中的人脸数据集图像，利用DeepFace多个人脸属性特征提取模型，从步骤S1中的人脸数据集图像提取人脸的情感、大无人格的属性特征，并对声音数据集采用X-Vector提取声音属性特征；

S3.构建基于β-VAE方法的有监督注意力机制网络，在编码器和解码器之间增加1个iAFF模块，结合注意力模块建立基于β-VAE方法的有监督注意力机制网络；

采用X-Vector提取的说话人嵌入特征通过编码器生成隐变量z，根据图像提取的说话人属性特征和隐变量z结合，然后经过iAFF注意力模块，再送入到解码器进行解码，经过解码器解码以后，生成说话人嵌入；

在β-VAE中添加condition，根据输入的属性条件合成风格化的语音，根据输入来进行输出，在训练集中是数据对(x,y)，y是输入，即condition；x是我们期待的输出；

模型损失函数如下：

L_cβvae＝-D_KL(q(z|x,y)||p(z|y))+β·E_q(z|x,y)(log(p(x|z,y)))

其中，D_KL是KL散度，使得编码器生成的隐变量尽可能符合标准正态分布，p代表真实向量，q代表结果向量，z代表隐向量，E_q(z|x,y)代表重构损失，是解码器解码得到的向量和输入向量之间的MSE损失，反映出VAE生成的结果和输入之间的差异，对应的目标是使VAE生成的结果和输入尽可能相似；

S4.以步骤S2得到的人脸属性特征和对应的声音特征作为训练数据集，使用Adam训练步骤S3构建的基于β-VAE方法的有监督注意力机制网络；

S5.输入属性特征值，根据步骤S2得到人脸属性特征和对应的声音特征，输入到步骤S4训练好的基于β-VAE方法的有监督注意力机制网络中生成语音嵌入；

S6.利用多说话人Tacotron2模型将步骤S5获得的风格化声音嵌入进行语音合成，合成声音。

步骤S2中，获得人脸属性特征和对应的语音特征包含如下步骤：

S2.1通过X-Vector提取声音特征：X-Vector接受任意长度的输入后将其转化为固定长度的特征表达；

S2.2根据脸型提取特征：采用MTCNN人脸检测模型来提取人脸标志以计算人脸形状，MTCNN网络结构是一个三级联级网络，分为P-Net、R-Net、和O-Net三层网络结构；在MTCNN的三层网络结构中，网络输出形式为是否是人脸、边框回归值以及人脸特征点坐标；模型的最终损失函数具体可以表示为：

L_mntcnn＝α_detL^det+α_boxL^box+α_landmarksL^landmarks

其中，α_detL^det是人脸分类损失使用交叉熵作为损失函数，α_boxL^box是边框回归值损失使用欧氏距离作为损失函数，α_landmarksL^landmarks是人脸特征点坐标损失，使用欧氏距离作为损失函数；

S2.3根据情感、年龄、性别提取特征，采用DeepFace框架提取多个属性特征值；

S2.4根据体重提取特征，采用BMI体重预测模型，从图像中预测人物的体重属性特征；

S2.5根据大五人格提取特征，采用的是第一印象的短视频博主数据集，数据集中包含大五人格特征的标注，直接使用大五人格的属性特征。3.根据权利要求1所述的一种基于注意力变分自编码器的短视频博主风格化语音合成方法，其特征在于，步骤S6利用Tacotron2模型将步骤S5获得的说话人风格化特征嵌入进行语音合成，生成的说话人特征嵌入经过Tacotron模型合成为我们所听到的声音，根据属性标签合成不同风格的语音。

本申请与现有技术相比具有以下优点：基于注意力变分自编码器的短视频博主风格化语音合成方法通过加入新的iAFF注意力机制模块，可以学习更全面的语音特征信息。该方法通过建立基于β-VAE方法的有监督注意力机制网络，使人物属性特征和说话人声音相结合，可以根据人物属性标签合成不同风格的说话人声音。

附图说明

图1是一种基于注意力变分自编码器的短视频博主风格化语音合成方法的流程图。

图2是一种基于注意力变分自编码器的短视频博主风格化语音合成方法的网络模型结构。

图3是一种基于注意力变分自编码器的短视频博主风格化语音合成方法的生成的效果图。

图4是合成后的声音效果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述：以此为例对本申请做进一步的描述说明。显然，所描述的实施例仅仅是本发明中的一部分实施例，而不是全部实施例。

图1示出了一种基于注意力变分自编码器的短视频博主风格化语音合成方法的流程图。这种基于注意力变分自编码器的短视频博主风格化语音合成方法具体包括以下步骤：

(1)构建人脸-语音数据集，下载第一印象数据集，从第一印象视频数据集中提取人脸图片和对应的语音声音；

(2)获得人脸关键特征的轮廓检测图像，输入步骤(1)中的人脸数据集图像，利用DeepFace等多个人脸属性特征提取模型，从步骤(1)中的人脸数据集图像提取人脸的情感、大无人格等属性特征，并对声音数据集采用X-Vector提取声音属性特征；

(3)构建基于β-VAE方法的有监督注意力机制网络，在编码器和解码器之间增加1个iAFF模块，结合注意力模块建立基于β-VAE方法的有监督注意力机制网络；

(4)以步骤(2)得到的人脸属性特征和对应的声音特征作为训练数据集，使用Adam训练步骤(3)构建的基于β-VAE方法的有监督注意力机制网络；

(5)输入属性特征值，根据步骤(2)得到人脸属性特征和对应的声音特征，输入到步骤(4)训练好的基于β-VAE方法的有监督注意力机制网络中生成语音嵌入；

(6)利用多说话人Tacotron2模型将步骤(5)获得的风格化声音嵌入进行语音合成，合成声音。

步骤(2)获得人脸属性特征和对应的语音特征包含如下步骤：

(2.1)通过X-Vector提取声音特征，X-Vector得益于其网络中的StatisticsPooling层，X-Vector可接受任意长度的输入，转化为固定长度的特征表达；

(2.2)根据脸型提取特征，采用MTCNN人脸检测模型来提取人脸标志以计算人脸形状，MTCNN网络结构是一个三级联级网络，总体可分为P-Net、R-Net、和O-Net三层网络结构，该模型采用了候选框加分类器的思想，能够同时兼顾速度与精度，实现快速高效的人脸检测，在MTCNN的P、R、O三个网络中，网络输出形式基本相同，均为是否是人脸、边框回归值以及人脸特征点坐标(在P-Net和R-Net中人脸特征点坐标没有实际意义)。模型的最终损失函数具体可以表示为：

L_mtcnn＝α_detL^det+α_boxL^box+α_landmarksL^landmarks

(2.3)根据情感、年龄、性别提取特征，采用DeepFace框架提取多个属性特征值，DeepFace是一个轻量级的人脸识别和面部属性分析(年龄，性别，情感)框架。它是一个混合人脸识别框架，包含最先进的模型：VGG-Face、Google FaceNet、OpenFace、DeepID、ArcFace和Dlib，在面部识别任务上的准确率为97.53％。

(2.4)根据体重提取特征，采用BMI体重预测模型，从图像中预测人物的体重属性特征。

(2.5)根据大五人格提取特征，采用的是第一印象的短视频博主数据集，这个数据集中包含大五人格特征的标注，可以直接使用大五人格的属性特征。

步骤(3)中，构建基于β-VAE方法的有监督注意力机制网络，生成器包含编码器、解码器，编码器和解码器之间增加一个iAFF模块，采用X-Vector提取的说话人嵌入特征通过编码器生成隐变量z，根据图像提取的说话人属性特征和隐变量z结合，然后经过iAFF注意力模块，再送入到解码器进行解码，经过解码器解码以后，生成说话人嵌入；在β-VAE中添加condition，可以根据输入的属性条件合成风格化的语音，根据输入来进行输出，在训练集中是数据对(x，y)，y是输入，也就是condition，x是我们期待的输出。

模型损失函数如下：

L_cβvae＝-D_KL(q(z|x，y)||p(z|y))+β·E_q(z|x，y)(log(p(x|z，y)))

其中，D_KL是KL散度，使得编码器生成的隐变量尽可能符合标准正态分布，E_q(z|x，y)代表重构损失，是解码器解码得到的向量和输入向量之间的MSE损失，反映出VAE生成的结果和输入之间的差异，对应的目标是使VAE生成的结果和输入尽可能相似。

步骤(6)利用Tacotron2模型将步骤(5)获得的说话人风格化特征嵌入进行语音合成，生成的说话人特征嵌入经过Tacotron模型合成为我们所听到的声音，可以根据属性标签合成不同风格的语音。

图2示出了一种基于注意力变分自编码器的短视频博主风格化语音合成模型结构。如图所示，该方法设计一个网络结构用于短视频博主风格化声音合成，在β-VAE的基础上，构建基于β-VAE方法的有监督注意力机制网络，在编码器和解码器之间增加1个iAFF模块，结合注意力模块建立基于β-VAE方法的有监督注意力机制网络。

将一组声音特征和对应的人物属性特征作为输入，通过基于注意力变分自编码器的短视频博主风格化语音合成的网络模型结构，得到说话人声音嵌入，再经过Tacotron模型就可以合成风格化的声音。图3显示在下层波动变化比较小的是大五人格为均值的一个声音信号图，显示在上层波动变化比较大的是调高了外向性和开放性的一个声音信号图，可以看出在调高了大五人格的开放性和外向性后，声音震动次数变多，音调变高，振幅变大，响度提高，证明了这种方法的可行性和有效性。在日常生活中男女生声音之间也是不一样的，女生声音的基频普遍是要比男生高的，图4左边是合成的男生的声音，右边是合成的女生的声音，从图中可以看出女生声音的基频要比男生声音的高。

Claims

1.一种基于注意力变分自编码器的短视频博主风格化语音合成方法，其特征在于，包括以下步骤:

模型损失函数如下：

L_cβvae＝-D_KL(q(z|x,y)||p(z|y))+β·E_q(z|x,y)(log(p(x|z,y)))

2.根据权利要求1所述的一种基于注意力变分自编码器的短视频博主风格化语音合成方法，其特征在于，步骤S2中，获得人脸属性特征和对应的语音特征包含如下步骤：

S2.2根据脸型提取特征：采用MTCNN人脸检测模型来提取人脸标志以计算人脸形状，MTCNN网络结构是一个三级联级网络，分为P-Net、R-Net、和O-Net三层网络结构；在MTCNN的三层网络结构中，网络输出形式为是否是人脸、边框回归值以及人脸特征点坐标；模型的最终损失函数具体可以表示为:

L_mtcnn＝α_detL^det+α_boxL^box+α_landmarksL^landmarks

S2.5根据大五人格提取特征，采用的是第一印象的短视频博主数据集，数据集中包含大五人格特征的标注，直接使用大五人格的属性特征。

3.根据权利要求1所述的一种基于注意力变分自编码器的短视频博主风格化语音合成方法，其特征在于，步骤S6利用Tacotron2模型将步骤S5获得的说话人风格化特征嵌入进行语音合成，生成的说话人特征嵌入经过Tacotron模型合成为我们所听到的声音，根据属性标签合成不同风格的语音。