CN114283784A

CN114283784A - 一种基于视觉驱动的文本转语音的方法

Info

Publication number: CN114283784A
Application number: CN202111609326.0A
Authority: CN
Inventors: 王雯哲; 高岩; 郝虹; 王建华
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-05

Abstract

本发明提供一种基于视觉驱动的文本转语音的方法，属于文本转语音技术领域，本发明将文本转语音模型的输入扩展为不仅输入文本，而且输入面部视频，生成并输出与视频帧相匹配的语音，生成的音频不仅仅与视频同步，而且保留了与视频相同的韵律与停顿，并且可以从视频信号中推断停顿与声音的变化，该方法可以应用于制作高质量的拼音视频，而无需耗费大量的人力物力在专业环境中重新录制配音。给定说话者的文本和对应的视频帧，模型经过训练，模型并不是只关注嘴巴的区域，而是提取全脸的视觉信息语文本信息相匹配，从而生成语音。

Description

一种基于视觉驱动的文本转语音的方法

技术领域

本发明涉及文本转语音技术领域，尤其涉及一种基于视觉驱动的文本转语音的方法。

背景技术

目前在视频配音领域中，需要演员拍摄完成后，再到专业的配音环境中重新录制对话以提高音频的质量，而且有时需要不用的音色配音，这将耗费非常多的时间去做后期的同步与配音。

传统的文本转语音引擎生成的自然语音，是通过端到端的神经网络生成像人类语音的自然语音，但是该方法生成的语音语调与模型训练数据集有关，不能自然地进行变换。大多数方法由三个主要组件组成:一个编码器将输入文本转换成一系列隐藏的表示，一个解码器产生声音表示，如梅尔谱图从这些，最后一个声编码器构建波形的声音表示。

广义的语音韵律定义为“语音信号的变化，包括语音信号、说话者身份和通道效应。”由于韵律建模的困难，标准的文本-语音(TTS)方法往往被训练成中性语言。目前很多学者在控制和传递TTS音频的韵律方面做了很大的努力，比如通过在编码的输入音频序列和全局风格标记(gst)之间使用一个多头注意模块创建了一种风格嵌入，在推断时，它们从文本构建样式嵌入以支持样式控制，或从其他音频构建样式转移；或者使用了变分自编码器(VAE)潜表示说话风格，在推断中纵潜嵌入或，它们通过操从参考音频中获取潜嵌入来改变说话风格。自动配音的一种常见方法是生成或修改视频帧以匹配给定的音频语音片段。

目前使用的端到端的TTS模型，输入只有文本信息，通过编码器和解码器生成人的声音，但是这种方法生成的人的声音是固定的韵律和声调。

发明内容

为了解决以上技术问题，本发明提供了一种基于视觉驱动的文本转语音的方法，通过该方法生成的音频不仅仅是简单的文本转语音，而是生成具有同步视频的音频。

本发明的技术方案是：

一种基于视觉驱动的文本转语音的方法，

通过使用视频帧作为附加输入到文本转语音模型中，提取视频帧中的人脸信息与文本中的特征，生成与视频相匹配的语音，并且该语音具有与视频帧相同的韵律变化。

将文本转语音模型的输入扩展为不仅输入文本，而且输入面部视频。生成与输入视频的面部运动相匹配的语音，生成的音频不仅仅与视频同步，而且保留了与视频相同的韵律与停顿，并且可以从视频信号中推断停顿与声音的变化。

进一步的，

给定说话者的文本和对应的视频帧，文本转语音模型进行训练，文本转语音模型模型并不是只关注嘴巴的区域，而是提取全脸的视觉信息语文本信息相匹配，从而生成语音。

包括文本和视频编码器处理输入，然后是多源注意力机制，将这些输入连接到产生梅尔谱图的解码器，然后声码器从梅尔频谱图产生波形，从而生成音频。

进一步的，

具体包括(1)视频编码器，(2)文本编码器，(3)扬声器编码器，(4)具有多源注意力机制的自回归解码器，(5)声码器。

1)、视频编码器对视频中的整张脸进行特征编码而不是只是用嘴部区域编码；

2)、文本编码器派生自Tacotron2的文本编码器；每个音素首先嵌入到一个嵌入空间中，然后通过卷积层和Bi-LSTM层传递音素嵌入序列；

3)、扬声器编码器使用了一个冻结的、预先训练的扬声器嵌入模型，当在数据集中提供说话者ID时，生成每个话语的编码embedding，并对与说话者相关的所有话语进行平均和标准化；

4)、自回归解码器在被用作未来时间步长输入之前，将之前的解码器输出重构到512维空间；注意力模块；一个LSTM核心；以及post-net,用来预测最终梅尔谱图输出；

5)、自回归解码器接收视频编码器、文本音素编码器以及扬声器编码器生成的扬声器编码序列作为输入，生成语音信号的梅尔谱图；

6)、使用预训练的声码器生成音频波形。

具体原理内容如下：

1)、设Tx和Ty分别为输入视频帧和音素序列的长度；设Dw、Dh和Dc是帧的宽度、高度和通道数，De是音素嵌入的维度，P是音素集，输入为源视频帧序列x∈R_{Tx×Dw×Dh×Dc}和音素序列y∈P_Ty组成的输入对；

2)视频编码器接收一个帧序列作为输入，为每一帧生成一个隐藏表示h_x；文本编码器接收源音素并产生一个隐藏的表示h_y；

3)扬声器编码器d_i将扬声器映射到256维扬声器嵌入；

4)自回归解码器接收两个隐藏表示h_x和h_y以及说话人嵌入d_i作为输入，并使用注意力上下文预测合成语音的梅尔谱图z^t；

5)最后，使用冻结的预训练神经声码器将预测的梅尔谱图[z¹,z²,...,z^t]转换为波形。

附图说明

图1是本发明的工作流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明基于传统的文本语音转化模型模型，将其输入扩展为不仅输入文本，还输入面部视频帧，生成与输入视频的面部运动相匹配的语音，输出的音频不仅与视频同步，而且保留了原始韵律，包括可以从视频信号中推断出的停顿和音高变化，为制作高质量的配音视频提供了关键部分，相比于专注于嘴巴区域的标准视觉语音识别模型，使用全脸的特征以避免遗漏了说话者传递相关的信息。这为模型提供了足够的信息来生成语音，不仅与视频匹配，而且还恢复韵律的各个方面，例如时间和情感。

本发明主要包括由四个部分：文本和视频编码器处理输入、多源注意机制、将这些输入连接到产生梅尔谱图的解码器。

声码器从梅尔频谱图产生波形，从而生成音频，该架构包括(1)视频编码器，(2)文本编码器，(3)扬声器编码器，(4)具有多源注意力机制的自回归解码器,(5)声码器。

整体工作过程如图1所示。

1、视频编码器使用VGG3D，对视频中的整张脸进行特征编码而不是只是用嘴部区域编码；

2、文本编码器派生自Tacotron2的文本编码器。每个音素首先嵌入到一个嵌入空间中。然后通过卷积层和Bi-LSTM层传递音素嵌入序列；

3、扬声器编码器使用了一个冻结的、预先训练的扬声器嵌入模型。当在数据集中提供说话者ID时，我们生成每个话语的编码embedding，并对与说话者相关的所有话语进行平均和标准化；

4、使用基于RNN的自回归解码器，它由四个部分组成:

1)pre-net，一个全连接的网络，在它被用作未来时间步长输入之前，将之前的解码器输出重构到较低维度；2)注意力模块；3)一个LSTM核心；以及4)post-net,用来预测最终梅尔谱图输出；

5、解码器接收视频编码器h_x、文本音素编码器h_y以及扬声器编码器生成的扬声器编码序列d_i作为输入，生成语音信号z^t的梅尔谱图。

6、使用预训练的声码器生成音频波形。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于视觉驱动的文本转语音的方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，

将文本转语音模型的输入扩展为不仅输入文本，而且输入面部视频。

3.根据权利要求2所述的方法，其特征在于，

生成与输入视频的面部运动相匹配的语音，生成的音频不仅仅与视频同步，而且保留了与视频相同的韵律与停顿，并且可以从视频信号中推断停顿与声音的变化。

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

6)、使用预训练的声码器生成音频波形。

8.根据权利要求4所述的方法，其特征在于，

具体内容如下：

3)扬声器编码器d_i将扬声器映射到256维扬声器嵌入；