CN114283784A - 一种基于视觉驱动的文本转语音的方法 - Google Patents

一种基于视觉驱动的文本转语音的方法 Download PDF

Info

Publication number
CN114283784A
CN114283784A CN202111609326.0A CN202111609326A CN114283784A CN 114283784 A CN114283784 A CN 114283784A CN 202111609326 A CN202111609326 A CN 202111609326A CN 114283784 A CN114283784 A CN 114283784A
Authority
CN
China
Prior art keywords
text
video
input
encoder
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111609326.0A
Other languages
English (en)
Inventor
王雯哲
高岩
郝虹
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Original Assignee
Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong New Generation Information Industry Technology Research Institute Co Ltd filed Critical Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority to CN202111609326.0A priority Critical patent/CN114283784A/zh
Publication of CN114283784A publication Critical patent/CN114283784A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供一种基于视觉驱动的文本转语音的方法,属于文本转语音技术领域,本发明将文本转语音模型的输入扩展为不仅输入文本,而且输入面部视频,生成并输出与视频帧相匹配的语音,生成的音频不仅仅与视频同步,而且保留了与视频相同的韵律与停顿,并且可以从视频信号中推断停顿与声音的变化,该方法可以应用于制作高质量的拼音视频,而无需耗费大量的人力物力在专业环境中重新录制配音。给定说话者的文本和对应的视频帧,模型经过训练,模型并不是只关注嘴巴的区域,而是提取全脸的视觉信息语文本信息相匹配,从而生成语音。

Description

一种基于视觉驱动的文本转语音的方法
技术领域
本发明涉及文本转语音技术领域,尤其涉及一种基于视觉驱动的文本转语音的方法。
背景技术
目前在视频配音领域中,需要演员拍摄完成后,再到专业的配音环境中重新录制对话以提高音频的质量,而且有时需要不用的音色配音,这将耗费非常多的时间去做后期的同步与配音。
传统的文本转语音引擎生成的自然语音,是通过端到端的神经网络生成像人类语音的自然语音,但是该方法生成的语音语调与模型训练数据集有关,不能自然地进行变换。大多数方法由三个主要组件组成:一个编码器将输入文本转换成一系列隐藏的表示,一个解码器产生声音表示,如梅尔谱图从这些,最后一个声编码器构建波形的声音表示。
广义的语音韵律定义为“语音信号的变化,包括语音信号、说话者身份和通道效应。”由于韵律建模的困难,标准的文本-语音(TTS)方法往往被训练成中性语言。目前很多学者在控制和传递TTS音频的韵律方面做了很大的努力,比如通过在编码的输入音频序列和全局风格标记(gst)之间使用一个多头注意模块创建了一种风格嵌入,在推断时,它们从文本构建样式嵌入以支持样式控制,或从其他音频构建样式转移;或者使用了变分自编码器(VAE)潜表示说话风格,在推断中纵潜嵌入或,它们通过操从参考音频中获取潜嵌入来改变说话风格。自动配音的一种常见方法是生成或修改视频帧以匹配给定的音频语音片段。
目前使用的端到端的TTS模型,输入只有文本信息,通过编码器和解码器生成人的声音,但是这种方法生成的人的声音是固定的韵律和声调。
发明内容
为了解决以上技术问题,本发明提供了一种基于视觉驱动的文本转语音的方法,通过该方法生成的音频不仅仅是简单的文本转语音,而是生成具有同步视频的音频。
本发明的技术方案是:
一种基于视觉驱动的文本转语音的方法,
通过使用视频帧作为附加输入到文本转语音模型中,提取视频帧中的人脸信息与文本中的特征,生成与视频相匹配的语音,并且该语音具有与视频帧相同的韵律变化。
将文本转语音模型的输入扩展为不仅输入文本,而且输入面部视频。生成与输入视频的面部运动相匹配的语音,生成的音频不仅仅与视频同步,而且保留了与视频相同的韵律与停顿,并且可以从视频信号中推断停顿与声音的变化。
进一步的,
给定说话者的文本和对应的视频帧,文本转语音模型进行训练,文本转语音模型模型并不是只关注嘴巴的区域,而是提取全脸的视觉信息语文本信息相匹配,从而生成语音。
包括文本和视频编码器处理输入,然后是多源注意力机制,将这些输入连接到产生梅尔谱图的解码器,然后声码器从梅尔频谱图产生波形,从而生成音频。
进一步的,
具体包括(1)视频编码器,(2)文本编码器,(3)扬声器编码器,(4)具有多源注意力机制的自回归解码器,(5)声码器。
1)、视频编码器对视频中的整张脸进行特征编码而不是只是用嘴部区域编码;
2)、文本编码器派生自Tacotron2的文本编码器;每个音素首先嵌入到一个嵌入空间中,然后通过卷积层和Bi-LSTM层传递音素嵌入序列;
3)、扬声器编码器使用了一个冻结的、预先训练的扬声器嵌入模型,当在数据集中提供说话者ID时,生成每个话语的编码embedding,并对与说话者相关的所有话语进行平均和标准化;
4)、自回归解码器在被用作未来时间步长输入之前,将之前的解码器输出重构到512维空间;注意力模块;一个LSTM核心;以及post-net,用来预测最终梅尔谱图输出;
5)、自回归解码器接收视频编码器、文本音素编码器以及扬声器编码器生成的扬声器编码序列作为输入,生成语音信号的梅尔谱图;
6)、使用预训练的声码器生成音频波形。
具体原理内容如下:
1)、设Tx和Ty分别为输入视频帧和音素序列的长度;设Dw、Dh和Dc是帧的宽度、高度和通道数,De是音素嵌入的维度,P是音素集,输入为源视频帧序列x∈RTx×Dw×Dh×Dc和音素序列y∈PTy组成的输入对;
2)视频编码器接收一个帧序列作为输入,为每一帧生成一个隐藏表示hx;文本编码器接收源音素并产生一个隐藏的表示hy
3)扬声器编码器di将扬声器映射到256维扬声器嵌入;
4)自回归解码器接收两个隐藏表示hx和hy以及说话人嵌入di作为输入,并使用注意力上下文预测合成语音的梅尔谱图zt
5)最后,使用冻结的预训练神经声码器将预测的梅尔谱图[z1,z2,...,zt]转换为波形。
附图说明
图1是本发明的工作流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明基于传统的文本语音转化模型模型,将其输入扩展为不仅输入文本,还输入面部视频帧,生成与输入视频的面部运动相匹配的语音,输出的音频不仅与视频同步,而且保留了原始韵律,包括可以从视频信号中推断出的停顿和音高变化,为制作高质量的配音视频提供了关键部分,相比于专注于嘴巴区域的标准视觉语音识别模型,使用全脸的特征以避免遗漏了说话者传递相关的信息。这为模型提供了足够的信息来生成语音,不仅与视频匹配,而且还恢复韵律的各个方面,例如时间和情感。
本发明主要包括由四个部分:文本和视频编码器处理输入、多源注意机制、将这些输入连接到产生梅尔谱图的解码器。
声码器从梅尔频谱图产生波形,从而生成音频,该架构包括(1)视频编码器,(2)文本编码器,(3)扬声器编码器,(4)具有多源注意力机制的自回归解码器,(5)声码器。
整体工作过程如图1所示。
1、视频编码器使用VGG3D,对视频中的整张脸进行特征编码而不是只是用嘴部区域编码;
2、文本编码器派生自Tacotron2的文本编码器。每个音素首先嵌入到一个嵌入空间中。然后通过卷积层和Bi-LSTM层传递音素嵌入序列;
3、扬声器编码器使用了一个冻结的、预先训练的扬声器嵌入模型。当在数据集中提供说话者ID时,我们生成每个话语的编码embedding,并对与说话者相关的所有话语进行平均和标准化;
4、使用基于RNN的自回归解码器,它由四个部分组成:
1)pre-net,一个全连接的网络,在它被用作未来时间步长输入之前,将之前的解码器输出重构到较低维度;2)注意力模块;3)一个LSTM核心;以及4)post-net,用来预测最终梅尔谱图输出;
5、解码器接收视频编码器hx、文本音素编码器hy以及扬声器编码器生成的扬声器编码序列di作为输入,生成语音信号zt的梅尔谱图。
6、使用预训练的声码器生成音频波形。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于视觉驱动的文本转语音的方法,其特征在于,
通过使用视频帧作为附加输入到文本转语音模型中,提取视频帧中的人脸信息与文本中的特征,生成与视频相匹配的语音,并且该语音具有与视频帧相同的韵律变化。
2.根据权利要求1所述的方法,其特征在于,
将文本转语音模型的输入扩展为不仅输入文本,而且输入面部视频。
3.根据权利要求2所述的方法,其特征在于,
生成与输入视频的面部运动相匹配的语音,生成的音频不仅仅与视频同步,而且保留了与视频相同的韵律与停顿,并且可以从视频信号中推断停顿与声音的变化。
4.根据权利要求3所述的方法,其特征在于,
给定说话者的文本和对应的视频帧,文本转语音模型进行训练,文本转语音模型模型并不是只关注嘴巴的区域,而是提取全脸的视觉信息语文本信息相匹配,从而生成语音。
5.根据权利要求4所述的方法,其特征在于,
包括文本和视频编码器处理输入,然后是多源注意力机制,将这些输入连接到产生梅尔谱图的解码器,然后声码器从梅尔频谱图产生波形,从而生成音频。
6.根据权利要求5所述的方法,其特征在于,
具体包括(1)视频编码器,(2)文本编码器,(3)扬声器编码器,(4)具有多源注意力机制的自回归解码器,(5)声码器。
7.根据权利要求6所述的方法,其特征在于,
1)、视频编码器对视频中的整张脸进行特征编码而不是只是用嘴部区域编码;
2)、文本编码器派生自Tacotron2的文本编码器;每个音素首先嵌入到一个嵌入空间中,然后通过卷积层和Bi-LSTM层传递音素嵌入序列;
3)、扬声器编码器使用了一个冻结的、预先训练的扬声器嵌入模型,当在数据集中提供说话者ID时,生成每个话语的编码embedding,并对与说话者相关的所有话语进行平均和标准化;
4)、自回归解码器在被用作未来时间步长输入之前,将之前的解码器输出重构到512维空间;注意力模块;一个LSTM核心;以及post-net,用来预测最终梅尔谱图输出;
5)、自回归解码器接收视频编码器、文本音素编码器以及扬声器编码器生成的扬声器编码序列作为输入,生成语音信号的梅尔谱图;
6)、使用预训练的声码器生成音频波形。
8.根据权利要求4所述的方法,其特征在于,
具体内容如下:
1)、设Tx和Ty分别为输入视频帧和音素序列的长度;设Dw、Dh和Dc是帧的宽度、高度和通道数,De是音素嵌入的维度,P是音素集,输入为源视频帧序列x∈RTx×Dw×Dh×Dc和音素序列y∈PTy组成的输入对;
2)视频编码器接收一个帧序列作为输入,为每一帧生成一个隐藏表示hx;文本编码器接收源音素并产生一个隐藏的表示hy
3)扬声器编码器di将扬声器映射到256维扬声器嵌入;
4)自回归解码器接收两个隐藏表示hx和hy以及说话人嵌入di作为输入,并使用注意力上下文预测合成语音的梅尔谱图zt
5)最后,使用冻结的预训练神经声码器将预测的梅尔谱图[z1,z2,...,zt]转换为波形。
CN202111609326.0A 2021-12-27 2021-12-27 一种基于视觉驱动的文本转语音的方法 Pending CN114283784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111609326.0A CN114283784A (zh) 2021-12-27 2021-12-27 一种基于视觉驱动的文本转语音的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111609326.0A CN114283784A (zh) 2021-12-27 2021-12-27 一种基于视觉驱动的文本转语音的方法

Publications (1)

Publication Number Publication Date
CN114283784A true CN114283784A (zh) 2022-04-05

Family

ID=80875870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111609326.0A Pending CN114283784A (zh) 2021-12-27 2021-12-27 一种基于视觉驱动的文本转语音的方法

Country Status (1)

Country Link
CN (1) CN114283784A (zh)

Similar Documents

Publication Publication Date Title
JP7395792B2 (ja) 2レベル音声韻律転写
JP3664474B2 (ja) 視覚的スピーチの言語透過的合成
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
JP7238204B2 (ja) 音声合成方法及び装置、記憶媒体
JPH10260692A (ja) 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
Urbain et al. Arousal-driven synthesis of laughter
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
Salvi et al. SynFace—speech-driven facial animation for virtual speech-reading support
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
Zhao et al. Research on voice cloning with a few samples
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
CN114283784A (zh) 一种基于视觉驱动的文本转语音的方法
Nazir et al. Deep learning end to end speech synthesis: A review
Furui Robust methods in automatic speech recognition and understanding.
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre
CN113724684A (zh) 一种空中交通管制指令的语音合成方法及系统
JP3742206B2 (ja) 音声合成方法及び装置
CN113628609A (zh) 自动音频内容生成
WO1999046732A1 (fr) Dispositif de generation d'images en mouvement et dispositif d'apprentissage via reseau de controle d'images
Ding A Systematic Review on the Development of Speech Synthesis
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
JP3552200B2 (ja) 音声信号伝送装置および音声信号伝送方法
JP7179216B1 (ja) 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
US20240177386A1 (en) System and method for an audio-visual avatar creation
US20220383850A1 (en) System and method for posthumous dynamic speech synthesis using neural networks and deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination