CN114283784A - 一种基于视觉驱动的文本转语音的方法 - Google Patents
一种基于视觉驱动的文本转语音的方法 Download PDFInfo
- Publication number
- CN114283784A CN114283784A CN202111609326.0A CN202111609326A CN114283784A CN 114283784 A CN114283784 A CN 114283784A CN 202111609326 A CN202111609326 A CN 202111609326A CN 114283784 A CN114283784 A CN 114283784A
- Authority
- CN
- China
- Prior art keywords
- text
- video
- input
- encoder
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000000007 visual effect Effects 0.000 title claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 3
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 claims description 3
- GIYXAJPCNFJEHY-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]-1-propanamine hydrochloride (1:1) Chemical compound Cl.C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 GIYXAJPCNFJEHY-UHFFFAOYSA-N 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种基于视觉驱动的文本转语音的方法,属于文本转语音技术领域,本发明将文本转语音模型的输入扩展为不仅输入文本,而且输入面部视频,生成并输出与视频帧相匹配的语音,生成的音频不仅仅与视频同步,而且保留了与视频相同的韵律与停顿,并且可以从视频信号中推断停顿与声音的变化,该方法可以应用于制作高质量的拼音视频,而无需耗费大量的人力物力在专业环境中重新录制配音。给定说话者的文本和对应的视频帧,模型经过训练,模型并不是只关注嘴巴的区域,而是提取全脸的视觉信息语文本信息相匹配,从而生成语音。
Description
技术领域
本发明涉及文本转语音技术领域,尤其涉及一种基于视觉驱动的文本转语音的方法。
背景技术
目前在视频配音领域中,需要演员拍摄完成后,再到专业的配音环境中重新录制对话以提高音频的质量,而且有时需要不用的音色配音,这将耗费非常多的时间去做后期的同步与配音。
传统的文本转语音引擎生成的自然语音,是通过端到端的神经网络生成像人类语音的自然语音,但是该方法生成的语音语调与模型训练数据集有关,不能自然地进行变换。大多数方法由三个主要组件组成:一个编码器将输入文本转换成一系列隐藏的表示,一个解码器产生声音表示,如梅尔谱图从这些,最后一个声编码器构建波形的声音表示。
广义的语音韵律定义为“语音信号的变化,包括语音信号、说话者身份和通道效应。”由于韵律建模的困难,标准的文本-语音(TTS)方法往往被训练成中性语言。目前很多学者在控制和传递TTS音频的韵律方面做了很大的努力,比如通过在编码的输入音频序列和全局风格标记(gst)之间使用一个多头注意模块创建了一种风格嵌入,在推断时,它们从文本构建样式嵌入以支持样式控制,或从其他音频构建样式转移;或者使用了变分自编码器(VAE)潜表示说话风格,在推断中纵潜嵌入或,它们通过操从参考音频中获取潜嵌入来改变说话风格。自动配音的一种常见方法是生成或修改视频帧以匹配给定的音频语音片段。
目前使用的端到端的TTS模型,输入只有文本信息,通过编码器和解码器生成人的声音,但是这种方法生成的人的声音是固定的韵律和声调。
发明内容
为了解决以上技术问题,本发明提供了一种基于视觉驱动的文本转语音的方法,通过该方法生成的音频不仅仅是简单的文本转语音,而是生成具有同步视频的音频。
本发明的技术方案是:
一种基于视觉驱动的文本转语音的方法,
通过使用视频帧作为附加输入到文本转语音模型中,提取视频帧中的人脸信息与文本中的特征,生成与视频相匹配的语音,并且该语音具有与视频帧相同的韵律变化。
将文本转语音模型的输入扩展为不仅输入文本,而且输入面部视频。生成与输入视频的面部运动相匹配的语音,生成的音频不仅仅与视频同步,而且保留了与视频相同的韵律与停顿,并且可以从视频信号中推断停顿与声音的变化。
进一步的,
给定说话者的文本和对应的视频帧,文本转语音模型进行训练,文本转语音模型模型并不是只关注嘴巴的区域,而是提取全脸的视觉信息语文本信息相匹配,从而生成语音。
包括文本和视频编码器处理输入,然后是多源注意力机制,将这些输入连接到产生梅尔谱图的解码器,然后声码器从梅尔频谱图产生波形,从而生成音频。
进一步的,
具体包括(1)视频编码器,(2)文本编码器,(3)扬声器编码器,(4)具有多源注意力机制的自回归解码器,(5)声码器。
1)、视频编码器对视频中的整张脸进行特征编码而不是只是用嘴部区域编码;
2)、文本编码器派生自Tacotron2的文本编码器;每个音素首先嵌入到一个嵌入空间中,然后通过卷积层和Bi-LSTM层传递音素嵌入序列;
3)、扬声器编码器使用了一个冻结的、预先训练的扬声器嵌入模型,当在数据集中提供说话者ID时,生成每个话语的编码embedding,并对与说话者相关的所有话语进行平均和标准化;
4)、自回归解码器在被用作未来时间步长输入之前,将之前的解码器输出重构到512维空间;注意力模块;一个LSTM核心;以及post-net,用来预测最终梅尔谱图输出;
5)、自回归解码器接收视频编码器、文本音素编码器以及扬声器编码器生成的扬声器编码序列作为输入,生成语音信号的梅尔谱图;
6)、使用预训练的声码器生成音频波形。
具体原理内容如下:
1)、设Tx和Ty分别为输入视频帧和音素序列的长度;设Dw、Dh和Dc是帧的宽度、高度和通道数,De是音素嵌入的维度,P是音素集,输入为源视频帧序列x∈RTx×Dw×Dh×Dc和音素序列y∈PTy组成的输入对;
2)视频编码器接收一个帧序列作为输入,为每一帧生成一个隐藏表示hx;文本编码器接收源音素并产生一个隐藏的表示hy;
3)扬声器编码器di将扬声器映射到256维扬声器嵌入;
4)自回归解码器接收两个隐藏表示hx和hy以及说话人嵌入di作为输入,并使用注意力上下文预测合成语音的梅尔谱图zt;
5)最后,使用冻结的预训练神经声码器将预测的梅尔谱图[z1,z2,...,zt]转换为波形。
附图说明
图1是本发明的工作流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明基于传统的文本语音转化模型模型,将其输入扩展为不仅输入文本,还输入面部视频帧,生成与输入视频的面部运动相匹配的语音,输出的音频不仅与视频同步,而且保留了原始韵律,包括可以从视频信号中推断出的停顿和音高变化,为制作高质量的配音视频提供了关键部分,相比于专注于嘴巴区域的标准视觉语音识别模型,使用全脸的特征以避免遗漏了说话者传递相关的信息。这为模型提供了足够的信息来生成语音,不仅与视频匹配,而且还恢复韵律的各个方面,例如时间和情感。
本发明主要包括由四个部分:文本和视频编码器处理输入、多源注意机制、将这些输入连接到产生梅尔谱图的解码器。
声码器从梅尔频谱图产生波形,从而生成音频,该架构包括(1)视频编码器,(2)文本编码器,(3)扬声器编码器,(4)具有多源注意力机制的自回归解码器,(5)声码器。
整体工作过程如图1所示。
1、视频编码器使用VGG3D,对视频中的整张脸进行特征编码而不是只是用嘴部区域编码;
2、文本编码器派生自Tacotron2的文本编码器。每个音素首先嵌入到一个嵌入空间中。然后通过卷积层和Bi-LSTM层传递音素嵌入序列;
3、扬声器编码器使用了一个冻结的、预先训练的扬声器嵌入模型。当在数据集中提供说话者ID时,我们生成每个话语的编码embedding,并对与说话者相关的所有话语进行平均和标准化;
4、使用基于RNN的自回归解码器,它由四个部分组成:
1)pre-net,一个全连接的网络,在它被用作未来时间步长输入之前,将之前的解码器输出重构到较低维度;2)注意力模块;3)一个LSTM核心;以及4)post-net,用来预测最终梅尔谱图输出;
5、解码器接收视频编码器hx、文本音素编码器hy以及扬声器编码器生成的扬声器编码序列di作为输入,生成语音信号zt的梅尔谱图。
6、使用预训练的声码器生成音频波形。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种基于视觉驱动的文本转语音的方法,其特征在于,
通过使用视频帧作为附加输入到文本转语音模型中,提取视频帧中的人脸信息与文本中的特征,生成与视频相匹配的语音,并且该语音具有与视频帧相同的韵律变化。
2.根据权利要求1所述的方法,其特征在于,
将文本转语音模型的输入扩展为不仅输入文本,而且输入面部视频。
3.根据权利要求2所述的方法,其特征在于,
生成与输入视频的面部运动相匹配的语音,生成的音频不仅仅与视频同步,而且保留了与视频相同的韵律与停顿,并且可以从视频信号中推断停顿与声音的变化。
4.根据权利要求3所述的方法,其特征在于,
给定说话者的文本和对应的视频帧,文本转语音模型进行训练,文本转语音模型模型并不是只关注嘴巴的区域,而是提取全脸的视觉信息语文本信息相匹配,从而生成语音。
5.根据权利要求4所述的方法,其特征在于,
包括文本和视频编码器处理输入,然后是多源注意力机制,将这些输入连接到产生梅尔谱图的解码器,然后声码器从梅尔频谱图产生波形,从而生成音频。
6.根据权利要求5所述的方法,其特征在于,
具体包括(1)视频编码器,(2)文本编码器,(3)扬声器编码器,(4)具有多源注意力机制的自回归解码器,(5)声码器。
7.根据权利要求6所述的方法,其特征在于,
1)、视频编码器对视频中的整张脸进行特征编码而不是只是用嘴部区域编码;
2)、文本编码器派生自Tacotron2的文本编码器;每个音素首先嵌入到一个嵌入空间中,然后通过卷积层和Bi-LSTM层传递音素嵌入序列;
3)、扬声器编码器使用了一个冻结的、预先训练的扬声器嵌入模型,当在数据集中提供说话者ID时,生成每个话语的编码embedding,并对与说话者相关的所有话语进行平均和标准化;
4)、自回归解码器在被用作未来时间步长输入之前,将之前的解码器输出重构到512维空间;注意力模块;一个LSTM核心;以及post-net,用来预测最终梅尔谱图输出;
5)、自回归解码器接收视频编码器、文本音素编码器以及扬声器编码器生成的扬声器编码序列作为输入,生成语音信号的梅尔谱图;
6)、使用预训练的声码器生成音频波形。
8.根据权利要求4所述的方法,其特征在于,
具体内容如下:
1)、设Tx和Ty分别为输入视频帧和音素序列的长度;设Dw、Dh和Dc是帧的宽度、高度和通道数,De是音素嵌入的维度,P是音素集,输入为源视频帧序列x∈RTx×Dw×Dh×Dc和音素序列y∈PTy组成的输入对;
2)视频编码器接收一个帧序列作为输入,为每一帧生成一个隐藏表示hx;文本编码器接收源音素并产生一个隐藏的表示hy;
3)扬声器编码器di将扬声器映射到256维扬声器嵌入;
4)自回归解码器接收两个隐藏表示hx和hy以及说话人嵌入di作为输入,并使用注意力上下文预测合成语音的梅尔谱图zt;
5)最后,使用冻结的预训练神经声码器将预测的梅尔谱图[z1,z2,...,zt]转换为波形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111609326.0A CN114283784B (zh) | 2021-12-27 | 2021-12-27 | 一种基于视觉驱动的文本转语音的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111609326.0A CN114283784B (zh) | 2021-12-27 | 2021-12-27 | 一种基于视觉驱动的文本转语音的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114283784A true CN114283784A (zh) | 2022-04-05 |
CN114283784B CN114283784B (zh) | 2024-09-24 |
Family
ID=80875870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111609326.0A Active CN114283784B (zh) | 2021-12-27 | 2021-12-27 | 一种基于视觉驱动的文本转语音的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283784B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US20160093284A1 (en) * | 2014-09-25 | 2016-03-31 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
US20180077095A1 (en) * | 2015-09-14 | 2018-03-15 | X Development Llc | Augmentation of Communications with Emotional Data |
CN109934091A (zh) * | 2019-01-17 | 2019-06-25 | 深圳壹账通智能科技有限公司 | 基于图像识别的辅助发音方法、装置、计算机设备及存储介质 |
WO2021004113A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳壹账通智能科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
JP2021099454A (ja) * | 2019-12-23 | 2021-07-01 | 株式会社 ディー・エヌ・エー | 音声合成装置、音声合成プログラム及び音声合成方法 |
-
2021
- 2021-12-27 CN CN202111609326.0A patent/CN114283784B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US20160093284A1 (en) * | 2014-09-25 | 2016-03-31 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
CN106575500A (zh) * | 2014-09-25 | 2017-04-19 | 英特尔公司 | 基于面部结构合成话音的方法和装置 |
US20180077095A1 (en) * | 2015-09-14 | 2018-03-15 | X Development Llc | Augmentation of Communications with Emotional Data |
CN109934091A (zh) * | 2019-01-17 | 2019-06-25 | 深圳壹账通智能科技有限公司 | 基于图像识别的辅助发音方法、装置、计算机设备及存储介质 |
WO2021004113A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳壹账通智能科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
JP2021099454A (ja) * | 2019-12-23 | 2021-07-01 | 株式会社 ディー・エヌ・エー | 音声合成装置、音声合成プログラム及び音声合成方法 |
Non-Patent Citations (2)
Title |
---|
OHSUGI, YASUHITO ET AL: "A Comparative Study of Statistical Conversion of Face to Voice Based on Their Subjective Impressions", 《19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION》, 4 June 2019 (2019-06-04), pages 1001 - 1005 * |
贾振堂: "由嘴唇视频直接生成语音的研究", 《计算机应用研究》, vol. 37, no. 6, 14 May 2019 (2019-05-14), pages 1890 - 1894 * |
Also Published As
Publication number | Publication date |
---|---|
CN114283784B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7395792B2 (ja) | 2レベル音声韻律転写 | |
JP3664474B2 (ja) | 視覚的スピーチの言語透過的合成 | |
JP4355772B2 (ja) | 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム | |
JP7238204B2 (ja) | 音声合成方法及び装置、記憶媒体 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
JPH10260692A (ja) | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム | |
Malcangi | Text-driven avatars based on artificial neural networks and fuzzy logic | |
CN113470622B (zh) | 一种可将任意语音转换成多个语音的转换方法及装置 | |
CN117678013A (zh) | 使用合成的训练数据的两级文本到语音系统 | |
Salvi et al. | SynFace—speech-driven facial animation for virtual speech-reading support | |
US20240177386A1 (en) | System and method for an audio-visual avatar creation | |
JP7179216B1 (ja) | 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 | |
Nazir et al. | Deep learning end to end speech synthesis: A review | |
CN113724684B (zh) | 一种空中交通管制指令的语音合成方法及系统 | |
CN114283784A (zh) | 一种基于视觉驱动的文本转语音的方法 | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre | |
US20220383850A1 (en) | System and method for posthumous dynamic speech synthesis using neural networks and deep learning | |
JP3742206B2 (ja) | 音声合成方法及び装置 | |
WO1999046732A1 (fr) | Dispositif de generation d'images en mouvement et dispositif d'apprentissage via reseau de controle d'images | |
Ding | A Systematic Review on the Development of Speech Synthesis | |
CN118135990B (zh) | 一种结合自回归的端到端的文本合成语音方法及系统 | |
CN117636842B (zh) | 基于韵律情感迁移的语音合成系统及方法 | |
JP3552200B2 (ja) | 音声信号伝送装置および音声信号伝送方法 | |
CN118471202B (zh) | 一种原生语音模态的语言模型训练方法 | |
CN117992169A (zh) | 一种基于aigc技术的平面设计展示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |