CN112002301A - 一种基于文本的自动化视频生成方法 - Google Patents

一种基于文本的自动化视频生成方法 Download PDF

Info

Publication number
CN112002301A
CN112002301A CN202010504729.8A CN202010504729A CN112002301A CN 112002301 A CN112002301 A CN 112002301A CN 202010504729 A CN202010504729 A CN 202010504729A CN 112002301 A CN112002301 A CN 112002301A
Authority
CN
China
Prior art keywords
text
speech
mouth shape
video
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010504729.8A
Other languages
English (en)
Inventor
武钧
彭寒兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Zongheng Liuhe Technology Co ltd
Original Assignee
Sichuan Zongheng Liuhe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Zongheng Liuhe Technology Co ltd filed Critical Sichuan Zongheng Liuhe Technology Co ltd
Priority to CN202010504729.8A priority Critical patent/CN112002301A/zh
Publication of CN112002301A publication Critical patent/CN112002301A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

本发明公开了一种基于文本的自动化视频生成方法,属于文本处理技术领域,目的在于提供一种基于文本的自动化视频生成方法,能够智能化生成符合文本内容的视频片段,基于文本有效生成对应用户的音视频。其包括以下步骤:(1)将文本转化成语音;(2)将生成的语音音素对齐;(3)将每个音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,并根据每个音素确定口型的静态视位;(4)根据人物、环境的相关参数,进行三维人脸建模,将口型的静态视位对应的图像插入视频的每一帧,合成连续的视频;(5)对建模的人脸进行人脸渲染。本发明适用于基于文本的自动化视频生成方法。

Description

一种基于文本的自动化视频生成方法
技术领域
本发明属于文本处理技术领域,具体涉及一种基于文本的自动化视频生成方法。
背景技术
近年来,随着计算机视觉领域的飞速发展和生成对抗网络的提出,图像生成的研究受到了越来越广泛的关注,其在素材积累,数据集自动生成方面有非常积极的意义。视频相比于图像它更加生动,生成难度也更大,因此对于视频生成方面的探索更加有研究意义。
随着计算能力的提高,大量互联网数据的收集,核心算法的突破,人工智能已经进入新的发展阶段,正在逐步变革人机交互方式。人机交互过程中一个重要部分是模拟真人形象跟用户互动,其中的关键技术是虚拟形象生成技术,结合语音合成和语音转换技术,可实现个性化语音和视频合成。
语音合成是一种将文本转化成语音的技术,语音转换可以用作为合成的语音定制音色。随着深度学习的应用,合成语音和转换语音的自然度和流畅度都有很大的提升。
目前主流的虚拟形象生成技术为根据面部识别来实时改变虚拟形象的表情,这种方式则更适用于二次元形象却难以生成一个类似真人的虚拟形象。近几年,基于真人建模的虚拟形象生成技术学术界和工业界都在进行研发,目前生成效果仍有待进一步提高,整体实用性不强,不便于使用者进行操作。
发明内容
本发明的目的在于:提供一种基于文本的自动化视频生成方法,能够智能化生成符合文本内容的视频片段,基于文本有效生成对应用户的音视频。
本发明采用的技术方案如下:
一种基于文本的自动化视频生成方法,包括以下步骤:
(1)将输入的文本通过语音合成系统转化成语音;
(2)将生成的语音音素对齐;
(3)将每个音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,并根据每个音素确定口型的静态视位;
(4)根据人物表情、人物位置、人脸方向、环境光照相关参数,进行三维人脸建模,将步骤3中口型的静态视位对应的图像插入视频的每一帧,合成连续的视频;
(5)对建模的人脸进行人脸渲染,优化视频效果。
进一步地,所述步骤1中语音合成系统根据历史输入的文本和对应用户的语音,自动学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征,基于深度学习后的语音合成系统根据当前输入的文本,结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,通过语音合成系统深度学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征,从而可以根据文本内容结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音,并将生成的语音音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,根据每个音素确定口型的静态视位,再根据人物表情、人物位置、人脸方向、环境光照相关参数进行三维人脸建模,将静态视位对应的图像插入视频的每一帧,合成连续的视频,最后进行人脸渲染,该方法基于文本生成语音再经过三维人脸建模合成视频,智能化生成符合文本内容的视频片段,实现了将文本转化为对应用户的音视频。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于文本的自动化视频生成方法,包括以下步骤:
(1)将输入的文本通过语音合成系统转化成语音;
(2)将生成的语音音素对齐;
(3)将每个音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,并根据每个音素确定口型的静态视位;
(4)根据人物表情、人物位置、人脸方向、环境光照相关参数,进行三维人脸建模,将步骤3中口型的静态视位对应的图像插入视频的每一帧,合成连续的视频;
(5)对建模的人脸进行人脸渲染,优化视频效果。
进一步地,所述步骤1中语音合成系统根据历史输入的文本和对应用户的语音,自动学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征,基于深度学习后的语音合成系统根据当前输入的文本,结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。
本发明在实施过程中,通过语音合成系统深度学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征,从而可以根据文本内容结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音,并将生成的语音音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,根据每个音素确定口型的静态视位,再根据人物表情、人物位置、人脸方向、环境光照相关参数进行三维人脸建模,将静态视位对应的图像插入视频的每一帧,合成连续的视频,最后进行人脸渲染,该方法基于文本生成语音再经过三维人脸建模合成视频,智能化生成符合文本内容的视频片段,实现了将文本转化为对应用户的音视频。
实施例1
一种基于文本的自动化视频生成方法,包括以下步骤:
(1)将输入的文本通过语音合成系统转化成语音;
(2)将生成的语音音素对齐;
(3)将每个音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,并根据每个音素确定口型的静态视位;
(4)根据人物表情、人物位置、人脸方向、环境光照相关参数,进行三维人脸建模,将步骤3中口型的静态视位对应的图像插入视频的每一帧,合成连续的视频;
(5)对建模的人脸进行人脸渲染,优化视频效果。
实施例2
在实施例1的基础上,所述步骤1中语音合成系统根据历史输入的文本和对应用户的语音,自动学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征,基于深度学习后的语音合成系统根据当前输入的文本,结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于文本的自动化视频生成方法,其特征在于,包括以下步骤:
(1)将输入的文本通过语音合成系统转化成语音;
(2)将生成的语音音素对齐;
(3)将每个音素分为形成口型、保持口型、解除口型三个阶段,将连续的嘴唇动作离散化,再确定每个离散的嘴唇动作的时间参数,并根据每个音素确定口型的静态视位;
(4)根据人物表情、人物位置、人脸方向、环境光照相关参数,进行三维人脸建模,将步骤3中口型的静态视位对应的图像插入视频的每一帧,合成连续的视频;
(5)对建模的人脸进行人脸渲染,优化视频效果。
2.按照权利要求1所述的一种基于文本的自动化视频生成方法,其特征在于,所述步骤1中语音合成系统根据历史输入的文本和对应用户的语音,自动学习文本与语音之间的对应关系,并学习用户语音的语调特征、语速特征、停顿特征,基于深度学习后的语音合成系统根据当前输入的文本,结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。
CN202010504729.8A 2020-06-05 2020-06-05 一种基于文本的自动化视频生成方法 Pending CN112002301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010504729.8A CN112002301A (zh) 2020-06-05 2020-06-05 一种基于文本的自动化视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010504729.8A CN112002301A (zh) 2020-06-05 2020-06-05 一种基于文本的自动化视频生成方法

Publications (1)

Publication Number Publication Date
CN112002301A true CN112002301A (zh) 2020-11-27

Family

ID=73467282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010504729.8A Pending CN112002301A (zh) 2020-06-05 2020-06-05 一种基于文本的自动化视频生成方法

Country Status (1)

Country Link
CN (1) CN112002301A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735371A (zh) * 2020-12-28 2021-04-30 出门问问(苏州)信息科技有限公司 一种基于文本信息生成说话人视频的方法及装置
CN112927712A (zh) * 2021-01-25 2021-06-08 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN115942039A (zh) * 2022-11-30 2023-04-07 北京百度网讯科技有限公司 视频生成方法、装置、电子设备和存储介质
CN115942043A (zh) * 2023-03-03 2023-04-07 南京爱照飞打影像科技有限公司 一种基于ai语音识别的视频碎剪方法与设备
CN116778040A (zh) * 2023-08-17 2023-09-19 北京百度网讯科技有限公司 基于口型的人脸图像生成方法、模型的训练方法以及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426577A (zh) * 2000-04-06 2003-06-25 阿纳诺瓦有限公司 人物动画
CN105551071A (zh) * 2015-12-02 2016-05-04 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN106205600A (zh) * 2016-07-26 2016-12-07 浪潮电子信息产业股份有限公司 一种可交互中文文本语音合成系统及方法
CN108447474A (zh) * 2018-03-12 2018-08-24 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN108765528A (zh) * 2018-04-10 2018-11-06 南京江大搏达信息科技有限公司 基于数据驱动的游戏人物人脸3d动画合成方法
CN109215629A (zh) * 2018-11-22 2019-01-15 Oppo广东移动通信有限公司 语音处理方法、装置及终端
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109830236A (zh) * 2019-03-27 2019-05-31 广东工业大学 一种双视位口型合成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1426577A (zh) * 2000-04-06 2003-06-25 阿纳诺瓦有限公司 人物动画
CN105551071A (zh) * 2015-12-02 2016-05-04 中国科学院计算技术研究所 一种文本语音驱动的人脸动画生成方法及系统
CN106205600A (zh) * 2016-07-26 2016-12-07 浪潮电子信息产业股份有限公司 一种可交互中文文本语音合成系统及方法
CN108447474A (zh) * 2018-03-12 2018-08-24 北京灵伴未来科技有限公司 一种虚拟人物语音与口型同步的建模与控制方法
CN108765528A (zh) * 2018-04-10 2018-11-06 南京江大搏达信息科技有限公司 基于数据驱动的游戏人物人脸3d动画合成方法
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN109215629A (zh) * 2018-11-22 2019-01-15 Oppo广东移动通信有限公司 语音处理方法、装置及终端
CN109599113A (zh) * 2019-01-22 2019-04-09 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN109830236A (zh) * 2019-03-27 2019-05-31 广东工业大学 一种双视位口型合成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张思光: ""韵律文本驱动的三维口型动画研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
曾洪鑫等: "双模态驱动的汉语语音与口型匹配控制模型", 《计算机工程与应用》 *
曾洪鑫等: "浅析汉语语音与口型匹配的基本机理", 《电声技术》 *
李皓: ""语音驱动的人脸建模与动画技术研究"", 《中国博士学位论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735371A (zh) * 2020-12-28 2021-04-30 出门问问(苏州)信息科技有限公司 一种基于文本信息生成说话人视频的方法及装置
CN112735371B (zh) * 2020-12-28 2023-08-04 北京羽扇智信息科技有限公司 一种基于文本信息生成说话人视频的方法及装置
CN112927712A (zh) * 2021-01-25 2021-06-08 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN115942039A (zh) * 2022-11-30 2023-04-07 北京百度网讯科技有限公司 视频生成方法、装置、电子设备和存储介质
CN115942039B (zh) * 2022-11-30 2024-02-23 北京百度网讯科技有限公司 视频生成方法、装置、电子设备和存储介质
CN115942043A (zh) * 2023-03-03 2023-04-07 南京爱照飞打影像科技有限公司 一种基于ai语音识别的视频碎剪方法与设备
CN116778040A (zh) * 2023-08-17 2023-09-19 北京百度网讯科技有限公司 基于口型的人脸图像生成方法、模型的训练方法以及设备
CN116778040B (zh) * 2023-08-17 2024-04-09 北京百度网讯科技有限公司 基于口型的人脸图像生成方法、模型的训练方法以及设备

Similar Documents

Publication Publication Date Title
CN112002301A (zh) 一种基于文本的自动化视频生成方法
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
CN110880315A (zh) 一种基于音素后验概率的个性化语音和视频生成系统
CN103218842B (zh) 一种语音同步驱动三维人脸口型与面部姿势动画的方法
Levine et al. Gesture controllers
CN110751708B (zh) 一种实时的语音驱动人脸动画的方法和系统
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
CN112734889A (zh) 一种2d角色的口型动画实时驱动方法和系统
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN115330911A (zh) 一种利用音频驱动拟态表情的方法与系统
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN112581569A (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
Brock et al. Deep JSLC: A multimodal corpus collection for data-driven generation of Japanese sign language expressions
Ju et al. Expressive facial gestures from motion capture data
CN117058286B (zh) 一种文字驱动数字人生成视频的方法和装置
CN116934926B (zh) 一种基于多模态数据融合的识别方法和系统
CN115311731B (zh) 一种手语数字人的表情生成方法和装置
Ding et al. Lip animation synthesis: a unified framework for speaking and laughing virtual agent.
Huang et al. Visual speech emotion conversion using deep learning for 3D talking head
JP2020006482A (ja) アンドロイドのジェスチャ生成装置及びコンピュータプログラム
Chen et al. Text to avatar in multimodal human computer interface
CN115546362A (zh) 数字人语音唇形动作训练方法和语音合成方法
Ding et al. Eyebrow motion synthesis driven by speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201127

RJ01 Rejection of invention patent application after publication