CN112002301A

CN112002301A - 一种基于文本的自动化视频生成方法

Info

Publication number: CN112002301A
Application number: CN202010504729.8A
Authority: CN
Inventors: 武钧; 彭寒兵
Original assignee: Sichuan Zongheng Liuhe Technology Co ltd
Current assignee: Sichuan Zongheng Liuhe Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-11-27

Abstract

本发明公开了一种基于文本的自动化视频生成方法，属于文本处理技术领域，目的在于提供一种基于文本的自动化视频生成方法，能够智能化生成符合文本内容的视频片段，基于文本有效生成对应用户的音视频。其包括以下步骤：(1)将文本转化成语音；(2)将生成的语音音素对齐；(3)将每个音素分为形成口型、保持口型、解除口型三个阶段，将连续的嘴唇动作离散化，再确定每个离散的嘴唇动作的时间参数，并根据每个音素确定口型的静态视位；(4)根据人物、环境的相关参数，进行三维人脸建模，将口型的静态视位对应的图像插入视频的每一帧，合成连续的视频；(5)对建模的人脸进行人脸渲染。本发明适用于基于文本的自动化视频生成方法。

Description

一种基于文本的自动化视频生成方法

技术领域

本发明属于文本处理技术领域，具体涉及一种基于文本的自动化视频生成方法。

背景技术

近年来，随着计算机视觉领域的飞速发展和生成对抗网络的提出，图像生成的研究受到了越来越广泛的关注，其在素材积累，数据集自动生成方面有非常积极的意义。视频相比于图像它更加生动，生成难度也更大，因此对于视频生成方面的探索更加有研究意义。

随着计算能力的提高，大量互联网数据的收集，核心算法的突破，人工智能已经进入新的发展阶段，正在逐步变革人机交互方式。人机交互过程中一个重要部分是模拟真人形象跟用户互动，其中的关键技术是虚拟形象生成技术，结合语音合成和语音转换技术，可实现个性化语音和视频合成。

语音合成是一种将文本转化成语音的技术，语音转换可以用作为合成的语音定制音色。随着深度学习的应用，合成语音和转换语音的自然度和流畅度都有很大的提升。

目前主流的虚拟形象生成技术为根据面部识别来实时改变虚拟形象的表情，这种方式则更适用于二次元形象却难以生成一个类似真人的虚拟形象。近几年，基于真人建模的虚拟形象生成技术学术界和工业界都在进行研发，目前生成效果仍有待进一步提高，整体实用性不强，不便于使用者进行操作。

发明内容

本发明的目的在于：提供一种基于文本的自动化视频生成方法，能够智能化生成符合文本内容的视频片段，基于文本有效生成对应用户的音视频。

本发明采用的技术方案如下：

一种基于文本的自动化视频生成方法，包括以下步骤：

(1)将输入的文本通过语音合成系统转化成语音；

(2)将生成的语音音素对齐；

(3)将每个音素分为形成口型、保持口型、解除口型三个阶段，将连续的嘴唇动作离散化，再确定每个离散的嘴唇动作的时间参数，并根据每个音素确定口型的静态视位；

(4)根据人物表情、人物位置、人脸方向、环境光照相关参数，进行三维人脸建模，将步骤3中口型的静态视位对应的图像插入视频的每一帧，合成连续的视频；

(5)对建模的人脸进行人脸渲染，优化视频效果。

进一步地，所述步骤1中语音合成系统根据历史输入的文本和对应用户的语音，自动学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征，基于深度学习后的语音合成系统根据当前输入的文本，结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，通过语音合成系统深度学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征，从而可以根据文本内容结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音，并将生成的语音音素分为形成口型、保持口型、解除口型三个阶段，将连续的嘴唇动作离散化，再确定每个离散的嘴唇动作的时间参数，根据每个音素确定口型的静态视位，再根据人物表情、人物位置、人脸方向、环境光照相关参数进行三维人脸建模，将静态视位对应的图像插入视频的每一帧，合成连续的视频，最后进行人脸渲染，该方法基于文本生成语音再经过三维人脸建模合成视频，智能化生成符合文本内容的视频片段,实现了将文本转化为对应用户的音视频。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

一种基于文本的自动化视频生成方法，包括以下步骤：

(1)将输入的文本通过语音合成系统转化成语音；

(2)将生成的语音音素对齐；

(5)对建模的人脸进行人脸渲染，优化视频效果。

本发明在实施过程中，通过语音合成系统深度学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征，从而可以根据文本内容结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音，并将生成的语音音素分为形成口型、保持口型、解除口型三个阶段，将连续的嘴唇动作离散化，再确定每个离散的嘴唇动作的时间参数，根据每个音素确定口型的静态视位，再根据人物表情、人物位置、人脸方向、环境光照相关参数进行三维人脸建模，将静态视位对应的图像插入视频的每一帧，合成连续的视频，最后进行人脸渲染，该方法基于文本生成语音再经过三维人脸建模合成视频，智能化生成符合文本内容的视频片段,实现了将文本转化为对应用户的音视频。

实施例1

一种基于文本的自动化视频生成方法，包括以下步骤：

(1)将输入的文本通过语音合成系统转化成语音；

(2)将生成的语音音素对齐；

(5)对建模的人脸进行人脸渲染，优化视频效果。

实施例2

在实施例1的基础上，所述步骤1中语音合成系统根据历史输入的文本和对应用户的语音，自动学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征，基于深度学习后的语音合成系统根据当前输入的文本，结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本的自动化视频生成方法，其特征在于，包括以下步骤：

(1)将输入的文本通过语音合成系统转化成语音；

(2)将生成的语音音素对齐；

(5)对建模的人脸进行人脸渲染，优化视频效果。

2.按照权利要求1所述的一种基于文本的自动化视频生成方法，其特征在于，所述步骤1中语音合成系统根据历史输入的文本和对应用户的语音，自动学习文本与语音之间的对应关系，并学习用户语音的语调特征、语速特征、停顿特征，基于深度学习后的语音合成系统根据当前输入的文本，结合用户语音的语调特征、语速特征、停顿特征定制化的生成用户对应音色音调的语音。