CN114338959A

CN114338959A - 端到端即文本到视频的视频合成方法、系统介质及应用

Info

Publication number: CN114338959A
Application number: CN202110406372.4A
Authority: CN
Inventors: 徐涛; 杨洲; 石青松; 李梓甜
Original assignee: Xi'an Hanyihan Network Technology Co ltd
Current assignee: Xi'an Hanyihan Network Technology Co ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2022-04-12

Abstract

本发明属于图像数据处理技术领域，公开了一种端到端即文本到视频的视频合成方法、系统、介质及应用，包括：构建基于espnet2框架的语音合成模型，基于专业级人声数据库对构建的语音合成模型进行训练，并利用训练好的语音合成模型进行语音合成；采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像；通过face_alignment模型对3D人脸识别进行人脸模型的数据采集；利用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合，进行唇形预测；利用GAN网络进行视频合成。本发明效率更高，资源占用更低。

Description

端到端即文本到视频的视频合成方法、系统介质及应用

技术领域

本发明属于图像数据处理技术领域，尤其涉及一种端到端即文本到视频的视频合成方法、系统、介质及应用。

背景技术

目前，新闻已经走进人们的日常生活，读新闻、听新闻、看新闻，已经成为人们获取外部信息的重要手段。随着信息传播技术的迅猛发展，以及互联网的普及，除了传统广播、电视，人们可以快速方便地通过互联网获取内容丰富、种类多样、时效性更强的新闻。

目前，由于看新闻已成为人们获取外部信息的重要手段之一，因此，人们对看新闻的视频内容也有了越来越高的时效性要求。

但是，现有的媒体新闻播报视频的制作需要真人主播熟悉稿件、读稿录制、审查勘误、后期编辑等，需要数小时消耗，效率不高，且质量很难保证。

通过上述分析，现有技术存在的问题及缺陷为：现有的媒体新闻播报视频的制作效率不高，且质量很难保证。

解决以上问题及缺陷的难度为：很大，传统视频录制及后期制作效率较低，新闻播报视频产出存在严重的时间滞后性。真人主播需要熟悉稿件，在读稿录制的过程中，难免出现失误造成整段视频的重新录制或剪辑，录制效率低。

解决以上问题及缺陷的意义为：本发明用多项人工智能技术，极大地提高了播报视频的产出效率，降低了企业在播报视频制作上的人力成本及时间成本。

发明内容

针对现有技术存在的问题，本发明提供了一种端到端即文本到视频的视频合成方法、系统、介质及应用。

本发明是这样实现的，一种端到端即文本到视频的视频合成方法，所述端到端即文本到视频的视频合成方法包括：

步骤一，构建基于espnet2框架的语音合成模型，基于专业级人声数据库对构建的语音合成模型进行训练，并利用训练好的语音合成模型进行语音合成。生成的音频是后续步骤的基础，据此驱动了人脸模型的唇部动作；

步骤二，采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像。基于输入2维人脸图像重构3维立体人脸，提供步骤三中所需的3D人脸；

步骤三，通过face_alignment模型对3D人脸识别进行人脸模型的数据采集；利用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合，进行唇形预测。基于步骤一合成的音频和步骤二重构的3维立体人脸，捕捉嘴唇位置并通过音频驱动，生成包含唇部动作信息的局部数组；

步骤四，基于步骤三中生成的局部数组，利用GAN网络进行视频合成。

进一步，步骤四中，所述利用GAN网络进行视频合成包括：利用GAN网络生成模型和判别模型进行互相博弈学习，对每次对生成的图像进行自动判别，产生视频合成的最优结果。

所述端到端即文本到视频的视频合成方法具体包括：

采用3DMM方法，从视频Tv中提取连续的仅下半部分人脸帧组成的窗口V和一个大小为Ta×D的语音段S，其中Tv和Ta分别是视频和音频的时间步长，输入到口型同步专家，通过随机抽取一个音频窗口Ta×D的样本，对音频和视频之间的同步进行辨别，包含一个面状编码器和一个音频编码器，两者都由二维卷积组成，计算编码器生成的嵌入物之间的L2距离，并用最大边际损失来训练模型，以最小化或最大化同步或不同步对之间的距离，达到对每个样本产生一个介于[0,1]之间的单一值，表示输入的音视频对同步的概率；

GAN生成器网络主要有三个模块，(i)身份编码器，(ii)语音编码器，和(iii)人脸解码器，身份编码器是一个残差卷积层的堆栈，对随机参考帧R进行编码，通过face_alignment模型对3D人脸识别进行人脸模型的数据采集，并沿信道轴线与一个位置-优先级P进行连接；语音编码器也是一个二维卷积的堆栈，对输入的语音段S进行编码，将其与人脸表示并联；解码器也是一个卷积层的堆栈，还有用于上采样的转置卷积，生成器被训练成最小化生成帧Lg和地面真实帧LG之间的L1重建损失；

生成器就是一个2D-CNN编解码器网络，独立生成每一帧；

惩罚不准确的唇语生成，在训练过程中，由于训练的口型同步专家一次处理Tv＝5个连续帧，也需要生成器G来生成所有Tv＝5个帧；对参考帧的随机连续窗口进行采样；在输入参考帧的同时，将时间步长沿批次维度堆叠，得到(N-Tv,H,W,3)的输入形状，其中N、H、W分别为批次大小、高度和宽度；在将生成的帧送入专家鉴别器的同时，将时间步长沿信道维度进行串联；结果输入到专家鉴别器中，得到的输入形状为(N-Tv,H,W,3)；识别器的输入形状为(N,H/2,W,3-Tv)，其中只有生成的人脸的下半部分被用于识别；同时对生成器进行训练，使专家判别器的"专家同步损失"Esyncf最小化；

其中

是根据公式(1)计算。请注意，在生成器的训练过程中，专家判别器的权重保持冻结；当损失达到最小时训练结束，输入任意音频数据到模型所得到的数值，就是生成连续真实的人脸图像。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

构建基于espnet2框架的语音合成模型，基于专业级人声数据库对构建的语音合成模型进行训练，并利用训练好的语音合成模型进行语音合成；

采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像；

通过face_alignment模型对3D人脸识别进行人脸模型的数据采集；利用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合，进行唇形预测；

利用GAN网络进行视频合成。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

利用GAN网络进行视频合成。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的端到端即文本到视频的视频合成方法。

本发明的另一目的在于提供一种实施所述端到端即文本到视频的视频合成方法的端到端即文本到视频的视频合成系统，所述端到端即文本到视频的视频合成系统包括：

语音合成模块，用于基于采用espnet2框架并利用业级人声数据库训练的语音合成模型进行语音合成；

人脸建模模块，用于采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像；

唇形预测模块，用于利用face_alignment模型对3D人脸识别，进行人脸模型的数据采集；使用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合起来；

图像处理模块，用于利用GAN网络进行图像合成处理。

本发明的另一目的在于提供一种所述端到端即文本到视频的视频合成方法在生成媒体新闻控制系统中的应用。

本发明的另一目的在于提供一种所述端到端即文本到视频的视频合成方法在生成培训课件控制系统中的应用。

本发明的另一目的在于提供一种所述端到端即文本到视频的视频合成方法在生成广告视频控制系统中的应用。

本发明的另一目的在于提供一种所述端到端即文本到视频的视频合成方法在导游、导览、讲解控制系统中的应用。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明结合人工智能相关新兴技术(TTS、GAN网络、人脸建模等)提出了一种端到端(文本到视频)的视频合成技术，效率更高，资源占用更低。

本发明从文本直接生成绘声绘色的虚拟主播进行新闻报道，只需要11秒左右(本数据基于：GTX 1060算力6.1T，生成4秒视频，分辨率为256X256，23帧/秒的视频)，如果投入算力进一步提高，生成视频需要的时间将进一步减少。

本发明可以迅速完成紧急、突发状况下新闻视频的制作；本发明用户可以将喜欢的新闻文本(或其它内容文本)，按需进行视频化播放。

本发明基于专业级人声数据库对语音合成模型进行训练，不仅在发音方面有极高的正确率；而且生成速度极快，效率极高(例：15秒的音频生成只需要1-2秒)。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的端到端即文本到视频的视频合成方法流程图。

图2是本发明实施例提供的端到端即文本到视频的视频合成系统结构示意图；

图中：1、语音合成模块；2、人脸建模模块；3、唇形预测模块；4、图像处理模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种端到端即文本到视频的视频合成方法、系统、介质及应用，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的端到端即文本到视频的视频合成方法包括以下步骤：

S101，构建基于espnet2框架的语音合成模型，基于专业级人声数据库对构建的语音合成模型进行训练，并利用训练好的语音合成模型进行语音合成；

S102，采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像；

S103，通过face_alignment模型对3D人脸识别进行人脸模型的数据采集；利用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合，进行唇形预测；

S104，利用GAN网络进行视频合成。

本发明提供的端到端即文本到视频的视频合成方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的端到端即文本到视频的视频合成方法仅仅是一个具体实施例而已。

在本发明的实施例中步骤S104中，本发明实施例提供的利用GAN网络进行视频合成包括：利用GAN网络生成模型和判别模型进行互相博弈学习，对每次对生成的图像进行自动判别，产生视频合成的最优结果。

本发明实施例提供的端到端即文本到视频的视频合成方法具体包括以下步骤：

文本到语音的合成模型espnet2不再赘述，相关资料很多，本发明直接从视频数据的处理开始。

采用3DMM方法，从视频Tv中提取连续的仅下半部分人脸帧(BFM数据库将人脸关键点标记为68个顶点坐标，可以轻易得到仅包含嘴部的像素数据)组成的窗口V和一个大小为Ta×D的语音段S，其中Tv和Ta分别是视频和音频的时间步长，输入到口型同步专家。它通过随机抽取一个音频窗口Ta×D的样本，对音频和视频之间的同步进行辨别，该音频窗口要么与视频对齐(同步)，要么来自不同的时间步长(不同步)。它包含一个面状编码器和一个音频编码器，两者都由二维卷积组成。计算这些编码器生成的嵌入物之间的L2距离，并用最大边际损失来训练模型，以最小化(或最大化)同步(或不同步)对之间的距离。以达到对每个样本产生一个介于[0,1]之间的单一值，表示输入的音视频对同步的概率。

本发明的GAN生成器网络主要有三个模块。(i)身份编码器，(ii)语音编码器，和(iii)人脸解码器。身份编码器是一个残差卷积层的堆栈，它对随机参考帧R进行编码，通过face_alignment模型对3D人脸识别进行人脸模型的数据采集，并沿信道轴线与一个位置-优先级P(目标-脸部，下半部被遮挡)进行连接。语音编码器也是一个二维卷积的堆栈，对输入的语音段S进行编码，然后将其与人脸表示并联。解码器也是一个卷积层的堆栈，还有用于上采样的转置卷积。生成器被训练成最小化生成帧Lg和地面真实帧LG之间的L1重建损失。

因此，生成器就是一个2D-CNN编解码器网络，独立生成每一帧。

惩罚不准确的唇语生成。在训练过程中，由于训练的口型同步专家一次处理Tv＝5个连续帧，本发明也需要生成器G来生成所有Tv＝5个帧。本发明对参考帧的随机连续窗口进行采样，以确保整个Tv窗口中姿势等的时间一致性。由于本发明的生成器是独立处理每一帧，所以本发明在输入参考帧的同时，将时间步长沿批次维度堆叠，得到(N-Tv,H,W,3)的输入形状，其中N、H、W分别为批次大小、高度和宽度。在将生成的帧送入专家鉴别器的同时，将时间步长沿信道维度进行串联，这在鉴别器的训练过程中也是如此，结果输入到专家鉴别器中，得到的输入形状为(N-Tv,H,W,3)。识别器的输入形状为(N,H/2,W,3-Tv)，其中只有生成的人脸的下半部分被用于识别。同时对生成器进行训练，使专家判别器的"专家同步损失"Esyncf最小化。

其中

是根据公式(1)计算。请注意，在生成器的训练过程中，专家判别器的权重保持冻结。这种纯粹基于从真实视频中学习到的唇语同步概念的强辨别，迫使生成器也要实现真实的唇语同步，以最小化唇语同步损失E_sync。当损失达到最小时训练结束。这时输入任意音频数据到模型所得到的数值，就是生成连续真实的人脸图像。

如图2所示，本发明实施例提供的端到端即文本到视频的视频合成系统包括：

语音合成模块1，用于基于采用espnet2框架并利用业级人声数据库训练的语音合成模型进行语音合成；

人脸建模模块2，用于采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像；

唇形预测模块3，用于利用face_alignment模型对3D人脸识别，进行人脸模型的数据采集；使用LSTM根据唇部动作得到人脸特征后，将唇部动作和语音文字结合起来；

图像处理模块4，用于利用GAN网络进行图像合成处理。

下面结合具体实施例对本发明的技术方案作进一步描述。

AI虚拟主播利用先进的语音合成、人脸建波、唇形预测、图像处理等多项人工智能技术，实现了端到端(文本到视频)的自动播报视频输出。

语音合成：采用espnet2框架，基于专业级人声数据库进行训练，不仅在发音方面有极高的正确率；而且生成速度极快，效率极高(例：15秒的音频生成只需要1-2秒)。

人脸建模：采用3DMM方法，在BFM数据库给定的人脸顶点坐标上，运用图形学技术进行渲染，生成人脸图像。

唇形预测：利用face_alignment模型对3D人脸良好的识别，进行人脸模型的数据采集；使用LSTM根据唇部动作得到人脸特征后，把唇部动作和语音文字结合起来。

图像处理：为得到更加清晰的人脸图像，本发明给模型添加了GAN网络(生成式对抗网络)。网络通过框架中两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习，对每次对生成的图像进行自动判别，产生图像输出的最优结果。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。