CN113256765A

CN113256765A - Ai主播视频的生成方法、装置、电子设备及存储介质

Info

Publication number: CN113256765A
Application number: CN202110519344.3A
Authority: CN
Inventors: 陈达勤; 宋博宁; 浣军; 李曈; 娄明; 王淳
Original assignee: Beijing Shenshang Technology Co ltd
Current assignee: Beijing Shenshang Technology Co ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-13

Abstract

本申请提供了一种AI主播视频的生成方法、装置、电子设备及存储介质，涉及人工智能技术领域。方法包括将音频数据和AI主播图像作为第一模型的输入运算，得到第一唇形图像序列；将第一唇形图像序列作为第二模型的输入运算，得到第二唇形图像序列；将第二唇形图像序列与AI主播图像进行图像融合，得到AI主播视频；第一模型是以历史音频数据和AI主播图像作为输入，唇形图像作为输出训练得到的，第二模型是以第一清晰度的历史唇形图像序列作为输入，第二清晰度的历史唇形图像序列作为输出训练得到的，第二清晰度高于第一清晰度。本申请提供的方法、装置、电子设备及存储介质可以较低成本得到高清晰度的唇形图像，降低AI主播视频的制作成本。

Description

AI主播视频的生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种AI主播视频的生成方法、装置、电子设备及存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)的发展，AI主播视频越来越被广泛应用。

目前，AI主播视频的生成常用的方式是利用语音到文本转换模块，将文本转换为语音信号，再用预先设置好的三维人脸模型的动作，根据预先设置好的关键帧唇形，利用动画和渲染的技术将中间的唇形和谐地渲染出来。

然而，采用这样的方式需要花费很高成本建立细致逼真的唇形模型，导致AI主播视频的制作成本过高，难以大规模应用到各种各样的用户群体。

发明内容

本申请实施例提供了一种AI主播视频的生成方法、装置、电子设备及存储介质，用以解决现有技术中存在的AI主播视频的制作成本过高的问题。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供了一种AI主播视频的生成方法，包括：

将待播报文本转换为音频数据；

将所述音频数据和确定出的AI主播图像作为预先训练的第一模型的输入进行运算，得到第一唇形图像序列；

将所述第一唇形图像序列作为预先训练的第二模型的输入进行运算，得到第二唇形图像序列；

将所述第二唇形图像序列与所述AI主播图像进行图像融合，得到与所述第二唇形图像序列对应的AI主播视频；

其中，所述第一模型是以历史音频数据和与所述历史音频数据对应的AI主播图像作为输入，与所述历史音频数据对应的唇形图像作为输出进行训练得到的，所述第二模型是以第一清晰度的历史唇形图像序列作为输入，第二清晰度的所述历史唇形图像序列作为输出进行训练得到的，所述第二清晰度高于所述第一清晰度。

在一个可能的设计中，所述方法还包括：

响应针对所述AI主播图像的选取指令，确定出所述AI主播图像；或

基于所述待播报文本的文本特征，确定出与所述待播报文本的文本特征匹配的所述AI主播图像。

在一个可能的设计中，所述方法还包括：

依据所述待播报文本生成多段字幕；

依时序将所述多段字幕添加至所述AI主播视频中。

在一个可能的设计中，所述依据所述待播报文本生成多段字幕，包括：

依据所述待播报文本的文本风格，确定出文字大小和文字效果；

基于所述待播报文本的文本内容、所述待播报文本的文本长度、所述文字大小、所述文字效果和所述AI主播视频的视频宽度，生成长度小于等于所述视频宽度的所述多段字幕。

在一个可能的设计中，所述将所述第二唇形图像序列与所述AI主播图像进行图像融合，得到与所述第二唇形图像序列对应的AI主播视频之后，所述方法还包括：

对所述AI主播视频中每帧图像的唇形边缘区域进行平滑处理。

在一个可能的设计中，所述第一模型为Unet模型或Unet-HD模型。

在一个可能的设计中，所述第二模型为Pix2Pix模型或Pix2Pix-HD模型。

第二方面，本申请实施例提供了一种AI主播视频的生成装置，包括：

转换单元，用于将待播报文本转换为音频数据；

第一运算单元，用于将所述音频数据和确定出的AI主播图像作为预先训练的第一模型的输入进行运算，得到第一唇形图像序列；

第二运算单元，用于将所述第一唇形图像序列作为预先训练的第二模型的输入进行运算，得到第二唇形图像序列；

融合单元，用于将所述第二唇形图像序列与所述AI主播图像进行图像融合，得到与所述第二唇形图像序列对应的AI主播视频；

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现以下流程：

将待播报文本转换为音频数据；

第四方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下流程：

将待播报文本转换为音频数据；

本申请一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：

由于将音频数据和确定出的AI主播图像作为第一模型的输入运算得到第一唇形图像序列，并将第一唇形图像序列作为第二模型的输入运算得到第二唇形图像序列，然后将第二唇形图像序列与AI主播图像进行图像融合，得到AI主播视频，而第二模型是以清晰度低的历史唇形图像序列作为输入，清晰度高的历史唇形图像序列作为输出进行训练得到的，因此能够以较低的成本得到较高清晰度的唇形图像序列，从而降低AI主播视频的制作成本，可大规模应用到各用户群体。

附图说明

此处所说明的附图用来提供对本文件的进一步理解，构成本文件的一部分，本文件的示意性实施例及其说明用于解释本文件，并不构成对本文件的不当限定。在附图中：

图1为本申请一个实施例提供的AI主播视频的生成方法流程示意图。

图2为本申请一个实施例提供的电子设备的结构示意图。

图3为本申请一个实施例提供的AI主播视频的生成装置的结构示意图。

具体实施方式

为了解决现有技术中存在的AI主播视频的制作成本过高的问题，本申请实施例提供了一种AI主播视频的生成方法、装置、电子设备及存储介质，该AI主播视频的生成方法、装置、电子设备及存储介质能够以较低的成本得到较高清晰度的唇形图像序列，从而降低AI主播视频的制作成本。

本申请实施例提供了的AI主播视频的生成方法可应用于服务器，所述服务器可以是网络服务器或数据库服务器。

为了便于描述，除特别说明外，本申请实施例均以服务器为执行主体进行说明。

可以理解，所述执行主体并不构成对本申请实施例的限定。

可选的，AI主播视频的生成方法如图1所示，可以包括如下步骤：

步骤S101，将待播报文本转换为音频数据。

本申请实施例中，可通过较为成熟的从文本到语音(Text To Speech，TTS)转换系统将待播报文本转换为音频数据，系统中可储备不同语言、不同方言的声音模型，可以支持用户多语言场景下的AI主播视频生成。

步骤S102，将音频数据和确定出的AI主播图像作为预先训练的第一模型的输入进行运算，得到第一唇形图像序列。

本申请实施例中，可预先建立用于唇形图像生成的第一模型，该第一模型可以是以历史音频数据和与历史音频数据对应的AI主播图像作为输入，与历史音频数据对应的唇形图像作为输出进行训练得到的。所述第一模型可以是，但不限于Unet模型、Unet-HD(High-Resolution)模型或条件生成-对抗网络(Conditional Generative AdversarialNetworks，CGAN)模型。

与历史音频数据对应的AI主播图像是指，该历史音频数据与该AI主播图像对应同一个体(用户)。为了能够训练足够强大的模型，在训练第一模型时，可以广泛收集大量不同个体讲述不同语言的视频和音频，通过音视频处理算法得到高质量的音频和面部唇形对齐的训练数据，训练数据涵盖各个年龄段、各个职业、不同说话习惯的个体，以便能够训练出足够强大的模型。训练第一模型时，可加入时序上的监督来让模型生成过渡自然的唇形图像，即训练输出的相邻帧唇形图像的差异(如可以通过求相邻唇形图像之间对应像素点的像素差确定出)不能过大，当训练输出的相邻帧唇形图像的差异过大(如相邻图像之间对应像素点的像素差之和或均值超过一预设值)，则通过反向传播调整模型的权重，如此使得训练的第一模型输出的唇形图像序列过渡自然，避免出现唇形抖动问题。

另外，在训练第一模型时还可根据AI主播的面部角度建立对应不同角度的第一模型，从而可适用于不同人脸角度的应用场景。

在将待播报文本转换为音频数据后，可将音频数据和确定出的AI主播图像作为预先训练的第一模型的输入进行运算，得到第一唇形图像序列。

本申请实施例中，还可预先建立模特数据库，模特数据库中记录有大量AI主播(模特)形象、模特表情、模特动作、模型着装、背景等素材。在确定AI主播图像时，用户可通过与服务器通信连接的终端设备(如手机、平板、个人电脑等)向服务器发送针对AI主播图像的选取指令，从而确定出AI主播图像。或者，可基于待播报文本的文本特征，确定出与待播报文本的文本特征匹配的AI主播图像。

步骤S103，将第一唇形图像序列作为预先训练的第二模型的输入进行运算，得到第二唇形图像序列。

本申请实施例中，还预先训练有输出清晰度更高的唇形图像序列的第二模型，所述第二模型是以第一清晰度的历史唇形图像序列作为输入，第二清晰度的历史唇形图像序列作为输出进行训练得到的，其中第二清晰度高于第一清晰度。也即，在训练第二模型时，可以以同一唇形图像的两个清晰度不同的版本分别作为模型的输入和输出，其中清晰度低的唇形图像作为模型的输入，清晰度高的唇形图像作为模型的输出。所述第二模型可以是，但不限于Pix2Pix模型、Pix2Pix-HD(High-Resolution)模型或条件生成-对抗网络(Conditional Generative Adversarial Networks，CGAN)模型。

在将音频数据和确定出的AI主播图像作为预先训练的第一模型的输入进行运算，得到第一唇形图像序列后，可将将第一唇形图像序列作为预先训练的第二模型的输入进行运算，得到清晰度更高的第二唇形图像序列。

步骤S104，将第二唇形图像序列与AI主播图像进行图像融合，得到与第二唇形图像序列对应的AI主播视频。

具体的，可以利用图像融合处理算法将第二唇形图像序列中的每张唇形图像中的唇形区域叠加在AI主播图像的上层，从而得到与第二唇形图像序列对应的AI主播视频。

例如，第二唇形图像序包括100张唇形图像，则可依时序将100张唇形图像中的唇形区域分别叠加在AI主播图像的上层，从而得到100帧连续的AI主播图像，该100帧连续的AI主播图像即构成所述AI主播视频。

进一步的，在得到AI主播视频之后，还可对AI主播视频中每帧图像的唇形边缘区域进行平滑处理，如此可使得视频中唇形边缘区域与其相邻区域之间形成平滑的过渡，AI主播形象更逼真。

本申请实施例提供的AI主播视频的生成方法，通过将待播报文本转换为音频数据，将音频数据和确定出的AI主播图像作为第一模型的输入运算得到第一唇形图像序列，并将第一唇形图像序列作为第二模型的输入运算得到第二唇形图像序列，然后将第二唇形图像序列与AI主播图像进行图像融合，得到AI主播视频，而第二模型是以清晰度低的历史唇形图像序列作为输入，清晰度高的历史唇形图像序列作为输出进行训练得到的，因此除了训练模型和AI主播图像的拍摄成本外，无其他额外成本，能够以较低的成本得到较高清晰度的唇形图像序列，从而降低AI主播视频的制作成本，可大规模应用到各用户群体。同时，本申请实施例提供的AI主播视频的生成方法，生成过程可全部自动化处理，无需人工干涉，可完全依靠云服务器的高拓展性可支持大批量高并发任务。其次，由于通过模型训练的方式，AI主播视频的生成时间更短，提升了AI主播视频的生成效率。另外，通过对AI主播视频中每帧图像的唇形边缘区域进行平滑处理，如此可使得视频中唇形边缘区域与其相邻区域之间形成平滑的过渡，AI主播形象更逼真。

本申请实施例还提供了一种在AI主播视频中添加字幕的可能设计一。其可以包括，但不限于如下步骤：

步骤S201，依据待播报文本生成多段字幕。

本申请实施例中，生成多段字幕时，可以先依据待播报文本的文本风格，确定出文字大小和文字效果，不同的文本风格可以采用不同的文字大小和/或文字效果(如不同字体或不同类型的艺术字等)。然后根据待播报文本的文本内容、待播报文本的文本长度、文字大小、文字效果和AI主播视频的视频宽度(即AI主播视频中任意一帧图像的宽度)，生成长度小于等于视频宽度的多段字幕。该多段字幕的内容依序组合起来可以是待播报文本的文本内容，也可以是待播报文本中的部分关键内容，本申请实施例中不做具体限定。

步骤S202，依时序将生成的字幕添加至AI主播视频。

由此通过上述的可能设计一，可根据待播报文本的文本风格，匹配与文本风格相适应的字幕，满足用户更方便观看AI主播视频的需要，提高用户的观看体验。

图2是本申请的一个实施例提供的电子设备的结构示意图。请参考图2，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成AI主播视频的生成装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

将待播报文本转换为音频数据；

上述如本申请图2所示实施例揭示的AI主播视频的生成装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，并实现AI主播视频的生成装置在图2所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

将待播报文本转换为音频数据；

图3是本申请的一个实施例提供的AI主播视频的生成装置的结构示意图。请参阅图3，在一种软件实施方式中，AI主播视频的生成装置包括：

转换单元，用于将待播报文本转换为音频数据；

总之，以上所述仅为本文件的较佳实施例而已，并非用于限定本文件的保护范围。凡在本文件的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本文件的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本文件中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种AI主播视频的生成方法，其特征在于，包括：

将待播报文本转换为音频数据；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

依据所述待播报文本生成多段字幕；

依时序将所述多段字幕添加至所述AI主播视频中。

4.根据权利要求3所述的方法，其特征在于，所述依据所述待播报文本生成多段字幕，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述第二唇形图像序列与所述AI主播图像进行图像融合，得到与所述第二唇形图像序列对应的AI主播视频之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述第一模型为Unet模型或Unet-HD模型。

7.根据权利要求1所述的方法，其特征在于，所述第二模型为Pix2Pix模型或Pix2Pix-HD模型。

8.一种AI主播视频的生成装置，其特征在于，包括：

转换单元，用于将待播报文本转换为音频数据；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现以下流程：

将待播报文本转换为音频数据；

10.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下流程：

将待播报文本转换为音频数据；