CN111741326A

CN111741326A - 视频合成方法、装置、设备及存储介质

Info

Publication number: CN111741326A
Application number: CN202010611693.3A
Authority: CN
Inventors: 董霙; 刘炳楠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-02
Anticipated expiration: 2040-06-30
Also published as: CN111741326B

Abstract

本申请公开了一种视频合成方法、装置、设备及存储介质，涉及视频处理领域。该方法包括：获取文本；获取文本对应的音频，对音频进行处理，得到音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数；获取标准化口型序列帧和含有主播形象的视频，标准化口型序列帧包括n种口型标识对应的口型视频帧；按照各个口型标识的口型时间点信息，将n种口型标识对应的口型视频帧与含有主播形象的视频进行合成处理，得到主播视频。无需预先训练用于合成视频的机器学习模型，只需提供文本即可实现合成主播视频，降低了视频的合成难度，同时提高了视频的合成效率。

Description

视频合成方法、装置、设备及存储介质

技术领域

本申请涉及视频处理领域，特别涉及一种视频合成方法、装置、设备及存储介质。

背景技术

通常以录制视频的方式直观地向大众传递信息，比如新闻播报、会议主持、法律科普、游戏解说等。

以新闻播报为例，为了降低人工录制视频的劳动强度，利用经过深度学习的机器学习模型对含有新闻播报语音的目标语音序列和含有新闻主播的人脸图像序列进行融合，得到新闻播报视频。

上述技术方案中，需要采集大量的样本语音和样本图像对机器学习模型进行训练，目标视频的合成难度较高，且合成效率较低。

发明内容

本申请实施例提供了一种视频合成方法、装置、设备及存储介质，通过获取到的文本合成视频，降低了视频合成的难度，提高了视频合成的效率。所述技术方案如下：

根据本申请的一方面，提供了一种视频合成方法，所述方法包括：

获取文本；

获取所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数；

获取标准化口型序列帧和含有主播形象的视频，所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧；

按照所述各个口型标识的口型时间点信息，将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理，得到主播视频。

根据本申请的另一方面，提供了一种视频合成装置，所述装置包括：

获取模块，用于获取文本；

所述获取模块，用于获取所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数；

所述获取模块，用于获取标准化口型序列帧和含有主播形象的视频，所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧；

合成模块，用于按照所述各个口型标识的口型时间点信息，将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理，得到主播视频。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频合成方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频合成方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上方面所述的视频合成方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

本申请实施例基于合成处理的思想，通过获取文本，结合获取到的文本对应的音频以及文本与音素的转化关系，确定音频中的n种口型标识和各个口型的口型时间点信息，利用获取到的文本、标准化口型系列帧以及含有主播形象的视频，结合各个口型的口型时间点信息合成主播视频。无需预先训练用于合成视频的机器学习模型，只需提供文本即可实现合成主播视频，降低了视频的合成难度，同时提高了视频的合成效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的视频合成方法的原理示意图；

图2是本申请一个示例性实施例提供的计算机系统的框架图；

图3是本申请一个示例性实施例提供的系统框架图；

图4是本申请一个示例性实施例提供的视频合成方法的流程图；

图5是本申请一个示例性实施例提供的口型类型的示意图；

图6是本申请另一个示例性实施例提供的视频合成方法的流程图；

图7是本申请一个示例性实施例提供的音素时间点预测模型的训练方法的流程图；

图8是本申请一个示例性示例提供的主播视频的效果图；

图9是本申请一个示例性实施例提供的采集视频数据的流程示意图；

图10是本申请一个示例性实施例提供的标准化口型序列帧的获取方法的流程图；

图11是本申请一个示例性实施例提供的含有主播形象的视频的获取方法的流程图；

图12是本申请另一个示例性实施例提供的视频合成方法的流程图；

图13是本申请一个示例性实施例提供的视频合成装置的结构框图；

图14是本申请一个示例性实施例提供的服务器的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例涉及的名词进行介绍。

音素：是指根据语音的自然属性划分出来最小语音单位，根据音节中的发音动作进行划分，一个发音动作构成一个音素。音素包括元音和辅音两种类型，比如，汉字“啊”字对应的音节为“a”，该汉字对应一个音素，又比如，汉字“爱”对应的音节为“ai”，该汉字对应两个音素，以此类推，汉字“带”对应有三个音素。需要说明的是，一个汉字最多对应四个音素，比如汉字“装”对应的音节为“zhuang”，该汉字对应四个音素：“zh”、“u”、“a”、“ng”。

如图1所示，本申请实施例提供了一种视频合成方法。采用本申请实施例提供的方法应用于合成任意类型的视频场景中。计算机设备首先获取文本，该文本的内容可以是关于新闻视频的内容、关于游戏解说的内容、关于法律科普的内容等，本申请实施例对文本的内容不加以限定。

在一些实施例中，计算机设备通过从文本到语音技术(Text to Speech，TTS)接口将输入的文本11转换为音频121。在另一些实施例中，音频121是预先录制的音频，文本是与该录制的音频对应的文本。本申请实施例对音频的获方式不加以限定。示意性的，在计算机设备接收到文本11时，将文本11进行标准化处理，即将文本中非文字的部分统一转化为文字，比如：北京时间19:30转化为北京时间十九点三十分。对标准化处理后得到的文本进行分词处理，根据分词处理后的文本得到每个词语对应的音素122。

然后，计算机设备将音频121和音素122输入至音素时间点预测模型15中，得到音素时间点信息16，该音素时间点信息16包括每个音素出现的时间点和结束的时间点。一个汉字对应一个或多个音素，计算机设备根据口型分配规则(如视位音规则，Viseme)将音素122转换为对应的口型。

计算机设备获得与文本11对应的口型以及与文本11对应的音素时间点信息，从而得到口型标识和口型时间点信息21。

示意性的，计算机设备预先存储有采集到的口型视频13，根据398种拼音从口型视频13中提取16种类型的口型，在一些实施例中，为了保证采集到的口型视频13更完整，采集口型视频13需要使用最终合成的主播视频的倍率进行采集，比如合成的目标视频的每秒传输帧数(Frames Per Second，FPS)为25至30，口型视频13采集时的每秒传输帧数为50至60。在口型视频13的采集过程中保持真人的头颈之间保持垂直状态。通过校正每个口型的时长、色彩、尺寸大小进行标准化处理，得到每个口型对应的标准化口型序列帧18。

计算机设备根据口型标识确定文本11对应的标准化口型序列帧18。

示意性的，计算机设备中预先存储有采集到的真人影像视频14。真人影像视频14包括真人全身视频和真人半身(上半身)视频。在真人的面部设置跟踪点，跟踪点用于捕捉真人在说话时的面部肌肉走向和面部变化。计算机设备根据真人影像视频14计算得到真人面部在三维空间上的移动数据和旋转角数据，从而根据移动数据和旋转角数据合成含有主播形象的视频17。

计算机设备根据文本11对应的音频121的时长从含有主播形象的视频17中提取与时长对应的视频帧。

最后，计算机设备按照口型时间点信息，将文本11对应的标准化口型序列帧18逐帧与含有主播形象的视频17进行合成处理，得到主播视频20。

在一些实施例中，计算机设备中设置有视频渲染服务，视频渲染服务将相邻两个口型序列帧之间预留部分序列帧作为两个口型之间的过渡，使得相邻两个口型序列帧之间能够更好地融合。

本申请实施例提供的方法，无需训练用于合成目标视频的机器学习模型，只需要用户提供文本，计算机设备即可根据文本合成对应的主播视频，降低了视频的合成难度，同时提高了视频的合成效率。

本申请实施例提供的视频合成方法可以应用于如下场景：

一、新闻播报场景。

在该应用场景下，采用本申请实施例提供的方法合成的视频可以应用于新闻应用程序的后台服务器中。后台服务器通过获取关于新闻视频的相关文本，比如新闻播报稿件。该文本可由用户通过新闻应用程序上传至后台服务器中，或者后台服务器中预先存储有该文本，后台服务器中预先存储有采集到的含有主播形象的视频和标准化口型序列帧，通过视频渲染服务对文本、含有主播形象的视频和标准化口型序列帧进行合成处理，得到主播视频。后台服务器将主播视频发送至终端中，用户在终端上观看合成的主播视频。示意性的，该主播视频中主播的形象为真人形象。通过本申请实施例提供的视频合成方法，只需提供关于新闻视频的文本，即可合成含有主播的新闻视频。示意性的，可将主播视频中包括的音频流替换为任意音频。

二、游戏解说场景。

在该应用场景下，采用本申请实施例提供的方法合成的视频可以应用于游戏应用程序的终端或者服务器中。示意性的，以应用于终端中为例。终端中存储有关于视频解说的文本，通过终端中设置的视频渲染服务对文本、含有主播形象的视频和标准化口型序列帧进行合成处理，得到主播视频。示意性的，主播形象是真人主播对应的虚拟人物形象(比如卡通人物形象)，终端通过采集真人主播的视频，利用真人主播的面部上的跟踪点得到面部的移动数据和旋转角度数据，从而终端根据这些数据构建真人主播对应的虚拟人物形象。

上述仅以两种应用场景为例进行说明，本申请实施例提供的方法还可以应用于其他需要合成视频的场景(比如科普场景、会议主持场景等)，本申请实施例并不对具体应用场景进行限定。

本申请实施例提供的视频合成方法可以应用于具有较强的数据处理能力的计算机设备中。在一种可能的实施方式中，本申请实施例提供的视频合成方法可以应用于个人计算机、工作站或服务器中，即可以通过个人计算机、工作站或服务器合成主播视频。

示意性的，将视频合成功能实现为应用程序的一部分，并将该应用程序安装在终端中，使得终端具有合成主播视频的功能；或者，将视频合成功能设置在应用程序的后台服务器中，使得安装有该应用程序的终端借助后台服务器合成主播视频。

请参考图2，其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端210和服务器220，其中，终端210与服务器220之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端210中安装有支持视频播放功能的应用程序，该应用程序可以是新闻应用程序、社交应用程序、直播应用程序、虚拟现实应用程序、游戏应用程序、短视频播放应用程序或支持虚拟卡通形象合成功能的人工智能(Artificial Intelligence，AI)应用程序，本申请实施例对此不作限定。

在一些实施例中，终端210可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对终端的类型不加以限定。

服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一种可能的实施方式中，服务器220是终端210中应用程序的后台服务器。

如图2所示，在本申请实施例中，通过预先采集到的真人影像视频13得到含有主播形象的视频17，真人影像视频13包括真人半身(上半身)视频和真人全身视频中的至少一种。通过对预先采集到的口型视频14进行标准化处理，得到标准化口型序列帧18，标准化口型序列帧18包括发出的每个音素时所作的口型动作组成的视频帧序列。服务器220存储有采集到的影像视频13和与口型视频14，或存储有含有主播形象的视频17和标准化口型序列帧18，避免在合成主播视频20时需要重复采集视频素材。

服务器220将输入的文本11转换为与该文本11对应的音频以及音素12，将音频以及音素12输入至音素时间点预测模型15中，得到音频12中每个音素的音素时间点信息16，即每个音素出现的起始时间和结束时间。通过视频渲染服务19将音素时间点信息16(服务器由音素时间点信息16可得到文本中的每个文字对应的口型时间点信息)、含有主播形象的视频17和标准化口型序列帧18进行融合，得到主播视频20。

当接收到终端210发送的文本(终端210预先存储的文本或终端210接收到的文本)时，服务器220即通过视频渲染服务19将标准化口型序列帧18按照时间顺序贴合到含有主播形象的视频17中，对贴合后的视频进行合成处理后得到主播视频20。将合成的主播视频20发送至终端210，在终端210上显示的视频播放界面上包括服务器220合成的主播视频20。主播视频20中主播的形象可以是真人形象，或者是真人对应的卡通形象。

在其他可能的实施方式中，上述视频渲染服务也可以设置在终端中，并由终端根据文本、含有主播形象的视频以及口型序列帧合成主播视频，而无需借助服务器220，本实施例对此不作限定。上述音频可以是由接收到的文本转换成的音频，或者是预先录制的音频，本申请实施例对音频的获得方式不加以限定。

为了方便表述，下述各个实施例以视频合成方法由计算机设备执行为例进行说明。

如图3所示，本申请实施例采用LNMP系统架构，LNMP系统架构指一组一起使用运行动态网站或服务器所组成的系统架构，其中，L代表Linux服务器，N代表Nginx服务器，M代表Mysql数据存储，P代表PHP(PHP:Hypertext Preprocessor，超文本预处理器)。系统架构包括接入层101、服务层102和架构层103，接入层101用于对用户提供的文本数据进行严格校验，将处理的素材通过JS对象简谱(JavaScript Object Notation，JSON)格式提供到服务层102，服务层102对数据进行存储并合成视频。

接入层101包括通信验证模块、数据验证模块和任务调度模块。

通信验证模块用于验证客户端的身份，比如，验证客户端是否登录有用户帐号。数据验证模块用于验证文本是否正确，比如，验证文本格式是否符合预设格式。任务调度模块用于调度合成视频的过程中的各个任务。

服务层102包括图片服务、音频服务和文本服务。其中，图片服务包括图像编辑服务(ImageMaick)和转换服务(Convert)，音频服务包括文本转语音服务(TTS，Text toSpeech)和音视频转换服务(FFMPEG，Fast Forward Moving Picture Experts Group)，文本服务包括机器学习框架服务(Pytorch)和语音识别服务(Kaldi-ASR)。

ImageMagick是一种用于创建，编辑，撰写，或转换图像的工具。它可以读取和写入各种格式(超过200种)的图像。Convert用于将图片元素转换为视频元素。

TTS用于将文本转换为语音，比如，将存储在终端的文件转换为自然语音输出。FFMPEG是用于记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，FFMPEG在Linux系统下开发，但它同样也可以在其它操作系统环境中编译运行，包括Windows、Mac OSX等。

Pytorch是一个开源的Python语言的机器学习库，用于自然语言处理等应用程序。Kaldi-ASR是一个语音识别工具库，支持多种语音识别的模型的训练和预测。其中部分神经网络还可以由配置文件进行自定义。

视频渲染服务包括主播视频服务和图文转视频服务。

主播视频服务用于将文本、标准化口型序列帧和含有主播形象的视频进行合成，得到主播视频。图文转视频服务用于将文章(文章中可能包含图片或不包含图片)转换为视频，本申请实施例中，图文转视频服务还用于将合成的主播视频嵌入其它视频元素中，生成混合视频。比如，一段新闻视频中既包括主播播报的视频帧还包括实际采访时采集的视频帧。

架构层103包括Linux服务器、Nginx服务器、超文本预处理器和Mysql数据存储。

Nginx是一个反向代理服务器，为后台服务器提供负载均衡或为后台较慢的服务器提供缓冲服务；Mysql是数据库，用于存储用户信息、文本、含有主播形象的视频和标准化口型序列帧等用于合成视频的数据，还可以缓存一些中间数据，比如，缓存文本对应的音素数据、音素时间点信息等；PHP是一种超文本预处理语言，用于对文本进行预处理，需要说明的是，除了采用PHP对文本进行预处理，还可通过其他计算机程序语言(如Python、C++等)对文本进行预处理，本申请实施例对文本的预处理方式不加以限定。

示意性的，本申请实施例提供的系统框架包括前端和后台，前端和后台之间通过接口描述语言和二进制通讯协议(Thrift)进行通信。Thrift是一种跨语言的软件框架，前端和后台可通过JS对象简谱格式传递数据，Thrift还支持以异步通信机制(node js)实现前端和后台之间的异步通信。

图4示出了本申请一个示例性实施例提供的视频合成方法的流程图。本实施例以该方法用于如图2所示计算机系统200中为例进行说明，该方法包括如下步骤：

步骤401，获取文本。

文本是指用于合成视频的相关文本，示意性的，合成视频为新闻视频，则文本是关于新闻播报内容的文本，或，合成视频为游戏视频，则文本是关于游戏攻略等内容的文本。计算机设备能够识别的文本扩展名包括文本文件格式(txt)和文档格式(doc、docx)。

在一些实施例中，服务器从终端获取文本，或服务器预先存储有文本。本申请对获取文本的方式不加以限定。

示意性的，用户使用的终端安装有支持主播视频合成的第一应用程序，文本是用户在终端中创建文本，或文本是终端中存储有文本，或文本是通过终端接收其它终端发送的文本，或文本是通过第一应用程序调用终端中的第二应用程序后得到的文本，第二应用程序是终端上运行的支持文本功能的应用程序。

在一个示例中，用户将终端中存储的文本通过第一应用程序发送至服务器，使得服务器获取文本。

示意性的，服务器预先存储有多种类型的文本，不同类型的文本用于合成不同类型的视频。在一些实施例中，服务器中构建有文本合成模型，该文本合成模型可基于服务器已有的文本合成新的文本，使得服务器拥有更多种类的文本，合成视频的类型更加丰富。

步骤402，获取文本对应的音频，对音频进行处理，得到音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数。

在一些实施例中，文本对应的音频是通过终端采集的，或通过TTS技术生成的，本申请对音频的获取方式不加以限定。

示意性的，用户可通过终端录制文本对应的音频，或者通过其他录音工具(如录音笔)录制文本对应的音频，将录制的音频存储至终端中。在一些实施例中，步骤402可先于步骤401执行，即当音频已录制完成时，可通过为音频配置对应的文本来达到获取文本的目的。

示意性的，通过TTS技术将文本转换自然语言输出，输入的文本的语言为第一类语言，输出的音频的语言为第一类语言或第二类语言，比如，输入的文本的语言为汉语，则输出的音频也为汉语，又如，文本内容使用的语言为汉语，输出的音频的语言为英语。本申请实施例以文本和音频的语言均为汉语为例进行说明。

音素是指根据语音的自然属性划分出来最小语音单位，根据音节中的发音动作进行划分，一个发音动作构成一个音素。一个汉字对应一个或多个音素，音频对应多个音素组成的音素序列。一个或多个音素的发音动作组成一个汉字的口型。

为了简化口型数据，本申请实施例将398种拼音处理简化为8种口型，并对8种口型细分为16种口型，建立398种拼音与16种口型之间的分配规则。如图5所示，398种拼音分为“A”、“AO”、“UO”、“ZH”等8种类型，可以理解的是，“ZH”与“SH”、“CH”属于同一类型口型。根据口型分配规则将8种类型的口型细分为“Ba”、“Duo”、“Zhi”等16种类型，每种类型的口型均对应有口型标识，如口型标识A对应的口型种类为“Ba”。本申请实施例对口型标识的表示方法不加以限定。

在计算机设备对音频进行处理后，计算机设备除了得到n种口型标识(n为正整数)，还得到各个口型的口型时间点信息。示意性的，一段音频包括“法制报纸”四个汉字，计算机设备对该段音频进行处理，得到三种口型标识，分别为：口型标识F，口型标识O和口型标识E(“制”和“纸”对应同一种类型的口型)。计算机设备对该段音频处理后，还得到该四个汉字对应的四个口型标识的口型时间点信息。口型时间点信息是指单个口型出现的起始时间点和结束时间点对应的信息，比如，口型标识F对应的起始时间点为0(秒)，结束的时间点为0.1(秒)。

步骤403，获取标准化口型序列帧和含有主播形象的视频，标准化口型序列帧包括n种口型标识对应的口型视频帧。

标准化口型序列帧是经过标准化处理的口型视频帧，标准化口型序列帧适用于含有任意主播形象的视频中。示意性的，服务器预先存储有标准化口型序列帧，或者，标准化口型序列帧是通过计算机设备采集到的口型视频帧，如通过用户使用的终端采集口型视频帧，并将口型视频帧上传到服务器中，或者，标准化口型序列帧是已公开的数据集中的口型视频帧。

含有主播形象的视频是指视频中存在主播形象的视频，视频中包括一个或多个主播，主播形象包括主播全身形象和上半身形象中的至少一种，主播形象包括真人主播形象、虚拟主播形象和两者结合后的形象中的至少一种，其中，虚拟主播形象可以是以真人主播形象构建的虚拟人物形象，或者虚拟动物形象，(如主播的面部为兔子的面部)。在一个示例中，主播形象为半身形象，其中主播的面部为兔子的面部，主播的上半身为人的上半身。示意性的，服务器预先存储有含有主播形象的视频，或者通过终端采集含有主播形象的视频，并将视频上传至服务器中，或者，使用已公开的数据集中含有主播形象的视频。

在一些实施例中，服务器先获取标准化口型序列帧，再获取含有主播形象的视频，或者，服务器先获取含有主播形象的视频，再获取标准化口型序列帧，或者服务器同时获取标准化口型序列帧和含有主播形象的视频，本申请实施例对此不加以限定。

步骤404，按照各个口型标识的口型时间点信息，将n种口型标识对应的口型视频帧与含有主播形象的视频进行合成处理，得到主播视频。

计算机设备根据步骤403得到的各个口型标识的口型时间点信息，按照时间点顺序，将使用到的各个口型的口型视频帧与含有主播形象的视频进行合成处理。示意性的，计算机设备调用如图3所示的主播视频服务对n种口型标识对应的口型视频帧和含有主播形象的视频进行合成处理，得到主播视频。主播视频中包括一个或多个主播形象。该主播视频中的主播为真人主播形象或虚拟主播形象，或者两者的结合。在一些实施例中，主播视频包括与主播对应的视频帧，或者主播视频包括无主播形象的视频帧(如实际采访的视频帧)，或者主播视频包括主播对应的视频帧和无主播形象的视频帧结合后的视频帧。

综上所述，本实施例提供的方法基于合成处理的思想，通过获取文本，结合获取到的文本对应的音频以及文本与音素的转化关系，确定音频中的n种口型标识和各个口型的口型时间点信息，利用获取到的文本、标准化口型系列帧以及含有主播形象的视频，结合各个口型的口型时间点信息合成主播视频。无需预先训练用于合成视频的机器学习模型，只需提供文本即可实现合成主播视频，降低了视频的合成难度，同时提高了视频的合成效率。

图6示出了本申请另一个示例性实施例提供的视频合成方法的流程图。本实施例以该方法用于如图2所示计算机系统200中为例进行说明，该方法包括如下步骤：

步骤601，获取文本。

示意性的，文本为与新闻视频相关为文本，服务器获取文本的方式为终端将文本上传至服务器中。该文本为用户在使用的终端中创建的文本，文本的扩展名为txt。

步骤602，获取文本对应的音频，对音频进行处理，得到音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数。

示意性的，文本对应的音频的获取方式是通过计算机设备调用TTS服务将获取到的文本转换为音频。步骤602可替换为如下步骤：

步骤6021，根据文本得到文本对应的音频，对音频进行处理，得到音频中的音素序列。

示意性的，计算机设备调用TTS服务将文本转换为文本对应的音频，计算机设备对音频进行处理，通常的处理方式为：计算机设备对文本进行标准化处理，对标准化处理后的文本进行分词处理，得到文本中的词汇，由此得到音频中的音素序列。上述标准化处理通常是将文本中非文字的部分转换为文字，比如电话号码、时间、邮政编码等数字，示意性的，19:30分转换为十九点三十分。上述分词处理是将文本中的语句划分为词汇，避免因为语句中存在多音字而出现音素识别错误的情况，比如，文本中包括语句“小明要去银行”，“行”为多音字，在该文本中的音素序列为“h”、“a”、“ng”，音素不同对应的口型也不相同。

步骤6022，根据口型分配规则对音素序列进行划分，得到音素序列对应的n种口型，n种口型对应有n种口型标识。

示意性的，口型分配规则为视位音规则，结合如图5所示的口型类型，将文本对应的音素序列划分为对应类型的口型。如上述实施例中的“法制报纸”涉及三种类型的口型标识。

步骤6023，调用音素时间点预测模型对文本对应的音频和音素序列进行识别，得到音素序列对应的各个口型标识的口型时间点信息，口型时间点信息包括各个口型标识出现的开始时间和结束时间。

音素时间点预测模型是具有口型时间点信息预测能力的机器学习模型。

计算机设备调用音素时间点模型对文本对应的音频和音素序列进行识别，识别原理为：计算机设备根据音素序列确定文本对应的音频需要使用的口型类型，计算机设备根据音频播放时的时间顺序，从而确定各个开口型标识的口型时间点信息。

在一些实施例中，音素时间点预测模型具有识别音素时间点信息的能力，即将文本对应的音频和音素序列输入至音素时间点预测模型中，得到每个音素出现的起始时间和结束时间，一个汉字可能对应一个或多个音素，将一个汉字对应的音素进行拼接，得到一个汉字出现的起始时间和开始时间，从而得到一个口型出现的起始时间和结束时间(口型时间点信息)。

在一些实施例中，音素时间点预测模型是预先训练好的机器学习模型。音素时间点模型是通过如下方式训练得到的，如图7所示：

步骤701，获取样本文本和样本音频，样本音频中的样本音素序列标定有各个口型标识的口型时间点信息。

示意性的，计算机设备将通过各种方式获取到的文本作为样本文本，将通过各种方式获取到的音频作为样本音频。同理，对样本文本进行标准化处理、分词处理后得到样本音素序列。该样本音频中的样本音素序列带有标定结果，即对音素序列对应的各个口型标识的口型时间点信息进行标定。

步骤702，对样本音素序列和样本音频进行特征提取，得到样本音素序列对应的第一特征向量和样本音频对应的第二特征向量。

计算机设备对样本音素序列和样本音频进行特征提取，得到第一特征向量和第二特征向量，特征提取方式包括过滤法(Filter)、封装法(Wrapper)和嵌入法(Embed)、独热编码方式(One-HotEncoding)等，本申请实施例对特征的提取方式不加以限定。

步骤703，将第一特征向量和第二特征向量输入至音素时间点预测模型中，得到样本音素序列对应的各个口型标识的预测口型时间点信息。

计算机设备将提取到的第一特征向量和第二特征向量输入至音素时间点预测模型中，得到各个口型标识的预测口型时间点信息。

在一些实施例中，计算机设备将提取到的第一特征向量和第二特征向量输入至音素时间点模型得到音素序列中各个音素的预测音素时间点信息，计算机设备由各个音素的预测音素时间点信息得到每个汉字出现的时间点信息，从而得到各个口型标识的预测口型时间点信息。同理，在该情况下，在样本音素序列中标定有音素时间点信息，计算机设备根据标定的音素时间点信息得到各个口型标识的口型时间点信息。

步骤704，根据各个口型标识的口型时间点信息和各个口型标识的预测口型时间点信息对音素时间点预测模型进行训练，得到训练后的音素时间点预测模型。

计算机设备计算各个口型标识的口型时间点信息和各个口型标识的预测口型时间点信息之间的误差，利用误差反向传播算法对音素时间点预测模型，得到训练后的音素时间点预测模型。本申请实施例对计算误差使用的误差函数的类型不加以限定。

步骤603，获取标准化口型序列帧和含有主播形象的视频，标准化口型序列帧包括n种口型标识对应的口型视频帧。

示意性的，标准化口型序列帧是通过采集口型视频得到的，含有主播形象的视频是通过采集真人主播的影像视频得到的。在一些实施例中，计算机设备通过采集真人主播的影像视频可得到含有主播形象的视频以及口型视频帧，即计算机设备采集一次视频即可得到两种类型的视频帧。由于在该情况下采集到的口型视频帧与真人主播对应，采用单独采集口型视频的方式得到标准化口型序列帧，使标准化口型序列帧适用于更多类型的含有主播形象的视频。标准化口型序列帧包括如图5所示的多种口型标识对应的口型视频帧。

步骤604，从标准化口型序列帧中获取n种口型标识对应的口型视频帧。

计算机设备根据n种口型标识确定口型标识对应的口型视频帧，并将口型标识对应的口型视频帧从标准化口型序列帧中提取出来。示意性的，如上述实施例中涉及的“法制报纸”对应的三种口型标识，计算机设备根据口型标识F、口型标识O和口型标识E从标准化口型序列帧中提取出与口型标识对应的三种口型视频帧。

步骤605，按照各个口型标识的口型时间点信息，将各个口型标识对应的口型视频帧贴合在含有主播形象的视频的视频帧中，得到主播视频。

在计算机设备贴合视频帧时，步骤605可替换为如下步骤：

步骤6051，根据相邻口型之间的相邻口型时间点信息，对相邻的口型视频帧的时长进行变速处理，得到处理后的口型视频帧。

计算机设备根据相邻口型之间的相邻口型时间点信息对相邻的口型视频帧进行变速调整。示意性的，音频中口型标识A对应的口型时间点信息为0秒至0.1秒，该口型标识A对应的口型视频帧(标准化口型序列帧)的时长为0.2秒，则提高口型标识A对应的口型视频帧的播放速度，使其与口型时间点信息对应。

步骤6052，按照各个口型标识的口型时间点信息，将各个口型标识对应的处理后的口型视频帧进行融合，得到融合后的口型视频帧。

相邻口型之间预留部分序列帧作为过渡序列帧，该过渡序列帧使得相邻口型视频帧之间融合的效果更好，且相邻口型变化时不会产生主播的口型变化突兀的现象。

示意性的，一个口型对应300帧口型视频帧，计算机设备根据相邻口型的类型确定从口型视频帧中截取部分口型视频帧进行融合。

当相邻口型的类型为同一类型时，截取口型视频帧在时间上的前部分视频帧进行融合，比如，相邻口型的类型为“Bao”，则截取第二个口型“Bao”对应的口型视频帧的前100帧(第1帧至第100帧)进行融合。

当相邻口型的类型为不同类型且第二个口型为非终结口型时，截取口型视频帧在时间上的中间部分的视频帧进行融合，比如，相邻口型的类型为“Fa”和“Zhi”，且口型“Zhi”为非终结口型，则截取第二个口型“Zhi”对应的口型视频帧的中间100帧(即第101帧至第200帧)进行融合。

当第二个口型为终结口型时，截取口型视频帧在时间上的后部分的视频帧进行融合，终结口型为一句话结束时的口型，比如在某句话中最后一个字说完后与句号之间的口型。截取终结口型前的口型视频帧的后100帧(第201帧至第300帧)进行融合。

将截取后的各个口型视频帧按照口型时间点信息进行融合，即连接起来，形成与音频对应的口型视频帧。

步骤6053，将融合后的口型视频帧贴合在视频帧中的主播的嘴部，得到主播视频。

计算机设备将融合后的口型视频帧逐帧贴合在视频帧中的主播的嘴部，该视频帧是步骤603中获取到的含有主播形象的视频中的视频帧。

合成的主播视频如图8所示，主播视频为含有真人主播形象的视频，如图8的(a)所示，或者主播视频为含有虚拟主播形象的视频，如图8的(b)所示。该主播视频为新闻播报类型的主播视频，在主播视频中包括构建的虚拟景色元素，如在主播身后的高楼大厦和马路等元素。

在一些实施例中，计算机设备从含有主播形象的视频中截取第一时长的视频，第一时长是文本对应的音频的时长，第一时长的视频包括含有主播的嘴部的视频帧；将融合后的口型视频帧贴合在含有主播的嘴部的视频帧中，得到主播视频。

通过建立口型标识与口型视频帧之间的对应关系，使得计算机设备能够根据口型标识准确确定对应的口型视频帧，进一步将确定的口型视频帧贴合在含有主播形象的视频帧中，生成主播视频。

通过对相邻口型之间的口型时间点信息对相邻口型进行处理，使得相邻口型之间进行更好地融合，从而使得合成的主播视频中主播的口型更贴近真人主播录制视频时的口型，从而提高了视频的合成质量，避免合成的视频在口型变化上突兀失真。

通过调用音素时间点预测模型对文本对应的音频和音素序列进行识别，使得计算机设备能够准确快捷地确定各个口型标识对应的口型时间点信息，从而能够合成主播视频，提高了主播视频的合成效率。

通过样本文本和样本音频对音素时间点模型进行训练，使得训练后的音素时间点模型在识别各个口型标识对应的口型时间点信息的准确率更高。

下面对服务器获取标准口型序列帧的方式和获取含有主播形象的视频的方式进行说明。

1、获取标准口型序列帧的方式。

该方式包括如下步骤，如图10所示：

步骤901，采集真人主播的口型视频，真人主播的面部设置有跟踪点，跟踪点用于记录面部的变化轨迹，口型视频中包括n种口型标识对应的口型视频帧。

如图9所示，示意性的，在采集真人主播的口型视频前，需要为真人主播30佩戴专业的采集设备34，以将采集到的口型视频传输至计算机设备中。

在真人主播30的面部上设置有跟踪点31，示意性的，该跟踪点31是预先画在真人主播的面部，在真人主播30说话时，跟踪点记录真人主播30的口型变化、嘴部线条的变化等信息。示意性的，在真人主播30的正前方放置有用于采集口型视频的摄像机，在采集口型视频的过程中，需要保持真人主播的头颈角度垂直，使得采集到的口型视频更加准确。在真人主播30的身后放置有用于构建虚拟景色元素的幕布32，在一些实施例中，幕布32为绿色。计算机设备采集的真人主播30的口型视频包括n种口型标识对应的口型视频帧，n为正整数口型视频的采集速率为最终合成的主播视频的倍率速率，比如，最终合成的主播视频的速率为25-30FPS，则口型视频的速率以50-60FPS采集。

步骤902，对n种口型标识对应的口型视频帧进行标准化处理，得到标准化口型序列帧。

标准化处理即同一口型视频的格式，校正每个口型在视频中的时长、画面的色彩、口型的尺寸大小等参数，从而得到标准化口型序列帧33，如图9所示。标准化口型序列帧33包括n种口型标识对应的口型视频帧。

2、获取含有主播的视频的方式。

该方式包括如下步骤，如图11所示：

步骤910，采集真人主播的影像视频，真人主播的面部设置有跟踪点，跟踪点用于记录面部的变化轨迹。

真人主播的影像视频与口型视频的采集过程一致，如图9所示，此处不再赘述。采集的真人主播的影像视频包括真人全身视频和真人半身视频(上半身)。

步骤920，根据跟踪点得到真人主播的面部移动数据和旋转角度数据。

通过主播面部的跟踪点数据可反向计算出主播面部的移动数据和角度数据，示意性的，以表一表示视频帧与面部数据的关系。

表一

以X轴、Y轴和Z轴表示面部移动数据，在本申请实施例中，Z轴未发生变化，因此Z轴的数据为0。

步骤930，根据面部移动数据和旋转角度数据构建与真人主播对应的主播形象。

根据上述表一中的数据，计算机设备构建与真人主播对应的主播形象，该主播形象可以为真人主播形象，或虚拟主播形象，或真人主播形象与虚拟主播形象结合后的形象，其中，真人主播的面部还可替换为虚拟动物的面部，真人主播的身体部分还可替换为虚拟动物的身体部分。

步骤940，根据主播形象生成含有主播形象的视频。

示意性的，服务器调用主播视频服务对新生成的主播形象进行处理，生成含有主播形象的视频。

综上所述，本实施例提供的方法，通过在真人主播的面部设置跟踪点，利用采集的真人主播影像视频构建主播形象，使得计算机设备能够构建多种主播形象，从而合成多种主播视频，降低了视频的合成难度。

通过在真人主播的面部设置跟踪点，利用采集到的口型视频生成口型视频帧，使得计算机设备能够利用标准化口型视频帧去贴合不同的主播形象，从而合成主播视频，降低了视频的合成难度。

图12示出了本申请一个示例性实施例提供的视频合成方法，本实施例以该方法用于如图2所示计算机系统200中为例进行说明，该方法包括如下步骤：

步骤1201，计算机设备获取文本数据。

示意性的，文本数据是用户使用终端创建的文档。

步骤1202，计算机设备检验数据和权限。

计算机设备校验文本数据的格式是否符合预设格式，并校验用户帐号是否具有合成视频的权限。

步骤1203，计算机设备对文本进行标准化处理。

标准化处理是指计算机设备将文本中非文字的部分转换为文字部分。

步骤1204，计算机设备对文本进行摘要或分句处理。

示意性的，计算机设备对文本进行分句处理，避免因为语句中存在多音字而出现音素识别错误的情况。

步骤1205，计算机设备根据文本进行语音合成。

示意性的，计算机设备调用语音服务对文本内容进行预处理，得到文本对应语音。在一些实施例中，语音服务中还设置有背景音库，用于合成视频时为视频提供背景音乐，比如，新闻视频开头的背景音乐和新闻视频结尾的背景音乐。在另一些实施例中语音服务还设置有口型识别模块，用于根据口型分配规则识别出语音对应口型。

步骤1206，计算机设备确定口型标识和口型时间点信息。

步骤1206还包括如下子步骤(步骤1207至步骤1214)：

步骤1207，计算机设备对获取到的文本进行前端处理。

计算机设备调用口型服务对本进行前端处理，该前端处理包括对文本进行音素拆分。

步骤1208，计算机设备得到音素数据。

计算机设备得到文本对应的音素序列。

步骤1209，计算机设备获取文本对应的音频。

在一个示例中，计算机设备通过TTS技术获取文本对应的音频：

{

“id”：0，

“text”：[“中联重科全球采购口罩与防护服运抵长沙”，“美通社消息2月2日。”]

“wav”：“1.wav”

}

步骤1210，计算机设备调用音素时间点预测模型对本文对应的音频和音素数据进行处理。

在一个示例中，计算机设备通过如下方式获取口型时间点信息：

可以理解的是，上述方式仅以第一个字和第二个字为例进行说明。

步骤1211，计算机设备得到音素时间点信息。

示意性的，计算机设备利用上述方式得到每个字对应的口型时间点信息。

步骤1212，计算机设备对音素数据处理，将音素转换为口型。

计算机设备根据口型分配规则对音素进行划分，得到音素序列对应的n种口型，n种口型对应有n种口型标识，n为正整数。

步骤1213，计算机设备得到口型数据。

示意性的，口型数据包括口型标识和口型时间点信息，计算机设备利用如下方式得到口型数据：

{

“mouth_list”：[“X”，“L”，“I”，“L”，“J”，“P”，“L”，“I”，“M”，“M”，“M”，

“L”，“F”，“L”，“Η”，“X”，“Ν”，“K”，“I”，“I”，“X”，“B”，“L”，“J”，“M”，

“K”，“X”，“J”，“Ν”，“J”，“O”，“X”，“X”

]，

“timeline”：[0.0，0.1，0.24，0.41，0.58，0.75，0.97，1.17，1.36，1.51，

1.69，1.92，2.12，2.3，2.49，2.7，2.73，2.89，3.06，3.27，3.48，3.72，3.9，

4.06，4.23，4.42，4.62，4.84，5.02，5.12，5.32，5.5

}

步骤1214，计算机设备进行主播视频渲染。

从含有主播形象的视频中截取第一时长的视频，第一时长是文本对应的音频的时长，第一时长的视频包括含有主播的嘴部的视频帧。

将融合后的口型视频帧贴合在含有主播的嘴部的视频帧中，得到主播视频。

步骤1215，计算机设备利用图文转视频服务生成混合视频。

在一些实施例中，计算机设备调用视频渲染服务将主播视频作为第一视频元素嵌入至第二视频元素中，第二视频元素的类型与第一视频元素的类型不同；视频渲染服务包括图文转视频服务，该图文转视频服务可根据嵌入后的所述第二视频元素合成混合视频。示意性的，含有主播形象的视频为第一类型视频元素，实际采访的新闻视频为第二类型视频元素(该视频为不含有主播形象的视频)。将实际采访的新闻与含有主播形象的视频合成为混合视频。

步骤1216，下载视频。

示意性的，用户通过终端从服务器下载已合成的主播视频和混合视频中的至少一种视频。在终端的用户界面上显示有如图8的(a)或如图8的(b)所示的视频。在一些实施例中，服务器在合成视频后直接向终端发送合成的视频，无需用户通过终端下载。

综上所述，本实施例的方法，通过接收输入的文本，使用预先采集的二维真人影像数据和口型数据以及音素时间点预测模型将“口型”和“人物”基于跟踪点贴图的方式合成为主播视频。

图13是本申请一个示例性实施例提供的视频合成装置的结构框图，该装置包括：

获取模块1310，用于获取文本；

所述获取模块1310，用于获取文本对应的音频，对音频进行处理，得到音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数；

所述获取模块1310，用于获取标准化口型序列帧和含有主播形象的视频，标准化口型序列帧包括n种口型标识对应的口型视频帧；

合成模块1320，用于按照各个口型标识的口型时间点信息，将n种口型标识对应的口型视频帧与含有主播形象的视频进行合成处理，得到主播视频。

在一个可选的实施例中，所述合成模块1320，用于从标准化口型序列帧中获取n种口型标识对应的口型视频帧；按照各个口型标识的口型时间点信息，将各个口型标识对应的口型视频帧贴合在含有主播形象的视频的视频帧中，得到主播视频。

在一个可选的实施例中，该装置包括处理模块1330；

所述处理模块1330，用于根据相邻口型之间的相邻口型时间点信息，对相邻的口型视频帧的时长进行变速处理，得到处理后的口型视频帧；按照各个口型标识的口型时间点信息，将各个口型标识对应的处理后的口型视频帧进行融合，得到融合后的口型视频帧；所述合成模块1320，用于将融合后的口型视频帧贴合在视频帧中的主播的嘴部，得到主播视频。

在一个可选的实施例中，所述合成模块1320，用于从含有主播形象的视频中截取第一时长的视频，第一时长是文本对应的音频的时长，第一时长的视频包括含有主播的嘴部的视频帧；将融合后的口型视频帧贴合在含有主播的嘴部的视频帧中，得到主播视频。

在一个可选的实施例中，所述处理模块1330，用于根据文本得到文本对应的音频，对音频进行处理，得到音频中的音素序列；根据口型分配规则对音素序列进行划分，得到音素序列对应的n种口型，n种口型对应有n种口型标识；调用音素时间点预测模型对文本对应的音频和音素序列进行识别，得到音素序列对应的各个口型标识的口型时间点信息，口型时间点信息包括各个口型标识出现的开始时间和结束时间。

在一个可选的实施例中，音素时间点预测模型是通过如下方式训练得到的：

所述获取模块1310，用于获取样本文本和样本音频，样本音频中的样本音素序列标定有各个口型标识的口型时间点信息；

所述处理模块1330，用于对样本音素序列和样本音频进行特征提取，得到样本音素序列对应的第一特征向量和样本音频对应的第二特征向量；

所述处理模块1330，用于将第一特征向量和第二特征向量输入至音素时间点预测模型中，得到样本音素序列对应的各个口型标识的预测口型时间点信息；根据各个口型标识的口型时间点信息和各个口型标识的预测口型时间点信息对音素时间点预测模型进行训练，得到训练后的音素时间点预测模型。

在一个可选的实施例中，所述合成模块1320，用于将主播视频作为第一视频元素嵌入至第二视频元素中，第二视频元素的类型与第一视频元素的类型不同；根据嵌入后的第二视频元素合成混合视频。

在一个可选的实施例中，所述获取模块1310，用于采集真人主播的影像视频，真人主播的面部设置有跟踪点，跟踪点用于记录面部的变化轨迹；所述处理模块1330，用于根据跟踪点得到真人主播的面部移动数据和旋转角度数据；根据面部移动数据和旋转角度数据构建与真人主播对应的主播形象；根据主播形象生成含有主播形象的视频。

在一个可选的实施例中，所述获取模块1310，用于采集真人主播的口型视频，真人主播的面部设置有跟踪点，跟踪点用于记录面部的变化轨迹，口型视频中包括n种口型标识对应的口型视频帧；所述处理模块1330，用于对n种口型标识对应的口型视频帧进行标准化处理，得到标准化口型序列帧。

综上所述，本实施例提供的装置基于合成处理的思想，通过获取文本，结合获取到的文本对应的音频以及文本与音素的转化关系，确定音频中的n种口型标识和各个口型的口型时间点信息，利用获取到的文本、标准化口型系列帧以及含有主播形象的视频，结合各个口型的口型时间点信息合成主播视频。无需预先训练用于合成视频的机器学习模型，只需提供文本即可实现合成主播视频，降低了视频的合成难度，同时提高了视频的合成效率。

通过在真人主播的面部设置跟踪点，利用采集的真人主播影像视频构建主播形象，使得计算机设备能够构建多种主播形象，从而合成多种主播视频，降低了视频的合成难度。

需要说明的是：上述实施例提供的视频合成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频合成装置与视频合成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以如图2所示的计算机系统100中的服务器220。

服务器1400包括中央处理单元(CPU，Central Processing Unit)1401、包括随机存取存储器(RAM，Random Access Memory)1402和只读存储器(ROM，Read Only Memory)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。服务器1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1407及其相关联的计算机可读介质为服务器1400提供非易失性存储。也就是说，大容量存储设备1407可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

根据本申请的各种实施例，服务器1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一个可选的实施例中，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频合成方法。

在一个可选的实施例中，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频合成方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从该计算机可读存储介质读取该计算机指令，该处理器执行该计算机指令，使得该计算机设备执行如上所述的视频合成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频合成方法，其特征在于，所述方法包括：

获取文本；

2.根据权利要求1所述的方法，其特征在于，所述按照所述各个口型标识的口型时间点信息，将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理，得到主播视频，包括：

从所述标准化口型序列帧中获取所述n种口型标识对应的口型视频帧；

按照所述各个口型标识的口型时间点信息，将所述各个口型标识对应的口型视频帧贴合在所述含有主播形象的视频的视频帧中，得到所述主播视频。

3.根据权利要求2所述的方法，其特征在于，所述按照所述各个口型标识的口型时间点信息，将所述各个口型标识对应的口型视频帧贴合在所述含有主播形象的视频的视频帧中，得到所述主播视频，包括：

根据相邻口型之间的相邻口型时间点信息，对相邻的所述口型视频帧的时长进行变速处理，得到处理后的口型视频帧；

按照所述各个口型标识的口型时间点信息，将所述各个口型标识对应的所述处理后的口型视频帧进行融合，得到融合后的口型视频帧；

将所述融合后的口型视频帧贴合在所述视频帧中的主播的嘴部，得到所述主播视频。

4.根据权利要求3所述的方法，其特征在于，所述将所述融合后的口型视频帧贴合在所述视频帧中的主播的嘴部，得到所述主播视频，包括：

从所述含有主播形象的视频中截取第一时长的视频，所述第一时长是所述文本对应的音频的时长，所述第一时长的视频包括含有所述主播的嘴部的视频帧；

将所述融合后的口型视频帧贴合在含有所述主播的嘴部的视频帧中，得到所述主播视频。

5.根据权利要求1至4任一所述的方法，其特征在于，所述获取所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，包括：

根据所述文本得到所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列；

根据口型分配规则对所述音素序列进行划分，得到所述音素序列对应的n种口型，所述n种口型对应有所述n种口型标识；

调用音素时间点预测模型对所述文本对应的音频和所述音素序列进行识别，得到所述音素序列对应的所述各个口型标识的口型时间点信息，所述口型时间点信息包括所述各个口型标识出现的开始时间和结束时间。

6.根据权利要求5所述的方法，其特征在于，所述音素时间点预测模型是通过如下方式训练得到的：

获取样本文本和样本音频，所述样本音频中的样本音素序列标定有所述各个口型标识的口型时间点信息；

对所述样本音素序列和所述样本音频进行特征提取，得到所述样本音素序列对应的第一特征向量和所述样本音频对应的第二特征向量；

将所述第一特征向量和所述第二特征向量输入至所述音素时间点预测模型中，得到所述样本音素序列对应的所述各个口型标识的预测口型时间点信息；

根据所述各个口型标识的口型时间点信息和所述各个口型标识的预测口型时间点信息对所述音素时间点预测模型进行训练，得到训练后的音素时间点预测模型。

7.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

将所述主播视频作为第一视频元素嵌入至第二视频元素中，所述第二视频元素的类型与所述第一视频元素的类型不同；

根据嵌入后的所述第二视频元素合成混合视频。

8.根据权利要求1至3任一所述的方法，其特征在于，所述获取含有主播形象的视频之前，包括：

采集真人主播的影像视频，所述真人主播的面部设置有跟踪点，所述跟踪点用于记录所述面部的变化轨迹；

根据所述跟踪点得到所述真人主播的面部移动数据和旋转角度数据；

根据所述面部移动数据和所述旋转角度数据构建与所述真人主播对应的主播形象；

根据所述主播形象生成含有所述主播形象的视频。

9.根据权利要求1至3任一所述的方法，其特征在于，所述获取标准化口型序列帧之前，包括：

采集真人主播的口型视频，所述真人主播的面部设置有跟踪点，所述跟踪点用于记录所述面部的变化轨迹，所述口型视频中包括所述n种口型标识对应的口型视频帧；

对所述n种口型标识对应的口型视频帧进行标准化处理，得到所述标准化口型序列帧。

10.一种视频合成装置，其特征在于，所述装置包括：

获取模块，用于获取文本；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的视频合成方法。

12.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的视频合成方法。