CN115022674A

CN115022674A - 生成虚拟人物播报视频的方法、系统及可读存储介质

Info

Publication number: CN115022674A
Application number: CN202210589909.XA
Authority: CN
Inventors: 张雨欣
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-06

Abstract

本申请提供一种生成虚拟人物播报视频的方法、系统及可读存储介质。本申请的方法中，服务器提供视频创作页面，用户通过视频创作页面可以在线设置视频中的虚拟人物形象、视频播报的内容数据、视频播报相关的设置参数，进行视频的创作，并将创作完成的视频创作数据提交至服务器。服务器接收视频生成服务请求，获取通过视频创作页面编辑好的视频创作数据，根据编辑好的视频创作数据在线生成虚拟人物播报视频，并输出虚拟人物播报视频，实现虚拟人物视频的在线编辑、在线生成和输出的一站式的视频创作，大大缩短生成虚拟人物视频所需的时间周期，提高了生成虚拟人物视频的效率。

Description

生成虚拟人物播报视频的方法、系统及可读存储介质

技术领域

本申请涉及计算机技术中的人工智能、虚拟现实等领域，尤其涉及一种生成虚拟人物播报视频的方法、系统及可读存储介质。

背景技术

随着互联网技术的发展，在教育、传媒、金融等各类行业中，存在大量向用户提供知识播报类服务的场景，大多通过播放预先制作好的人物播报视频的方式实现。例如，教育行业中预先制作培训课程视频，传媒行业中预先制作人物播报类的节目视频等，金融行业中预先制作金融类知识讲解视频、服务流程讲解视频等。

传统的人物播报类视频的制作大多是通过真人拍摄完成，需要请专业的视频拍摄团队，包括播报人、摄像、导演、剪辑等，视频制作的工作量大、时间周期长、制作成本高。

目前，各个行业中出现了基于虚拟人物制作播报类视频的方案，但这些方案均是针对用户提供一对一的线下视频制作服务，针对用户需求定制虚拟人物形象、视频素材、视频内容等等，但是视频制作的周期仍然需要若干天甚至几个月，视频制作的时间周期仍然较长。

发明内容

本申请提供一种生成虚拟人物播报视频的方法、系统及可读存储介质，用以解决人物播报类视频制作的周期较长的问题。

一方面，本申请提供一种生成虚拟人物播报视频的方法，包括：

提供视频创作页面；

接收视频生成服务请求，获取通过所述视频创作页面编辑好的视频创作数据，所述视频创作数据包括：虚拟人物设置数据、播报内容数据和视频设置参数；

根据所述播报内容数据，确定待播报的文本内容和所述文本内容对应的播报语音；

根据所述文本内容、所述播报语音和所述虚拟人物设置数据，驱动虚拟人物执行播报所述播报语音的行为，并根据所述视频设置参数渲染生成虚拟人物播报视频；

输出所述虚拟人物播报视频。

另一方面，本申请提供一种虚拟人物播报视频生成系统，包括：

交互界面模块，用于提供视频创作页面；

视频创作模块，用于接收视频生成服务请求，获取通过所述视频创作页面编辑好的视频创作数据，所述视频创作数据包括：虚拟人物设置数据、播报内容数据和视频设置参数；

播报内容处理模块，用于根据所述播报内容数据，确定待播报的文本内容和所述文本内容对应的播报语音；

驱动渲染模块，用于根据所述文本内容、所述播报语音和所述虚拟人物设置数据，驱动虚拟人物执行播报所述播报语音的行为，并根据所述视频设置参数渲染生成虚拟人物播报视频；

视频输出模块，用于输出所述虚拟人物播报视频。

另一方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述所述的方法。

本申请提供的生成虚拟人物播报视频的方法、系统及可读存储介质，服务器提供视频创作页面，用户通过视频创作页面可以在线设置视频中的虚拟人物形象、视频播报的内容数据、视频播报相关的设置参数，进行视频的创作，并将创作完成的视频创作数据提交至服务器。服务器接收视频生成服务请求，获取通过视频创作页面编辑好的视频创作数据，根据编辑好的视频创作数据在线生成虚拟人物播报视频，并输出虚拟人物播报视频，实现虚拟人物视频的在线编辑、在线生成和输出的一站式的视频创作，大大缩短生成虚拟人物视频所需的时间周期，提高了生成虚拟人物视频的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请提供的生成虚拟人物播报视频的方法的系统架构的示例图；

图2为本申请一示例性实施例提供的生成虚拟人物播报视频的方法流程图；

图3为本申请一示例性实施例提供的图文输入方式的视频内容编辑页面的示例图；

图4为本申请一示例性实施例提供的图文数据编辑页面的示例图；

图5为本申请一示例性实施例提供的文本输入方式的视频内容编辑页面的示例图；

图6为本申请一示例性实施例提供的语音输入方式的视频内容编辑页面的示例图；

图7为本申请一示例性实施例提供的视频管理页面的示例图；

图8为本申请一示例性实施例提供的虚拟人物播报视频生成系统的架构图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

针对人物播报类视频制作的周期较长的问题，本申请提供一种生成虚拟人物播报视频的方法，该方法基于服务器向广大用户提供虚拟人物播报视频的制作服务，实现虚拟人物播报视频的在线制作，用户提交视频生成服务请求后，等待若干分钟甚至更短，即可在线获取生成的虚拟人物播报视频，大大缩短了虚拟人物播报视频制作的时间周期。

示例性地，本申请提供的生成虚拟人物播报视频的方法，可以适用于图1所示的系统架构。如图1所示，该系统架构包括：终端和服务器。

其中，该服务器可以是部署在云端的服务器集群。该服务器上存储有系统内置的虚拟人物形象、视频中的画面素材，并能够存储用户的视频生成任务和视频创作数据，通过服务器中预设运算逻辑，服务器可以实现基于用户编辑好的视频创作数据，在线生成虚拟人物播报视频，并将生成的虚拟人物播报视频在线提供给用户的功能。

终端具体可为具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于智能手机、平板电脑、台式电脑、物联网设备等。

通过服务器的通信交互，终端可以显示服务器提供的视频创作页面，以使用户进行虚拟人物设置、播报内容和视频设置参数等视频创作数据的编辑，并向服务器提交编辑好的视频创作数据和视频生成服务请求，服务器接收视频生成服务请求，获取编辑好的视频创作数据之后，根据视频创作数据进行虚拟人物的驱动和渲染，生成虚拟人物播报视频，并在线地向终端提供虚拟人物播报视频。

示例性地，生成的虚拟人物播报视频可以由服务器直接或间接地提供给终端。例如，服务器可以提供虚拟人物播报视频的下载功能，终端可以从服务器下载虚拟人物播报视频；或者，服务器提供虚拟人物播报视频的预览功能，服务器可以接收终端对已生成的虚拟人物播报视频预览请求，在线播放虚拟人物播报视频；或者，服务器可以将虚拟人物播报视频的发布到其他视频播放平台，并向终端提供虚拟人物播报视频的播放链接信息，终端通过访问对应的播放链接观看视频。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一示例性实施例提供的生成虚拟人物播报视频的方法流程图。本实施例提供的生成虚拟人物播报视频的方法具体可以应用于前述提及的服务器。如图2所示，该方法具体步骤如下：

步骤S201、提供视频创作页面。

本实施例中，服务器提供视频创作页面，具体包括用于进行视频相关数据的编辑的一个或者多个页面。在视频创作页面上，用户可以在线设置视频中使用的虚拟人物形象、视频播报的内容数据、视频播报相关的设置参数，进行视频的创作，并将创作完成的视频创作数据提交至服务器。

在视频创作数据编辑完成后，用户可以通过终端显示的视频创作页面向服务器提交视频生成服务请求，以请求服务器基于编辑好的视频创作数据生成对应虚拟人物播报视频。

步骤S202、接收视频生成服务请求，获取通过视频创作页面编辑好的视频创作数据，视频创作数据包括：虚拟人物设置数据、播报内容数据和视频设置参数。

服务器接收到用户提交的视频生成请求之后，获取该用户通过视频创作页面编辑好的视频创作数据。

示例性地，在实际应用中，用户可以在视频创作页面完成视频创作数据的编辑后，直接向服务器提交视频生成服务请求，服务器接收视频生成服务请求，并接收通过视频创作页面提交的视频创作数据，基于当前提交的视频创作数据生成虚拟人物播报视频。

示例性地，在实际应用中，用户可以一次或分多次进行视频创作数据的编辑，并将每次编辑后的视频创作数据提交到服务器，服务器保存视频创作数据的最新版本。当接收到视频生成服务请求时，获取保存的视频创作数据的最新版本，基于视频创作数据的最新版本生成虚拟人物播报视频。

步骤S203、根据播报内容数据，确定待播报的文本内容和文本内容对应的播报语音。

本实施例中，提供的视频创作页面支持文本输入、语音输入和图文输入等输入方式来编辑视频的播报内容数据，播报内容数据可以是文本信息、图文数据、或语音数据等。

在获取到生成虚拟人物播报视频所需的视频创作数据之后，根据视频创作数据中的播报内容数据，确定待播报的文本内容和播报语音。其中，播报语音与待播报的文本内容对应，播报语音用于播报待播报的文本内容。

步骤S204、根据文本内容、播报语音和虚拟人物设置数据，驱动虚拟人物执行播报该播报语音的行为，并根据视频设置参数渲染生成虚拟人物播报视频。

其中，虚拟人物设置数据包括：虚拟人物播报视频中所使用的虚拟人物形象、虚拟人物在视频界面中的位置和大小等虚拟人物相关的信息。其中，每一虚拟人物形象具有对应的三维形象渲染模型，通过三维形象渲染模型进行虚拟人物的渲染可以呈现出对应的虚拟人物形象。

在确定待播报的文本内容和播报语音之后，根据待播报的文本内容、播报语音和虚拟人物设置数据，生成用于驱动虚拟人物做出播报该播报语音的行为的驱动数据。该驱动数据可以包括语音驱动参数、动作驱动参数等。其中，语音驱动参数用于驱动虚拟人物做出播报语音对应的口型。动作驱动参数包括用于驱动虚拟人物在播报语音过程中做出面部和/或身体的动作，如面部表情、手势、躯体动作(如弯腰、转向等)等。

进一步地，根据虚拟人物设置数据，可以获取到虚拟人物播报视频中使用的虚拟人物形象的骨骼模型和三维形象渲染模型。根据驱动数据驱动骨骼模型，得到虚拟人物播报该播报语音的行为的骨骼数据；根据三维形象渲染模型对骨骼数据进行渲染，得到虚拟人物播报该播报语音的虚拟人物图像数据，并根据视频设置参数渲染虚拟人物图像数据得到视频流，并将视频流与播报语音的语音流合成，生成虚拟人物播报视频。

步骤S205、输出虚拟人物播报视频。

在生成虚拟人物播报视频后，服务器可以直接或间接地将虚拟人物播报视频提供给客户端。

可选地，服务器可以提供虚拟人物播报视频的下载功能。用户在需要下载已生成的虚拟人物播报视频时，可以通过终端向服务器发送指定的虚拟人物播报视频的下载请求。服务器接收到对指定的虚拟人物播报视频的下载请求后，向终端发送该指定的虚拟人物播报视频。

可选地，服务器可以提供虚拟人物播报视频的在线预览功能。用户在需要预览已生成的虚拟人物播报视频时，可以通过终端向服务器发送指定的虚拟人物播报视频的预览请求。服务器接收到对指定的虚拟人物播报视频的预览请求后，通过终端上客户端展示的前端页面播放虚拟人物播报视频，以使用户可以通过客户端在线观看已生成的虚拟人物播报视频。

可选地，服务器可以提供虚拟人物播报视频的在线发布功能。服务器在生成虚拟人物播报视频后，可以将虚拟人物播报视频发布到指定的视频播放平台，并向用户提供虚拟人物播报视频的播放链接信息。用户想要观看虚拟人物播报视频时，可以通过访问播放链接信息，在线观看已发布到指定的视频播放平台的虚拟人物播报视频。

在实际应用中，服务器可以提供虚拟人物播报视频的下载、在线预览、在线发布等功能，在在线生成虚拟人物播报视频之后，可以通过其中一种或多种方式输出已生成的虚拟人物播报视频，以满足不同用户对已生成的虚拟人物播报视频的不同输出途径的需求，提高系统的灵活性。

本实施例中，服务器提供视频创作页面，用户通过视频创作页面可以在线设置视频中的虚拟人物形象、视频播报的内容数据、视频播报相关的设置参数，进行视频的创作，并将创作完成的视频创作数据提交至服务器。服务器接收视频生成服务请求，获取通过视频创作页面编辑好的视频创作数据，根据编辑好的视频创作数据在线生成虚拟人物播报视频，并输出虚拟人物播报视频，实现虚拟人物视频的在线编辑、在线生成和输出的一站式的视频创作，大大缩短生成虚拟人物视频所需的时间周期，提高了生成虚拟人物视频的效率。

一种可选实施例中，服务器提供的视频创作页面可以包括用于编辑视频相关数据的编多个页面，不同的页面实现不同数据的编辑，以提供丰富的视频创作能力。

示例性地，视频创作页面至少包括：视频内容编辑页面、虚拟人物设置页面和视频设置参数编辑页面。

其中，视频内容编辑页面用于实现播报内容数据的编辑。虚拟人物设置页面用于选择播报使用的虚拟人物形象、编辑虚拟人物在播报界面中的位置和大小。视频设置参数编辑页面用于编辑播报声音设置信息，和以下至少一项画面设置信息：背景信息、字幕信息。

本实施例中，服务器提供丰富的视频创作页面，通过视频创作页面用户可以方便、快捷地编辑视频内容数据、选择或自定义使用的虚拟人物形象、设置虚拟人物形象在播报画面中的位置和大小、设置播报画面中是否显示字幕、字幕样式、背景图片、透明背景等，实现一站式的视频创作，方便快捷，缩短了视频创作的时间周期，提高了视频创作的效率。

具体地，在虚拟人物设置页面中，可以显示当前用户可选择的虚拟人物形象，用户可以选择其中任一虚拟人物形象作为待生成的虚拟人物视频中使用的虚拟人物形象。

在虚拟人物设置页面中可以显示播报界面示例区域，并在该播报界面示例区域内显示虚拟人物形象示例，虚拟人物形象示例在播报界面示例区域中的位置和大小与虚拟人物形象在实际播报界面中的位置和大小相对应，用户可以通过调整虚拟人物形象示例在播报界面示例区域中的位置和大小，来调整虚拟人物形象在实际播报界面中的位置和大小。

示例性地，用户可以通过对播报界面示例区域中虚拟人物形象示例进行拖动操作来移动虚拟人物形象示例在播报界面示例区域中的位置，通过对虚拟人物形象示例的缩放操作，来调整播报界面示例区域中虚拟人物形象示例的大小。

另外，在虚拟人物设置页面中还可以显示虚拟人物形象的几种默认姿态，以供用户选择。默认姿态是指在待生成的视频中虚拟人物进行播报时的默认姿态。当播报到特定内容，需要虚拟人物做出与特定内容相匹配的动作时，通过生成动作驱动参数，驱动虚拟人物做出相应动作。当特定内容播报结束后，若没有其他动作驱动参数的驱动，虚拟人物可以恢复到默认姿态，并继续播报后续内容。

可选地，服务器还可以提供虚拟人物形象管理页面，虚拟人物形象管理页面用于对用户的虚拟人物形象进行管理，提供基于已有虚拟人物形象创建新的虚拟人物形象、修改已有的虚拟人物形象、上传新的虚拟人物形象中的至少一项编辑功能。

当用户想要管理虚拟人物形象时，通过点击页面中的虚拟人物形象管理控件，向服务器发送虚拟人物形象管理请求。服务器接收到虚拟人物形象管理请求后，向该用户提供虚拟人物模型管理页面。

示例性地，虚拟人物形象管理页面能够显示已有的虚拟人物形象的缩略图，并提供虚拟人物形象的预览区域，当用户选择其中一个缩略图时，将该缩略图对应的虚拟人物形象显示在预览区域。

虚拟人物形象管理页面还提供新建虚拟人物形象的功能，支持用户对已有虚拟人物形象进行捏脸、换装、换发型、换妆容等操作来创建新的虚拟人物形象。

虚拟人物形象管理页面还提供已有虚拟人物形象的修改功能，用户可以修改自己上传或创建的虚拟人物形象。

虚拟人物形象管理页面还提供虚拟人物形象的上传功能，用户可以上传已生成的虚拟人物形象及三维形象渲染模型。用户上传的虚拟人物形象为自己的私有资产，其它用户未得到授权不可以使用。

另外，虚拟人物形象管理页面还可以提供虚拟人物形象的动作预览功能。示例性地，页面可以提供动作预览区域，当用户为虚拟人物形象添加动作时，可以选中任意一种动作，并触发对选中动作的预览操作，驱动预览区域内的该虚拟人物形象做出选中的动作。

可选地，还可以通过虚拟人物形象管理页面提供文本输入区域，该文本输入区域用于输入进行动作预览时虚拟人物播报文本内容。用户可以在文本输入区域输入想要虚拟人物播报的文本内容，触发虚拟人物形象的动作预览操作(如点击对应动作预览控件等)，向服务器发送动作预览请求。服务器获取该虚拟人物形象和文本输入区域内的文本内容，驱动虚拟人物形象做出播报该文本内容的动作(可以包括口型、手势、表情、躯体动作等)，并渲染至预览区域，使得渲染区域内该虚拟人物形象做出播报该文本内容的动作。

服务器通过提供虚拟人物形象管理页面，并提供内置的虚拟人物形象供用户选择使用，支持用户上传自己已有的虚拟人物形象、基于已有虚拟人物形象自定义新的虚拟人物形象、以及修改已有虚拟人物形象的功能，使得用户通过可视化界面自定义虚拟人物形象，并灵活地选用符合自己需求的虚拟人物形象，操作简单、快捷，用户可以快速获得符合自身需求的虚拟人物形象。

在视频设置参数编辑页面中，可以设置播报声音、播报画面相关的参数。

示例性地，视频设置参数编辑页面可以提供语音播报可选用的多种音色，用户可以选定其中一种音色作为虚拟人物播报视频中语音播报使用的音色，还可以对设置选定音色的音量、语速和音调等。

示例性地，通过视频设置参数编辑页面还可以提供是否开启字幕、选择字幕样式的设置区域，当设置开启字幕时，用户可以选定一种字幕样式，生成的虚拟人物播报视频中以用户选定的字幕样式显示字幕。当设置不开启字幕时，生成的虚拟人物播报视频中不显示字幕。

另外，通过视频设置参数编辑页面还可以提供至少一个可选择的背景图片，用户可以选定其中一个背景图片作为播报画面的背景图片。其中，视频设置参数编辑页面所提供的可选的背景图片可以包括系统内置的背景图片和/或用户自定义的背景图片。通过视频设置参数编辑页面还可以设置播报画面为透明背景。

本实施例中，服务器提供的视频内容编辑页面，能够支持通过如下任意一种输入方式实现视频的播报内容数据的编辑：1)文本输入；2)音频输入；3)图文输入。

一种可选实施例中，视频创作页面支持通过图文输入的方式，实现视频的播报内容数据的编辑。通过视频创作页面编辑好的视频创作数据中，播报内容数据包括由至少一个图文数据组成的图文序列。其中，图文数据包括文本信息，或者，图文数据包括文本信息和文本信息对应的图像。

进一步地，如果图文数据包含图像，那么视频设置参数还包括图文数据中的图像在播报画面中的位置和大小。可选地，可以设置图文数据中的图像在播报画面中的默认位置和默认大小，不同图文数据图像在播报画面中的默认位置和默认大小统一设置。

示例性地，图3为本申请提供的一种图文输入方式的视频内容编辑页面的示例图，如图3所示，在视频内容编辑页面中可以选择播报内容的输入方式，当输入方式为图文输入时，页面中提供图文序列的编辑区域，在该编辑区域内可以进行图文数据的新建操作、对已有的图文数据可以进行编辑或删除的操作、在图文序列的已有图文数据中间插入(新建)新的图文数据的操作、以及调整图文序列中图文数据的顺序的操作。另外，如图3所示，页面中还提供播报画面的效果预览区域，在效果预览区域内可以展示任一图文数据中图像在播报画面中的显示区域，通过调整图文数据中图像在播报画面中的显示区域的大小和位置来调整图文数据中的图像在播报画面中的位置和大小。可以针对不同的图文数据，进行图像在播报画面中的显示区域的调整，使得不同图文数据中的图像在播报画面中位置和大小可以不同。

可选地，服务器可以根据每一图文数据的文本信息，确定该文本信息所需的预计播报时长，并将预计播报时长显示在视频内容编辑页面中(如图3中所示)，以供用户参考。进一步地，根据每一图文数据对应的预计播报时长，可以确定每一图文数据的开始时刻，并显示在视频内容编辑页面中(如图3中所示)，以供用户参考。

可选地，服务器可以为每一待生成的虚拟人物播报视频生成一个视频名称，用于区分不同的待生成的视频。另外，视频内容编辑页面还可以提供视频名称的编辑区域，用户可以在视频名称的编辑区域输入视频名称，以实现视频名称的自定义。

示例性地，图4为本申请提供的一种图文数据编辑页面的示例图，如图4所示，在图文数据编辑页面中可以录入图文数据的标题和文本信息，还可以上传图像。其中，对于每一图文数据，可以上传图像也可以不上传图像，当不上传图像时，图文数据仅包括文本数据。图文数据编辑页面可以实现图文数据的新建和修改功能。

基于以图文输入方式输入的播报内容数据，上述步骤S203中根据播报内容数据，确定待播报的文本内容和文本内容对应的播报语音，具体可以通过如下方式实现：

将图文数据中的文本信息作为待播报的文本内容片段；将文本内容片段转换为对应的音频数据；根据文本内容片段对应的音频数据和视频设置参数中的播报声音设置信息，生成文本信息对应的语音片段。

基于本实施例的图文输入方式输入的播报内容数据，包括由至少一个图文数据组成的图文序列，其中每一图文数据均包括文本信息，将每一图文数据中的文本信息作为文本内容片段。所有文本内容片段按照对应图文数据在图文序列中的顺序拼接后即可得到完整的待播报的文本内容。

将每一文本内容片段转换为音频数据，得到每一图文数据对应的音频数据。根据文本内容片段对应的音频数据和视频设置参数中的播报声音设置信息，生成文本信息对应的语音片段，其中播报声音设置信息包括播报声音的音色、音量、语速、音调等，该语音片段使用设置的音色、音量、语速、音调播报图文数据的文本信息。

进一步地，上述步骤S204生成虚拟人物播报视频时，分别针对每一图文数据生成对应的虚拟人物播报视频片段，再按照对应图文数据在图文序列中的顺序，将虚拟人物播报视频片段依次拼接生成完整的虚拟人物播报视频，具体可以通过如下步骤S2041-S2045实现：

步骤S2041、对图文序列中的每一图文数据，根据图文数据中的文本信息和文本信息对应的语音片段，确定虚拟人物的驱动数据。

针对每一图文数据，根据文本信息和文本信息对应的语音片段，生成用于驱动虚拟人物做出播报该语音片段的行为的驱动数据。该驱动数据可以包括语音驱动参数、动作驱动参数等。其中，语音驱动参数用于驱动虚拟人物做出播报该语音片段的口型。动作驱动参数包括用于驱动虚拟人物在播报该语音片段过程中做出面部和/或身体的动作，如面部表情、手势、躯体动作(如弯腰、转向等)等。

步骤S2042、根据驱动数据，进行虚拟人物的驱动和渲染，生成播报语音片段过程中的虚拟人物图像数据。

根据虚拟人物设置数据，可以获取到虚拟人物播报视频中使用的虚拟人物形象的骨骼模型和三维形象渲染模型。

在根据每一图文数据，生成对应的驱动数据之后，根据该驱动数据驱动骨骼模型，得到虚拟人物播报图文数据对应语音片段的行为的骨骼数据；根据三维形象渲染模型对骨骼数据进行渲染，得到虚拟人物播报图文数据对应语音片段的虚拟人物图像数据。

步骤S2043、根据视频设置参数中播报界面的画面设置信息，获取播报所需的画面素材。

其中，画面设置信息包括背景图片、是否显示字幕、使用的字幕样式等，根据画面设置信息可以获取到播报画面的背景图片、字幕信息等。

步骤S2044、根据语音片段、播报语音片段过程中的虚拟人物图像数据、播报所需的画面素材、图文数据中的图像和图像在播报画面中的位置信息，合成图文数据对应的虚拟人物播报视频片段。

该步骤中对每一图文数据对应的语音片段、虚拟人物图像数据、图文数据中的图像和播报所需的画面素材进行渲染，生成图文数据对应的虚拟人物播报视频片段，从而将每一图像数据对应的语音片段、虚拟人物图像数据、图文数据中的图像和播报所需的画面素材合成到一段视频中。

其中，在虚拟人物播报视频片段中，图文数据中的图像和播报所需的画面素材，在该图文数据对应的语音片段的这个播报过程中持续显示。

另外，若图文数据中不包括图像，该步骤中根据语音片段、播报语音片段过程中的虚拟人物图像数据、播报所需的画面素材，合成图文数据对应的虚拟人物播报视频片段。

步骤S2045、将图文序列中图文数据对应的虚拟人物播报视频片段按顺序拼接，得到虚拟人物播报视频。

在生成每一图文数据对应的虚拟人物播报视频片段之后，按照对应图文数据在图文序列中的顺序，将虚拟人物播报视频片段依次拼接，得到完整的虚拟人物播报视频。

本实施例中，对于采用图文输入方式输入的播报内容数据，播报内容数据包括由至少一个图文数据组成的图文序列，服务器分别对每一图文数据进行处理生成对应的虚拟人物播报视频片段，再按照对应图文数据在图文序列中的顺序将虚拟人物播报视频片段依次拼接，得到完整的虚拟人物播报视频，通过图文输入的方式可以在视频画面中插入其他图像，实现视频“画中画”的效果，能够在线快速生成虚拟人物播报视频，能够基于图文输入的方式一站式地生成虚拟人物播报视频，缩短生成虚拟人物播报视频的时间周期，提高了生成虚拟人物播报视频的效率。

一种可选实施例中，视频创作页面支持通过文本输入的方式，实现视频的播报内容数据的编辑。通过视频创作页面编辑好的视频创作数据中的播报内容数据为文本数据。

示例性地，图5为本申请提供的一种文本输入方式的视频内容编辑页面的示例图，如图5所示，在视频内容编辑页面中可以选择播报内容的输入方式，当输入方式为文本输入时，页面中提供文本编辑区域，在该文本编辑区域内可以编辑待播报的文本内容。另外，如图5所示，视频内容编辑页面还可以提供视频名称的编辑区域，用户可以在视频名称的编辑区域输入视频名称，以实现视频名称的自定义。

基于以文本输入方式输入的播报内容数据，上述步骤S203中根据播报内容数据，确定待播报的文本内容和文本内容对应的播报语音，具体可以通过如下方式实现：

将文本数据作为待播报的文本内容；将文本数据转换为对应的音频数据；根据音频数据和视频设置参数中的播报声音设置信息，生成文本内容对应的播报语音。

其中，播报声音设置信息包括播报声音的音色、音量、语速、音调等。根据音频数据和视频设置参数中的播报声音设置信息，生成使用设置的音色、音量、语速、音调播报文本内容的播报语音。

进一步地，上述步骤S204生成虚拟人物播报视频时，具体可以通过如下方式实现：

步骤S1、根据文本内容和播报语音，确定虚拟人物模型的驱动数据。

具体地，根据文本内容和播报语音，生成用于驱动虚拟人物做出播报该播报语音的行为的驱动数据。该驱动数据可以包括语音驱动参数、动作驱动参数等。其中，语音驱动参数用于驱动虚拟人物做出播报语音对应的口型。动作驱动参数包括用于驱动虚拟人物在播报语音过程中做出面部和/或身体的动作，如面部表情、手势、躯体动作(如弯腰、转向等)等。

步骤S2、根据驱动数据，进行虚拟人物的驱动和渲染，生成播报该播报语音的过程中的虚拟人物图像数据。

在生成虚拟人物的驱动数据之后，根据该驱动数据驱动骨骼模型，得到虚拟人物播报该播报语音的行为的骨骼数据；根据三维形象渲染模型对骨骼数据进行渲染，得到虚拟人物播报该播报语音的虚拟人物图像数据。

步骤S3、根据视频设置参数中播报界面的画面设置信息，获取播报所需的画面素材。

步骤S4、根据播报语音、虚拟人物图像数据和画面素材，合成虚拟人物播报视频。

该步骤中根据播报语音、播报该播报语音过程中的虚拟人物图像数据、播报所需的画面素材进行渲染，生成虚拟人物播报视频，从而将播报语音、播报该播报语音过程中的虚拟人物图像数据、播报所需的画面素材合成到视频流中。

本实施例中，对于采用文本输入方式输入的播报内容数据，播报内容数据即为待播报的文本内容，通过文本数据转换为对应的音频数据，并根据音频数据和视频设置参数中的播报声音设置信息，生成文本内容对应的播报语音，根据待播报的文本内容和播报语音驱动虚拟人物，并渲染生成虚拟人物播报视频，能够在线快速生成虚拟人物播报视频，能够基于图文输入的方式一站式地生成虚拟人物播报视频，缩短生成虚拟人物播报视频的时间周期，提高了生成虚拟人物播报视频的效率。

一种可选实施例中，视频创作页面支持通过文本输入的方式，实现视频的播报内容数据的编辑。通过视频创作页面编辑好的视频创作数据中的播报内容数据为语音数据。

示例性地，图6为本申请提供的一种语音输入方式的视频内容编辑页面的示例图，如图6所示，在视频内容编辑页面中可以选择播报内容的输入方式，当输入方式为语音输入时，页面中提供音频数据的上传区域，在该上传区域内可以上传音频文件。

可选地，视频内容编辑页面还可以显示支持使用的音频文件的格式和大小等信息，以便用户上传可用的音频文件。

另外，语音输入方式的视频内容编辑页面也提供视频名称的编辑区域，用户可以在视频名称的编辑区域输入视频名称，以实现视频名称的自定义。

基于以语音输入方式输入的播报内容数据，即为待播报的播报语音。上述步骤S203中根据播报内容数据，确定待播报的文本内容和文本内容对应的播报语音，具体可以通过如下方式实现：

将播报内容数据作为待播报的文本内容对应的播报语音；将播报内容数据转换为文本数据，得到待播报的文本内容。

需要说明的是，若输入方式为语音输入，则直接将输入的播报内容数据作为播报语音，不支持重新设置播报语音使用的音色、音调、语速等信息。视频设置参数不包括播报声音设置信息。如图6所示，声音设置为禁用状态

进一步地，上述步骤S204生成虚拟人物播报视频时，具体可以通过上述步骤S1-S4实现，此处不再赘述。

本实施例中，对于采用语音输入方式输入的播报内容数据，播报内容数据即为待播报的播报语音，通过将播报内容数据转换为文本数据得到待播报的文本内容，并根据待播报的文本内容和播报语音驱动虚拟人物，并渲染生成虚拟人物播报视频，能够在线快速生成虚拟人物播报视频，能够基于图文输入的方式一站式地生成虚拟人物播报视频，缩短生成虚拟人物播报视频的时间周期，提高了生成虚拟人物播报视频的效率。

一种可选实施例中，服务器支持保存未完成创作的视频创作数据，以及对保存的未完成的视频创作数据进行继续创作的功能。

示例性地，如图3、图5和图6所示的视频内容编辑页面，提供“存为草稿”控件，用户通过点击该“存为草稿”控件，向服务器提交视频创作数据的保存请求，以保存未完成创作的视频创作数据。

示例性地，服务器可以为每一待生成的虚拟人物播报视频创建一个视频生成任务。视频生成任务的信息可以包括视频生成的状态信息、视频名称、任务创建时间等信息。

服务器接收视频创作数据保存请求，并获取当前视频创作页面编辑完成的视频创作数据。如果这是对虚拟人物播报视频的视频创作数据的第一次保存，那么根据当前编辑完成的视频创作数据，创建视频生成任务，并存储视频生成任务的视频创作数据。如果当前是对已保存过的视频创作数据的再次编辑，则直接更新该视频生成任务的视频创作数据。

通过提供视频创作数据的保存功能，便于用户保存未完成创作的视频创作数据，并可以在再次登录系统可以继续之前的视频创作，方便用户进行视频创作，提高系统的智能化，改善用户体验。

一种可选实施例中，服务器还可以提供对用户的所有视频生成任务的管理功能，也即实现对待生成视频的管理功能。

示例性地，用户在需要查看视频生成任务的信息时，可以通过点击页面上的“视频管理”控件等操作向服务器发送视频管理请求。服务器接收视频管理请求，提供视频管理页面，通过视频管理页面显示视频生成任务，并显示视频生成任务的状态信息(如图7所示)。

其中，视频生成任务的状态信息包括视频编辑中、视频生成中、视频生成完成。视频编辑中表示视频创作未完成，用户还未针对该任务的视频创作数据提交视频生成服务请求。用户可以针对该任务的视频创作数据再次进行编辑，并在完成视频创作后向服务器提交视频生成服务请求。

服务器可以接收对任一视频生成任务的编辑请求，提供用于编辑视频生成任务的视频创作数据的视频创作页面。

视频生成中设置用户已针对该任务的视频创作数据提交了视频生成服务请求，视频生成还未完成。

视频生成完成是指已经生成了虚拟人物播报视频的任务。另外，如图7所示，视频管理页面中可以提供已生成的虚拟人物播报视频的下载入口，如图7中所示的“下载视频”控件，通过点击该“下载视频”控件可以下载已生成的虚拟人物播报视频。

另外，视频管理页面还可以提供已生成视频的预览功能。

通过提供对待生成视频的管理功能，使得同一用户可以同时具有多个视频生成任务，并可以随时查看各个视频生成任务的状态，并且可以进行已生成的虚拟人物播报视频的下载和预览，提高系统的智能化，改善用户体验。

本申请提供的虚拟人物播报视频生成方法，通过文本输入、音频输入以及图文输入的方式驱动虚拟人物播报相应的内容，快速创作虚拟人物播报视频。除去基础的虚拟人物离线渲染能力，还提供了便捷的虚拟人物的编辑能力，包括虚拟人物的移动和缩放、图像的移动和缩放，给用户提供一站式的视频创作服务。支持在线下载、预览、发布已生成的虚拟人物播报视频，提供一站式的视频生成服务。

图8为本申请一示例性实施例提供的虚拟人物播报视频生成系统的架构图。本申请实施例提供的虚拟人物播报视频生成系统可以执行虚拟人物播报视频生成方法实施例提供的处理流程。如图8所示，虚拟人物播报视频生成系统80包括：交互界面模块81、视频创作模块82、播报内容处理模块83、驱动渲染模块84和视频输出模块85。

其中，交互界面模块81用于提供视频创作页面。

82用于接收视频生成服务请求，获取通过视频创作页面编辑好的视频创作数据，视频创作数据包括：虚拟人物设置数据、播报内容数据和视频设置参数。

播报内容处理模块83用于根据播报内容数据，确定待播报的文本内容和文本内容对应的播报语音。

驱动渲染模块84用于根据文本内容、播报语音和虚拟人物设置数据，驱动虚拟人物执行播报该播报语音的行为，并根据视频设置参数渲染生成虚拟人物播报视频。

视频输出模块85用于输出虚拟人物播报视频。

本申请实施例提供的系统可以具体用于执行上述图2对应方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

一种可选实施例中，播报内容数据包括由至少一个图文数据组成的图文序列，图文数据包括文本信息，或者，图文数据包括文本信息和文本信息对应的图像，视频设置参数包括图文数据中的图像在播报画面中的位置和大小。

在实现根据播报内容数据，确定待播报的文本内容和文本内容对应的播报语音时，播报内容处理模块还用于：

一种可选实施例中，在实现根据文本内容、播报语音和虚拟人物设置数据，驱动虚拟人物执行播报该播报语音的行为，并根据视频设置参数渲染生成虚拟人物播报视频时，驱动渲染模块还用于：

对图文序列中的每一图文数据，根据图文数据中的文本信息和文本信息对应的语音片段，确定虚拟人物的驱动数据；根据驱动数据，进行虚拟人物的驱动和渲染，生成播报语音片段过程中的虚拟人物图像数据；根据视频设置参数中播报界面的画面设置信息，获取播报所需的画面素材；根据语音片段、播报语音片段过程中的虚拟人物图像数据、播报所需的画面素材、图文数据中的图像和图像在播报画面中的位置信息，合成图文数据对应的虚拟人物播报视频片段；将图文序列中图文数据对应的虚拟人物播报视频片段按顺序拼接，得到虚拟人物播报视频。

一种可选实施例中，播报内容数据为文本数据，在实现根据播报内容数据，确定待播报的文本内容和文本内容对应的播报语音时，播报内容处理模块还用于：

一种可选实施例中，在实现播报内容数据为语音数据，根据播报内容数据，确定待播报的文本内容和文本内容对应的播报语音时，播报内容处理模块还用于：

根据文本内容和播报语音，确定虚拟人物的驱动数据；根据驱动数据，进行虚拟人物的驱动和渲染，生成播报该播报语音的过程中的虚拟人物图像数据；根据视频设置参数中播报界面的画面设置信息，获取播报所需的画面素材；根据播报语音、虚拟人物图像数据和画面素材，合成虚拟人物播报视频。

一种可选实施例中，视频创作页面包括视频内容编辑页面、虚拟人物设置页面和视频设置参数编辑页面。

其中，视频内容编辑页面用于实现播报内容数据的编辑，虚拟人物设置页面用于选择播报使用的虚拟人物形象、编辑虚拟人物在播报界面中的位置和大小，视频设置参数编辑页面用于编辑播报声音设置信息和以下至少一项画面设置信息：背景信息、字幕信息。

一种可选实施例中，在接收视频生成服务请求之前，视频创作模块还用于：

接收视频创作数据保存请求，获取当前视频创作页面编辑完成的视频创作数据；根据当前编辑完成的视频创作数据，创建视频生成任务，并存储视频生成任务的视频创作数据。

一种可选实施例中，视频创作模块还用于：

接收视频管理请求，提供视频管理页面，通过视频管理页面显示视频生成任务，并显示视频生成任务的状态信息，视频生成任务的状态信息包括视频编辑中、视频生成中、视频生成完成；接收对任一视频生成任务的编辑请求，提供用于编辑视频生成任务的视频创作数据的视频创作页面。

一种可选实施例中，视频创作模块还用于：

接收虚拟人物形象管理请求，提供虚拟人物形象管理页面，虚拟人物形象管理页面提供以下至少一项编辑功能：基于已有虚拟人物形象创建新的虚拟人物形象、修改已有的虚拟人物形象、上传新的虚拟人物形象。

一种可选实施例中，视频输出模块还用于进行以下至少一项处理：

接收终端对虚拟人物播报视频的下载请求，向终端发送虚拟人物播报视频；

接收对虚拟人物播报视频的预览请求，通过前端页面播放虚拟人物播报视频；

将虚拟人物播报视频的发布到视频播放平台，输出虚拟人物播报视频的播放链接信息。

本申请实施例提供的系统可以具体用于执行上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种生成虚拟人物播报视频的方法，其特征在于，包括：

提供视频创作页面；

输出所述虚拟人物播报视频。

2.根据权利要求1所述的方法，其特征在于，所述播报内容数据包括由至少一个图文数据组成的图文序列，所述图文数据包括文本信息，或者，所述图文数据包括文本信息和所述文本信息对应的图像，所述视频设置参数包括图文数据中的图像在播报画面中的位置和大小；

所述根据所述播报内容数据，确定待播报的文本内容和所述文本内容对应的播报语音，包括：

将所述图文数据中的文本信息作为待播报的文本内容片段；

将所述文本内容片段转换为对应的音频数据；

根据所述文本内容片段对应的音频数据和所述视频设置参数中的播报声音设置信息，生成所述文本信息对应的语音片段。

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本内容、所述播报语音和所述虚拟人物设置数据，驱动虚拟人物执行播报所述播报语音的行为，并根据所述视频设置参数渲染生成虚拟人物播报视频，包括：

对所述图文序列中的每一所述图文数据，根据所述图文数据中的文本信息和所述文本信息对应的语音片段，确定虚拟人物的驱动数据；

根据所述驱动数据，进行虚拟人物的驱动和渲染，生成播报所述语音片段过程中的虚拟人物图像数据；

根据所述视频设置参数中播报界面的画面设置信息，获取播报所需的画面素材；

根据所述语音片段、播报所述语音片段过程中的虚拟人物图像数据、播报所需的画面素材、所述图文数据中的图像和图像在播报画面中的位置信息，合成所述图文数据对应的虚拟人物播报视频片段；

将所述图文序列中所述图文数据对应的虚拟人物播报视频片段按顺序拼接，得到虚拟人物播报视频。

4.根据权利要求1所述的方法，其特征在于，所述播报内容数据为文本数据，所述根据所述播报内容数据，确定待播报的文本内容和所述文本内容对应的播报语音，包括：

将所述文本数据作为待播报的文本内容；

将所述文本数据转换为对应的音频数据；

根据所述音频数据和所述视频设置参数中的播报声音设置信息，生成所述文本内容对应的播报语音。

5.根据权利要求1所述的方法，其特征在于，所述播报内容数据为语音数据，所述根据所述播报内容数据，确定待播报的文本内容和所述文本内容对应的播报语音，包括：

将所述播报内容数据作为待播报的文本内容对应的播报语音；

将所述播报内容数据转换为文本数据，得到待播报的文本内容。

6.根据权利要求4或5所述的方法，其特征在于，所述根据所述文本内容、所述播报语音和所述虚拟人物设置数据，驱动虚拟人物执行播报所述播报语音的行为，并根据所述视频设置参数渲染生成虚拟人物播报视频，包括：

根据所述文本内容和所述播报语音，确定虚拟人物的驱动数据；

根据所述驱动数据，进行虚拟人物的驱动和渲染，生成播报所述播报语音的过程中的虚拟人物图像数据；

根据所述播报语音、所述虚拟人物图像数据和所述画面素材，合成虚拟人物播报视频。

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述视频创作页面包括视频内容编辑页面、虚拟人物设置页面和视频设置参数编辑页面；

其中，所述视频内容编辑页面用于实现播报内容数据的编辑，所述虚拟人物设置页面用于选择播报使用的虚拟人物形象、编辑虚拟人物在播报界面中的位置和大小，所述视频设置参数编辑页面用于编辑播报声音设置信息和以下至少一项画面设置信息：背景信息、字幕信息。

8.根据权利要求7所述的方法，其特征在于，所述接收视频生成服务请求之前，还包括：

接收视频创作数据保存请求，获取当前所述视频创作页面编辑完成的视频创作数据；

根据当前编辑完成的视频创作数据，创建视频生成任务，并存储所述视频生成任务的视频创作数据。

9.根据权利要求8所述的方法，其特征在于，还包括：

接收视频管理请求，提供视频管理页面，通过所述视频管理页面显示视频生成任务，并显示所述视频生成任务的状态信息，所述视频生成任务的状态信息包括视频编辑中、视频生成中、视频生成完成；

接收对任一所述视频生成任务的编辑请求，提供用于编辑所述视频生成任务的视频创作数据的视频创作页面。

10.根据权利要求7所述的方法，其特征在于，还包括：

接收虚拟人物形象管理请求，提供虚拟人物形象管理页面，所述虚拟人物形象管理页面提供以下至少一项编辑功能：基于已有虚拟人物形象创建新的虚拟人物形象、修改已有的虚拟人物形象、上传新的虚拟人物形象。

11.根据权利要求1-5中任一项所述的方法，其特征在于，所述输出所述虚拟人物播报视频包括以下至少一项：

接收终端对所述虚拟人物播报视频的下载请求，向所述终端发送所述虚拟人物播报视频；

接收对所述虚拟人物播报视频的预览请求，通过前端页面播放所述虚拟人物播报视频；

将所述虚拟人物播报视频的发布到视频播放平台，输出所述虚拟人物播报视频的播放链接信息。

12.一种虚拟人物播报视频生成系统，其特征在于，包括：

交互界面模块，用于提供视频创作页面；

视频输出模块，用于输出所述虚拟人物播报视频。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-11中任一项所述的方法。