CN111050187A

CN111050187A - 一种虚拟视频处理的方法、装置及存储介质

Info

Publication number: CN111050187A
Application number: CN201911251646.6A
Authority: CN
Inventors: 朱绍明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-21
Anticipated expiration: 2039-12-09
Also published as: CN111050187B

Abstract

本申请实施例提供一种虚拟视频处理的方法、装置及存储介质，包括接收第一会话请求，根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征；对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，所述视频素材集合包括多个脸部特征图片；根据所述多个脸部特征图片和背景图片，得到视频数据，所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧；向所述终端发送目标视频，所述目标视频根据所述视频数据与所述音频数据得到。本方案能够提高会话间播放的实时性和流畅性，促使虚拟视频播放更加逼真。

Description

一种虚拟视频处理的方法、装置及存储介质

技术领域

本申请实施例涉及视频处理技术领域，尤其涉及一种虚拟视频处理的方法、装置及存储介质。

背景技术

在视频播放领域，一般结合虚拟视频播放技术和人工智能技术来实现真人进行新闻虚拟播报、代替游戏主播进行游戏虚拟解说等功能。

在对现有技术的研究和实践过程中，本申请实施例的发明人发现，在虚拟视频播放技术中，音频与图片的生成需要耗费大量的计算时间，合成音频与图片则会影响虚拟视频的实时推流，进而影响虚拟视频播放的实时性和流畅性。而现有的视频实时播放方法都是针对已有的、持续稳定的音频、图片数据输入(如本地视频推流)，或者是能够持续快速获取到音频、图片数据(如摄像头获取数据)等应用场景。现在的这种视频实时播放方法并不能直接应用在虚拟视频播放中，向客户端实时的推流，以保证虚拟视频播放的实时性和流畅性。

发明内容

本申请实施例提供了一种虚拟视频处理的方法、装置及存储介质，能够提高提高会话间播放的实时性和流畅性，促使虚拟视频播放更加逼真。

第一方面中，本申请实施例提供一种虚拟视频处理的方法，所述方法包括：

接收第一会话请求，所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本；

根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征；

对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，所述视频素材集合包括多个脸部特征图片；

分别将每个脸部特征图片与背景图片合成，得到视频数据，所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧；

向所述终端发送目标视频，所述目标视频根据所述视频数据与所述音频数据得到。

一种可能的设计中，所述向所述终端发送目标视频，包括：

若确定生成待发送给所述终端的视频数据未发生延迟，则将状态切换为忙碌状态；

在获取到所述视频数据后，将所述音频数据和所述视频数据合成为目标视频；

向所述终端发送所述目标视频。

一种可能的设计中，所述向所述终端发送目标视频之前，所述方法还包括：

若确定生成待发送给所述终端的视频数据发生延迟，则将状态切换为空闲状态；

获取过度视频，所述过度视频用于发生延迟的延迟时长内所述终端在播放所述目标视频之前的时间内播放；

向所述终端发送所述过度视频。

一种可能的设计中，所述过度视频的播放时长大于或等于所述延迟时长；

所述过度视频包括第一视频帧和第二视频帧，所述第一视频帧是指所述过度视频中播放时间最早的视频帧，所述第二视频帧是指所述过度视频中播放时间最晚的视频帧；所述第一视频帧与所述第二视频帧相似。

一种可能的设计中，所述获取过度视频，向所述终端发送所述过度视频，包括：

获取目标视频帧，所述目标视频帧是指与所述终端历史会话中向所述终端发送的最后一个视频帧；

将所述目标视频帧和静音音频数据作为所述过度视频；

在所述延迟时长内向所述终端重复发送所述过度视频，直至存在待发送给所述终端的视频数据。

获取历史文本，所述历史文本是指所述终端发送的历史会话请求中的文本，所述历史文本是指所述虚拟对象在虚拟视频播放时播放的语音对应的目标文本；

对所述历史文本进行情感分析，根据情感分析的结果确定所述过度视频，所述过度视频的情感特征与所述情感分析的结果匹配。

一种可能的设计中，所述对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，分别将每个脸部特征图片与背景图片合成，得到视频数据，包括：

获取预设的多个通用背景图片；

从所述多个通用背景图片中确定目标背景图片，所述目标背景图片与脸部表情特征匹配；

分别将各目标背景图片与匹配的面部表情特征进行合成，以得到多个合成图片，每个合成图片对应所述虚拟对象在一个时刻的肢体动作；

将所述多个合成图片作为所述视频数据。

一种可能的设计中，所述根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征，包括：

获取所述目标文本对应的音频时长，所述音频时长是指所述目标文本转换为目标音频后所述目标音频的播放时长；

所述从所述多个通用背景图片中确定目标背景图片，包括：

从所述多个通用背景图片中，确定与脸部表情特征匹配的多个候选背景图片；

根据所述音频时长和每个候选背景图片的播放时长，从所述多个候选背景图片中确定所述目标背景图片。

一种可能的设计中，所述目标视频数据保存在区块链节点上。

第二方面中，本申请实施例提供一种虚拟视频处理装置，具有实现对应于上述第一方面提供的虚拟视频处理的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，所述虚拟视频处理装置包括：

收发模块，用于接收第一会话请求，所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本；

处理模块，用于根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征；对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，所述视频素材集合包括多个脸部特征图片；分别将每个脸部特征图片与背景图片合成，得到视频数据，所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧；

通过所述收发模块向所述终端发送目标视频，所述目标视频根据所述视频数据与所述音频数据得到。

一种可能的设计中，所述处理模块具体用于：

若生成待发送给所述终端的视频数据未发生延迟，则将状态切换为忙碌状态；

通过所述收发模块向所述终端发送所述目标视频。

一种可能的设计中，所述处理模块在所述收费模块向所述终端发送目标视频之前，还用于：

通过所述收发模块向所述终端发送所述过度视频。

一种可能的设计中，所述过度视频的播放时长大于或等于延迟时长；

一种可能的设计中，所述处理模块具体用于：

将所述目标视频帧和静音音频数据作为所述过度视频；

在所述延迟时长内提供所述收发模块向所述终端重复发送所述过度视频，直至存在待发送给所述终端的视频数据。

一种可能的设计中，所述处理模块具体用于：

获取预设的多个通用背景图片；

将所述多个合成图片作为所述视频数据。

一种可能的设计中，所述处理模块具体用于：

本申请实施例又一方面提供了一种虚拟视频处理装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中的计算机程序来执行上述第一方面所述的方法。

本申请实施例又一方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

相较于现有技术，本申请实施例提供的方案中，根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征；对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，所述视频素材集合包括多个脸部特征图片；分别将每个脸部特征图片与背景图片合成，得到视频数据，并发送目标视频数据给所述终端。本方案能够提高会话间播放的实时性和流畅性，促使虚拟视频播放更加逼真，且无需过分依赖持续稳定的数据源。

附图说明

图1为本申请实施例中服务器侧的系统框架示意图；

图2为本申请实施例中虚拟视频处理的方法的一种流程示意图；

图3为本申请实施例中发送过度视频的一种流程示意图；

图4是本申请实施例中分布式系统的一种结构示意图；

图5是本申请实施例中虚拟视频处理装置的一种结构示意图；

图6是本申请实施例中执行虚拟视频处理的方法的计算机设备的一种结构示意图；

图7是本申请实施例中执行虚拟视频处理的方法的服务器的结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例供了一种虚拟视频处理的方法、装置及存储介质，可用于服务器侧，服务器侧可用于应用到包括虚拟新闻播放、虚拟游戏解说等播放场景中，能够实现多条新闻间的连贯虚拟播放。一些实施方式中，服务器可为区块链系统中的节点。如图1所示的服务器侧的系统框架示意图，服务器实现虚拟视频处理的方法主要通过以下4个功能模块实现。以下进行详细说明。

文本转换为语音(Text To Speech，TTS)服务模块，用于将终端的会话请求中的文本转换为语音。

渲染模块，用于将来自TTS服务模块的数据包渲染为脸部图片，以及将预设的通用背景图片与渲染模块渲染得到的脸部图片合成，得到一张完整的脸部图片，对所有脸部图片打包成虚拟视频，然后将虚拟视频发送给视频合成与推流模块。该虚拟视频可为直播视频，也可为重播视频，本申请实施例不对此作限定。

视频合成与推流模块，用于将来自渲染模块的虚拟视频推送到客户端，以在客户端上播放该虚拟视频。

流媒体服务模块，用于向终端提供虚拟视频数据。终端根据流媒体服务模块的链接地址，即可从流媒体服务模块获取对应的虚拟视频。

本申请实施例主要提供以下技术方案：

TTS服务模块接收到一次会话请求后，根据会话请求输入的文本将流式获取到的音频数据与口型特征，并将每次获取到的口型特征数据与口性特征推送给渲染模块，渲染模块每次获取到口型特征数据包后，进行渲染获取到虚拟角色的表情图片，并将渲染后的表情图片与音频数据推送给视频合成与推流模块。视频合成与推流模块接收到音频数据包与表情图片数据包，进行视频合成并推流至给流媒体服务。在一次会话请求结束后，TTS服务模块等待下一次会话请求，渲染模块等待下一个会话输入的渲染数据，视频合成与推流模块利用本文提出的会话间过度的方法，选择合适的背景视频推送给流媒体服务，实现会话间连贯过度，增强虚拟视频播放的连贯性，提高用户体验。

本申请实施例提供的方案涉及人工智能的计算机视觉技术(Computer Vision,CV)、语音合成技术(TTS)等技术，具体通过如下实施例进行说明：

CV计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音合成技术(TTS)是指让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

参照图2，以下介绍本申请实施例所提供的一种虚拟视频处理的方法，该方法可以用于在线实时对终端发起的会话进行虚拟视频处理，也可以用于播放客户端上线之前的测试过程，模拟服务器侧与终端(安装了播放客户端，或者通过网页访问服务器侧的播放服务端)的会话。本申请实施例中的终端可以是真实使用视频服务的终端，也可以是测试播放客户端的终端，本申请实施例不对此作限定。本申请实施例包括：

201、接收第一会话请求。

其中，所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本。所述第一会话请求用于请求获取视频数据，第一会话请求具有一个生命周期。用户可通过终端向服务器发送至少一次会话请求，以保持长时间的播放。该第一会话请求可来自于真实使用视频服务的终端，或者来自于测试播放客户端的终端。

202、根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征。

其中，音频数据是指将目标文本转换为目标音频后的数据，该目标音频对应一个播放时长。例如，目标文本为“大家好，欢迎大家来到我的播放间，我们一起为未来鼓掌吧！”，可将该目标文本转换为对应的目标音频。目标音频为模拟的人声。

脸部特征是指微笑、眨眼、眯眼、张嘴、生气、挑眉等脸部特征。

一些实施方式中，所述根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征，包括：

所述从所述多个通用背景图片中确定目标背景图片，包括：

可见，通过估算最终生成的播放视频时长，获取音频与脸部表情特征，能够快速获取到音视频数据，进而实现实时播放。

203、对所述音频数据和脸部表情特征进行渲染，得到视频素材集合。

其中，所述视频素材集合包括多个脸部特征图片，例如微笑、眨眼、眯眼、张嘴、生气、挑眉等脸部特征图片。

204、根据所述多个脸部特征图片和背景图片，得到视频数据。

其中，所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧。

一些实施方式中，所述对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，根据所述多个脸部特征图片和背景图片，得到视频数据，包括：

获取预设的多个通用背景图片；所述通用背景图片可包括人物的肢体动作和环境背景信息；

将所述多个合成图片作为所述视频数据。

例如，根据客户端请求文本产生视频长度，从预先保存的通用背景图片中选择n组合适的背景图片与脸部表情进行匹配合成。由于每个目标背景图片都是一个完整的动作，n组背景图片正好能够在视频结束时完成n个动作。每一组图片的开始与结束都是同一张图片，所以能够保证虚拟视频的自然衔接。

205、向所述终端发送目标视频。

其中，所述目标视频根据所述视频数据与所述音频数据得到。

与现有机制相比，本申请实施例中，根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征，对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，分别将每个脸部特征图片与背景图片合成，得到视频数据，并发送目标视频数据给所述终端。本方案能够提高会话间播放的实时性和流畅性，促使虚拟视频播放更加逼真。

一些实施方式中，考虑到生成下一波视频数据的时间可能会有延迟，为了保证观看虚拟视频的用户不感觉到虚拟视频中断或者卡顿，还可以在延迟生成下一波视频数据的延迟时长内向终端发送一个过度视频，以填补延迟时长内的播放空白，避免用户端播放目标视频时的卡顿现象。还可确定生成待发送给所述终端的视频数据是否发生延迟，下面基于图3分别介绍视频数据发生延迟和未发生延迟的推流过程。

正常的推流情况下，如图3所示，所述向所述终端发送目标视频，包括：

301a、若生成待发送给所述终端的视频数据未发生延迟，或者确定生成待发送给所述终端的视频数据的延迟时长小于预设时长，则将状态切换为忙碌状态。

其中，预设时长是指恰好能影响用户侧播放所述目标视频时的卡顿最小时长。例如预设时长为0.0001s时，可认为不影响播放的流畅性，则将状态切换为忙碌状态，以做好推流的准备。

302a、在获取到所述视频数据后，将所述音频数据和所述视频数据合成为目标视频。

具体来说，可基于图1中的视频合成与推流模块将所述音频数据和所述播放视频数据合成为目标视频。

303a、向所述终端发送所述目标视频。

具体来说，可基于图1中的视频合成与推流模块发送所述目标视频。

在向所述终端发送所述目标视频后，还可以判断本次会话是否结束，如果是结束，则重新确定生成待发送给所述终端的视频数据是否发生延迟，并进行后续的推流过程，循环往复，直至没有收到来自终端的新会话请求。如果是未结束，则回到获取视频数据的步骤，继续步骤302a和步骤303a，循环往复，不作赘述。

考虑到生成下一波视频数据的时间可能会有延迟，为了保证观看虚拟视频的用户不感觉到虚拟视频中断或者卡顿，还可以在延迟生成下一波视频数据的延迟时长内向终端发送一个过度视频，以填补延迟时长内的播放空白，避免用户端播放目标视频时的卡顿现象。具体来说，如图3所示，向所述终端发送目标视频之前，本申请实施例还包括：

301b、若确定生成待发送给所述终端的视频数据发生延迟，则将状态切换为空闲状态。

302b、获取过度视频。

其中，所述过度视频用于发生延迟的延迟时长内所述终端在播放所述目标视频之前的时间内播放。

一些实施方式中，所述过度视频的播放时长大于或等于所述延迟时长。

所述过度视频包括第一视频帧和第二视频帧，所述第一视频帧是指所述过度视频中播放时间最早的视频帧，所述第二视频帧是指所述过度视频中播放时间最晚的视频帧；所述第一视频帧与所述第二视频帧相似(例如相似度高于预设相似度或者完全一致，本申请实施例不对此作限定)。

本申请实施例中，过度视频可以是随机选择，也可以是按照一定规律选择，例如过度视频可根据上一个会话的文本内容进行选择，或者根据上一次会话中向终端发送的视频选择。具体选择方式本申请实施例不对此作限定。

下面分别进行介绍：

(1)根据上一次会话中向终端发送的视频选择过度视频

具体来说，包括以下步骤：

获取目标视频帧，所述目标视频帧是指与所述终端历史会话中向所述终端发送的最后一个视频帧，或者是指与所述终端历史会话中向所述终端发送的任一个视频帧；

将所述目标视频帧和静音音频数据作为所述过度视频。

其中，历史会话可以是上一次会话，也可以是上一次会话之前的会话。一般来说，用户很少回看视频，所以根据上一次会话确定目标视频帧比较符合用户的实际观看记录，为了提高无缝衔接和平滑过渡且不让用户感受到前后播放的视频差异太大，可以根据上一次会话确定目标视频帧。可见，方式

(1)中，根据上一次会话中向终端发送的视频选择过度视频，能够简化过度视频帧的实现过程验。

(2)根据上一个会话的文本内容进行选择过度视频

具体来说，包括以下步骤：

可见，方式(2)中，根据上一个会话的文本内容进行选择过度视频。比如，提前对过度视频进行情绪标记。在过度视频推流时，判断上一个会话文本表达了哪一种情绪后，从相对应情绪过度视频中选择一个过度视频进行推流。能够简化过度视频帧的实现过程。

303b、向所述终端发送所述过度视频。

可见，引入过度视频，以补充当前播放视频流的短暂空白，由于存在短暂播放过度视频，使得在客户端侧并不能感觉到虚拟播放中断了，能在表面上保证虚拟播放的流畅性，以免观看虚拟播放的用户认为卡顿，因此能够提高用户体验。一方面，每个过度视频都是播放时长较短(例如5s)的视频，并且过度视频的首尾帧图片能够保持相同，且与步骤4中提到的每组背景图片的首尾帧一致，这样就保证了整个播放视频的流畅衔接，避免了卡顿的现象。多个过度视频是提前录制好保存在本地。另一方面，过度视频的播放时长不小于延迟时长，就能够保证在新的目标虚拟视频到来之前，填补延迟时长内的播放空白。此外，由于第一视频帧和第二视频帧设为相似，所以，能够保证整个虚拟视频的流畅衔接，进一步避免卡顿的现象。

相应的，在采用上述方式(2)选择过度视频后，由于过度视频质保函一个视频帧，一个视频帧的播放时长有限，所以为了在所述延迟时长内向所述终端重复发送所述过度视频，直至存在待发送给所述终端的视频数据。例如，延迟时长为1秒，目标视频帧的播放时长为50ms，那么可以重复发送20次该目标视频帧。

可见，通过采用本实施方式，能够简化过度视频帧的实现过程，但降低了用户体验。

一些实施方式中，还可以根据延迟时长的大小来判断需要多少个视频帧可以刚好覆盖整个延迟时长的空白播放，如果延迟时长较短，那么可以选择方式(2)中的目标视频帧去作为过渡视频。一方面，相较于方式(1)获取的时间较短且操作简单；另一方面，只需要机械在延迟时长内向终端重复发送该目标视频帧，即可达到填补延迟时长的空白播放这个时间段，而且由于播放时间较短，也不会引起用户认为长时间播放同一画面所产生的卡顿错觉而产生不适感。如果延迟时长较长，那么，可以选择上述方式(1)，以避免由于长时间播放同一画面引起用户的不适感。因此，本申请实施例中，在选择过渡视频时，可以根据当前的实际情况进行判断和取舍，本申请实施例不对采用方式(1)和方式(2)作限定。

一些实施方式中，如果没有合适的播放时长的过度视频可以选，还可以通过调整视频帧的帧率来延长或者缩短过度视频的播放时长，以无缝衔接下一个虚拟视频数据的到来。

可选的，在本申请实施例的一些实施例中，上述指示信息可保存在区块链中。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

本申请实施例中执行虚拟视频处理方法的装置(也可称作服务器)可以是区块链系统中的节点。本申请实施例中的虚拟视频处理装置可以是如图4所示的一种区块链系统中的节点。

图1至图4中任一项所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图5-图7所对应的实施例，后续类似之处不再赘述。

以上对本申请实施例中一种虚拟视频处理的方法进行说明，以下对执行上述虚拟视频处理的方法的装置、计算机设备和服务器进行介绍。

上面对本申请实施例中的一种虚拟视频处理的方法进行了描述，下面对本申请实施例中的虚拟视频处理装置进行描述。

参阅图5，如图5所示的一种虚拟视频处理装置50的结构示意图，其可应用于虚拟新闻播放、虚拟游戏解说等播放场景。本申请实施例中的虚拟视频处理装置能够实现对应于上述图1所对应的实施例中所执行的虚拟视频处理的方法的步骤。虚拟视频处理装置50实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述虚拟视频处理装置50可包括收发模块501和处理模块502，所述处理模块502和所述收发模块501的功能实现可参考图1所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理模块可用于控制所述收发模块501的接收第一会话请求、发送目标视频等操作。

一些实施方式中，所述收发模块501用于接收第一会话请求，所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本；

所述处理模块502可用于根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征；对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，所述视频素材集合包括多个脸部特征图片；分别将每个脸部特征图片与背景图片合成，得到视频数据，所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧；

通过所述收发模块501向所述终端发送目标视频，所述目标视频根据所述视频数据与所述音频数据得到。

本申请实施例中，根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征；对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，所述视频素材集合包括多个脸部特征图片；分别将每个脸部特征图片与背景图片合成，得到视频数据，并发送目标视频数据给所述终端。本方案能够提高会话间播放的实时性和流畅性，促使虚拟视频播放更加逼真。

一些实施方式中，所述处理模块502具体用于：

若确定在延迟时长内存在待发送给所述终端的视频数据，则将状态切换为忙碌状态；

通过所述收发模块501向所述终端发送所述目标视频。

一些实施方式中，所述处理模块502在所述收费模块向所述终端发送目标视频之前，还用于：

通过所述收发模块501向所述终端发送所述过度视频。

一些实施方式中，所述过度视频的播放时长大于或等于延迟时长；

一些实施方式中，所述处理模块502具体用于：

将所述目标视频帧和静音音频数据作为所述过度视频；

在所述延迟时长内提供所述收发模块501向所述终端重复发送所述过度视频，直至存在待发送给所述终端的视频数据。

一些实施方式中，所述处理模块502具体用于：

获取预设的多个通用背景图片；

将所述多个合成图片作为所述视频数据。

一些实施方式中，所述处理模块502具体用于：

上面从模块化功能实体的角度对本申请实施例中的音视频推荐装置60进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行音视频推荐方法的计算机设备、服务器分别进行描述。图6所示的装置可以具有如图7所示的结构，当图6所示的装置具有如图7所示的结构时，图7中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块601和收发模块602相同或相似的功能，图7中的中央存储器存储处理器执行上述音视频推荐方法时需要调用的计算机程序。在本申请实施例图6所示的实施例中的收发模块602所对应的实体设备可以为收发器、输入输出单元或输入输出接口，处理模块601对应的实体设备可以为处理器。

图7是本申请实施例提供的一种服务器结构示意图，该服务器720可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：centralprocessing units，英文简称：CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器720上执行存储介质730中的一系列指令操作。

服务器720还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口757，和/或，一个或一个以上操作系统741，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器720的结构。例如，例如上述实施例中由图7所示的装置50所执行的步骤可以基于该图7所示的服务器结构。例如，所述处理器722通过调用存储器732中的指令，执行以下操作：

通过上述输入输出接口757接收第一会话请求，所述第一会话请求携带虚拟对象在虚拟视频播放时待播放的语音对应的目标文本；

通过上述输入输出接口757向所述终端发送目标视频，所述目标视频根据所述视频数据与所述音频数据得到。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种虚拟视频处理的方法，其特征在于，所述方法包括：

根据所述多个脸部特征图片和背景图片，得到视频数据，所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧；

2.根据权利要求1所述的方法，其特征在于，所述向所述终端发送目标视频，包括：

向所述终端发送所述目标视频。

3.根据权利要求1所述的方法，其特征在于，所述向所述终端发送目标视频之前，所述方法还包括：

向所述终端发送所述过度视频。

4.根据权利要求3所述的方法，其特征在于，所述过度视频的播放时长大于或等于所述延迟时长；

5.根据权利要求3或4所述的方法，其特征在于，所述获取过度视频，向所述终端发送所述过度视频，包括：

将所述目标视频帧和静音音频数据作为所述过度视频；

6.根据权利要求3或4所述的方法，其特征在于，所述获取过度视频，向所述终端发送所述过度视频，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，根据所述多个脸部特征图片和背景图片，得到视频数据，包括：

获取预设的多个通用背景图片；

将所述多个合成图片作为所述视频数据。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征，包括：

所述从所述多个通用背景图片中确定目标背景图片，包括：

9.根据权利要求1所述的方法，其特征在于，所述目标视频数据保存在区块链节点上。

10.一种虚拟视频处理装置，其特征在于，所述虚拟视频处理装置包括：

处理模块，用于根据所述第一会话请求获取所述目标文本对应的音频数据和脸部表情特征；对所述音频数据和脸部表情特征进行渲染，得到视频素材集合，所述视频素材集合包括多个脸部特征图片；分别将每个脸部特征图片与背景图片合成，得到视频数据，所述视频数据包括多张由脸部特征图片和背景图片合成的视频帧；通过所述收发模块向所述终端发送目标视频，所述目标视频根据所述视频数据与所述音频数据得到。

11.一种计算机设备，其特征在于，所述计算机设备包括：

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-9任一项所述的方法。