CN117255231B

CN117255231B - 一种虚拟视频合成方法、装置及相关产品

Info

Publication number: CN117255231B
Application number: CN202311495696.5A
Authority: CN
Inventors: 朱绍明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-03-22
Anticipated expiration: 2043-11-10
Also published as: CN117255231A

Abstract

本申请公开一种虚拟视频合成方法、装置及相关产品。根据动作标签在音频中的播放起始时间戳，确定动作图片在默认待合成图片集合中的播放起始位置和播放结束位置；将播放起始位置和播放结束位置对应位置区间内应播放的默认待合成图片替换为动作图片，形成新的默认待合成图片集合；对新的默认待合成图片集合和音频进行视频合成处理，获得虚拟视频。可见，在本申请技术方案中由于默认待合成图片集合的播放时长与音频的播放时长相同，可以根据动作标签在音频中的播放起始时间戳，来确定动作标签对应的动作图片在默认待合成图片集合中的位置，如此在时间维度上便可实现动作图片与音频的较好对接，进而提高了虚拟视频的播放效果。

Description

一种虚拟视频合成方法、装置及相关产品

技术领域

本申请涉及虚拟视频合成技术领域，尤其涉及一种虚拟视频合成方法、装置及相关产品。

背景技术

虚拟视频为无需人工录制的、自动合成的视频。在相关技术中，利用文本转换的音频和预存的图片集合合成虚拟视频，由于图片集合中动作图片的存在，在合成虚拟视频过程中不能很好的将动作图片与音频对接上，会出现音频中某段文字播放完后，动作图片还未播放或动作图片已播放的现象，导致最终合成的虚拟视频的播放效果较差。

由此，如何提高虚拟视频的播放效果，已经成为当前领域亟待解决的技术问题。

发明内容

本申请实施例提供了一种虚拟视频合成方法、装置及相关产品，旨在提高虚拟视频的播放效果。

本申请第一方面提供了一种虚拟视频合成方法，包括：

获取目标文本、默认待合成图片集合和所述目标文本中动作标签对应的动作图片；

对所述目标文本进行处理，获得所述目标文本对应的音频和所述动作标签在所述音频中的播放起始时间戳；

根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置，其中所述默认待合成图片集合的播放时长与所述音频的播放时长相同；

将所述播放起始位置和所述播放结束位置对应位置区间内应播放的默认待合成图片替换为所述动作图片，形成新的默认待合成图片集合；

对所述新的默认待合成图片集合和所述音频进行视频合成处理，获得虚拟视频。

本申请第二方面提供了一种虚拟视频合成装置，包括：

文本图片获取单元，用于获取目标文本、默认待合成图片集合和所述目标文本中动作标签对应的动作图片；

目标文本处理单元，用于对所述目标文本进行处理，获得所述目标文本对应的音频和所述动作标签在所述音频中的播放起始时间戳；

图片位置确定单元，用于根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置，其中所述默认待合成图片集合的播放时长与所述音频的播放时长相同；

动作图片替换单元，用于将所述播放起始位置和所述播放结束位置对应位置区间内应播放的默认待合成图片替换为所述动作图片，形成新的默认待合成图片集合；

虚拟视频合成单元，用于对所述新的默认待合成图片集合和所述音频进行视频合成处理，获得虚拟视频。

本申请第三方面提供了一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行第一方面提供的虚拟视频合成方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被计算机设备执行时实现第一方面提供的虚拟视频合成方法的步骤。

本申请第五方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被计算机设备执行时实现第一方面提供的虚拟视频合成方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请技术方案中首先获取目标文本、默认待合成图片集合和目标文本中动作标签对应的动作图片，然后对目标文本进行处理，获得目标文本对应的音频和动作标签在音频中的播放起始时间戳，在此之后，根据动作标签在音频中的播放起始时间戳，来确定动作图片在默认待合成图片集合中的播放起始位置和播放结束位置，最后将播放起始位置和播放结束位置对应位置区间内应播放的默认待合成图片替换为动作图片，形成新的默认待合成图片集合，以及对新的默认待合成图片集合和音频进行视频合成处理，获得虚拟视频。可见，在本申请技术方案中利用动作标签在音频中的播放起始时间戳，来确定动作标签对应的动作图片在默认待合成图片集合中的位置，以将该位置处应播放的默认待合成图片替换为动作图片，如此，由于默认待合成图片集合的播放时长与音频的播放时长相同，在时间维度上便可实现动作图片与音频的较好对接，进而提高了虚拟视频的播放效果。

附图说明

图1为本申请实施例提供的一种虚拟视频合成方法的场景架构图；

图2为本申请实施例提供的一种虚拟视频合成方法的场景示意图；

图3为本申请实施例提供的一种虚拟视频合成方法的流程图；

图4为本申请实施例提供的另一种虚拟视频合成方法的场景示意图；

图5为本申请实施例提供的一种虚拟视频合成方法中确定动作图片位置的流程图；

图6为本申请实施例提供的一种虚拟视频合成方法中确定动作图片位置的场景示意图；

图7为本申请实施例提供的一种虚拟视频合成方法中替换图片的场景示意图；

图8为本申请实施例提供的另一种虚拟视频合成方法中确定动作图片位置的流程图；

图9为本申请实施例提供的另一种虚拟视频合成方法中替换图片的场景示意图；

图10为本申请实施例提供的一种虚拟视频合成装置的结构示意图；

图11为本申请实施例中服务器的一个结构示意图；

图12为本申请实施例中终端设备的一个结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

虚拟视频为无需人工录制的、自动合成的视频。在相关技术中，利用文本转换的音频和预存的图片集合合成虚拟视频，由于图片集合中动作图片的存在，在合成虚拟视频过程中不能很好的将动作图片与音频对接上。具体的，由于动作图片需要与文本中动作标签对应，可以根据动作标签在文本中的相对位置确定动作图片位于图片集合中的位置，以在该位置处放置动作图片来获得虚拟视频，如此，在播放虚拟视频时会出现音频中某段文字播放完后，动作图片还未播放或动作图片已播放的现象，导致最终合成的虚拟视频的播放效果较差。由此，如何提高虚拟视频的播放效果，已经成为当前领域亟待解决的技术问题。

鉴于以上问题，在本申请中提供了一种虚拟视频合成方法、装置及相关产品，旨在提高虚拟视频的播放效果。在本申请提供的技术方案中提出根据目标文本中动作标签在音频中的播放起始时间戳，确定动作标签对应的动作图片在默认待合成图片集合中的位置，由于默认待合成图片集合的播放时长与音频的播放时长相同，便可将该位置应播放的默认待合成图片替换为动作图片，以获得新的默认待合成图片集合，最后根据新的默认待合成图片集合和目标文本的音频合成虚拟视频。可见，在本申请中在时间维度上实现了动作图片与音频的较好对接，进而提高了虚拟视频的播放效果。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。在本申请实施例中，人工智能技术可以利用机器确定目标文本中动作标签对应的动作图片在默认待合成图片集合中的位置，以根据该位置进行动作图片对默认待合成图片的替换，实现了动作图片与音频的较好对接。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请提供的虚拟视频合成方法主要涉及机器学习。其中，机器学习(MachineLearning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的虚拟视频合成方法的执行主体可以为终端设备。例如在终端设备上获取目标文本、默认待合成图片集合和目标文本中动作标签对应的动作图片。作为示例，终端设备具体可以包括但不限于手机、台式电脑、平板电脑、笔记本电能、掌上电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例提供的虚拟视频合成方法的执行主体也可以是服务器，即可以在服务器上获取目标文本、默认待合成图片集合和目标文本中动作标签对应的动作图片。本申请实施例提供的虚拟视频合成方法也可以由终端设备和服务器协同执行。故本申请实施例中对于执行本申请技术方案的实现主体不做限定。

图1示例性地展示了一种虚拟视频合成方法的场景架构图。图中包括服务器以及多种形式的终端设备。图1所示的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。另外，服务器还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

参见图2，图2为本申请实施例提供的一种虚拟视频合成方法的场景示意图。在图2中示出了虚拟视频200，具体的，在本申请获取目标文本、默认待合成图片集合和目标文本中动作标签对应的动作图片之后，对目标文本进行处理，获得目标文本对应的音频201和目标文本中动作标签在音频201中的播放起始时间戳202，在此阶段之后，根据播放起始时间戳202，确定动作图片203在默认待合成图片集合中的播放起始位置204和播放结束位置205，然后将播放起始位置204和播放结束位置205对应位置区间内应播放的默认待合成图片替换为动作图片203，以获得新的默认待合成图片集合206，最后对新的默认待合成图片集合206和音频201进行视频合成处理，获得虚拟视频200。可见，在本申请中在时间维度上，根据动作图片对应的动作标签在音频中的播放起始时间戳，来确定动作图片在默认待合成图片集合中的播放起始位置和播放结束位置，实现了动作图片与音频的较好对接，提高了虚拟视频的播放效果。

参见图3，该图为本申请实施例提供的一种虚拟视频合成方法的流程图。如图3所示的虚拟视频合成方法中，包括以下步骤：

S301：获取目标文本、默认待合成图片集合和所述目标文本中动作标签对应的动作图片。

在本步骤中，目标文本为播放虚拟视频时播放的音频对应的文本，比如：目标文本为“我爱祖国”，相应的，播放虚拟视频时播放的音频也为“我爱祖国”。默认待合成图片集合中每个默认待合成图片均为相同的图片，可以理解的，若目标文本中不存在动作标签，也即不存在动作标签对应的动作图片的情况下，可以直接根据默认待合成图片集合和对目标文本处理后获得的音频，合成虚拟视频；相应的，若目标文本中存在动作标签，也即存在动作标签对应的动作图片的情况下，可以将默认待合成图片集合中需要插入动作图片的默认待合成图片替换为动作图片，以形成新的默认待合成图片集合，以便后续过程根据新的默认待合成图片集合和对目标文本处理后获得的音频，合成虚拟视频。

进一步的，目标文本包括动作标签，本申请在获取动作标签对应的动作图片之前，还可以获取动作图片索引表，其中动作图片索引表用于使动作标签索引到与动作标签对应的动作图片，该动作图片索引表包括多种不同的动作标签和该多种不同的动作标签分别对应的动作图片，多种不同的动作标签分别对应的动作图片可以理解为多种不同的动作标签对应不同类的动作图片。需要说明的是，一类动作图片中可以包括一张动作图片，也可以包括多张动作图片。具体的，在获得目标文本中动作标签之后，可以根据动作图片索引表对动作标签进行索引，以获得与动作标签对应的动作图片。如此，本申请在面对目标文本中动作标签的种类不同的情况时，可以根据动作图片索引表索引到该类动作标签对应的动作图片，实现了合成虚拟视频的多元性。

S302：对所述目标文本进行处理，获得所述目标文本对应的音频和所述动作标签在所述音频中的播放起始时间戳。

在本步骤中，目标文本还包括多个文字，可以对多个文字进行音频转换处理，获得目标文本对应的音频。比如：多个文字为“我爱祖国”，相应的，目标文本对应的音频为“我爱祖国”。需要说明的是，在本申请中可以利用深度学习的方式对多个文字进行音频转换。

进一步的，多个文字可以包括第一文字和第二文字，其中动作标签存在于第一文字和第二文字之间，第一文字和第二文字为多个文字中连续的两个文字，也即在本申请中目标文本的格式可以表现为：第一文字＋动作标签+第二文字，比如：“我爱<动作标签>祖国”，其中“爱”为第一文字，“组”为第二文字，其中，第一文字中的“第一”和第二文字中的“第二”体现为区分文字的先后顺序。可以理解的是，在播放虚拟视频时，当音频播放完“我爱”后，便需要出现与动作标签对应的动作图片。需要说明的是，在本申请中第一文字可以为多个文字中的首个文字，也可以为多个文字中中间阶段的文字，第二文字可以为多个文字中的尾个文字，也可以为多个文字中中间阶段的文字，在此步骤不做具体限定，还可在实际应用中根据实际情况设定。

在一种可实现的实施方式中，可以根据音频获得音频的播放时长，然后根据音频的播放时长对第一文字进行预测，获得第一文字在音频中的第一预测播放时长，以及根据音频的播放时长对第二文字进行预测，获得第二文字在音频中的第二预测播放时长，由于动作标签位于第一文字和第二文字之间，接下来可以根据动作标签的位置、第一预测播放时长和第二预测播放时长，确定动作标签在音频中的播放起始时间戳。

如图4所示，图4为本申请实施例提供的另一种虚拟视频合成方法的场景示意图，在图4中结合具体示例进行说明。文字“我爱祖国”分别占据音频中连续的不同段的播放时长，然后根据音频的播放时长对第一文字“爱”进行预测，获得第一文字“爱”在音频中的第一预测播放时长207，以及根据音频的播放时长对第二文字“祖”进行预测，获得第二文字“祖”在音频中的第二预测播放时长208，最后根据动作标签在多个文字中的位置209、第一预测播放时长207和第二预测播放时长208，确定动作标签在音频中的播放起始时间戳202。如此，在本申请中，在时间维度上确定了动作标签在音频中的播放起始时间戳，进一步实现了动作图片与音频的较好对接。

在另一种可实现的实施方式中，可以对多个文字进行时长预测，以获得多个文字的预测播放时长，然后从多个文字的预测播放时长中确定第一文字的预测播放时长和第二文字的预测播放时长，从而根据动作标签的位置、第一预测播放时长和第二预测播放时长，确定动作标签在音频中的播放起始时间戳。需要说明的是，多个文字的预测播放时长和动作标签在音频中的播放起始时间戳可以以数组的形式展示（数组的形式为json格式）：

Timestamps=[

{word:我,mark=“”,s=0,e=220},

{word:爱,mark=“motion0”,s=220,e=440},

{word:祖,mark=“”,s=440,e=660},

{word:国,mark=“”,s=660,e=880},

]

其中，Timestamps为数组，word为文字，mark为动作标签（若动作标签为空，则表示该文字之后没有动作标签），s为该文字在音频中的播放起始时间戳，e为该文字在音频中的播放结束时间戳，单位为ms。由数组可知：文字“爱”之后存在动作标签“motion0”，则该动作标签“motion0”在音频中的播放起始时间戳为440ms，即文字“爱”在音频中的播放起始时间戳和文字“祖”在音频中的播放结束时间戳。

需要说明的是，在本申请中可以利用深度学习的方式实现对第一文字和第二文字的播放时长的预测或者对多个文字的播放时长的预测。由于本申请中进行音频转换以及文字播放时长的预测采用的深度学习的方式具备相同的计算逻辑，因此音频中每个文字的发音时长与预测的每个文字的发音时长相同。

S303：根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置。

需要说明的是，默认待合成图片集合的播放时长与音频的播放时长相同。可以理解的，在虚拟视频合成时，默认待合成图片集合的播放时长应与音频的播放时长对齐，因此在获得音频的播放时长，便可获得默认待合成图片集合的播放时长。可以理解的，由于默认待合成图片集合的播放时长与音频的播放时长相同，便可直接根据动作标签在音频中的播放起始时间戳，来确定动作图片在默认待合成图片集合中的播放起始位置和播放结束位置。可见，在本申请中首先根据目标文本对应的音频的播放时长来确定目标文本的播放时长，然后再根据目标文本对应的音频的播放时长来确定默认待合成图片集合的播放时长，如此，在本申请中从时间维度上解决了动作图片不能与音频实现较好的对接的问题，从而实现了音频与动作图片较好的对齐，提高了音频与动作图片对接的准确性，进而提高了虚拟视频的播放效果，还提高了观看对象观看虚拟视频时的体验感。

S304：将所述播放起始位置和所述播放结束位置对应位置区间内应播放的默认待合成图片替换为所述动作图片，形成新的默认待合成图片集合。

由于步骤S303中在时间维度上确定了动作图片在默认待合成图片集合中的播放起始位置和播放结束位置，因此在本步骤中便可直接将在默认待合成图片集合中的播放起始位置和播放结束位对应位置区间内应播放的默认待合成图片替换为动作图片，以更新为新的默认待合成图片集合，如此，实现了动作图片与默认待合成图片的较好替换。

需要说明的是，在进行动作图片替换时，仅将播放起始位置和播放结束位对应位置区间内应播放的默认待合成图片替换，将除了播放起始位置和播放结束位对应位置区间内的默认待合成图片保留，即新的默认待合成图片集合的格式体现为：第一默认待合成图片+动作图片+第二默认待合成图片。其中，第一默认待合成图片中的“第一”和第二默认待合成图片中的“第二”体现为区分默认待合成图片的先后顺序。

S305：对所述新的默认待合成图片集合和所述音频进行视频合成处理，获得虚拟视频。

在本步骤中，可以利用视频合成工具将新的默认待合成图片集合和音频融合为虚拟视频。其中视频合成工具可以为ffmpeg工具，在此不做具体限定，在实际应用中还可以使用其他可以将图片和音频合成虚拟视频的视频合成工具。

还需要说明的是，本申请在根据动作标签在音频中的播放起始时间戳，确定动作图片在默认待合成图片集合中的播放起始位置和播放结束位置之前，还可以获取待合成虚拟视频的帧率，然后根据帧率确定动作图片的播放时长。可以理解的，一般情况下视频的帧率相同，相应的，每帧图片耗费的时长也相同。在本申请中，待合成虚拟视频的帧率为预先设定的，可以为50/s，可以为40/s，在此不做具体限定。进一步的，本申请可以利用图片播放时长计算公式计算图片的播放时长，图片播放时长计算公式为：

其中，T为图片播放时长（单位为ms），F为帧率。比如：待合成虚拟视频的帧率为50/s，那么动作图片的播放时长为20ms。需要说明的是，若动作图片为多张时，则需要根据动作图片的播放时长和动作图片的数量确定多张动作图片的播放时长。如此，以便在后续过程中根据多张动作图片的播放时长确定动作图片在默认待合成图片集合的播放时长中的图片播放结束时间戳。

在一种可实现的实施方式中，步骤S303可以包括步骤S3011和步骤S3012，如图5所示，图5为本申请实施例提供的一种虚拟视频合成方法中确定动作图片位置的流程图。

S3011：根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合的播放时长中的图片播放起始时间戳。

下面结合图6对步骤S3011和步骤S3012进行说明，如图6所示，图6为本申请实施例提供的一种虚拟视频合成方法中确定动作图片位置的场景示意图，在图6中示出210为默认待合成图片集合。由于默认待合成图片集合的播放时长与音频的播放时长相同，因此便可确定区间a上方默认待合成图片集合210中的第一张图片与区间a下方音频201中的第一段音频对应，区间b上方默认待合成图片集合210中的第二张图片与区间b下方音频201中的第二段音频对应，区间c上方默认待合成图片集合210中的第三张图片与区间c下方音频201中的第三段音频对应，区间d上方默认待合成图片集合210中的第四张图片与区间d下方音频201中的第四段音频对应，其中“第一”、“第二”、“第三”和“第四”均用于表征图片和音频为按照时间顺序排序的。进一步的，在步骤S302中确定了动作标签在音频中的播放起始时间戳202，便可根据播放起始时间戳202确定动作图片在默认待合成图片集合210的播放时长中的图片播放起始时间戳211。

S3012：根据所述图片播放起始时间戳和所述动作图片的播放时长，确定所述动作图片在所述默认待合成图片集合的播放时长中的图片播放结束时间戳。

由于在本步骤中动作图片为一张图片，因此动作图片的播放时长为一张图片的耗时。进一步的，如图6所示可知，区间c上方默认待合成图片集合210中的第三张图片也为一张图片，便可根据图片播放起始时间戳211和动作图片的播放时长，确定动作图片在默认待合成图片集合210的播放时长中的图片播放结束时间戳212，其中该图片播放结束时间戳212为区间c上方默认待合成图片集合210中的第三张图片的图片播放结束时间戳。需要说明的是，若动作图片为多张图片时，则需要根据多张图片的播放时长确定动作图片在默认待合成图片集合的播放时长中的图片播放结束时间戳，比如：若动作图片为两张图片，则需要将动作图片在默认待合成图片集合的播放时长中的图片播放结束时间戳确定为区间d上方默认待合成图片集合中的第四张图片的图片播放结束时间戳。可见，本申请根据动作标签在音频中的时间戳，确定动作图片在默认待合成图片集合的播放时长中的时间戳，在时间维度下实现动作标签对应的动作图片与音频的较好对接。

更进一步的，如图7所示，图7为本申请实施例提供的一种虚拟视频合成方法中替换图片的场景示意图，经过上述步骤可知，动作图片在默认待合成图片集合的播放时长中的图片播放起始时间戳和图片播放结束时间戳，为区间c上方默认待合成图片集合中的第三张图片213的图片播放起始时间戳和图片播放结束时间戳，接下来便可将该图片播放起始时间戳和图片播放结束时间戳对应时间区间内应播放的默认待合成图片213替换为动作图片214，也即将区间c内应播放的默认待合成图片213替换为动作图片214。如此，实现了动作图片与默认待合成图片的较好替换，进一步提高了观看对象观看虚拟视频时的体验感。

在另一种可实现的实施方式中，步骤S303可以包括步骤S3013和步骤S3014，如图8所示，图8为本申请实施例提供的另一种虚拟视频合成方法中确定动作图片位置的流程图。

S3013：根据所述动作标签在所述音频中的播放起始时间戳和所述帧率，确定所述动作图片在所述默认待合成图片集合对应的待合成图片总数值中的图片播放起始序数。

首先需要说明的是，本申请在获取待合成虚拟视频的帧率之后，还可以根据默认待合成图片集合的播放时长和帧率，确定默认待合成图片集合对应的待合成图片总数值，以及对动作图片进行计数处理，确定动作图片总数值。如此，通过对动作图片进行计数处理，以确定该类动作标签对应的该类动作图片的动作图片总数值，以便在后续过程中根据该类动作图片的动作图片总数值确定动作图片在默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数。

在一些示例中，可以利用待合成图片总数值计算公式计算获得默认待合成图片集合对应的待合成图片总数值，待合成图片总数值计算公式为：

其中，M为待合成图片总数值，T1为默认待合成图片集合的播放时长，T为图片播放时长（T根据帧率获得）。比如：若默认待合成图片集合的播放时长为880ms，动作图片的播放时长为20ms，那么待合成图片总数值为44。需要说明的是，默认待合成图片集合的播放时长为默认待合成图片集合中最后一张默认待合成图片的播放结束时间戳。

进一步的，在本申请中可以根据图片播放起始序数计算公式获得图片播放起始序数，图片播放起始序数计算公式为：

其中，P为图片播放起始序数，E为动作标签在音频中的播放起始时间戳，T为图片播放时长（T根据帧率获得）,E/T为一个四舍五入的整数，其可以向上取整，也可以向下取整。比如：动作标签在音频中的播放起始时间戳为440ms，动作图片的播放时长为20ms，那么动作图片在默认待合成图片集合对应的待合成图片总数值中的图片播放起始序数为23，也即在播放虚拟视频时，动作图片将在默认待合成图片集合对应的待合成图片总数值中第23张图片处开始播放。

S3014：根据所述图片播放起始序数和所述动作图片总数值，确定所述动作图片在所述默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数。

在本步骤中，动作图片在默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数关键在于动作图片总数值，也即将图片播放起始序数与动作图片总数值进行相加处理，便可确定出动作图片在默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数。还需要说明的是，若图片播放起始序数与动作图片总数值相加后获得的数值小于待合成图片总数值，则动作图片在默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数为图片播放起始序数与动作图片总数值相加后获得的数值；若图片播放起始序数与动作图片总数值相加后获得的数值大于或等于待合成图片总数值，则动作图片在默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数为待合成图片总数值，如此，在图片播放起始序数与动作图片总数值相加后获得的数值大于待合成图片总数值的情况下，不再播放图片，保证了默认待合成图片集合的播放时长与音频的播放时长的一致性。

更进一步的，在确定动作图片在默认待合成图片集合对应的待合成图片总数值中的图片播放起始序数和图片播放结束序数之后，将图片播放起始序数和图片播放结束序数对应序数区间内应播放的默认待合成图片替换为动作图片。如图9所示，图9为本申请实施例提供的另一种虚拟视频合成方法中替换图片的场景示意图。在图9中结合具体示例说明根据图片播放起始序数和图片播放结束序数来确定动作图片在默认待合成图片集合中的位置。图9示出方块A为默认待合成图片集合，其中数值44为默认待合成图片集合中的待合成图片总数值，数值1至数值44为按照时间顺序对为默认待合成图片集合中的默认待合成图片排序的数值；方块B为动作图片，数值23至数值33之间的总数值为该类动作图片的动作图片总数值；方块C为替换动作图片后获得的新的默认待合成图片集合，也即将默认待合成图片集合中数值23至数值33这个数值区间内应播放的默认待合成图片替换为动作图片。如此，实现了在图片数量维度上确定动作图片位于默认待合成图片集合对应的待合成图片总数值中的位置，进而实现了动作图片与音频的较好对接。

在另一种示例中，在将图片播放起始序数和图片播放结束序数对应序数区间内应播放的默认待合成图片替换为动作图片时，会出现默认待合成图片和动作图片重叠的情况，也即第一文字在默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数与第二文字在默认待合成图片集合对应的待合成图片总数值中的图片播放起始序数相同，由于动作标签位于第一文字和第二文字之间，则在替换动作图片时需要从第二文字在默认待合成图片集合对应的待合成图片总数值中的图片播放起始序数开始替换，此时将出现第一文字对应的默认待合成图片和动作标签对应的动作图片重叠的情况，本申请可以进行图片抽帧处理，以在出现重叠的位置将默认待合成图片替换为动作图片，实现了最终合成虚拟视频的动作完整性。

更进一步的，在对目标文本进行处理，获得目标文本对应的音频和动作标签在音频中的播放起始时间戳之前，还可以判断目标文本中是否存在两个或两个以上动作标签，且两个或两个以上动作标签分别对应的动作图片存在重叠，若目标文本中存在两个或两个以上动作标签，且两个或两个以上动作标签分别对应的动作图片存在重叠，则对两个或两个以上动作标签分别对应的动作图片进行抽帧处理，获得动作图片集合，也即两个或两个以上动作标签分别对应的动作图片在同一位置处出现重叠的情况，此时可以对动作图片进行抽帧处理，以在出现重叠的位置将重叠的动作图片更新为重叠的动作图片中的任意一张即可，如此实现了最终合成虚拟视频的动作完整性，以及虚拟视频整体效果的流畅性。

需要说明的是，若目标文本中存在两个或两个以上动作标签，且两个或两个以上动作标签分别对应的动作图片未存在重叠；或者；若目标文本中未存在两个或两个以上动作标签，且两个或两个以上动作标签分别对应的动作图片未存在重叠，则执行步骤S302。

基于前文实施例提供的虚拟视频合成方法，本申请中还相应提供了一种虚拟视频合成装置。下面对本申请实施例提供的虚拟视频合成装置进行具体介绍。

参见图10，该图为本申请实施例提供的一种虚拟视频合成装置的结构示意图。如图10所示，该虚拟视频合成装置，具体包括：

文本图片获取单元1001，用于获取目标文本、默认待合成图片集合和所述目标文本中动作标签对应的动作图片；

目标文本处理单元1002，用于对所述目标文本进行处理，获得所述目标文本对应的音频和所述动作标签在所述音频中的播放起始时间戳；

图片位置确定单元1003，用于根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置，其中所述默认待合成图片集合的播放时长与所述音频的播放时长相同；

动作图片替换单元1004，用于将所述播放起始位置和所述播放结束位置对应位置区间内应播放的默认待合成图片替换为所述动作图片，形成新的默认待合成图片集合；

虚拟视频合成单元1005，用于对所述新的默认待合成图片集合和所述音频进行视频合成处理，获得虚拟视频。

可选的，所述目标文本处理单元1002，具体用于：

对所述多个文字进行音频转换处理，获得所述目标文本对应的音频；

根据所述音频的播放时长对所述第一文字和所述第二文字分别进行预测，获得所述第一文字在所述音频中的第一预测播放时长和所述第二文字在所述音频中的第二预测播放时长；

根据所述动作标签的位置、所述第一预测播放时长和所述第二预测播放时长，确定所述动作标签在所述音频中的播放起始时间戳。

可选的，所述装置还包括：

视频帧率获取单元，用于获取待合成虚拟视频的帧率；

播放时长确定单元，用于根据所述帧率确定所述动作图片的播放时长。

可选的，所述图片位置确定单元1003，包括：

起始时间戳确定单元，用于根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合的播放时长中的图片播放起始时间戳；

结束时间戳确定单元，用于根据所述图片播放起始时间戳和所述动作图片的播放时长，确定所述动作图片在所述默认待合成图片集合的播放时长中的图片播放结束时间戳。

可选的，所述动作图片替换单元1004，包括：

第一图片替换单元，用于将所述图片播放起始时间戳和所述图片播放结束时间戳对应时间区间内应播放的默认待合成图片替换为所述动作图片。

可选的，所述装置还包括：

待合成图片总数值确定单元，用于根据所述默认待合成图片集合的播放时长和所述帧率，确定所述默认待合成图片集合对应的待合成图片总数值；

动作图片总数值确定单元，用于对所述动作图片进行计数处理，确定动作图片总数值；

所述图片位置确定单元1003，包括：

起始序数确定单元，用于根据所述动作标签在所述音频中的播放起始时间戳和所述帧率，确定所述动作图片在所述默认待合成图片集合对应的待合成图片总数值中的图片播放起始序数；

结束序数确定单元，用于根据所述图片播放起始序数和所述动作图片总数值，确定所述动作图片在所述默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数。

可选的，所述动作图片替换单元1004，包括：

第二图片替换单元，用于将所述图片播放起始序数和所述图片播放结束序数对应序数区间内应播放的默认待合成图片替换为所述动作图片。

可选的，所述装置还包括：

动作图片索引表获取单元，用于获取动作图片索引表，其中所述动作图片索引表用于使所述动作标签索引与所述动作标签对应的动作图片；

所述文本图片获取单元1001，包括：

动作图片索引单元，用于根据所述动作图片索引表索引所述目标文本中动作标签对应的动作图片。

可选的，所述装置还包括：

动作图片集合获得单元，用于若所述目标文本中存在两个或两个以上动作标签，且所述两个或两个以上动作标签分别对应的动作图片存在重叠，则对所述两个或两个以上动作标签分别对应的动作图片进行抽帧处理，获得动作图片集合。

本申请实施例提供了一种计算机设备，该计算机设备可以为服务器。图11是本申请实施例提供的一种服务器结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）922（例如，一个或一个以上处理器）和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930（例如一个或一个以上海量存储设备）。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

其中，CPU 922用于执行如下步骤：

本申请实施例还提供了另一种计算机设备，该计算机设备可以为终端设备。如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。以该终端设备为手机为例：

图12示出的是与本申请实施例提供的手机的部分结构的框图。参考图12，手机包括：射频（英文全称：Radio Frequency，英文缩写：RF）电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真（英文全称：wirelessfidelity，英文缩写：WiFi）模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（英文全称：LowNoise Amplifier，英文缩写：LNA）、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（英文全称：Global System of Mobile communication，英文缩写：GSM）、通用分组无线服务（英文全称：General Packet Radio Service，GPRS）、码分多址（英文全称：CodeDivision Multiple Access，英文缩写：CDMA）、宽带码分多址（英文全称：Wideband CodeDivision Multiple Access, 英文缩写：WCDMA）、长期演进（英文全称：Long TermEvolution，英文缩写：LTE）、电子邮件、短消息服务（英文全称：Short Messaging Service，SMS）等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器（英文全称：Liquid Crystal Display，英文缩写：LCD）、有机发光二极管（英文全称：Organic Light-Emitting Diode，英文缩写：OLED）等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图12中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体数据及信息收集。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090（比如电池），优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器1080还具有以下功能：

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序在计算机设备运行时，使得该计算机设备执行前述各个实施例所述的一种虚拟视频合成方法中的任意一种实施方式。

本申请实施例还提供一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得计算机设备执行前述各个实施例所述的一种虚拟视频合成方法中的任意一种实施方式。

需要说明的是，本申请实施例中提到的 “第一”、“第二”（若存在）等名称中的“第一”、“第二”除了特别说明的，其余仅用来做名字标识，并不代表顺序上的第一、第二。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述系统的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个系统可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的系统可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文全称：Read-OnlyMemory，英文缩写：ROM）、随机存取存储器（英文全称：Random Access Memory，英文缩写：RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种虚拟视频合成方法，其特征在于，包括：

获取目标文本、默认待合成图片集合和所述目标文本中动作标签对应的动作图片；所述目标文本包括多个文字，所述动作标签存在于第一文字和第二文字之间，所述第一文字和所述第二文字为所述多个文字中连续的两个文字；

利用深度学习的方式，对所述多个文字进行音频转换处理，获得所述目标文本对应的音频；

利用深度学习的方式，根据所述音频的播放时长对所述第一文字和所述第二文字分别进行预测，获得所述第一文字在所述音频中的第一预测播放时长和所述第二文字在所述音频中的第二预测播放时长；其中，所述音频转换处理和所述预测所利用的深度学习的方式具备相同的计算逻辑，使得所述音频中每个文字的发音时长与预测的对应文字的发音时长相同；

根据所述动作标签的位置、所述第一预测播放时长和所述第二预测播放时长，确定所述动作标签在所述音频中的播放起始时间戳；

根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置，其中，根据所述音频的播放时长确定所述默认待合成图片集合的播放时长，使所述默认待合成图片集合的播放时长与所述音频的播放时长相同；

2.根据权利要求1所述的方法，其特征在于，在所述根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置之前，还包括：

获取待合成虚拟视频的帧率；

根据所述帧率确定所述动作图片的播放时长。

3.根据权利要求2所述的方法，其特征在于，所述根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置，包括：

根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合的播放时长中的图片播放起始时间戳；

根据所述图片播放起始时间戳和所述动作图片的播放时长，确定所述动作图片在所述默认待合成图片集合的播放时长中的图片播放结束时间戳。

4.根据权利要求3所述的方法，其特征在于，所述将所述播放起始位置和所述播放结束位置对应位置区间内应播放的默认待合成图片替换为所述动作图片，包括：

将所述图片播放起始时间戳和所述图片播放结束时间戳对应时间区间内应播放的默认待合成图片替换为所述动作图片。

5.根据权利要求2所述的方法，其特征在于，在所述获取待合成虚拟视频的帧率之后，还包括：

根据所述默认待合成图片集合的播放时长和所述帧率，确定所述默认待合成图片集合对应的待合成图片总数值；

对所述动作图片进行计数处理，确定动作图片总数值；

所述根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置，包括：

根据所述动作标签在所述音频中的播放起始时间戳和所述帧率，确定所述动作图片在所述默认待合成图片集合对应的待合成图片总数值中的图片播放起始序数；

根据所述图片播放起始序数和所述动作图片总数值，确定所述动作图片在所述默认待合成图片集合对应的待合成图片总数值中的图片播放结束序数。

6.根据权利要求5所述的方法，其特征在于，所述将所述播放起始位置和所述播放结束位置对应位置区间内应播放的默认待合成图片替换为所述动作图片，包括：

将所述图片播放起始序数和所述图片播放结束序数对应序数区间内应播放的默认待合成图片替换为所述动作图片。

7.根据权利要求1-6中任一项所述的方法，其特征在于，在获取所述目标文本中动作标签对应的动作图片之前，还包括：

获取动作图片索引表，其中所述动作图片索引表用于使所述动作标签索引与所述动作标签对应的动作图片；

所述获取所述目标文本中动作标签对应的动作图片，包括：

根据所述动作图片索引表索引所述目标文本中动作标签对应的动作图片。

8.根据权利要求1所述的方法，其特征在于，在所述利用深度学习的方式，对所述多个文字进行音频转换处理，获得所述目标文本对应的音频之前，还包括：

若所述目标文本中存在两个或两个以上动作标签，且所述两个或两个以上动作标签分别对应的动作图片存在重叠，则对所述两个或两个以上动作标签分别对应的动作图片进行抽帧处理，获得动作图片集合。

9.一种虚拟视频合成装置，其特征在于，包括：

文本图片获取单元，用于获取目标文本、默认待合成图片集合和所述目标文本中动作标签对应的动作图片；所述目标文本包括多个文字，所述动作标签存在于第一文字和第二文字之间，所述第一文字和所述第二文字为所述多个文字中连续的两个文字；

目标文本处理单元，用于利用深度学习的方式，对所述多个文字进行音频转换处理，获得所述目标文本对应的音频；利用深度学习的方式，根据所述音频的播放时长对所述第一文字和所述第二文字分别进行预测，获得所述第一文字在所述音频中的第一预测播放时长和所述第二文字在所述音频中的第二预测播放时长；其中，所述音频转换处理和所述预测所利用的深度学习的方式具备相同的计算逻辑，使得所述音频中每个文字的发音时长与预测的对应文字的发音时长相同；根据所述动作标签的位置、所述第一预测播放时长和所述第二预测播放时长，确定所述动作标签在所述音频中的播放起始时间戳；

图片位置确定单元，用于根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置，其中，根据所述音频的播放时长确定所述默认待合成图片集合的播放时长，使所述默认待合成图片集合的播放时长与所述音频的播放时长相同；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

视频帧率获取单元，用于在所述根据所述动作标签在所述音频中的播放起始时间戳，确定所述动作图片在所述默认待合成图片集合中的播放起始位置和播放结束位置之前，获取待合成虚拟视频的帧率；

11.根据权利要求10所述的装置，其特征在于，所述图片位置确定单元，包括：

12.根据权利要求11所述的装置，其特征在于，所述动作图片替换单元，包括：

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：

待合成图片总数值确定单元，用于在所述获取待合成虚拟视频的帧率之后，根据所述默认待合成图片集合的播放时长和所述帧率，确定所述默认待合成图片集合对应的待合成图片总数值；

所述图片位置确定单元，包括：

14.根据权利要求13所述的装置，其特征在于，所述动作图片替换单元，包括：

15.根据权利要求9-14中任一项所述的装置，其特征在于，所述装置还包括：

动作图片索引表获取单元，用于在获取所述目标文本中动作标签对应的动作图片之前，获取动作图片索引表，其中所述动作图片索引表用于使所述动作标签索引与所述动作标签对应的动作图片；

所述文本图片获取单元，包括：

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

动作图片集合获得单元，用于在所述利用深度学习的方式，对所述多个文字进行音频转换处理，获得所述目标文本对应的音频之前，若所述目标文本中存在两个或两个以上动作标签，且所述两个或两个以上动作标签分别对应的动作图片存在重叠，则对所述两个或两个以上动作标签分别对应的动作图片进行抽帧处理，获得动作图片集合。

17.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1至8中任一项所述的虚拟视频合成方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被计算机设备执行时实现权利要求1至8任一项所述的虚拟视频合成方法的步骤。

19.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被计算机设备执行时实现权利要求1至8任一项所述的虚拟视频合成方法的步骤。