CN115665507A

CN115665507A - 含虚拟形象的视频流数据的生成方法、装置、介质及设备

Info

Publication number: CN115665507A
Application number: CN202211670921.XA
Authority: CN
Inventors: 戚德望
Original assignee: Haima Cloud Tianjin Information Technology Co Ltd
Current assignee: Anhui Haima Cloud Technology Co ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-01-31
Anticipated expiration: 2042-12-26
Also published as: CN115665507B

Abstract

本申请提供了一种含虚拟形象的视频流数据的生成方法、装置、介质及设备，所述方法包括：获取输入视频流数据；若检测到输入视频流数据中，目标物处于第一状态类型，将输入视频流数据输入至第一识别模型中，得到第一视频流数据；当检测到输入视频流数据中，目标物由第一状态类型变化为第二状态类型时，将输入视频流数据输入至第二识别模型中，得到第二视频流数据，并通过生成过渡帧图像替换第二视频流数据中的头部帧图像，得到过渡视频流数据。由于过渡帧图像是基于第一视频流数据中的尾部帧图像与第二视频流数据中的头部帧图像生成的，能够使得虚拟形象状态变化更加平滑，提升视觉感官效果。

Description

含虚拟形象的视频流数据的生成方法、装置、介质及设备

技术领域

本申请涉及视频流数据技术领域，具体涉及一种含虚拟形象的视频流数据的生成方法、装置、介质及设备。

背景技术

随着视频流处理技术的发展，现有在显示视频流画面时，一般采用虚拟形象替代目标物的实际形象在视频流画面中进行显示，以增强趣味性。由于目标物的状态类型可能实时动态变化，为了使得虚拟形象更加逼真，也要求对应生成的虚拟形象的状态类型会随着目标物的变化而变化，这就对用于将包含目标物的视频流数据转换为包含虚拟形象的视频流数据的识别模型提出了更高的要求。

为了提升识别精度，针对包含不同状态类型目标物的视频流数据往往采用不同的识别模型进行处理，以生成包含不同状态类型虚拟形象的视频流数据。然而，不同识别模型由于擅长识别的输入内容不同，这就导致目标物在状态类型变化的过程中，生成的虚拟形象的状态也容易出现跳变，导致生成的虚拟形象状态变化衔接不够平滑，影响了使用者的视觉感官体验。

发明内容

鉴于上述问题，本申请提供了一种含虚拟形象的视频流数据的生成方法、装置、介质及设备，以解决在生成含虚拟形象的视频流数据时，由目标物状态瞬时变化引起的虚拟形象状态变化存在跳变，影响视觉感官的问题。

第一方面，本申请实施例提供了一种含虚拟形象的视频流数据的生成方法，所述虚拟形象与目标物相对应，所述方法包括以下步骤：

获取输入视频流数据；

若检测到所述输入视频流数据中，所述目标物处于第一状态类型，将所述输入视频流数据输入至第一识别模型中，得到第一视频流数据，在所述第一视频流数据中，所述虚拟形象处于第一状态类型；

当检测到所述输入视频流数据中，所述目标物由第一状态类型变化为第二状态类型时，将所述输入视频流数据输入至第二识别模型中，得到第二视频流数据，在所述第二视频流数据中，所述虚拟形象处于第二状态类型，根据所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成过渡帧图像，用所述过渡帧图像替换所述头部帧图像，得到过渡视频流数据。

第二方面，本申请实施例还提供了一种含虚拟形象的视频流数据的生成装置，所述虚拟形象与目标物相对应，所述装置包括：

输入视频流数据获取模块，用于获取输入视频流数据；

第一视频流数据生成模块，用于在检测到所述输入视频流数据中所述目标物处于第一状态类型时，将所述输入视频流数据输入至第一识别模型中，得到第一视频流数据，在所述第一视频流数据中，所述虚拟形象处于第一状态类型；

第二视频流数据生成模块，用于在检测到所述输入视频流数据中所述目标物由第一状态类型变化为第二状态类型时，将所述输入视频流数据输入至第二识别模型中，得到第二视频流数据，在所述第二视频流数据中，所述虚拟形象处于第二状态类型；

过渡视频流数据生成模块，用于根据所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成过渡帧图像，用所述过渡帧图像替换所述头部帧图像，得到过渡视频流数据。

第三方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面所述的含虚拟形象的视频流数据的生成方法的步骤。

第四方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第一方面所述的含虚拟形象的视频流数据的生成方法的步骤。

区别于现有技术，本申请实施例提供的含虚拟形象的视频流数据的生成方法、装置、存储介质及电子设备，所述方法包括：获取输入视频流数据；若检测到所述输入视频流数据中，所述目标物处于第一状态类型，将所述输入视频流数据输入至第一识别模型中，得到第一视频流数据，在所述第一视频流数据中，所述虚拟形象处于第一状态类型；当检测到所述输入视频流数据中，所述目标物由第一状态类型变化为第二状态类型时，将所述输入视频流数据输入至第二识别模型中，得到第二视频流数据，在所述第二视频流数据中，所述虚拟形象处于第二状态类型，根据所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成过渡帧图像，用所述过渡帧图像替换所述头部帧图像，得到过渡视频流数据。由于过渡帧图像是基于所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成的，在目标物状态出现变化的过程中，采用过渡视频流数据取代第二视频流数据进行播放，能够使得虚拟形象状态变化更加平滑，提升视觉感官效果。

上述发明内容相关记载仅是本申请技术方案的概述，为了让本领域普通技术人员能够更清楚地了解本申请的技术方案，进而可以依据说明书的文字及附图记载的内容予以实施，并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解，以下结合本申请的具体实施方式及附图进行说明。

附图说明

附图仅用于示出本申请具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等，并不能认为是对本申请的限制。

在说明书附图中：

图1为本申请第一示例性实施例所述的含虚拟形象的视频流数据的生成方法的流程图；

图2为本申请一示例性实施例涉及的过渡视频流数据生成过程的示意图；

图3为本申请第二示例性实施例所述的含虚拟形象的视频流数据的生成方法的流程图；

图4为本申请第三示例性实施例所述的含虚拟形象的视频流数据的生成方法的流程图；

图5为本申请另一示例性实施例涉及的过渡视频流数据生成过程的示意图；

图6为本申请一示例性实施例涉及的含虚拟形象的视频流数据的生成装置的模块示意图；

图7为本申请一示例性实施例涉及的电子设备的模块示意图；

上述各附图中涉及的附图标记说明如下：

10、输入视频流数据；

101、第一输入视频流数据；

102、第二输入视频流数据；

20、第一识别模型；

30、第二识别模型；

40、第一视频流数据；

50、第二视频流数据；

60、过渡视频流数据；

70、第七视频流数据；

80、第六视频流数据；

90、第八视频流数据；

100、第一过渡帧图像；

110、第一过渡视频流数据；

500、含虚拟形象的视频流数据的生成装置；

501、输入视频流数据获取模块；

502、第一视频流数据生成模块；

503、第二视频流数据生成模块；

504、过渡视频流数据生成模块；

600、电子设备；

601、处理器；

602、存储器；

603、总线。

具体实施方式

为详细说明本申请可能的应用场景，技术原理，可实施的具体方案，能实现目的与效果等，以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例，亦不特别限定其与其它实施例之间的独立性或关联性。原则上，在本申请中，只要不存在技术矛盾或冲突，各实施例中所提到的各项技术特征均可以以任意方式进行组合，以形成相应的可实施的技术方案。

除非另有定义，本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同；本文中对相关术语的使用只是为了描述具体的实施例，而不是旨在限制本申请。

在本申请的描述中，用语“和/或”是一种用于描述对象之间逻辑关系的表述，表示可以存在三种关系，例如A和/或B，表示：存在A，存在B，以及同时存在A和B这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。

在本申请中，诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。

在没有更多限制的情况下，在本申请中，语句中所使用的“包括”、“包含”、“具有”或者其他类似的开放式表述，意在涵盖非排他性的包含，这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素，从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素，而且还可以包括没有明确列出的其他要素，或者还包括为这种过程、方法或者产品所固有的要素。

与《审查指南》中的理解相同，在本申请中，“大于”、“小于”、“超过”等表述理解为不包括本数；“以上”、“以下”、“以内”等表述理解为包括本数。此外，在本申请实施例的描述中“多个”的含义是两个以上（包括两个），与之类似的与“多”相关的表述亦做此类理解，例如“多组”、“多次”等，除非另有明确具体的限定。

第一方面，请参阅图1，为本申请第一示例性实施例所述的含虚拟形象的视频流数据的生成方法的流程图，所述方法包括以下步骤：

首先进入步骤S101获取输入视频流数据；

而后进入步骤S102若检测到所述输入视频流数据中，所述目标物处于第一状态类型，将所述输入视频流数据输入至第一识别模型中，得到第一视频流数据，在所述第一视频流数据中，所述虚拟形象处于第一状态类型；

而后进入步骤S103当检测到所述输入视频流数据中，所述目标物由第一状态类型变化为第二状态类型时，将所述输入视频流数据输入至第二识别模型中，得到第二视频流数据，在所述第二视频流数据中，所述虚拟形象处于第二状态类型，根据所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成过渡帧图像，用所述过渡帧图像替换所述头部帧图像，得到过渡视频流数据。

在本实施例中，输入视频流数据为包含目标物待处理的视频流数据，通过处理所述输入视频流数据，能够得到含虚拟形象的视频流数据，所述含虚拟形象的视频流数据中虚拟形象的动作与包含目标物待处理的视频流数据中目标物的动作一致。输入视频流数据既可以是实时采集的视频流数据，也可以是预先存储的视频流数据。

目标物是指输入视频流数据中状态类型存在变化的拍摄对象，拍摄对象可以是人体或物体，例如当输入视频流数据包含姿态变化的人体时，该人体即为目标物。

在本实施例中，第一状态类型和第二状态类型是指目标物对应的不同两种状态，包括但不限于不同的姿势状态、手势状态、表情状态等。例如目标物为人体时，第一状态类型可以是人体站立时的全身姿态，第二状态类型是人体站立时的半身姿态（比如人体从摄像头的全身视野范围走入到摄像头的半身视野范围，对应的，虚拟形象会从人体站立时的全身姿态变化为人体站立时的半身姿态），或者，第一状态类型为人体站立时的全身姿态，第二状态类型为人体坐下时的半身姿态；当目标物为人体手部时，第一状态类型可以对应人体手部展开时的状态，第二状态类型可以对应人体手部合拢时的状态；当目标物为人体脸部时，第一状态类型和第二状态类型可以分别对应人体脸部做出的不同表情，如大笑、生气等。

需要说明的是，输入视频流数据是由一帧帧图像构成，因而对于输入视频流数据中目标物所处的状态类型的判断，可以通过对输入视频流数据的当前帧图像中目标物所处的状态类型进行确定，具体可以通过预先设置诸多目标物对应的状态类型模板，而后通过提取当前帧图像中目标物对应的特征点与所述状态类型模板进行比较，从而确定当前帧图像中目标物所处的状态类型。

例如目标物为人体，在获取到的输入视频流数据对应的当前帧图像中，通过模板比对判定该人体处于全身状态，则视为在输入视频流数据中，目标物所处的状态为全身状态，通过将所述输入视频流数据输入到第一识别模型，能够得到包含虚拟形象的第一视频流数据，在第一视频流数据中，该虚拟形象也处于全身状态。

在本实施例中，第一识别模型和第二识别模型的作用是将包含目标物的输入视频流数据转换为包含虚拟形象的视频流数据。第一识别模型和第二识别模型优选为基于深度学习的神经网络训练模型。虚拟对象可以是2D图像，也可以是3D图像，用户可以自定义需要生成的虚拟形象样式，例如当某一用户自身作为目标物时，在接收到用户对某一款数字人模型的选定指令后，可以基于用户的捏脸操作对该数字人进行捏脸，从而生成该用户的数字人模型。将包含该用户的视频流数据输入到第一识别模型或第二识别模型后，就能够得到包含数字人形象的视频流数据，在得到的视频流数据中，数字人的肢体动作、面部表情与当前用户一致。

在本实施例中，所述第一视频流数据的尾部帧图像是指第一视频流数据靠后的m帧图像，所述第二视频流数据中的头部帧图像是指第二视频流数据靠前的n帧图像，m和n均为正整数。

通过上述方案，当所述输入视频流数据中的目标物由第一状态类型变化为第二状态类型时，将所述输入视频流数据输入至第二识别模型中，得到第二视频流数据，在所述第二视频流数据中，所述虚拟形象处于第二状态类型，根据所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成过渡帧图像，用所述过渡帧图像替换所述头部帧图像，得到过渡视频流数据。由于过渡帧图像是基于第一视频流数据中的尾部帧图像与第二视频流数据中的头部帧图像生成的，相较于第二视频流数据的头部帧图像而言，能够更加贴近于第一视频流数据中的尾部帧图像，在目标物状态类型切换的过渡时间段内，采用过渡视频流数据取代第二视频流数据，能够使得目标物对应的虚拟形象状态变化更加平滑，提升视觉感官效果。

在前述方法实施例的基础上，根据所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成过渡帧图像包括：对所述尾部帧图像和所述头部帧图像进行插帧处理，得到所述过渡帧图像。以所述尾部帧图像为第一视频流数据的最后一帧图像，所述头部帧图像为第二视频流数据靠前的5-10帧图像为例，则可以将第二视频流数据靠前的5-10帧图像与第一视频流的最后一帧图像分别进行插帧处理，得到5-10帧所述过渡帧图像。所述插帧处理可以通过插帧算法来完成，插帧算法包括基于相位的插帧算法、基于自适应卷积核的插帧算法、基于幻觉的插帧算法和基于光流的插帧算法等。通过插帧处理，在得到的过渡帧图像中，虚拟形象表现为由第一状态类型至第二状态类型的中间过渡状态，从而使得虚拟形象的状态变化得到平滑过渡，提升用户的视觉感官。

在前述方法实施例的基础上，所述插帧处理包括：提取所述尾部帧图像中所述虚拟形象对应的第一坐标参数以及所述头部帧图像中所述虚拟形象对应的第二坐标参数，对所述第一坐标参数和第二坐标参数进行加权运算，得到第三坐标参数，将所述第三坐标参数作为所述过渡帧图像中虚拟形象的坐标参数。这样，在插帧处理时，先通过提取帧图像中虚拟形象的关键点，而后只针对虚拟形象的关键点对应的坐标参数进行计算，相较于对整个帧图像进行插帧的方式，能够有效减少数据计算量，提升过渡帧图像的生成速度。

需要说明的是，当所述虚拟形象为2D图像时，第一坐标参数、第二坐标参数和第三坐标参数可以包括该虚拟形象在整个帧图像中关键点的位置（可以用（x,y）表示）。当所述虚拟形象为3D图像时，第一坐标参数、第二坐标参数和第三坐标参数可以包括该虚拟形象在整个帧图像中关键点的位置和/或虚拟形象骨骼（或虚拟形象各个部位）的旋转角度。

过渡帧图像的虚拟形象的关键点的位置可以采用以下算式（1）进行计算，所述算式（1）如下：

Po(T) = [P(t-1) * (S-T) + P(T) * T ] / S；

其中，S为过渡帧图像的总帧数，P(t-1)为第一视频流数据的尾部帧图像中虚拟形象的关键点的位置， P(T)为第二视频流数据的头部帧图像中虚拟形象的对应关键点的位置，T表示当前计算的是所述过渡视频流数据中的第几帧过渡帧图像的虚拟形象的关键点的位置（即替换的是第二视频流数据的头部帧图像中的第几帧图像），Po(T)为过渡帧图像中虚拟形象的关键点的位置。

例如S取值为10，则T的取值为1-10，从第1帧过渡帧图像到第10帧过渡帧图像，在计算过渡帧图像的关键点的位置时，第一视频流数据的尾部帧图像中虚拟形象的关键点的位置参与计算的权重（计算方式为1- T/S，即第一权重）逐渐减小，第二视频流数据的头部帧图像中虚拟形象的关键点的位置参与计算的权重（计算方式为T/S，即第二权重）逐渐增大。例如在计算第1帧过渡帧图像中虚拟形象的关键点的位置时，第一权重取值为90%，第二权重取值为10%，在计算第2帧过渡帧图像中虚拟形象的关键点的位置时，第一权重取值为80%，第二权重取值为20%，以此类推，在计算第10帧过渡帧图像中虚拟形象的关键点的位置时，第一权重取值为0，第二权重取值为100%。

过渡帧图像的虚拟形象骨骼（或虚拟形象各个部位）的旋转角度可以采用算式（2）进行计算，所述算式（2）如下：

Ro(T) = slerp(R(t-1)，R(T)，T/S) ；

其中，slerp（）表示用于旋转角度的换算函数，R(t-1)、R(T)、T/S分别表示函数slerp（）的三个输入参数，R(t-1)表示第一视频流数据的头部帧图像中虚拟形象骨骼的旋转角度，R(T)表示第二视频流数据的头部帧图像中对应虚拟形象骨骼的旋转角度，T和S表示的含义如前所述，此处不再赘述。

函数slerp（）的定义如下：

；

其中，q₀、q₁、t为函数slerp（）的三个形式参数，ω的取值可以为q₀/q₁的反余弦值，也可以取定值，优选定值为1。在实际计过程中，q₀的取值对应于实际参数R(t-1)，q₁的取值对应于实际参数R(T)，t的取值对应于实际参数T/S。

在进一步优选的实施例中，所述过渡帧图像的数量为多张，第三坐标参数根据以下公式进行加权计算：第三坐标参数=第一坐标参数*第一权重+第二坐标参数*第二权重，*表示乘法；依所述过渡视频流数据的播放顺序，在计算所述过渡帧图像中虚拟形象对应的第三坐标参数时，所述第一权重按第一预设梯度逐渐减小，所述第二权重按第二预设梯度逐渐增大。这样，多张过渡帧图像上的虚拟形象依过渡视频流数据的播放顺序，呈现一个由第一状态类型至第二状态类型缓慢变化的过程，防止目标物的状态类型突然变化时，对应的虚拟形象的状态类型出现大幅度跳变，有效提升了视觉感官体验。

例如，所述头部帧图像为第二视频流数据靠前的5帧图像，尾部帧图像为第一视频流的最后1帧图像，则过渡视频流数据包括5张过渡帧图像，依所述过渡视频流数据的播放顺序，过渡帧图像分别记为P1、P2…P5，第一预设梯度和第二预设梯度取值为20%（此数值仅为举例，在其他实施例中，第一预设梯度和第二预设梯度可以不同，也可以取其他数值），则过渡帧图像P1上虚拟形象对应的第三坐标参数取值为：第一坐标参数*80% +第二坐标参数*20%，过渡帧图像P2上虚拟形象对应的第三坐标参数取值为：第一坐标参数*60% +第二坐标参数*40%，以此类推，直至第一权重减小到预设下限值（如0%），第二权重达到预设上限值（如100%）。

在前述方法实施例的基础上，所述方法包括：在得到所述过渡视频流数据后，对所述过渡视频流数据进行推流播放，并在检测到所述过渡帧图像与头部帧图像的重合度大于预设阈值时，停止生成后续所述过渡帧图像并对所述第二视频流数据进行推流播放。

需要说明的是，第一视频流数据是经过第一识别模型处理后得到的视频流数据，第二视频流数据是经过第二识别模型处理后得到的视频流数据，第一视频流数据和第二视频流数据的区分在于生成的虚拟形象状态类型的不同，在播放过程中可以是连续进行播放。而为了解决目标物的状态类型突然变化时，对应的虚拟形象的状态类型出现大幅度跳变的问题，在目标物状态类型变化的过程中，对应生成的含虚拟形象的视频流数据采用过渡视频流数据取代第二视频流数据进行播放，能够使得虚拟形象的状态类型平滑过渡，提升视觉感官。而在虚拟形象的状态类型已经完全由第一状态类型过渡至第二状态类型后，则停止后续过渡帧图像的生成，直接对第二视频流数据进行推流播放，以节省算力。

简言之，含虚拟形象的视频流数据是以第一视频流数据、过渡视频流数据以及第二视频流数据的顺序进行推流播放的，由于利用过渡帧图像取代了第二视频流数据的头部帧图像，可以使得虚拟形象的状态变化更加自然，当所述过渡帧图像与第二视频流数据中的头部帧图像的重合度大于预设阈值时，说明此时虚拟形象的状态类型已由第一状态类型完全切换至第二状态类型，则可以直接对第二视频流数据进行推流播放。

在本实施例中，所述过渡帧图像与头部帧图像的重合度可以通过分别提取所述过渡帧图像中虚拟形象的关键点对应的坐标参数与第二视频流数据中头部帧图像的虚拟形象的关键点对应的坐标参数进行比较，如果两者的坐标参数偏差在预设误差范围内，则可以视为所述过渡帧图像与头部帧图像的重合度达到预设阈值，所述预设阈值可以根据实际需要进行设定，优选为90%-100%。

在前述方法实施例的基础上，所述方法包括：若检测到在第一预设时间段内，在所述输入视频流数据中，所述目标物均处于第一状态类型，则关闭所述第二识别模型；和/或若检测到在第二预设时间段内，在所述输入视频流数据中，所述目标物均处于第二状态类型，则关闭所述第一识别模型。

简言之，由于目标物处于不同状态类型是通过不同识别模型进行处理，以得到含不同状态类型的虚拟形象的视频流数据的，因而若检测到所述输入视频流数据中目标物长时间保持某一状态类型不变，则可以只开启用于处理当前目标物所处的状态类型对应的识别模型，而将另一识别模型关闭，以达到节省功耗的目的。

需要说明的是，第一预设时间和第二预设时间可以根据实际需要进行设定，既可以是自定义的一段时间，也可以通过帧图像的数量进行计量，例如当检测到第一视频流数据中当前帧的前100帧图像中，目标物均处于第一状态类型，则可以认为目标物均处于第一状态类型的时间段达到第一预设时间。再比如当检测到第二视频流数据中当前帧的前150帧图像中，目标物均处于第二状态类型，则可以认为目标物均处于第二状态类型的时间段达到第二预设时间。

在进一步优选的实施例中，所述第一识别模型为第一神经网络训练模型，所述第一神经网络训练模型在训练时的输入数据为第一样本视频流数据，在所述第一样本视频流数据中，目标物处于第一状态类型；和/或所述第二识别模型为第二神经网络训练模型，所述第二神经网络训练模型在训练时的输入数据为第二样本视频流数据，在所述第二样本视频流数据中，目标物处于第二状态类型。

需要说明的是，样本视频流数据具体可以是样本视频流数据中的帧图像，例如目标物为人体，第一状态类型为人体处于半身状态，第二状态类型为人体处于全身状态，则第一样本视频流数据对应的帧图像中人体均处于半身状态，第二样本视频流数据对应的帧图像中人体均处于全身状态。这样，第一神经网络训练模型将所述第一样本视频流数据作为输入数据进行训练后，能够有效提升其对于人体处于半身状态的输入视频流数据的识别精度，即能够更加快速精准地生成半身状态的虚拟形象。同理，第二神经网络训练模型将所述第二样本视频流数据作为输入数据进行训练后，能够有效提升其对于人体处于全身状态的输入视频流数据的识别精度，即能够更加快速精准地生成全身状态的虚拟形象。

需要说明的是，在本实施例中，半身状态和全身状态只是相对概念，并非固化为某一特定姿势。例如可以对人体腿部露出区域相较于目标物显示的整体区域的比重设置一个临界值，当人体腿部露出区域的占比超过该临界值均视为人体处于全身状态，低于该临界值均视为人体处于半身状态。

请参阅图2，以下对本申请一示例性实施例涉及的过渡视频流数据的生成过程作详细说明：

在获取到输入视频流数据10后，会实时检测所述输入视频流数据10中的目标物状态类型，若所述目标物处于第一状态类型，则将所述输入视频流数据10输入至第一识别模型20中，得到第一视频流数据40，得到第一视频流数据40的帧图像记为B1、B2、B3…B10，其中，B10为第一视频流数据40的尾部帧图像。当检测到所述输入视频流数据10中，所述目标物由第一状态类型变化为第二状态类型时，将所述输入视频流数据10输入至第二识别模型30中，得到第二视频流数据50，在所述第二视频流数据50中，所述虚拟形象处于第二状态类型，得到第二视频流数据50的帧图像记为C1、C2、C3…Cn，其中，C1、C2、C3…Cm（m小于n）为第二视频流数据50的头部帧图像，而后会依次对帧图像B10与C1、B10与C2、B10与C3、…、B10与Cm进行加权运算，生成m帧过渡帧图像，过渡帧图像记为D1、D2、D3…Dm，从而得到过渡视频流数据60。

请参阅图3，为本申请第二示例性实施例所述的含虚拟形象的视频流数据的生成方法的流程图。所述目标物包括第一目标物和第二目标物，所述第一目标物对应第一虚拟形象，所述第二目标物对应第二虚拟形象；

所述方法包括：

首先进入步骤S301判断所述输入视频流数据中，所述第一目标物和所述第二目标物所处的状态类型是否相同；

若步骤S301判定为是则进入步骤S302将所述输入视频流数据输入至相应的识别模型中进行处理；

若步骤S302判定为否则进入步骤S303将所述输入视频流数据分为第一输入视频流数据和第二输入视频流数据，并将所述第一输入视频流数据输入至第一识别模型中，得到第三视频流数据，在所述第三视频流数据中，所述第一虚拟形象处于第一状态类型，将所述第二输入视频流数据输入至第二识别模型中，得到第四视频流数据，在所述第四视频流数据中，所述第二虚拟形象处于第二状态类型，对所述第三视频流数据和所述第四视频流数据的帧图像进行叠加，得到第五视频流数据。

例如检测到在输入视频流数据中，第一目标物和第二目标物所处的状态类型均为第一状态类型，当所述输入视频流数据被输入至第一识别模型后，可以得到包含第一虚拟形象和第二虚拟形象的视频流数据，在得到的视频流数据中，第一虚拟形象和第二虚拟形象处于第一状态类型。同理，若检测到在输入视频流数据中，第一目标物和第二目标物所处的状态类型均为第二状态类型，当所述输入视频流数据被输入至第二识别模型后，可以得到包含第一虚拟形象和第二虚拟形象的视频流数据，在得到的视频流数据中，第一虚拟形象和第二虚拟形象处于第二状态类型。

如果所述输入视频流数据中，第一目标物和第二目标物所处的状态类型不同，则需要将所述输入视频流数据分为第一输入视频流数据和第二输入视频流数据，具体可以通过对所述输入视频流数据的帧图像进行处理得到，例如可以将所述输入视频流数据的帧图像中的第二目标物剔除，得到只包含有第一目标物的第一输入视频流数据，或者将所述输入视频流数据的帧图像中的第一目标物剔除，得到只包含有第二目标物的第二输入视频流数据。在得到第一输入视频流数据和第二输入视频流数据后，可以分别将两者输入至第一识别模型和第二识别模型中处理，得到只包含第一虚拟形象的第三视频流数据以及只包含第二虚拟形象的第四视频流数据，而后提取所述第三视频流数据中的帧图像与第四视频流数据的帧图像进行重新叠加合成，得到第五视频流数据，在第五视频流数据中，第一虚拟形象处于第一状态类型，第二虚拟形象处于第二状态类型。

这样，当输入视频流数据中包含多个目标物且不同目标物处于不同的状态类型时，可以对输入视频流数据进行处理后分配给不同的识别模型进行处理，再对不同识别模型处理后的视频流数据的帧图像进行叠加，得到包含多个处于不同状态类型的虚拟形象的视频流数据，由于每个识别模型只处理自身擅长的输入视频流数据，能够使得生成的视频流数据中虚拟形象的状态类型更加真实地反映当前对应目标物的状态类型，提升视觉感官效果。

如图4所示，在前述方法实施例的基础上，所述方法包括：

首先进入步骤S401若检测到所述输入视频流数据中，所述第一目标物和所述第二目标物均处于第一状态类型，将所述输入视频流数据输入至第一识别模型中，得到第一视频流数据，所述第一视频流数据由第六视频流数据和第七视频流数据通过帧图像合成得到，在所述第六视频流数据中，所述第一虚拟形象处于第一状态类型；在所述第七视频流数据中，所述第二虚拟形象处于第一状态类型；

而后进入步骤S402当检测到所述输入视频流数据中，所述第一目标物由第一状态类型变化为第二状态类型但所述第二目标物仍保持第一状态类型时，将所述输入视频流数据分为第一输入视频流数据和第二输入视频流数据，将所述第一输入视频流数据输入至第二识别模型中，得到第八视频流数据，在所述第八视频流数据中，所述第一虚拟形象处于第二状态类型，根据所述第六视频流数据中的尾部帧图像与所述第八视频流数据中的头部帧图像生成第一过渡帧图像，用所述第一过渡帧图像替换所述第八视频流数据中的头部帧图像，对所述第一过渡帧图像和所述第七视频流数据的帧图像进行叠加，得到第一过渡视频流数据。

这一实施例主要针对的是输入视频流数据中包含多个目标物，其中一个目标物的状态类型保持不变，另外一个目标物的状态类型发生变化的情况，以下结合图5对本实施例涉及的第一过渡视频流数据的生成过程作详细说明：

在获取到输入视频流数据10后，会将输入视频流数据10分为第一输入视频流数据101（为只包含第一目标物的输入视频流数据）和第二输入视频流数据102（为只包含第二目标物的输入视频流数据），并将第一输入视频流数据101和第二输入视频流数据102都输入至第一识别模型中，得到第六视频流数据80和第七视频流数据70，再对第六视频流数据80和第七视频流数据70的帧图像进行合成，得到包含第一虚拟形象和第二虚拟形象（均处于第一状态类型）的第一视频流数据。

如图5所示，若检测到所述第一目标物由第一状态类型变化为第二状态类型但所述第二目标物仍保持第一状态类型时，则将第一输入视频流数据101由输入至第一识别模型20中切换至输入至第二识别模型30中，第二识别模型30输出第八视频流数据90，第八视频流数据90只包含第一目标物对应的第一虚拟形象，且第一虚拟信息处于第二状态类型。假定第六视频流数据80的帧图像记为E1、E2、E3…E10，其中，E10为第六视频流数据80的尾部帧图像，第八视频流数据90的帧图像记为F1、F2、F3…Fn，其中，F1、F2、F3…Fm（m小于n）为第八视频流数据90的头部帧图像，而后会依次对帧图像E10与F1、E10与F2、E10与F3、…、E10与Fm进行加权运算，生成m帧第一过渡帧图像100，第一过渡帧图像100记为G1、G2、G3…Gm。第七视频流数据70的帧图像记为H1、H2、H3…Hn，则会将G1与H1、G2与H2 、…、Gm与Hm依次进行叠加，得到第一过渡视频流数据110，第一过渡视频流数据110包含的多帧图像记为I1、I2、I3…Im，其中，I1通过G1与H1叠加得到，I2通过G2与H2叠加得到，以此类推，Im通过Gm与Hm叠加得到。

在生成第一过渡视频流数据110的过程中，第一过渡帧图像100替换所述第八视频流数据90的头部帧图像参与合成，能够使得在得到的第一过渡视频流数据110中，第二虚拟形象仍保持第一状态类型，第一虚拟形象是由第一状态类型至第二状态类型的过渡状态，有效避免由第一目标物状态变化引起的第一虚拟形象出现状态跳变的现象。

进一步地，当生成的第一过渡帧图像100与第八视频流数据90中的帧图像的重叠程度大于预设阈值时，则停止所述第一过渡帧图像100的生成，直接将第八视频流数据90的帧图像与第七视频流数据70的帧图像进行合成，得到包含第一虚拟形象（处于第二状态类型）和第二虚拟形象（处于第一状态类型）的视频流数据。

第二方面，如图6所示，本申请实施例还提供了一种含虚拟形象的视频流数据的生成装置500，所述虚拟形象与目标物相对应，所述装置包括：

输入视频流数据获取模块501，用于获取输入视频流数据；

第一视频流数据生成模块502，用于在检测到所述输入视频流数据中所述目标物处于第一状态类型时，将所述输入视频流数据输入至第一识别模型中，得到第一视频流数据，在所述第一视频流数据中，所述虚拟形象处于第一状态类型；

第二视频流数据生成模块503，用于在检测到所述输入视频流数据中所述目标物由第一状态类型变化为第二状态类型时，将所述输入视频流数据输入至第二识别模型中，得到第二视频流数据，在所述第二视频流数据中，所述虚拟形象处于第二状态类型；

过渡视频流数据生成模块504，用于根据所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成过渡帧图像，用所述过渡帧图像替换所述头部帧图像，得到过渡视频流数据。

第三方面，对应于上述含虚拟形象的视频流数据的生成方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述含虚拟形象的视频流数据的生成方法的步骤。

第四方面，如图7所示，本申请实施例还提供了一种电子设备600，包括：处理器601、存储器602和总线603，所述存储器602存储有所述处理器601可执行的机器可读指令，当电子设备运行时，所述处理器601与所述存储器602之间通过总线603通信，所述处理器601执行所述机器可读指令，以执行如上述含虚拟形象的视频流数据的生成方法的步骤。

具体地，上述存储器602和处理器601可以为通用的存储器和处理器，这里不做具体限定，当处理器601运行存储器602存储的计算机程序时，能够执行上述含虚拟形象的视频流数据的生成方法。

需要说明的是，所述电子设备600可以是云端服务器，也可以是用户终端设备。当所述电子设备600为云端服务器时，该云端服务器可以获取用户终端设备上传的包含目标物的输入视频流数据，对输入视频流数据进行处理生成含虚拟形象的视频流数据后，推送给用户移动终端显示。当所述电子设备600为用户终端设备时，可以先在用户终端设备中预先下载相应的应用程序，用户可以通过实时拍摄或点击上传预存文件的方式将所述输入视频流数据导入至所述应用程序进行处理，以得到相应的含虚拟形象的视频流数据进行显示。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后需要说明的是，尽管在本申请的说明书文字及附图中已经对上述各实施例进行了描述，但并不能因此限制本申请的专利保护范围。凡是基于本申请的实质理念，利用本申请说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案，以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等，均包括在本申请的专利保护范围之内。

Claims

1.一种含虚拟形象的视频流数据的生成方法，所述虚拟形象与目标物相对应，其特征在于，所述方法包括以下步骤：

获取输入视频流数据；

2.如权利要求1所述的含虚拟形象的视频流数据的生成方法，其特征在于，根据所述第一视频流数据中的尾部帧图像与所述第二视频流数据中的头部帧图像生成过渡帧图像包括：

对所述尾部帧图像和所述头部帧图像进行插帧处理，得到所述过渡帧图像。

3.如权利要求2所述的含虚拟形象的视频流数据的生成方法，其特征在于，所述插帧处理包括：

提取所述尾部帧图像中所述虚拟形象对应的第一坐标参数以及所述头部帧图像中所述虚拟形象对应的第二坐标参数，对所述第一坐标参数和第二坐标参数进行加权运算，得到第三坐标参数，将所述第三坐标参数作为所述过渡帧图像中虚拟形象的坐标参数。

4.如权利要求3所述的含虚拟形象的视频流数据的生成方法，其特征在于，所述过渡帧图像的数量为多张，第三坐标参数根据以下公式进行计算：

第三坐标参数=第一坐标参数*第一权重+第二坐标参数*第二权重，*表示乘法；

依所述过渡视频流数据的播放顺序，在计算所述过渡帧图像中虚拟形象对应的第三坐标参数时，所述第一权重按第一预设梯度逐渐减小，所述第二权重按第二预设梯度逐渐增大。

5.如权利要求1所述的含虚拟形象的视频流数据的生成方法，其特征在于，所述方法包括：

在得到所述过渡视频流数据后，对所述过渡视频流数据进行推流播放，并在检测到所述过渡帧图像与头部帧图像的重合度大于预设阈值时，停止生成后续所述过渡帧图像并对所述第二视频流数据进行推流播放。

6.如权利要求1所述的含虚拟形象的视频流数据的生成方法，其特征在于，所述目标物包括第一目标物和第二目标物，所述第一目标物对应第一虚拟形象，所述第二目标物对应第二虚拟形象；

所述方法包括：

判断所述输入视频流数据中，所述第一目标物和所述第二目标物所处的状态类型是否相同，若是将所述输入视频流数据输入至相应的识别模型中进行处理，否则将所述输入视频流数据分为第一输入视频流数据和第二输入视频流数据，并将所述第一输入视频流数据输入至第一识别模型中，得到第三视频流数据，在所述第三视频流数据中，所述第一虚拟形象处于第一状态类型，将所述第二输入视频流数据输入至第二识别模型中，得到第四视频流数据，在所述第四视频流数据中，所述第二虚拟形象处于第二状态类型，对所述第三视频流数据和所述第四视频流数据的帧图像进行叠加，得到第五视频流数据。

7.如权利要求6所述的含虚拟形象的视频流数据的生成方法，其特征在于，所述方法包括：

若检测到所述输入视频流数据中，所述第一目标物和所述第二目标物均处于第一状态类型，将所述输入视频流数据输入至第一识别模型中，得到第一视频流数据，所述第一视频流数据由第六视频流数据和第七视频流数据通过帧图像合成得到，在所述第六视频流数据中，所述第一虚拟形象处于第一状态类型；在所述第七视频流数据中，所述第二虚拟形象处于第一状态类型；

当检测到所述输入视频流数据中，所述第一目标物由第一状态类型变化为第二状态类型但所述第二目标物仍保持第一状态类型时，将所述输入视频流数据分为第一输入视频流数据和第二输入视频流数据，将所述第一输入视频流数据输入至第二识别模型中，得到第八视频流数据，在所述第八视频流数据中，所述第一虚拟形象处于第二状态类型，根据所述第六视频流数据中的尾部帧图像与所述第八视频流数据中的头部帧图像生成第一过渡帧图像，用所述第一过渡帧图像替换所述第八视频流数据中的头部帧图像，对所述第一过渡帧图像和所述第七视频流数据的帧图像进行叠加，得到第一过渡视频流数据。

8.一种含虚拟形象的视频流数据的生成装置，所述虚拟形象与目标物相对应，其特征在于，所述装置包括：

输入视频流数据获取模块，用于获取输入视频流数据；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的含虚拟形象的视频流数据的生成方法的步骤。

10.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一项所述的含虚拟形象的视频流数据的生成方法的步骤。