CN116112761B

CN116112761B - 生成虚拟形象视频的方法及装置、电子设备和存储介质

Info

Publication number: CN116112761B
Application number: CN202310383671.XA
Authority: CN
Inventors: 戚德望
Original assignee: Haima Cloud Tianjin Information Technology Co Ltd
Current assignee: Anhui Haima Cloud Technology Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-06-27
Anticipated expiration: 2043-04-12
Also published as: CN116112761A

Abstract

本申请提供一种生成虚拟形象视频的方法及装置、电子设备和存储介质，属于计算机技术领域。所述方法包括：获取人像视频；通过识别人像视频的人像类型，确定与人像类型对应的处理模型；基于开始时段的人像视频，利用对应的处理模型确定虚拟形象的全身特征数据集合，以基于全身特征数据集合生成虚拟形象视频的开始时段的视频数据；对于开始时段以后的任意一帧的人像视频，利用与当前帧的人像视频对应的处理模型，确定当前帧与上一帧之间人体特征数据的变化量，并基于叠加了变化量的全身特征数据集合生成虚拟形象视频的当前帧的视频数据。本申请能够帮助解决人像类型发生变化时虚拟形象突然发生显著改变的问题。

Description

生成虚拟形象视频的方法及装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种生成虚拟形象视频的方法及装置、电子设备和存储介质。

背景技术

数字虚拟人技术是虚拟现实（VR）与增强现实（AR）的结合，虚拟人是一种基于计算机技术和网络通讯技术的新型人机交互界面，通过实时交互和人工智能技术实现人机自然混合的场景。随着人工智能等相关技术在各个领域中不断地深入应用，数字虚拟人技术在文化娱乐、商业贸易、教育科研、科学研究等各个领域有着广阔的发展前景。作为虚拟人的一种实现形式，虚拟形象一般指的是与人像视频中的人物具有相同动作、姿势、表情的动画形象，用来替代人物本身出现在现实场景或虚拟场景当中。

为了提升虚拟形象与人物之间的一致性，对于不同人像类型的人像视频，往往采用不同的处理模型来进行人体识别，比如对于全身人像的人像视频采用全身处理模型来进行人体识别、对于半身人像的人像视频采用半身处理模型来进行人体识别，等等。但是，在人像视频的人像类型发生变化时，由于不同处理模型分别产生不同的识别结果，所生成的虚拟形象也很容易在处理模型发生变化时突然发生显著改变，导致例如瞬移、瞬动等严重失真的问题的发生。

发明内容

本申请提供了一种生成虚拟形象视频的方法及装置、电子设备和存储介质，能够帮助解决人像类型发生变化时虚拟形象突然发生显著改变的问题。

本申请实施例的至少一个方面提供了一种生成虚拟形象视频的方法，该方法包括：获取待生成虚拟形象视频的人像视频；通过识别所述人像视频的人像类型，确定与所述人像类型对应的处理模型；其中，所述处理模型为用于基于人像视频生成人体特征数据的机器视觉模型，所述人体特征数据包括人体的多个特征点在三维空间中的位置数据；基于开始时段的所述人像视频，利用对应的所述处理模型确定虚拟形象的全身特征数据集合，以基于所述全身特征数据集合生成虚拟形象视频的开始时段的视频数据；对于所述开始时段以后的任意一帧的人像视频，利用与当前帧的人像视频对应的所述处理模型，确定当前帧与上一帧之间所述人体特征数据的变化量，并基于叠加了所述变化量的所述全身特征数据集合生成所述虚拟形象视频的当前帧的视频数据。

本申请实施例的至少一个方面提供了一种生成虚拟形象视频的装置，该装置包括：获取模块，用于获取待生成虚拟形象视频的人像视频；确定模块，用于通过识别所述人像视频的人像类型，确定与所述人像视频的人像类型对应的处理模型；其中，所述处理模型为用于基于所述人像视频生成人体特征数据的机器视觉模型，所述人体特征数据包括所述人像视频中的人体的多个特征点在三维空间中的位置数据；第一生成模块，用于基于所述人像视频的开始时段，利用对应的所述处理模型确定虚拟形象的全身特征数据集合，以基于所述全身特征数据集合生成虚拟形象视频的开始时段的视频数据；第二生成模块，用于对于所述开始时段以后的任意一帧人像视频，利用与当前帧的人像视频对应的所述处理模型，确定当前帧与上一帧之间所述人体特征数据的变化量，并基于叠加了所述变化量的所述全身特征数据集合生成虚拟形象视频的当前帧的视频数据。

本申请实施例的至少一个方面提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器的可执行指令的存储器；其中，所述处理器用于执行所述可执行指令，以实现上述生成虚拟形象视频的方法。

本申请实施例的至少一个方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有处理器的可执行指令，所述可执行指令被配置为在被处理器执行时使所述处理器实现上述生成虚拟形象视频的方法。

本申请实施例中，生成虚拟形象视频的方式不再采用对于不同人像类型分别使用不同处理模型来生成的方式，而先基于开始时段的人像视频确定对应虚拟形象的初始状态的全身特征数据集合，再将此后每一种处理模型得到的人体特征数据以相邻帧之间变化量的形式叠加到全身特征数据集合，使得所生成的虚拟形象视频在人像类型发生变化时只体现同一处理模型的输出结果在相邻帧之间的差异、而不体现不同处理模型的输出结果之间的差异，从而能够使得生成的虚拟形象视频更加连续和平滑，能够帮助解决人像类型发生变化时虚拟形象突然发生显著改变的问题，有助于提升虚拟形象的呈现效果。

附图说明

图1是本申请实施例提供的一种生成虚拟形象视频的方法的应用场景示意图；

图2是本申请实施例提供的一种生成虚拟形象视频的方法的步骤流程示意图；

图3是本申请实施例提供的一种生成虚拟形象视频的方法中一种过渡时段的人像视频的处理方式的步骤流程示意图；

图4是本申请实施例提供的一种生成虚拟形象视频的装置的结构框图；

图5是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种生成虚拟形象视频的方法的应用场景示意图。参见图1，在如图1所示的系统中，终端100与服务器200之间通过网络300连接，从而服务器200能够通过网络通信为终端100提供生成虚拟形象视频的服务。在一个示例中，终端100通过摄像头实时拍摄用户画面以作为待生成虚拟形象视频的人像视频S1通过网络300的连接发送给服务器200，而服务器200通过对接收到的人像视频S1执行生成虚拟形象视频的方法，生成相应的虚拟形象视频S2并发送给终端100，使得终端100能够在屏幕上实时显示包含用户的虚拟形象的画面。在其他示例中，服务器200进一步将生成的虚拟形象视频S2发送至除终端100以外的多个用户终端，以实现用户使用终端100来进行的基于虚拟形象的视频直播。

相关技术中，为了提升虚拟形象与人像视频中的人物之间的一致性，会针对不同的人像类型使用不同的处理模型来进行人体识别。比如对于图1所示的正面半身人像的人像类型的人像视频S1，服务器200会针对性地采用正面半身人像的处理模型来进行人体识别，从而基于处理模型的输出结果生成正面半身人像的虚拟形象视频S2；对于例如正面全身人像的人像类型的人像视频，服务器200会针对性地采用正面全身人像的处理模型来进行人体识别，从而基于处理模型的输出结果生成正面全身人像的虚拟形象视频。然而，由于终端100拍摄得到的人像视频S1会因为用户的移动或转身等动作而从一种人像类型变化为另一种人像类型，这就使得服务器200生成的虚拟形象视频S2会由不同处理模型分别处理得到的虚拟形象视频拼接而成；但是，由于处理模型对于相同输入的输出结果之间存在着差异，这使得虚拟形象视频S2在人像类型发生变化的时间点处容易突然发生显著改变，比如画面中虚拟形象的位置突然发生移动（瞬移）、或者画面中虚拟形象的某个部位突然从一个位置变化到另一个位置、或是从一种状态变化为另一种状态，等等。这些现象会导致虚拟形象视频中出现严重的不连续和失真，影响虚拟形象的呈现效果。

图2是本申请实施例提供的一种生成虚拟形象视频的方法的步骤流程示意图。针对上述问题，本申请实施例的生成虚拟形象视频的方法提供了一种可以帮助解决上述人像类型发生变化时虚拟形象突然发生显著改变的问题的可能方式。参见图2，该方法能够应用于任意一种具备足以执行该方法的电子设备上（例如由图1中的服务器200执行），并包括以下过程。

在步骤201中，获取待生成虚拟形象视频的人像视频。

取决于应用场景的不同，获取人像视频的方式可以包括而不限于：通过网络连接从其他设备处实时接收、通过有线或无线通信连接请求其他设备传输、自内部或外部存储介质上读取，等等。需要说明的是，本文所述的视频指的是包含至少一帧画面所组成的动态影像数据，上述虚拟形象视频和人像视频每一个都可以是单帧视频或多帧视频（在一个示例中，人像视频为按照时间顺序连续发送的多个单帧视频组成的视频流），上述处理模型可以是以单帧视频作为输入的模型，也可以是多帧视频作为输入的模型，本申请实施例对此不做限制。

在步骤202中，通过识别人像视频的人像类型，确定与人像类型对应的处理模型。

其中，所述处理模型为用于基于人像视频生成人体特征数据的机器视觉模型，所述人体特征数据包括人体的多个特征点（例如瞳孔中心点、眼角位置点、鼻尖位置点、嘴角位置点、上唇中心点、下唇中心点以及人体其他各个部位的部位边缘关键点、部位中心点、骨骼解剖点，等等；每个处理模型对应的人体特征数据可以包含不同的特征点）在三维空间中的位置数据。在一个示例中，识别人像视频的人像类型也通过机器视觉模型实现，例如预先构建以人像视频的视频帧为输入并以该视频帧的人像类型标识为输出深度神经网络模型，并使用大量的标注有人像类型的视频帧样本对其进行训练，从而使用训练好的识别模型来进行上述对于人像视频的人像类型的识别，并利用模型输出的人像类型标识在预先存储的对应关系中确定相对应的处理模型。此外，每种人像类型所对应的所述处理模型也可以按照与上述识别模型相似的方式预先配置好。

在步骤203中，基于开始时段的人像视频，利用对应的处理模型确定虚拟形象的全身特征数据集合，以基于全身特征数据集合生成虚拟形象视频的开始时段的视频数据。

其中，全身特征数据集合指的是包含有人体全身的所有对于生成虚拟形象视频来说所必要的特征数据的数据项目的集合（足以生成开始时段的虚拟形象视频）。例如，每一种所述人像类型所对应的所述人体特征数据的全部的数据项目均设置在全身特征数据集合当中。利用某一种或几种人像类型所对应的处理模型得到的输出结果可能不足以填满所述全身特征数据集合的每一个特征数据的数据项目（比如半身人像中没有拍摄到下半身时，无法确定有关下半身的特征数据），对于没有的特征数据的数据项目可以设置为默认值、基于已有特征数据利用插值或推导的方式进行填充，或者置为空（比如将无法确定的有关下半身的特征数据的数据项目保留为空白，而这不会影响半身人像的虚拟形象视频的视频数据的生成）。由于全身特征数据集合中包含有用来确定虚拟形象如何添加到视频当中的全部信息，因而能够基于全身特征数据集合生成虚拟形象视频的开始时段（比如第一帧或前两帧、前三帧等等）的视频数据（该视频数据可以为任意格式的视频片段或视频画面集合，也可以是用于叠加到人像视频上的虚拟形象动画数据，还可以是用于在显示虚拟形象的终端上配置所要显示的虚拟形象的配置参数集合，并可以不仅限于以上几种形式）。

在步骤204中，对于开始时段以后的任意一帧的人像视频，利用与当前帧的人像视频对应的处理模型，确定当前帧与上一帧之间人体特征数据的变化量，并基于叠加了变化量的全身特征数据集合生成虚拟形象视频的当前帧的视频数据。

在一个示例中，当前帧与上一帧的人像视频的人像类型均为第一类型，从而上述步骤204包括利用与第一类型对应的第一处理模型分别确定上一帧的人体特征数据和当前帧的人体特征数据，并计算当前帧的人体特征数据相比于上一帧的人体特征数据的变化量（一般包含多个不同数据项目中两个特征数据之间的差值）；在将该变化量叠加到全身特征数据集合上时，该变化量在每个数据项目上的值都直接与全身特征数据集合中相同数据项目上的值相加，从而叠加变化量前后的全身特征数据集合之间的差异能够体现人像视频的上一帧与当前帧之间的变化，从而基于叠加了变化量的全身特征数据集合生成的当前帧的虚拟形象视频能够对应于当前帧的人像视频。

当前帧与上一帧的人像视频的人像类型为第一类型，当前帧的人像视频的人像类型为第二类型时，上述步骤204包括利用与第二类型对应的第二处理模型分别确定上一帧的人体特征数据和当前帧的人体特征数据，并计算当前帧的人体特征数据相比于上一帧的人体特征数据的变化量（其中，上一帧的人像类型虽然为第一类型，但此时用作第二处理模型处理其首个视频帧时的参考）；在将该变化量叠加到全身特征数据集合上时，该变化量在每个数据项目上的值都直接与全身特征数据集合中相同且不为空的数据项目上的值相加（若全身特征数据集合中为空的数据项目在该变化量中不为空，则将全身特征数据集合中的该数据项目的值变为与该变化量对应的当前帧的人体特征数据在该数据项目上的值）。如此，叠加变化量前后的全身特征数据集合之间的差异能够体现人像视频在上一帧与当前帧之间的变化（原先为空的特征数据则被当前帧的特征数据所覆盖，比如从半身人像变化至全身人像时为空的腿部特征数据会被全身处理模型输出的腿部特征数据所覆盖），从而基于叠加了变化量的全身特征数据集合生成的当前帧的虚拟形象视频能够对应于当前帧的人像视频。

可以看出，本申请实施例中，生成虚拟形象视频的方式不再采用对于不同人像类型分别使用不同处理模型来生成的方式，而先基于开始时段的人像视频确定对应虚拟形象的初始状态的全身特征数据集合，再将此后每一种处理模型得到的人体特征数据以相邻帧之间变化量的形式叠加到全身特征数据集合上，使得所生成的虚拟形象视频在人像类型发生变化时只体现同一处理模型的输出结果在相邻帧之间的差异、而不体现不同处理模型的输出结果之间的差异，从而能够使得生成的虚拟形象视频更加连续和平滑，能够帮助解决人像类型发生变化时虚拟形象突然发生显著改变的问题，有助于提升虚拟形象的呈现效果。

需要说明的是，上述人像类型指的是为了提升处理精度而针对不同的人像视频画面划分的类别，由于人像类型与处理模型之间一一对应，取决于所要求的处理精度和处理能力方面的限制，可以例如参照能够支持的处理模型的数量确定人像类型的总数。在一个示例中，所述人像类型包括正面全身人像、正面半身人像、正面面部人像、侧面全身人像、侧面半身人像、侧面面部人像、背面全身人像和背面半身人像中的至少两种，不同种类的人像类型对应不同的处理模型，不同种类的人像类型对应数据项目组成不同的人体特征数据。

还需要说明的是，本文所称的人体特征数据指的是用于表征人体各个部位的位置、取向、姿态及其关系，从而用来确定虚拟形象的各个对应部位的位置、取向、姿态及其关系的数据。在一个示例中，人体特征数据由一组人体的特征点在三维空间（现实三维空间或虚拟三维空间）中的位置构成；在其他示例中，人体特征数据包括人体的特征点在三维空间中的位置、人体部位的角度数据、人体部位的向量中的一个或多个，并可以不仅限于此。

在一个示例中，上述方法在前述任意一种方法的基础上还包括：在当前帧的人像类型不同于上一帧的人像类型时，将全身特征数据集合中的每一个减项数据项目的数据重置为空。其中，所述减项数据项目为属于与第三类型对应的人体特征数据的数据项目且不属于与第四类型对应的人体特征数据的数据项目的数据项目，第三类型为上一帧的人像类型，第四类型为当前帧的人像类型。例如，在人像类型从全身人像变化为半身人像时，全身特征数据集合中与在画面中消失的下半身有关的数据项目几乎都成为了上述减项数据项目，因而在此时将其重置为空，可以避免全身特征数据集合留存错误或过期的特征数据（比如腿部的特征数据在半身人像期间无法与现实中人体的腿部的特征数据保持一致，若一直保持为原数值则可能会在将来回到全身人像时导致错误的发生），更有利于提升虚拟形象的呈现效果。

此外，为了进一步平滑人像类型发生变化时的虚拟形象视频，还可以在条件允许的情况下对将要叠加到全身特征数据集合上的变化量进行进一步处理。图3是本申请实施例提供的一种生成虚拟形象视频的方法中一种过渡时段的人像视频的处理方式的步骤流程示意图。参见图3，上述生成虚拟形象视频的方法在上文的基础上还包括以下过程。

在步骤301中，对于过渡时段的人像视频，利用与第一类型对应的处理模型确定过渡时段中的多帧之间的第一变化量的序列。

在步骤302中，利用与第二类型对应的处理模型确定过渡时段中的多帧之间的第二变化量的序列。

在步骤303中，对第一变化量的序列和第二变化量的序列进行平均化处理以得到混合变化量序列。

在步骤304中，将过渡时段中的用于叠加在全身特征数据集合上的变化量的序列替换为混合变化量序列。

其中，所述过渡时段为人像视频的人像类型从所述第一类型变化到所述第二类型的时段，例如可以在缓存的视频帧中人像类型发生变化的视频帧周围进行选取。例如，选取变化前的m帧和变化后的n帧，其中m和n为大于1的整数；选取帧数越多，运算量越大且平滑效果越好，可以依照应用需求进行设置。

在一个示例中，上述m=n=15，因而过渡时段内共有30帧的人像视频；在上述步骤301和302中，利用与第一类型对应的第一处理模型对过渡时段的30帧图像进行处理，能够得到29个由第一变化量按照时间顺序排列组成的序列，而利用与第二类型对应的第二处理模型对过渡时段的30帧图像进行处理，能够得到29个由第二变化量按照时间顺序排列组成的序列；在步骤303中，对上述29个第一变化量的序列和上述29个第二变化量的序列进行平均化处理（可以采用任意一种已知的数据平均化方法），以得到29个混合变化量的序列；在步骤304中，将过渡时段的30帧图像之间的用于叠加在全身特征数据集合上的变化量替换为29个混合变化量的序列中相对应的混合变化量。如此，平均化处理得到的混合变化量序列相比于第一变化量序列和第二变化量序列都更加平滑，因而能够使得所生成的过渡时段的虚拟形象视频也更加平滑和流畅。

作为一种平均化处理的示例，对于过渡时段中的每一帧，对该帧的第一变化量与第二变化量进行加权平均，以得到混合变化量序列在该帧的变化量，其中第二变化量与第一变化量之间的权重比例按照帧的时间顺序逐渐增大。比如，对于29个变化量中的第1-5个，按照第二变化量与第一变化量之间的权重比例为2:8进行上述加权平均；对于29个变化量中的第6-10个，按照第二变化量与第一变化量之间的权重比例为3:7进行上述加权平均；对于29个变化量中的第11-15个，按照第二变化量与第一变化量之间的权重比例为4:6进行上述加权平均；对于29个变化量中的第16-20个，按照第二变化量与第一变化量之间的权重比例为6:4进行上述加权平均；对于29个变化量中的第21-25个，按照第二变化量与第一变化量之间的权重比例为7:3进行上述加权平均；对于29个变化量中的第26-29个，按照第二变化量与第一变化量之间的权重比例为8:2进行上述加权平均。即，按照帧的时间顺序，混合变化量逐渐由第一变化量靠近第二变化量，相比于直接取第一变化量与第二变化量之间的平均值，更有助于提升虚拟形象视频的平滑程度。

图4是本申请实施例提供的一种生成虚拟形象视频的装置的结构框图。参见图4，该装置包括：获取模块41，用于获取待生成虚拟形象视频的人像视频；确定模块42，用于通过识别所述人像视频的人像类型，确定与所述人像视频的人像类型对应的处理模型；其中，所述处理模型为用于基于所述人像视频生成人体特征数据的机器视觉模型，所述人体特征数据包括所述人像视频中的人体的多个特征点在三维空间中的位置数据；第一生成模块43，用于基于所述人像视频的开始时段，利用对应的所述处理模型确定虚拟形象的全身特征数据集合，以基于所述全身特征数据集合生成虚拟形象视频的开始时段的视频数据；第二生成模块44，用于对于所述开始时段以后的任意一帧人像视频，利用与当前帧的人像视频对应的所述处理模型，确定当前帧与上一帧之间所述人体特征数据的变化量，并基于叠加了所述变化量的所述全身特征数据集合生成虚拟形象视频的当前帧的视频数据。

可以看出，本申请实施例中，生成虚拟形象视频的方式不再采用对于不同人像类型分别使用不同处理模型来生成的方式，而先基于开始时段的人像视频确定对应虚拟形象的初始状态的全身特征数据集合，再将此后每一种处理模型得到的人体特征数据以相邻帧之间变化量的形式叠加到全身特征数据集合，使得所生成的虚拟形象视频在人像类型发生变化时只体现同一处理模型的输出结果在相邻帧之间的差异、而不体现不同处理模型的输出结果之间的差异，从而能够使得生成的虚拟形象视频更加连续和平滑，能够帮助解决人像类型发生变化时虚拟形象突然发生显著改变的问题，有助于提升虚拟形象的呈现效果。

本申请实施例提供的生成虚拟形象视频的装置，其实现过程与本申请实施例提供的生成虚拟形象视频的方法一致，所能达到的效果也与本申请实施例提供的生成虚拟形象视频的方法相同，在此不再赘述。

图5是本申请实施例提供的一种电子设备的结构框图。参见图5，该电子设备包括处理器51和用于存储该处理器51的可执行指令的存储器52；其中，该处理器51用于执行所述可执行指令，以实现上述任意一种的生成虚拟形象视频的方法。以上文所述的服务器200为例，本申请实施例的电子设备能够帮助解决人像类型发生变化时虚拟形象突然发生显著改变的问题，有助于提升虚拟形象的呈现效果。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质为非易失性的存储介质，且该存储介质存储有处理器的可执行指令，该可执行指令被配置为在被处理器执行时使处理器实现上述任意一种的生成虚拟形象视频的方法。以上述存储器52为例，本申请实施例的计算机可读存储介质能够用来实现上述任意一种的生成虚拟形象视频的方法，因而能够帮助解决人像类型发生变化时虚拟形象突然发生显著改变的问题，有助于提升虚拟形象的呈现效果。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种生成虚拟形象视频的方法，其特征在于，所述方法包括：

获取待生成虚拟形象视频的人像视频；

通过识别所述人像视频的人像类型，确定与所述人像类型对应的处理模型；其中，所述处理模型为用于基于人像视频生成人体特征数据的机器视觉模型，所述人体特征数据包括人体的多个特征点在三维空间中的位置数据；

基于开始时段的所述人像视频，利用对应的所述处理模型确定虚拟形象的全身特征数据集合，以基于所述全身特征数据集合生成虚拟形象视频的开始时段的视频数据；

对于所述开始时段以后的任意一帧的人像视频，利用与当前帧的人像视频对应的所述处理模型，确定当前帧与上一帧之间所述人体特征数据的变化量，并基于叠加了所述变化量的所述全身特征数据集合生成所述虚拟形象视频的当前帧的视频数据；

对于过渡时段的所述人像视频，利用与第一类型对应的所述处理模型确定所述过渡时段中的多帧之间的第一变化量的序列，利用与第二类型对应的所述处理模型确定所述过渡时段中的多帧之间的第二变化量的序列，对所述第一变化量的序列和所述第二变化量的序列进行平均化处理以得到混合变化量序列，并将所述过渡时段中的用于叠加在所述全身特征数据集合上的所述变化量的序列替换为所述混合变化量序列；

其中，所述过渡时段为所述人像视频的人像类型从所述第一类型变化到所述第二类型的时段。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一变化量的序列和所述第二变化量的序列进行平均化处理以得到混合变化量序列，包括：

对于所述过渡时段中的每一帧，对该帧的所述第一变化量与所述第二变化量进行加权平均，以得到所述混合变化量序列在该帧的变化量；其中，所述第二变化量与所述第一变化量之间的权重比例按照帧的时间顺序逐渐增大。

3.根据权利要求1所述的方法，其特征在于，所述人体特征数据还包括所述人像视频中的多个人体部位的角度数据。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述人像类型包括正面全身人像、正面半身人像、正面面部人像、侧面全身人像、侧面半身人像、侧面面部人像、背面全身人像和背面半身人像中的至少两种，不同种类的所述人像类型对应不同的所述处理模型，不同种类的所述人像类型对应数据项目组成不同的所述人体特征数据。

5.根据权利要求4所述的方法，其特征在于，所述全身特征数据集合包括若干个数据项目，每一种所述人像类型所对应的所述人体特征数据的全部的数据项目均存在于所述若干个数据项目当中；在将所述变化量叠加在所述全身特征数据集合上时，若所述全身特征数据集合中为空的数据项目在所述变化量中不为空，则将所述全身特征数据集合中的该数据项目的值变为与所述变化量对应的当前帧的所述人体特征数据在该数据项目上的值。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在当前帧的人像类型不同于上一帧的人像类型时，将所述全身特征数据集合中的每一个减项数据项目的数据重置为空；

其中，所述减项数据项目为属于与第三类型对应的所述人体特征数据的数据项目且不属于与第四类型对应的所述人体特征数据的数据项目的数据项目，所述第三类型为上一帧的人像类型，所述第四类型为当前帧的人像类型。

7.一种生成虚拟形象视频的装置，其特征在于，所述装置包括：

获取模块，用于获取待生成虚拟形象视频的人像视频；

确定模块，用于通过识别所述人像视频的人像类型，确定与所述人像视频的人像类型对应的处理模型；其中，所述处理模型为用于基于所述人像视频生成人体特征数据的机器视觉模型，所述人体特征数据包括所述人像视频中的人体的多个特征点在三维空间中的位置数据；

第一生成模块，用于基于所述人像视频的开始时段，利用对应的所述处理模型确定虚拟形象的全身特征数据集合，以基于所述全身特征数据集合生成虚拟形象视频的开始时段的视频数据；

第二生成模块，用于：对于所述开始时段以后的任意一帧人像视频，利用与当前帧的人像视频对应的所述处理模型，确定当前帧与上一帧之间所述人体特征数据的变化量，并基于叠加了所述变化量的所述全身特征数据集合生成虚拟形象视频的当前帧的视频数据；对于过渡时段的所述人像视频，利用与第一类型对应的所述处理模型确定所述过渡时段中的多帧之间的第一变化量的序列，利用与第二类型对应的所述处理模型确定所述过渡时段中的多帧之间的第二变化量的序列，对所述第一变化量的序列和所述第二变化量的序列进行平均化处理以得到混合变化量序列，并将所述过渡时段中的用于叠加在所述全身特征数据集合上的所述变化量的序列替换为所述混合变化量序列；

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器用于执行所述可执行指令，以实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有处理器的可执行指令，所述可执行指令被配置为在被处理器执行时使所述处理器实现如权利要求1至6中任一项所述的方法。