CN116129091B

CN116129091B - 生成虚拟形象视频的方法及装置、电子设备和存储介质

Info

Publication number: CN116129091B
Application number: CN202310402367.5A
Authority: CN
Inventors: 韩道玉
Original assignee: Haima Cloud Tianjin Information Technology Co Ltd
Current assignee: Haima Cloud Tianjin Information Technology Co Ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-06-13
Anticipated expiration: 2043-04-17
Also published as: CN116129091A

Abstract

本申请提供一种生成虚拟形象视频的方法及装置、电子设备和存储介质，属于计算机技术领域。所述方法包括：获取第一人像视频和第二人像视频；利用处理模型处理第一人像视频，以得到第一面部特征数据；在基于第二人像视频生成虚拟形象视频时，对利用处理模型处理第二人像视频得到的人体特征数据中的第二面部特征数据进行校正，并基于包括校正后的第二面部特征数据的人体特征数据生成虚拟形象视频；其中，校正后的第二面部特征数据的任一项面部特征值正相关于校正前的第二面部特征数据在该项目上的面部特征值与第一面部特征数据在该项目上的面部特征值之间的差值。本申请能够帮助改善生成的虚拟形象的面部表情与人物不一致的问题。

Description

生成虚拟形象视频的方法及装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种生成虚拟形象视频的方法及装置、电子设备和存储介质。

背景技术

数字虚拟人技术是虚拟现实（VR）与增强现实（AR）的结合，虚拟人是一种基于计算机技术和网络通讯技术的新型人机交互界面，通过实时交互和人工智能技术实现人机自然混合的场景。随着人工智能等相关技术在各个领域中不断地深入应用，数字虚拟人技术在文化娱乐、商业贸易、教育科研、科学研究等各个领域有着广阔的发展前景。作为虚拟人的一种实现形式，虚拟形象一般指的是与人像视频中的人物具有相同动作、姿势、表情的动画形象，用来替代人物本身出现在现实场景或虚拟场景当中。但是，在目前能够生成并展示虚拟形象的程序或应用中，经常会出现生成的虚拟形象的面部表情与人物不一致的问题。例如，对于突然睁大眼睛的面部表情，所生成的虚拟形象往往不能正确地展示出来，容易出现睁眼幅度变化过小、无法达到最大睁眼幅度等问题。

发明内容

本申请提供了一种生成虚拟形象视频的方法及装置、电子设备和存储介质，能够帮助改善生成的虚拟形象的面部表情与人物不一致的问题。

本申请实施例的至少一个方面提供了一种生成虚拟形象视频的方法，该方法包括：获取第一人像视频和第二人像视频，所述第一人像视频与所述第二人像视频为同一拍摄视角下包含同一人物的面部的人像视频，所述第二人像视频为待生成虚拟形象视频的人像视频；利用处理模型处理所述第一人像视频，以得到第一面部特征数据；其中，所述第一面部特征数据包括所述第一人像视频中人物面部的至少一项面部特征值，所述处理模型为用于基于人像视频生成包括面部特征数据的人体特征数据的机器视觉模型；在基于所述第二人像视频生成虚拟形象视频时，对利用所述处理模型处理所述第二人像视频得到的人体特征数据中的第二面部特征数据进行校正，并基于包括校正后的所述第二面部特征数据的人体特征数据生成所述虚拟形象视频；其中，所述第二面部特征数据包括所述第二人像视频中人物面部的至少一项面部特征值，所述第一面部特征数据与所述第二面部特征数据包括的面部特征值的项目相同，校正后的所述第二面部特征数据的任一项面部特征值正相关于校正前的所述第二面部特征数据在该项目上的面部特征值与所述第一面部特征数据在该项目上的面部特征值之间的差值。

本申请实施例的至少一个方面提供了一种生成虚拟形象视频的装置，该装置包括：获取模块，用于获取第一人像视频和第二人像视频，所述第一人像视频与所述第二人像视频为同一拍摄视角下包含同一人物的面部的人像视频，所述第二人像视频为待生成虚拟形象视频的人像视频；第一处理模块，用于利用处理模型处理所述第一人像视频，以得到第一面部特征数据；其中，所述第一面部特征数据包括所述第一人像视频中人物面部的至少一项面部特征值，所述处理模型为用于基于人像视频生成包括面部特征数据的人体特征数据的机器视觉模型；第二处理模块，用于在基于所述第二人像视频生成虚拟形象视频时，对利用所述处理模型处理所述第二人像视频得到的人体特征数据中的第二面部特征数据进行校正，并基于包括校正后的所述第二面部特征数据的人体特征数据生成所述虚拟形象视频；其中，所述第二面部特征数据包括所述第二人像视频中人物面部的至少一项面部特征值，所述第一面部特征数据与所述第二面部特征数据包括的面部特征值的项目相同，校正后的所述第二面部特征数据的任一项面部特征值正相关于校正前的所述第二面部特征数据在该项目上的面部特征值与所述第一面部特征数据在该项目上的面部特征值之间的差值。

本申请实施例的至少一个方面提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器的可执行指令的存储器；其中，所述处理器用于执行所述可执行指令，以实现上述任意一种生成虚拟形象视频的方法。

本申请实施例的至少一个方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有处理器的可执行指令，所述可执行指令被配置为在被处理器执行时使所述处理器实现上述任意一种生成虚拟形象视频的方法。

本申请实施例中，在对待生成虚拟形象视频的第二人像视频进行处理来生成虚拟形象视频之前，先对同一拍摄角度下同一人物的面部的第一人像视频采用了同一处理模型进行处理，得到了作为基准的第一面部特征数据，而在对第二人像视频进行处理的过程中，使用了正相关于所得到的第二面部特征数据与第一面部特征数据之间的差值的数值来作为校正后的值来生成虚拟形象视频，由于校正后的第二面部特征数据中去除了第一面部特征数据这一基准的影响，因而更容易体现出第二人像视频中人物表情的细微变化，也能够帮助修正因拍摄角度而导致的面部特征数据偏小的问题，因而能够帮助改善改善生成的虚拟形象的面部表情与人物不一致的问题，有助于提升虚拟形象的呈现效果。

附图说明

图1是本申请实施例提供的一种生成虚拟形象视频的方法的应用场景示意图；

图2是本申请实施例提供的一种生成虚拟形象视频的方法的步骤流程示意图；

图3是本申请实施例提供的又一种生成虚拟形象视频的方法的步骤流程示意图；

图4是本申请实施例提供的一种生成虚拟形象视频的装置的结构框图；

图5是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种生成虚拟形象视频的方法的应用场景示意图。参见图1，在如图1所示的系统中，终端100与服务器200之间通过网络300连接，从而服务器200能够通过网络通信为终端100提供生成虚拟形象视频的服务。在一个示例中，终端100通过摄像头实时拍摄用户画面以作为待生成虚拟形象视频的人像视频S1通过网络300的连接发送给服务器200，而服务器200通过对接收到的人像视频S1执行生成虚拟形象视频的方法，生成相应的虚拟形象视频S2并发送给终端100，使得终端100能够在屏幕上实时显示包含用户的虚拟形象的画面。在其他示例中，服务器200进一步将生成的虚拟形象视频S2发送至除终端100以外的多个用户终端，以实现用户使用终端100来进行的基于虚拟形象的视频直播。

相关技术中，服务器200生成虚拟形象视频的过程主要包括利用机器视觉模型识别人体特征数据和利用人体特征数据驱动虚拟形象模型以生成包含虚拟形象的视频两个部分。其中，人体特征数据指的是指的是用于表征人体各个部位的位置、取向、姿态及其关系，从而用来确定虚拟形象的各个对应部位的位置、取向、姿态及其关系的数据（在一个示例中，人体特征数据由一组人体的特征点在三维空间中的位置构成；在其他示例中，人体特征数据包括人体的特征点在三维空间中的位置、人体部位的角度数据、人体部位的向量中的一个或多个，并可以不仅限于此）。以面部表情为例，当被拍摄者的眼睛睁大或闭上时，机器视觉模型输出的人体特征数据中代表眼睛睁大程度的数据项目的数值会发生变化，从而可以根据这一变化驱动虚拟形象模型中眼睛的睁大或闭上的动作，使得虚拟形象视频中的虚拟形象呈现出与被拍摄者一样的面部动作。但在实际应用中，经常会出现生成的虚拟形象的面部表情与人物不一致的问题。例如，被拍摄者在使用摄像头拍摄人像视频时，摄像头的高度和角度可能不是正对着被拍摄者的面部的，这就使得人像视频中被拍摄者的面部出现了变形，进而使得机器视觉模型识别出的面部特征数据也出现了偏差。以上述代表眼睛睁大程度的数据项目为例，当摄像头从被拍摄者面部的斜上方拍摄人像视频时，被拍摄者的面部被纵向压缩，机器视觉模型识别出来的眼睛睁大的程度的数据项目很可能相比于实际值偏小，这就出现了虚拟形象的眼睛睁大程度偏小，以及即便被拍摄者用力睁大眼睛也不能使虚拟形象将眼睛睁到最大的问题，成为虚拟形象的面部表情与人物不一致的原因之一。

图2是本申请实施例提供的一种生成虚拟形象视频的方法的步骤流程示意图。针对上述问题，本申请实施例的生成虚拟形象视频的方法提供了一种帮助改善生成的虚拟形象的面部表情与人物不一致的问题的可能方式。参见图2，该方法能够应用于任意一种具备足以执行该方法的电子设备上（例如由图1中的服务器200执行），并包括以下过程。

在步骤201中，获取第一人像视频和第二人像视频。其中，第一人像视频与第二人像视频为同一拍摄视角下包含同一人物的面部的人像视频，第二人像视频为待生成虚拟形象视频的人像视频。

在步骤202中，利用处理模型处理第一人像视频，以得到第一面部特征数据。其中，第一面部特征数据包括第一人像视频中人物面部的至少一项面部特征值，处理模型为用于基于人像视频生成包括面部特征数据的人体特征数据的机器视觉模型。

在步骤203中，在基于第二人像视频生成虚拟形象视频时，对利用处理模型处理第二人像视频得到的人体特征数据中的第二面部特征数据进行校正，并基于包括校正后的第二面部特征数据的人体特征数据生成虚拟形象视频。

其中，第二面部特征数据包括第二人像视频中人物面部的至少一项面部特征值，第一面部特征数据与第二面部特征数据包括的面部特征值的项目相同，校正后的第二面部特征数据的任一项面部特征值正相关于校正前的第二面部特征数据在该项目上的面部特征值与第一面部特征数据在该项目上的面部特征值之间的差值。

在一个示例中，服务器200实时接收终端100通过摄像头实时拍摄到的人像视频的视频流，并在正式开始生成对应的虚拟形象视频之前的一段视频流单独截取出来，作为上述第一人像视频来计算作为基准的第一面部特征数据。利用与第二人像视频相同的处理模型（机器视觉模型），对第一人像视频处理得到一组人体特征数据，并将其中至少一项预先指定的面部特征数据项目的面部特征值存储起来，用以在基于第二人像视频生成虚拟形象视频时对相应项目的面部特征数据进行校正。以预先指定的面部特征数据项目包括眼睛睁大程度值这一面部数据特征的项目为例，在进行校正时，先利用上述处理模型对第二人像视频处理得到包括眼睛睁大程度值Mx的人体特征数据，再对其进行校正，使得校正后的眼睛睁大程度值为正相关于（Mx-Nx）的数值（其中Nx为上述第一面部特征数据中的眼睛睁大程度值；由于正相关于（Mx-Nx）的数值的最大值和最小值可能发生变化，而所述校正可以包含数值范围归一化的处理）。在生成虚拟形象视频时，使用校正后的眼睛睁大程度值代替校正前的眼睛睁大程度值来驱动虚拟形象的模型并生成虚拟形象视频。如此，校正后的眼睛睁大程度值相比于校正前去除了Nx这一基准的影响，因而更容易体现出第二人像视频中眼睛睁大程度的细微变化，并且对于上述因拍摄角度造成面部变形的情况而言还能够帮助解决眼睛睁大程度值的最大数值无法达到的问题。

可以看出，本申请实施例中，在对待生成虚拟形象视频的第二人像视频进行处理来生成虚拟形象视频之前，先对同一拍摄角度下同一人物的面部的第一人像视频采用了同一处理模型进行处理，得到了作为基准的第一面部特征数据，而在对第二人像视频进行处理的过程中，使用了正相关于所得到的第二面部特征数据与第一面部特征数据之间的差值的数值来作为校正后的值来生成虚拟形象视频，由于校正后的第二面部特征数据中去除了第一面部特征数据这一基准的影响，因而更容易体现出第二人像视频中人物表情的细微变化，也能够帮助修正因拍摄角度而导致的面部特征数据偏小的问题，因而能够帮助改善改善生成的虚拟形象的面部表情与人物不一致的问题，有助于提升虚拟形象的呈现效果。

需要说明的是，本文所述的视频指的是包含至少一帧画面所组成的动态影像数据，上述虚拟形象视频、第一人像视频和第二人像视频中的每一个都可以是单帧视频或多帧视频，上述处理模型可以是以单帧视频作为输入的模型，也可以是多帧视频作为输入的模型，本申请实施例对此不做限制。

还需要说明的是，第一面部特征数据和第二面部特征数据中的数据项目可以例如是人体特征数据中全部与面部有关的特征数据（比如总项数为108项的足以描述人体整个面部的面部特征数据），或者包括人体特征数据中全部与眼部有关的特征数据、人体特征数据中全部与嘴部有关的特征数据、人体特征数据中与眼部尺寸有关的特征数据，和人体特征数据中全部与嘴部尺寸有关的特征数据中的至少一种。需要进行上述校正的数据项目可以依照应用需求预先配置，也可以由执行上述方法的设备依照预定的策略在预先配置好的多个数据项目集合之间进行选择。

在一种可能的实现方式示例中，所述第一面部特征数据和第二面部特征数据中每一项面部特征值均为不小于0且不大于1的数值，校正后的第二面部特征数据的任一项面部特征值Cx=((1/e^{-(Bx-Ax)/(1-Ax)})-0.5)/T，其中Bx为校正前的所述第二面部特征数据在该项目上的面部特征值，Ax为所述第一面部特征数据在该项目上的面部特征值，T为预定系数。在一个示例中，T为预先自0.15到0.30的范围内选定的固定数值；在又一示例中，T为预先自0.19到0.25的范围内选定的固定数值。在一种可能的实现方式示例中，上述Mx校正后的数值为((1/e^{-(Mx-Nx)/(1-Nx)})-0.5)/0.22；此外，当该式的计算结果大于1时，校正后的数值为1；当该式的计算结果小于0时，校正后的数值为0。上述表达式是对于数值介于0与1之间的面部特征值在校正的同时进行非线性优化表达式，经过实际测试，按照上述方式进行校正能够在修正虚拟形象面部表情一致性问题上取得很好的实际效果。

需要说明的是，上文举出了一种第一人像视频的获取方式示例：在连续拍摄得到的人像视频流中，将待生成虚拟形象视频的人像视频之前的预定时长的视频流确定为第一人像视频。而在其他示例中，第一人像视频既可以是在终端的图像、语音或视频引导下单独拍摄的人像视频，也可以是在连续拍摄的人像视频流中通过人脸识别截取的一段包含指定拍摄角度下的人物面部的视频，并可以在获取到的第一人像视频中检测不到人物的面部时重新获取第一人像视频以避免作为基准的第一面部特征数据出现错误。当然，获取第一和第二人像视频的方式可以不限于以上示例的方式。

图3是本申请实施例提供的又一种生成虚拟形象视频的方法的步骤流程示意图。参见图3，该方法包括以下步骤。

在步骤301中，获取第一人像视频和第二人像视频。其中，第一人像视频与第二人像视频为同一拍摄视角下包含同一人物的面部的人像视频，第二人像视频为待生成虚拟形象视频的人像视频。

在一个示例中，上述步骤301包括：服务器200向终端100发送表示指定骨骼姿态类型的引导画面和第一人像视频的采集指定，使得终端100在屏幕上显示文字“请直立面向镜头”的同时拍摄人像视频并发送给服务器200，服务器200接收到该人像视频后通过机器视觉模型识别该视频是否包含人物的面部且骨骼姿态类型为直立，若是则将该人像视频确定为上述第一人像视频进行存储，若否则重复上述步骤直至成功获取第一人像视频或者达到最大重复次数。

在步骤302中，利用处理模型处理第一人像视频，以得到第一面部特征数据和第一骨骼数据。其中，第一面部特征数据包括第一人像视频中人物面部的至少一项面部特征值，第一骨骼旋转数据包括第一人像视频中人物的骨骼的至少一项旋转量数值。

需要说明的是，骨骼旋转数据指的是描述人物的骨骼的位置、取向、状态及其关系的人体特征数据，其可以包括若干个父节点的骨骼旋转数据及每个父节点的若干个子节点的骨骼旋转数据（比如总项数为176项的、足以描述人物全部骨骼信息的骨骼旋转数据）。

在一个示例中，上述步骤302包括：确定第一人像视频中图像质量最高的一帧视频图像，并基于该帧视频图像前后若干帧图像对该帧视频图像进行优化，然后将优化后的视频图像输入至处理模型中，得到处理模型输出的一组包括第一面部特征数据和第一骨骼旋转数据的人体特征数据，并依照所选取的第一面部特征数据的数据项目和第一骨骼旋转数据的数据项目，从中确定出上述第一面部特征数据和第一骨骼旋转数据。

在步骤303中，获取待生成的虚拟形象视频中的虚拟形象模型在第一人像视频中的人物的骨骼姿态类型下的第二骨骼旋转数据。其中，第二骨骼旋转数据包括人物的骨骼的至少一项旋转量数值，第一骨骼旋转数据与第二骨骼旋转数据包括的旋转量数值的项目相同。

在一个示例中，服务器200在数据库中查找虚拟形象模型在直立骨骼姿态类型下的骨骼旋转数据，并按照上述第一骨骼旋转数据的数据项目从中确定出上述第二骨骼旋转数据。当然，如果没有引导用户在直立的骨骼姿态类型下完成第一人像视频的拍摄，服务器200可能需要先确定第一人像视频最接近的骨骼姿态类型，并在数据库中查找虚拟形象模型在该骨骼姿态类型下的骨骼旋转数据，以获取上述第二骨骼旋转数据。引导用户在指定的骨骼姿态类型下完成第一人像视频的拍摄更有利于提升后续计算的准确性和校正的有效程度。

在步骤304中，在基于第二人像视频生成虚拟形象视频时，对利用处理模型处理第二人像视频得到的人体特征数据中的第二面部特征数据和第三骨骼旋转数据分别进行校正，并基于包括校正后的第二面部特征数据和校正后的第三骨骼旋转数据的人体特征数据生成虚拟形象视频。

其中，第三骨骼旋转数据包括第二人像视频中人物的骨骼的至少一项旋转量数值，第一骨骼旋转数据与第三骨骼旋转数据包括的旋转量数值的项目相同，校正后的第三骨骼旋转数据中任一项旋转量数值Gx=Fx-(Ex-Dx)，其中Fx为校正前的第三骨骼旋转数据在该项目上的旋转量数值，Ex为第一骨骼旋转数据在该项目上的旋转量数值，Dx为第二骨骼旋转数据在该项目上的旋转量数值。

在一个示例中，上述步骤304包括：服务器200在生成第一帧的虚拟形象视频时，首先利用处理模型对第一帧的第二人像视频进行处理，以得到一组校正前的人体特征数据，然后通过上文任一种示例所描述的方法将指定项目的面部特征数据进行校正，并将选定项目的骨骼旋转数据校正为上述Fx-(Ex-Dx)，从而基于校正后的人体特征数据生成虚拟形象视频的第一帧；对于此后的每一帧，通过利用处理模型计算该帧与上一帧之间人体特征数据之间的变化量，基于该变化量驱动虚拟形象模型产生相应变化，并由此生成此后每一帧的虚拟形象视频。

可以看出，本实施例中除了对面部特征数据进行了上文所述的校正之外，还对选定项目的骨骼特征数据进行了校正，这样能够在虚拟形象模型与实际人体有显著差异的情形中帮助改善虚拟形象与视频中人物之间的一致性——例如，在人物体型比较瘦，而虚拟形象体型比较胖的时候，视频中人物的双手自然下垂时趋于垂直于地面的状态，但虚拟形象双手自然下垂时双手会略微向外展开，两者之间存在显著差异；此时若直接将视频中人物的骨骼旋转数据应用在虚拟形象模型上，那么双手的位置处容易发生穿模（模型实体间相互重叠）；而通过上述校正，虚拟形象在直立的骨骼姿态类型下的骨骼旋转数据与视频中的人物在直立的骨骼姿态类型下的骨骼旋转数据之间的差异得到了修正，使得视频中人物在直立的骨骼姿态类型（双手自然下垂时趋于垂直于地面）时虚拟形象视频中虚拟形象也是其自然的状态（双手会略微向外展开），使得虚拟形象与视频中人物之间的一致性得到了改善。

图4是本申请实施例提供的一种生成虚拟形象视频的装置的结构框图。参见图4，该装置包括：获取模块41，用于获取待生成虚拟形象视频的人像视频；确定模块42，用于通过识别所述人像视频的人像类型，确定与所述人像视频的人像类型对应的处理模型；其中，所述处理模型为用于基于所述人像视频生成人体特征数据的机器视觉模型，所述人体特征数据包括所述人像视频中的人体的多个特征点在三维空间中的位置数据；第一生成模块43，用于基于所述人像视频的开始时段，利用对应的所述处理模型确定虚拟形象的全身特征数据集合，以基于所述全身特征数据集合生成虚拟形象视频的开始时段的视频数据；第二生成模块44，用于对于所述开始时段以后的任意一帧人像视频，利用与当前帧的人像视频对应的所述处理模型，确定当前帧与上一帧之间所述人体特征数据的变化量，并基于叠加了所述变化量的所述全身特征数据集合生成虚拟形象视频的当前帧的视频数据。

可以看出，在对待生成虚拟形象视频的第二人像视频进行处理来生成虚拟形象视频之前，先对同一拍摄角度下同一人物的面部的第一人像视频采用了同一处理模型进行处理，得到了作为基准的第一面部特征数据，而在对第二人像视频进行处理的过程中，使用了正相关于所得到的第二面部特征数据与第一面部特征数据之间的差值的数值来作为校正后的值来生成虚拟形象视频，由于校正后的第二面部特征数据中去除了第一面部特征数据这一基准的影响，因而更容易体现出第二人像视频中人物表情的细微变化，也能够帮助修正因拍摄角度而导致的面部特征数据偏小的问题，因而能够帮助改善生成的虚拟形象的面部表情与人物不一致的问题，有助于提升虚拟形象的呈现效果。

本申请实施例提供的生成虚拟形象视频的装置，其实现过程与本申请实施例提供的生成虚拟形象视频的方法一致，所能达到的效果也与本申请实施例提供的生成虚拟形象视频的方法相同，在此不再赘述。

图5是本申请实施例提供的一种电子设备的结构框图。参见图5，该电子设备包括处理器51和用于存储该处理器51的可执行指令的存储器52；其中，该处理器51用于执行所述可执行指令，以实现上述任意一种的生成虚拟形象视频的方法。以上文所述的服务器200为例，本申请实施例的电子设备能够帮助改善生成的虚拟形象的面部表情与人物不一致的问题，有助于提升虚拟形象的呈现效果。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质为非易失性的存储介质，且该存储介质存储有处理器的可执行指令，该可执行指令被配置为在被处理器执行时使处理器实现上述任意一种的生成虚拟形象视频的方法。以上述存储器52为例，本申请实施例的计算机可读存储介质能够用来实现上述任意一种的生成虚拟形象视频的方法，因而能够帮助改善生成的虚拟形象的面部表情与人物不一致的问题，有助于提升虚拟形象的呈现效果。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种生成虚拟形象视频的方法，其特征在于，所述方法包括：

获取第一人像视频和第二人像视频，所述第一人像视频与所述第二人像视频为同一拍摄视角下包含同一人物的面部的人像视频，所述第二人像视频为待生成虚拟形象视频的人像视频；

利用处理模型处理所述第一人像视频，以得到第一面部特征数据；其中，所述第一面部特征数据包括所述第一人像视频中人物面部的至少一项面部特征值，所述处理模型为用于基于人像视频生成包括面部特征数据的人体特征数据的机器视觉模型；

在基于所述第二人像视频生成虚拟形象视频时，对利用所述处理模型处理所述第二人像视频得到的人体特征数据中的第二面部特征数据进行校正，并基于包括校正后的所述第二面部特征数据的人体特征数据生成所述虚拟形象视频；其中，所述第二面部特征数据包括所述第二人像视频中人物面部的至少一项面部特征值，所述第一面部特征数据与所述第二面部特征数据包括的面部特征值的项目相同，校正后的所述第二面部特征数据的任一项面部特征值正相关于校正前的所述第二面部特征数据在该项目上的面部特征值与所述第一面部特征数据在该项目上的面部特征值之间的差值。

2.根据权利要求1所述的方法，其特征在于，所述面部特征值均为不小于0且不大于1的数值，校正后的所述第二面部特征数据的任一项面部特征值Cx=((1/e^{-(Bx-Ax)/(1-Ax)})-0.5)/T，其中Bx为校正前的所述第二面部特征数据在该项目上的面部特征值，Ax为所述第一面部特征数据在该项目上的面部特征值，T为预定系数。

3.根据权利要求2所述的方法，其特征在于，T为预先自0.19到0.25的范围内选定的固定数值。

4.根据权利要求1所述的方法，其特征在于，所述获取第一人像视频和第二人像视频，包括：

在连续拍摄得到的人像视频流中，将待生成虚拟形象视频的人像视频之前的预定时长的视频流确定为所述第一人像视频。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

利用所述处理模型处理所述第一人像视频，以得到第一骨骼旋转数据；其中，所述第一骨骼旋转数据包括所述第一人像视频中人物的骨骼的至少一项旋转量数值；

获取待生成的虚拟形象视频中的虚拟形象模型在所述第一人像视频中的人物的骨骼姿态类型下的第二骨骼旋转数据；其中，所述第二骨骼旋转数据包括人物的骨骼的至少一项旋转量数值，所述第一骨骼旋转数据与所述第二骨骼旋转数据包括的旋转量数值的项目相同；

相对应地，所述在基于所述第二人像视频生成虚拟形象视频时，对利用所述处理模型处理所述第二人像视频得到的人体特征数据中的第二面部特征数据进行校正，并基于包括校正后的所述第二面部特征数据的人体特征数据生成所述虚拟形象视频，包括：

在基于所述第二人像视频生成虚拟形象视频时，对利用所述处理模型处理所述第二人像视频得到的人体特征数据中的第二面部特征数据和第三骨骼旋转数据分别进行校正，并基于包括校正后的所述第二面部特征数据和校正后的所述第三骨骼旋转数据的人体特征数据生成所述虚拟形象视频；

其中，所述第三骨骼旋转数据包括所述第二人像视频中人物的骨骼的至少一项旋转量数值，所述第一骨骼旋转数据与所述第三骨骼旋转数据包括的旋转量数值的项目相同，校正后的所述第三骨骼旋转数据中任一项旋转量数值Gx=Fx-(Ex-Dx)，其中Fx为校正前的所述第三骨骼旋转数据在该项目上的旋转量数值，Ex为所述第一骨骼旋转数据在该项目上的旋转量数值，Dx为所述第二骨骼旋转数据在该项目上的旋转量数值。

6.根据权利要求5所述的方法，其特征在于，所述获取第一人像视频和第二人像视频，包括：

向拍摄终端发送引导信息，以使所述拍摄终端指示被拍摄者以预先指定的所述骨骼姿态类型进行所述第一人像视频的拍摄。

7.根据权利要求1所述的方法，其特征在于，所述获取第一人像视频和第二人像视频，包括：

在获取得到的所述第一人像视频中进行人脸识别，并在检测不到人物的面部时重新获取所述第一人像视频。

8.一种生成虚拟形象视频的装置，其特征在于，所述装置包括：

获取模块，用于获取第一人像视频和第二人像视频，所述第一人像视频与所述第二人像视频为同一拍摄视角下包含同一人物的面部的人像视频，所述第二人像视频为待生成虚拟形象视频的人像视频；

第一处理模块，用于利用处理模型处理所述第一人像视频，以得到第一面部特征数据；其中，所述第一面部特征数据包括所述第一人像视频中人物面部的至少一项面部特征值，所述处理模型为用于基于人像视频生成包括面部特征数据的人体特征数据的机器视觉模型；

第二处理模块，用于在基于所述第二人像视频生成虚拟形象视频时，对利用所述处理模型处理所述第二人像视频得到的人体特征数据中的第二面部特征数据进行校正，并基于包括校正后的所述第二面部特征数据的人体特征数据生成所述虚拟形象视频；其中，所述第二面部特征数据包括所述第二人像视频中人物面部的至少一项面部特征值，所述第一面部特征数据与所述第二面部特征数据包括的面部特征值的项目相同，校正后的所述第二面部特征数据的任一项面部特征值正相关于校正前的所述第二面部特征数据在该项目上的面部特征值与所述第一面部特征数据在该项目上的面部特征值之间的差值。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器用于执行所述可执行指令，以实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有处理器的可执行指令，所述可执行指令被配置为在被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的方法。