CN110719415B

CN110719415B - 一种视频图像处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN110719415B
Application number: CN201910948424.3A
Authority: CN
Inventors: 戴立根; 黄展鹏; 韩蕊; 朱袁煊
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-03-15
Anticipated expiration: 2039-09-30
Also published as: CN114845065A; CN110719415A

Abstract

本申请实施例公开了一种视频图像处理方法、装置及计算机可读介质，其中方法包括：获取人脸队列和当前视频图像帧的人脸图像数据，所述人脸队列是基于所述当前视频图像帧之前的一帧或多帧视频图像帧得到的；基于所述当前视频图像帧的人脸图像数据更新所述人脸队列；基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象；基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染。通过本申请实施例，可以通过对人脸队列来存储视频图像帧中的人脸图像数据，可以存在多种不同的方式确定人脸队列中人脸图像数据对应的人脸对象为待渲染人脸对象，从而可以实现多种视频互动的娱乐模式。

Description

一种视频图像处理方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种视频图像处理方法、装置、电子设备及计算机可读介质。

背景技术

随着计算机技术的发展，智能终端的应用范围得到了广泛的扩展，例如可以通过智能终端听音乐、玩游戏、上网聊天、拍照或拍视频等。目前在采用智能终端进行拍摄视频时，不仅可以实现传统的视频效果，还可以使用应用程序来实现具有附加功能的拍摄效果。例如，给视频图像中的人脸添加一些特效。

目前对于视频图像添加的特效通常都是通过贴图的方式，直接将人脸替换为预存的图像(如明星或虚拟角色等)。然而通过这种方式制作出来的视频，形式单一，且不能真实的表现出视频图像中人脸图像的表情特征。

发明内容

本申请实施例提供一种视频图像处理方法，可以使用各种带有用户表情虚拟角色对用户人脸进行渲染。

第一方面，本申请实施例提供了一种视频图像处理方法，该方法包括：

获取人脸队列和当前视频图像帧的人脸图像数据，所述人脸队列是基于所述当前视频图像帧之前的一帧或多帧视频图像帧得到的；

基于所述当前视频图像帧的人脸图像数据更新所述人脸队列；

基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象；

基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染。

在一种可选的实施方式中，所述基于所述当前视频图像帧的人脸图像数据更新所述人脸队列，包括：

基于所述当前视频图像帧的人脸图像数据和所述人脸队列中的人脸图像数据，确定所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态；

根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列。

在一种可选的实施方式中，所述人脸状态包括人脸消失、首次出现、跟踪中；所述根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列，包括：

将所述人脸队列中对应于第一人脸对象的人脸图像数据删除，其中，所述第一人脸对象为人脸状态为人脸消失的人脸对象；

基于所述当前视频图像帧的人脸图像数据替换第二人脸对象在所述人脸队列中的人脸图像数据，其中，所述第二人脸对象为人脸状态为跟踪中的人脸对象；

将第三人脸对象的人脸图像数据添加到所述人脸队列的末尾位置，其中，所述第三人脸对象为人脸状态为首次出现的人脸对象。

在一种可选的实施方式中，在所述基于所述人脸队列和虚拟角色模型对所述待渲染人脸对象进行渲染之前，所述方法还包括：

在所述待渲染人脸对象的人脸状态为首次出现的情况下，更新所述虚拟角色模型。

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述方法还包括：

将所述人脸队列中第一个人脸图像数据对应的人脸对象作为第四人脸对象，获取所述第四人脸对象的表情参数；

基于所述第四人脸对象的表情参数得到所述第四人脸对象的至少一个表情，以及所述至少一个表情的表情系数；

确定所述至少一个表情中表情系数最大的表情为主表情；

在所述主表情为预设表情的情况下，更新所述人脸队列对应的虚拟角色模型。

确定所述至少一个表情中表情系数最大的表情为主表情；

在所述主表情为预设表情的情况下，再次更新所述人脸队列中人脸图像数据的排列顺序。

在一种可选的实施方式中，所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象，包括：

将所述更新后的人脸队列中所有人脸图像数据作为目标人脸图像数据，将所述当前视频图像帧中对应于所述目标人脸图像数据的人脸对象作为所述待渲染人脸对象。

将所述更新后的人脸队列中第一个人脸图像数据作为目标人脸图像数据，将所述当前视频图像帧中对应于所述目标人脸图像数据的人脸对象作为所述待渲染人脸对象。

在一种可选的实施方式中，所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染，包括：

基于所述人脸队列计算所述待渲染人脸对象的表情参数；

基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像；

基于所述虚拟角色图像对所述待渲染人脸对象进行渲染。

在一种可选的实施方式中，所述基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像，包括：

基于所述表情参数得到所述虚拟角色模型的驱动参数；

基于所述驱动参数驱动所述虚拟角色模型，得到虚拟角色图像。

在一种可选的实施方式中，所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染，包括：

将所述虚拟角色图片显示在所述当前视频图像帧中的预设区域。

使用虚拟角色图片覆盖所述当前视频图像帧中的所述待渲染人脸对象。

第二方面，本申请实施例提供了一种视频图像处理装置，包括通信单元和处理单元，其中，

所述处理单元用于：通过所述通信单元获取人脸队列和当前视频图像帧的人脸图像数据，所述人脸队列是基于所述当前视频图像帧之前的一帧或多帧视频图像帧得到的；

以及基于所述当前视频图像帧的人脸图像数据更新所述人脸队列；

以及基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象；

以及基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染。

在一种可选的实施方式中，在所述基于所述当前视频图像帧的人脸图像数据更新所述人脸队列方面，所述处理单元具体用于：

在一种可选的实施方式中，所述人脸状态包括人脸消失、首次出现、跟踪中；在所述根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列方面，所述处理单元具体用于：

在一种可选的实施方式中，在所述基于所述人脸队列和虚拟角色模型对所述待渲染人脸对象进行渲染之前，所述处理单元还用于：

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述处理单元还用于：

确定所述至少一个表情中表情系数最大的表情为主表情；

在所述主表情为预设表情的情况下，更新所述的人脸队列对应的虚拟角色模型。

确定所述至少一个表情中表情系数最大的表情为主表情；

在所述主表情为预设表情的情况下，更新所述人脸队列中人脸图像数据的排列顺序。

在一种可选的实施方式中，在所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象方面，所述处理单元具体用于：

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染方面，所述处理单元具体用于：

基于所述人脸队列计算所述待渲染人脸对象的表情参数；

基于所述虚拟角色图像对所述待渲染人脸对象进行渲染。

在一种可选的实施方式中，在所述基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像方面，所述处理单元具体用于：

基于所述表情参数得到所述虚拟角色模型的驱动参数；

在一种可选的实施方式中，在所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染方面，所述处理单元具体用于：

第三方面，提供了一种视频图像处理装置，包括：包括处理器、存储器；所述处理器被配置为支持所述装置执行上述第一方面及其任一种可能的实现方式的方法中相应的功能。存储器用于与处理器耦合，其保存所述装置必要的程序(指令)和数据。可选的，所述装置还可以包括输入/输出接口，用于支持所述装置与其他装置之间的通信。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

在本申请实施例中，通过获取人脸队列和当前视频图像帧的人脸图像数据；然后，基于所述当前视频图像帧的人脸图像数据更新所述人脸队列；接着，基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象；最后，基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染。本申请实施例可以通过对人脸队列来存储视频图像帧中的人脸图像数据，可以存在多种不同的方式确定人脸队列中人脸图像数据对应的人脸对象为待渲染人脸对象，从而可以实现多种视频互动的娱乐模式。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种视频图像处理系统的示意图；

图2是本申请实施例提供的一种视频图像处理方法的流程示意图；

图3本申请实施例提供的一种电子设备的结构示意图；

图4本申请实施例提供的一种图像处理装置的功能单元组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。根据本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，图1为一个视频图像处理系统100的示意图，该视频图像处理系统100包括图像获取装置110、图像处理装置120，所述图像获取装置110连接所述图像处理装置120，图像获取装置110用于获取视频图像数据并发给图像处理装置120进行处理，图像处理装置120用于对图像数据进行处理并输出处理结果，该跟踪系统100可以包括集成式单体设备或者多设备，为方便描述，本申请将跟踪系统100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

请参阅图2，图2是本申请实施例提供了一种跟踪方法的流程示意图，应用于如图1所示的电子设备，如图所示，本跟踪方法包括：

201：获取人脸队列和当前视频图像帧的人脸图像数据，所述人脸队列是基于所述当前视频图像帧之前的一帧或多帧视频图像帧得到的。

在本申请实施例中，所述视频图像帧可以是正在拍摄的实时视频图像帧，也可以是已经拍摄好之后存储在本地的视频图像帧。所述当前视频图形帧为正在被处理的视频图像帧。例如，所述视频图像帧具体可以是电视、网络直播、者视频录制或者虚拟聊天过程中的视频图像帧。本申请不限制视频图像帧的具体表现形式。

所述人脸队列用于存储人脸图像数据，所述人脸图像数据可以是基于对视频图象帧中的人脸图像进行人脸检测后得到的关于人脸的数据，之后可以将得到的人脸图像数据存储于所述人脸队列中。所述人脸队列至少可以存储一个人脸对象的人脸图像数据。可以理解的是所述人脸队列中的人脸图像数据是有序排列的，即可以按照排列位置顺序给存储在所述人脸队列中的人脸图像数据进行编号。每一个编号对应一个人脸对象的人脸图像数据。其中，所述人脸对象是指视频图像帧中的人脸图像。可以理解的是，所述编号是针对人脸队列的排序位置而言的，对于人脸队列中，固定的位置的编号是不变的，然而当人脸队列中的人脸图像数据的排序变化后，每个人脸图像数据的编号也跟着会变。

另外，所述人脸队列可以是基于所述当前视频图像帧之前的一帧或多帧视频图像帧得到的，即所述人脸队列中可以是存储的当前视频图像帧的前一帧中的人脸图像数据，也可以是存储的当前视频图像帧的前多帧中的人脸图像数据。

所述人脸图像数据可以包括但不限于人脸图像的关键点信息、人脸图像的标识(例如算法分配的id)等信息。

可选的，所述当前视频图像帧的人脸图像数据的获取方法可以是：在获取到上述当前视频图像帧之后，对当前视频图像帧中的人脸图像进行检测，以得到上述当前视频图像帧中各个人脸图像的关键点信息。所述当前视频图像帧中的人脸图像进行检测可以是将当前视频图像帧输入到用于提取人脸关键点的神经网络，然后根据神经网络的输出信息，获得该当前视频图像帧中人脸图像的人脸关键点。本申请不限制获得视频图像帧中人脸图像的人脸信息的具体实施方式。

202：基于所述当前视频图像帧的人脸图像数据更新所述人脸队列。

在一种可选的实施方式中，所述基于所述当前视频图像帧的人脸图像数据更新所述人脸队列，包括：基于所述当前视频图像帧的人脸图像数据和所述人脸队列中的人脸图像数据，确定所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态；根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列。

在本申请实施例中，所述人脸状态可以包括：人脸消失、首次出现以及跟踪中。

其中，所述人脸消失是针对人脸队列而言，即在更新所述人脸队列之前，基于所述当前视频图像帧的人脸图像数据和所述人脸队列中的人脸图像数据，判断出所述人脸队列中的第一人脸图像数据对应的第一人脸对象，在所述当前视频图像帧中不存在时，则所述第一人脸对象的人脸状态为人脸消失。

所述首次出现则是针对所述当前视频图像帧而言的，即与所述人脸消失相反；在更新所述人脸队列之前，基于所述当前视频图像帧的人脸图像数据和所述人脸队列中的人脸图像数据，判断出所述当前视频图像帧中的第二人脸对象，在所述人脸队列中不存在与其对应的人脸图像数据时，则所述第二人脸对象的人脸状态为首次出现。

所述跟踪中，则是在更新所述人脸队列之前，基于所述当前视频图像帧的人脸图像数据和所述人脸队列中的人脸图像数据，判断出所述当前视频图像帧中的第三人脸对象，在所述人脸队列中存在与其对应的人脸图像数据时，则所述第三人脸对象的人脸状态为跟踪中。即，若所述人脸队列中存储的是前一帧视频图像帧中的人脸图像数据时，所述跟踪中表示在前后帧中均存在的人脸对象的人脸对象的人脸状态。

在一种可选的实施方式中，在确定所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态之后，所述根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列，具体可以包括：将所述人脸队列中对应于第一人脸对象的人脸图像数据删除；基于所述当前视频图像帧的人脸图像数据替换第二人脸对象在所述人脸队列中的人脸图像数据；将第三人脸对象的人脸图像数据添加到所述人脸队列的末尾位置。

可以理解的是，当删除所述人脸队列中所述第一人脸对象的人脸图像数后，排在所述第一人脸对象的人脸图像数据之前的人脸图像数据的排列顺序保持不变，排在所述第一人脸对象的人脸图像数据之后的人脸图像数据的排列顺序都在原来的基础上向前移动一位。例如，人脸队列中有四个图像数据A、B、C、D，其排列顺序依次为1、2、3、4，若C为所述第一人脸对象(人脸状态为消失的人脸对象)的人脸图像数据，A1、B1、D1为表示所述第二人脸对象(人脸状态为跟踪中的人脸对象)在上述当前视频图像帧中的人脸图像数据，E表示所述当前视频图象帧中存在所述第三人脸对象(即人脸状态为首次出现的人脸对象)的人脸图像数据；则在更新所述人脸队列之后，人脸队列中的图像数据为A1、B1、D1、E，排列顺序依次为1、2、3、4。

203：基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象。

在本申请实施例中，所述待渲染人脸对象是指在所述当前视频图像帧的人脸图像中需要被渲染的人脸图像；该待渲染人脸对象可以是所述当前视频图像帧中的一个人脸图像，也可以是所述当前视频图像帧中的多个人脸图像。具体可以根据用户的输入来确定所述当前视频图像帧中的哪一个或多个人脸图像作为上述待渲染人脸对象，也可以是系统自动根据具体的场景或其他条件来确定上述当前视频图像帧中的哪一个或多个人脸图像作为上述待渲染人脸对象。

例如，在虚拟多人聊天视频时，则系统自动将视频图像帧中出现的所有人脸图像确定为上述待渲染人脸对象。又例如，在录制趣味视频时，可以根据用户输入的趣味模式所对应的规则来确定每一帧视频图像帧中的哪一个人脸图像作为上述待渲染人脸对象。

在具体实现中，可以将更新后的人脸队列中的所有的人脸图像数据对应的人脸对象都确定为所述带渲染人脸对象，也可以指定所述人脸队列中排列在某一个或几个位置的人脸图像数据对应的人脸对象为所述带渲染人脸对象，例如指定与人脸队列中排在第一的人脸图像数据对应的人脸对象为所述待渲染人脸对象。还可以是按照某种规则来确定人脸队列中的人脸图像数据对应的人脸对象为所述带渲染人脸对象。例如，依次循环指定所述人脸队列中排在第一和排在最后位置的人脸图像数据的人脸对象为所述带渲染人脸对象。在本申请实例中，不限定所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象的具体实施方式。

在一种可选的实施方式中，所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象，具体可以包括：将所述更新后的人脸队列中所有人脸图像数据作为目标人脸图像数据，将所述当前视频图像帧中对应于所述目标人脸图像数据的人脸对象作为所述待渲染人脸对象。

在另一种可选的实施方式中，所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象，包括：将所述更新后的人脸队列中第一个人脸图像数据作为目标人脸图像数据，将所述当前视频图像帧中对应于所述目标人脸图像数据的人脸对象作为所述待渲染人脸对象。

其中，所述人脸队列中第一个人脸图像数据是指排列在所述人脸队列中第一位置的人脸图像数据，即排列编号为1的人脸图像数据。

204：基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染。

在本申请实施例中，可以事先存储多种构建好的虚拟角色模型，例如所述虚拟角色模型可以是以动画人物的头像为模型构建的头像模型，也可以是以动物的头像为模型构建的头像模型，如猫咪、狗狗等动物的头像，还可以是其他物体，如樱桃、苹果等水果构建的头像模型。当需要使用这些虚拟角色模型时，只需要根据驱动参数来驱动这些模型，便可以得到带有表情的虚拟角色图片。例如以皱眉的表情参数驱动一个苹果虚拟角色模型，就可以得到一个具有皱眉表情的苹果图片。

在一种可选的实施方式中，所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染，包括：基于所述人脸队列计算所述待渲染人脸对象的表情参数；基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像；基于所述虚拟角色图像对所述待渲染人脸对象进行渲染。

在一种可选的实施方式中，本申请可以先利用人脸关键点获得该用户的人脸形状参数，然后，再利用该用户的人脸形状参数对主成分分析(Principal ComponentsAnalysis，PCA)先验模型进行实例化，从而形成人脸形状融合模型。

其中，上述人脸形状参数用于描述人脸形状。人脸形状参数可以具体为包含有多个值的向量，如包含50个值的向量等。

作为一种可选的实施方式，本申请中的人脸形状参数可以用于实例化人脸先验模型，从而形成视频帧中的人脸形状融合模型(如BlendShape模型，形状融合变形模型)。人脸先验模型可以具体为PCA先验模型。

作为一种可选的实施方式，对于视频中的一视频帧而言，本申请通常可以利用人脸形状参数对PCA先验模型进行实例化，从而形成该人脸形状融合模型，并利用该用户的人脸表情参数对人脸形状融合模型进行实例化，从而形成具有一定表情的3维人脸模型。本申请应尽量使该3维人脸模型中的相应顶点坐标的2维投影与该视频帧中的人脸关键点的坐标的误差最小。上述相应顶点通常为3维人脸模型中的人脸关键点所在的顶点。也就是说，基于视频帧中的用户的表情所形成的基于PCA先验模型的3维人脸模型中的相应顶点坐标与该视频中的人脸关键点的坐标之间的关系，可以通过下述公式(1)所示的非线性方程来表示：

在上述公式(1)中，R表示视频帧中用户的人脸的旋转，T表示视频帧中用户的人脸的平移，R和T一起表示视频帧中用户的人脸位姿M；X表示3维人脸模型中的顶点坐标，X^(j)表示第j个人脸关键点所对应的3维人脸模型中的顶点坐标；u表示视频帧中的人脸关键点的2维坐标(u',v)；u^(j)表示视频帧中的第j个人脸关键点的2维坐标(u'(j),v(j))；π(*)表示*的2维投影坐标；S(*)表示将向量*重塑(reshape)为一矩阵，如重塑为3×n的矩阵，n为3维人脸模型中的网格(mesh)的顶点数量；Cr表示PCA先验模型的张量；表示该用户的人脸形状参数W_id的转置；表示视频帧中该用户的人脸表情参数W_exp的转置；

表示Cr的第2维与W_id的转置相乘，且Cr的第3维与W_exp的转置相乘；ldmk表示人脸关键点(landmark)集合，如上述100个人脸关键点集合。

作为一种可选的实施方式，可以通过根上述获得的人脸关键点对公式(1)进行求解，求解后不仅可以获得该用户的人脸形状参数W_id，还可以获得第一个视频帧中该用户的人脸位姿M以及人脸表情参数W_exp。本申请实施例中不限定根据人脸信息得到人脸对象的表情参的具体实施方式。

在一种可选的实施方式中，所述基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像，具体可以包括：基于所述表情参数得到所述虚拟角色模型的驱动参数；基于所述驱动参数驱动所述虚拟角色模型，得到虚拟角色图像。

其中，所述驱动参数是指所述虚拟角色模型的各个参数对应的数值。基于所述驱动参数驱动所述虚拟角色模型，得到虚拟角色图像，即是将具体的驱动参数输入到所述虚拟角色模型，然后得到一个带有表情的虚拟角色图像。

在一种可选的实施方式中，所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染，包括：将所述虚拟角色图片显示在所述当前视频图像帧中的预设区域。

其中，所述预设区域是指，在显示界面的固定区域，例如显示界面的中间的正方形区域。

在另一种可选的实施方式中，所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染，包括：使用虚拟角色图片覆盖所述当前视频图像帧中的所述待渲染人脸对象。

在本申请实施例中，可以基于更新后的人脸队列，组合不同的待渲染人脸对象的而确定方式(例如，确定人脸队列中的全部人脸为上述待渲染人脸对象或确定人脸队列中第一个人脸图像数据对应的人脸对象为待渲染人脸对象)以及各种渲染方式(例如，将所述虚拟角色图片显示在所述当前视频图像帧中的预设区域，或者使用虚拟角色图片覆盖所述当前视频图像帧中的所述待渲染人脸对象等)，得到多种视频互动的娱乐模式。

下面通过举例来说明不同的视频互动的娱乐模式。

第一种，采用确定人脸队列中的全部人脸为上述待渲染人脸对象的待渲染人脸对象确定方式，结合确定人脸队列中的全部人脸为上述待渲染人脸对象的渲染方式，并指定虚拟角色模型。这种组合方式，可以得到一个在显示界面的固定区域显示带有视频中人脸图像表情的虚拟角色图片，且图片的表情跟随视频中人脸的表情变化而变化。即，将当前视频图像帧中人脸对象的人脸表情迁移到显示界面的固定区域中。

第二种，采用确定人脸队列中第一个人脸图像数据对应的人脸对象为待渲染人脸对象的待渲染人脸对象确定方式，结合使用虚拟角色图片覆盖所述当前视频图像帧中的所述待渲染人脸对象的渲染方式。

对于第二种组合方式，由于在更新所述人脸队列时，若有出现人脸消失或首次出现的人脸状态的情况下，更新所述人脸队列后，人脸队列中的人脸图像数据的排序也会被相应的更新。相对于前后两个视频图像帧来说，即更新前的人脸队列和当前视频图像帧(或更新后的人脸队列)，若在当前时刻，更新前的人脸队列中的第一个人脸图像数据对应的人脸对象a的人脸状态是人脸消失，则在更新后人脸队列中的第一个人脸图像数据则变成了排在所述第一人脸对象之后的第二人脸对象b，即更新前后，待渲染人脸对象有a变为了b，触发条件是之前的待渲染人脸对象在当前视频图像帧中消失。这种互动模式的效果就相当于虚拟角色人脸传递。

第三种，采用确定人脸队列中的全部人脸为上述待渲染人脸对象的待渲染人脸对象确定方式，结合使用虚拟角色图片覆盖所述当前视频图像帧中的所述待渲染人脸对象的渲染方式。可以实现虚拟表情跟随的效果。另外，当视频中有多个人脸对象时，则可以实现多人的表情迁移。

可以理解的是，对于前述本申请实施例提出的方案中，还存在其他组合方式，在此不再赘述。

在本申请实施例中，还可以通过更新虚拟角色模型来增加更多的视频互动模式。

在一种可选的实施方式中，在所述基于所述人脸队列和虚拟角色模型对所述待渲染人脸对象进行渲染之前，所述方法还包括：在所述待渲染人脸对象的人脸状态为首次出现的情况下，更新所述虚拟角色模型。

在具体实现中，若将在所述待渲染人脸对象的人脸状态为首次出现的情况下，更新所述虚拟角色模型的实施方式添加到前述的第二种或第三种组合方式中，视频中只有一人脸对象时，则可以实现人脸切换的效果，且其触发条件为前一帧的待渲染人脸对象人脸消失，或者为当前视频图像帧中的待渲染人脸对象的人脸状态为首次出现。

若将在所述待渲染人脸对象的人脸状态为首次出现的情况下，更新所述虚拟角色模型的实施方式添加到前述的第三种组合方式中，视频中有多个人脸对象时，则可以实现多人的人脸切换的效果，且其触发条件为前一帧的待渲染人脸对象人脸消失，或者为当前视频图像帧中的待渲染人脸对象的人脸状态为首次出现。

在本申请实施例中，还可以通过增加触发更新虚拟角色模型的条件，或者增加触发更新所述人脸队列中的排列顺序，来增加更多的视频互动模式。

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述方法还包括：将所述人脸队列中第一个人脸图像数据对应的人脸对象作为第四人脸对象，获取所述第四人脸对象的表情参数；基于所述第四人脸对象的表情参数得到所述第四人脸对象的至少一个表情，以及所述至少一个表情的表情系数；确定所述至少一个表情中表情系数最大的表情为主表情；在所述主表情为预设表情的情况下，更新所述人脸队列对应的虚拟角色模型。

其中，所述表情系数是指，通过表情参数得到多个表情后，每个表情的占比或概率。

在具体实现中，可以通过上述主表情变化来触发虚拟角色模型的更新。进一步可以将该实现方式与前述的各种实现方式结合，从而组合出更多的视频互动模式。例如，可以组合出多种通过表情变化来触发人脸切换的视频互动模式。具体的组合方式，在此不再赘述。

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述方法还包括：将所述人脸队列中第一个人脸图像数据对应的人脸对象作为第四人脸对象，获取所述第四人脸对象的表情参数；基于所述第四人脸对象的表情参数得到所述第四人脸对象的至少一个表情，以及所述至少一个表情的表情系数；确定所述至少一个表情中表情系数最大的表情为主表情；在所述主表情为预设表情的情况下，再次更新所述人脸队列中人脸图像数据的排列顺序。

在具体实现中，可以通过上述主表情变化来触发更新所述人脸队列中的排列顺序。进一步可以将该实现方式与前述的各种实现方式结合，从而组合出更多的视频互动模式。例如，可以组合出多种通过表情变化来触发人脸传递的视频互动模式。具体的组合方式，在此不再赘述。

可以看出，在本申请实施例中，在更新后的人脸队列的基础上，提出了多种确定待渲染人脸对象的方式、多种使用虚拟角色图片渲染的方式、多种更新虚拟角色模型的方式以及多种触发更新虚拟角色模型的条件或者增加触发更新所述人脸队列中的排列顺序的方式，通过将这些实现方式进行组合可以得到多种视频互动的娱乐模式，有利于提升用户的体验。

与上述图2所示的实施例一致的，请参阅图3，图3是本申请实施例提供的一种电子设备300的结构示意图，如图所示，所述电子设备300包括应用处理器310、存储器320、通信接口330以及一个或多个程序321，其中，所述一个或多个程序321被存储在上述存储器320中，并且被配置由上述应用处理器310执行，所述一个或多个程序321包括用于执行以下步骤的指令；

本申请实施例可以通过对人脸队列来存储视频图像帧中的人脸图像数据，可以存在多种不同的方式确定人脸队列中人脸图像数据对应的人脸对象为待渲染人脸对象，从而可以实现多种视频互动的娱乐模式。

在一种可选的实施方式中，在所述基于所述当前视频图像帧的人脸图像数据更新所述人脸队列方面，所述程序中的指令具体用于执行以下操作：

在一种可选的实施方式中，所述人脸状态包括人脸消失、首次出现、跟踪中；在所述根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列方面，所述程序中的指令具体用于执行以下操作：

在一种可选的实施方式中，在所述基于所述人脸队列和虚拟角色模型对所述待渲染人脸对象进行渲染之前，所述程序中的指令还用于执行以下操作：

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述程序中的指令还用于执行以下操作：

确定所述至少一个表情中表情系数最大的表情为主表情；

在一种可选的实施方式中，在所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象方面，所述程序中的指令具体用于执行以下操作：

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染方面，所述程序中的指令具体用于执行以下操作：

基于所述人脸队列计算所述待渲染人脸对象的表情参数；

基于所述虚拟角色图像对所述待渲染人脸对象进行渲染。

在一种可选的实施方式中，在所述基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像方面，所述程序中的指令具体用于执行以下操作：

基于所述表情参数得到所述虚拟角色模型的驱动参数；

在一种可选的实施方式中，在所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染方面，所述程序中的指令具体用于执行以下操作：

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图4是本申请实施例中所涉及的跟踪装置400的功能单元组成框图。该跟踪装置400应用于电子设备，所述电子设备包括处理单元401和通信单元402，其中，

所述处理单元401用于：通过所述通信单元402获取人脸队列和当前视频图像帧的人脸图像数据，所述人脸队列是基于所述当前视频图像帧之前的一帧或多帧视频图像帧得到的；

在一种可选的实施方式中，在所述基于所述当前视频图像帧的人脸图像数据更新所述人脸队列方面，所述处理单元401具体用于：

在一种可选的实施方式中，所述人脸状态包括人脸消失、首次出现、跟踪中；在所述根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列方面，所述处理单元401具体用于：

在一种可选的实施方式中，在所述基于所述人脸队列和虚拟角色模型对所述待渲染人脸对象进行渲染之前，所述处理单元401还用于：

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述处理单元401还用于：

确定所述至少一个表情中表情系数最大的表情为主表情；

在一种可选的实施方式中，在所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象方面，所述处理单元401具体用于：

在一种可选的实施方式中，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染方面，所述处理单元401具体用于：

基于所述人脸队列计算所述待渲染人脸对象的表情参数；

基于所述虚拟角色图像对所述待渲染人脸对象进行渲染。

在一种可选的实施方式中，在所述基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像方面，所述处理单元401具体用于：

基于所述表情参数得到所述虚拟角色模型的驱动参数；

在一种可选的实施方式中，在所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染方面，所述处理单元401具体用于：

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频图像处理方法，其特征在于，包括：

根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列；

基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染；

在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述方法还包括：

基于所述第四人脸对象的表情参数得到所述第四人脸对象的至少一个表情，以及所述至少一个表情的表情系数，所述表情系数包括表情的占比或概率；

确定所述至少一个表情中表情系数最大的表情为主表情；

在所述主表情为预设表情的情况下，切换所述人脸队列对应的虚拟角色模型。

2.根据权利要求1所述的方法，其特征在于，所述人脸状态包括人脸消失、首次出现、跟踪中；所述根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列，包括：

3.根据权利要求2所述的方法，其特征在于，在所述基于所述人脸队列和虚拟角色模型对所述待渲染人脸对象进行渲染之前，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染，包括：

基于所述人脸队列计算所述待渲染人脸对象的表情参数；

基于所述虚拟角色图像对所述待渲染人脸对象进行渲染。

8.根据权利要求7所述的方法，其特征在于，所述基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像，包括：

基于所述表情参数得到所述虚拟角色模型的驱动参数；

9.根据权利要求7或8所述的方法，其特征在于，所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染，包括：

10.根据权利要求7或8所述的方法，其特征在于，所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染，包括：

11.一种视频图像处理装置，其特征在于，包括通信单元和处理单元，其中，

以及基于所述当前视频图像帧的人脸图像数据和所述人脸队列中的人脸图像数据，确定所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态；根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列；

以及基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染；

在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述处理单元还用于：

确定所述至少一个表情中表情系数最大的表情为主表情；

在所述主表情为预设表情的情况下，切换所述的人脸队列对应的虚拟角色模型。

12.根据权利要求11所述的装置，其特征在于，所述人脸状态包括人脸消失、首次出现、跟踪中；在所述根据所述当前视频图像帧中的人脸对象的人脸状态和所述人脸队列的人脸图像数据对应的人脸对象的人脸状态，更新所述人脸队列方面，所述处理单元具体用于：

13.根据权利要求12所述的装置，其特征在于，在所述基于所述人脸队列和虚拟角色模型对所述待渲染人脸对象进行渲染之前，所述处理单元还用于：

14.根据权利要求12所述的装置，其特征在于，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染之前，所述处理单元还用于：

15.根据权利要求11-14任一项所述的装置，其特征在于，在所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象方面，所述处理单元具体用于：

16.根据权利要求15所述的装置，其特征在于，在所述基于更新后的人脸队列确定所述当前视频图像帧中的待渲染人脸对象方面，所述处理单元具体用于：

17.根据权利要求16所述的装置，其特征在于，在所述基于虚拟角色模型对所述当前视频图像帧中的所述待渲染人脸对象进行渲染方面，所述处理单元具体用于：

基于所述人脸队列计算所述待渲染人脸对象的表情参数；

基于所述虚拟角色图像对所述待渲染人脸对象进行渲染。

18.根据权利要求17所述的装置，其特征在于，在所述基于所述表情参数驱动所述虚拟角色模型，得到虚拟角色图像方面，所述处理单元具体用于：

基于所述表情参数得到所述虚拟角色模型的驱动参数；

19.根据权利要求17或18所述的装置，其特征在于，在所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染方面，所述处理单元具体用于：

20.根据权利要求17或18所述的装置，其特征在于，在所述基于所述虚拟角色图像对所述待渲染人脸对象进行渲染方面，所述处理单元具体用于：

21.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至10任一项所述的方法。

22.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至10任一项所述的方法。