CN118351221A

CN118351221A - 一种实时驱动人脸图像合成动画的方法

Info

Publication number: CN118351221A
Application number: CN202311287846.3A
Authority: CN
Inventors: 李毅; 陈子安; 陈慧娴; 吴桐; 黄瑜芳
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-07-16

Abstract

本发明提供一种实时驱动人脸图像合成动画的方法，包括获取人脸源图像和驱动目标图像，并基于预设的人脸关键点检测网络，得到两个人脸关键点的坐标集合，且进一步利用图像边界约束条件进行调整，得到相应约束调整后的两个人脸关键点的坐标集合；基于约束调整后的两个人脸关键点的坐标集合，并采用Delaunay三角剖分算法，构建出源面部三角网格和目标面部三角网格，且待确定出源面部网格与目标面部网格之间的稀疏对齐关系之后，运用仿射空间变换算法，将人脸源图像的结构纹理融入驱动目标图像中，以生成动画序列。实施本发明，能解决现有人脸图像合成动画方法所存在的缺陷，实现了稳定高效的关键点检测与动画驱动。

Description

一种实时驱动人脸图像合成动画的方法

技术领域

本发明涉及计算机图像处理技术领域，尤其涉及一种实时驱动人脸图像合成动画的方法。

背景技术

人脸驱动的动画合成与渲染是计算机视觉与图形学交叉领域长期积累的重要研究方向,其目标是通过检测和跟踪人脸画面中的语义特征,驱动虚拟角色或图像生成逼真的表情变形和动画效果，为数字娱乐内容的制作提供基础支撑。随着移动互联网和元宇宙概念的出现，这项技术的应用场景正在不断拓展，包括电影特效、游戏开发、虚拟主播、数字人和虚拟社交等，都可以利用人脸驱动技术来实现精细化的人机交互和沉浸式的用户体验。

随着统计建模与机器学习理论的进展，一些基于活动外观模型和条件随机场的算法被提出，实现了初步的自动化跟踪与驱动。最近十几年，得益于卷积神经网络模型的不断优化和可用训练数据的增加，人脸识别与关键点检测等基础技术获得了飞速的进步。这彻底改变了人脸驱动动画技术的格局，强大的深度模型可以从海量数据中学习面部表情的高级语义特征表示，实现对复杂场景下特征的鲁棒检测和精确定位。由此可见，立足于更为精确稳定的关键点跟踪，现代方法可以高质量合成出细微表情变化，并实现跨身份的实时高保真迁移。

然而，现有的人脸图像合成动画方法存在以下不足之处：(1)在应对复杂的人脸姿态变化时，受到一定的限制，使得面部边缘区域三角形可能会超出图像范围，导致出现黑色伪影问题；(2)相关算法的鲁棒性相对较弱，需要特定环境的支持才能获得良好的实现效果；(3)对于复杂背景与遮挡的人脸图像的特征提取具有很大难度；(4)在捕捉细微表情变化方面存在一定的限制，一旦快速和极端的面部动作可能会导致关键点跟踪失效，从而影响驱动动画的效果。

发明内容

本发明实施例所要解决的技术问题在于，提供一种实时驱动人脸图像合成动画的方法，能解决现有人脸图像合成动画方法所存在的缺陷，实现了稳定高效的关键点检测与动画驱动。

为了解决上述技术问题，本发明实施例提供了一种实时驱动人脸图像合成动画的方法，所述方法包括以下步骤：

S1、获取人脸源图像和驱动目标图像，并基于预设的人脸关键点检测网络，得到所述人脸源图像及所述驱动目标图像分别对应的两个人脸关键点的坐标集合，且进一步对所得到的两个人脸关键点的坐标集合进行图像边界约束调整，以得到相应约束调整后的两个人脸关键点的坐标集合；

S2、基于所得的相应约束调整后的两个人脸关键点的坐标集合，采用Delaunay三角剖分算法，分别构建出对应所述人脸源图像的源面部三角网格和对应所述驱动目标图像的目标面部三角网格，且待确定出所述源面部网格与所述目标面部网格之间的稀疏对齐关系之后，进一步运用仿射空间变换算法，将所述人脸源图像的结构纹理融入所述驱动目标图像中，以生成动画序列。

其中，所述步骤S1具体包括：

S11、获取人脸源图像和驱动目标图像，并将所获取的人脸源图像和驱动目标图像均输入到预设的人脸关键点检测网络中，得到所述人脸源图像和所述驱动目标图像分别对应的两个人脸关键点的坐标集合；

S12、定义图像边界值作为图像边界约束条件，且通过判断所述人脸源图像和所述驱动目标图像分别对应的两个人脸关键点的坐标集合中每一个人脸关键点坐标的数值是否位于图像边界值的范围内，以筛选得到约束调整后的两个人脸关键点的坐标集合；其中，若某一个人脸关键点坐标的数值超出图像边界值的范围，则丢弃；若某一个人脸关键点坐标的数值位于图像边界值的范围内，则存入相应约束调整后的人脸关键点的坐标集合中；

S13、在所述人脸源图像和所述驱动目标图像上，基于所得的相应约束调整后的两个人脸关键点的坐标集合分别进行更新。

其中，所述人脸关键点检测网络是使用Mediapipe预训练的人脸检测卷积神经网络模型构建而成的；所述人脸关键点检测网络通过多维特征点定位技术，对所述人脸源图像和所述驱动目标图像的人脸面部轮廓线上的鼻子、眼睛、眉毛、嘴唇进行3D关键点估计。

其中，所述步骤S2具体包括：

S21、根据人脸的先验结构知识，构建一组三角形面片的顶点索引列表；其中，每个三角形面片对应着所述人脸源图像和所述驱动目标图像中的一个面部表情特征区域，且每个三角形面片均包含有多个人脸关键点坐标；

S22、基于所构建的三角形面片的顶点索引列表，得到对应所述人脸源图像的源面部三角网格和对应所述驱动目标图像的目标面部三角网格；

S23、在所得的相应约束调整后的两个人脸关键点的坐标集合中，确定出所述人脸源图像中源面部三角网格对应的各三角形面片顶点坐标，以及所述驱动目标图像中目标面部三角网格对应的各三角形面片顶点坐标，并根据预设的仿射变换矩阵，以得到将所述人脸源图像的各三角形面片映射到所述驱动目标图像对应的三角形面片上进行图像融合的图像矩阵；其中，所述仿射变换矩阵为所述源面部网格与所述目标面部网格之间所建立的稀疏对齐关系；

S24、将所述驱动目标图像与所得到的图像矩阵进行融合，以生成动画序列。

其中，所述源面部三角网格及所述目标源面部三角网格均进行边界像素扩展处理。

其中，在所述步骤S23和所述步骤S24之间，还包括以下步骤：

定义掩码图像，且将所述驱动目标图像上映射得到的各三角形面片与所述掩码图像进行位运算之后，更新所述图像矩阵并输出。

其中，所述方法进一步包括：

将所更新的图像矩阵转换为灰度图像，并利用图像阈值分割方法，生成非绘制区域掩码；

计算出所述人脸源图像和所述驱动目标图像在水平和垂直方向的梯度信息，并结合预设权重，计算出混合梯度；

根据所生成的非绘制区域掩码和所计算的混合梯度，通过泊松图像融合方程进行融合，以重构所述图像矩阵的灰度值，将重构灰度值的图像矩阵输出。

其中，通过公式converted_image＝ConvertToGray(converted_image)，将所更新的图像矩阵converted_image转换为灰度图像；

通过公式mask_{non_face}＝ThresholdSegmentation(I,D)，生成非绘制区域掩码mask_{non_face}；

通过公式计算出人脸源图像I和驱动目标图像D在水平和垂直方向的梯度信息；

通过公式G_blend＝BlendGradient(G_I,G_D,weight)，计算出混合梯度G_blend；

所述泊松图像融合方程的表达式为PoissonBlend(I,D,G_blend,mask_{non_face})；

其中，通过计算出每个人脸关键点的坐标；其中，(x_k,y_k)为人脸关键点的原始坐标。

实施本发明实施例，具有如下有益效果：

1、本发明采用Mediapipe预训练的人脸检测卷积神经网络模型构建而成的人脸关键点检测网络，建立了一个高密度的人脸关键点模板，能够捕捉面部表情运动的微妙肌肉变化，并在复杂光照条件下实现对所有关键点的稳定精准检测；

2、本发明引入了图像边界约束处理，以消除人脸边界区域关键点检测定位时的偏差影响，有效避免关键点超出图像范围，从而保障后续动画算法的稳定性；

3、本发明采用Delaunay三角剖分算法，以关键点为基础构建紧密适配面部形状变化的细分三角网格(网格顶点即为关键点)，通过变形贴合来实现对面部表情运动的精确还原，为固定人脸网格拓扑结构并避免面片数量及连接关系变化提供了有力支撑；

4、本发明为更准确锚定面部主体区域，设置边界像素扩展模式来扩展图像范围，避免三角剖分产生视觉伪影，并采用混合梯度泊松图像融合方程重构目标像素灰度，实现源内容平滑过渡，从而集成提高了基于人脸先验的图像精确对齐与混合效果，提升了人脸驱动动画的鲁棒性与逼真度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的一种实时驱动人脸图像合成动画的方法的流程图；

图2为本发明实施例提供的一种实时驱动人脸图像合成动画的方法中人脸关键点检测以及约束更新之后的应用场景图；

图3为本发明实施例提供的一种实时驱动人脸图像合成动画的方法中去除黑色伪影的应用场景图；

图4为本发明实施例提供的一种实时驱动人脸图像合成动画的方法中基于人脸关键点计算策略所形成的中心点优化效果图；

图5为本发明实施例提供的一种实时驱动人脸图像合成动画的方法的逻辑过程图；

图6为本发明实施例提供的一种实时驱动人脸图像合成动画的方法中动画序列的关键帧捕捉过程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提出的一种实时驱动人脸图像合成动画的方法，所述方法包括以下步骤：

步骤S1、获取人脸源图像和驱动目标图像，并基于预设的人脸关键点检测网络，得到所述人脸源图像及所述驱动目标图像分别对应的两个人脸关键点的坐标集合，且进一步对所得到的两个人脸关键点的坐标集合进行图像边界约束调整，以得到相应约束调整后的两个人脸关键点的坐标集合；

具体过程为，利用单目RGB摄像头采集的人脸源图像I和驱动目标图像D，并使用Mediapipe预训练的人脸检测卷积神经网络模型构建人脸关键点检测网络；其中，该人脸关键点检测网络通过多维特征点定位技术，对人脸源图像I和驱动目标图像D的人脸面部轮廓线上的鼻子、眼睛、眉毛、嘴唇等关键点进行三维估计，即人脸关键点包括但不限于鼻子、眼睛、眉毛、嘴唇等。

步骤S11，将人脸源图像I和驱动目标图像D输入到该人脸关键点检测网络中，如通过公式L_I＝Detect_Face_Landmarks(I),L_D＝Detect_Face_Landmarks(D)进行计算，得到分别对应人脸源图像I和驱动目标图像D的两个人脸关键点坐标集合；其中，这两个人脸关键点坐标集合通过三维表示P_I和P_D。

步骤S12，定义图像边界值作为图像边界约束条件，并在完成上述人脸关键点的三维估计后，进行坐标约束调整，以筛选得到约束调整后的两个人脸关键点的坐标集合，从而能够保障后续动画算法的稳定性，并提高关键点质量。如，通过公式L_I′＝Constraint_Adjustment(L_I,B,I),L_D′＝Constraint_Adjustment(L_D,B,D)来完成。此时，通过判断每个人脸关键点坐标的数值是否位于图像边界值的范围内，若超出该图像边界值的范围，则丢弃；若位于该图像边界值的范围内，则存入相应约束调整后的人脸关键点的坐标集合中。

步骤S13，根据约束调整后的人脸关键点坐标，更新其在输入图像空间中的精确映射关系，实现人脸关键点检测与坐标边界约束，得到人脸特征关键点坐标：M＝Update_Mapping(L_I′,L_D′)，即在人脸源图像I和驱动目标图像D上，基于约束调整后的两个人脸关键点的坐标集合分别进行更新。例如，人脸关键点检测以及约束更新之后的应用场景如图2所示。

步骤S2、基于所得的相应约束调整后的两个人脸关键点的坐标集合，采用Delaunay三角剖分算法，分别构建出对应所述人脸源图像的源面部三角网格和对应所述驱动目标图像的目标面部三角网格，且待确定出所述源面部网格与所述目标面部网格之间的稀疏对齐关系之后，进一步运用仿射空间变换算法，将所述人脸源图像的结构纹理融入所述驱动目标图像中，以生成动画序列。

具体过程为，步骤S21，在约束调整后的两个人脸关键点的坐标集合中，获取每个人脸关键点的坐标后，根据人脸的先验结构知识，构建出一组三角形面片的顶点索引列表Vertices。其中，每个三角形面片对应着所述人脸源图像和所述驱动目标图像中的一个面部表情特征区域，且每个三角形面片均包含有多个人脸关键点坐标。

例如，设三角形面片为T，表示为其中每个三角形面片T对应着人脸源图像I和驱动目标图像D中的一个面部表情特征区域。为了更加精确裁取三角形面片区域，可以计算每个三角形的最小外接矩形，并提取包含该三角形的图像块。

步骤S22，基于所构建的三角形面片的顶点索引列表，得到对应人脸源图像I和驱动目标图像D的源面部三角网格和目标面部三角网格。

步骤S23、在所得的相应约束调整后的两个人脸关键点的坐标集合中，确定出人脸源图像I中源面部三角网格对应的各三角形面片顶点坐标，以及驱动目标图像D中目标面部三角网格对应的各三角形面片顶点坐标，并根据预设的仿射变换矩阵，以得到将人脸源图像I的各三角形面片映射到驱动目标图像D对应的三角形面片上进行图像融合的图像矩阵converted_image；其中，该仿射变换矩阵为源面部网格与目标面部网格之间所建立的稀疏对齐关系；应当说明的是，图像矩阵converted_image作为累积图像融合结果图像矩阵，初始化为全零灰度图像。

例如，先获取在人脸源图像I和驱动目标图像D中各面部三角网格对应每个三角形面片T的三角形顶点坐标和随后，通过仿射变换矩阵将人脸源图像I的各面部三角网格形状变换并准确映射到驱动目标图像D的对应面部三角网格内。

步骤S24、将驱动目标图像D与所得到的图像矩阵converted_image进行融合，以生成动画序列。

在本发明实施例中，为了将变换后的人脸源图像I的三角形无缝地融合到驱动目标图像D中，利用掩码图像M进行操作。此时，掩码图像M表示了人脸源图像中三角形区域的遮罩，通过将变换后的三角形区域与掩码图像进行位运算，提取有效三角形区域，并将其更新到图像矩阵M的对应位置，即在步骤S23和步骤S24之间，还包括步骤：定义掩码图像M，且将驱动目标图像D上映射得到的各三角形面片与掩码图像M进行位运算之后，更新图像矩阵converted_image并输出。

在本发明实施例中，为了解决可能出现的边界伪影问题，考虑复制边缘像素的边界处理模式，并采取了有效的图像边界扩展策略，以确保所有三角形面片完全位于有效像素范围内，即源面部三角网格及目标源面部三角网格均进行边界像素扩展处理。当然，在在人脸源图像I和驱动目标图像D也可以进行边界像素扩展处理。例如，去除黑色伪影的应用场景如图3所示。

具体而言，设人脸源图像I的像素值表示为I(x,y)，其中x∈[1,W]表示图像的水平坐标，y∈[1,H]表示图像的垂直坐标。将人脸源图像I扩展后的像素值表示为I′(x′,y′)，其中x′∈[1,W+2P]表示扩展后图像的水平坐标，y′∈[1,H+2P]表示扩展后图像的垂直坐标。通过这样的边界处理过程，在进行图像处理或融合时，通过复制边界像素的方式，将图像边界像素扩展到有效像素范围内，从而避免由于图像边界导致的处理异常或伪影问题。

在本发明实施例中，为了实现源内容平滑过渡到目标图像，可以对图像矩阵converted_image的像素灰度进行重构，起到无缝嵌入以及保留特征的作用，可以有效解决在复杂背景或者存在遮挡的人脸图像中仅靠简单贴图无法达到好的驱动动画效果的问题。

因此，图像矩阵的像素灰度重构可执行以下步骤来实现，具体为：首先，将所更新图像矩阵converted_image转换为灰度图像，并利用图像阈值分割方法，生成非绘制区域掩码；例如，通过公式converted_image＝ConvertToGray(converted_image)，将图像矩阵converted_image转换为灰度图像；通过公式mask_{non_face}＝ThresholdSegmentation(I,D)，生成非绘制区域掩码mask_{non_face}

其次，计算出人脸源图像I和驱动目标图像D在水平和垂直方向的梯度信息，并结合预设权重，计算出混合梯度；例如，通过公式计算出人脸源图像I和驱动目标图像D在水平和垂直方向的梯度信息；通过公式G_blend＝BlendGradient(G_I,G_D,weight)，计算出混合梯度G_blend。

最后，根据所生成的非绘制区域掩码mask_{non_face}和所计算的混合梯度G_blend，通过泊松图像融合方程为PoissonBlend(I,D,G_blend,mask_{non_face})进行融合，以重构该图像矩阵converted_image的灰度值，将重构灰度值的图像矩阵converted_image输出。

应当说明的是，在融合过程中，还可以需要选定人脸区域的中心点作为锚定位置。为此，提出一种基于人脸关键点计算策略：其中(x_k,y_k)。这种方法可以更精确定位人脸区域，因为关键点集合充分描述了面部轮廓，并考虑了面部不对称的情况。例如，基于人脸关键点计算策略所形成的中心点优化效果，如图4所示。

传统基于边界框信息计算的中心点方法为：这种方法中，x和y分别表示人脸区域的矩形左上角的横纵坐标，w和h分别表示矩形的宽度和高度。计算中心点时，直接将矩形左上角和右下角的坐标相加，再除以2，得到的坐标为矩形中心的位置。

然而，这种传统方法存在两个问题：(1)边界框无法准确代表人脸轮廓：由于人脸的形状可能不是完全规则的矩形，使用矩形边界框可能无法精确地表示人脸的实际轮廓，导致中心点的位置不够准确。(2)直接相加求平均无法考虑面部不对称：由于人脸的两侧可能存在不对称的情况，简单地将矩形左上角和右下角的坐标相加求平均，不能很好地考虑面部不对称造成的影响。

相比之下，上述所提出的基于人脸关键点计算的方法更精确地定位人脸区域，具有以下优点：

(1)关键点集合充分描述面部轮廓：通过使用人脸关键点集合，我们能更好地描述人脸的实际轮廓，从而更准确地计算人脸区域的中心点位置。

(2)取最大最小值考虑面部不对称：通过取关键点集合中横纵坐标的最大最小值，我们能够更好地考虑面部不对称的情况，从而得到更精确的中心点位置。

最后，通过定义adjust_gamma函数实现了一种基于查找表的图像伽马校正技术。该技术将输入图像和自定义伽马值，计算伽马值的倒数后构建出查找表，该查找表针对每个像素灰度值预计算出经伽马变换后的新像素值，并最后使用OpenCV的LUT查找表映射函数，根据构建的查找表调整输入图像的像素映射关系，以达到改变图像对比度和整体视觉效果的目的。应用伽马校正的图像亮度映射调整，增强融合图像的整体视觉对比度和层次感，使图像混合效果更佳。以上过程可以用如下公式表示：adjusted_image＝AdjustGamma(seamless_clone,gamma)

综上所述，本发明通过多种处理技术的融合运用，在保证精确对齐的同时，实现了图像之间的过渡自然流畅，达到高质量的混合合成fusion效果。

如图5所示，为本发明实施例中的一种实时驱动人脸图像合成动画的方法的逻辑过程图。此时，采用了人脸关键点检测网络，建立了一个高密度的人脸关键点模板，其中包含468个特征点，能够捕捉面部表情运动的微妙肌肉变化，并在复杂光照条件下实现对所有468个关键点的稳定精准检测。在获取人脸关键点坐标后，本算法引入了图像边界约束处理，以消除人脸边界区域关键点检测定位时的偏差影响，有效避免关键点超出图像范围，从而保障后续动画算法的稳定性。针对面部解剖位置信息，该算法采用Delaunay三角剖分算法，以关键点为基础构建紧密适配面部形状变化的细分三角网格。这些网格顶点即为关键点，通过变形贴合来实现对面部表情运动的精确还原。为固定人脸网格拓扑结构并避免面片数量及连接关系变化，算法引入了Mediapipe的freezeset参数。通过建立源面部网格和目标面部网格之间的稀疏对齐关系，并运用仿射空间变换算法，该算法成功实现对目标人脸表情的实时驱动，生成高质量的动画序列。

可以理解的是，如图6(图片使用已得到授权)所示，对于最终动画序列的生成，可以通过以下步骤来实现，具体为：初始化视频捕获对象，开始读取默认摄像头获取实时帧流，并创建可调节大小的显示窗口，在循环中对读取的帧进行水平翻转后，调用人脸驱动效果生成函数处理当前帧并展示结果，完成了从摄像头捕获帧并实时显示人脸驱动滤镜效果的流程。

实施本发明实施例，具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

本发明公开的技术方案中涉及的图片、照片均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗，已得到授权。

Claims

1.一种实时驱动人脸图像合成动画的方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的实时驱动人脸图像合成动画的方法，其特征在于，所述步骤S1具体包括：

3.如权利要求2所述的实时驱动人脸图像合成动画的方法，其特征在于，所述人脸关键点检测网络是使用Mediapipe预训练的人脸检测卷积神经网络模型构建而成的；所述人脸关键点检测网络通过多维特征点定位技术，对所述人脸源图像和所述驱动目标图像的人脸面部轮廓线上的鼻子、眼睛、眉毛、嘴唇进行3D关键点估计。

4.如权利要求1所述的实时驱动人脸图像合成动画的方法，其特征在于，所述步骤S2具体包括：

5.如权利要求4所述的实时驱动人脸图像合成动画的方法，其特征在于，所述源面部三角网格及所述目标源面部三角网格均进行边界像素扩展处理。

6.如权利要求4所述的实时驱动人脸图像合成动画的方法，其特征在于，在所述步骤S23和所述步骤S24之间，还包括以下步骤：

7.如权利要求6所述的实时驱动人脸图像合成动画的方法，其特征在于，所述方法进一步包括：

根据所生成的非绘制区域掩码和所计算的混合梯度，通过泊松图像融合方程进行融合，以重构所述图像矩阵的灰度值，并将重构灰度值的图像矩阵输出。

8.如权利要求7所述的实时驱动人脸图像合成动画的方法，其特征在于，通过公式converted_image＝ConvertToGray(converted_image)，将所更新的图像矩阵converted_image转换为灰度图像；

所述泊松图像融合方程的表达式为PoissonBlend(I,D,G_blend,mask_{non_face})。

9.如权利要求1所述的实时驱动人脸图像合成动画的方法，其特征在于，通过计算出每个人脸关键点的坐标；其中，(x_k,y_k)为人脸关键点的原始坐标。