CN115861536A - 一种优化人脸驱动参数的方法及电子设备 - Google Patents
一种优化人脸驱动参数的方法及电子设备 Download PDFInfo
- Publication number
- CN115861536A CN115861536A CN202211543406.5A CN202211543406A CN115861536A CN 115861536 A CN115861536 A CN 115861536A CN 202211543406 A CN202211543406 A CN 202211543406A CN 115861536 A CN115861536 A CN 115861536A
- Authority
- CN
- China
- Prior art keywords
- target
- initial
- target object
- head model
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请涉及三维重建技术领域,提供一种优化人脸驱动参数的方法及电子设备,应用于远程三维通信系统,在远程三维交互前,将目标对象的初始人脸图像中识别的性别和年龄作为先验知识,加载对应的皱纹信息,将皱纹信息加入初始参数化头部模型中,增加面部皱纹细节描述,提升人脸的重建精度;在远程三维交互过程中,用皱纹信息,优化用于根据目标对象的当前面部表情对初始参数化头部模型进行驱动的参数,使得目标对象的各个表情基包含皱纹的描述特征,实现通过增加皱纹的方式,进一步提高面部表情的驱动精度,从而更好的表现人脸表情驱动的细节精度,提高人脸表情表达的真实性。
Description
技术领域
本申请涉及三维重建技术领域,提供一种优化人脸驱动参数的方法及电子设备。
背景技术
三维数字人是远程三维通信系统呈现的基础,通过将交互双方的三维数字人放置在同一虚拟环境中,从而实现面对面的沉浸式交互方式。在人与人交互过程中,通过一个人的脸部特征,可以获得其性别、年龄、肤色等基础属性信息,且通过人脸丰富的姿势和表情变化,可以知晓其情绪变化。因此,人脸重建作为远程三维通信系统中人体重建的最重要的部分之一。
在远程三维通信系统中,为保证交互的流畅性,一般采用驱动参数化头部模型运动的方式完成人脸的三维重建,该重建方式在人脸大幅度运动的情况下有较好的重建效果,例如张嘴、抬眉、微笑等动作,以及头部旋转、平移等刚性运动的情况下。然而,由于参数化头部模型的驱动参数中忽略了人脸上的细节信息,例如微笑时脸颊的法令纹和眼旁的眼角纹、以及抬眉毛时的抬头纹等,导致重建的人脸三维模型的精细程度较低,使得远程三维通信过程中交互双方不能很好的理解对方的表情,降低了沉浸式体验。
发明内容
本申请实施例提供了一种优化人脸驱动参数的方法及电子设备,用于提高三维数字人面部表情的驱动精度。
一方面,本申请实施例提供一种优化人脸驱动参数的方法,应用于远程三维通信系统,所述方法包括:
在远程三维交互前,获取目标对象的初始人脸图像,从所述初始人脸图像中提取初始人脸关键点以及识别出所述目标对象的性别和年龄;
根据所述目标对象的性别和年龄,加载对应的皱纹信息;
根据所述皱纹信息,获得标准参数化头部模型;
根据所述初始人脸关键点和所述标准参数化头部模型,确定所述目标对象的初始参数化头部模型;
在远程三维交互过程中,获取目标对象的目标人脸图像,从所述目标人脸图像中提取目标人脸关键点;
根据所述初始参数化头部模型和所述目标人脸关键点,确定目标驱动参数;
根据所述皱纹信息优化所述目标驱动参数,以使渲染显示终端根据优化后的目标驱动参数驱动预先存储的所述初始参数化头部模型运动,得到所述目标对象的目标参数化头部模型。
另一方面,本申请实施例提供一种电子设备,应用于远程三维通信系统,包括处理器、存储器和通信接口,所述存储器、所述通信接口和所述处理器通过总线连接;
所述存储器存储有计算机程序,所述处理器根据所述计算机程序,执行以下操作:
在远程三维交互前,获取目标对象的初始人脸图像,从所述初始人脸图像中提取初始人脸关键点以及识别出所述目标对象的性别和年龄;
根据所述目标对象的性别和年龄,加载对应的皱纹信息;
根据所述皱纹信息,获得标准参数化头部模型;
根据所述初始人脸关键点和所述标准参数化头部模型,确定所述目标对象的初始参数化头部模型;
在远程三维交互过程中,获取目标对象的目标人脸图像,从所述目标人脸图像中提取目标人脸关键点;
根据所述初始参数化头部模型和所述目标人脸关键点,确定目标驱动参数;
根据所述皱纹信息优化所述目标驱动参数,并通过所述通信接口,将优化后的目标驱动参数发送给渲染显示终端,以使所述渲染显示终端根据优化后的目标驱动参数驱动预先存储的所述初始参数化头部模型运动,得到所述目标对象的目标参数化头部模型。
另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机设备执行本申请实施例提供的优化人脸驱动参数的方法步骤。
本申请实施例提供的优化人脸驱动参数的方法及电子设备,应用于远程三维通信系统,在远程三维交互前,将目标对象的初始人脸图像中识别的性别和年龄作为先验知识,加载对应的皱纹信息,将皱纹信息加入初始参数化头部模型中,增加面部皱纹细节描述,提升人脸的重建精度;在远程三维交互过程中,用皱纹信息,优化用于根据目标对象的当前面部表情对初始参数化头部模型进行驱动的参数,使得目标对象的各个表情基包含皱纹的描述特征,实现通过增加皱纹的方式,进一步提高面部表情的驱动精度,从而更好的表现重建人脸的细节精度,提高人脸重建的真实性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供一种远程三维交互系统的架构图;
图2为本申请实施例提供另一种远程三维交互系统的架构图;
图3为本申请实施例提供的一种驱动参数的优化方式示意图;
图4为本申请实施例提供的另一种驱动参数的优化方式示意图;
图5为本申请实施例提供的远程三维交互前皱纹信息加入方式示意图;
图6为本申请实施例提供的远程三维交互过程中皱纹信息加入方式示意图;
图7为本申请实施例提供的优化人脸驱动参数的方法流程图;
图8为本申请实施例提供的人脸皱纹类型示意图;
图9为本申请实施例提供的常见的人脸皱纹示意图;
图10为本申请实施例提供的电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
研究发现,对于人类来说,情感表露=7%的言词+38%的声音+55%的脸部表情,由此可见人脸表情的重要性。并且,人脸的表情动作虽然只有43块表情肌肉来驱动,但可以表达上万种表情,是心理学、艺术、哲学等各领域的重要研究对象。
人脸作为远程三维通信系统中呈现的三维数字人情感表露的重要部分,其精细程度直接影响远程三维交互体验。
目前,重建的人脸三维模型主要分为过程式参数模型、生理结构模型和数据驱动参数模型三种。其中:
过程式参数模型主要通过人脸构造参数与人脸动画参数来描述人脸外观和形状的变化,影响最大的是MPEG-4人脸动画标准。该标准通过静态参数和动态参数来表示不同个体和不同表情的人脸形状变化。但该模型仅通过简单的表面几何形状模拟人脸运动,真实感较差,缺乏生理角度的运动机制考虑。
生理结构模型通过参考人脸解剖结构、模拟人脸生理结构来构造骨骼、肌肉的约束,最著名的是人脸动作编码系统(Facial Action Coding System,FACS)。FACS将面部表情分解为46个基本动作单元,每个动作单元代表一组肌肉的收缩或松弛,已被用于各种人脸动画研究中。然而,受限于解剖学精度和模型计算的复杂度,生理结构模型需要大量的计算和交互,不适用于实时的人脸动画。
数据驱动参数模型提供了一种紧凑、简便的人脸表示方法,该方法考虑到不同个体间面部虽然存在细微差异,但大体变化趋势和变化过程基本相似的,因此使用已有的人脸数据构建参数化头部模型,然后通过不同的参数来生成形状、表情、外观各异的人脸。
远程三维通信过程中,虚拟现实设备上实时的高精度、高效率模型驱动和渲染显示效果,会直接影响用户的沉浸式体验。为保证用户面对面的沉浸体验,实时高效、高精度的人脸重建成为三维数字人重建的核心要素之一。而高精度的人脸三维模型往往意味着比较大的数据量,这会与虚拟现实设备的实时渲染显示存在冲突。
由于数据驱动参数模型通过输入少量的驱动参数,如表情参数、姿态参数、形状参数等,便可得到个性化的人脸,结合本地预先存储的纹理参数,来生成高精度的人脸。该重建方法能够更好的平衡模型精度和实时通信间的冲突,因此,数据驱动参数模型成为远程三维通信系统中最为常用的重建方式。
目前,在使用数据驱动参数模型方式重建数字人的人脸时,主要存在以下问题:
一、数据采集问题
远程三维通信过程中,可能存在遮挡、光照、纹理、快速运动模糊或单视角受限等各类人脸数据采集问题,导致采集的人脸数据不完整,这样,在驱动参数化头部模型时,驱动参数无法得到精确计算,容易造成重建精度低或延迟问题。
二、重建精度问题
在有限的少量数据输入情况下,对驱动算法有较高的需求,驱动算法的执行效率、输出精度直接影虚拟现实设备上呈现的显示效果。
目前,人脸重建过程中,采用驱动参数驱动参数化头部模型的方式重建人脸时,在人脸大幅度运动的情况下有较好的重建效果,例如张嘴、抬眉、微笑等动作,以及头部旋转、平移等刚性运动的情况下。然而,由于驱动参数忽略了人脸上的细节信息,例如微笑时脸颊的法令纹和眼旁的眼角纹、以及抬眉毛时的抬头纹等,导致重建的人脸三维模型的精细程度较低,使得远程三维通信过程中交互双方不能很好的理解对方的表情,降低了沉浸式体验。
相关技术为了提高采用数据驱动模型方式重建的人脸的细节精度,一种方案是在采集的RGB图像的基础上,增加了深度数据的采集,从而提供更高质量的驱动参数,但深度数据的采集,增加了采集设备的成本,对采集的RGB图像的质量要求也较高;另一种方案是利用表情基进行线性组合来驱动面部,但该方法中表情基无法表达皱纹等细节信息;还有一种方案是通过局部细节回归器来表达皱纹信息,但并没有考虑性别、年龄为皱纹所带来的特殊性。
考虑到人脸重建的重建算力、重建精度和数据传输时延等对用户的沉浸式体验具有重要影响,而人脸上的皱纹细节恰恰能够令重建人脸更具表现力,从而帮助交互双方能够更好的理解对方表情。因此,在对重建精度要求较高的远程三维通讯系统中,皱纹细节是必不可少的。
通常的,皱纹与人的年龄、性别等存在直接的相关性。
在年龄层面,皱纹是随着年龄的增长在生理组织和环境因素共同作用下形成的结果,皱纹的数量和深度与年龄成线性的正比关系。其中,内在的组织器官衰老因素在皱纹形成过程中表现出尤为突出,例如真皮表皮连接处平坦情况的变化、真皮表皮萎缩、胶原和网脉碱的减少和成纤维细胞的缺失等。随着年龄增大,人脸表面的皱纹会逐渐增多,对应模型的人脸细节也应增加。
在性别层面,男女皱纹会存在区别。研究显示,男性口周皮肤组织内皮脂腺、汗腺、脉管及组织间的连结成分数量较女性多。尽管男女皮肤中毛发滤泡数量没有明显区别,但每个毛发滤泡对应的皮脂腺平均数量男性较女性多很多,因此,女性表现出更多且更深的口周皱纹;并且,女性的皮肤相对于男性皮肤包含较少的皮肤附属器,导致面部存在几种可以区别的深皱纹,最为多见的为线性皱纹,包括但不限于额纹、眼角鱼尾纹、鼻唇沟皱褶、口周纹。这也解释了纵行排列的口周纹女性多见于男性的情况。
鉴于此,本申请实施例提供一种优化人脸驱动参数的方法及设备,将识别的性别、年龄作为人脸的先验知识,在初始重建和实时驱动过程中,基于性别和年龄与皱纹的映射关系,为相应的数字人加载匹配的皱纹信息,从而用皱纹优化参数化头部模型的驱动参数,从而提高基于参数化头部模型重建的人脸的精度和真实性,进而提升用户的沉浸式体验。
下面结合附图详细描述本申请的实施例。
远程三维通讯系统核心涉及实时三维重建技术、三维数据(如形状、运动和材质数据)的编解码及传输技术、沉浸式VR/AR渲染显示技术等。其中,用于驱动参数化头部模型的参数的传输对渲染显示终端用户的沉浸式体验有重要影响。
参见图1,为本申请实施例提供的远程三维通信系统的架构图,该系统包括采集终端100、传输端200、渲染显示终端300。
采集终端100主要用于基于采集的图像进行三维重建,包括采集相机101和图形工作站102。其中,采集相机101可以为普通的RGB相机,也可以为RGBD相机,用于采集图像数据,图像工作站1 02用于从图像数据中提取人脸的驱动参数和纹理参数,并用图像数据中识别出的性别和年龄作为先验知识,优化参数化头部模型的驱动参数,将优化后的驱动参数和纹理参数上传到传输端200。其中,优化后的驱动参数和纹理参数是分开传输的。
传输端200接收到采集终端1 00发送的驱动参数和纹理参数后进行编解码,然后传输给渲染显示终端300。
渲染显示终端300根据获取的驱动参数驱动参数化头部模型运动,并渲染显示虚拟场景中数字人的头部。其中,纹理参数为初始建模时获取并存储在本地的,这样,在实时远程三维交互过程中,仅接收数据量较小的驱动参数,从而保证渲染显示终端300的渲染显示效率。
在一种可选的实施方式中,该系统架构中的采集终端100和渲染显示终端300可以是AR产品,还可以是VR产品。传输端200为服务器,该服务器可以是单个服务器,还可以是服务器集群,也可以是具有云存储、云计算、云处理功能的云服务器。
需要说明的是,本申请的实施例中,采集终端100和渲染显示终端300是相对用户定义的,例如,用户A佩戴的VR眼镜对于用户B来说是采集终端100,用户B佩戴的VR眼镜对于用户A来说是渲染显示终端300,同理,用户B佩戴的VR眼镜对于用户A来说是采集终端100,用户A佩戴的眼镜对于用户B来说是渲染显示终端300。
可选的,在远程三维交互时,渲染显示终端300将数字人和虚拟场景在连接的手机、电视、平板等二维终端上进行显示。
本申请的实施例中,远程三维通信系统中,采集终端100对应的用户可以通过XR眼镜(如VR眼镜、AR眼镜等)查看渲染显示终端的环境信息,即采集终端1 00和渲染显示终端300对应的用户处于同一虚拟环境中。
可选的,本申请实施例中远程三维通信系统中的三端设备,可以根据实际场景需求分别进行部署。
例如,在虚拟直播场景中,主播端设置该系统的采集终端100,用于将重建主播的三维数字人的数据传输到云端,用户端设置有渲染显示终端300,这样,用户可通过AR眼镜、手机、电视等设备浏览直播内容。
再例如,在虚拟会议场景中,远程会议的两个会议室同时布置采集终端100与渲染显示终端300,分别用于将本端用户的三维重建数据发送给对端以及显示对端用户的三维数字人,从而在两个异地的会议室内实时远程三维通讯。
可选的,在一些实施例中,可以根据采集终端100和渲染显示终端300的计算能力,对其在远程三维通信系统中数据的处理情况进行变更。
例如,如图2所示为本申请实施例提供的另一远程三维通信系统的架构图,该系统包括采集终端100、传输端200、渲染显示终端300。
采集终端100包括采集相机101,主要用于采集三维重建的图像,并将图像上传到传输端200。其中,采集相机101可以为普通的RGB相机,也可以为RGBD相机,用于采集图像数据。
传输端200对接收的采集终端100发送的图像数据进行解码后,从图像数据中提取用于人脸重建的驱动参数和纹理参数,并用图像数据中识别出的性别和年龄作为先验知识,优化参数化头部模型的驱动参数,将优化后的驱动参数和纹理参数编码后传输给渲染显示终端300。其中,优化后的驱动参数和纹理参数是分开传输的。
渲染显示终端300根据获取的驱动参数驱动参数化头部模型运动,并渲染显示虚拟场景中数字人的头部。其中,纹理参数为初始建模时获取并存储在本地的,这样,在实时远程三维交互过程中,仅接收数据量较小的驱动参数,从而保证渲染显示终端300的渲染显示效率。
在图2所示的系统中,采集终端100仅负责图像数据的采集、传输,由传输端200进行数据处理和重建等大规模计算,这样,针对计算能力较差的采集终端100,可以减少其计算量,节约能耗,避免因热量过多导致用户佩戴不舒服的问题,同时,保证远程三维通信的实时性。
可选的,针对计算量能力较差的渲染显示终端300,可以将渲染显示前的数据处理部分也迁至传输端200,由传输端200直接计算远程三维通信中渲染显示终端300渲染显示的每帧画面,从而减少渲染显示终端300的计算量,提高渲染显示效率。
例如,由传输端200用纹理参数和优化后的驱动参数驱动参数化头部模型运动,并将驱动后参数化头部模型的顶点及面片数据发送给渲染显示终端300,渲染显示终端300直接根据获取的数据渲染三维数字人的头部和虚拟场景。
本申请实施例提供的远程三维通信系统,主要是根据采集终端100采集的数据进行分析、重建及驱动,对于将算力放置在采集终端、传输端还是渲染显示终端,本申请实施例不做限制性要求。
无论是图1所示的远程三维重建系统,还是图2所示的远程三维重建系统,用于使参数化头部模型运动的驱动参数的计算和优化,直接影响数字人面部的精度和真实性,驱动参数对人脸的重建精度中起着至关重要的作用。因此,本申请实施例提供的优化人脸驱动参数的方法中,主要是对参数化头部模型中的驱动参数的优化。
参见图3,为本申请实施例提供的驱动参数的优化方式示意图,基于采集终端100采集的图像数据进行面部识别与分割,得到人脸图像,从人脸图像中提取人脸特征点,并基于提取的人脸特征点,初始计算出面部的驱动参数,如形状参数、姿态参数和表情参数,同时,基于人脸图像分别进行性别识别和年龄识别,并将性别和年龄作为先验知识优化初始的驱动参数,基于优化后的驱动参数驱动参数化头部模型运动,从而提高人脸面部表情的驱动精度,使得重建的人脸具有皱纹细节特征,提高人脸的重建精度。
可选的,在一些实施例中,采集终端100还包括拾音器,用于采集远程三维交互过程中的语音数据。如图4所示,语音数据用于对人脸图像中识别出的性别和年龄分别进行优化,从而提高性别和年龄识别的准确性,进而提高驱动参数的驱动精度,进一步提升人脸重建的真实性和细节特征。
可选的,本申请实施例中的参数化头部模型可基于FLAME模型进行构造,其由标准的线性混合蒙皮(Linear Blend Skinning,LBS)和混合形状(Blend Shape)两部分构成,采用的标准网格模型中网格顶点数为N=5023,关节数为K=4(分别位于颈部、下颚和两个眼球)。FLAME参数化头部模型的主要构成如下:
其中,表示形状参数,/>表示姿态参数(包括骨架的运动参数),/>为表情参数。 可以唯一标识头部三维几何模型的一个顶点坐标。W()表示线性蒙皮函数,用于将头部模型网格T沿关节进行变换,J()表示预测不同头部关节点位置的函数,T表示头部模型网格,Bs()表示形状参数对头部模型网格T的影响函数,Bp()表示姿态参数对头部模型网格T的影响函数,Be()表示表情参数对头部模型网格T的影响函数,Tp()表示在形状参数、姿态参数和表情参数的共同作用下对头部模型网格T进行形变的函数,s、p、e、ω分别表示形状权重、姿态权重、表情权重,蒙皮权重。s、p、e、ω是通过对预先构建的头部样本数据训练得到的。s、p、e、ω训练完成后,后续只要提供/>等参数即可得到拓扑一致的参数化人体头部模型。
本申请的实施例中,在远程三维交互前,预先构建了交互双方在自然状态(即无表情状态)的初始参数化头部模型,并将初始参数化头部模型预先存储在对端设备,这样,在远程三维交互过程中,可以通过实时的目标驱动参数(包括目标形状参数、目标姿态参数和目标表情参数)驱动初始参数化头部模型上的顶点运动,得到反映交互双方真实人脸的目标参数化头部模型。
考虑到参数化头部模型的拓扑结构相对简单,无法表达细节皱纹。因此,本申请实施例在参数化头部模型的初始重建和目标参数化头部模型的实时驱动的过程中,分别将性别和年龄作为先验知识加入,通过加载先验知识对应的皱纹信息,来优化参数化头部模型的驱动参数,从而提高面部驱动的精度,提高了人脸重建的真实性和细节精度。
其中,远程三维交互前重建初始参数化头部模型的过程如图5所示,将目标对象的性别和年龄作为先验知识,加载对应的皱纹信息,并用皱纹信息对标准参数化头部模型进行处理,通过将自然状态下人脸图像中提取的初始人脸关键点形成的点云,与处理后的标准参数化头部模型中的顶点进行匹配,基于匹配结果,采用奇异值分解(Singular ValueDecomposition,SVD)算法和Cholesky分解法,得到能够驱动标准参数化头部模型变形的初始形状参数、初始表情参数和初始姿态参数,从而得到目标对象在自然状态下的初始参数化头部模型。
参见图6,为远程三维交互过程中初始参数化头部模型的实时驱动过程,将实时采集的目标人脸图像中提取的目标人脸关键点形成的点云,与存储的初始参数化头部模型中的顶点进行匹配,基于匹配结果,采用SVD算法和Cholesky分解法,求解出能够驱动初始参数化头部模型变形的目标形状参数、目标表情参数和目标姿态参数,然后,将目标对象的性别和年龄作为先验知识,加载对应的皱纹信息,并用皱纹信息对目标形状参数、目标表情参数和目标姿态参数进行优化,从而拓扑结构相一致且能够表达出皱纹细节的目标参数化头部模型。
参见图7,为本申请实施例提供的优化人脸驱动参数的方法流程图,该流程由电子设备执行,该电子设备可以是图1中的采集终端100,也可以是图2中传输端200的服务器,该方法流程主要包括以下几步:
S701:在远程三维交互前,获取目标对象的初始人脸图像,从初始人脸图像中提取初始人脸关键点以及识别出目标对象的性别和年龄。
针对采集终端的目标对象,通过RGB相机采集其正面RGB图像,并对目标对象的正面RGB图像进行面部识别,并按照特定的比例进行分割(如256*256的面部分割范围),目的是将人脸框选出来,得到初始人脸图像,减小非人脸区域的干扰。
获得目标对象的初始人脸后,从目标人脸图像中提取初始人脸关键点,得到人脸关键点的初始点云数据。
其中,面部识别与分割以及提取人脸关键点的技术相对比较成熟,本申请实施例不做限制性要求。例如,面部识别与分割可以采用轻量级的深度学习算法(如残差网络ResNet)、机器学习算法(如方向梯度直方图HOG)、卷积神经网络算法等。提取人脸关键点可以采用OpenCV的Dlib库提取68个人脸关键点,还可以采用实用的面部标记检测(PracticalFacial Landmark Detector)算法提取人脸关键点,也可以采用人脸面网格(MediapipeFacemesh)算法提取468个稠密的人脸关键点。其中,人脸关键点的数量越多,人脸的精细程度越高。但无论采用什么算法,面部识别与分割要满足远程三维交互的实时性、高效性及稳定性的要求,以保证后续优化和渲染显示的效果。
本申请的实施例中,通过面部皱纹来优化参数化头部模型的驱动参数,以表现数字人面部的皱纹细节特征,这就需要获得目标对象的皱纹信息。考虑到皱纹信息一般与性别和年龄等属性相关,因此,获的目标对象的人脸图像后,还需要进行性别与年龄的识别。
性别识别可以看作是一个复杂的大规模二次模式分类问题,分类器将输入数据划分为男性和女性。目前,性别识别方法主要有基于人脸的性别识别算法、基于费希尔(Fisher)准则的性别识别方法和基于Adaboost+SVM的人脸性别识别算法三大类。考虑到性别主要受美颜、化妆等手段的干扰,但数据采集较为容易,因此,可以通过获取的大量性别训练样本进行分类模型的训练,获得男性与女性的性别特征,从而基于训练好的分类模型,获得目标对象的性别。
年龄识别可基于深度学习的方法,将年龄估计当作分类问题、回归问题、排序问题三种思路。年龄的多分类完全忽略了年龄标签的顺序信息,年龄的回归过度简化成了线性模型,年龄的排序使用一种与年龄有关的顺序信息,把年龄估计转化为一个排序问题。其中,本申请实施例采用排序思路进行年龄识别,通过对一系列的二分类结果进行分析,得到年龄的预测结果。
可选的,在基于排序思路识别年龄时,针对不同的年龄段独立学习年龄特征,使得学习的年龄特征具有有效的表现能力,如采用排序卷积神经网络Ranking-CNN算法。
S702:根据目标对象的性别和年龄,加载对应的皱纹信息。
可选的,皱纹信息包括皱纹数量、皱纹密度、皱纹长度和皱纹类型中的至少一项。
其中,面部的皱纹类型有很多种,例如,如图8所示,从额部到颈部主要包括抬头纹、川字纹、鱼尾纹、眼袋纹(泪沟纹)、鼻梁纹、表情纹、唇上纹、下巴纹、颈纹等。其中,最常见的是抬头纹、鱼尾纹、法令纹、木偶纹,如图9所示。
考虑到皱纹与年龄、性别相关,不同性别和性别的人的皱纹类型、皱纹数量、皱纹密度和皱纹长度各不相同。因此,本申请实施例预先建立了性别和年龄与皱纹信息间的映射关系。基于该映射关系,当识别出目标对象的性别和年龄后,可以加载对应的皱纹信息。
可选的,在一些实施例中,该映射关系可以包含性别与皱纹间的第一子映射关系以及年龄与皱纹间的第二子映射关系,还可以为性别和年龄二者结合与皱纹间的映射关系。
需要说明的是,在远程三维交互系统中,同一人的性别和年龄不会改变,因此,针对同一个目标对象,其性别和年龄的识别仅在交互前识别一次即可,并作为先验知识进行保留,后续实时交互时,无需在重新识别,节约计算量,提高渲染显示效率。
在一些实施例中,为了提高面部表情的驱动精度,识别出目标对象的性别和年龄后,还通过采集终端的拾音器获取的目标对象的语音数据,识别目标对象的性别和年龄,将语音数据识别出的性别与初始人脸图像中识别出的目标对象的性别进行加权,以及,将语音数据识别出的年龄与初始人脸图像中识别出的目标对象的年龄进行加权,从而优化目标对象的性别和年龄,这样,可以获得更加准确的皱纹信息,使得重建出的目标对象的人脸的皱纹细节精度更高。
S703:根据皱纹信息,获得标准参数化头部模型。
在一种可选的实施方式中,根据加载的目标对象的皱纹信息,选择相应的标准参数化头部模型,或者,根据加载的目标对象的皱纹信息,对基础参数化头部模型的拓扑结构进行处理,得到标准参数化头部模型。
S704:根据初始人脸关键点和标准参数化头部模型,确定目标对象的初始参数化头部模型。
由于本申请实施例中的头部模型是基于参数化头部模型构建的,因此,参数化头部模型由形状参数、姿态参数和表情参数构成。其中,头部刚性运动主要由姿态参数控制,面部表情变化主要有表情参数进行驱动,合理的表情参数能够驱动面部进行的准确表达。
形状参数、姿态参数和表情参数可以看作是对面部表情进行变形的驱动参数,驱动参数的计算过程,主要是通过初始人脸图像中提取出的初始人脸特征点,以及获得的标准参数化头部模型,通过非线性最小二乘方式进行拟合优化,得到初始形状参数、初始姿态参数和初始表情参数。通过计算出的初始形状参数、初始姿态参数和初始表情参数,可以获得自然状态下目标对象面部的各个表情基。
其中,非线性最小二乘方式的具体解算方法包括但不限于高斯牛顿(GaussNewton)算法、列文伯格-马夸尔特(Levenberg-Marquardt)算法和SVD算法。
得到目标对象的初始参数化头部模型后,将其存储在对端设备,并以此为基础进行远程三维的实时交互。这样,交互过程中通过传输少量的用于驱动初始参数化头部模型运动的参数,便可完成人脸的实时重建,对网络带宽的传输压力较小。
S705:在远程三维交互过程中,获取目标对象的目标人脸图像,从目标人脸图像中提取目标人脸关键点。
其中,目标人脸关键点的提取过程与初始人脸关键点的提取过程一致,在此不再重复描述。
S706:根据初始参数化头部模型和目标人脸关键点,确定目标驱动参数。
同理,目标驱动参数的计算过程中,通过目标人脸图像中提取出的目标人脸特征点,以及预存储的初始参数化头部模型,通过非线性最小二乘方式进行拟合优化,得到目标形状参数、目标姿态参数和目标表情参数,从而获得用于驱动初始参数化头部模型运动的驱动参数。
S707:根据皱纹信息优化目标驱动参数,以使渲染显示终端根据优化后的目标驱动参数驱动预先存储的初始参数化头部模型运动,得到目标对象的目标参数化头部模型。
在基于数据驱动模型方式实时重建人脸时,根据性别和年龄对应的皱纹信息,对目标驱动参数进行插值计算,获得优化后的目标驱动参数,针对目标对象当前的表情,使用优化后的驱动参数驱动初始参数化头部模型时,使得重建的目标对象的人脸上的皱纹,与目标对象的当前表情相适配,从而提高人脸重建的细节精度和真实性。
具体实施时,根据皱纹信息优化目标驱动参数中的目标形状参数,以使渲染显示终端根据目标姿态参数、目标表情参数和优化后的目标形状参数驱动预先存储的初始参数化头部模型运动,得到目标对象的目标参数化头部模型。
一般的,人脸大概有51个表情基。人脸随着表情变化会在不同表情基处出现皱纹,这些表情基区域由于皮肤褶皱会出现明显的条状阴影。对于每个目标对象,虽然其在不同表情下会生成不同分布的皱纹,但皱纹出现的地方始终是固定的。
通过对面部的各个表情基进行线性加权求和,得到用于驱动初始参数化头部模型为当前表情的目标驱动参数,也就是说,目标驱动参数的优化过程,实际上为各个表情基的求解过程。其中,优化方式公式表示如下:
其中,base是自然状态下的初始驱动参数,在自然状态下初始参数化头部模型中的初始形状参数和初始表情参数为0),βi表示当前表情下第i个表情基的目标形状参数,ψi当前表情下第i个表情基的目标表情参数,n为表情基的总数。
因此,基于目标人脸图像中提取的目标人脸关键点,确定用于进行面部表情驱动的目标驱动参数后,根据性别和年龄对应的皱纹信息对目标驱动参数进行优化,从而在微笑、张嘴、挤眉等不同动作下的特定表情基,对皱纹出现的状态及所需要加载的纹理数据进行控制和计算,从而增加模型的皱纹细节。
通过不同先验知识对应的皱纹信息优化后的目标驱动参数,人脸部分的皱纹细节表现不同,从而能够更好的反映与目标对象的性别和年龄相匹配的皱纹,提高人脸重建的细节精度和真实性。
例如,30岁相对于50岁对应的皱纹信息中,皱纹类型、皱纹数量和皱纹密度较小,且皱纹长度较短,因此,驱动后的目标参数化头部模型中,30岁的目标对象的人脸的皱纹更少一些。
本申请的实施例中,将目标对象的性别和年龄作为先验知识,加载对应的皱纹信息,并在远程三维交互前的初始重建和远程交互过程中的实时驱动中加入皱纹信息,这样,在常规大幅度面部表情驱动的基础上,使用皱纹信息,对人脸关键点确定的对初始参数化头部模型的面部表情进行驱动参数进行优化,从而区分不同年龄和性别的目标对象对应的皱纹细节,增加人脸表达的细节信息,提高模型的重建精度和真实性。
考虑到不同面部表情下不同表情基对应的皱纹存在差别,为了进一步提高驱动参数优化的精度,在一些实施例中,使用皱纹信息对目标驱动参数优化后,还通过为各个表情基的权重设置对应的权重系数,以对目标几何重建参数进行二次优化,从而调整不同表情基处的皱纹对目标几何参数的影响,使得优化后的目标几何重建参数更加合理。
具体实施时,根据优化后的目标驱动参数,设置目标对象面部的各个表情基的权重系数,并根据各个权重系数,对各个表情基的权重进行调整以对目标驱动参数进行二次优化。
本申请的实施例中,通过性别及年龄识别,如{性别:男,女}、{年龄:10,20,30,...,90}获得目标对象的先验知识,从而根据先验知识,加载对应的皱纹信息,并用皱纹信息优化用于根据目标对象的当前面部表情对初始参数化头部模型进行变形的目标驱动参数,使得目标对象的各个表情基包含皱纹的描述特征,实现通过增加皱纹的方式,提高面部表情的驱动精度,更好的表现重建人脸的细节精度,提高人脸重建的真实性。
基于相同的技术构思,本申请实施例提供一种电子设备,应用于远程三维通信系统,该电子设备可以是图1中的采集终端,还可以是图2中传输端的服务器,该电子设备能够实现上述优化人脸重建参数的方法步骤,且能达到相同的技术效果。
参见图10,该电子设备包括处理器1001、存储器1002和通信接口1003,存储器1002、通信接口1003和处理器1001通过总线1004连接;
存储器1002存储有计算机程序,处理器1001根据计算机程序,执行以下操作:
在远程三维交互前,获取目标对象的初始人脸图像,从初始人脸图像中提取初始人脸关键点以及识别出目标对象的性别和年龄;
根据目标对象的性别和年龄,加载对应的皱纹信息;
根据皱纹信息,获得标准参数化头部模型;
根据初始人脸关键点和标准参数化头部模型,确定目标对象的初始参数化头部模型;
在远程三维交互过程中,获取目标对象的目标人脸图像,从目标人脸图像中提取目标人脸关键点;
根据初始参数化头部模型和目标人脸关键点,确定目标驱动参数;
根据皱纹信息优化目标驱动参数,并通过通信接口1003,将优化后的目标驱动参数发送给渲染显示终端,以使渲染显示终端根据优化后的目标驱动参数驱动预先存储的初始参数化头部模型运动,得到目标对象的目标参数化头部模型。
可选的,处理器1001根据目标对象的性别和年龄加载对应的皱纹信息之前,还执行以下操作:
获取目标对象的语音数据,并从语音数据中识别目标对象的性别和年龄;
将语音数据和初始人脸图像中分别识别出的目标对象的性别进行加权,以及对语音数据和初始人脸图像中分别识别出的目标对象的年龄进行加权,以对初始人脸图像中识别出的目标对象的性别和年龄分别进行优化。
可选的,皱纹信息包含皱纹数量、皱纹密度、皱纹长度和皱纹类型中的至少一项。
可选的,目标几何重建参数包含目标形状参数、目标姿态参数和目标表情参数;
处理器1001根据皱纹信息优化目标驱动参数,并通过通信接口1003,将优化后的目标驱动参数发送给渲染显示终端,以使渲染显示终端根据优化后的目标驱动参数驱动预先存储的初始参数化头部模型运动,得到目标对象的目标参数化头部模型,具体操作为:
根据皱纹信息优化目标形状参数;
通过通信接口1003,将目标姿态参数、目标表情参数和优化后的目标形状参数发送给渲染显示终端,以使渲染显示终端根据目标姿态参数、目标表情参数和优化后的目标形状参数驱动预先存储的初始参数化头部模型运动,得到目标对象的目标参数化头部模型。
可选的,优化过程公式表示如下:
其中,base是自然状态下初始参数化头部模型对应的初始驱动参数,自然状态下初始驱动参数中的初始形状参数和初始表情参数为0,βi表示当前表情下第i个表情基的目标形状参数,ψi当前表情下第i个表情基的目标表情参数,n为表情基的总数。
可选的,通过通信接口1003向渲染显示终端发送优化后的目标几何重建参数之前,处理器1001还执行以下操作:
根据优化后的目标驱动参数,设置目标对象面部的各个表情基的权重系数;
根据各个权重系数,对各个表情基的权重进行调整以对目标驱动参数进行二次优化。
需要说明的是,图10仅是一种示例,给出电子设备执行本申请实施例提供的优化人脸重建参数的方法步骤所必要的硬件。未示出的,当该电子设备为图1中的采集终端时,该电子设备还包括扬声器、拾音器、电源、左右眼镜片等VR产品的常规器件。
本申请实施例图10中涉及的处理器可以是中央处理器(Central ProcessingUnit,CPU),通用处理器,图形处理器(Graphics Processing Unit,GPU)数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-specific IntegratedCircuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
本申请实施例还提供一种计算机可读存储介质,用于存储一些指令,这些指令被执行时,可以完成前述实施例中的优化人脸重建参数的方法。
本申请实施例还提供一种计算机程序产品,用于存储计算机程序,该计算机程序用于执行前述实施例中的优化人脸重建参数的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种优化人脸驱动参数的方法,其特征在于,应用于远程三维通信系统,所述方法包括:
在远程三维交互前,获取目标对象的初始人脸图像,从所述初始人脸图像中提取初始人脸关键点以及识别出所述目标对象的性别和年龄;
根据所述目标对象的性别和年龄,加载对应的皱纹信息;
根据所述皱纹信息,获得标准参数化头部模型;
根据所述初始人脸关键点和所述标准参数化头部模型,确定所述目标对象的初始参数化头部模型;
在远程三维交互过程中,获取目标对象的目标人脸图像,从所述目标人脸图像中提取目标人脸关键点;
根据所述初始参数化头部模型和所述目标人脸关键点,确定目标驱动参数;
根据所述皱纹信息优化所述目标驱动参数,以使渲染显示终端根据优化后的目标驱动参数驱动预先存储的所述初始参数化头部模型运动,得到所述目标对象的目标参数化头部模型。
2.如权利要求1所述的方法,其特征在于,根据所述目标对象的性别和年龄加载对应的皱纹信息之前,所述方法还包括:
获取所述目标对象的语音数据,并从所述语音数据中识别所述目标对象的性别和年龄;将所述语音数据和所述初始人脸图像中分别识别出的所述目标对象的性别进行加权,以及对所述语音数据和所述初始人脸图像中分别识别出的所述目标对象的年龄进行加权,以对所述初始人脸图像中识别出的所述目标对象的性别和年龄分别进行优化。
3.如权利要求1或2所述的方法,其特征在于,所述皱纹信息包含皱纹数量、皱纹密度、皱纹长度和皱纹类型中的至少一项。
4.如权利要求1或2所述的方法,其特征在于,所述目标驱动参数包含目标形状参数、目标姿态参数和目标表情参数;
所述根据所述皱纹信息优化所述目标驱动参数,以使渲染显示终端根据优化后的目标驱动参数驱动预先存储的所述初始参数化头部模型运动,得到所述目标对象的目标参数化头部模型,包括:
根据所述皱纹信息优化所述目标形状参数,以使渲染显示终端根据所述目标姿态参数、所述目标表情参数和优化后的目标形状参数驱动预先存储的所述初始参数化头部模型运动,得到所述目标对象的目标参数化头部模型。
6.如权利要求1所述的方法,其特征在于,向渲染显示终端发送优化后的目标驱动参数之前,所述方法还包括:
根据优化后的目标驱动参数,设置所述目标对象面部的各个表情基的权重系数;
根据各个权重系数,对各个表情基的权重进行调整以对所述目标驱动参数进行二次优化。
7.一种电子设备,其特征在于,应用于远程三维通信系统,包括处理器、存储器和通信接口,所述存储器、所述通信接口和所述处理器通过总线连接;
所述存储器存储有计算机程序,所述处理器根据所述计算机程序,执行以下操作:
在远程三维交互前,获取目标对象的初始人脸图像,从所述初始人脸图像中提取初始人脸关键点以及识别出所述目标对象的性别和年龄;
根据所述目标对象的性别和年龄,加载对应的皱纹信息;
根据所述皱纹信息,获得标准参数化头部模型;
根据所述初始人脸关键点和所述标准参数化头部模型,确定所述目标对象的初始参数化头部模型;
在远程三维交互过程中,获取目标对象的目标人脸图像,从所述目标人脸图像中提取目标人脸关键点;
根据所述初始参数化头部模型和所述目标人脸关键点,确定目标驱动参数;
根据所述皱纹信息优化所述目标驱动参数,并通过所述通信接口,将优化后的目标驱动参数发送给渲染显示终端,以使所述渲染显示终端根据优化后的目标驱动参数驱动预先存储的所述初始参数化头部模型运动,得到所述目标对象的目标参数化头部模型。
8.如权利要求7所述的电子设备,其特征在于,所述处理器根据所述目标对象的性别和年龄加载对应的皱纹信息之前,还执行以下操作:
获取所述目标对象的语音数据,并从所述语音数据中识别所述目标对象的性别和年龄;
将所述语音数据和所述初始人脸图像中分别识别出的所述目标对象的性别进行加权,以及对所述语音数据和所述初始人脸图像中分别识别出的所述目标对象的年龄进行加权,以对所述初始人脸图像中识别出的所述目标对象的性别和年龄分别进行优化。
9.如权利要求7或8所述的电子设备,其特征在于,所述皱纹信息包含皱纹数量、皱纹密度、皱纹长度和皱纹类型中的至少一项。
10.如权利要求7或8所述的电子设备,其特征在于,所述目标驱动参数包含目标形状参数、目标姿态参数和目标表情参数;
所述处理器根据所述皱纹信息优化所述目标驱动参数,并通过所述通信接口,将优化后的目标驱动参数发送给渲染显示终端,以使所述渲染显示终端根据优化后的目标驱动参数驱动预先存储的所述初始参数化头部模型运动,得到所述目标对象的目标参数化头部模型,具体操作为:
根据所述皱纹信息优化所述目标形状参数;
通过所述通信接口,将所述目标姿态参数、所述目标表情参数和优化后的目标形状参数发送给所述渲染显示终端,以使渲染显示终端根据所述目标姿态参数、所述目标表情参数和优化后的目标形状参数驱动预先存储的所述初始参数化头部模型运动,得到所述目标对象的目标参数化头部模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211543406.5A CN115861536A (zh) | 2022-12-02 | 2022-12-02 | 一种优化人脸驱动参数的方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211543406.5A CN115861536A (zh) | 2022-12-02 | 2022-12-02 | 一种优化人脸驱动参数的方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115861536A true CN115861536A (zh) | 2023-03-28 |
Family
ID=85669577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211543406.5A Pending CN115861536A (zh) | 2022-12-02 | 2022-12-02 | 一种优化人脸驱动参数的方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115861536A (zh) |
-
2022
- 2022-12-02 CN CN202211543406.5A patent/CN115861536A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102241153B1 (ko) | 2차원 이미지로부터 3차원 아바타를 생성하는 방법, 장치 및 시스템 | |
US11670033B1 (en) | Generating a background that allows a first avatar to take part in an activity with a second avatar | |
Ersotelos et al. | Building highly realistic facial modeling and animation: a survey | |
CN108460398B (zh) | 图像处理方法、装置、云处理设备 | |
Yu et al. | A video, text, and speech-driven realistic 3-D virtual head for human–machine interface | |
CN115049016B (zh) | 基于情绪识别的模型驱动方法及设备 | |
CN114821675B (zh) | 对象的处理方法、系统和处理器 | |
KR20170002100A (ko) | 감성 아바타 이모티콘 기반의 스마트 러닝 학습 제공 방법, 그리고 이를 구현하기 위한 스마트 러닝 학습 단말장치 | |
CN110909680A (zh) | 人脸图像的表情识别方法、装置、电子设备及存储介质 | |
CN111950430A (zh) | 基于颜色纹理的多尺度妆容风格差异度量及迁移方法、系统 | |
CN115546361A (zh) | 三维卡通形象处理方法、装置、计算机设备和存储介质 | |
Fang et al. | Facial makeup transfer with GAN for different aging faces | |
CN115861536A (zh) | 一种优化人脸驱动参数的方法及电子设备 | |
Van Wyk | Virtual human modelling and animation for real-time sign language visualisation | |
Ni et al. | 3D face dynamic expression synthesis system based on DFFD | |
Yu et al. | Synthesizing photo-realistic 3D talking head: Learning lip synchronicity and emotion from audio and video | |
Quan et al. | Facial animation using CycleGAN | |
Zhang et al. | Development and application of facial makeup transfer | |
Legde | Projecting motion capture: designing and implementing a modular and flexible facial animation pipeline to evaluate different perceptual effects | |
JP2022024565A (ja) | 顔変化出力方法 | |
Ragab | Supervised by | |
TW202307792A (zh) | 使用在已呈現虛擬化身訓練影像上訓練之機器學習模型來為頭戴式顯示器穿戴者臉部表情作混合形狀權重預測之技術 | |
Chen et al. | Regularity-Based Caricature Synthesis | |
Shengming | Research of 3D face reconstruction based on one image | |
CN117542098A (zh) | 一种3d卡通数字人的制作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |