CN115035382A - 模型训练方法、3d人脸的重建方法、装置及存储介质 - Google Patents

模型训练方法、3d人脸的重建方法、装置及存储介质 Download PDF

Info

Publication number
CN115035382A
CN115035382A CN202210681696.3A CN202210681696A CN115035382A CN 115035382 A CN115035382 A CN 115035382A CN 202210681696 A CN202210681696 A CN 202210681696A CN 115035382 A CN115035382 A CN 115035382A
Authority
CN
China
Prior art keywords
dimensional
expression
encoder
face image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210681696.3A
Other languages
English (en)
Inventor
李天琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202210681696.3A priority Critical patent/CN115035382A/zh
Publication of CN115035382A publication Critical patent/CN115035382A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种模型训练方法、3D人脸的重建方法、装置及存储介质,该方法由于通过神经网络模型预测二维人脸图像样本的三维表达,并基于三维表达对应的第二表达和第一表达计算训练损失,采用训练损失对神经网络模型进行训练直至收敛,所以当需要对二维人脸图像进行三维重建时,可以采用收敛的神经网络模型得到二维人脸图像的三维人脸重建,从而做到即使不引入PCA基底,借助该映射关系,也能保证神经网络在三维图像重建上优势的发挥。

Description

模型训练方法、3D人脸的重建方法、装置及存储介质
技术领域
本申请涉及计算机领域,尤其涉及一种模型训练方法、3D人脸的重建方法、装置及存储介质。
背景技术
随着社会的发展,科技的进步,三维(3D)人脸重建技术逐渐成为计算机视觉领域的热门技术。三维人脸重建技术是根据被测个体的单张或多张人脸图像重建出其三维人脸模型。
当前3D人脸重建技术所采用的方法主要分为两类。
一类是基于优化的方法,预先通过一些数据进行PCA(Principal ComponentAnalysis,主成分分析)降维,获得一组基底,将人脸表示为基底的线性组合,通过不断优化拟合线性组合的系数,来获得重建的人脸。该类方法针对每张图像需要进行多次迭代优化,速度相对较慢。
另一类是基于学习的方法,该类方法同样依赖PCA基底,区别在于利用神经网络模型来学习目标人脸的基底系数,经过训练之后,在重建时,省掉了迭代优化的过程,速度相对较快。
但两种方法都依赖PCA基底,一方面,这两类方法都会受到PCA结果的精度的影响,另一方面,PCA基底维度一般较低(几十维),表达能力受限,即便利用神经网络,得到的系数也丢失了很大部分的信息,导致最终重建精度不高。
发明内容
本申请提供了一种模型训练方法、3D人脸的重建方法、装置及存储介质,用以解决现有的3D人脸重建技术依赖PCA基底的问题。
第一方面,提供一种模型训练方法,包括:
获取第N次执行模型训练方法所用到的二维人脸图像样本;
采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达;
通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达;
将所述三维表达由所述三维空间投影到所述二维空间,得到所述二维人脸图像在所述二维空间的第二表达;
利用所述第二表达和所述二维人脸图像样本,计算训练损失;
利用所述训练损失优化所述神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至所述神经网络模型收敛。
可选地,所述编码器包括身份编码器,所述解码器包括身份解码器;
采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达,包括:
采用所述身份编码器对所述二维人脸图像样本进行编码,获得所述二维人脸图像样本的身份特征;
基于所述身份特征得到所述第一表达;
通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达,包括:
采用所述身份解码器对所述身份特征进行解码,得到所述身份特征在所述三维空间的身份三维表达;
基于所述身份三维表达,得到所述二维人脸图像样本在三维空间的三维表达。
可选地,所述编码器还包括第一编码器,所述解码器还包括特征解码器;所述第一编码器为表情编码器或姿态编码器;当所述第一编码器为所述表情编码器时,所述特征解码器为表情解码器,当所述特征解码器为姿态编码器时,所述特征解码器为姿态解码器;
基于所述身份特征得到所述第一表达,包括:
采用所述第一编码器对所述二维人脸图像样本进行编码,获得所述二维人脸图像样本的第一特征;所述第一编码器为所述表情编码器时,所述第一特征为表情特征,所述第一编码器为所述姿态编码器时,所述第一特征为姿态特征;
基于所述第一特征和所述身份特征,得到所述第一表达;
基于所述身份三维表达,得到所述二维人脸图像样本在三维空间的三维表达,包括:
采用所述特征解码器对所述第一特征和所述身份三维表达进行解码,得到中间三维表达;
基于所述中间三维表达,得到所述二维人脸图像样本在三维空间的三维表达。
可选地,所述编码器还包括第二编码器,所述第二编码器为表情编码器或姿态编码器,所述第二编码器与所述第一编码器为不同类型的编码器;
基于所述第一特征和所述身份特征,得到所述第一表达,包括:
采用所述第二编码器对所述二维人脸图像样本进行编码,得到所述二维人脸图像样本的第二特征;所述第二编码器为所述表情编码器时,所述第二特征为表情特征,所述第二编码器为所述姿态编码器时,所述第二特征为姿态特征;所述第一特征和所述第二特征为不同类型的特征;
将所述身份特征、所述第一特征和所述第二特征作为所述第一表达;
基于所述中间三维表达,得到所述二维人脸图像样本在三维空间的三维表达,包括:
采用姿态变换函数对所述中间三维表达和所述第二特征进行处理,得到所述二维人脸图像样本在三维空间的三维表达;
所述姿态变换函数用于按照所述第二特征,对所述中间三维表达进行旋转、平移或缩放处理。
可选地,利用所述第二表达和所述二维人脸图像样本,计算训练损失,包括:
获取所述二维人脸图像样本中的人脸关键点的像素坐标值、以及人脸各个区域的图像;从所述第二表达中获取人脸关键点的预测像素坐标、以及人脸各个区域的预测图像;
基于所述人脸关键点的像素坐标值和所述预测像素坐标值,计算第一类训练损失;以及基于所述人脸各个区域的图像和所述预测图像,计算第二类训练损失;
基于所述第一类训练损失和所述第二类训练损失,计算总的训练损失;
将所述总的训练损失作为所述训练损失。
第二方面,提供一种3D人脸的重建方法,包括:
获取二维人脸图像;
采用经由权利要求1训练得到神经网络模型中的编码器,预测得到所述二维人脸图像在二维空间的第一表达;
通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像在三维空间的三维表达;
生成与所述三维表达对应的三维人脸图像。
第三方面,提供一种模型训练装置,包括:
第一获取模块,用于获取第N次执行模型训练方法所用到的二维人脸图像样本;
第一预测模块,用于采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达;
第一转换模块,用于通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达;
投影模块,用于将所述三维表达由所述三维空间投影到所述二维空间,得到所述二维人脸图像在所述二维空间的第二表达;
计算模块,用于利用所述第二表达和所述二维人脸图像样本,计算训练损失;
更新模块,用于利用所述训练损失优化所述神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至所述神经网络模型收敛。
第四方面,提供一种3D人脸的重建装置,包括:
第二获取模块,用于获取二维人脸图像;
第二预测模块,用于采用经由权利要求1训练得到神经网络模型中的编码器,预测得到所述二维人脸图像在二维空间的第一表达;
第二转换模块,用于通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像在三维空间的三维表达;
生成模块,用于生成与所述三维表达对应的三维人脸图像。
第五方面,提供一种电子设备,其特征在于,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求第一方面所述的模型训练方法或第二方面所述的3D人脸的重建方法。
第六方面,提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面所述的模型训练方法或第二方面所述的3D人脸的重建方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,获取第N次执行模型训练方法所用到的二维人脸图像样本;采用神经网络模型中的编码器预测得到二维人脸图像样本在二维空间的第一表达;通过神经网络模型中的解码器转换第一表达,得到二维人脸图像样本在三维空间的三维表达;将三维表达由三维空间投影到二维空间,得到二维人脸图像在二维空间的第二表达;利用第二表达和二维人脸图像样本,计算训练损失;利用训练损失优化神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至神经网络模型收敛。由于通过神经网络模型预测二维人脸图像样本的三维表达,并基于三维表达对应的第二表达和第一表达计算训练损失,采用训练损失对神经网络模型进行训练直至收敛,所以当需要对二维人脸图像进行三维重建时,可以采用收敛的神经网络模型得到二维人脸图像的三维人脸重建,从而做到即使不引入PCA基底,借助该映射关系,也能保证神经网络在三维图像重建上优势的发挥。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中模型训练方法的流程示意图;
图2为本申请实施例中3D人脸的重建方法的流程示意图;
图3为本申请实施例中模型训练装置的示意图;
图4为本申请实施例中3D人脸的重建方法的结构示意图;
图5为本申请实施例中模型训练装置的原理示意图;
图6为本申请实施例中电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相关技术中,现有3D重建方案中利用神经网络来预测PCA基底的系数,并不能充分发挥神经网络的能力。
本申请实施例提供一种模型训练方法,该方法可应用于任一电子设备;
本申请实施例所描述电子设备可以包括终端或者服务器,本申请实施例不做限定。终端包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(例如智能手表、智能手环、计步器等)或计算设备。
如图1所示,该方法可以包括以下步骤:
步骤101、获取第N次执行模型训练方法所用到的二维人脸图像样本。
步骤102、采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达。
步骤103、通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达。
应用中,所有的二维人脸图像样本在二维空间中都是一个二维的平面。水平方向是U,垂直方向是V,通过这个平面的二维的UV坐标系,可以定位图像上的任意一个象素,从而得到二维人脸图像样本在二维空间的表达。
具体实现时,神经网络模型包括编码器和解码器,编码器用于对二维人脸图像样本进行编码,得到二维人脸图像样本在二维空间的第一表达。解码器用于转换第一表达,得到二维人脸图像样本在三维空间的三维表达。
应用中,第一表达包括二维人脸图像样本的身份特征,身份特征用于唯一指示二维人脸图像样本中人脸所属的对象,比如该身份特征可以指示图像中的人脸属于用户甲或用户乙。
为了获取身份特征,编码器包括身份编码器,该身份编码器用于对二维人脸图像特征进行编码,得到二维人脸图像特征的身份特征。
相应地,为了对身份特征进行解码,解码器包括身份解码器,该身份解码器用于对身份特征进行解码,得到身份特征在三维空间中的身份三维表达。
可以理解的是,身份特征为第一表达的一部分或全部,身份三维表达为二维人脸图像样本在三维空间的三维表达中的一部分或全部。
应理解,当第一表达中仅包括身份特征时,第一表达指示人脸在中立姿态下做中立表情。
应用中,为了实现一些后续功能,比如让甲的照片做乙的表情动作,或让甲的照片做乙的姿态等,编码器还可以包括表情编码器或姿态编码器,第一表达还包括表情特征和姿态特征。表情编码器用于对二维人脸图像样本进行编码,得到二维人脸图像样本的表情特征,姿态编码器用于对二维人脸图像样本进行编码,得到二维人脸图像样本的姿态特征。表情特征指示二维人脸图像样本中人脸的表情,比如人脸是否微笑、是否生气等等,通常该表情特征包括但不限于嘴角的弧度等;姿态特征用于指示二维人脸图像样本中人脸的姿态,比如人脸的倾斜角度等等。
具体实现时,一个可选实施例中,编码器还包括第一编码器,解码器还包括特征解码器;第一编码器为表情编码器或姿态编码器;当第一编码器为表情编码器时,特征解码器为表情解码器,当特征解码器为姿态编码器时,特征解码器为姿态解码器;
第一编码器用于对二维人脸图像样本进行编码,获得二维人脸图像样本的第一特征;第一编码器为表情编码器时,第一特征为表情特征,第一编码器为姿态编码器时,第一特征为姿态特征;特征解码器用于对第一特征和身份三维表达进行解码,得到中间三维表达。
可以理解的是,第一特征为第一表达中的一部分,中间三维表达为二维人脸图像样本的三维表达的一部分。
应理解,在本实施例中,第一编码器所述处理的二维人脸图像样本与身份编码器所处理的二维人脸图像样本可以是不同的人脸图像样本,以便实现让甲的照片做乙的表情动作,或让甲的照片做丁的姿态。
应用中,为了实现让甲的照片做乙的表情动作,同时还能做丁的姿态,编码器还可以包括第二编码器,第二编码器为表情编码器或姿态编码器,第二编码器与第一编码器为不同类型的编码器。
相应地,第二编码器用于对二维人脸图像样本进行编码,得到二维人脸图像样本的第二特征;第二编码器为表情编码器时,第二特征为表情特征,第二编码器为姿态编码器时,第二特征为姿态特征;第一特征和第二特征为不同类型的特征。
可以理解的是,第二特征、第一特征和身份特征构成了第一表达。
应理解,当实现让甲的照片做乙的表情动作和丁的姿态时,身份编码器处理的二维人脸图像样本是甲的图像,以提取甲的身份特征;表情编码器处理的二维人脸图像样本是乙的图像,以提取乙的表情;姿态编码器处理的二维人脸图像样本是丁的图像,以提取丁的姿态。
相应地,本实施例中的神经网络模型中还引入了姿态变换函数,该姿态变换函数用于对中间三维表达和第二特征进行处理,得到二维人脸图像样本在三维空间中的三维表达。
姿态变换函数用于按照第二特征,对中间三维表达进行旋转、平移或缩放处理。
应理解,由于中间三维表达中为对第一特征和身份特征进行解码得到,所以,以第一特征为表情特征为例,当用姿态特征对中间三维表达进行处理时,实际上就是使中间三维表达能够反映二维人脸图像样本的姿态的过程。
步骤104、将所述三维表达由所述三维空间投影到所述二维空间,得到所述二维人脸图像在所述二维空间的第二表达。
步骤105、基利用所述第二表达和所述二维人脸图像样本,计算训练损失。
本实施例中的训练损失具体包括两类,一类基于人脸关键点的像素坐标值得到;另一类基于人脸各个区域的图像得到。
一个可选实施例中,获取二维人脸图像样本中的人脸关键点的像素坐标值、以及人脸各个区域的图像;从二维坐标值中获取人脸关键点的预测像素坐标、以及人脸各个区域的预测图像;基于人脸关键点的像素坐标值和预测像素坐标值,计算第一类训练损失;以及基于人脸各个区域的图像和预测图像,计算第二类训练损失;基于第一类训练损失和第二类训练损失,计算总的训练损失;将总的训练损失作为训练损失。
步骤106、利用所述训练损失优化所述神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至所述神经网络模型收敛。
应理解,采用训练损失优化神经网络模型的参数时,是采用训练损失分别优化神经网络模型的编码器和解码器。相应地,神经网络模型收敛也指的是编码器和解码器均收敛。
本申请实施例提供的技术方案中,获取第N次执行模型训练方法所用到的二维人脸图像样本;采用神经网络模型中的编码器预测得到二维人脸图像样本在二维空间的第一表达;通过神经网络模型中的解码器转换第一表达,得到二维人脸图像样本在三维空间的三维表达;将三维表达由三维空间投影到二维空间,得到二维人脸图像在二维空间的第二表达;利用第二表达和二维人脸图像样本,计算训练损失;利用训练损失优化神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至神经网络模型收敛。由于通过神经网络模型预测二维人脸图像样本的三维表达,并基于三维表达对应的第二表达和第一表达计算训练损失,采用训练损失对神经网络模型进行训练直至收敛,所以当需要对二维人脸图像进行三维重建时,可以采用收敛的神经网络模型得到二维人脸图像的三维人脸重建,从而做到即使不引入PCA基底,借助该映射关系,也能保证神经网络在三维图像重建上优势的发挥。
基于同一构思,本实施例提供一种3D人脸的重建方法,如图2所示,该方法可以包括以下步骤:
步骤201、获取二维人脸图像;
步骤202、采用经由模型训练方法训练得到神经网络模型中的编码器,预测得到二维人脸图像在二维空间的第一表达;
步骤203、通过神经网络模型中的解码器转换第一表达,得到二维人脸图像在三维空间的三维表达;
步骤204、生成与三维表达对应的三维人脸图像。
基于同一构思,本申请实施例中提供了一种模型训练装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图3所示,该装置主要包括:
第一获取模块301,用于获取第N次执行模型训练方法所用到的二维人脸图像样本;
第一预测模块302,用于采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达;
第一转换模块303,用于通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达;
投影模块304,用于将所述三维表达由所述三维空间投影到所述二维空间,得到所述二维人脸图像在所述二维空间的第二表达;
计算模块305,用于利用所述第二表达和所述二维人脸图像样本,计算训练损失;
更新模块306,用于利用所述训练损失优化所述神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至所述神经网络模型收敛。
可选地,所述编码器包括身份编码器,所述解码器包括身份解码器;
第一预测模块302用于:
采用所述身份编码器对所述二维人脸图像样本进行编码,获得所述二维人脸图像样本的身份特征;
基于所述身份特征得到所述第一表达;
第一转换模块303用于:
采用所述身份解码器对所述身份特征进行解码,得到所述身份特征在所述三维空间的身份三维表达;
基于所述身份三维表达,得到所述二维人脸图像样本在三维空间的三维表达。
可选地,所述编码器还包括第一编码器,所述解码器还包括特征解码器;所述第一编码器为表情编码器或姿态编码器;当所述第一编码器为所述表情编码器时,所述特征解码器为表情解码器,当所述特征解码器为姿态编码器时,所述特征解码器为姿态解码器;
第一预测模块302用于:
采用所述第一编码器对所述二维人脸图像样本进行编码,获得所述二维人脸图像样本的第一特征;所述第一编码器为所述表情编码器时,所述第一特征为表情特征,所述第一编码器为所述姿态编码器时,所述第一特征为姿态特征;
基于所述第一特征和所述身份特征,得到所述第一表达;
第一转换模块303用于:
采用所述特征解码器对所述第一特征和所述身份三维表达进行解码,得到中间三维表达;
基于所述中间三维表达,得到所述二维人脸图像样本在三维空间的三维表达。
可选地,所述编码器还包括第二编码器,所述第二编码器为表情编码器或姿态编码器,所述第二编码器与所述第一编码器为不同类型的编码器;
第一预测模块302用于:
采用所述第二编码器对所述二维人脸图像样本进行编码,得到所述二维人脸图像样本的第二特征;所述第二编码器为所述表情编码器时,所述第二特征为表情特征,所述第二编码器为所述姿态编码器时,所述第二特征为姿态特征;所述第一特征和所述第二特征为不同类型的特征;
将所述身份特征、所述第一特征和所述第二特征作为所述第一表达;
第一转换模块303用于:
采用姿态变换函数对所述中间三维表达和所述第二特征进行处理,得到所述二维人脸图像样本在三维空间的三维表达;
所述姿态变换函数用于按照所述第二特征,对所述中间三维表达进行旋转、平移或缩放处理。
计算模块305用于:
获取所述二维人脸图像样本中的人脸关键点的像素坐标值、以及人脸各个区域的图像;从所述第二表达中获取人脸关键点的预测像素坐标、以及人脸各个区域的预测图像;
基于所述人脸关键点的像素坐标值和所述预测像素坐标值,计算第一类训练损失;以及基于所述人脸各个区域的图像和所述预测图像,计算第二类训练损失;
基于所述第一类训练损失和所述第二类训练损失,计算总的训练损失;
将所述总的训练损失作为所述训练损失。
基于同一构思,本申请实施例中提供了一种3D人脸的重建装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图4所示,该装置主要包括:
第二获取模块401,用于获取二维人脸图像;
第二预测模块402,用于采用经由模型训练方法训练得到神经网络模型中的编码器,预测得到所述二维人脸图像在二维空间的第一表达;
第二转换模块403,用于通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像在三维空间的三维表达;
生成模块404,用于生成与所述三维表达对应的三维人脸图像。
请参见图5,图5为本实施例示出的3D人脸的重建装置的原理示意图。在图5中,I为二维人脸图像,E_id为身份编码器,E_exp为表情编码器,E_pose为姿态编码器;f_id为身份特征,f_exp为表情特征,f_pose为姿态特征;D_id为身份解码器,D_exp为表情解码器;M_id为身份三维表达,M_exp为中立姿态的三维表达,T为姿态变换函数,M_pose为三维表达。
基于同一构思,本申请实施例中还提供了一种电子设备,如图6所示,该电子设备主要包括:处理器601、存储器602和通信总线603,其中,处理器601和存储器602通过通信总线603完成相互间的通信。其中,存储器602中存储有可被处理器601执行的程序,处理器601执行存储器602中存储的程序,实现如下步骤:
获取第N次执行模型训练方法所用到的二维人脸图像样本;采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达;通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达;将所述三维表达由所述三维空间投影到所述二维空间,得到所述二维人脸图像在所述二维空间的第二表达;利用所述第二表达和所述二维人脸图像样本,计算训练损失;利用所述训练损失优化所述神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至所述神经网络模型收敛;
或,
获取二维人脸图像;采用经由模型训练方法训练得到神经网络模型中的编码器,预测得到所述二维人脸图像在二维空间的第一表达;通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像在三维空间的三维表达;生成与所述三维表达对应的三维人脸图像。
上述电子设备中提到的通信总线603可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线603可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器602可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器601的存储装置。
上述的处理器601可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的模型训练方法或3D人脸的重建方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取第N次执行模型训练方法所用到的二维人脸图像样本;
采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达;
通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达;
将所述三维表达由所述三维空间投影到所述二维空间,得到所述二维人脸图像在所述二维空间的第二表达;
利用所述第二表达和所述二维人脸图像样本,计算训练损失;
利用所述训练损失优化所述神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至所述神经网络模型收敛。
2.根据权利要求1所述的方法,其特征在于,所述编码器包括身份编码器,所述解码器包括身份解码器;
采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达,包括:
采用所述身份编码器对所述二维人脸图像样本进行编码,获得所述二维人脸图像样本的身份特征;
基于所述身份特征得到所述第一表达;
通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达,包括:
采用所述身份解码器对所述身份特征进行解码,得到所述身份特征在所述三维空间的身份三维表达;
基于所述身份三维表达,得到所述二维人脸图像样本在三维空间的三维表达。
3.根据权利要求2所述的方法,其特征在于,所述编码器还包括第一编码器,所述解码器还包括特征解码器;所述第一编码器为表情编码器或姿态编码器;当所述第一编码器为所述表情编码器时,所述特征解码器为表情解码器,当所述特征解码器为姿态编码器时,所述特征解码器为姿态解码器;
基于所述身份特征得到所述第一表达,包括:
采用所述第一编码器对所述二维人脸图像样本进行编码,获得所述二维人脸图像样本的第一特征;所述第一编码器为所述表情编码器时,所述第一特征为表情特征,所述第一编码器为所述姿态编码器时,所述第一特征为姿态特征;
基于所述第一特征和所述身份特征,得到所述第一表达;
基于所述身份三维表达,得到所述二维人脸图像样本在三维空间的三维表达,包括:
采用所述特征解码器对所述第一特征和所述身份三维表达进行解码,得到中间三维表达;
基于所述中间三维表达,得到所述二维人脸图像样本在三维空间的三维表达。
4.根据权利要求3所述的方法,其特征在于,所述编码器还包括第二编码器,所述第二编码器为表情编码器或姿态编码器,所述第二编码器与所述第一编码器为不同类型的编码器;
基于所述第一特征和所述身份特征,得到所述第一表达,包括:
采用所述第二编码器对所述二维人脸图像样本进行编码,得到所述二维人脸图像样本的第二特征;所述第二编码器为所述表情编码器时,所述第二特征为表情特征,所述第二编码器为所述姿态编码器时,所述第二特征为姿态特征;所述第一特征和所述第二特征为不同类型的特征;
将所述身份特征、所述第一特征和所述第二特征作为所述第一表达;
基于所述中间三维表达,得到所述二维人脸图像样本在三维空间的三维表达,包括:
采用姿态变换函数对所述中间三维表达和所述第二特征进行处理,得到所述二维人脸图像样本在三维空间的三维表达;
所述姿态变换函数用于按照所述第二特征,对所述中间三维表达进行旋转、平移或缩放处理。
5.根据权利要求1所述的方法,其特征在于,利用所述第二表达和所述二维人脸图像样本,计算训练损失,包括:
获取所述二维人脸图像样本中的人脸关键点的像素坐标值、以及人脸各个区域的图像;从所述第二表达中获取人脸关键点的预测像素坐标、以及人脸各个区域的预测图像;
基于所述人脸关键点的像素坐标值和所述预测像素坐标值,计算第一类训练损失;以及基于所述人脸各个区域的图像和所述预测图像,计算第二类训练损失;
基于所述第一类训练损失和所述第二类训练损失,计算总的训练损失;
将所述总的训练损失作为所述训练损失。
6.一种3D人脸的重建方法,其特征在于,包括:
获取二维人脸图像;
采用经由权利要求1训练得到神经网络模型中的编码器,预测得到所述二维人脸图像在二维空间的第一表达;
通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像在三维空间的三维表达;
生成与所述三维表达对应的三维人脸图像。
7.一种模型训练装置,其特征在于,包括:
第一获取模块,用于获取第N次执行模型训练方法所用到的二维人脸图像样本;
第一预测模块,用于采用神经网络模型中的编码器预测得到所述二维人脸图像样本在二维空间的第一表达;
第一转换模块,用于通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像样本在三维空间的三维表达;
投影模块,用于将所述三维表达由所述三维空间投影到所述二维空间,得到所述二维人脸图像在所述二维空间的第二表达;
计算模块,用于利用所述第二表达和所述二维人脸图像样本,计算训练损失;
更新模块,用于利用所述训练损失优化所述神经网络模型的参数,更新N=N+1,并执行第N+1次模型训练方法,直至所述神经网络模型收敛。
8.一种3D人脸的重建装置,其特征在于,包括:
第二获取模块,用于获取二维人脸图像;
第二预测模块,用于采用经由权利要求1训练得到神经网络模型中的编码器,预测得到所述二维人脸图像在二维空间的第一表达;
第二转换模块,用于通过所述神经网络模型中的解码器转换所述第一表达,得到所述二维人脸图像在三维空间的三维表达;
生成模块,用于生成与所述三维表达对应的三维人脸图像。
9.一种电子设备,其特征在于,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1-5任一项所述的模型训练方法或权利要求6所述的3D人脸的重建方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的模型训练方法或权利要求6所述的3D人脸的重建方法。
CN202210681696.3A 2022-06-15 2022-06-15 模型训练方法、3d人脸的重建方法、装置及存储介质 Pending CN115035382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210681696.3A CN115035382A (zh) 2022-06-15 2022-06-15 模型训练方法、3d人脸的重建方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210681696.3A CN115035382A (zh) 2022-06-15 2022-06-15 模型训练方法、3d人脸的重建方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115035382A true CN115035382A (zh) 2022-09-09

Family

ID=83125071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210681696.3A Pending CN115035382A (zh) 2022-06-15 2022-06-15 模型训练方法、3d人脸的重建方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115035382A (zh)

Similar Documents

Publication Publication Date Title
CN110020620B (zh) 一种大姿态下的人脸识别方法、装置及设备
CN107293296B (zh) 语音识别结果纠正方法、装置、设备及存储介质
CN110210513B (zh) 数据分类方法、装置及终端设备
CN109798888B (zh) 移动设备的姿态确定装置、方法和视觉里程计
CN107993651B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN110929733A (zh) 除噪方法、装置、计算机设备、存储介质及模型训练方法
CN113780326A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN112464760A (zh) 一种目标识别模型的训练方法和装置
CN114708436B (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
CN116128894A (zh) 图像分割方法、装置及电子设备
CN113468344B (zh) 实体关系抽取方法、装置、电子设备和计算机可读介质
CN111815748B (zh) 一种动画处理方法、装置、存储介质及电子设备
US8548225B2 (en) Point selection in bundle adjustment
CN113239799B (zh) 训练方法、识别方法、装置、电子设备和可读存储介质
CN110717405A (zh) 人脸特征点定位方法、装置、介质及电子设备
CN117894038A (zh) 一种图像中对象姿态生成方法和装置
CN113902789A (zh) 图像特征处理、深度图像生成方法及装置、介质和设备
CN113822097B (zh) 单视角人体姿态识别方法、装置、电子设备和存储介质
CN117315758A (zh) 面部表情的检测方法、装置、电子设备及存储介质
CN116127925B (zh) 基于对文本进行破坏处理的文本数据增强方法及装置
CN110728359B (zh) 搜索模型结构的方法、装置、设备和存储介质
Qi et al. Fast and robust homography estimation method with algebraic outlier rejection
CN114239760B (zh) 多模态模型训练以及图像识别方法、装置、电子设备
CN115035382A (zh) 模型训练方法、3d人脸的重建方法、装置及存储介质
CN113139617B (zh) 一种输电线路自主定位方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination