CN114783022B - 一种信息处理方法、装置、计算机设备及存储介质 - Google Patents

一种信息处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114783022B
CN114783022B CN202210370143.6A CN202210370143A CN114783022B CN 114783022 B CN114783022 B CN 114783022B CN 202210370143 A CN202210370143 A CN 202210370143A CN 114783022 B CN114783022 B CN 114783022B
Authority
CN
China
Prior art keywords
target
coefficient
network model
preset network
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210370143.6A
Other languages
English (en)
Other versions
CN114783022A (zh
Inventor
王淳
曾定衡
周迅溢
王洪斌
蒋宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN202210370143.6A priority Critical patent/CN114783022B/zh
Publication of CN114783022A publication Critical patent/CN114783022A/zh
Priority to EP22936399.9A priority patent/EP4345770A1/en
Priority to PCT/CN2022/140143 priority patent/WO2023193474A1/zh
Application granted granted Critical
Publication of CN114783022B publication Critical patent/CN114783022B/zh
Priority to US18/396,966 priority patent/US20240135643A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种信息处理方法、装置、计算机设备及存储介质,本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数,以此,通过将表情系数和非表情系数进行解耦合处理的方式,快速输出准确的表情系数、姿态系数、光照系数、身份系数和纹理系数。极大提升了信息处理的效率。

Description

一种信息处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种信息处理方法、装置、计算机设备及存储介质。
背景技术
人脸重建是计算机视觉比较热门的一个方向,3D人脸相关应用也是近年来短视频领域的新玩法,其中,根据人脸图像重建人脸3D模型是很多人脸相关应用的基础技术之一。
在现有技术中,通常通过参数化的人脸3D重建算法来构建人脸3D模型,参数化的人脸3D重建算法,通过媒介参数化人脸3D模型作为先验信息做约束,将对人脸3D重建的问题转化为对参数化人脸3D模型的参数的估计,可以很好的应对挑战性环境下的人脸3D重建,而常用的参数化人脸3D重建算法往往通过估计3DMM(3D Morphable Model)系数的方式进行构建。
为了实现后续对于说话人判定或者表情编辑等操作,往往需要提取出图像中人脸的表情信息,然而常用的基于图像的参数化人脸3D重建算法直接提取的3DMM表情信息会和其他非表情信息耦合,使得提取的表情信息不准确,信息处理的准确性较差。
发明内容
本申请实施例提供一种信息处理方法、装置、计算机设备及存储介质,可以提升信息处理的准确性和效率。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种信息处理方法,包括:
获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,所述第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;
将所述第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,所述第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
一种信息处理装置,包括:
第一获取单元,用于获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
第一输入单元,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
第二输入单元,用于将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,所述第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;
第三输入单元,用于将所述第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,所述第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
在一些实施例中,所述第一获取单元,包括:
获取子单元,用于获取初始视频;
提取子单元,用于提取所述初始视频中每一帧的人脸图像;
第一确定子单元,用于将出现相同对象的多帧视频片段确定为初始视频片段;
第二确定子单元,用于将帧数大于预设阈值的初始视频片段确定为目标视频。
在一些实施例中,所述第二确定子单元,用于:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对所述第一目标视频片段进行样式变换,得到第二目标视频片段;
将所述第一目标视频片段和所述第二目标视频片段确定为目标视频。
在一些实施例中,所述装置,还包括:
第二获取单元,用于获取共享身份系数集合以及共享纹理系数集合;其中,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数;
匹配单元,用于根据所述目标视频对应相同对象的人脸图像匹配所述共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系数;
第一训练单元,用于根据所述共享身份系数以及共享纹理系数对第一预设网络模型、第二预设网络模型和第三预设网络模型进行表情系数、姿态系数、和光照系数预测优化训练,得到第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型。
在一些实施例中,所述装置,所述第一训练单元,包括:
第一生成子单元,用于生成第一目标损失函数;
第一训练子单元,用于根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
所述第一生成子单元,还用于将一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
在一些实施例中,所述装置,还包括:
第三确定单元,用于根据训练后的共享身份系数和共享纹理系数确定标签几何信息和标签纹理信息;
第二训练单元,用于基于标签几何信息和标签纹理信息对第四预设网络模型和第五预设网络模型进行迭代优化,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
在一些实施例中,所述第二训练单元,包括:
第二生成子单元,用于生成第二目标损失函数;
所述第二训练子单元,用于通过所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至所述第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型;
所述第二生成子单元,还用于将所述第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
根据所述第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异;
根据所述第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
基于所述预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异;
根据所述第三差异和第四差异建立第二目标损失函数。
一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述信息处理方法中的步骤。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信息处理方法中的步骤。
一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机上述信息处理方法中的步骤。
通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数,以此,通过将表情系数和非表情系数进行解耦合处理的方式,快速输出准确的表情系数、姿态系数、光照系数、身份系数和纹理系数。相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大提升了信息处理的准确性和效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息处理系统的场景示意图;
图2是本申请实施例提供的信息处理方法的流程示意图;
图3是本申请实施例提供的信息处理方法的另一流程示意图;
图4a为本申请实施例提供的信息处理方法的场景示意图;
图4b为本申请实施例提供的信息处理系统的框架示意图;
图4c为本申请实施例提供的信息处理系统的另一框架示意图;
图5是本申请实施例提供的信息处理装置的结构示意图;
图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供一种信息处理方法、装置、计算机设备及存储介质。其中,该信息处理方法可以应用于信息处理装置中。该信息处理装置可以集成在计算机设备中,该计算机设备可以是具有信息处理功能的终端。其中,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机以及智能手表等,但并不局限于此。该计算机设备也可以是服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,为本申请提供的信息处理的场景示意图;如图所示,计算机设备获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将该第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,该第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;将该第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
需要说明的是,图1所示的信息处理的场景示意图仅仅是一个示例,本申请实施例描述的信息处理场景是为了更加清楚地说明本申请的技术方案,并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知,随着信息处理的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。
在本实施例中,将从信息处理装置的角度进行描述,该信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。
请参阅图2,图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括:
在步骤101中,获取目标视频。
其中,该目标视频由多帧图像组成,且该目标视频中每一帧包含相同对象对应的人脸图像,该对象可以为用户,即本申请实施例可以将同一个用户的人脸图像连续出现的视频片段确定为目标视频。
在一些实施方式中,从获取目标视频,可以包括:
(1)获取初始视频;
(2)提取该初始视频中每一帧的人脸图像;
(3)通过分析每一帧的人脸图像确定相同对象,将连续出现相同对象的多帧视频片段确定为初始视频片段;
(4)将帧数大于预设阈值的初始视频片段确定为目标视频。
其中,该初始视频可以为清晰的人脸视频组成的视频,该初始视频中可以包含一个或多个清晰人脸的视频。以此,可以通过人脸检测算法和人脸跟踪算法依次确定每一帧的人脸对应人脸框,该人脸框可以以矩形框的形式进行标定。
进一步的,可以将视频中每一帧的相同对象的人脸框进行关联,形成人脸框序列,具体的人脸框序列组件规则如下:
对比相邻帧临近位置内人脸框的相似度,若高于预设阈值,则将其认定为相同对象,若中间有任一帧开始,没有和前面帧相同的对象,则人脸框对比结束,且若中间有一帧开始,出现了一个新的对象,则新建一个人脸框序列,以此类推,确定至少一个相同对象的人脸框序列。
为了保证人脸框序列的质量,在一实施方式中可以通过如下方式筛选人脸框序列中的人脸框:(A)可以删除人脸框序列中和其他人脸框序列中存在至少一个人脸框重叠的框;(B)可以删除人脸框序列中尺寸小于预设尺寸的框;(C)可以删除人脸框序列中人脸图像模糊的框。该人脸图像模糊判定的方式,可以通过对人脸框内图像计算拉普拉斯值,若该拉普拉斯值低于预设阈值,认定为模糊人脸。以此,每种相同对象的人脸框序列均对应一个人脸框序列,舍弃长度不足预设帧数的人脸框序列,例如将长度不足10帧的人脸框序列删除,得到符合要求的多个人脸框序列。
为了保证人脸框的图像质量,对人脸框序列进行平滑操作,形成方形的人脸框子序列,具体为(D)计算人脸框子序列中的每个框的框中心,和边长(长宽中较大的值并放大1.4倍),形成框中心序列和框边长序列;(E)对框中心序列和框边长序列,分别进行平滑滤波;(F)根据平滑后的框中心和框边长,重组人脸框,得到平滑后的人脸框序列。以此,根据平滑操作之后的人脸框序列,从初始视频中裁取对应位置的图像(若方形框超出图像边界,则填充0像素),缩放到固定尺寸,按照每帧的拼接顺序形成至少一个目标视频,每一个目标视频中包含相同对象对应的人脸图像。
在一些实施方式中,从将帧数大于预设阈值的初始视频片段确定为目标视频,可以包括:
(1.1)将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
(1.2)对该第一目标视频片段进行样式变换,得到第二目标视频片段;
(1.3)将该第一目标视频片段和该第二目标视频片段确定为目标视频。
其中,可以将帧数大于预设阈值的初始视频片段确定为第一目标视频片段,为了适配更多的应用场景,可以对该第一目标视频片段进行样本扩充,在一实施方式,该样式变换的方式可以有压缩、亮度变化、色调变化和/或改变编码格式等不改变图像尺寸的操作,以此,可以对该第一目标视频片段进行样式变换,得到第二目标视频片段,即扩充后的视频片段,将该第一目标视频片段和该第二目标视频片段确定为目标视频,即实现目标视频的倍增。
倍增后的视频,还可以通过上述方法进一步做倍增处理。在一些实施方式中,为了保证目标视频的质量,不对倍增后的视频做进一步的倍增。
在一些实施方式中,可以利用人脸检测算法提取目标视频中每个帧的人脸图像,缩放到预定尺寸,本文选择缩放到224x224x3的尺寸,和第一预设主干网络的输入尺寸保持一致;并进一步提取人脸图像中的人脸三维(3D)关键点,该人脸3D关键点决定了人脸的表达形式。可以将该目标视频转化为{人脸图像,人脸3D关键点}的集合,需要说明的是,部分倍增后的视频变为不清晰之后,可能无法提取相应的人脸3D关键点,为了解决上述问题,可以将无法提取人脸3D关键点直接引用进行倍增的目标视频的人脸3D关键点。
在步骤102中,将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
其中,该第一目标预设主干模型用于提取每一帧的人脸图像的公共的特征,该第一预设主干模型可以采用4层ResBlock网络结构作为主干网络,以此,可以将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征,该第一目标图像特征的尺度可以为28*28*128。
第一目标预设主干模型为通过第一预设主干模型训练后得到,该第一预设主干模型的网络参数为初始化为ImageNet预训练的网络参数,具体的,为了更好的理解本申请实施例,此处先对第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数的训练过程进行解释:
在相关技术中,通常可以通过参数化的人脸3D重建算法来构建人脸3D模型,需要说明的是,该3DMM是一种参数化人脸3D模型,该模型主要包括几何(也可以理解为形状)和纹理两个向量部分组成,即任何新的一个人脸都可以由这些向量组合生成,分别由如下公式表达:
其中,S是人脸3D几何,是3DMM的平均人脸3D几何,为已知参数,Bid和Bexp分别是3DMM中表示身份的基底和表示表情的基底,为配置好的已知参数,αid和αexp是对应的身份系数和表情系数;
通过设置不同的身份系数和表情系数,可以获得不同的人脸3D几何形状,类似的,该T是人脸的纹理,βtex是对应的纹理系数,是3DMM的平均人脸纹理,为已知参数,Btex是3DMM中表示纹理的基底,为配置好的已知参数,通过设置不同的纹理系数,可以获得不同的人脸纹理。
特别的,为了将人脸3D模型投影成像,还需知道人脸3D模型相对于相机的姿态系数,以及环境光光照模型的光照系数,以此,只要知道身份系数、纹理系数、表情系数、姿态系数以及光照系数即可以构成相应需要的人脸3D模型。
本申请实施例为了更好的对于说话人判定或者表情标记,需要单独提取表情系数,提取的表情系数越准确,后续处理效果越好,虽然可以简单的通过3DMM定义的表情系数作为需要的表情系数,在3DMM下,定义无表情系数的人脸为中性表情,该中性表情可以理解为脸部自然放松,双眼平视前方,嘴部自然闭合且嘴角放平时的表情,同一个人在其他表情下的人脸3D模型相对该中性表情相对参照的形变为表情,相应的,该表情所对应的表情信息即为本申请实施例需要提取的表情系数。
然而,对系数的求解是一个非线性的算法问题,当仅有一张人脸图像作为输入时,往往存在多个局部解。即,存在多个<身份系数,纹理系数,表情系数,姿态系数,光照系数>的组合可以形成类似的人脸3D模型。例如,对于一个厚嘴唇且嘴比较小的人脸图像,既可能对应于一个厚嘴唇,嘴比较小的人在中性表情时的人脸3D模型,也可能对应于一个薄嘴唇且嘴比较大的人在略微嘟嘴的表情时的人脸3D模型,两者可以对输入图像实现类似的拟合。
针对这种存在多个合理解的情况,往往是因为表情系数和其他非表情系数,特别是身份系数,耦合导致的,而本申请实施例为了实现表情系数和其他非表情系数的解耦合,提前设定目标视频中每一帧为相同对象对应的人脸图像,由于时间间隔很短,所以这些人脸图像应具有相同的共享身份系数和共享纹理系数,所以可以设定相同的对象的目标视频使用相同的共享身份系数和共享纹理系数,该共享身份系数可以预存在共享身份系数集合,该共享纹理系数可以预存在共享纹理系数集合中,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数。该共享身份系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享身份系数维度,该共享身份系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享身份系数可以智能化调节。
该共享纹理系数可以预存在共享纹理系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该共享纹理系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享纹理系数维度,该共享纹理系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享纹理系数可以智能化调节,即可以实现不断优化,可以根据目标视频对应相同对象的人脸图像匹配共享身份系数集合以及共享纹理集合,获取目标视频对应相同对象的人脸图像通用的共享身份系数以及共享纹理系数。
可以根据目标视频对应相同对象的人脸图像通用的共享身份系数以及共享纹理系数对第一预设网络模型进行表情系数预测优化训练,得到第一目标预设网络模型,具体可以参考如下训练方式:
在一些实施方式中,该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数预测优化训练的过程如下:
生成第一目标损失函数,在一实施方式中,该生成第一目标损失函数,包括:
(1)将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
(2)将该第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
(3)获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
(4)根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
(5)获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
(6)获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
(7)通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
(8)根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数;
根据第一目标损失函数进行训练的过程如下:
(9)根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
其中,第一预设主干模型用于预测每一帧的人脸图像的公共的特征,该第一预设网络模型用于预测表情系数,该第二预设网络模型用于预测姿态系数,该第三预设网络模型用于预测光照系数,该共享身份系数、共享纹理系数用于表征目标视频下特定目标对象的身份系数和纹理系数,且在目标对象相同的目标视频中,每一帧的人脸图像对应的共享身份系数和共享纹理系数相同,以实现引入对身份系数和纹理系数的额外约束关系来消除歧义,该共享身份系数和共享纹理系数可以随着训练过程而不断的优化。
该第一预设网络模型、第二预设网络模型和第三预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接(Fully connected layer,FClayer)的结构,基于此,可以将每一第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,输出预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数,由于该第一预设网络模型、第二预设网络模型和第三预设网络模型还没有训练完成,因此,该第一预测表情系数、第一预测姿态系数和第一预测光照系数不是最优值。
在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以先获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数,再根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,该第一人脸估计值为通过可微分渲染器(differentiable renderer)对构建出的第一预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第一预测人脸三维模型对应的第一人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第一差异,之所以引入未被遮挡区域M的原因是3DMM模型无法表达遮挡物,导致“系数估计值构建的人脸图像估计值”都是完整的人脸。而“人脸图像真值”如果不是完整的人脸,比如戴了墨镜,则两者在遮挡处不应该比较差异,所以选择用M去掉遮挡部分,只比较未遮挡部分的人脸。因此,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。该第一差异越大,说明第一人脸估计值和人脸图像越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第一差异越小,说明第一人脸估计值和人脸图像越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第一差异的计算方式,可以通过如下公式计算:
其中,该Lrec为第一差异,该Mi为未遮挡区域,该Ii为第i个人脸图像,该为第i个第一人脸估计值,通过上述公式计算出第一差异,上述公式可以理解为第一差异的损失函数。
还可以获取第一预测人脸三维模型对应的第一预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第一预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第一预测人脸三维关键点)计算当前估计值/>与真实的人脸图像的人脸三维关键点的真值K在未被遮挡区域M的第二差异。该第二差异越大,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一预设主干模型、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第二差异越小,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一预设主干模型、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第二差异的计算方式,可以通过如下公式计算:
其中,该Llan为第二差异,该wi为权重,每个关键点有不同的权重,即在计算损失函数时,有些关键点的错误比其他关键点的错误更重要。这些权重的值在技术实现中,是预先定义的。该ki为第i个人脸三维关键点的真值,该为第i个第一预测人脸三维模型的人脸3D关键点的当前估计值,该N代表关键点的数量,例如为68个。通过上述公式计算出第二差异,上述公式可以理解为第二差异的损失函数。
还可以通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系,约束该共享身份系数、共享纹理系数和第一预测表情系数的约束关系不要偏离零均值过多,可以通过如下公式计算:
其中,该αd,αt和αe是预设的权重系数,用于平衡各项损失函数,该为共享身份系数,/>为共享纹理系数和/>为第一预测表情系数。上述公式可以理解为约束损失函数。
可以根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数。
最后根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。即可以根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数采用随机梯度下降算法进行优化,多次重复执行生成第一目标损失函数的过程,通过不断更新的第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至该第一目标损失函数收敛,即损失函数收敛。具体的,可以通过如下公式建立第一差异、第二差异和该约束关系的第一目标损失函数,如下:
L=λrecLreclanLlanregLreg
该λrec,λlan和λreg是预设的权重系数,用于平衡各项损失函数,该L为第一目标损失函数,基于该第一目标损失函数可以根据随机梯度下降算法对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化,并重复将不同的每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,迭代计算该第一目标损失进行迭代调节,直至该第一目标损失收敛,得到训练后的第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
以此,训练后的第一目标主干模型可以根据人脸图像输出准确的第一目标图像特征。该训练后的第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型可以输出准确的表情系数、姿态系数以及光照系数。
在步骤103中,将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数。
其中,可以将第一目标图像特征输入训练后的第一目标预设网络模型,输出准确的第一目标表情系数。将第一目标图像特征输入训练后的第二目标预设网络模型,输出准确的第一目标姿态系数。将第一目标图像特征输入训练后的第三目标预设网络模型,输出准确的第一目标光照系数。由于引入了共享身份系数和共享纹理系数的额外约束,即定义好身份系数和纹理系数,所以实现该第一目标表情系数和其他非表情系数的解耦合,提升了该第一目标表情系数的准确性。
在步骤104中,将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数。
其中,由于该共享身份系数和共享纹理系数均已经使用,后续为了实现对于身份系数和纹理系数的准确预测,可以不用再使用确定共享身份系数和共享纹理系数,而是通过该训练后第四目标预设网络模型和第五目标预设网络模型来输出第一目标身份系数和第一目标纹理系数。
该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。训练前的第四预设网络模型用于预测身份系数,该第五预设网络模型用于预测纹理系数,该第四预设网络模型和第五预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接(Fully connected layer,FC layer)的结构,基于此,可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出预测的第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数不是最优值,所以需要训练该第四预设网络模和第五预设网络模型。
在一些实施方式中,该第四预设网络模型和第五预设网络模型预测优化训练的过程如下:
(1)根据训练后的共享身份系数和共享纹理系数确定标签几何信息和标签纹理信息;
(2)基于标签几何信息和标签纹理信息对第四预设网络模型和第五预设网络模型进行迭代优化,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
其中,可以根据如下公式计算出标签几何信息和标签纹理信息:
通过上述公式,将训练后的共享身份系数、共享纹理系数以及第一目标表情系数代入,可以计算出准确的标签几何信息和标签纹理信息,并基于该标签几何信息和标签纹理信息对第四预设网络模型和第五预设网络模型进行迭代优化,得到训练后的第四目标预设网络模型和第五目标预设网络模型进行迭代优化。具体可以参照如下训练方式:
生成第二目标损失函数,在一实施方式中,该生成第二目标损失函数,包括:(1.1)将该第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
(1.2)根据该第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异;
(1.3)根据该第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
(1.4)基于该预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异;
(1.5)根据该第三差异和第四差异建立第二目标损失函数;
根据第二目标损失函数进行训练的过程如下:
(1.6)通过该第二目标损失函数对该第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至该第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
其中,可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数不是最优值。
可以将训练后的共享身份系数作为标签身份系数和共享纹理系数作为标签纹理系数,但是为了进一步的提升第四预设网络模型和第五预设网络模型的预测准确度,本申请实施例可以根据第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,生成第二预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,可以根据第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异。该第三差异越大,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第三差异越小,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第三差异的计算方式,可以通过如下公式计算:
其中,该Lparams为第三差异,βd和βt为预设的权重系数,该为第一预测身份系数,该dgt为标签身份系数,该/>为第一预测纹理系数,该tgt为标签纹理系数,通过上述公式计算出第三差异。
还可以确定第二预测人脸三维模型的预测几何信息和预测纹理信息,该预测几何信息和预测纹理信息未必准确,所以需要基于该预测几何信息和真实的标签几何信息的差值以及预测纹理信息和真实的标签纹理信息的差值建立第四差异。该第四差异越大,说明预测的预测几何信息和真实的标签几何信息以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第四差异越小,说明预测的预测几何信息和真实的标签几何信息以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第四差异的计算方式,可以通过如下公式计算:
其中,该L3d为第四差异,βgeo和βtex为预设的权重系数,该Sgt为标签几何信息,该为预测几何信息,该Tgt为标签纹理信息,该/>为预测纹理信息。通过上述公式计算出第四差异。并根据该第三差异和第四差异建立第二目标损失函数。
最后根据该第二目标损失函数对该第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至该第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。即可以根据该第二目标损失函数对该第四预设网络模型和第五预设网络模型采用随机梯度下降算法进行优化,多次重复,直至该第二目标损失函数收敛,即损失函数收敛,具体的,可以通过如下公式建立第三差异和第四差异的总的损失函数,如下:
L=λparamsLparams3dL3d
其中,该L为第二目标损失函数,该λparams和λ3d为预设的权重系数,基于该第二目标损失函数可以根据随机梯度下降算法对第四预设网络模型和第五预设网络模型的第二网络参数进行优化,并重复执行生成第二目标损失函数,通过不断更新的第二目标损失函数对第四预设网络模型和第五预设网络模型进行第二网络参数迭代优化,,计算该第二目标损失函数进行迭代调节,直至本部分中的第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。由于训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数的第一网络参数已经训练好,所以在本训练过程中该第一网络参数为固定不变的。该训练后的第四目标预设网络模型和第五目标预设网络模型可以基于第一图像特征输出准确的身份系数和纹理系数。
基于此,可以将每个第一目标图像特征分别输入训练后的第四目标预设网络模型和第五目标预设网络模型,输出准确的第一目标身份系数以及第一目标纹理系数。
以此,本申请实施例可以得到具备对其他视频也适用的第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、第四目标预设网络模型和第五目标预设网络模型,具有很好的泛化性,可以直接应用在其他视频,快速预测出每一帧的表情系数、姿态系数、光照系数、身份系数、纹理系数,极大的提升了信息处理的效率。
由上述可知,本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数,以此,通过将表情系数和非表情系数进行解耦合处理的方式,快速输出准确的表情系数、姿态系数、光照系数、身份系数和纹理系数。相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大提升了信息处理的准确性和效率。
在本实施例中,将以该信息处理装置具体集成在服务器中为例进行说明,具体参照以下说明。
请参阅图3,图3为本申请实施例提供的信息处理方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器获取初始视频,提取初始视频中每一帧的人脸图像,将出现相同对象的多帧视频片段确定为初始视频片段。
其中,该初始视频可以为清晰的人脸视频组成的视频,该初始视频中可以包含一个或多个清晰人脸的视频。服务器可以通过人脸检测算法和人脸跟踪算法依次提取该初始视频中每一帧的人脸图像,通过人脸图像确定相应的用户身份信息,进而通过该用户身份信息确定人脸图像对应的用户(即对象)。
进一步的,服务器可以将相邻帧连续出现相同对象的多帧视频片段确定为初始视频片段,该初始视频片段可以为2帧以上的人脸图像,且该初始视频片段中每一帧的人脸图像都对应相同的对象。
在步骤202中,服务器将帧数大于预设阈值的初始视频片段确定为第一目标视频片段,对第一目标视频片段进行样式变换,得到第二目标视频片段,将第一目标视频片段和第二目标视频片段确定为目标视频。
其中,为了保证目标视频后续的训练效果,需要将帧数不足的初始视频片段删除,该预设阈值即用于界定帧数是否达到满足训练效果的数量的临界值,例如50帧,以此,可以将帧数大于预设阈值的初始视频片段确定为第一目标视频。
为了适配更多的应用场景,可以对该第一目标视频片段进行样本扩充,在一实施方式,该样式变换的方式可以有压缩、亮度变化、色调变化和/或改变编码格式等不改变图像尺寸的操作,以此,可以对该第一目标视频片段进行样式变换,得到第二目标视频片段,即扩充后的视频片段,将该第一目标视频片段和该第二目标视频片段确定为目标视频,即实现目标视频的倍增。
为了保证目标视频的质量,不对倍增后的视频做进一步的倍增。
为了后续处理的便利性,可以利用人脸检测算法提取目标视频中每个帧的人脸图像,并进一步提取人脸图像中的人脸三维关键点,该人脸3D关键点决定了人脸的表达形式。可以将该目标视频转化为{人脸图像,人脸3D关键点}的集合。需要说明的是,部分倍增后的视频变为不清晰之后,可能无法提取相应的人脸3D关键点,为了解决上述问题,可以将无法提取人脸3D关键点直接引用之前进行倍增的目标视频的人脸3D关键点。
在步骤203中,服务器获取共享身份系数集合以及共享纹理系数集合,根据目标视频中相同对象的人脸图像匹配共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系。
本申请实施例为了实现表情系数和其他非表情系数的解耦合,可以提前设定目标视频中每一帧为相同对象对应的人脸图像,由于时间间隔很短,所以这些人脸图像都具有相同的共享身份系数和共享纹理系数,所以可以设定相同的对象的目标视频使用相同的共享身份系数和共享纹理系数,该共享身份系数可以预存在共享身份系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该集合可以包括K个,相同的对象共享相同的共享身份系数和共享纹理系数,不同对象的人脸图像对应不同的共享身份系数和共享纹理系数。该共享身份系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享身份系数维度,该共享身份系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享身份系数可以随着学习的过程智能化调节。
该共享纹理系数可以预存在共享纹理系数集合中,根据目标视频对应相同对象的人脸图像匹配共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系数。该共享纹理系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享纹理系数维度,该共享纹理系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享纹理系数可以随着学习的过程智能化调节,需要说明的是,该共享身份系数和共享纹理系数可以随着训练进行不断的优化。
例如,如图4a所示,目标视频中每一帧的人脸图像具有相同的共享身份系数和共享纹理系数,且每一帧具有独立的预测表情系数、预测姿态系数以及预测光照系数。
以实现引入对身份系数和纹理系数的额外约束关系来消除歧义,实现表情系数和非表情系数的解耦合。
在步骤204中,服务器将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,将第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数。
其中,请一并参阅图4b所示,图4b为本申请实施例提供的信息处理系统的框架20示意图,该第一图像特征代表每一帧的人脸图像公共的特征,该第一预设主干模型可以采用4层ResBlock网络结构作为主干网络,服务器可以将每一帧的人脸图像依次输入第一预设主干模型,输出每一帧的人脸图像对应的第一图像特征,该第一图像特征的尺度可以为28*28*128。
请继续参阅图4b所示,该第一预设网络模型用于预测表情系数,该第二预设网络模型用于预测姿态系数,该第三预设网络模型用于预测光照系数,该第一预设网络模型、第二预设网络模型和第三预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接的结构,在一实施方式中,该第一预设网络模型、第二预设网络模型和第三预设网络模型还可以采用不同的网络结构,此处举例不作为具体限定。基于此,可以将每一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数,由于该第一预设网络模型、第二预设网络模型和第三预设网络模型还没有训练完成,因此,该第一预测表情系数、第一预测姿态系数和第一预测光照系数未必准确。
在步骤205中,服务器根据共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型。
其中,请继续参阅图4b所示,在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以先获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数,再根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型(包含人脸3D几何和人脸纹理)。
在步骤206中,服务器获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异,获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异,通过正则化损失函数建立共享身份系数、共享纹理系数和第一预测表情系数的约束关系,根据第一差异、第二差异和约束关系生成相应的第一目标损失函数,根据第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数优化。
其中,该第一人脸估计值为通过可微分渲染器(differentiable renderer)对构建出的第一预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第一预测人脸三维模型对应的第一人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第一差异。训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人脸眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。该第一差异越大,说明第一人脸估计值和人脸图像越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理不准确,相反的,该第一差异越小,说明第一人脸估计值和人脸图像越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越准确。该第一差异的计算方式,可以通过如下公式计算:
其中,该Lrec为第一差异,该Mi为未遮挡区域,该Ii为第i个人脸图像,该为第i个第一人脸估计值,通过上述公式计算出第一差异,上述公式可以理解为第一差异的损失函数。
还可以获取第一预测人脸三维模型对应的第一预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第一预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第一预测人脸三维关键点)计算当前估计值/>与真实的人脸图像的人脸三维关键点的真值K在未被遮挡区域M的第二差异。该第二差异越大,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越不准确,相反的,该第二差异越小,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越准确。该第二差异的计算方式,可以通过如下公式计算:
其中,该Llan为第二差异,该wi为权重,每个关键点有不同的权重,即在计算损失函数时,有些关键点的权重比其他关键点的权重更重要。这些权重的值在技术实现中,是预先定义的。该ki为第i个人脸三维关键点的真值,该为第i个第一预测人脸三维模型的人脸3D关键点的当前估计值,该N代表关键点的数量,例如为68个。通过上述公式计算出第二差异,上述公式可以理解为第二差异的损失函数。
还可以通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系,约束该共享身份系数、共享纹理系数和第一预测表情系数的约束关系不要偏离零均值过多,可以通过如下公式计算:
其中,该αd,αt和αe是预设的权重系数,用于平衡各项损失函数,该为共享身份系数,/>为共享纹理系数和/>为第一预测表情系数。上述公式可以理解为约束损失函数。
可以根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数。
最后根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化。
在步骤207中,服务器返回执行将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,以对第一网络参数进行迭代优化,直至第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
其中,服务器返回执行将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征的步骤对第一网络参数进行迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
即可以根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络模型采用随机梯度下降算法进行优化,多次重复,直至该第一目标损失函数收敛,即损失函数收敛。具体的,可以通过如下公式建立第一差异、第二差异和该约束关系的第一目标损失函数,如下:
L=λrecLreclanLlanregLreg
该λrec,λlan和λreg是预设的权重系数,用于平衡各项损失函数,该L为第一目标损失函数,基于该第一目标损失函数可以根据随机梯度下降算法对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化,并重复将不同的每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,迭代计算该第一目标损失进行迭代调节,直至该第一目标损失收敛,得到训练后的第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
以此,训练后的第一目标主干模型可以根据人脸图像输出准确的第一目标图像特征。该训练后的第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型可以输出准确的表情系数、姿态系数以及光照系数,该共享身份系数和共享纹理系数均为准确的系数。
在步骤208中,服务器将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征,将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数。
其中,服务器可以将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特,进而将第一目标图像特征输入训练后的第一目标预设网络模型,输出准确的第一目标表情系数。将第一目标图像特征输入训练后的第二目标预设网络模型,输出准确的第一目标姿态系数。将第一目标图像特征输入训练后的第三目标预设网络模型,输出准确的第三目标预设网络模型。由于引入了共享身份系数和共享纹理系数的额外约束,即定义好身份系数和纹理系数,所以实现该第一目标表情系数和其他非表情系数的解耦合,提升了该第一目标表情系数的准确性。
在步骤209中,服务器将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数,根据第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异,根据第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息。
其中,请一并参阅图4c所示,图4c为本申请实施例提供的信息处理系统的另一框架30示意图,该第四预设网络模型用于预测身份系数,该第五预设网络模型用于预测纹理系数,该第四预设网络模型和第五预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接的结构,该第四预设网络模型和第五预设网络模型还可以采用不同的网络结构,此处举例不作为具体限定。基于此,服务器可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出预测的第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数未必准确,所以需要训练该第四预设网络模和第五预设网络模型。
可以将共享身份系数作为标签身份系数和共享纹理系数作为标签纹理系数,但是为了进一步的训练和提升第四预设网络模型和第五预设网络模型的预测准确度,本申请实施例可以根据第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,生成第二预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,可以根据第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异。该第三差异越大,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第三差异越小,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第三差异的计算方式,可以通过如下公式计算:
其中,该Lparams为第三差异,βd和βt为预设的权重系数,该为第一预测身份系数,该dgt为标签身份系数,该/>为第一预测纹理系数,该tgt为标签纹理系数,通过上述公式计算出第三差异。
在步骤210中,服务器基于预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异,根据第三差异和第四差异建立第二目标损失函数,根据第二目标损失函数对第四预设网络模型和第五预设网络模型的第二网络参数进行优化,返回执行将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数,以对第二网络参数进行迭代优化,直至第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
其中,还可以确定第二预测人脸三维模型的预测几何信息和预测纹理信息,该预测几何信息和预测纹理信息未必准确,所以需要基于该预测几何信息和真实的标签几何信息的差值以及预测纹理信息和真实的标签纹理信息的差值建立第四差异。该标签几何信息和标签纹理信息可以基于共享身份系数、共享纹理系数和第一目标表情系数计算得到,具体计算方式参照前述实施例,此处不作具体赘述。
该第四差异越大,说明预测的预测几何信息和真实的标签几何信息以及预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第四差异越小,说明预测的预测几何信息和真实的标签几何信息以及预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第四差异的计算方式,可以通过如下公式计算:
其中,该L3d为第四差异,βgeo和βtex为预设的权重系数,该Sgt为标签几何信息,该为预测几何信息,该Tgt为标签纹理信息,该/>为预测纹理信息。通过上述公式计算出第四差异。并根据该第三差异和第四差异建立第二目标损失函数。
最后根据该第二目标损失函数对该第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至该第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。即可以根据该第二目标损失函数对该第四预设网络模型和第五预设网络模型采用随机梯度下降算法进行优化,多次重复,直至该第二目标损失函数收敛,即损失函数收敛,具体的,可以通过如下公式建立第三差异和第四差异的总的损失函数,如下:
L=λparamsLparams3dL3d
其中,该L为第二目标损失函数,该λparams和λ3d为预设的权重系数,基于该第二目标损失函数可以根据随机梯度下降算法对第四预设网络模型和第五预设网络模型的第二网络参数进行优化,并重复将不同的第一目标图像特征分批送入该第四预设网络模型和第五预设网络模型,计算该第二目标损失函数进行迭代调节,直至本部分中的第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。由于训练后的第一预设网络模型、第二预设网络模型和第三预设网络模型的第一网络参数已经训练好,所以在本训练过程中该第一网络参数为固定不变的。该训练后的第四目标预设网络模型和第五目标预设网络模型可以基于第一目标图像特征输出准确的身份系数和纹理系数。
基于此,可以将每个第一目标图像特征分别输入训练后的第四目标预设网络模型和第五目标预设网络模型,输出准确的第一目标身份系数以及第一目标纹理系数。
在步骤211中,服务器将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数。
其中,服务器可以将共享身份系数和共享纹理系数删除,并将第一目标图像特征分别输入训练后的第四目标预设网络模型和第五预设网络模型,输出准确的第一目标身份系数以及第一目标纹理系数。
由上述可知,本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数,以此,通过将表情系数和非表情系数进行解耦合处理的方式,快速输出准确的表情系数、姿态系数、光照系数、身份系数和纹理系数。相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大提升了信息处理的准确性和效率。
请参阅图5,图5为本申请实施例提供的信息处理装置的结构示意图,其中该信息处理装置可以包括第一获取单元301、第一输入单元302、第二输入单元303以及第三输入单元304等。
第一获取单元301,用于获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像。
在一些实施例中,该第一获取单元301,包括:
获取子单元,用于获取初始视频;
提取子单元,用于提取该初始视频中每一帧的人脸图像;
第一确定子单元,用于将出现相同对象的多帧视频片段确定为初始视频片段;
第二确定子单元,用于将帧数大于预设阈值的初始视频片段确定为目标视频。
在一些实施例中,该第二确定子单元,用于:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对该第一目标视频片段进行样式变换,得到第二目标视频片段;
将该第一目标视频片段和该第二目标视频片段确定为目标视频。
在一些实施例中,该装置,还包括
第二获取单元,用于获取共享身份系数集合以及共享纹理系数集合;其中,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数;
匹配单元,用于根据该目标视频对应相同对象的人脸图像匹配该共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系数;
第一训练单元,用于根据该共享身份系数以及共享纹理系数对第一预设网络模型、第二预设网络模型和第三预设网络模型进行表情系数、姿态系数、和光照系数预测优化训练,得到第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型。
在一些实施例中,该第一训练单元,
包括:
第一生成子单元,用于生成第一目标损失函数;
第一训练子单元,用于根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
所述第一生成子单元,还用于将一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
第一输入单元302,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
第二输入单元303,用于将该第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数,其中,该第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到。
在一些实施例中,该装置,还包括:
第三确定单元,用于根据训练后的共享身份系数和共享纹理系数确定标签几何信息和标签纹理信息;
第二训练单元,用于基于标签几何信息和标签纹理信息对第四预设网络模型和第五预设网络模型进行迭代优化,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
在一些实施例中,所述第二训练单元,包括:
第二生成子单元,用于生成第二目标损失函数;
所述第二训练子单元,用于通过所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至所述第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型;
所述第二生成子单元,还用于将所述第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
根据所述第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异;
根据所述第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
基于所述预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异;
根据所述第三差异和第四差异建立第二目标损失函数。
第三输入单元304,用于将该第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例还提供一种计算机设备,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;可选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,可选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现前述实施例提供的各种方法步骤,如下:
获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将该第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,该第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;将该第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对信息处理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将该第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,该第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;将该第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息处理方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种信息处理方法,其特征在于,包括:
获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,所述第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;
将所述第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,所述第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
2.根据权利要求1所述的信息处理方法,其特征在于,所述获取目标视频,包括:
获取初始视频;
提取所述初始视频中每一帧的人脸图像;
通过分析每一帧的所述人脸图像确定相同对象,将出现相同对象的多帧视频片段确定为初始视频片段;
将帧数大于预设阈值的初始视频片段确定为目标视频。
3.根据权利要求2所述的信息处理方法,其特征在于,所述将帧数大于预设阈值的初始视频片段确定为目标视频,包括:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对所述第一目标视频片段进行样式变换,得到第二目标视频片段;
将所述第一目标视频片段和所述第二目标视频片段确定为目标视频。
4.根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:
获取共享身份系数集合以及共享纹理系数集合;其中,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数;
根据所述目标视频中相同对象的人脸图像匹配所述共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系数;
根据所述共享身份系数以及共享纹理系数对第一预设网络模型、第二预设网络模型和第三预设网络模型进行表情系数、姿态系数、和光照系数预测优化训练,得到第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型。
5.根据权利要求4所述的信息处理方法,其特征在于,所述根据所述共享身份系数以及共享纹理系数对第一预设网络模型、第二预设网络模型和第三预设网络模型进行表情系数、姿态系数、和光照系数预测优化训练,得到第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,包括:
生成第一目标损失函数;
根据所述第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
所述生成第一目标损失函数,包括:
将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
6.根据权利要求5所述的信息处理方法,其特征在于,所述根据所述第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数,包括:
根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数优化;
返回重复执行生成第一目标损失函数,通过生成的第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
7.根据权利要求1所述的信息处理方法,其特征在于,所述将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,还包括:
根据训练后的共享身份系数和共享纹理系数确定标签几何信息和标签纹理信息;
基于标签几何信息和标签纹理信息对第四预设网络模型和第五预设网络模型进行迭代优化,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
8.根据权利要求7所述的信息处理方法,其特征在于,所述基于标签几何信息和标签纹理信息对第四预设网络模型和第五预设网络模型进行迭代优化,得到训练后的第四目标预设网络模型和第五目标预设网络模型,包括:
生成第二目标损失函数;
通过所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至所述第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型;
所述生成第二目标损失函数,包括:
将所述第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
根据所述第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异;
根据所述第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
基于所述预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异;
根据所述第三差异和第四差异建立第二目标损失函数。
9.根据权利要求8所述的信息处理方法,其特征在于,所述通过所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至所述第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型,包括:
根据所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行优化;
返回重复执行生成第二目标损失函数,通过生成的第二目标损失函数对第四预设网络模型和第五预设网络模型进行第二网络参数迭代优化,直至第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
10.一种信息处理装置,其特征在于,包括:
第一获取单元,用于获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
第一输入单元,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
第二输入单元,用于将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,所述第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;
第三输入单元,用于将所述第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,所述第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
11.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的信息处理方法中的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的信息处理方法中的步骤。
CN202210370143.6A 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质 Active CN114783022B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202210370143.6A CN114783022B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质
EP22936399.9A EP4345770A1 (en) 2022-04-08 2022-12-19 Information processing method and apparatus, computer device, and storage medium
PCT/CN2022/140143 WO2023193474A1 (zh) 2022-04-08 2022-12-19 信息处理方法、装置、计算机设备及存储介质
US18/396,966 US20240135643A1 (en) 2022-04-08 2023-12-27 Information processing method, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210370143.6A CN114783022B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114783022A CN114783022A (zh) 2022-07-22
CN114783022B true CN114783022B (zh) 2023-07-21

Family

ID=82429138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210370143.6A Active CN114783022B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114783022B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023193474A1 (zh) * 2022-04-08 2023-10-12 马上消费金融股份有限公司 信息处理方法、装置、计算机设备及存储介质
CN114898244B (zh) * 2022-04-08 2023-07-21 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2946254A1 (fr) * 2009-06-08 2010-12-10 Oreal Composition cosmetique associant un derive c-glycoside a un extrait de graines de vigna aconitifolia
CN104484890A (zh) * 2014-12-18 2015-04-01 上海交通大学 基于复合稀疏模型的视频目标跟踪方法
CN108537743A (zh) * 2018-03-13 2018-09-14 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
CN108805977A (zh) * 2018-06-06 2018-11-13 浙江大学 一种基于端到端卷积神经网络的人脸三维重建方法
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及系统
CN109829959A (zh) * 2018-12-25 2019-05-31 中国科学院自动化研究所 基于人脸解析的表情编辑方法及装置
CN112819947A (zh) * 2021-02-03 2021-05-18 Oppo广东移动通信有限公司 三维人脸的重建方法、装置、电子设备以及存储介质
CN112884881A (zh) * 2021-01-21 2021-06-01 魔珐(上海)信息科技有限公司 三维人脸模型重建方法、装置、电子设备及存储介质
CN113112596A (zh) * 2021-05-12 2021-07-13 北京深尚科技有限公司 人脸几何模型提取、3d人脸重建方法、设备及存储介质
CN113886641A (zh) * 2021-09-30 2022-01-04 深圳追一科技有限公司 数字人生成方法、装置、设备及介质
CN113936309A (zh) * 2020-07-14 2022-01-14 南京大学 一种基于面部分块的表情识别方法
CN114078275A (zh) * 2021-11-19 2022-02-22 广州虎牙科技有限公司 表情识别方法、系统及计算机设备
CN114202615A (zh) * 2021-12-09 2022-03-18 广州方硅信息技术有限公司 人脸表情的重建方法、装置、设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2946254A1 (fr) * 2009-06-08 2010-12-10 Oreal Composition cosmetique associant un derive c-glycoside a un extrait de graines de vigna aconitifolia
CN104484890A (zh) * 2014-12-18 2015-04-01 上海交通大学 基于复合稀疏模型的视频目标跟踪方法
CN108537743A (zh) * 2018-03-13 2018-09-14 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
CN108805977A (zh) * 2018-06-06 2018-11-13 浙江大学 一种基于端到端卷积神经网络的人脸三维重建方法
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及系统
CN109829959A (zh) * 2018-12-25 2019-05-31 中国科学院自动化研究所 基于人脸解析的表情编辑方法及装置
CN113936309A (zh) * 2020-07-14 2022-01-14 南京大学 一种基于面部分块的表情识别方法
CN112884881A (zh) * 2021-01-21 2021-06-01 魔珐(上海)信息科技有限公司 三维人脸模型重建方法、装置、电子设备及存储介质
CN112819947A (zh) * 2021-02-03 2021-05-18 Oppo广东移动通信有限公司 三维人脸的重建方法、装置、电子设备以及存储介质
CN113112596A (zh) * 2021-05-12 2021-07-13 北京深尚科技有限公司 人脸几何模型提取、3d人脸重建方法、设备及存储介质
CN113886641A (zh) * 2021-09-30 2022-01-04 深圳追一科技有限公司 数字人生成方法、装置、设备及介质
CN114078275A (zh) * 2021-11-19 2022-02-22 广州虎牙科技有限公司 表情识别方法、系统及计算机设备
CN114202615A (zh) * 2021-12-09 2022-03-18 广州方硅信息技术有限公司 人脸表情的重建方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于弱监督学习的三维人脸形状与纹理重建;吴越 等;《计算机系统应用》;第29卷(第11期);183-189 *

Also Published As

Publication number Publication date
CN114783022A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN111325851B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN114782864B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN109285215B (zh) 一种人体三维模型重建方法、装置和存储介质
CN114821404B (zh) 一种信息处理方法、装置、计算机设备及存储介质
KR102616010B1 (ko) 포토리얼리스틱 실시간 인물 애니메이션을 위한 시스템 및 방법
Chaudhuri et al. Personalized face modeling for improved face reconstruction and motion retargeting
CN114783022B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN106682632B (zh) 用于处理人脸图像的方法和装置
WO2023193474A1 (zh) 信息处理方法、装置、计算机设备及存储介质
JP2022503647A (ja) クロスドメイン画像変換
US20240135747A1 (en) Information processing method, computer device, and storage medium
CN114648613A (zh) 基于可变形神经辐射场的三维头部模型重建方法及装置
CN111127309A (zh) 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置
CN112241664A (zh) 人脸识别方法、装置、服务器及存储介质
CN111080746A (zh) 图像处理方法、装置、电子设备和存储介质
CN113033442A (zh) 基于StyleGAN的高自由度人脸驱动方法和装置
CN113808277A (zh) 一种图像处理方法及相关装置
CN117011493B (zh) 基于符号距离函数表示的三维人脸重建方法、装置及设备
CN113393545A (zh) 一种图像动漫化处理方法、装置、智能设备和存储介质
CN117275075B (zh) 一种人脸遮挡检测方法、系统、装置和存储介质
US20240005581A1 (en) Generating 3d facial models &amp; animations using computer vision architectures
Ma Real-time Facial Performance Capture and Manipulation
CN118154774A (zh) 数据处理方法及增强现实ar设备或虚拟现实vr设备
CN116958404A (zh) 面部图像生成方法、装置、计算机设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant