CN114782864B - 一种信息处理方法、装置、计算机设备及存储介质 - Google Patents

一种信息处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114782864B
CN114782864B CN202210370145.5A CN202210370145A CN114782864B CN 114782864 B CN114782864 B CN 114782864B CN 202210370145 A CN202210370145 A CN 202210370145A CN 114782864 B CN114782864 B CN 114782864B
Authority
CN
China
Prior art keywords
coefficient
target
network model
shared
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210370145.5A
Other languages
English (en)
Other versions
CN114782864A (zh
Inventor
王淳
曾定衡
周迅溢
王洪斌
蒋宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210370145.5A priority Critical patent/CN114782864B/zh
Publication of CN114782864A publication Critical patent/CN114782864A/zh
Priority to PCT/CN2022/140143 priority patent/WO2023193474A1/zh
Priority to EP22936399.9A priority patent/EP4345770A1/en
Application granted granted Critical
Publication of CN114782864B publication Critical patent/CN114782864B/zh
Priority to US18/396,966 priority patent/US20240135643A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种信息处理方法、装置、计算机设备及存储介质,本申请实施例通过获取目标视频,目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。通过将第一目标表情系数与非表情系数进行解耦合处理,极大的提升了提取的表情系数的准确性。

Description

一种信息处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种信息处理方法、装置、计算机设备及存储介质。
背景技术
人脸重建是计算机视觉比较热门的一个方向,3D人脸相关应用也是近年来短视频领域的新玩法,其中,根据人脸图像重建人脸3D模型是很多人脸相关应用的基础技术之一。
在现有技术中,通常通过参数化的人脸3D重建算法来构建人脸3D模型,参数化的人脸3D重建算法,通过媒介参数化人脸3D模型作为先验信息做约束,将对人脸3D重建的问题转化为对参数化人脸3D模型的参数的估计,可以很好的应对挑战性环境下的人脸3D重建,而常用的参数化人脸3D重建算法往往通过估计3DMM(3D Morphable Model)系数的方式进行构建。
为了实现后续对于说话人判定或者表情编辑等操作,往往需要提取出图像中人脸的表情信息,然而常用的基于图像的参数化人脸3D重建算法直接提取的3DMM表情信息会和其他非表情信息耦合,使得提取的表情信息不准确,信息处理的准确性较差。
发明内容
本申请实施例提供一种信息处理方法、装置、计算机设备及存储介质,可以提升信息处理的准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种信息处理方法,包括:
获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
将所述第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,所述第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。
一种信息处理装置,包括:
第一获取单元,用于获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
第一输入单元,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
第二输入单元,用于将所述第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,所述第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。
在一些实施例中,所述第二确定子单元,用于:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对所述第一目标视频片段进行样式变换,得到第二目标视频片段;
将所述第一目标视频片段和所述第二目标视频片段确定为目标视频。
在一些实施例中,所述装置,还包括:
第二获取单元,用于获取共享身份系数集合以及共享纹理系数集合;其中,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数;
匹配单元,用于根据所述目标视频对应相同对象的人脸图像匹配所述共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系数;
第一训练单元,用于根据所述共享身份系数以及共享纹理系数对第一预设网络模型进行表情系数预测优化训练,得到第一目标预设网络模型。
在一些实施例中,所述第一训练单元,包括:
第一生成子单元,用于生成第一目标损失函数;
第一训练子单元,用于根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
所述第一生成子单元,还用于将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述信息处理方法中的步骤。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信息处理方法中的步骤。
一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机上述信息处理方法中的步骤。
本申请实施例通过获取目标视频,目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。通过将第一目标表情系数与非表情系数进行解耦合处理,相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大的提升了提取的表情系数的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息处理系统的场景示意图;
图2是本申请实施例提供的信息处理方法的流程示意图;
图3是本申请实施例提供的信息处理方法的另一流程示意图;
图4a为本申请实施例提供的信息处理方法的场景示意图;
图4b为本申请实施例提供的信息处理系统的框架示意图;
图5是本申请实施例提供的信息处理装置的结构示意图;
图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供一种信息处理方法、装置、计算机设备及存储介质。其中,该信息处理方法可以应用于信息处理装置中。该信息处理装置可以集成在计算机设备中,该计算机设备可以是具有信息处理功能的终端。其中,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机以及智能手表等,但并不局限于此。该计算机设备也可以是服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,为本申请提供的信息处理的场景示意图;如图所示,计算机设备获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将该第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,该第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。
需要说明的是,图1所示的信息处理的场景示意图仅仅是一个示例,本申请实施例描述的信息处理场景是为了更加清楚地说明本申请的技术方案,并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知,随着信息处理的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。
在本实施例中,将从信息处理装置的角度进行描述,该信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。
请参阅图2,图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括:
在步骤101中,获取目标视频。
其中,该目标视频由多帧图像组成,且该目标视频中每一帧包含相同对象对应的人脸图像,该对象可以为用户,即本申请实施例可以将同一个用户的人脸图像连续出现的视频片段确定为目标视频。
在一些实施方式中,从获取目标视频,可以包括:
(1)获取初始视频;
(2)提取该初始视频中每一帧的人脸图像;
(3)通过分析每一帧的人脸图像确定相同对象,将连续出现相同对象的多帧视频片段确定为初始视频片段;
(4)将帧数大于预设阈值的初始视频片段确定为目标视频。
其中,该初始视频可以为清晰的人脸视频组成的视频,该初始视频中可以包含一个或多个清晰人脸的视频。以此,可以通过人脸检测算法和人脸跟踪算法依次确定每一帧的人脸对应人脸框,该人脸框可以以矩形框的形式进行标定。
进一步的,可以将视频中每一帧的相同对象的人脸框进行关联,形成人脸框序列,具体的人脸框序列组件规则如下:
对比相邻帧临近位置内人脸框的相似度,若高于预设阈值,则将其认定为相同对象,若中间有任一帧开始,没有和前面帧相同的对象,则人脸框对比结束,且若中间有一帧开始,出现了一个新的对象,则新建一个人脸框序列,以此类推,确定至少一个相同对象的人脸框序列。
为了保证人脸框序列的质量,在一实施方式中可以通过如下方式筛选人脸框序列中的人脸框:(A)可以删除人脸框序列中和其他人脸框序列中存在至少一个人脸框重叠的框;(B)可以删除人脸框序列中尺寸小于预设尺寸的框;(C)可以删除人脸框序列中人脸图像模糊的框。该人脸图像模糊判定的方式,可以通过对人脸框内图像计算拉普拉斯值,若该拉普拉斯值低于预设阈值,认定为模糊人脸。以此,每种相同对象的人脸框序列均对应一个人脸框序列,舍弃长度不足预设帧数的人脸框序列,例如将长度不足10帧的人脸框序列删除,得到符合要求的多个人脸框序列。
为了保证人脸框的图像质量,对人脸框序列进行平滑操作,形成方形的人脸框子序列,具体为(D)计算人脸框子序列中的每个框的框中心,和边长(长宽中较大的值并放大1.4倍),形成框中心序列和框边长序列;(E)对框中心序列和框边长序列,分别进行平滑滤波;(F)根据平滑后的框中心和框边长,重组人脸框,得到平滑后的人脸框序列。以此,根据平滑操作之后的人脸框序列,从初始视频中裁取对应位置的图像(若方形框超出图像边界,则填充0像素),缩放到固定尺寸,按照每帧的拼接顺序形成至少一个目标视频,每一个目标视频中包含相同对象对应的人脸图像。
在一些实施方式中,从将帧数大于预设阈值的初始视频片段确定为目标视频,可以包括:
(1.1)将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
(1.2)对该第一目标视频片段进行样式变换,得到第二目标视频片段;
(1.3)将该第一目标视频片段和该第二目标视频片段确定为目标视频。
其中,可以将帧数大于预设阈值的初始视频片段确定为第一目标视频片段,为了适配更多的应用场景,可以对该第一目标视频片段进行样本扩充,在一实施方式,该样式变换的方式可以有压缩、亮度变化、色调变化和/或改变编码格式等不改变图像尺寸的操作,以此,可以对该第一目标视频片段进行样式变换,得到第二目标视频片段,即扩充后的视频片段,将该第一目标视频片段和该第二目标视频片段确定为目标视频,即实现目标视频的倍增。
倍增后的视频,还可以通过上述方法进一步做倍增处理。在一些实施方式中,为了保证目标视频的质量,不对倍增后的视频做进一步的倍增。
在一些实施方式中,可以利用人脸检测算法提取目标视频中每个帧的人脸图像,缩放到预定尺寸,本文选择缩放到224x224x3的尺寸,和第一预设主干网络的输入尺寸保持一致;并进一步提取人脸图像中的人脸三维(3D)关键点,该人脸3D关键点决定了人脸的表达形式。可以将该目标视频转化为{人脸图像,人脸3D关键点}的集合,需要说明的是,部分倍增后的视频变为不清晰之后,可能无法提取相应的人脸3D关键点,为了解决上述问题,可以将无法提取人脸3D关键点直接引用进行倍增的目标视频的人脸3D关键点。
在步骤102中,将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
其中,该第一目标预设主干模型用于提取每一帧的人脸图像的公共的特征,该第一预设主干模型可以采用4层ResBlock网络结构作为主干网络,以此,可以将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征,该第一目标图像特征的尺度可以为28*28*128。
第一目标预设主干模型为通过第一预设主干模型训练后得到,该第一预设主干模型的网络参数为初始化为ImageNet预训练的网络参数,具体的,为了更好的理解本申请实施例,此处先对第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数的训练过程进行解释:
在相关技术中,通常可以通过参数化的人脸3D重建算法来构建人脸3D模型,需要说明的是,该3DMM是一种参数化人脸3D模型,该模型主要包括几何(也可以理解为形状)和纹理两个向量部分组成,即任何新的一个人脸都可以由这些向量组合生成,分别由如下公式表达:
其中,S是人脸3D几何,是3DMM的平均人脸3D几何,为已知参数,Bid和Bexp分别是3DMM中表示身份的基底和表示表情的基底,为配置好的已知参数,αid和αexp是对应的身份系数和表情系数;
通过设置不同的身份系数和表情系数,可以获得不同的人脸3D几何形状,类似的,该T是人脸的纹理,βtex是对应的纹理系数,是3DMM的平均人脸纹理,为已知参数,Btex是3DMM中表示纹理的基底,为配置好的已知参数,通过设置不同的纹理系数,可以获得不同的人脸纹理。
特别的,为了将人脸3D模型投影成像,还需知道人脸3D模型相对于相机的姿态系数,以及环境光光照模型的光照系数,以此,只要知道身份系数、纹理系数、表情系数、姿态系数以及光照系数即可以构成相应需要的人脸3D模型。
本申请实施例为了更好的对于说话人判定或者表情标记,需要单独提取表情系数,提取的表情系数越准确,后续处理效果越好,虽然可以简单的通过3DMM定义的表情系数作为需要的表情系数,在3DMM下,定义无表情系数的人脸为中性表情,该中性表情可以理解为脸部自然放松,双眼平视前方,嘴部自然闭合且嘴角放平时的表情,同一个人在其他表情下的人脸3D模型相对该中性表情相对参照的形变为表情,相应的,该表情所对应的表情信息即为本申请实施例需要提取的表情系数。
然而,对系数的求解是一个非线性的算法问题,当仅有一张人脸图像作为输入时,往往存在多个局部解。即,存在多个<身份系数,纹理系数,表情系数,姿态系数,光照系数>的组合可以形成类似的人脸3D模型。例如,对于一个厚嘴唇且嘴比较小的人脸图像,既可能对应于一个厚嘴唇,嘴比较小的人在中性表情时的人脸3D模型,也可能对应于一个薄嘴唇且嘴比较大的人在略微嘟嘴的表情时的人脸3D模型,两者可以对输入图像实现类似的拟合。
针对这种存在多个合理解的情况,往往是因为表情系数和其他非表情系数,特别是身份系数,耦合导致的,而本申请实施例为了实现表情系数和其他非表情系数的解耦合,提前设定目标视频中每一帧为相同对象对应的人脸图像,由于时间间隔很短,所以这些人脸图像应具有相同的共享身份系数和共享纹理系数,所以可以设定相同的对象的目标视频使用相同的共享身份系数和共享纹理系数,该共享身份系数可以预存在共享身份系数集合,该共享纹理系数可以预存在共享纹理系数集合中,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数。该共享身份系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享身份系数维度,该共享身份系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享身份系数可以智能化调节。
该共享纹理系数可以预存在共享纹理系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该共享纹理系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享纹理系数维度,该共享纹理系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享纹理系数可以智能化调节,即可以实现不断优化,可以根据目标视频对应相同对象的人脸图像匹配共享身份系数集合以及共享纹理集合,获取目标视频对应相同对象的人脸图像通用的共享身份系数以及共享纹理系数。
可以根据目标视频中相同对象的人脸图像通用的共享身份系数以及共享纹理系数对第一预设网络模型进行表情系数预测优化训练,得到第一目标预设网络模型,具体可以参考如下训练方式:
在一些实施方式中,该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数预测优化训练的过程如下:
生成第一目标损失函数,在一实施方式中,该生成第一目标损失函数,包括:
(1)将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
(2)将该第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
(3)获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
(4)根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
(5)获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
(6)获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
(7)通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
(8)根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数;
根据第一目标损失函数进行训练的过程如下:
(9)根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
其中,第一预设主干模型用于预测每一帧的人脸图像的公共的特征,该第一预设网络模型用于预测表情系数,该第二预设网络模型用于预测姿态系数,该第三预设网络模型用于预测光照系数,该共享身份系数、共享纹理系数用于表征目标视频下特定目标对象的身份系数和纹理系数,且在目标对象相同的目标视频中,每一帧的人脸图像对应的共享身份系数和共享纹理系数相同,以实现引入对身份系数和纹理系数的额外约束关系来消除歧义。
该第一预设网络模型、第二预设网络模型和第三预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接(Fully connected layer,FClayer)的结构,基于此,可以将每一第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,输出预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数,由于该第一预设网络模型、第二预设网络模型和第三预设网络模型还没有训练完成,因此,该第一预测表情系数、第一预测姿态系数和第一预测光照系数不是最优值。
在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以先获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数,再根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,该第一人脸估计值为通过可微分渲染器(differentiable renderer)对构建出的第一预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第一预测人脸三维模型对应的第一人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第一差异,之所以引入未被遮挡区域M的原因是3DMM模型无法表达遮挡物,导致“系数估计值构建的人脸图像估计值”都是完整的人脸。而“人脸图像真值”如果不是完整的人脸,比如戴了墨镜,则两者在遮挡处不应该比较差异,所以选择用M去掉遮挡部分,只比较未遮挡部分的人脸。因此,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。该第一差异越大,说明第一人脸估计值和人脸图像越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第一差异越小,说明第一人脸估计值和人脸图像越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第一差异的计算方式,可以通过如下公式计算:
其中,该Lrec为第一差异,该Mi为未遮挡区域,该Ii为第i个人脸图像,该为第i个第一人脸估计值,通过上述公式计算出第一差异,上述公式可以理解为第一差异的损失函数。
还可以获取第一预测人脸三维模型对应的第一预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第一预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第一预测人脸三维关键点)计算当前估计值/>与真实的人脸图像的人脸三维关键点的真值K在未被遮挡区域M的第二差异。该第二差异越大,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一预设主干模型、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第二差异越小,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一预设主干模型、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第二差异的计算方式,可以通过如下公式计算:
其中,该Llan为第二差异,该wi为权重,每个关键点有不同的权重,即在计算损失函数时,有些关键点的错误比其他关键点的错误更重要。这些权重的值在技术实现中,是预先定义的。该ki为第i个人脸三维关键点的真值,该为第i个第一预测人脸三维模型的人脸3D关键点的当前估计值,该N代表关键点的数量,例如为68个。通过上述公式计算出第二差异,上述公式可以理解为第二差异的损失函数。
还可以通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系,约束该共享身份系数、共享纹理系数和第一预测表情系数的约束关系不要偏离零均值过多,可以通过如下公式计算:
其中,该αd,αt和αe是预设的权重系数,用于平衡各项损失函数,该为共享身份系数,/>为共享纹理系数和/>为第一预测表情系数。上述公式可以理解为约束损失函数。
可以根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数。
最后根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。即可以根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数采用随机梯度下降算法进行优化,多次重复执行生成第一目标损失函数的过程,通过不断更新的第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至该第一目标损失函数收敛,即损失函数收敛。具体的,可以通过如下公式建立第一差异、第二差异和该约束关系的第一目标损失函数,如下:
L=λrec Lreclan L1anreg Lreg
该λrec,λlan和λreg是预设的权重系数,用于平衡各项损失函数,该L为第一目标损失函数,基于该第一目标损失函数可以根据随机梯度下降算法对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化,并重复将不同的每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,迭代计算该第一目标损失进行迭代调节,直至该第一目标损失收敛,得到训练后的第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
以此,训练后的第一目标主干模型可以根据人脸图像输出准确的第一目标图像特征。该训练后的第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型可以输出准确的表情系数、姿态系数以及光照系数。
在步骤103中,将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数。
其中,可以将第一目标图像特征输入训练后的第一目标预设网络模型,输出准确的第一目标表情系数。将第一目标图像特征输入训练后的第二目标预设网络模型,输出准确的第一目标姿态系数。将第一目标图像特征输入训练后的第三目标预设网络模型,输出准确的第一目标光照系数。由于引入了共享身份系数和共享纹理系数的额外约束,即定义好身份系数和纹理系数,所以实现该第一目标表情系数和其他非表情系数的解耦合,提升了该第一目标表情系数的准确性。
由上述可知,本申请实施例通过获取目标视频,目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。通过将第一目标表情系数与非表情系数进行解耦合处理,相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大的提升了提取的表情系数的准确性。
在本实施例中,将以该信息处理装置具体集成在服务器中为例进行说明,具体参照以下说明。
请参阅图3,图3为本申请实施例提供的信息处理方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器获取初始视频,提取初始视频中每一帧的人脸图像,将出现相同对象的多帧视频片段确定为初始视频片段。
其中,该初始视频可以为清晰的人脸视频组成的视频,该初始视频中可以包含一个或多个清晰人脸的视频。服务器可以通过人脸检测算法和人脸跟踪算法依次提取该初始视频中每一帧的人脸图像,通过人脸图像确定相应的用户身份信息,进而通过该用户身份信息确定人脸图像对应的用户(即对象)。
进一步的,服务器可以将相邻帧连续出现相同对象的多帧视频片段确定为初始视频片段,该初始视频片段可以为2帧以上的人脸图像,且该初始视频片段中每一帧的人脸图像都对应相同的对象。
在步骤202中,服务器将帧数大于预设阈值的初始视频片段确定为第一目标视频片段,对第一目标视频片段进行样式变换,得到第二目标视频片段,将第一目标视频片段和第二目标视频片段确定为目标视频。
其中,为了保证目标视频后续的训练效果,需要将帧数不足的初始视频片段删除,该预设阈值即用于界定帧数是否达到满足训练效果的数量的临界值,例如50帧,以此,可以将帧数大于预设阈值的初始视频片段确定为第一目标视频。
为了适配更多的应用场景,可以对该第一目标视频片段进行样本扩充,在一实施方式,该样式变换的方式可以有压缩、亮度变化、色调变化和/或改变编码格式等不改变图像尺寸的操作,以此,可以对该第一目标视频片段进行样式变换,得到第二目标视频片段,即扩充后的视频片段,将该第一目标视频片段和该第二目标视频片段确定为目标视频,即实现目标视频的倍增。
为了保证目标视频的质量,不对倍增后的视频做进一步的倍增。
为了后续处理的便利性,可以利用人脸检测算法提取目标视频中每个帧的人脸图像,并进一步提取人脸图像中的人脸三维关键点,该人脸3D关键点决定了人脸的表达形式。可以将该目标视频转化为{人脸图像,人脸3D关键点}的集合。需要说明的是,部分倍增后的视频变为不清晰之后,可能无法提取相应的人脸3D关键点,为了解决上述问题,可以将无法提取人脸3D关键点直接引用之前进行倍增的目标视频的人脸3D关键点。
在步骤203中,服务器获取共享身份系数集合以及共享纹理系数集合,根据目标视频中相同对象的人脸图像匹配共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系数。
本申请实施例为了实现表情系数和其他非表情系数的解耦合,可以提前设定目标视频中每一帧为相同对象对应的人脸图像,由于时间间隔很短,所以这些人脸图像都具有相同的共享身份系数和共享纹理系数,所以可以设定相同的对象的目标视频使用相同的共享身份系数和共享纹理系数,该共享身份系数可以预存在共享身份系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该集合可以包括K个,相同的对象共享相同的共享身份系数和共享纹理系数,不同对象的人脸图像对应不同的共享身份系数和共享纹理系数。该共享身份系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享身份系数维度,该共享身份系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享身份系数可以随着学习的过程智能化调节。
该共享纹理系数可以预存在共享纹理系数集合中,根据目标视频对应相同对象的人脸图像匹配共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系数。该共享纹理系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享纹理系数维度,该共享纹理系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享纹理系数可以随着学习的过程智能化调节,需要说明的是,该共享身份系数和共享纹理系数可以随着训练进行不断的优化。
例如,如图4a所示,目标视频中每一帧的人脸图像具有相同的共享身份系数和共享纹理系数,且每一帧具有独立的预测表情系数、预测姿态系数以及预测光照系数。
以实现引入对身份系数和纹理系数的额外约束关系来消除歧义,实现表情系数和非表情系数的解耦合。
在步骤204中,服务器将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,将第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数。
其中,请一并参阅图4b所示,图4b为本申请实施例提供的信息处理系统的框架20示意图,该第一图像特征代表每一帧的人脸图像公共的特征,该第一预设主干模型可以采用4层ResBlock网络结构作为主干网络,服务器可以将每一帧的人脸图像依次输入第一预设主干模型,输出每一帧的人脸图像对应的第一图像特征,该第一图像特征的尺度可以为28*28*128。
其中,请继续参阅图4b所示,该第一预设网络模型用于预测表情系数,该第二预设网络模型用于预测姿态系数,该第三预设网络模型用于预测光照系数,该第一预设网络模型、第二预设网络模型和第三预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接的结构,在一实施方式中,该第一预设网络模型、第二预设网络模型和第三预设网络模型还可以采用不同的网络结构,此处举例不作为具体限定。基于此,可以将每一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数,由于该第一预设网络模型、第二预设网络模型和第三预设网络模型还没有训练完成,因此,该第一预测表情系数、第一预测姿态系数和第一预测光照系数未必准确。
在步骤205中,服务器根据共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型。
其中,请继续参阅图4b所示,在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以先获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数,再根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型(包含人脸3D几何和人脸纹理)。
在步骤206中,服务器获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异,获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异,通过正则化损失函数建立共享身份系数、共享纹理系数和第一预测表情系数的约束关系,根据第一差异、第二差异和约束关系生成相应的第一目标损失函数,根据第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数优化。
其中,该第一人脸估计值为通过可微分渲染器(differentiable renderer)对构建出的第一预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第一预测人脸三维模型对应的第一人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第一差异。训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人脸眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。该第一差异越大,说明第一人脸估计值和人脸图像越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理不准确,相反的,该第一差异越小,说明第一人脸估计值和人脸图像越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越准确。该第一差异的计算方式,可以通过如下公式计算:
其中,该Lrec为第一差异,该Mi为未遮挡区域,该Ii为第i个人脸图像,该为第i个第一人脸估计值,通过上述公式计算出第一差异,上述公式可以理解为第一差异的损失函数。
还可以获取第一预测人脸三维模型对应的第一预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第一预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第一预测人脸三维关键点)计算当前估计值/>与真实的人脸图像的人脸三维关键点的真值K在未被遮挡区域M的第二差异。该第二差异越大,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越不准确,相反的,该第二差异越小,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越准确。该第二差异的计算方式,可以通过如下公式计算:
其中,该Llan为第二差异,该wi为权重,每个关键点有不同的权重,即在计算损失函数时,有些关键点的权重比其他关键点的权重更重要。这些权重的值在技术实现中,是预先定义的。该ki为第i个人脸三维关键点的真值,该为第i个第一预测人脸三维模型的人脸3D关键点的当前估计值,该N代表关键点的数量,例如为68个。通过上述公式计算出第二差异,上述公式可以理解为第二差异的损失函数。
还可以通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系,约束该共享身份系数、共享纹理系数和第一预测表情系数的约束关系不要偏离零均值过多,可以通过如下公式计算:
其中,该αd,αt和αe是预设的权重系数,用于平衡各项损失函数,该为共享身份系数,/>为共享纹理系数和/>为第一预测表情系数。上述公式可以理解为约束损失函数。
可以根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数。
最后根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化。
在步骤207中,服务器返回执行将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,以对第一网络参数进行迭代优化,直至第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
其中,服务器返回执行将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征的步骤对第一网络参数进行迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
即可以根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络模型采用随机梯度下降算法进行优化,多次重复,直至该第一目标损失函数收敛,即损失函数收敛。具体的,可以通过如下公式建立第一差异、第二差异和该约束关系的第一目标损失函数,如下:
L=λrec Lreclan Llanreg Lreg
该λrec,λlan和λreg是预设的权重系数,用于平衡各项损失函数,该L为第一目标损失函数,基于该第一目标损失函数可以根据随机梯度下降算法对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化,并重复将不同的每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,迭代计算该第一目标损失进行迭代调节,直至该第一目标损失收敛,得到训练后的第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
以此,训练后的第一目标主干模型可以根据人脸图像输出准确的第一目标图像特征。该训练后的第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型可以输出准确的表情系数、姿态系数以及光照系数,该共享身份系数和共享纹理系数均为准确的系数。
在步骤208中,服务器将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征,将第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数。
其中,服务器可以将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特,进而将第一目标图像特征输入训练后的第一目标预设网络模型,输出准确的第一目标表情系数。由于引入了共享身份系数和共享纹理系数的额外约束,即定义好身份系数和纹理系数,所以实现该第一目标表情系数和其他非表情系数的解耦合,提升了该第一目标表情系数的准确性。
由上述可知,本申请实施例通过获取目标视频,目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。通过将第一目标表情系数与非表情系数进行解耦合处理,相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大的提升了提取的表情系数的准确性。
请参阅图5,图5为本申请实施例提供的信息处理装置的结构示意图,其中该信息处理装置可以包括第一获取单元301、第一输入单元302、以及第二输入单元303等。
第一获取单元301,用于获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像。
在一些实施方式中,该第一获取单元301,包括:
获取子单元,用于获取初始视频;
提取子单元,用于提取该初始视频中每一帧的人脸图像;
第一确定子单元,用于将出现相同对象的多帧视频片段确定为初始视频片段;
第二确定子单元,用于将帧数大于预设阈值的初始视频片段确定为目标视频。
在一些实施例中,该第二确定子单元,用于:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对该第一目标视频片段进行样式变换,得到第二目标视频片段;
将该第一目标视频片段和该第二目标视频片段确定为目标视频。
在一些实施例中,该装置,还包括:
第二获取单元,用于获取共享身份系数集合以及共享纹理系数集合;其中,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数;
匹配单元,用于根据该目标视频对应相同对象的人脸图像匹配该共享身份系数集合以及共享纹理系数集合,获取相应的共享身份系数以及共享纹理系数;
第一训练单元,用于根据该共享身份系数以及共享纹理系数对第一预设网络模型进行表情系数预测优化训练,得到第一目标预设网络模型。
在一些实施例中,所述第一训练单元,包括:
第一生成子单元,用于生成第一目标损失函数;
第一训练子单元,用于根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
所述第一生成子单元,还用于将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
第一输入单元302,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
第二输入单元303,用于将该第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,该第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例还提供一种计算机设备,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;可选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,可选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现前述实施例提供的各种方法步骤,如下:
获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将该第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,该第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对信息处理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将该第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,该第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息处理方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
将所述第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,所述第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到,其中,所述共享身份系数和共享纹理系数为根据所述目标视频中相同对象的人脸图像匹配共享身份系数集合以及共享纹理系数集合所获取的,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数。
2.根据权利要求1所述的信息处理方法,其特征在于,所述获取目标视频,包括:
获取初始视频;
提取所述初始视频中每一帧的人脸图像;
通过分析每一帧的所述人脸图像确定相同对象,将出现相同对象的多帧视频片段确定为初始视频片段;
将帧数大于预设阈值的初始视频片段确定为目标视频。
3.根据权利要求2所述的信息处理方法,其特征在于,所述将帧数大于预设阈值的初始视频片段确定为目标视频,包括:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对所述第一目标视频片段进行样式变换,得到第二目标视频片段;
将所述第一目标视频片段和所述第二目标视频片段确定为目标视频。
4.根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:
获取共享身份系数集合以及共享纹理系数集合;
根据所述共享身份系数以及共享纹理系数对第一预设网络模型进行表情系数预测优化训练,得到第一目标预设网络模型。
5.根据权利要求4所述的信息处理方法,其特征在于,所述根据所述共享身份系数以及共享纹理系数对第一预设网络模型进行表情系数预测优化训练,得到第一目标预设网络模型,包括:
生成第一目标损失函数;
根据所述第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
其中,所述生成第一目标损失函数,包括:
将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
6.根据权利要求5所述的信息处理方法,其特征在于,所述根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数,包括:
根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数优化;
返回重复执行生成第一目标损失函数,通过生成的第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
7.一种信息处理装置,其特征在于,包括:
第一获取单元,用于获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
第一输入单元,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
第二输入单元,用于将所述第一目标图像特征输入第一目标预设网络模型,对应输出第一目标表情系数;其中,所述第一目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数预测优化训练得到,其中,所述共享身份系数和共享纹理系数为根据所述目标视频中相同对象的人脸图像匹配共享身份系数集合以及共享纹理系数集合所获取的,不同对象的人脸图像对应不同的共享身份系数以及共享纹理系数。
8.根据权利要求7所述的信息处理装置,其特征在于,所述第一获取单元,包括:
获取子单元,用于获取初始视频;
提取子单元,用于提取所述初始视频中每一帧的人脸图像;
第一确定子单元,用于将出现相同对象的多帧视频片段确定为初始视频片段;
第二确定子单元,用于将帧数大于预设阈值的初始视频片段确定为目标视频。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的信息处理方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至6任一项所述的信息处理方法中的步骤。
CN202210370145.5A 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质 Active CN114782864B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202210370145.5A CN114782864B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质
PCT/CN2022/140143 WO2023193474A1 (zh) 2022-04-08 2022-12-19 信息处理方法、装置、计算机设备及存储介质
EP22936399.9A EP4345770A1 (en) 2022-04-08 2022-12-19 Information processing method and apparatus, computer device, and storage medium
US18/396,966 US20240135643A1 (en) 2022-04-08 2023-12-27 Information processing method, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210370145.5A CN114782864B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114782864A CN114782864A (zh) 2022-07-22
CN114782864B true CN114782864B (zh) 2023-07-21

Family

ID=82428439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210370145.5A Active CN114782864B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114782864B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898244B (zh) * 2022-04-08 2023-07-21 马上消费金融股份有限公司 一种信息处理方法、装置、计算机设备及存储介质
EP4345770A1 (en) * 2022-04-08 2024-04-03 Mashang Consumer Finance Co., Ltd. Information processing method and apparatus, computer device, and storage medium
CN115984943B (zh) * 2023-01-16 2024-05-14 支付宝(杭州)信息技术有限公司 面部表情捕捉及模型训练方法、装置、设备、介质及产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011162352A1 (ja) * 2010-06-23 2011-12-29 株式会社 山武 3次元データ生成装置、生成方法およびプログラム
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN112652058A (zh) * 2020-12-31 2021-04-13 广州华多网络科技有限公司 人脸图像重演方法、装置、计算机设备及存储介质
CN112884881A (zh) * 2021-01-21 2021-06-01 魔珐(上海)信息科技有限公司 三维人脸模型重建方法、装置、电子设备及存储介质
CN113129425A (zh) * 2019-12-31 2021-07-16 Tcl集团股份有限公司 一种人脸图像三维重建方法、存储介质及终端设备
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113366491A (zh) * 2021-04-26 2021-09-07 华为技术有限公司 眼球追踪方法、装置及存储介质
CN113838176A (zh) * 2021-09-16 2021-12-24 网易(杭州)网络有限公司 模型的训练方法、三维人脸图像生成方法及设备
CN114078275A (zh) * 2021-11-19 2022-02-22 广州虎牙科技有限公司 表情识别方法、系统及计算机设备
CN114255496A (zh) * 2021-11-30 2022-03-29 北京达佳互联信息技术有限公司 视频生成方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011162352A1 (ja) * 2010-06-23 2011-12-29 株式会社 山武 3次元データ生成装置、生成方法およびプログラム
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN113129425A (zh) * 2019-12-31 2021-07-16 Tcl集团股份有限公司 一种人脸图像三维重建方法、存储介质及终端设备
CN112652058A (zh) * 2020-12-31 2021-04-13 广州华多网络科技有限公司 人脸图像重演方法、装置、计算机设备及存储介质
CN112884881A (zh) * 2021-01-21 2021-06-01 魔珐(上海)信息科技有限公司 三维人脸模型重建方法、装置、电子设备及存储介质
CN113366491A (zh) * 2021-04-26 2021-09-07 华为技术有限公司 眼球追踪方法、装置及存储介质
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113838176A (zh) * 2021-09-16 2021-12-24 网易(杭州)网络有限公司 模型的训练方法、三维人脸图像生成方法及设备
CN114078275A (zh) * 2021-11-19 2022-02-22 广州虎牙科技有限公司 表情识别方法、系统及计算机设备
CN114255496A (zh) * 2021-11-30 2022-03-29 北京达佳互联信息技术有限公司 视频生成方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于三维对齐方式的深度学习人脸识别算法;王秋雨 等;《系统科学与数学》;第41卷(第7期);2035-2045 *

Also Published As

Publication number Publication date
CN114782864A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN111325851B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN114782864B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN114821404B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN108921782B (zh) 一种图像处理方法、装置及存储介质
US11049310B2 (en) Photorealistic real-time portrait animation
Chaudhuri et al. Personalized face modeling for improved face reconstruction and motion retargeting
CN106682632B (zh) 用于处理人脸图像的方法和装置
CN114783022B (zh) 一种信息处理方法、装置、计算机设备及存储介质
WO2023193474A1 (zh) 信息处理方法、装置、计算机设备及存储介质
US20240135747A1 (en) Information processing method, computer device, and storage medium
CN112241664A (zh) 人脸识别方法、装置、服务器及存储介质
CN111080746A (zh) 图像处理方法、装置、电子设备和存储介质
CN111553838A (zh) 模型参数的更新方法、装置、设备及存储介质
CN113033442A (zh) 基于StyleGAN的高自由度人脸驱动方法和装置
Lawonn et al. Stylized image triangulation
CN117011493B (zh) 基于符号距离函数表示的三维人脸重建方法、装置及设备
CN114049290A (zh) 图像处理方法、装置、设备及存储介质
CN114627211A (zh) 视频名片生成方法、装置、计算机设备和存储介质
CN113393545A (zh) 一种图像动漫化处理方法、装置、智能设备和存储介质
CN117275075B (zh) 一种人脸遮挡检测方法、系统、装置和存储介质
CN115496989B (zh) 一种生成器、生成器训练方法及避免图像坐标粘连方法
US20240005581A1 (en) Generating 3d facial models &amp; animations using computer vision architectures
Ma Real-time Facial Performance Capture and Manipulation
KR20240089729A (ko) 화상 처리 방법, 장치, 저장 매체 및 전자 기기

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant