CN114821404A - 一种信息处理方法、装置、计算机设备及存储介质 - Google Patents

一种信息处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114821404A
CN114821404A CN202210370142.1A CN202210370142A CN114821404A CN 114821404 A CN114821404 A CN 114821404A CN 202210370142 A CN202210370142 A CN 202210370142A CN 114821404 A CN114821404 A CN 114821404A
Authority
CN
China
Prior art keywords
target
coefficient
preset
network model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210370142.1A
Other languages
English (en)
Other versions
CN114821404B (zh
Inventor
王淳
曾定衡
周迅溢
王洪斌
蒋宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210370142.1A priority Critical patent/CN114821404B/zh
Publication of CN114821404A publication Critical patent/CN114821404A/zh
Priority to PCT/CN2022/140143 priority patent/WO2023193474A1/zh
Priority to EP22936399.9A priority patent/EP4345770A1/en
Application granted granted Critical
Publication of CN114821404B publication Critical patent/CN114821404B/zh
Priority to US18/396,966 priority patent/US20240135643A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例公开了一种信息处理方法、装置、计算机设备及存储介质,本申请实施例通过获取目标视频;提取每一帧的人脸图像得到第一目标图像特征;将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,输出第一目标身份系数和第一目标纹理系数;输出根据先验知识得到的第一目标身份特征和第一目标纹理特征与第一目标图像特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,极大提升了提取的表情系数的准确性。

Description

一种信息处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种信息处理方法、装置、计算机设备及存储介质。
背景技术
人脸重建是计算机视觉比较热门的一个方向,3D人脸相关应用也是近年来短视频领域的新玩法,其中,根据人脸图像重建人脸3D模型是很多人脸相关应用的基础技术之一。
在现有技术中,通常通过参数化的人脸3D重建算法来构建人脸3D模型,参数化的人脸3D重建算法,通过媒介参数化人脸3D模型作为先验信息做约束,将对人脸3D重建的问题转化为对参数化人脸3D模型的参数的估计,可以很好的应对挑战性环境下的人脸3D重建,而常用的参数化人脸3D重建算法往往通过估计3DMM(3D Morphable Model)系数的方式进行构建。
为了实现后续对于说话人判定或者表情编辑等操作,往往需要提取出图像中人脸的表情信息,然而常用的基于图像的参数化人脸3D重建算法直接提取的3DMM表情信息会和其他非表情信息耦合,使得提取的表情信息不准确,信息处理的准确性较差。
发明内容
本申请实施例提供一种信息处理方法、装置、计算机设备及存储介质,可以提升信息处理的准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种信息处理方法,包括:
获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,所述第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;
将所述第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,所述第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的;
获取所述第一目标图像特征在所述目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数;
将所述第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;
将所述第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;
将所述第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;
将所述第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,其中,所述目标预设头部网络模型为结合在所述目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
一种信息处理装置,包括:
第一获取单元,用于获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
第一输入单元,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
第二输入单元,用于将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,所述第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;
第三输入单元,用于将所述第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,所述第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的;
第二获取单元,用于获取所述第一目标图像特征在所述目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数;
第四输入单元,用于将所述第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;
第五输入单元,用于将所述第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;
拼接单元,用于将所述第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;
第六输入单元,用于将所述第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,其中,所述目标预设头部网络模型为结合在所述目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
在一些实施例中,所述第一获取单元,包括:
获取子单元,用于获取初始视频;
提取子单元,用于提取所述初始视频中每一帧的人脸图像;
第一确定子单元,用于将出现相同对象的多帧视频片段确定为初始视频片段;
第二确定子单元,用于将帧数大于预设阈值的初始视频片段确定为目标视频。
在一些实施例中,所述第二确定子单元,用于:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对所述第一目标视频片段进行样式变换,得到第二目标视频片段;
将所述第一目标视频片段和所述第二目标视频片段确定为目标视频。
在一些实施例中,所述装置,还包括第一训练单元,包括:
第一生成子单元,用于生成第一目标损失函数;
第一训练子单元,用于根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
所述第一生成子单元,还用于将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
在一些实施例中,所述装置,还包括第二训练单元,包括:
第二生成子单元,用于生成第二目标损失函数;
所述第二训练子单元,用于通过所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至所述第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型;
所述第二生成子单元,还用于将所述第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
根据所述第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异;
根据所述第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
基于所述预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异;
根据所述第三差异和第四差异建立第二目标损失函数。
在一些实施例中,所述装置,还包括第三训练单元,包括:
第三生成子单元,用于生成第三目标损失函数;
第三训练子单元,用于根据所述第三目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行迭代优化,直至所述第三目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型;
所述第三生成子单元,还用于将所述第二目标身份系数输入第二预设主干模型,输出第一身份特征;
将所述第二目标纹理系数输入第三预设主干模型,输出第一纹理特征;
将所述第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征;
将所述第一特征输入预设头部网络模型,输出第二预测表情系数;
根据所述第一目标身份系数、第一目标纹理系数、第二预测表情系数、第一目标姿态系数以及第一目标光照系数,生成第三预测人脸三维模型;
获取第三预测人脸三维模型对应的第二人脸估计值和人脸图像中未被遮挡区域之间的第五差异;
获取第三预测人脸三维模型对应的第二预测人脸三维关键点和人脸三维关键点之间的第六差异;
根据所述第五差异和第六差异建立第三目标损失函数。
一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述信息处理方法中的步骤。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信息处理方法中的步骤。
一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机上述信息处理方法中的步骤。
本申请实施例通过获取目标视频;提取每一帧的人脸图像得到第一目标图像特征;将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,输出第一目标身份系数和第一目标纹理系数;输出根据先验知识得到的第一目标身份特征和第一目标纹理特征与第一目标图像特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,极大提升了提取的表情系数的准确性。相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大提升了提取的表情系数的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息处理系统的场景示意图;
图2是本申请实施例提供的信息处理方法的流程示意图;
图3是本申请实施例提供的信息处理方法的另一流程示意图;
图4a为本申请实施例提供的信息处理系统的框架示意图;
图4b为本申请实施例提供的信息处理方法的场景示意图;
图4c为本申请实施例提供的信息处理系统的另一框架示意图;
图4d为本申请实施例提供的信息处理系统的再一框架示意图;
图5是本申请实施例提供的信息处理装置的结构示意图;
图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供一种信息处理方法、装置、计算机设备及存储介质。其中,该信息处理方法可以应用于信息处理装置中。该信息处理装置可以集成在计算机设备中,该计算机设备可以是具有信息处理功能的终端。其中,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机以及智能手表等,但并不局限于此。该计算机设备也可以是服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,为本申请提供的信息处理的场景示意图;如图所示,计算机设备获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;将该第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,该第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型为获取共享身份系数和共享纹理系数,进行表情系数、姿态系数、和光照系数预测优化训练得到的;将该第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,进行身份系数和纹理系数预测优化训练得到的;获取该第一目标图像特征在该目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数;将该第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将该第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将该第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将该第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,其中,该目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
需要说明的是,图1所示的信息处理的场景示意图仅仅是一个示例,本申请实施例描述的信息处理场景是为了更加清楚地说明本申请的技术方案,并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知,随着信息处理的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。
在本实施例中,将从信息处理装置的角度进行描述,该信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。
请参阅图2,图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括:
在步骤101中,获取目标视频。
其中,该目标视频由多帧图像组成,且该目标视频中每一帧包含相同对象对应的人脸图像,该对象可以为用户,即本申请实施例可以将同一个用户的人脸图像连续出现的视频片段确定为目标视频。
在一些实施方式中,从获取目标视频,可以包括:
(1)获取初始视频;
(2)提取该初始视频中每一帧的人脸图像;
(3)通过分析每一帧的人脸图像确定相同对象,将连续出现相同对象的多帧视频片段确定为初始视频片段;
(4)将帧数大于预设阈值的初始视频片段确定为目标视频。
其中,该初始视频可以为清晰的人脸视频组成的视频,该初始视频中可以包含一个或多个清晰人脸的视频。以此,可以通过人脸检测算法和人脸跟踪算法依次确定每一帧的人脸对应人脸框,该人脸框可以以矩形框的形式进行标定。
进一步的,可以将视频中每一帧的相同对象的人脸框进行关联,形成人脸框序列,具体的人脸框序列组件规则如下:
对比相邻帧临近位置内人脸框的相似度,若高于预设阈值,则将其认定为相同对象,若中间有任一帧开始,没有和前面帧相同的对象,则人脸框对比结束,且若中间有一帧开始,出现了一个新的对象,则新建一个人脸框序列,以此类推,确定至少一个相同对象的人脸框序列。
为了保证人脸框序列的质量,在一实施方式中可以通过如下方式筛选人脸框序列中的人脸框:(A)可以删除人脸框序列中和其他人脸框序列中存在至少一个人脸框重叠的框;(B)可以删除人脸框序列中尺寸小于预设尺寸的框;(C)可以删除人脸框序列中人脸图像模糊的框。该人脸图像模糊判定的方式,可以通过对人脸框内图像计算拉普拉斯值,若该拉普拉斯值低于预设阈值,认定为模糊人脸。以此,每种相同对象的人脸框序列均对应一个人脸框序列,舍弃长度不足预设帧数的人脸框序列,例如将长度不足10帧的人脸框序列删除,得到符合要求的多个人脸框序列。
为了保证人脸框的图像质量,对人脸框序列进行平滑操作,形成方形的人脸框子序列,具体为(D)计算人脸框子序列中的每个框的框中心,和边长(长宽中较大的值并放大1.4倍),形成框中心序列和框边长序列;(E)对框中心序列和框边长序列,分别进行平滑滤波;(F)根据平滑后的框中心和框边长,重组人脸框,得到平滑后的人脸框序列。以此,根据平滑操作之后的人脸框序列,从初始视频中裁取对应位置的图像(若方形框超出图像边界,则填充0像素),缩放到固定尺寸,按照每帧的拼接顺序形成至少一个目标视频,每一个目标视频中包含相同对象对应的人脸图像。
在一些实施方式中,从将帧数大于预设阈值的初始视频片段确定为目标视频,可以包括:
(1.1)将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
(1.2)对该第一目标视频片段进行样式变换,得到第二目标视频片段;
(1.3)将该第一目标视频片段和该第二目标视频片段确定为目标视频。
其中,可以将帧数大于预设阈值的初始视频片段确定为第一目标视频片段,为了适配更多的应用场景,可以对该第一目标视频片段进行样本扩充,在一实施方式,该样式变换的方式可以有压缩、亮度变化、色调变化和/或改变编码格式等不改变图像尺寸的操作,以此,可以对该第一目标视频片段进行样式变换,得到第二目标视频片段,即扩充后的视频片段,将该第一目标视频片段和该第二目标视频片段确定为目标视频,即实现目标视频的倍增。
倍增后的视频,还可以通过上述方法进一步做倍增处理。在一些实施方式中,为了保证目标视频的质量,不对倍增后的视频做进一步的倍增。
在一些实施方式中,可以利用人脸检测算法提取目标视频中每个帧的人脸图像,缩放到预定尺寸,本文选择缩放到224x224x3的尺寸,和第一预设主干网络的输入尺寸保持一致;并进一步提取人脸图像中的人脸三维(3D)关键点,该人脸3D关键点决定了人脸的表达形式。可以将该目标视频转化为{人脸图像,人脸3D关键点}的集合,需要说明的是,部分倍增后的视频变为不清晰之后,可能无法提取相应的人脸3D关键点,为了解决上述问题,可以将无法提取人脸3D关键点直接引用进行倍增的目标视频的人脸3D关键点。
在步骤102中,将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
其中,该第一目标预设主干模型用于提取每一帧的人脸图像的公共的特征,该第一预设主干模型可以采用4层ResBlock网络结构作为主干网络,以此,可以将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征,该第一目标图像特征的尺度可以为28*28*128。
第一目标预设主干模型为通过第一预设主干模型训练后得到,该第一预设主干模型的网络参数为初始化为ImageNet预训练的网络参数,具体的,为了更好的理解本申请实施例,此处先对第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数的训练过程进行解释:
在相关技术中,通常可以通过参数化的人脸3D重建算法来构建人脸3D模型,需要说明的是,该3DMM是一种参数化人脸3D模型,该模型主要包括几何(也可以理解为形状)和纹理两个向量部分组成,即任何新的一个人脸都可以由这些向量组合生成,分别由如下公式表达:
Figure BDA0003587995300000071
Figure BDA0003587995300000072
其中,S是人脸3D几何,
Figure BDA0003587995300000073
是3DMM的平均人脸3D几何,为已知参数,Bid和Bexp分别是3DMM中表示身份的基底和表示表情的基底,为配置好的已知参数,αid和αexp是对应的身份系数和表情系数;
通过设置不同的身份系数和表情系数,可以获得不同的人脸3D几何形状,类似的,该T是人脸的纹理,
Figure BDA0003587995300000074
是3DMM的平均人脸纹理,为已知参数,Btex是3DMM中表示纹理的基底,为配置好的已知参数,通过设置不同的纹理系数,可以获得不同的人脸纹理。
特别的,为了将人脸3D模型投影成像,还需知道人脸3D模型相对于相机的姿态系数,以及环境光光照模型的光照系数,以此,只要知道身份系数、纹理系数、表情系数、姿态系数以及光照系数即可以构成相应需要的人脸3D模型。
本申请实施例为了更好的对于说话人判定或者表情标记,需要单独提取表情系数,提取的表情系数越准确,后续处理效果越好,虽然可以简单的通过3DMM定义的表情系数作为需要的表情系数,在3DMM下,定义无表情系数的人脸为中性表情,该中性表情可以理解为脸部自然放松,双眼平视前方,嘴部自然闭合且嘴角放平时的表情,同一个人在其他表情下的人脸3D模型相对该中性表情相对参照的形变为表情,相应的,该表情所对应的表情信息即为本申请实施例需要提取的表情系数。
然而,对系数的求解是一个非线性的算法问题,当仅有一张人脸图像作为输入时,往往存在多个局部解。即,存在多个<身份系数,纹理系数,表情系数,姿态系数,光照系数>的组合可以形成类似的人脸3D模型。例如,对于一个厚嘴唇且嘴比较小的人脸图像,既可能对应于一个厚嘴唇,嘴比较小的人在中性表情时的人脸3D模型,也可能对应于一个薄嘴唇且嘴比较大的人在略微嘟嘴的表情时的人脸3D模型,两者可以对输入图像实现类似的拟合。
针对这种存在多个合理解的情况,往往是因为表情系数和其他非表情系数,特别是身份系数,耦合导致的,而本申请实施例为了实现表情系数和其他非表情系数的解耦合,提前设定目标视频中每一帧为相同对象对应的人脸图像,由于时间间隔很短,所以这些人脸图像应具有相同的共享身份系数和共享纹理系数,所以可以设定相同的对象的目标视频使用相同的共享身份系数和共享纹理系数,该共享身份系数可以预存在共享身份系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该共享身份系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享身份系数维度,该共享身份系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享身份系数可以智能化调节。
该共享纹理系数可以预存在共享纹理系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该共享纹理系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享纹理系数维度,该共享纹理系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享纹理系数可以智能化调节。
在一些实施方式中,该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数预测优化训练的过程如下:
生成第一目标损失函数,在一实施方式中,该生成第一目标损失函数,包括:
(1)将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
(2)将该第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
(3)获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
(4)根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
(5)获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
(6)获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
(7)通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
(8)根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数;
根据第一目标损失函数进行训练的过程如下:
(9)根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
其中,第一预设主干模型用于预测每一帧的人脸图像的公共的特征,该第一预设网络模型用于预测表情系数,该第二预设网络模型用于预测姿态系数,该第三预设网络模型用于预测光照系数,该共享身份系数、共享纹理系数用于表征目标视频下特定目标对象的身份系数和纹理系数,且在目标对象相同的目标视频中,每一帧的人脸图像对应的共享身份系数和共享纹理系数相同,以实现引入对身份系数和纹理系数的额外约束关系来消除歧义。
该第一预设网络模型、第二预设网络模型和第三预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接(Fully connected layer,FClayer)的结构,基于此,可以将每一第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,输出预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数,由于该第一预设网络模型、第二预设网络模型和第三预设网络模型还没有训练完成,因此,该第一预测表情系数、第一预测姿态系数和第一预测光照系数不是最优值。
在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以先获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数,再根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,该第一人脸估计值为通过可微分渲染器(differentiable renderer)对构建出的第一预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第一预测人脸三维模型对应的第一人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第一差异,之所以引入未被遮挡区域M的原因是3DMM模型无法表达遮挡物,导致“系数估计值构建的人脸图像估计值”都是完整的人脸。而“人脸图像真值”如果不是完整的人脸,比如戴了墨镜,则两者在遮挡处不应该比较差异,所以选择用M去掉遮挡部分,只比较未遮挡部分的人脸。因此,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。该第一差异越大,说明第一人脸估计值和人脸图像越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第一差异越小,说明第一人脸估计值和人脸图像越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第一差异的计算方式,可以通过如下公式计算:
Figure BDA0003587995300000091
其中,该Lrec为第一差异,该Mi为未遮挡区域,该Ii为第i个人脸图像,该
Figure BDA0003587995300000095
为第i个第一人脸估计值,通过上述公式计算出第一差异,上述公式可以理解为第一差异的损失函数。
还可以获取第一预测人脸三维模型对应的第一预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第一预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第一预测人脸三维关键点)
Figure BDA0003587995300000093
计算当前估计值
Figure BDA0003587995300000094
与真实的人脸图像的人脸三维关键点的真值K在未被遮挡区域M的第二差异。该第二差异越大,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一预设主干模型、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第二差异越小,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一预设主干模型、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第二差异的计算方式,可以通过如下公式计算:
Figure BDA0003587995300000092
其中,该Llan为第二差异,该wi为权重,每个关键点有不同的权重,即在计算损失函数时,有些关键点的错误比其他关键点的错误更重要。这些权重的值在技术实现中,是预先定义的。该ki为第i个人脸三维关键点的真值,该
Figure BDA0003587995300000101
为第i个第一预测人脸三维模型的人脸3D关键点的当前估计值,该N代表关键点的数量,例如为68个。通过上述公式计算出第二差异,上述公式可以理解为第二差异的损失函数。
还可以通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系,约束该共享身份系数、共享纹理系数和第一预测表情系数的约束关系不要偏离零均值过多,可以通过如下公式计算:
Figure BDA0003587995300000102
其中,该αd,αt和αe是预设的权重系数,用于平衡各项损失函数,该
Figure BDA0003587995300000103
为共享身份系数,
Figure BDA0003587995300000104
为共享纹理系数和
Figure BDA0003587995300000105
为第一预测表情系数。上述公式可以理解为约束损失函数。
可以根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数。
最后根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。即可以根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数采用随机梯度下降算法进行优化,多次重复执行生成第一目标损失函数的过程,通过不断更新的第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至该第一目标损失函数收敛,即损失函数收敛。具体的,可以通过如下公式建立第一差异、第二差异和该约束关系的第一目标损失函数,如下:
L=λrecLreclanLlanregLreg
该λrec,λlan和λreg是预设的权重系数,用于平衡各项损失函数,该L为第一目标损失函数,基于该第一目标损失函数可以根据随机梯度下降算法对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化,并重复将不同的每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,迭代计算该第一目标损失进行迭代调节,直至该第一目标损失收敛,得到训练后的第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
以此,训练后的第一目标主干模型可以根据人脸图像输出准确的第一目标图像特征。该训练后的第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型可以输出准确的表情系数、姿态系数以及光照系数。
在步骤103中,将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数。
其中,可以将第一目标图像特征输入训练后的第一目标预设网络模型,输出准确的第一目标表情系数。将第一目标图像特征输入训练后的第二目标预设网络模型,输出准确的第一目标姿态系数。将第一目标图像特征输入训练后的第三目标预设网络模型,输出准确的第一目标光照系数。由于引入了共享身份系数和共享纹理系数的额外约束,即定义好身份系数和纹理系数,所以实现该第一目标表情系数和其他非表情系数的解耦合,提升了该第一目标表情系数的准确性。
在步骤104中,将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数。
其中,由于该共享身份系数和共享纹理系数均已经使用,后续为了实现对于身份系数和纹理系数的准确预测,可以不用再使用确定共享身份系数和共享纹理系数,而是通过该训练后第四目标预设网络模型和第五目标预设网络模型来输出第一目标身份系数和第一目标纹理系数。
该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。训练前的第四预设网络模型用于预测身份系数,该第五预设网络模型用于预测纹理系数,该第四预设网络模型和第五预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接(Fully connected layer,FC layer)的结构,基于此,可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出预测的第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数不是最优值,所以需要训练该第四预设网络模和第五预设网络模型。
在一些实施方式中,该第四预设网络模型和第五预设网络模型预测优化训练的过程如下:
生成第二目标损失函数,在一实施方式中,该生成第二目标损失函数,包括:
(1)将该第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
(2)根据该第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异;
(3)根据该第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
(4)基于该预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异;
(5)根据该第三差异和第四差异建立第二目标损失函数;
根据第二目标损失函数进行训练的过程如下:
(6)通过该第二目标损失函数对该第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至该第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
其中,可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数不是最优值。
可以将训练后的共享身份系数作为标签身份系数和共享纹理系数作为标签纹理系数,但是为了进一步的提升第四预设网络模型和第五预设网络模型的预测准确度,本申请实施例可以根据第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,生成第二预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,可以根据第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异。该第三差异越大,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第三差异越小,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第三差异的计算方式,可以通过如下公式计算:
Figure BDA0003587995300000121
其中,该Lparams为第三差异,βd和βt为预设的权重系数,该
Figure BDA0003587995300000122
为第一预测身份系数,该dgt为标签身份系数,该
Figure BDA0003587995300000123
为第一预测纹理系数,该tgt为标签纹理系数,通过上述公式计算出第三差异。
还可以确定第二预测人脸三维模型的预测几何信息和预测纹理信息,该预测几何信息和预测纹理信息未必准确,所以需要基于该预测几何信息和真实的标签几何信息的差值以及预测纹理信息和真实的标签纹理信息的差值建立第四差异。该第四差异越大,说明预测的预测几何信息和真实的标签几何信息以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第四差异越小,说明预测的预测几何信息和真实的标签几何信息以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第四差异的计算方式,可以通过如下公式计算:
Figure BDA0003587995300000124
其中,该L3d为第四差异,βgeo和βtex为预设的权重系数,该Sgt为标签几何信息,该
Figure BDA0003587995300000125
为预测几何信息,该Tgt为标签纹理信息,该
Figure BDA0003587995300000126
为预测纹理信息。通过上述公式计算出第四差异。并根据该第三差异和第四差异建立第二目标损失函数。
最后根据该第二目标损失函数对该第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至该第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。即可以根据该第二目标损失函数对该第四预设网络模型和第五预设网络模型采用随机梯度下降算法进行优化,多次重复,直至该第二目标损失函数收敛,即损失函数收敛,具体的,可以通过如下公式建立第三差异和第四差异的总的损失函数,如下:
L=λparamsLparams3dL3d
其中,该L为第二目标损失函数,该λparams和λ3d为预设的权重系数,基于该第二目标损失函数可以根据随机梯度下降算法对第四预设网络模型和第五预设网络模型的第二网络参数进行优化,并重复执行生成第二目标损失函数,通过不断更新的第二目标损失函数对第四预设网络模型和第五预设网络模型进行第二网络参数迭代优化,计算该第二目标损失函数进行迭代调节,直至本部分中的第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。由于训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数的第一网络参数已经训练好,所以在本训练过程中该第一网络参数为固定不变的。该训练后的第四目标预设网络模型和第五目标预设网络模型可以基于第一图像特征输出准确的身份系数和纹理系数。
基于此,可以将每个第一目标图像特征分别输入训练后的第四目标预设网络模型和第五目标预设网络模型,输出准确的第一目标身份系数以及第一目标纹理系数。
在步骤105中,获取第一目标图像特征在目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数。
其中,由于本申请实施例的目标视频为相同对象在短时间内的人脸图像,不同的人脸图像之间身份系数和纹理系数非常接近,基于此原理,在同一目标视频下,可以获取每个第一图像特征在目标视频中其他不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数作为先验身份系数和先验纹理系数,该第二目标身份系数和第二纹理系数只需要将不同帧的人脸图像的图像特征输入训练后第四目标预设网络模型和第五目标预设网络模型,即可得到。
在步骤106,将第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征。
其中,第二目标预设主干模型用于提取第二目标身份系数的公共的特征,该第二目标预设主干模型可以采用多层感知机的网络结构作为主干网络,以此,可以将该第二目标身份系数输入第二目标预设主干模型,输出相应的第一目标身份特征,该第一目标身份特征的尺度和第一图像特征的尺度一致,例如,第二目标身份系数可以为1*80维,第二目标预设主干模型的输出可以为1*40维,将其根据第一图像特征的尺度复制扩展,得到第一目标身份特征,该第一目标身份特征可以为28*28*40。可以理解,尺度一致是指长和宽的尺度一致即可,不要求通道的尺度一致。
需要说明的是,该第二目标预设主干模型的网络参数可以为提前确定的。也可以为训练得到的,具体训练过程请继续参阅后续步骤。
在步骤107,将第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征。
其中,第三目标预设主干模型用于提取第二目标纹理系数的公共的特征,该第三预设主干模型可以采用多层感知机的网络结构作为主干网络。
以此,可以将该第二目标纹理系数输入第三目标预设主干模型,输出相应的第一目标纹理特征,该第一目标纹理特征的尺度和第一图像特征的尺度一致,例如,第二目标纹理系数可以为1*80维,第三目标预设主干模型的输出可以为1*40维,将其根据第一图像特征的尺度复制扩展,得到第一目标纹理特征,该第一目标纹理特征的尺度可以为28*28*40。
需要说明的是,该第二目标预设主干模型的网络参数可以为提前确定的。也可以为训练得到的,具体训练过程请继续参阅后续步骤。
在步骤108,将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征。
其中,可以将该第一目标图像特征、第一目标身份特征和第一纹理特征按照数据维度通道进行拼接,得到拼接后的第一目标特征,以此,该第一目标特征可以携带先验身份系数和先验纹理系数对应的第二目标身份系数和第第二目标纹理系数。
在步骤109,将第一目标特征输入目标预设头部网络模型,输出第二目标表情系数。
其中,该训练后的目标预设头部网络模型为:结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。目标预设头部网络模型训练前的预设头部网络模型可以为采用4层ResBlock结构以及最后用一层全连接的结构,用于预测第二表情系数,由于该预设头部网络模型还没有训练完成,因此,预测的第二预测表情系数不是最优值。
该第一预设网络模型和该预设头部网络模型虽然网络结构相同,输出的均为表情系数,但是该第一预设网络模型是基于单一输入的人脸图像输出表情系数,而该预设头部网络模型为基于输入的人脸图像、先验身份系数和先验纹理系数三者来输出表情系数。
也就是说,预设头部网络模型能够接收到除了人脸图像外的其他先验信息。在视频场景下,预设头部网络模型可以利用上来自于过往视频帧提供的先验信息,从而更适用于视频场景的使用,可以进一步的提升表情系数的预测准确性。
在一些实施方式中,该预设头部网络模型预测优化训练的过程如下:
生成第三目标损失函数,在一实施方式中,该生成第三目标损失函数,包括:
(1)将该第二目标身份系数输入第二预设主干模型,输出第一身份特征;
(2)将该第二目标纹理系数输入第三预设主干模型,输出第一纹理特征;
(3)将该第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征;
(4)将该第一特征输入预设头部网络模型,输出第二预测表情系数;
(5)根据该第一目标身份系数、第一目标纹理系数、第二预测表情系数、第一目标姿态系数以及第一目标光照系数,生成第三预测人脸三维模型;
(6)获取第三预测人脸三维模型对应的第二人脸估计值和人脸图像中未被遮挡区域之间的第五差异;
(7)获取第三预测人脸三维模型对应的第二预测人脸三维关键点和人脸三维关键点之间的第六差异;
(8)根据该第五差异和第六差异建立第三目标损失函数;
根据该第三目标损失函数进行训练的过程如下:
(9)根据该第三目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行迭代优化,直至该第三目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型。
其中,该第二预设主干模型用于提取第二目标身份系数的公共的特征,第三预设主干模型提取第二纹理身份系数的公共的特征,该预设头部网络模型用于预测表情系数,可以将该第二目标身份系数输入第二预设主干模型,输出第一身份特征;将该第二目标纹理系数输入第三预设主干模型,输出第一纹理特征。
将该第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征,以此,该第一特征可以携带先验身份系数和先验纹理系数对应的第二身份系数和第第二纹理系数,不过由于该第二预设主干模型和第三预设主干模型均为未训练过的网络模型,因此,该第一特征还不是最优值。
可以将第一特征输入预设头部网络模型,输出预测的第二预测表情系数。
在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第二预测表情系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以获取第一目标身份系数、第一目标纹理系数、第二预测表情系数、第一目标姿态系数以及第一目标光照系数,生成第三预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,该第二人脸估计值为通过可微分渲染器对构建出的第三预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第三预测人脸三维模型对应的第二人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第五差异,同理,之所以引入未被遮挡区域M的原因是3DMM模型无法表达遮挡物,导致“系数估计值构建的人脸图像估计值”都是完整的人脸。而“人脸图像真值”如果不是完整的人脸,比如戴了墨镜,则两者在遮挡处不应该比较差异,所以选择用M去掉遮挡部分,只比较未遮挡部分的人脸。因此,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。
该第五差异越大,说明第二人脸估计值和人脸图像越不接近,相应的,说明第二预测表情系数越不准确,相反的,该第五差异越小,说明第二人脸估计值和人脸图像越接近,相应的,说明第二预测表情系数越准确。
还可以获取第三预测人脸三维模型对应的第二预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第三预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第三预测人脸三维关键点),计算当前估计值与真实的人脸图像的人脸三维关键点的真值在未被遮挡区域M的第六差异。该第六差异越大,说明预测的第三预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第二预测表情系数越不准确,相反的,该第六差异越小,说明预测的第三预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第二预测表情系数越准确,并且根据该第五差异和第六差异建立第三目标损失函数。
最后根据该第三目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行迭代优化,直至该第三目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型。即可以根据该第三目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型采用随机梯度下降算法进行优化,多次重复执行生成第三目标损失函数,通过不断更新的第三目标损失函数对第二预设主干模型、第三预设主干模型和预设头部网络模型的进行第三网络参数迭代优化,直至该第三目标损失函数收敛,即损失函数收敛,得到训练后的预设头部网络模型。
基于此,可以将第一目标图像特征对应的第一目标特征输入训练后的目标预设头部网络模型,输出准确的第二目标表情系数,由于引入了先验身份系数和先验纹理系数的额外约束,利用上来自于过往视频帧提供的先验信息,从而更适用于视频场景的使用,可以将目标视频中每一帧的第一目标图像提取的第一目标图像特征对应的第一目标特征输入目标预设头部网络模型,输出视频每一帧对应的第二目标表情系数,使用输出的第二目标表情系数可以进一步的提升准确性。
由上述可知,本申请实施例通过获取目标视频;提取每一帧的人脸图像得到第一目标图像特征;将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,输出第一目标身份系数和第一目标纹理系数;输出根据先验知识得到的第一目标身份特征和第一目标纹理特征与第一目标图像特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,极大提升了提取的表情系数的准确性。相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大提升了提取的表情系数的准确性。结合上述实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该信息处理装置具体集成在服务器中为例进行说明,具体参照以下说明。
请参阅图3,图3为本申请实施例提供的信息处理方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器获取初始视频,提取初始视频中每一帧的人脸图像,将出现相同对象的多帧视频片段确定为初始视频片段。
其中,该初始视频可以为清晰的人脸视频组成的视频,该初始视频中可以包含一个或多个清晰人脸的视频。服务器可以通过人脸检测算法和人脸跟踪算法依次提取该初始视频中每一帧的人脸图像,通过人脸图像确定相应的用户身份信息,进而通过该用户身份信息确定人脸图像对应的用户(即对象)。
进一步的,服务器可以将相邻帧连续出现相同对象的多帧视频片段确定为初始视频片段,该初始视频片段可以为2帧以上的人脸图像,且该初始视频片段中每一帧的人脸图像都对应相同的对象。
在步骤202中,服务器将帧数大于预设阈值的初始视频片段确定为第一目标视频片段,对第一目标视频片段进行样式变换,得到第二目标视频片段,将第一目标视频片段和第二目标视频片段确定为目标视频。
其中,为了保证目标视频后续的训练效果,需要将帧数不足的初始视频片段删除,该预设阈值即用于界定帧数是否达到满足训练效果的数量的临界值,例如50帧,以此,可以将帧数大于预设阈值的初始视频片段确定为第一目标视频。
为了适配更多的应用场景,可以对该第一目标视频片段进行样本扩充,在一实施方式,该样式变换的方式可以有压缩、亮度变化、色调变化和/或改变编码格式等不改变图像尺寸的操作,以此,可以对该第一目标视频片段进行样式变换,得到第二目标视频片段,即扩充后的视频片段,将该第一目标视频片段和该第二目标视频片段确定为目标视频,即实现目标视频的倍增。
为了保证目标视频的质量,不对倍增后的视频做进一步的倍增。
为了后续处理的便利性,可以利用人脸检测算法提取目标视频中每个帧的人脸图像,并进一步提取人脸图像中的人脸三维关键点,该人脸3D关键点决定了人脸的表达形式。可以将该目标视频转化为{人脸图像,人脸3D关键点}的集合。需要说明的是,部分倍增后的视频变为不清晰之后,可能无法提取相应的人脸3D关键点,为了解决上述问题,可以将无法提取人脸3D关键点直接引用之前进行倍增的目标视频的人脸3D关键点。
在步骤203中,服务器将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征。
其中,请一并参阅图4a所示,图4a为本申请实施例提供的信息处理系统的框架20示意图,该第一图像特征代表每一帧的人脸图像公共的特征,该第一预设主干模型可以采用4层ResBlock网络结构作为主干网络,服务器可以将每一帧的人脸图像依次输入第一预设主干模型,输出每一帧的人脸图像对应的第一图像特征,该第一图像特征的尺度可以为28*28*128。
在步骤204中,服务器将第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数,获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数。
其中,请继续参阅图4a所示,该第一预设网络模型用于预测表情系数,该第二预设网络模型用于预测姿态系数,该第三预设网络模型用于预测光照系数,该第一预设网络模型、第二预设网络模型和第三预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接的结构,在一实施方式中,该第一预设网络模型、第二预设网络模型和第三预设网络模型还可以采用不同的网络结构,此处举例不作为具体限定。基于此,可以将每一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数,由于该第一预设网络模型、第二预设网络模型和第三预设网络模型还没有训练完成,因此,该第一预测表情系数、第一预测姿态系数和第一预测光照系数未必准确。
本申请实施例为了实现表情系数和其他非表情系数的解耦合,可以提前设定目标视频中每一帧为相同对象对应的人脸图像,由于时间间隔很短,所以这些人脸图像都具有相同的共享身份系数和共享纹理系数,所以可以设定相同的对象的目标视频使用相同的共享身份系数和共享纹理系数,该共享身份系数可以预存在共享身份系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该集合可以包括K个,相同的对象共享相同的共享身份系数和共享纹理系数,该共享身份系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享身份系数维度,该共享身份系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享身份系数可以随着学习的过程智能化调节。
该共享纹理系数可以预存在共享纹理系数集合中,该共享纹理系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享纹理系数维度,该共享纹理系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享纹理系数可以随着学习的过程智能化调节。
例如,如图4b所示,目标视频中每一帧的人脸图像具有相同的共享身份系数和共享纹理系数,且每一帧具有独立的预测表情系数、预测姿态系数以及预测光照系数。
以实现引入对身份系数和纹理系数的额外约束关系来消除歧义,实现表情系数和非表情系数的解耦合。
在步骤205中,服务器根据共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型。
其中,请继续参阅图4a所示,在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以先获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数,再根据该共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型(包含人脸3D几何和人脸纹理)。
在步骤206中,服务器获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异,获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异,通过正则化损失函数建立共享身份系数、共享纹理系数和第一预测表情系数的约束关系,根据第一差异、第二差异和约束关系生成相应的第一目标损失函数,根据第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数优化。
其中,该第一人脸估计值为通过可微分渲染器(differentiable renderer)对构建出的第一预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第一预测人脸三维模型对应的第一人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第一差异。训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人脸眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。该第一差异越大,说明第一人脸估计值和人脸图像越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理不准确,相反的,该第一差异越小,说明第一人脸估计值和人脸图像越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越准确。该第一差异的计算方式,可以通过如下公式计算:
Figure BDA0003587995300000181
其中,该Lrec为第一差异,该Mi为未遮挡区域,该Ii为第i个人脸图像,该
Figure BDA0003587995300000182
为第i个第一人脸估计值,通过上述公式计算出第一差异,上述公式可以理解为第一差异的损失函数。
还可以获取第一预测人脸三维模型对应的第一预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第一预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第一预测人脸三维关键点)
Figure BDA0003587995300000183
计算当前估计值
Figure BDA0003587995300000184
与真实的人脸图像的人脸三维关键点的真值K在未被遮挡区域M的第二差异。该第二差异越大,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越不准确,相反的,该第二差异越小,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一图像特征、第一预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理越准确。该第二差异的计算方式,可以通过如下公式计算:
Figure BDA0003587995300000185
其中,该Llan为第二差异,该wi为权重,每个关键点有不同的权重,即在计算损失函数时,有些关键点的权重比其他关键点的权重更重要。这些权重的值在技术实现中,是预先定义的。该ki为第i个人脸三维关键点的真值,该
Figure BDA0003587995300000186
为第i个第一预测人脸三维模型的人脸3D关键点的当前估计值,该N代表关键点的数量,例如为68个。通过上述公式计算出第二差异,上述公式可以理解为第二差异的损失函数。
还可以通过正则化损失函数建立该共享身份系数、共享纹理系数和第一预测表情系数的约束关系,约束该共享身份系数、共享纹理系数和第一预测表情系数的约束关系不要偏离零均值过多,可以通过如下公式计算:
Figure BDA0003587995300000187
其中,该αd,αt和αe是预设的权重系数,用于平衡各项损失函数,该
Figure BDA0003587995300000188
为共享身份系数,
Figure BDA0003587995300000189
为共享纹理系数和
Figure BDA00035879953000001810
为第一预测表情系数。上述公式可以理解为约束损失函数。
可以根据该第一差异、第二差异和该约束关系生成相应的第一目标损失函数。
最后根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化。
在步骤207中,服务器返回执行将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,以对第一网络参数进行迭代优化,直至第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
其中,服务器返回执行将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征的步骤对第一网络参数进行迭代优化,直至该第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
即可以根据该第一目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络模型采用随机梯度下降算法进行优化,多次重复,直至该第一目标损失函数收敛,即损失函数收敛。具体的,可以通过如下公式建立第一差异、第二差异和该约束关系的第一目标损失函数,如下:
L=λrecLreclanLlanregLreg
该λrec,λlan和λreg是预设的权重系数,用于平衡各项损失函数,该L为第一目标损失函数,基于该第一目标损失函数可以根据随机梯度下降算法对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第一网络参数进行优化,并重复将不同的每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,迭代计算该第一目标损失进行迭代调节,直至该第一目标损失收敛,得到训练后的第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
以此,训练后的第一目标主干模型可以根据人脸图像输出准确的第一目标图像特征。该训练后的第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型可以输出准确的表情系数、姿态系数以及光照系数,该共享身份系数和共享纹理系数均为准确的系数。
在步骤208中,服务器将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征,将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数。
其中,服务器可以将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特,进而将第一目标图像特征输入训练后的第一目标预设网络模型,输出准确的第一目标表情系数。将第一目标图像特征输入训练后的第二目标预设网络模型,输出准确的第一目标姿态系数。将第一目标图像特征输入训练后的第三目标预设网络模型,输出准确的第三目标预设网络模型。由于引入了共享身份系数和共享纹理系数的额外约束,即定义好身份系数和纹理系数,所以实现该第一目标表情系数和其他非表情系数的解耦合,提升了该第一目标表情系数的准确性。
在步骤209中,服务器将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数,根据第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异,根据第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息。
其中,请一并参阅图4c所示,图4c为本申请实施例提供的信息处理系统的另一框架30示意图,该第四预设网络模型用于预测身份系数,该第五预设网络模型用于预测纹理系数,该第四预设网络模型和第五预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接的结构,该第四预设网络模型和第五预设网络模型还可以采用不同的网络结构,此处举例不作为具体限定。基于此,服务器可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出预测的第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数未必准确,所以需要训练该第四预设网络模和第五预设网络模型。
可以将共享身份系数作为标签身份系数和共享纹理系数作为标签纹理系数,但是为了进一步的训练和提升第四预设网络模型和第五预设网络模型的预测准确度,本申请实施例可以根据第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,生成第二预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,可以根据第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异。该第三差异越大,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第三差异越小,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第三差异的计算方式,可以通过如下公式计算:
Figure BDA0003587995300000201
其中,该Lparams为第三差异,βd和βt为预设的权重系数,该
Figure BDA0003587995300000202
为第一预测身份系数,该dgt为标签身份系数,该
Figure BDA0003587995300000203
为第一预测纹理系数,该tgt为标签纹理系数,通过上述公式计算出第三差异。
在步骤210中,服务器基于预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异,根据第三差异和第四差异建立第二目标损失函数,根据第二目标损失函数对第四预设网络模型和第五预设网络模型的第二网络参数进行优化,返回执行将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数,以对第二网络参数进行迭代优化,直至第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
其中,还可以确定第二预测人脸三维模型的预测几何信息和预测纹理信息,该预测几何信息和预测纹理信息未必准确,所以需要基于该预测几何信息和真实的标签几何信息的差值以及预测纹理信息和真实的标签纹理信息的差值建立第四差异。该第四差异越大,说明预测的预测几何信息和真实的标签几何信息以及预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第四差异越小,说明预测的预测几何信息和真实的标签几何信息以及预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第四差异的计算方式,可以通过如下公式计算:
Figure BDA0003587995300000204
其中,该L3d为第四差异,βgeo和βtex为预设的权重系数,该Sgt为标签几何信息,该
Figure BDA0003587995300000205
为预测几何信息,该Tgt为标签纹理信息,该
Figure BDA0003587995300000206
为预测纹理信息。通过上述公式计算出第四差异。并根据该第三差异和第四差异建立第二目标损失函数。
最后根据该第二目标损失函数对该第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至该第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。即可以根据该第二目标损失函数对该第四预设网络模型和第五预设网络模型采用随机梯度下降算法进行优化,多次重复,直至该第二目标损失函数收敛,即损失函数收敛,具体的,可以通过如下公式建立第三差异和第四差异的总的损失函数,如下:
L=λparamsLparams3dL3d
其中,该L为第二目标损失函数,该λparams和λ3d为预设的权重系数,基于该第二目标损失函数可以根据随机梯度下降算法对第四预设网络模型和第五预设网络模型的第二网络参数进行优化,并重复将不同的第一目标图像特征分批送入该第四预设网络模型和第五预设网络模型,计算该第二目标损失函数进行迭代调节,直至本部分中的第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。由于训练后的第一预设网络模型、第二预设网络模型和第三预设网络模型的第一网络参数已经训练好,所以在本训练过程中该第一网络参数为固定不变的。该训练后的第四目标预设网络模型和第五目标预设网络模型可以基于第一目标图像特征输出准确的身份系数和纹理系数。
基于此,可以将每个第一目标图像特征分别输入训练后的第四目标预设网络模型和第五目标预设网络模型,输出准确的第一目标身份系数以及第一目标纹理系数。
在步骤211中,服务器将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数,获取第一目标图像特征在目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数,将第二目标身份系数输入第二预设主干模型,输出第一身份特征,将第二目标纹理系数输入第三预设主干模型,输出第一纹理特征,将第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征。
其中,服务器可以将共享身份系数和共享纹理系数删除,并将第一目标图像特征分别输入训练后的第四目标预设网络模型和第五预设网络模型,输出准确的第一目标身份系数以及第一目标纹理系数。
进一步的,由于本申请实施例的目标视频为相同对象在短时间内的人脸图像,不同的人脸图像之间身份系数和纹理系数非常接近,基于此原理,在同一目标视频下,可以获取每个第一目标图像特征在目标视频中其他不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数作为先验身份系数和先验纹理系数,该第二目标身份系数和第二纹理系数只需要将不同帧的人脸图像的图像特征输入训练后第四目标预设网络模型和第五目标预设网络模型,即可得到。
请一并参阅图4d所示,图4d为本申请实施例提供的信息处理系统的另一框架40示意图,第二预设主干模型用于提取第二目标身份系数的公共的特征,该第二预设主干模型可以采用多层感知机的网络结构作为主干网络,第三预设主干模型用于提取第二目标纹理系数的公共的特征,该第三预设主干模型可以采用多层感知机的网络结构作为主干网络,以此,可以将该第二目标身份系数输入第二预设主干模型,输出相应的第一身份特征。可以将该第二目标纹理系数输第三预设主干模型,输出相应第一纹理特征,该第一身份特征和第一纹理特征的尺度和第一目标图像特征的尺度一致,例如,该第一目标身份系数可以为1*80维,第二预设主干模型的输出可以为1*40维,将其根据第一图像特征的尺度复制扩展,得到第一身份特征,该第一身份特征可以为28*28*40;第一目标纹理系数可以为1*80维,第三预设主干模型的输出可以为1*40维,将其根据第一图像特征的尺度复制扩展,得到第一纹理特征,该第一纹理特征的尺度可以为28*28*40。可以理解,尺度一致是指长和宽的尺度一致即可,不要求通道的尺度一致。
由于该第一目标图像特征、第一身份特征和第一纹理特征的尺度相同,所以可以将该第一目标图像特征、第一身份特征和第一纹理特征按照数据维度通道进行拼接,得到拼接后的第一目标特征,以此,该第一目标特征可以携带先验身份系数和先验纹理系数对应的第一身份特征和第二纹理特征。
在步骤212中,服务器将第一特征输入预设头部网络模型,输出第二预测表情系数,根据第一目标身份系数、第一目标纹理系数、第二预测表情系数、第一目标姿态系数以及第一目标光照系数,生成第三预测人脸三维模型,获取第三预测人脸三维模型对应的第二人脸估计值和人脸图像中未被遮挡区域之间的第五差异,获取第三预测人脸三维模型对应的第二预测人脸三维关键点和人脸三维关键点之间的第六差异,根据第五差异和第六差异建立第三目标损失函数。
其中,请继续参阅图4d,该训练后的目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。目标预设头部网络模型训练前的预设头部网络模型可以为采用4层ResBlock结构以及最后用一层全连接的结构,基于此,可以将每个第一特征分别输入预设头部网络模型,输出预测的第二预测表情系数。由于该预设头部网络模型还没有训练完成,因此,该第二预测表情系数还不是最优值。
该第一预设网络模型和该预设头部网络模型虽然网络结构相同,输出的均为表情系数,但是该第一预设网络模型是基于单一输入的人脸图像输出表情系数,而该预设头部网络模型为基于输入的人脸图像、先验身份系数和先验纹理系数三者来输出表情系数。
也就是说,预设头部网络模型能够接收到除了人脸图像外的其他先验信息。在视频场景下,预设头部网络模型可以利用来自于过往视频帧提供的先验信息,从而更适用于视频场景的使用,可以进一步的提升表情系数的预测准确性。
该预设头部网络模型用于预测表情系数,可以将第一目标图像特征对应的第一特征输入分别输入预设头部网络模型,输出预测的第二预测表情系数。
在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第二预测表情系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以获取第一目标身份系数、第一目标纹理系数、第二预测表情系数、第一目标姿态系数以及第一目标光照系数,生成第三预测人脸三维模型(包含人脸3D几何和人脸纹理)。
该第二人脸估计值为通过可微分渲染器对构建出的第三预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第三预测人脸三维模型对应的第二人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第五差异,同理,之所以引入未被遮挡区域M的原因是3DMM模型无法表达遮挡物,导致“系数估计值构建的人脸图像估计值”都是完整的人脸。而“人脸图像真值”如果不是完整的人脸,比如戴了墨镜,则两者在遮挡处不应该比较差异,所以选择用M去掉遮挡部分,只比较未遮挡部分的人脸。因此,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。
该第五差异越大,说明第二人脸估计值和人脸图像越不接近,相应的,说明第二预测表情系数越不准确,相反的,该第五差异越小,说明第二人脸估计值和人脸图像越接近,相应的,说明第二预测表情系数越准确。
还可以获取第三预测人脸三维模型对应的第二预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第三预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第三预测人脸三维关键点),计算当前估计值与真实的人脸图像的人脸三维关键点的真值在未被遮挡区域M的第六差异。该第六差异越大,说明预测的第三预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第二预测表情系数越不准确,相反的,该第六差异越小,说明预测的第三预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第二预测表情系数越准确。
最后,根据第五差异和第六差异建立第三目标损失函数。
在步骤213中,服务器根据第三目标损失函数对第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行优化,返回执行将第二目标身份系数输入第二预设主干模型,输出第一身份特征,以对第三网络参数进行迭代优化,直至第三目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型。
其中,请继续参阅图4d,服务器可以根据该第三目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行优化,返回执行将第二目标身份系数输入第二预设主干模型,输出第一身份特征的步骤对第三网络参数进行迭代优化,以此,使得该第二预设主干模型、第三预设主干模型和预设头部网络模型的预测越来越准确,该第三目标损失函数越来越小,直至该第三目标损失函数异收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型和目标预设头部网络模型。即可以根据该第三目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型采用随机梯度下降算法进行优化,多次重复,直至该第三目标损失函数收敛,即损失函数收敛,得到训练后的目标预设头部网络模型。
在步骤214中,服务器将第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征,将第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征,将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征,将第一目标特征输入目标预设头部网络模型,输出第二目标表情系数。
其中,服务器可以将第二目标身份系数输入第二目标预设主干模型,输出准确的第一目标身份特征,将第二目标纹理系数输入第三目标预设主干模型,输出准确的第一目标纹理特征,将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征。
进一步的,将第一目标图像特征对应的第一目标特征输入训练后的目标预设头部网络模型,输出准确的第二目标表情系数,由于引入了先验身份系数和先验纹理系数的额外约束,利用上来自于过往视频帧提供的先验信息,从而更适用于视频场景的使用,可以使得输出的第二目标表情系数进一步的提升准确性。
由上述可知,本申请实施例通过获取目标视频;提取每一帧的人脸图像得到第一目标图像特征;将第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;将第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,输出第一目标身份系数和第一目标纹理系数;输出根据先验知识得到的第一目标身份特征和第一目标纹理特征与第一目标图像特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,极大提升了提取的表情系数的准确性。相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大提升了提取的表情系数的准确性。
请参阅图5,图5为本申请实施例提供的信息处理装置的结构示意图,其中该信息处理装置可以包括第一获取单元301、第一输入单元302、第二输入单元303、第三输入单元304、第二获取单元305、第四输入单元306、第五输入单元307、拼接单元308以及第五输入单元309等。
第一获取单元301,用于获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像。
在一些实施例中,该第一获取单元301,包括:
获取子单元,用于获取初始视频;
提取子单元,用于提取该初始视频中每一帧的人脸图像;
第一确定子单元,用于将出现相同对象的多帧视频片段确定为初始视频片段;
第二确定子单元,用于将帧数大于预设阈值的初始视频片段确定为目标视频。
在一些实施例中,该第二确定子单元,用于:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对该第一目标视频片段进行样式变换,得到第二目标视频片段;
将该第一目标视频片段和该第二目标视频片段确定为目标视频。
在一些实施例中,所述装置,还包括第一训练单元,包括:
第一生成子单元,用于生成第一目标损失函数;
第一训练子单元,用于根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
所述第一生成子单元,还用于将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
第一输入单元302,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
第二输入单元303,用于将该第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,该第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到。
在一些实施例中,该装置,还包括第二训练单元,用于:
在一些实施例中,所述装置,还包括第二训练单元,包括:
第二生成子单元,用于生成第二目标损失函数;
所述第二训练子单元,用于通过所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至所述第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型;
所述第二生成子单元,还用于将所述第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
根据所述第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异;
根据所述第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
基于所述预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异;
根据所述第三差异和第四差异建立第二目标损失函数。
第三输入单元304,用于将该第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。
第二获取单元305,用于获取该第一目标图像特征在该目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数。
在一些实施例中,所述装置,还包括第三训练单元,包括:
第三生成子单元,用于生成第三目标损失函数;
第三训练子单元,用于根据所述第三目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行迭代优化,直至所述第三目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型;
所述第三生成子单元,还用于将所述第二目标身份系数输入第二预设主干模型,输出第一身份特征;
将所述第二目标纹理系数输入第三预设主干模型,输出第一纹理特征;
将所述第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征;
将所述第一特征输入预设头部网络模型,输出第二预测表情系数;
根据所述第一目标身份系数、第一目标纹理系数、第二预测表情系数、第一目标姿态系数以及第一目标光照系数,生成第三预测人脸三维模型;
获取第三预测人脸三维模型对应的第二人脸估计值和人脸图像中未被遮挡区域之间的第五差异;
获取第三预测人脸三维模型对应的第二预测人脸三维关键点和人脸三维关键点之间的第六差异;
根据所述第五差异和第六差异建立第三目标损失函数。
第四输入单元306,用于将该第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征。
第五输入单元307,用于将该第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征。
拼接单元308,用于将该第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征。
第六输入单元309,用于将该第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,其中,该目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例还提供一种计算机设备,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;可选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,可选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现前述实施例提供的各种方法步骤,如下:
获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征将该第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,该第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;将该第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的;获取该第一目标图像特征在该目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数将该第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将该第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征将该第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将该第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,其中,该目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对信息处理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征将该第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,该第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;将该第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的;获取该第一目标图像特征在该目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数将该第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将该第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征将该第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将该第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,其中,该目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息处理方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种信息处理方法,其特征在于,包括:
获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,所述第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;
将所述第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,所述第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的;
获取所述第一目标图像特征在所述目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数;
将所述第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;
将所述第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;
将所述第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;
将所述第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,其中,所述目标预设头部网络模型为结合在所述目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
2.根据权利要求1所述的信息处理方法,其特征在于,所述获取目标视频,包括:
获取初始视频;
提取所述初始视频中每一帧的人脸图像;
通过分析每一帧的所述人脸图像确定相同对象,将出现相同对象的多帧视频片段确定为初始视频片段;
将帧数大于预设阈值的初始视频片段确定为目标视频。
3.根据权利要求2所述的信息处理方法,其特征在于,所述将帧数大于预设阈值的初始视频片段确定为目标视频,包括:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对所述第一目标视频片段进行样式变换,得到第二目标视频片段;
将所述第一目标视频片段和所述第二目标视频片段确定为目标视频。
4.根据权利要求1所述的信息处理方法,其特征在于,所述方法,还包括:
生成第一目标损失函数;
根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数;
其中,所述生成第一目标损失函数,包括:
将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
将所述第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出第一预测表情系数、第一预测姿态系数和第一预测光照系数;
获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
根据所述共享身份系数、共享纹理系数、第一预测表情系数、第一预测姿态系数和第一预测光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
通过正则化损失函数建立所述共享身份系数、共享纹理系数和第一预测表情系数的约束关系;
根据所述第一差异、第二差异和所述约束关系生成相应的第一目标损失函数。
5.根据权利要求4所述的信息处理方法,其特征在于,所述根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至所述第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数,包括:
根据所述第一目标损失函数对所述第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数优化;
返回重复执行生成第一目标损失函数,通过生成的第一目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第一网络参数迭代优化,直至第一目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
6.根据权利要求1所述的信息处理方法,其特征在于,所述将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,还包括:
生成第二目标损失函数;
通过所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至所述第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型;
其中,所述生成第二目标损失函数,包括:
将所述第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
根据所述第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第三差异;
根据所述第一预测身份系数、第一预测纹理系数、第一目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
基于所述预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第四差异;
根据所述第三差异和第四差异建立第二目标损失函数。
7.根据权利要求6所述的信息处理方法,其特征在于,所述通过所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行迭代优化,直至所述第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型,包括:
根据所述第二目标损失函数对所述第四预设网络模型和第五预设网络模型的第二网络参数进行优化;
返回重复执行生成第二目标损失函数,通过生成的第二目标损失函数对第四预设网络模型和第五预设网络模型进行第二网络参数迭代优化,直至第二目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
8.根据权利要求1所述的信息处理方法,其特征在于,所述获取所述第一目标图像特征在所述目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数之后,还包括:
生成第三目标损失函数;
根据所述第三目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行迭代优化,直至所述第三目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型;
其中,所述生成第三目标损失函数,包括:
将所述第二目标身份系数输入第二预设主干模型,输出第一身份特征;
将所述第二目标纹理系数输入第三预设主干模型,输出第一纹理特征;
将所述第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征;
将所述第一特征输入预设头部网络模型,输出第二预测表情系数;
根据所述第一目标身份系数、第一目标纹理系数、第二预测表情系数、第一目标姿态系数以及第一目标光照系数,生成第三预测人脸三维模型;
获取第三预测人脸三维模型对应的第二人脸估计值和人脸图像中未被遮挡区域之间的第五差异;
获取第三预测人脸三维模型对应的第二预测人脸三维关键点和人脸三维关键点之间的第六差异;
根据所述第五差异和第六差异建立第三目标损失函数。
9.根据权利要求8所述的信息处理方法,其特征在于,所述根据所述第三目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行迭代优化,直至所述第三目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型,包括:
根据所述第三目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第三网络参数进行优化;
返回重复执行生成第三目标损失函数,,通过生成的第三目标损失函数对第二预设主干模型、第三预设主干模型和预设头部网络模型进行第三网络参数迭代优化,直至第三目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型。
10.一种信息处理装置,其特征在于,包括:
第一获取单元,用于获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
第一输入单元,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
第二输入单元,用于将所述第一目标图像特征分别输入第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型,对应输出第一目标表情系数、第一目标姿态系数以及第一目标光照系数;其中,所述第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型通过获取共享身份系数和共享纹理系数,对应进行表情系数、姿态系数、和光照系数预测优化训练得到;
第三输入单元,用于将所述第一目标图像特征分别输入第四目标预设网络模型和第五目标预设网络模型,对应输出第一目标身份系数和第一目标纹理系数;其中,所述第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的;
第二获取单元,用于获取所述第一目标图像特征在所述目标视频中不同帧的人脸图像对应的第二目标身份系数和第二目标纹理系数;
第四输入单元,用于将所述第二目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;
第五输入单元,用于将所述第二目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;
拼接单元,用于将所述第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;
第六输入单元,用于将所述第一目标特征输入目标预设头部网络模型,输出第二目标表情系数,其中,所述目标预设头部网络模型为结合在所述目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
11.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的信息处理方法中的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的信息处理方法中的步骤。
CN202210370142.1A 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质 Active CN114821404B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202210370142.1A CN114821404B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质
PCT/CN2022/140143 WO2023193474A1 (zh) 2022-04-08 2022-12-19 信息处理方法、装置、计算机设备及存储介质
EP22936399.9A EP4345770A1 (en) 2022-04-08 2022-12-19 Information processing method and apparatus, computer device, and storage medium
US18/396,966 US20240135643A1 (en) 2022-04-08 2023-12-27 Information processing method, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210370142.1A CN114821404B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114821404A true CN114821404A (zh) 2022-07-29
CN114821404B CN114821404B (zh) 2023-07-25

Family

ID=82533870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210370142.1A Active CN114821404B (zh) 2022-04-08 2022-04-08 一种信息处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114821404B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984943A (zh) * 2023-01-16 2023-04-18 支付宝(杭州)信息技术有限公司 面部表情捕捉及模型训练方法、装置、设备、介质及产品
WO2023193491A1 (zh) * 2022-04-08 2023-10-12 马上消费金融股份有限公司 信息处理方法、装置、计算机设备及存储介质
WO2023193474A1 (zh) * 2022-04-08 2023-10-12 马上消费金融股份有限公司 信息处理方法、装置、计算机设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090135188A1 (en) * 2007-11-26 2009-05-28 Tsinghua University Method and system of live detection based on physiological motion on human face
CN102254154A (zh) * 2011-07-05 2011-11-23 南京大学 一种基于三维模型重建的人脸身份认证方法
WO2013074153A1 (en) * 2011-11-17 2013-05-23 University Of Southern California Generating three dimensional models from range sensor data
CN107292950A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于深度神经网络的端到端三维人脸重建方法
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN112633191A (zh) * 2020-12-28 2021-04-09 百果园技术(新加坡)有限公司 一种三维人脸重建的方法、装置、设备和存储介质
CN112819947A (zh) * 2021-02-03 2021-05-18 Oppo广东移动通信有限公司 三维人脸的重建方法、装置、电子设备以及存储介质
US20210166088A1 (en) * 2019-09-29 2021-06-03 Tencent Technology (Shenzhen) Company Limited Training method and apparatus for image fusion processing model, device, and storage medium
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113327278A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 三维人脸重建方法、装置、设备以及存储介质
CN113395476A (zh) * 2021-06-07 2021-09-14 广东工业大学 一种基于三维人脸重构的虚拟人物视频通话方法及系统
CN114078275A (zh) * 2021-11-19 2022-02-22 广州虎牙科技有限公司 表情识别方法、系统及计算机设备
CN114238904A (zh) * 2021-12-08 2022-03-25 马上消费金融股份有限公司 身份识别方法、双通道超分模型的训练方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090135188A1 (en) * 2007-11-26 2009-05-28 Tsinghua University Method and system of live detection based on physiological motion on human face
CN102254154A (zh) * 2011-07-05 2011-11-23 南京大学 一种基于三维模型重建的人脸身份认证方法
WO2013074153A1 (en) * 2011-11-17 2013-05-23 University Of Southern California Generating three dimensional models from range sensor data
CN107292950A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于深度神经网络的端到端三维人脸重建方法
US20210166088A1 (en) * 2019-09-29 2021-06-03 Tencent Technology (Shenzhen) Company Limited Training method and apparatus for image fusion processing model, device, and storage medium
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN112633191A (zh) * 2020-12-28 2021-04-09 百果园技术(新加坡)有限公司 一种三维人脸重建的方法、装置、设备和存储介质
CN112819947A (zh) * 2021-02-03 2021-05-18 Oppo广东移动通信有限公司 三维人脸的重建方法、装置、电子设备以及存储介质
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113395476A (zh) * 2021-06-07 2021-09-14 广东工业大学 一种基于三维人脸重构的虚拟人物视频通话方法及系统
CN113327278A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 三维人脸重建方法、装置、设备以及存储介质
CN114078275A (zh) * 2021-11-19 2022-02-22 广州虎牙科技有限公司 表情识别方法、系统及计算机设备
CN114238904A (zh) * 2021-12-08 2022-03-25 马上消费金融股份有限公司 身份识别方法、双通道超分模型的训练方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DIVYA UDAYAN J;HYUNG SEOK KIM;JEE-IN KIM;: "An image-based approach to the reconstruction of ancient architectures by extracting and arranging 3D spatial components", JOURNAL OF ZHEJIANG UNIVERSITY-SCIENCE C(COMPUTERS & ELECTRONICS), no. 01, pages 16 - 31 *
FENG LIU;DAN ZENG;JING LI;QI-JUN ZHAO;: "形状空间下基于级联回归的三维人脸重建(英文)", FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING, no. 12, pages 73 - 86 *
柴秀娟 等: "基于 3D 人脸重建的光照、姿态不变人脸识别", JOURNAL OF SOFTWARE, vol. 17, no. 3, pages 525 *
薛定谔的炼丹炉!: "基于3DMM的三维人脸重建技术总结", Retrieved from the Internet <URL:https://blog.csdn.net/qq_43703185/article/details/121034201> *
高翔;黄法秀;刘春平;陈虎;: "3DMM与GAN结合的实时人脸表情迁移方法", 计算机应用与软件, no. 04, pages 125 - 132 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023193491A1 (zh) * 2022-04-08 2023-10-12 马上消费金融股份有限公司 信息处理方法、装置、计算机设备及存储介质
WO2023193474A1 (zh) * 2022-04-08 2023-10-12 马上消费金融股份有限公司 信息处理方法、装置、计算机设备及存储介质
CN115984943A (zh) * 2023-01-16 2023-04-18 支付宝(杭州)信息技术有限公司 面部表情捕捉及模型训练方法、装置、设备、介质及产品
CN115984943B (zh) * 2023-01-16 2024-05-14 支付宝(杭州)信息技术有限公司 面部表情捕捉及模型训练方法、装置、设备、介质及产品

Also Published As

Publication number Publication date
CN114821404B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN109285215B (zh) 一种人体三维模型重建方法、装置和存储介质
CN114821404B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN114782864B (zh) 一种信息处理方法、装置、计算机设备及存储介质
WO2023193474A1 (zh) 信息处理方法、装置、计算机设备及存储介质
CN106803055B (zh) 人脸识别方法和装置
CN111325851A (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN114783022B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN111242844A (zh) 图像处理方法、装置、服务器和存储介质
US20220343525A1 (en) Joint depth prediction from dual-cameras and dual-pixels
US20240135747A1 (en) Information processing method, computer device, and storage medium
US11423630B1 (en) Three-dimensional body composition from two-dimensional images
CN113033442B (zh) 基于StyleGAN的高自由度人脸驱动方法和装置
CN111080746A (zh) 图像处理方法、装置、电子设备和存储介质
CN112241664A (zh) 人脸识别方法、装置、服务器及存储介质
CN114926591A (zh) 多分支深度学习的3d人脸重建模型训练方法、系统及介质
WO2024060839A9 (zh) 对象操作方法、装置、计算机设备以及计算机存储介质
CN110163049B (zh) 一种人脸属性预测方法、装置及存储介质
CN116091705A (zh) 基于神经辐射场的变拓扑动态场景重建与编辑方法和装置
CN115937020A (zh) 图像处理方法、装置、设备、介质和程序产品
CN115731407A (zh) 图像比对方法、装置、计算机设备和存储介质
CN117275075B (zh) 一种人脸遮挡检测方法、系统、装置和存储介质
CN115496989B (zh) 一种生成器、生成器训练方法及避免图像坐标粘连方法
CN116708995B (zh) 摄影构图方法、装置及摄影设备
CN116684748B (zh) 摄影构图框的生成方法、装置及摄影设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant