CN114898244B - 一种信息处理方法、装置、计算机设备及存储介质 - Google Patents
一种信息处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114898244B CN114898244B CN202210369409.5A CN202210369409A CN114898244B CN 114898244 B CN114898244 B CN 114898244B CN 202210369409 A CN202210369409 A CN 202210369409A CN 114898244 B CN114898244 B CN 114898244B
- Authority
- CN
- China
- Prior art keywords
- target
- coefficient
- preset
- identity
- texture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 57
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims abstract description 148
- 230000006870 function Effects 0.000 claims description 116
- 238000012549 training Methods 0.000 claims description 56
- 238000005286 illumination Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 36
- 238000005457 optimization Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 5
- 210000003128 head Anatomy 0.000 description 63
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请实施例公开了一种信息处理方法、装置、计算机设备及存储介质,本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标图像特征在目标视频中不同帧的人脸图像对应的第一目标身份系数和第一目标纹理系数;将第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第一目标表情系数。结合视频中的先验知识进行表情系数预测,极大的提升了提取的表情系数的准确性。
Description
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种信息处理方法、装置、计算机设备及存储介质。
背景技术
人脸重建是计算机视觉比较热门的一个方向,3D人脸相关应用也是近年来短视频领域的新玩法,其中,根据人脸图像重建人脸3D模型是很多人脸相关应用的基础技术之一。
在现有技术中,通常通过参数化的人脸3D重建算法来构建人脸3D模型,参数化的人脸3D重建算法,通过媒介参数化人脸3D模型作为先验信息做约束,将对人脸3D重建的问题转化为对参数化人脸3D模型的参数的估计,可以很好的应对挑战性环境下的人脸3D重建,而常用的参数化人脸3D重建算法往往通过估计3DMM(3D Morphable Model)系数的方式进行构建。
为了实现后续对于说话人判定或者表情编辑等操作,往往需要提取出图像中人脸的表情信息,然而常用的基于图像的参数化人脸3D重建算法直接提取的3DMM表情信息会和其他非表情信息耦合,使得提取的表情信息不准确,信息处理的准确性较差。
发明内容
本申请实施例提供一种信息处理方法、装置、计算机设备及存储介质,可以提升信息处理的准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种信息处理方法,包括:
获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
获取第一目标身份系数和第一目标纹理系数,所述第一目标身份系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,所述第一目标纹理系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,所述第一目标身份系数和第一目标纹理系数取自同一帧人脸图像;
将所述第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;
将所述第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;
将所述第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;
将所述第一目标特征输入目标预设头部网络模型,输出第一目标表情系数,其中,所述目标预设头部网络模型为结合在所述目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
一种信息处理装置,包括:
第一获取单元,用于获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
第一输入单元,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
第二获取单元,用于获取第一目标身份系数和第一目标纹理系数,所述第一目标身份系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,所述第一目标纹理系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,所述第一目标身份系数和第一目标纹理系数取自同一帧人脸图像;
第二输入单元,用于将所述第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;
第三输入单元,用于将所述第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;
拼接单元,用于将所述第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;
第四输入单元,用于将所述第一目标特征输入目标预设头部网络模型,输出第一目标表情系数,其中,所述目标预设头部网络模型为结合在所述目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
在一些实施例中,所述第二获取单元,用于:
获取所述第一目标图像特征在所述目标视频中前一帧的人脸图像对应的第一身份系数和第一纹理系数;
获取所述第一目标图像特征对应的第二身份系数和第二纹理系数;
将所述第一身份系数和第二身份系数进行加权求和,得到第一目标图像特征对应的第一目标身份系数;
将所述第一纹理系数和第二纹理系数进行加权求和,得到第一目标图像特征对应的第一目标纹理系数;
所述信息处理装置,还包括更新单元,用于:
将所述第一目标身份系数替换第一目标图像特征在所述目标视频中当前帧的人脸图像对应的第二身份系数;
将所述第一目标纹理系数替换第一目标图像特征在所述目标视频中当前帧的人脸图像对应的第二纹理系数。
在一些实施例中,所述第一获取单元,包括:
获取子单元,用于获取初始视频;
提取子单元,用于提取所述初始视频中每一帧的人脸图像;
第一确定子单元,用于将出现相同对象的多帧视频片段确定为初始视频片段;
第二确定子单元,用于将帧数大于预设阈值的初始视频片段确定为目标视频。
在一些实施例中,所述第二确定子单元,用于:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对所述第一目标视频片段进行样式变换,得到第二目标视频片段;
将所述第一目标视频片段和所述第二目标视频片段确定为目标视频。
在一些实施例中,所述装置,还包括第一训练单元,包括:
第一生成子单元,用于生成第一目标损失函数;
第一训练子单元,根据所述第一目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行迭代优化,直至所述第一目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型;
所述第一生成子单元,用于将所述第一目标身份系数输入第二预设主干模型,输出第一身份特征;
将所述第一目标纹理系数输入第三预设主干模型,输出第一纹理特征;
将所述第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征;
将所述第一特征输入预设头部网络模型,输出第一预测表情系数;
根据标签身份系数、标签纹理系数、第一预测表情系数、标签姿态系数以及标签光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
根据所述第一差异和第二差异建立第一目标损失函数。
一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述信息处理方法中的步骤。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信息处理方法中的步骤。
一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机上述信息处理方法中的步骤。
本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标图像特征在目标视频中不同帧的人脸图像对应的第一目标身份系数和第一目标纹理系数;将第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第一目标表情系数。本申请实施例结合目标视频中的先验知识对表情系数进行预测,相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大的提升了提取的表情系数的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息处理系统的场景示意图;
图2是本申请实施例提供的信息处理方法的流程示意图;
图3是本申请实施例提供的信息处理方法的另一流程示意图;
图4a为本申请实施例提供的信息处理系统的框架示意图;
图4b为本申请实施例提供的信息处理方法的场景示意图;
图4c为本申请实施例提供的信息处理系统的另一框架示意图;
图4d为本申请实施例提供的信息处理系统的再一框架示意图;
图5是本申请实施例提供的信息处理装置的结构示意图;
图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供一种信息处理方法、装置、计算机设备及存储介质。其中,该信息处理方法可以应用于信息处理装置中。该信息处理装置可以集成在计算机设备中,该计算机设备可以是具有信息处理功能的终端。其中,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机以及智能手表等,但并不局限于此。该计算机设备也可以是服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,为本申请提供的信息处理的场景示意图;如图所示,计算机设备获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标身份系数和第一目标纹理系数,该第一目标身份系数为该目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,该第一目标纹理系数为该目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,该第一目标身份系数和第一目标纹理系数取自同一帧人脸图像;将该第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将该第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将该第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将该第一目标特征输入目标预设头部网络模型,输出第一目标表情系数,其中,该目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
需要说明的是,图1所示的信息处理的场景示意图仅仅是一个示例,本申请实施例描述的信息处理场景是为了更加清楚地说明本申请的技术方案,并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知,随着信息处理的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。
在本实施例中,将从信息处理装置的角度进行描述,该信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。
请参阅图2,图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括:
在步骤101中,获取目标视频。
其中,该目标视频由多帧图像组成,且该目标视频中每一帧包含相同对象对应的人脸图像,该对象可以为用户,即本申请实施例可以将同一个用户的人脸图像连续出现的视频片段确定为目标视频。
在一些实施方式中,从获取目标视频,可以包括:
(1)获取初始视频;
(2)提取该初始视频中每一帧的人脸图像;
(3)通过分析每一帧的人脸图像确定相同对象,将连续出现相同对象的多帧视频片段确定为初始视频片段;
(4)将帧数大于预设阈值的初始视频片段确定为目标视频。
其中,该初始视频可以为清晰的人脸视频组成的视频,该初始视频中可以包含一个或多个清晰人脸的视频。以此,可以通过人脸检测算法和人脸跟踪算法依次确定每一帧的人脸对应人脸框,该人脸框可以以矩形框的形式进行标定。
进一步的,可以将视频中每一帧的相同对象的人脸框进行关联,形成人脸框序列,具体的人脸框序列组件规则如下:
对比相邻帧临近位置内人脸框的相似度,若高于预设阈值,则将其认定为相同对象,若中间有任一帧开始,没有和前面帧相同的对象,则人脸框对比结束,且若中间有一帧开始,出现了一个新的对象,则新建一个人脸框序列,以此类推,确定至少一个相同对象的人脸框序列。
为了保证人脸框序列的质量,在一实施方式中可以通过如下方式筛选人脸框序列中的人脸框:(A)可以删除人脸框序列中和其他人脸框序列中存在至少一个人脸框重叠的框;(B)可以删除人脸框序列中尺寸小于预设尺寸的框;(C)可以删除人脸框序列中人脸图像模糊的框。该人脸图像模糊判定的方式,可以通过对人脸框内图像计算拉普拉斯值,若该拉普拉斯值低于预设阈值,认定为模糊人脸。以此,每种相同对象的人脸框序列均对应一个人脸框序列,舍弃长度不足预设帧数的人脸框序列,例如将长度不足10帧的人脸框序列删除,得到符合要求的多个人脸框序列。
为了保证人脸框的图像质量,对人脸框序列进行平滑操作,形成方形的人脸框子序列,具体为(D)计算人脸框子序列中的每个框的框中心,和边长(长宽中较大的值并放大1.4倍),形成框中心序列和框边长序列;(E)对框中心序列和框边长序列,分别进行平滑滤波;(F)根据平滑后的框中心和框边长,重组人脸框,得到平滑后的人脸框序列。以此,根据平滑操作之后的人脸框序列,从初始视频中裁取对应位置的图像(若方形框超出图像边界,则填充0像素),缩放到固定尺寸,按照每帧的拼接顺序形成至少一个目标视频,每一个目标视频中包含相同对象对应的人脸图像。
在一些实施方式中,从将帧数大于预设阈值的初始视频片段确定为目标视频,可以包括:
(1.1)将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
(1.2)对该第一目标视频片段进行样式变换,得到第二目标视频片段;
(1.3)将该第一目标视频片段和该第二目标视频片段确定为目标视频。
其中,可以将帧数大于预设阈值的初始视频片段确定为第一目标视频片段,为了适配更多的应用场景,可以对该第一目标视频片段进行样本扩充,在一实施方式,该样式变换的方式可以有压缩、亮度变化、色调变化和/或改变编码格式等不改变图像尺寸的操作,以此,可以对该第一目标视频片段进行样式变换,得到第二目标视频片段,即扩充后的视频片段,将该第一目标视频片段和该第二目标视频片段确定为目标视频,即实现目标视频的倍增。
倍增后的视频,还可以通过上述方法进一步做倍增处理。在一些实施方式中,为了保证目标视频的质量,不对倍增后的视频做进一步的倍增。
在一些实施方式中,可以利用人脸检测算法提取目标视频中每个帧的人脸图像,缩放到预定尺寸,本文选择缩放到224x224x3的尺寸,和第一预设主干网络的输入尺寸保持一致;并进一步提取人脸图像中的人脸三维(3D)关键点,该人脸3D关键点决定了人脸的表达形式。可以将该目标视频转化为{人脸图像,人脸3D关键点}的集合,需要说明的是,部分倍增后的视频变为不清晰之后,可能无法提取相应的人脸3D关键点,为了解决上述问题,可以将无法提取人脸3D关键点直接引用进行倍增的目标视频的人脸3D关键点。
在步骤102中,将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
其中,该第一目标预设主干模型用于提取每一帧的人脸图像的公共的特征,该第一预设主干模型可以采用4层ResBlock网络结构作为主干网络,以此,可以将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征,该第一目标图像特征的尺度可以为28*28*128。
第一目标预设主干模型为通过第一预设主干模型训练后得到,该第一预设主干模型的网络参数为初始化为ImageNet预训练的网络参数,具体的,为了更好的理解本申请实施例,此处先对第一目标预设主干模型的训练原理进行解释:
在相关技术中,通常可以通过参数化的人脸3D重建算法来构建人脸3D模型,需要说明的是,该3DMM是一种参数化人脸3D模型,该模型主要包括几何(也可以理解为形状)和纹理两个向量部分组成,即任何新的一个人脸都可以由这些向量组合生成,分别由如下公式表达:
其中,S是人脸3D几何,是3DMM的平均人脸3D几何,为已知参数,Bid和Bexp分别是3DMM中表示身份的基底和表示表情的基底,为配置好的已知参数,αid和αexp是对应的身份系数和表情系数;
通过设置不同的身份系数和表情系数,可以获得不同的人脸3D几何形状,类似的,该T是人脸的纹理,βtex是对应的纹理系数,是3DMM的平均人脸纹理,为已知参数,Btex是3DMM中表示纹理的基底,为配置好的已知参数,通过设置不同的纹理系数,可以获得不同的人脸纹理。
特别的,为了将人脸3D模型投影成像,还需知道人脸3D模型相对于相机的姿态系数,以及环境光光照模型的光照系数,以此,只要知道身份系数、纹理系数、表情系数、姿态系数以及光照系数即可以构成相应需要的人脸3D模型。
本申请实施例为了更好的对于说话人判定或者表情标记,需要单独提取表情系数,提取的表情系数越准确,后续处理效果越好,虽然可以简单的通过3DMM定义的表情系数作为需要的表情系数,在3DMM下,定义无表情系数的人脸为中性表情,该中性表情可以理解为脸部自然放松,双眼平视前方,嘴部自然闭合且嘴角放平时的表情,同一个人在其他表情下的人脸3D模型相对该中性表情相对参照的形变为表情,相应的,该表情所对应的表情信息即为本申请实施例需要提取的表情系数。
然而,对系数的求解是一个非线性的算法问题,当仅有一张人脸图像作为输入时,往往存在多个局部解。即,存在多个<身份系数,纹理系数,表情系数,姿态系数,光照系数>的组合可以形成类似的人脸3D模型。例如,对于一个厚嘴唇且嘴比较小的人脸图像,既可能对应于一个厚嘴唇,嘴比较小的人在中性表情时的人脸3D模型,也可能对应于一个薄嘴唇且嘴比较大的人在略微嘟嘴的表情时的人脸3D模型,两者可以对输入图像实现类似的拟合。
针对这种存在多个合理解的情况,往往是因为表情系数和其他非表情系数,特别是身份系数,耦合导致的,而本申请实施例为了实现表情系数和其他非表情系数的解耦合,提前设定目标视频中每一帧为相同对象对应的人脸图像,由于时间间隔很短,所以这些人脸图像应具有相同的共享身份系数和共享纹理系数,所以可以设定相同的对象的目标视频使用相同的共享身份系数和共享纹理系数,该共享身份系数可以预存在共享身份系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该共享身份系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享身份系数维度,该共享身份系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享身份系数可以智能化调节。
该共享纹理系数可以预存在共享纹理系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该共享纹理系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享纹理系数维度,该共享纹理系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享纹理系数可以智能化调节。
在一些实施方式中,该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数预测优化训练的过程如下:
生成第二目标损失函数,在一实施方式中,该生成第二目标损失函数,包括:
(1)将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征;
(2)将该第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,对应输出中间预测表情系数、第一预测姿态系数和第一预测光照系数;
(3)获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数;
(4)根据该共享身份系数、共享纹理系数、中间预测表情系数、第一预测姿态系数和第一预测光照系数,生成中间预测人脸三维模型;
(5)获取中间预测人脸三维模型对应的中间人脸估计值和人脸图像中未被遮挡区域之间的第三差异;
(6)获取中间预测人脸三维模型对应的中间预测人脸三维关键点和人脸三维关键点之间的第四差异;
(7)通过正则化损失函数建立该共享身份系数、共享纹理系数和中间预测表情系数的约束关系;
(8)根据该第三差异、第四差异和该约束关系生成相应的第二目标损失函数;
根据第二目标损失函数进行训练的过程如下:
(9)根据该第二目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第二网络参数迭代优化,直至该第二目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
其中,第一预设主干模型用于预测每一帧的人脸图像的公共的特征,该第一预设网络模型用于预测表情系数,该第二预设网络模型用于预测姿态系数,该第三预设网络模型用于预测光照系数,该共享身份系数、共享纹理系数用于表征目标视频下特定目标对象的身份系数和纹理系数,且在目标对象相同的目标视频中,每一帧的人脸图像对应的共享身份系数和共享纹理系数相同,以实现引入对身份系数和纹理系数的额外约束关系来消除歧义。
该第一预设网络模型、第二预设网络模型和第三预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接(Fully connected layer,FClayer)的结构,基于此,可以将每一第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,输出预测的中间预测表情系数、第一预测姿态系数和第一预测光照系数,由于该第一预设网络模型、第二预设网络模型和第三预设网络模型还没有训练完成,因此,该中间预测表情系数、第一预测姿态系数和第一预测光照系数不是最优值。
在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的中间预测表情系数、第一预测姿态系数和第一预测光照系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以先获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数,再根据该共享身份系数、共享纹理系数、中间预测表情系数、第一预测姿态系数和第一预测光照系数,生成中间预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,该中间人脸估计值为通过可微分渲染器(differentiable renderer)对构建出的中间预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该中间预测人脸三维模型对应的中间人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第三差异,之所以引入未被遮挡区域M的原因是3DMM模型无法表达遮挡物,导致“系数估计值构建的人脸图像估计值”都是完整的人脸。而“人脸图像真值”如果不是完整的人脸,比如戴了墨镜,则两者在遮挡处不应该比较差异,所以选择用M去掉遮挡部分,只比较未遮挡部分的人脸。因此,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。该第三差异越大,说明中间人脸估计值和人脸图像越不接近,相应的,说明第一图像特征、中间预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第三差异越小,说明中间人脸估计值和人脸图像越接近,相应的,说明第一图像特征、中间预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第三差异的计算方式,可以通过如下公式计算:
其中,该Lrec为第三差异,该Mi为未遮挡区域,该Ii为第i个人脸图像,该为第i个中间人脸估计值,通过上述公式计算出第三差异,上述公式可以理解为第三差异的损失函数。
还可以获取中间预测人脸三维模型对应的中间预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第四差异,具体的,可以将中间预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(中间预测人脸三维关键点)计算当前估计值/>与真实的人脸图像的人脸三维关键点的真值K在未被遮挡区域M的第四差异。该第四差异越大,说明预测的中间预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一预设主干模型、中间预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第四差异越小,说明预测的中间预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一预设主干模型、中间预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第四差异的计算方式,可以通过如下公式计算:
其中,该Llan为第四差异,该wi为权重,每个关键点有不同的权重,即在计算损失函数时,有些关键点的错误比其他关键点的错误更重要。这些权重的值在技术实现中,是预先定义的。该ki为第i个人脸三维关键点的真值,该为第i个中间预测人脸三维模型的人脸3D关键点的当前估计值,该N代表关键点的数量,例如为68个。通过上述公式计算出第四差异,上述公式可以理解为第四差异的损失函数。
还可以通过正则化损失函数建立该共享身份系数、共享纹理系数和中间预测表情系数的约束关系,约束该共享身份系数、共享纹理系数和第一预测表情系数的约束关系不要偏离零均值过多,可以通过如下公式计算:
其中,该αd,αt和αe是预设的权重系数,用于平衡各项损失函数,该为共享身份系数,/>为共享纹理系数和/>为中间预测表情系数。上述公式可以理解为约束损失函数。
可以根据该第三差异、第四差异和该约束关系生成相应的第二目标损失函数。
最后根据该第二目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第二网络参数进行迭代优化,直至该第二目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。即可以根据该第二目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第二网络参数采用随机梯度下降算法进行优化,多次重复执行生成第二目标损失函数的过程,通过不断更新的第二目标损失函数对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数进行第二网络参数迭代优化,,直至该第二目标损失函数收敛,即损失函数收敛。具体的,可以通过如下公式建立第三差异、第四差异和该约束关系的第二目标损失函数,如下:
L=λrecLrec+λlanLlan+λregLreg
该λrec,λlan和λreg是预设的权重系数,用于平衡各项损失函数,该L为第二目标损失函数,基于该第二目标损失函数可以根据随机梯度下降算法对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第二网络参数进行优化,并重复将不同的每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,迭代计算该第二目标损失进行迭代调节,直至该第二目标损失收敛,得到训练后的第二目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
以此,训练后的第一目标主干模型可以根据人脸图像输出准确的第一目标图像特征。该训练后的第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型可以输出准确的表情系数、姿态系数以及光照系数。
在一些实施方式中,可以将第一目标图像特征输入训练后的第一目标预设网络模型,输出准确的目标表情系数。可以将第一目标图像特征输入训练后的第二目标预设网络模型,输出准确的目标姿态系数。将第一目标图像特征输入训练后的第三目标预设网络模型,输出准确的目标光照系数。由于引入了共享身份系数和共享纹理系数的额外约束,即定义好身份系数和纹理系数,所以实现该目标表情系数和其他非表情系数的解耦合,提升了该目标表情系数的准确性。
其中,由于该共享身份系数和共享纹理系数均已经使用,后续为了实现对于身份系数和纹理系数的准确预测,可以不用再使用确定共享身份系数和共享纹理系数,而是通过该训练后第四目标预设网络模型和第五目标预设网络模型来输出第一目标身份系数和第一目标纹理系数。
该第四目标预设网络模型和第五目标预设网络模型为确定第一目标表情系数、第一目标姿态系数以及第一目标光照系数之后,对应进行身份系数和纹理系数预测优化训练得到的。训练前的第四预设网络模型用于预测身份系数,该第五预设网络模型用于预测纹理系数,该第四预设网络模型和第五预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接(Fully connected layer,FC layer)的结构,基于此,可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出预测的第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数不是最优值,所以需要训练该第四预设网络模和第五预设网络模型。
在一些实施方式中,该第四预设网络模型和第五预设网络模型预测优化训练的过程如下:
生成第三目标损失函数,在一实施方式中,该生成第三目标损失函数,包括:
(1.1)将该第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,对应输出第一预测身份系数和第一预测纹理系数;
(1.2)根据该第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第五差异;
(1.3)根据该第一预测身份系数、第一预测纹理系数、中间目标表情系数、第一目标姿态系数以及第一目标光照系数,确定第二预测人脸三维模型的预测几何信息和预测纹理信息;
(1.4)基于该预测几何信息和标签几何信息的差值以及预测纹理信息和标签纹理信息的差值建立第六差异;
(1.5)根据该第五差异和第六差异建立第三目标损失函数;
根据第三目标损失函数进行训练的过程如下:
(1.6)通过该第三目标损失函数对该第四预设网络模型和第五预设网络模型的第三网络参数进行迭代优化,直至该第三目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。
其中,可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数不是最优值。
可以将训练后的共享身份系数作为标签身份系数和共享纹理系数作为标签纹理系数,但是为了进一步的提升第四预设网络模型和第五预设网络模型的预测准确度,本申请实施例可以根据第一预测身份系数、第一预测纹理系数、中间目标表情系数、第一目标姿态系数以及第一目标光照系数,生成第二预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,可以根据第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第五差异。该第五差异越大,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第五差异越小,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第五差异的计算方式,可以通过如下公式计算:
其中,该Lparams为第五差异,βd和βt为预设的权重系数,该为第一预测身份系数,该dgt为标签身份系数,该/>为第一预测纹理系数,该tgt为标签纹理系数,通过上述公式计算出第五差异。
还可以确定第二预测人脸三维模型的预测几何信息和预测纹理信息,该预测几何信息和预测纹理信息未必准确,所以需要基于该预测几何信息和真实的标签几何信息的差值以及预测纹理信息和真实的标签纹理信息的差值建立第六差异。该第六差异越大,说明预测的预测几何信息和真实的标签几何信息以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第六差异越小,说明预测的预测几何信息和真实的标签几何信息以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第四差异的计算方式,可以通过如下公式计算:
其中,该L3d为第六差异,βgeo和βtex为预设的权重系数,该Sgt为标签几何信息,该为预测几何信息,该Tgt为标签纹理信息,该/>为预测纹理信息。通过上述公式计算出第六差异。并根据该第五差异和第六差异建立第三目标损失函数。
最后根据该第三目标损失函数对该第四预设网络模型和第五预设网络模型的第三网络参数进行迭代优化,直至该第三目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。即可以根据该第三目标损失函数对该第四预设网络模型和第五预设网络模型采用随机梯度下降算法进行优化,多次重复,直至该第三目标损失函数收敛,即损失函数收敛,具体的,可以通过如下公式建立第五差异和第六差异的总的损失函数,如下:
L=λparamsLParams+λ3dL3d
其中,该L为第三目标损失函数,该λparams和λ3d为预设的权重系数,基于该第三目标损失函数可以根据随机梯度下降算法对第四预设网络模型和第五预设网络模型的第三网络参数进行优化,并重复执行生成第三目标损失函数,通过不断更新的第三目标损失函数对第四预设网络模型和第五预设网络模型进行第三网络参数迭代优化,计算该第三目标损失函数进行迭代调节,直至本部分中的第三目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。由于训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数的第二网络参数已经训练好,所以在本训练过程中该第二网络参数为固定不变的。该训练后的第四目标预设网络模型和第五目标预设网络模型可以基于第一图像特征输出准确的身份系数和纹理系数。
基于此,可以将每个第一目标图像特征分别输入训练后的第四目标预设网络模型和第五目标预设网络模型,输出准确的目标身份系数以及目标纹理系数。
在步骤103中,获取第一目标身份系数和第一目标纹理系数,所述第一目标身份系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,所述第一目标纹理系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,所述第一目标身份系数和第一目标纹理系数取自同一帧人脸图像。
其中,由于本申请实施例的目标视频为相同对象在短时间内的人脸图像,不同的人脸图像之间身份系数和纹理系数非常接近,基于此原理,在同一目标视频下,可以获取每个第一图像特征在目标视频中其他不同帧的人脸图像对应的第一目标身份系数和第一目标纹理系数作为先验身份系数和先验纹理系数,该第一目标身份系数和第一目标纹理系数只需要将不同帧的人脸图像的图像特征输入训练后第四目标预设网络模型和第五目标预设网络模型,即可得到,所述第一目标身份系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,所述第一目标纹理系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,所述第一目标身份系数和第一目标纹理系数取自同一帧人脸图像。
在步骤104中,将第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征。
其中,第二目标预设主干模型用于提取第一目标身份系数的公共的特征,该第二目标预设主干模型可以采用多层感知机的网络结构作为主干网络,以此,可以将该第一目标身份系数输入第二目标预设主干模型,输出相应的第一目标身份特征,该第一目标身份特征的尺度和第一图像特征的尺度一致,例如,第一目标身份系数可以为1*80维,第二目标预设主干模型的输出可以为1*40维,将其根据第一图像特征的尺度复制扩展,得到第一目标身份特征,该第一目标身份特征可以为28*28*40。可以理解,尺度一致是指长和宽的尺度一致即可,不要求通道的尺度一致。
需要说明的是,该第二目标预设主干模型的网络参数可以为提前确定的。也可以为训练得到的,具体训练过程请继续参阅后续步骤。
在步骤105中,将第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征。
其中,第三目标预设主干模型用于提取第一目标纹理系数的公共的特征,该第三预设主干模型可以采用多层感知机的网络结构作为主干网络。
以此,可以将该第一目标纹理系数输入第三目标预设主干模型,输出相应的第一目标纹理特征,该第一目标纹理特征的尺度和第一图像特征的尺度一致,例如,第一目标纹理系数可以为1*80维,第三目标预设主干模型的输出可以为1*40维,将其根据第一图像特征的尺度复制扩展,得到第一目标纹理特征,该第一目标纹理特征的尺度可以为28*28*40。可以理解,尺度一致是指长和宽的尺度一致即可,不要求通道的尺度一致。
需要说明的是,该第三目标预设主干模型的网络参数可以为提前确定的。也可以为训练得到的,具体训练过程请继续参阅后续步骤。
在步骤106,将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征。
其中,可以将该第一目标图像特征、第一目标身份特征和第一目标纹理特征按照数据维度通道进行拼接,得到拼接后的第一目标特征,以此,该第一目标特征可以携带先验身份系数和先验纹理系数对应的第二目标身份系数和第二目标纹理系数。
在步骤107,将第一目标特征输入目标预设头部网络模型,输出第一目标表情系数。
其中,该训练后的目标预设头部网络模型为:结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。目标预设头部网络模型训练前的预设头部网络模型可以为采用4层ResBlock结构以及最后用一层全连接的结构,用于预测第一预测表情系数,由于该预设头部网络模型还没有训练完成,因此,预测的第一预测表情系数不是最优值。
前述第一预设网络模型和该预设头部网络模型虽然网络结构相同,输出的均为表情系数,但是该第一预设网络模型是基于单一输入的人脸图像输出表情系数,而该预设头部网络模型为基于输入的人脸图像、先验身份系数和先验纹理系数三者来输出表情系数。
也就是说,预设头部网络模型能够接收到除了人脸图像外的其他先验信息。在视频场景下,预设头部网络模型可以利用上来自于过往视频帧提供的先验信息,从而更适用于视频场景的使用,可以进一步的提升表情系数的预测准确性。
在一些实施方式中,该预设头部网络模型预测优化训练的过程如下:
生成第一目标损失函数,在一实施方式中,该生成第一目标损失函数,包括:
(1)将该第一目标身份系数输入第二预设主干模型,输出第一身份特征;
(2)将该第一目标纹理系数输入第三预设主干模型,输出第一纹理特征;
(3)将该第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征;
(4)将该第一特征输入预设头部网络模型,输出第一预测表情系数;
(5)根据该第一目标身份系数、第一目标纹理系数、第一预测表情系数、第一目标姿态系数以及第一目标光照系数,生成第一预测人脸三维模型;
(6)获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
(7)获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
(8)根据该第一差异和第二差异建立第一目标损失函数;
根据该第一目标损失函数进行训练的过程如下:
(9)根据该第一目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行迭代优化,直至该第一目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型。
其中,该第二预设主干模型用于提取第一目标身份系数的公共的特征,第三预设主干模型提取第一纹理身份系数的公共的特征,该预设头部网络模型用于预测表情系数,可以将该第一目标身份系数输入第二预设主干模型,输出第一身份特征;将该第一目标纹理系数输入第三预设主干模型,输出第一纹理特征。
将该第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征,以此,该第一特征可以携带先验身份系数和先验纹理系数对应的第一身份系数和第一纹理系数,不过由于该第二预设主干模型和第三预设主干模型均为未训练过的网络模型,因此,该第一特征还不是最优值。
可以将第一特征输入预设头部网络模型,输出预测的第一预测表情系数。
在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第一预测表情系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以获取标签身份系数、标签纹理系数、第一预测表情系数、标签姿态系数以及标签光照系数,生成第一预测人脸三维模型(包含人脸3D几何和人脸纹理)。
该标签身份系数可以为前述训练后的共享身份系数或者为将第一目标图像特征输入第一目标预设网络模型输出的目标表情系数。该标签姿态系数可以为将第一目标图像特征输入第二目标预设网络模型输出的目标姿态系数。该标签光照系数可以为将第一目标图像特征输入第三目标预设网络模型输出的目标光照系数。该标签身份系数可以为将第一目标图像特征输入第四目标预设网络模型输出的目标身份系数。该标签纹理系数可以为前述训练后的共享纹理系数或者为将第一目标图像特征输入第五目标预设网络模型输出的目标纹理系数。
进一步的,该第一人脸估计值为通过可微分渲染器对构建出的第一预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第一预测人脸三维模型对应的第一人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第一差异,同理,之所以引入未被遮挡区域M的原因是3DMM模型无法表达遮挡物,导致“系数估计值构建的人脸图像估计值”都是完整的人脸。而“人脸图像真值”如果不是完整的人脸,比如戴了墨镜,则两者在遮挡处不应该比较差异,所以选择用M去掉遮挡部分,只比较未遮挡部分的人脸。因此,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。
该第一差异越大,说明第一人脸估计值和人脸图像越不接近,相应的,说明第一预测表情系数越不准确,相反的,该第一差异越小,说明第一人脸估计值和人脸图像越接近,相应的,说明第一预测表情系数越准确。
还可以获取第一预测人脸三维模型对应的第一预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第一预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第一预测人脸三维关键点),计算当前估计值与真实的人脸图像的人脸三维关键点的真值在未被遮挡区域M的第二差异。该第二差异越大,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一预测表情系数越不准确,相反的,该第二差异越小,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一预测表情系数越准确,并且根据该第一差异和第二差异建立第一目标损失函数。
最后根据该第一目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行迭代优化,直至该第一目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型。即可以根据该第一目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型采用随机梯度下降算法进行优化,多次重复执行生成第一目标损失函数,通过不断更新的第一目标损失函数对第二预设主干模型、第三预设主干模型和预设头部网络模型的进行第一网络参数迭代优化,直至该第一目标损失函数,即损失函数收敛,得到训练后的预设头部网络模型。
基于此,可以将第一目标图像特征对应的第一目标特征输入训练后的目标预设头部网络模型,输出准确的第一目标表情系数,由于引入了先验身份系数和先验纹理系数的额外约束,利用上来自于过往视频帧提供的先验信息,从而更适用于视频场景的使用,可以将目标视频中每一帧的第一目标图像提取的第一目标图像特征对应的第一目标特征输入目标预设头部网络模型,输出视频每一帧对应的第一目标表情系数,使用输出的第一目标表情系数可以进一步的提升准确性。
由上述可知,本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标图像特征在目标视频中不同帧的人脸图像对应的第一目标身份系数和第一目标纹理系数;将第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第一目标表情系数。本申请实施例结合目标视频中的先验知识对表情系数进行预测,相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大的提升了提取的表情系数的准确性。
在本实施例中,将以该信息处理装置具体集成在服务器中为例进行说明,具体参照以下说明。
请参阅图3,图3为本申请实施例提供的信息处理方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器获取初始视频,提取初始视频中每一帧的人脸图像,将出现相同对象的多帧视频片段确定为初始视频片段。
其中,该初始视频可以为清晰的人脸视频组成的视频,该初始视频中可以包含一个或多个清晰人脸的视频。服务器可以通过人脸检测算法和人脸跟踪算法依次提取该初始视频中每一帧的人脸图像,通过人脸图像确定相应的用户身份信息,进而通过该用户身份信息确定人脸图像对应的用户(即对象)。
进一步的,服务器可以将相邻帧连续出现相同对象的多帧视频片段确定为初始视频片段,该初始视频片段可以为2帧以上的人脸图像,且该初始视频片段中每一帧的人脸图像都对应相同的对象。
在步骤202中,服务器将帧数大于预设阈值的初始视频片段确定为第一目标视频片段,对第一目标视频片段进行样式变换,得到第二目标视频片段,将第一目标视频片段和第二目标视频片段确定为目标视频。
其中,为了保证目标视频后续的训练效果,需要将帧数不足的初始视频片段删除,该预设阈值即用于界定帧数是否达到满足训练效果的数量的临界值,例如50帧,以此,可以将帧数大于预设阈值的初始视频片段确定为第一目标视频。
为了适配更多的应用场景,可以对该第一目标视频片段进行样本扩充,在一实施方式,该样式变换的方式可以有压缩、亮度变化、色调变化和/或改变编码格式等不改变图像尺寸的操作,以此,可以对该第一目标视频片段进行样式变换,得到第二目标视频片段,即扩充后的视频片段,将该第一目标视频片段和该第二目标视频片段确定为目标视频,即实现目标视频的倍增。
为了保证目标视频的质量,不对倍增后的视频做进一步的倍增。
为了后续处理的便利性,可以利用人脸检测算法提取目标视频中每个帧的人脸图像,并进一步提取人脸图像中的人脸三维关键点,该人脸3D关键点决定了人脸的表达形式。可以将该目标视频转化为{人脸图像,人脸3D关键点}的集合。需要说明的是,部分倍增后的视频变为不清晰之后,可能无法提取相应的人脸3D关键点,为了解决上述问题,可以将无法提取人脸3D关键点直接引用之前进行倍增的目标视频的人脸3D关键点。
在步骤203中,服务器将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
其中,在一些实施方式中,该第一目标预设主干模型的训练过程可以参照如下:
请一并参阅图4a所示,图4a为本申请实施例提供的信息处理系统的框架20示意图,该第一图像特征代表每一帧的人脸图像公共的特征,该第一预设主干模型可以采用4层ResBlock网络结构作为主干网络,服务器可以将每一帧的人脸图像依次输入第一预设主干模型,输出每一帧的人脸图像对应的第一图像特征,该第一图像特征的尺度可以为28*28*128。
请参阅图4a所示,该第一预设网络模型用于预测表情系数,该第二预设网络模型用于预测姿态系数,该第三预设网络模型用于预测光照系数,该第一预设网络模型、第二预设网络模型和第三预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接的结构,在一实施方式中,该第一预设网络模型、第二预设网络模型和第三预设网络模型还可以采用不同的网络结构,此处举例不作为具体限定。基于此,可以将每一第一图像特征分别输入第一预设网络模型、第二预设网络模型和第三预设网络模型,输出预测的第一预测表情系数、第一预测姿态系数和第一预测光照系数,由于该第一预设网络模型、第二预设网络模型和第三预设网络模型还没有训练完成,因此,该第一预测表情系数、第一预测姿态系数和第一预测光照系数未必准确。
本申请实施例为了实现表情系数和其他非表情系数的解耦合,可以提前设定目标视频中每一帧为相同对象对应的人脸图像,由于时间间隔很短,所以这些人脸图像都具有相同的共享身份系数和共享纹理系数,所以可以设定相同的对象的目标视频使用相同的共享身份系数和共享纹理系数,该共享身份系数可以预存在共享身份系数集合,该共享纹理系数可以预存在共享纹理系数集合中,该集合可以包括K个,相同的对象共享相同的共享身份系数和共享纹理系数,该共享身份系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享身份系数维度,该共享身份系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享身份系数可以随着学习的过程智能化调节。
该共享纹理系数可以预存在共享纹理系数集合中,该共享纹理系数集合可以为K*80维度,K为数据库中参与训练的集合数量,该80是本文所用3DMM版本的共享纹理系数维度,该共享纹理系数初始化可以为0均值,方差为0.1的高斯噪声,即该共享纹理系数可以随着学习的过程智能化调节。
例如,如图4b所示,目标视频中每一帧的人脸图像具有相同的共享身份系数和共享纹理系数,且每一帧具有独立的预测表情系数、预测姿态系数以及预测光照系数。
以实现引入对身份系数和纹理系数的额外约束关系来消除歧义,实现表情系数和非表情系数的解耦合。
其中,请继续参阅图4a所示,在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的中间预测表情系数、第一预测姿态系数和第一预测光照系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以先获取目标视频对应相同对象的人脸图像相应的共享身份系数和共享纹理系数,再根据该共享身份系数、共享纹理系数、中间预测表情系数、第一预测姿态系数和第一预测光照系数,生成中间预测人脸三维模型(包含人脸3D几何和人脸纹理)。
其中,该中间人脸估计值为通过可微分渲染器(differentiable renderer)对构建出的中间预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该中间预测人脸三维模型对应的中间人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第三差异,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。该第三差异越大,说明中间人脸估计值和人脸图像越不接近,相应的,说明第一图像特征、中间预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第三差异越小,说明中间人脸估计值和人脸图像越接近,相应的,说明第一图像特征、中间预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第三差异的计算方式,可以通过如下公式计算:
还可以获取中间预测人脸三维模型对应的中间预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第四差异,具体的,可以将中间预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(中间预测人脸三维关键点)计算当前估计值/>与真实的人脸图像的人脸三维关键点的真值K在未被遮挡区域M的第四差异。该第四差异越大,说明预测的中间预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一预设主干模型、中间预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越不准确,相反的,该第四差异越小,说明预测的中间预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一预设主干模型、中间预测表情系数、第一预测姿态系数、第一预测光照系数、共享身份系数和共享纹理系数越准确。该第四差异的计算方式,可以通过如下公式计算:
其中,该Llan为第四差异,该wi为权重,每个关键点有不同的权重,即在计算损失函数时,有些关键点的错误比其他关键点的错误更重要。这些权重的值在技术实现中,是预先定义的。该ki为第i个人脸三维关键点的真值,该为第i个中间预测人脸三维模型的人脸3D关键点的当前估计值,该N代表关键点的数量,例如为68个。通过上述公式计算出第四差异,上述公式可以理解为第四差异的损失函数。
还可以通过正则化损失函数建立该共享身份系数、共享纹理系数和中间预测表情系数的约束关系,约束该共享身份系数、共享纹理系数和第一预测表情系数的约束关系不要偏离零均值过多,可以通过如下公式计算:
其中,该αd,αt和αe是预设的权重系数,用于平衡各项损失函数,该为共享身份系数,/>为共享纹理系数和/>为中间预测表情系数。上述公式可以理解为约束损失函数。
可以根据该第三差异、第四差异和该约束关系生成相应的第二目标损失函数。
最后根据该第二目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第二网络参数进行优化。
其中,服务器返回执行将每一帧的人脸图像输入第一预设主干模型,输出第一图像特征的步骤对第二网络参数进行迭代优化,直至该第二目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
即可以根据该第二目标损失函数对该第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第二网络参数采用随机梯度下降算法进行优化,多次重复,直至该第二目标损失函数收敛,即损失函数收敛。具体的,可以通过如下公式建立第三差异、第四差异和该约束关系的第二目标损失函数,如下:
L=λrecLrec+λlanLlan+λregLreg
该λrec,λlan和λreg是预设的权重系数,用于平衡各项损失函数,该L为第二目标损失函数,基于该第二目标损失函数可以根据随机梯度下降算法对第一预设主干模型、第一预设网络模型、第二预设网络模型、第三预设网络模型、共享身份系数和共享纹理系数的第二网络参数进行优化,并重复将不同的每一帧的人脸图像输入第一预设主干模型,输出第一图像特征,迭代计算该第二目标损失进行迭代调节,直至该第二目标损失收敛,得到训练后的第二目标损失函数收敛,得到训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数。
以此,训练后的第一目标主干模型可以根据人脸图像输出准确的第一目标图像特征。该训练后的第一目标预设网络模型、第二目标预设网络模型和第三目标预设网络模型可以输出准确的表情系数、姿态系数以及光照系数,该共享身份系数和共享纹理系数均为准确的系数。
服务器可以将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征,进而将第一目标图像特征输入训练后的第一目标预设网络模型,输出准确的目标表情系数。将第一目标图像特征输入训练后的第二目标预设网络模型,输出准确的目标姿态系数。将第一目标图像特征输入训练后的第三目标预设网络模型,输出准确的目标预设网络模型。由于引入了共享身份系数和共享纹理系数的额外约束,即定义好身份系数和纹理系数,所以实现该目标表情系数和其他非表情系数的解耦合,提升了该目标表情系数的准确性。
其中,请一并参阅图4c所示,图4c为本申请实施例提供的信息处理系统的另一框架30示意图,该第四预设网络模型用于预测身份系数,该第五预设网络模型用于预测纹理系数,该第四预设网络模型和第五预设网络模型可以为类似的结构,即可以为采用4层ResBlock结构以及最后用一层全连接的结构,该第四预设网络模型和第五预设网络模型还可以采用不同的网络结构,此处举例不作为具体限定。基于此,服务器可以将第一目标图像特征分别输入第四预设网络模型和第五预设网络模型,输出预测的第一预测身份系数和第一预测纹理系数,由于该第四预设网络模型和第五预设网络模型还没有训练完成,因此,该第一预测身份系数和第一预测纹理系数未必准确,所以需要训练该第四预设网络模和第五预设网络模型。
在一实施方式中,可以将共享身份系数作为标签身份系数和共享纹理系数作为标签纹理系数,但是为了进一步的训练和提升第四预设网络模型和第五预设网络模型的预测准确度,本申请实施例可以根据第一预测身份系数、第一预测纹理系数、中间目标表情系数、第一目标姿态系数以及第一目标光照系数,生成第二预测人脸三维模型(包含人脸3D几何和人脸纹理)。
进一步的,可以根据第一预测身份系数和标签身份系数的差值以及第一预测纹理系数和标签纹理系数的差值建立第五差异。该第五差异越大,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第五差异越小,说明第一预测身份系数和真实的标签身份系数以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第五差异的计算方式,可以通过如下公式计算:
其中,该Lparams为第五差异,βd和βt为预设的权重系数,该为第一预测身份系数,该dgt为标签身份系数,该/>为第一预测纹理系数,该tgt为标签纹理系数,通过上述公式计算出第五差异。
还可以确定第二预测人脸三维模型的预测几何信息和预测纹理信息,该预测几何信息和预测纹理信息未必准确,所以需要基于该预测几何信息和真实的标签几何信息的差值以及预测纹理信息和真实的标签纹理信息的差值建立第六差异。该第六差异越大,说明预测的预测几何信息和真实的标签几何信息以及第一预测纹理系数和真实的标签纹理系数越不接近,相应的,说明第一预测身份系数和第一预测纹理系数越不准确,相反的,该第六差异越小,说明预测的预测几何信息和真实的标签几何信息以及第一预测纹理系数和真实的标签纹理系数越接近,相应的,说明第一预测身份系数和第一预测纹理系数越准确。该第四差异的计算方式,可以通过如下公式计算:
其中,该L3d为第六差异,βgeo和βtex为预设的权重系数,该Sgt为标签几何信息,该为预测几何信息,该Tgt为标签纹理信息,该/>为预测纹理信息。通过上述公式计算出第六差异。并根据该第五差异和第六差异建立第三目标损失函数。
最后根据该第三目标损失函数对该第四预设网络模型和第五预设网络模型的第三网络参数进行迭代优化,直至该第三目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。即可以根据该第三目标损失函数对该第四预设网络模型和第五预设网络模型采用随机梯度下降算法进行优化,多次重复,直至该第三目标损失函数收敛,即损失函数收敛,具体的,可以通过如下公式建立第五差异和第六差异的总的损失函数,如下:
L=λparamsLParams+λ3dL3d
其中,该L为第三目标损失函数,该λparams和λ3d为预设的权重系数,基于该第三目标损失函数可以根据随机梯度下降算法对第四预设网络模型和第五预设网络模型的第三网络参数进行优化,并重复将不同的第一目标图像特征分批送入该第四预设网络模型和第五预设网络模型,计算该第三目标损失函数进行迭代调节,直至本部分中的第三目标损失函数收敛,得到训练后的第四目标预设网络模型和第五目标预设网络模型。由于训练后的第一目标预设主干模型、第一目标预设网络模型、第二目标预设网络模型、第三目标预设网络模型、共享身份系数和共享纹理系数的第二网络参数已经训练好,所以在本训练过程中该第二网络参数为固定不变的。该训练后的第四目标预设网络模型和第五目标预设网络模型可以基于第一图像特征输出准确的身份系数和纹理系数。
基于此,服务器可以将第一目标图像特征分别输入训练后的第四目标预设网络模型和第五预设网络模型,输出准确的目标身份系数以及目标纹理系数。
在步骤204中,服务器获取第一目标图像特征在目标视频中前一帧的人脸图像对应的第一身份系数和第一纹理系数,获取第一目标图像特征对应的第二身份系数和第二纹理系数,将第一身份系数和第二身份系数进行加权求和,得到第一目标图像特征对应的第一目标身份系数,将第一纹理系数和第二纹理系数进行加权求和,得到第一目标图像特征对应的第一目标纹理系数,将第一目标身份系数输入第二预设主干模型,输出第一身份特征,将第一目标纹理系数输入第三预设主干模型,输出第一纹理特征,将第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征。
其中,由于本申请实施例的目标视频为相同对象在短时间内的人脸图像,不同的人脸图像之间身份系数和纹理系数非常接近,以此,可以实现在视频场景下稳定的身份系数和纹理系数估计策略。例如:
从第一帧的人脸图像I0开始,将该I0对应的目标图像特征输入第四目标预设网络模型和第五目标预设网络模型,输出对应的第二身份系数和第二纹理系数/>由于该第一帧的人脸图像I0没有前一帧的参考图像,可以将第二身份系数/>作为第一目标身份系数第一纹理系数/>作为第一目标纹理系数/>
进一步的,从K帧的人脸图像Ik开始(K大于等于2),将该人脸图像Ik输入第四目标预设网络模型和第五目标预设网络模型,输入对应的第二身份系数以及第二身份系数
获取第一目标图像特征在目标视频中前一帧的人脸图像对应的第一身份系数和第一纹理系数作为先验身份系数和先验纹理系数,例如K=2时,将前一帧,即第一帧的第一目标身份系数作为第一身份系数,第一目标纹理系数/>作为第一纹理系数。
请同时参阅如下公式:
通过上述公式(1)和公式(2)可以将第二帧的第二身份系数与第一帧的第一身份系数进行加权求和,得到对应的第一目标身份系数还可以将第二帧的第二目标纹理系数与第一帧的第一纹理系数进行加权求和,得到第一目标纹理系数/>以该第一目标身份系数/>和第一目标纹理系数/>进行后续的目标表情系数预测,可以融合在先帧的先验知识,可以更好的进行视频预测,并且在当前帧进行表情预测之后,会将该第一目标身份系数/>替换当前帧的第二身份系数以及将第一目标纹理系数/>替换当前帧的第二纹理系数,以作为下一帧获取前一帧的基础。以此类推,随着视频帧数处理的进行,从第二帧开始的每一帧人脸图像的第一目标身份系数和第一目标纹理系数均可以结合之前的先验知识,并且不断进行更新。
将第一目标身份系数输入第二预设主干模型,输出第一身份特征,将第一目标纹理系数输入第三预设主干模型,输出第一纹理特征,将第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征。
请一并参阅图4d所示,图4d为本申请实施例提供的信息处理系统的另一框架40示意图,第二预设主干模型用于提取第一目标身份系数的公共的特征,该第二预设主干模型可以采用多层感知机的网络结构作为主干网络,第三预设主干模型用于提取第一目标纹理系数的公共的特征,该第三预设主干模型可以采用多层感知机的网络结构作为主干网络,以此,可以将该第一目标身份系数输入第二预设主干模型,输出相应的第一身份特征。可以将该第一目标纹理系数输第三预设主干模型,输出相应第一纹理特征,该第一身份特征和第一纹理特征的尺度和第一目标图像特征的尺度一致,例如,第一目标身份系数可以为1*80维,第二预设主干模型的输出可以为1*40维,将其根据第一图像特征的尺度复制扩展,得到第一身份特征,该第一身份特征可以为28*28*40;第一目标纹理系数可以为1*80维,第三预设主干模型的输出可以为1*40维,将其根据第一图像特征的尺度复制扩展,得到第一纹理特征,该第一纹理特征的尺度可以为28*28*40。可以理解,尺度一致是指长和宽的尺度一致即可,不要求通道的尺度一致。
由于该第一目标图像特征、第一身份特征和第一纹理特征的尺度相同,所以可以将该第一目标图像特征、第一身份特征和第一纹理特征按照数据维度通道进行拼接,得到拼接后的第一特征,以此,该第一特征可以携带先验身份系数和先验纹理系数对应的第一身份特征和第二纹理特征。
在步骤205中,服务器将第一特征输入预设头部网络模型,输出第一预测表情系数,根据标签身份系数、标签纹理系数、第一预测表情系数、标签姿态系数以及标签光照系数,生成第一预测人脸三维模型,获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异,获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异,根据第一差异和第二差异建立第一目标损失函数。
其中,请继续参阅图4d,该训练后的目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。目标预设头部网络模型训练前的预设头部网络模型可以为采用4层ResBlock结构以及最后用一层全连接的结构,基于此,可以将每个第一特征分别输入预设头部网络模型,输出预测的第一预测表情系数。由于该预设头部网络模型还没有训练完成,因此,该第一预测表情系数还不是最优值。
前述第一预设网络模型和该预设头部网络模型虽然网络结构相同,输出的均为表情系数,但是该第一预设网络模型是基于单一输入的人脸图像输出表情系数,而该预设头部网络模型为基于输入的人脸图像、先验身份系数和先验纹理系数三者来输出表情系数。
也就是说,预设头部网络模型能够接收到除了人脸图像外的其他先验信息。在视频场景下,预设头部网络模型可以利用来自于过往视频帧提供的先验信息,从而更适用于视频场景的使用,可以进一步的提升表情系数的预测准确性。
该预设头部网络模型用于预测表情系数,可以将第一目标图像特征对应的第一特征输入分别输入预设头部网络模型,输出预测的第一预测表情系数。
在相关技术中,由于没有“系数真值”作为标签进行递归训练,所以无法直接度量该预测的第一预测表情系数是好是坏,为了解决上述问题,本申请实施例可以采用间接度量的方式,即可以获取标签身份系数、标签纹理系数、第一预测表情系数、标签姿态系数以及标签光照系数,生成第一预测人脸三维模型(包含人脸3D几何和人脸纹理)。
该标签身份系数可以为前述训练后的共享身份系数或者为将第一目标图像特征输入第一目标预设网络模型输出的目标表情系数。该标签姿态系数可以为将第一目标图像特征输入第二目标预设网络模型输出的目标姿态系数。该标签光照系数可以为将第一目标图像特征输入第三目标预设网络模型输出的目标光照系数。该标签身份系数可以为将第一目标图像特征输入第四目标预设网络模型输出的目标身份系数。该标签纹理系数可以为前述训练后的共享纹理系数或者为将第一目标图像特征输入第五目标预设网络模型输出的目标纹理系数。
进一步的,该第一人脸估计值为通过可微分渲染器对构建出的第一预测人脸三维模型的当前估计值(几何,纹理)进行渲染得到的2维图像。
可以确定该第一预测人脸三维模型对应的第一人脸估计值和人脸图像(即原始图像)中未被遮挡区域之间的第一差异,同理,之所以引入未被遮挡区域M的原因是3DMM模型无法表达遮挡物,导致“系数估计值构建的人脸图像估计值”都是完整的人脸。而“人脸图像真值”如果不是完整的人脸,比如戴了墨镜,则两者在遮挡处不应该比较差异,所以选择用M去掉遮挡部分,只比较未遮挡部分的人脸。因此,训练时,可以根据人脸图像的人脸3D关键点,在线将一些常见遮挡物贴到人脸图像上,例如,将墨镜图片根据人眼关键点尺度缩放贴到人眼部,形成对人脸图像局部遮挡等图像层面倍增,增强深度神经网络对人脸遮挡的健壮性。
该第一差异越大,说明第一人脸估计值和人脸图像越不接近,相应的,说明第一预测表情系数越不准确,相反的,该第一差异越小,说明第一人脸估计值和人脸图像越接近,相应的,说明第一预测表情系数越准确。
还可以获取第一预测人脸三维模型对应的第一预测人脸三维关键点和真实的人脸图像的人脸三维关键点的第二差异,具体的,可以将第一预测人脸三维模型所用人脸3D关键点语义位置的顶点投影到图像上,得到人脸3D关键点的当前估计值(第一预测人脸三维关键点),计算当前估计值与真实的人脸图像的人脸三维关键点的真值在未被遮挡区域M的第二差异。该第二差异越大,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越不接近,相应的,说明第一预测表情系数越不准确,相反的,该第二差异越小,说明预测的第一预测人脸三维关键点和真实的人脸三维关键点越接近,相应的,说明第一预测表情系数越准确。并根据该第一差异和第二差异建立第一目标损失函数。
在步骤206中,服务器根据第一目标损失函数对第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行优化,返回执行将第一目标身份系数输入第二预设主干模型,输出第一身份特征,以对第一网络参数进行迭代优化,直至第一目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型。
其中,请继续参阅图4d,服务器可以根据该第一目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行优化,返回执行将第一目标身份系数输入第二预设主干模型,输出第一身份特征的步骤对第三网络参数进行迭代优化,以此,使得该第二预设主干模型、第三预设主干模型和预设头部网络模型的预测越来越准确,该第一目标损失函数越来越小,直至该第一目标损失函数异收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型和目标预设头部网络模型。即可以根据该第一目标损失函数对该第二预设主干模型、第三预设主干模型和预设头部网络模型采用随机梯度下降算法进行优化,多次重复,直至该第一目标损失函数收敛,即损失函数收敛,得到训练后的目标预设头部网络模型。
在步骤207中,服务器将第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征,将第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征,将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征,将第一目标特征输入目标预设头部网络模型,输出第一目标表情系数。
其中,服务器可以将第一目标身份系数输入第二目标预设主干模型,输出准确的第一目标身份特征,将第一目标纹理系数输入第三目标预设主干模型,输出准确的第一目标纹理特征,将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征。
进一步的,将第一目标图像特征对应的第一目标特征输入训练后的目标预设头部网络模型,输出准确的第一目标表情系数,由于引入了先验身份系数和先验纹理系数的额外约束,利用上来自于过往视频帧提供的先验信息,从而更适用于视频场景的使用,可以使得输出的第一目标表情系数进一步的提升准确性。
在步骤208中,服务器将第一目标身份系数替换第一目标图像特征在目标视频中当前帧的人脸图像对应的第二身份系数,将第一目标纹理系数替换第一目标图像特征在目标视频中当前帧的人脸图像对应的第二纹理系数。
其中,请继续参考公式(1)和公式(2)服务器会将该第一目标身份系数替换当前帧的第二身份系数以及将第一目标纹理系数/>替换当前帧的第二纹理系数,以作为下一帧获取前一帧的身份系数和纹理系数的基础。以此类推,随着视频帧数处理的进行,从第二帧开始的每一帧人脸图像的第一目标身份系数和第一目标纹理系数均可以结合之前的先验知识,并且不断进行更新。
由上述可知,本申请实施例通过获取目标视频;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标图像特征在目标视频中不同帧的人脸图像对应的第一目标身份系数和第一目标纹理系数;将第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将第一目标特征输入目标预设头部网络模型,输出第一目标表情系数。本申请实施例结合目标视频中的先验知识对表情系数进行预测,相对于通过3DMM方法直接提取表情系数的方案而言,本申请实施例极大的提升了提取的表情系数的准确性。
请参阅图5,图5为本申请实施例提供的信息处理装置的结构示意图,其中该信息处理装置可以包括第一获取单元301、第一输入单元302、第二获取单元303、第二输入单元304、第三输入单元305、拼接单元306以及第四输入单元307等。
第一获取单元301,用于获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像。
在一些实施例中,该第一获取单元301,包括:
获取子单元,用于获取初始视频;
提取子单元,用于提取该初始视频中每一帧的人脸图像;
第一确定子单元,用于将出现相同对象的多帧视频片段确定为初始视频片段;
第二确定子单元,用于将帧数大于预设阈值的初始视频片段确定为目标视频。
在一些实施例中,该第二确定子单元,用于:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对该第一目标视频片段进行样式变换,得到第二目标视频片段;
将该第一目标视频片段和该第二目标视频片段确定为目标视频。
第一输入单元302,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征。
第二获取单元303,用于获取第一目标身份系数和第一目标纹理系数,所述第一目标身份系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,所述第一目标纹理系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,所述第一目标身份系数和第一目标纹理系数取自同一帧人脸图像。
在一些实施例中,该第二获取单元303,用于:
获取该第一目标图像特征在该目标视频中前一帧的人脸图像对应的第一身份系数和第一纹理系数;
获取该第一目标图像特征对应的第二身份系数和第二纹理系数;
将该第一身份系数和第二身份系数进行加权求和,得到第一目标图像特征对应的第一目标身份系数;
将该第一纹理系数和第二纹理系数进行加权求和,得到第一目标图像特征对应的第一目标纹理系数;
该信息处理装置,还包括更新单元,用于:
将该第一目标身份系数替换第一目标图像特征在该目标视频中当前帧的人脸图像对应的第二身份系数;
将该第一目标纹理系数替换第一目标图像特征在该目标视频中当前帧的人脸图像对应的第二纹理系数。
在一些实施例中,所述装置,还包括第一训练单元,包括:
第一生成子单元,用于生成第一目标损失函数;
第一训练子单元,用于根据所述第一目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行迭代优化,直至所述第一目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型;
所述第一生成子单元,用于将所述第一目标身份系数输入第二预设主干模型,输出第一身份特征;
将所述第一目标纹理系数输入第三预设主干模型,输出第一纹理特征;
将所述第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征;
将所述第一特征输入预设头部网络模型,输出第一预测表情系数;
根据标签身份系数、标签纹理系数、第一预测表情系数、标签姿态系数以及标签光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
根据所述第一差异和第二差异建立第一目标损失函数。
第二输入单元304,用于将该第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征。
第三输入单元305,用于将该第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征。
拼接单元306,用于将该第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征。
第四输入单元307,用于将该第一目标特征输入目标预设头部网络模型,输出第一目标表情系数,其中,该目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例还提供一种计算机设备,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;可选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,可选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现前述实施例提供的各种方法步骤,如下:
获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标身份系数和第一目标纹理系数,该第一目标身份系数为该目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,该第一目标纹理系数为该目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,该第一目标身份系数和第一目标纹理系数取自同一帧人脸图像;将该第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将该第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将该第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将该第一目标特征输入目标预设头部网络模型,输出第一目标表情系数,其中,该目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对信息处理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如,该指令可以执行如下步骤:
获取目标视频,该目标视频中每一帧包含相同对象对应的人脸图像;将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;获取第一目标身份系数和第一目标纹理系数,该第一目标身份系数为该目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,该第一目标纹理系数为该目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,该第一目标身份系数和第一目标纹理系数取自同一帧人脸图像;将该第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;将该第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;将该第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;将该第一目标特征输入目标预设头部网络模型,输出第一目标表情系数,其中,该目标预设头部网络模型为结合在该目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息处理方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种信息处理方法,其特征在于,包括:
获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
获取第一目标身份系数和第一目标纹理系数,所述第一目标身份系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,所述第一目标纹理系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,所述第一目标身份系数和第一目标纹理系数取自同一帧人脸图像;
将所述第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;
将所述第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;
将所述第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;
将所述第一目标特征输入目标预设头部网络模型,输出第一目标表情系数,其中,所述目标预设头部网络模型为结合在所述目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
2.根据权利要求1所述的信息处理方法,其特征在于,所述获取第一目标身份系数和第一目标纹理系数,包括:
获取所述第一目标图像特征在所述目标视频中前一帧的人脸图像对应的第一身份系数和第一纹理系数;
获取所述第一目标图像特征对应的第二身份系数和第二纹理系数;
将所述第一身份系数和第二身份系数进行加权求和,得到第一目标图像特征对应的第一目标身份系数;
将所述第一纹理系数和第二纹理系数进行加权求和,得到第一目标图像特征对应的第一目标纹理系数。
3.根据权利要求2所述的信息处理方法,其特征在于,所述将所述第一目标特征输入目标预设头部网络模型,输出第一目标表情系数之后,还包括:
将所述第一目标身份系数替换第一目标图像特征在所述目标视频中当前帧的人脸图像对应的第二身份系数;
将所述第一目标纹理系数替换第一目标图像特征在所述目标视频中当前帧的人脸图像对应的第二纹理系数。
4.根据权利要求1所述的信息处理方法,其特征在于,所述获取目标视频,包括:
获取初始视频;
提取所述初始视频中每一帧的人脸图像;
通过分析每一帧的所述人脸图像确定相同对象,将出现相同对象的多帧视频片段确定为初始视频片段;
将帧数大于预设阈值的初始视频片段确定为目标视频。
5.根据权利要求4所述的信息处理方法,其特征在于,所述将帧数大于预设阈值的初始视频片段确定为目标视频,包括:
将帧数大于预设阈值的初始视频片段确定为第一目标视频片段;
对所述第一目标视频片段进行样式变换,得到第二目标视频片段;
将所述第一目标视频片段和所述第二目标视频片段确定为目标视频。
6.根据权利要求1所述的信息处理方法,其特征在于,所述获取所述第一目标图像特征在所述目标视频中不同帧的人脸图像对应的第一目标身份系数和第一目标纹理系数之后,还包括:
生成第一目标损失函数;
根据所述第一目标损失函数对第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行迭代优化,直至所述第一目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型;
所述生成第一目标损失函数,包括:
将所述第一目标身份系数输入第二预设主干模型,输出第一身份特征;
将所述第一目标纹理系数输入第三预设主干模型,输出第一纹理特征;
将所述第一目标图像特征、第一身份特征和第一纹理特征进行拼接,得到第一特征;
将所述第一特征输入预设头部网络模型,输出第一预测表情系数;
根据标签身份系数、标签纹理系数、第一预测表情系数、标签姿态系数以及标签光照系数,生成第一预测人脸三维模型;
获取第一预测人脸三维模型对应的第一人脸估计值和人脸图像中未被遮挡区域之间的第一差异;
获取第一预测人脸三维模型对应的第一预测人脸三维关键点和人脸三维关键点之间的第二差异;
根据所述第一差异和第二差异建立第一目标损失函数。
7.根据权利要求6所述的信息处理方法,其特征在于,所述根据所述第一目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行迭代优化,直至所述第一目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型,包括:
根据所述第一目标损失函数对所述第二预设主干模型、第三预设主干模型和预设头部网络模型的第一网络参数进行优化;
返回重复执行生成第一目标损失函数,通过生成的第一目标损失函数对第二预设主干模型、第三预设主干模型和预设头部网络模型的进行第一网络参数迭代优化,直至第一目标损失函数收敛,得到训练后的第二目标预设主干模型、第三目标预设主干模型以及目标预设头部网络模型。
8.一种信息处理装置,其特征在于,包括:
第一获取单元,用于获取目标视频,所述目标视频中每一帧包含相同对象对应的人脸图像;
第一输入单元,用于将每一帧的人脸图像输入第一目标预设主干模型,输出第一目标图像特征;
第二获取单元,用于获取第一目标身份系数和第一目标纹理系数,所述第一目标身份系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的身份系数,所述第一目标纹理系数为所述目标视频中不同于第一目标图像特征对应帧的人脸图像的纹理系数,所述第一目标身份系数和第一目标纹理系数取自同一帧人脸图像;
第二输入单元,用于将所述第一目标身份系数输入第二目标预设主干模型,输出第一目标身份特征;
第三输入单元,用于将所述第一目标纹理系数输入第三目标预设主干模型,输出第一目标纹理特征;
拼接单元,用于将所述第一目标图像特征、第一目标身份特征和第一目标纹理特征进行拼接,得到第一目标特征;
第四输入单元,用于将所述第一目标特征输入目标预设头部网络模型,输出第一目标表情系数,其中,所述目标预设头部网络模型为结合在所述目标视频中不同帧的人脸图像对应的先验身份系数和先验纹理系数预测优化训练得到的。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的信息处理方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的信息处理方法中的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369409.5A CN114898244B (zh) | 2022-04-08 | 2022-04-08 | 一种信息处理方法、装置、计算机设备及存储介质 |
PCT/CN2022/144220 WO2023193491A1 (zh) | 2022-04-08 | 2022-12-30 | 信息处理方法、装置、计算机设备及存储介质 |
EP22936416.1A EP4345771A1 (en) | 2022-04-08 | 2022-12-30 | Information processing method and apparatus, and computer device and storage medium |
US18/396,971 US20240135747A1 (en) | 2022-04-08 | 2023-12-27 | Information processing method, computer device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369409.5A CN114898244B (zh) | 2022-04-08 | 2022-04-08 | 一种信息处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898244A CN114898244A (zh) | 2022-08-12 |
CN114898244B true CN114898244B (zh) | 2023-07-21 |
Family
ID=82715205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210369409.5A Active CN114898244B (zh) | 2022-04-08 | 2022-04-08 | 一种信息处理方法、装置、计算机设备及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240135747A1 (zh) |
EP (1) | EP4345771A1 (zh) |
CN (1) | CN114898244B (zh) |
WO (1) | WO2023193491A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898244B (zh) * | 2022-04-08 | 2023-07-21 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298917A (zh) * | 2019-07-05 | 2019-10-01 | 北京华捷艾米科技有限公司 | 一种人脸重建方法及系统 |
CN111815768A (zh) * | 2020-09-14 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 三维人脸重建方法和装置 |
CN112633191A (zh) * | 2020-12-28 | 2021-04-09 | 百果园技术(新加坡)有限公司 | 一种三维人脸重建的方法、装置、设备和存储介质 |
CN112884881A (zh) * | 2021-01-21 | 2021-06-01 | 魔珐(上海)信息科技有限公司 | 三维人脸模型重建方法、装置、电子设备及存储介质 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113327278A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 三维人脸重建方法、装置、设备以及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180068178A1 (en) * | 2016-09-05 | 2018-03-08 | Max-Planck-Gesellschaft Zur Förderung D. Wissenschaften E.V. | Real-time Expression Transfer for Facial Reenactment |
CN109919876B (zh) * | 2019-03-11 | 2020-09-01 | 四川川大智胜软件股份有限公司 | 一种三维真脸建模方法及三维真脸照相系统 |
US11222466B1 (en) * | 2020-09-30 | 2022-01-11 | Disney Enterprises, Inc. | Three-dimensional geometry-based models for changing facial identities in video frames and images |
CN113838173B (zh) * | 2021-09-23 | 2023-08-22 | 厦门大学 | 一种受语音和背景声联合驱动的虚拟人头部运动合成方法 |
CN113887529B (zh) * | 2021-11-09 | 2024-07-12 | 天津大学 | 基于运动单元特征分解的三维人脸表情生成系统 |
CN114078275A (zh) * | 2021-11-19 | 2022-02-22 | 广州虎牙科技有限公司 | 表情识别方法、系统及计算机设备 |
CN114241558B (zh) * | 2021-12-15 | 2024-06-28 | 平安科技(深圳)有限公司 | 模型的训练方法、视频生成方法和装置、设备、介质 |
CN114898244B (zh) * | 2022-04-08 | 2023-07-21 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN114783022B (zh) * | 2022-04-08 | 2023-07-21 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN114782864B (zh) * | 2022-04-08 | 2023-07-21 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN114821404B (zh) * | 2022-04-08 | 2023-07-25 | 马上消费金融股份有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
-
2022
- 2022-04-08 CN CN202210369409.5A patent/CN114898244B/zh active Active
- 2022-12-30 EP EP22936416.1A patent/EP4345771A1/en active Pending
- 2022-12-30 WO PCT/CN2022/144220 patent/WO2023193491A1/zh active Application Filing
-
2023
- 2023-12-27 US US18/396,971 patent/US20240135747A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298917A (zh) * | 2019-07-05 | 2019-10-01 | 北京华捷艾米科技有限公司 | 一种人脸重建方法及系统 |
CN111815768A (zh) * | 2020-09-14 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 三维人脸重建方法和装置 |
CN112633191A (zh) * | 2020-12-28 | 2021-04-09 | 百果园技术(新加坡)有限公司 | 一种三维人脸重建的方法、装置、设备和存储介质 |
CN112884881A (zh) * | 2021-01-21 | 2021-06-01 | 魔珐(上海)信息科技有限公司 | 三维人脸模型重建方法、装置、电子设备及存储介质 |
CN113269872A (zh) * | 2021-06-01 | 2021-08-17 | 广东工业大学 | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 |
CN113327278A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 三维人脸重建方法、装置、设备以及存储介质 |
Non-Patent Citations (4)
Title |
---|
3DMM与GAN结合的实时人脸表情迁移方法;高翔;黄法秀;刘春平;陈虎;;计算机应用与软件(第04期);第125-132页 * |
An image-based approach to the reconstruction of ancient architectures by extracting and arranging 3D spatial components;Divya Udayan J;Hyung Seok KIM;Jee-In KIM;;Journal of Zhejiang University-Science C(Computers & Electronics)(第01期);第16-31页 * |
三维人脸表情获取及重建技术综述;王珊;沈旭昆;赵沁平;;系统仿真学报(第07期);第6-27页 * |
基于 3D 人脸重建的光照、姿态不变人脸识别;柴秀娟;Journal of Software;第17卷(第3期);第525-534页 * |
Also Published As
Publication number | Publication date |
---|---|
EP4345771A1 (en) | 2024-04-03 |
CN114898244A (zh) | 2022-08-12 |
WO2023193491A1 (zh) | 2023-10-12 |
US20240135747A1 (en) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598998B (zh) | 三维虚拟模型重建方法、装置、计算机设备和存储介质 | |
CN111325851B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN114821404B (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
WO2020192568A1 (zh) | 人脸图像生成方法、装置、设备及存储介质 | |
US11995758B2 (en) | Photorealistic real-time portrait animation | |
CN114782864B (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
Du et al. | Montage4D: interactive seamless fusion of multiview video textures. | |
Chaudhuri et al. | Personalized face modeling for improved face reconstruction and motion retargeting | |
CN114783022B (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
JP2022503647A (ja) | クロスドメイン画像変換 | |
WO2023193474A1 (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
RU2764144C1 (ru) | Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку | |
US20240135747A1 (en) | Information processing method, computer device, and storage medium | |
CN111080746A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN113033442A (zh) | 基于StyleGAN的高自由度人脸驱动方法和装置 | |
Lawonn et al. | Stylized image triangulation | |
CN116958378A (zh) | 面部贴图重建方法、装置、计算机可读介质及电子设备 | |
CN117011493B (zh) | 基于符号距离函数表示的三维人脸重建方法、装置及设备 | |
CN115049558A (zh) | 模型训练、人脸图像处理方法及装置、电子设备及可读存储介质 | |
CN113393545A (zh) | 一种图像动漫化处理方法、装置、智能设备和存储介质 | |
CN117275075B (zh) | 一种人脸遮挡检测方法、系统、装置和存储介质 | |
US20240005581A1 (en) | Generating 3d facial models & animations using computer vision architectures | |
Ma | Real-time Facial Performance Capture and Manipulation | |
CN115240260A (zh) | 图像处理方法及其装置 | |
CN118154774A (zh) | 数据处理方法及增强现实ar设备或虚拟现实vr设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |