CN113221840A - 一种人像视频处理方法 - Google Patents

一种人像视频处理方法 Download PDF

Info

Publication number
CN113221840A
CN113221840A CN202110615917.2A CN202110615917A CN113221840A CN 113221840 A CN113221840 A CN 113221840A CN 202110615917 A CN202110615917 A CN 202110615917A CN 113221840 A CN113221840 A CN 113221840A
Authority
CN
China
Prior art keywords
person
face
original video
posture
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110615917.2A
Other languages
English (en)
Other versions
CN113221840B (zh
Inventor
杨志景
徐永宗
温瑞冕
李为杰
李凯
凌永权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110615917.2A priority Critical patent/CN113221840B/zh
Publication of CN113221840A publication Critical patent/CN113221840A/zh
Application granted granted Critical
Publication of CN113221840B publication Critical patent/CN113221840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种人像视频处理方法,包括:获取第一人物原始视频片段,从中提取脸部参数、体态参数和音频数据;获取第二人物原始视频片段,从中提取面部控制信息和动作控制信息;根据第一人物的脸部参数、音频数据和第二人物的面部控制信息进行面部表情迁移,获得第一人物的拟合新面部图;根据第一人物的体态参数和第二人物的动作控制信息进行体态动作迁移,获得第一人物的拟合新体态图;利用拟合新面部图替换拟合新体态图中的面部,生成第一人物新全身图;将所有第一人物新全身图合成视频,载入音频数据,获得第一人物的新视频片段。本发明生成的人物新视频片段具有逼真面部细节、自然姿态动作、画音同步的人物视频,真实感强,观感自然。

Description

一种人像视频处理方法
技术领域
本发明涉及人像视频处理的技术领域,更具体地,涉及一种人像视频处理方法。
背景技术
随着科学技术和互联网经济的不断发展,视频影像逐渐成为人们生活中不可或缺的一部分。伴随着短视频的火爆,使越来越多人意识到这种直观、便捷和低门槛的视频影像才是被大众所接受的。近年来许多行业开启了互联网+模式,以在线视频的新模式呈现在人们面前,例如在线教育、线上直播卖货、新闻主播等,新模式所带来的经济效益是十分巨大的。可是渐渐地现有的视频影像技术的缺点也暴露出来,以在线教育为例,录课模式是在线教育领域中最常见的方式,在线教育平台签订优秀教师,为教师们录制一整套的课程放置互联网上进行销售。然而每位教师每年录制的课程的相似度极高,并且录制出来的课需要经过剪辑、组合和加工才能进行销售,这样的视频因为剪辑技术问题导致缺乏流畅感,会有明显的断层、画面抖动和掉帧的现象,用户体验较差。新闻主播也有同样的特性,重复性高,但由于新闻的时效性,直播过程中对于主播面部表情、体态动作和话音同步有极高的要求。所以目前人像视频主要存在以下几个问题:1)生成人物视频仅仅只有画面,需要在进行后期配音,容易出现画音不同步的情况,导致观感不自然,真实感不强,观众体验感差。2)目前人物视频合成方法大多关注人物脸部,忽视了人物动作和姿态,人物不自然,应用范围局限。3)人物数据利用率低,同一个人的不同动作的视频或不同的内容的视屏,需要重新收集人物的所有数据重新制作。4)传统人像视频中采取人工和软件的合成方法,生产成本高,生产周期慢。
2020年7月3日公开的中国专利CN111368853A公开了一种用于训练模型的标签构建方法、系统、装置及存储介质,通过对人物图像进行标签提取,将复杂的人物图像,简化为关键点二维坐标或二维掩码,用于训练生成对抗神经网络模型(GAN模型);通过简单地修改关键点的坐标位置,或者二维掩码形状,就可以生成不同的标签图像,输入训练好的生成对抗神经网络模型,即可生成与标签对应的人物图像,再进一步合成视频;该方法仅关注人物脸部细节,忽视了人物动作和姿态,人物不自然;并且没有考虑到音频与视频匹配的问题,直接加载音频会是话音不同步,后期配音会使视频中的人物的口型无法音频内容匹配,真实感差。
发明内容
本发明为克服上述现有人像视频生成技术无法兼顾准确的脸部细节和姿态动作的缺陷,提供一种人像视频处理方法,可以生成具有逼真面部细节、自然姿态动作、画音同步的人物视频,真实感强,观感自然。
为解决上述技术问题,本发明的技术方案如下:
本发明提供一种人像视频处理方法,包括:
获取第一人物原始视频片段和第二人物原始视频片段;
从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据;从第二人物原始视频片段中提取面部控制信息和动作控制信息;
面部表情迁移:根据第一人物原始视频片段的脸部参数、音频数据和第二人物原始视频片段的面部控制信息,获得第一人物的拟合新面部图;
体态动作迁移:根据第一人物原始视频片段的体态参数和第二人物原始视频片段的动作控制信息,获得第一人物的拟合新体态图;
利用第一人物的拟合新面部图替换第一人物的拟合新体态图中的面部,生成第一人物新全身图;
将所有第一人物新全身图合成视频,载入第一人物原始视频片段的音频数据,获得第一人物的新视频片段。
优选地,从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据前,还需要对第一人物原始视频片段进行预处理,包括:
删除模糊图像,利用人体识别技术删除模糊、无法识别的图像;
提取图像帧,利用FFmpeg视频编解码工具从视频中提取图像帧;
统一数据格式,将提取的图像帧统一转化为相同的数据格式,便于计算机程序进行计算;
所述音频数据使用FFmpeg视频编解码工具从视频中提取。
优选地,从第二人物原始视频片段中提取面部控制信息和动作控制信息前,还需对第二人物原始视频片段的长度进行截取,使第二人物原始视频片段的长度与第一人物原始视频片段的音频数据的长度相等;截取第二人物原始视频片段的长度使其与第一人物原始视频片段的音频数据的长度相等,可以使最终获得的第一人物的新视频片段的画音同步,观感自然。
优选地,所述面部迁移的具体方法为:
步骤一:将第一人物原始视频片段的音频数据输入训练好的音频特征转换面部表情基神经网络中,获得与第一人物原始视频片段的音频数据对应的第一人物表情基数据;
步骤二:将第一人物原始视频片段和第二人物原始视频片段输入训练好的三维重构神经网络中,获得第一人物的脸部参数和第二人物的面部控制信息,由此生成第一人物粗糙细节人脸图像;
步骤三:利用第一人物表情基数据替换第一人物粗糙细节人脸图像的人脸细节,获得第一人物面部表情迁移图像;
步骤四:将步骤三中获得的第一人物面部表情迁移图像输入训练好的拟生成人脸面部细节神经网络中,获得第一人物的拟合新面部图。
优选地,所述步骤二中,获得训练好的三维重构神经网络的具体方法为:
将第一人物原始视频片段输入现有的三维重构神经网络中,转化为脸部参数集合X={X1,X2,…XM},其中XM表示第M帧的脸部参数,设置损失函数进行训练,获得训练好的三维重构神经网络;其中:
Xk=(αkk,βk,γk),k=1,2,…M
式中,Xk表示第k帧的脸部参数,αkkkk分别表示第k帧脸部的控制调节因子第一参数、第二参数、第三参数和第四参数;
Figure BDA0003097471070000031
Figure BDA0003097471070000032
Figure BDA0003097471070000033
式中,v表示重构的粗糙细节人脸图像的人脸顶点,r表示重构的粗糙细节人脸图像的人脸顶点漫反射率,C表示求将人脸顶点通过相机参数进行二维映射操作;αgeo表示重构的粗糙细节人脸图像的平均人脸几何参数,
Figure BDA0003097471070000041
表示第k帧脸部第p个顶点的控制调节因子第一参数,
Figure BDA0003097471070000042
表示重构的粗糙细节人脸图像的平均人脸几何调节因子,Nα表示重构的粗糙细节人脸图像的人脸几何调节因子数,
Figure BDA0003097471070000043
表示第k帧脸部第p个顶点的控制调节因子第二参数,
Figure BDA0003097471070000044
表示重构的粗糙细节人脸图像的平均人脸表情调节因子,Nδ表示重构的粗糙细节人脸图像的人脸表情调节因子数;αref表示重构的粗糙细节人脸图像的平均人脸顶点漫反射率,
Figure BDA0003097471070000045
表示第k帧脸部第p个顶点的控制调节因子第三参数,
Figure BDA0003097471070000046
重构的粗糙细节人脸图像的平均人脸反射调节因子,Nβ表示重构的粗糙细节人脸图像的人脸反射调节因子数;rp表示脸部第p个顶点的放射率,np表示脸部第p个顶点的单位法向量,Yb(*)代表b阶光照球谐函数,B表示光照球谐函数的阶数,
Figure BDA0003097471070000047
第k帧脸部b阶的控制调节因子第四参数;则重构出的第一人物的第i帧粗糙细节人脸图像
Figure BDA0003097471070000048
为:
Figure BDA0003097471070000049
式中,H(*)表示重构操作;
所述三维重构神经网络的损失函数为:
Figure BDA00030974710700000410
其中,I(i)表示第一人物原始视频片段的第i帧真实图像,
Figure BDA00030974710700000411
表示第一人物的第i帧粗糙细节人脸图像。
优选地,所述步骤四中,获得第一人物的拟合新面部图的具体方法为:
Figure BDA00030974710700000412
进行归一化处理,获得
Figure BDA00030974710700000413
将第一人物第i帧粗糙细节人脸图像的eyes基类记为Ei,设定滑动窗口长度为2Nw,将第一人物第i帧粗糙细节人脸图像的前Nw帧和后Nw帧打包为第一人物第i个图像帧集合
Figure BDA00030974710700000414
输入现有的拟生成人脸面部细节神经网络;所述现有的拟生成人脸面部细节神经网络包括第一生成器G1和判别器D,设置判别器损失函数和第一生成器损失函数,获得训练好的拟生成人脸面部细节神经网络;
所述判别器D由编码器Denc和解码器Ddec组成,判别器损失函数为:
Figure BDA0003097471070000051
所述第一生成器损失函数为:
Figure BDA0003097471070000052
其中,x表示脸部参数集合X的数据分布,Z表示第一人物第i个图像帧集合的数据分布,(c,d)表示图中像素点的坐标。
优选地,所述体态动作迁移的具体方法为:
步骤a:将第一人物原始视频片段和第二人物原始视频片段输入现有的关键点预测网络,获得第一人物的体态参数和第二人物的动作控制信息,并由此获得第一人物和第二人物的体态关键点信息;
步骤b:将第一人物体态关键点信息和第二人物体态关键点信息整合输入现有的体态重渲染网络中,获得第一人物的拟合新体态图。
优选地,所述步骤a中,获得第一人物体态关键点信息和第二人物体态关键点信息的具体方法为:
将第一人物原始视频片段输入现有的关键点预测网络中,转化为体态参数集合Y={Y1,Y2,…YM},其中YM表示第M帧图片的体态参数,通过二维关键点估计提取出体态关键点信息y∈RT*2N,其中,T表示图片序列长度,N表示体态关键点个数;对体态关键点信息进行动作提取、结构提取和视角提取,获得第一人物体态关键点信息的动作信息、结构信息和角度信息:
Figure BDA0003097471070000053
Figure BDA0003097471070000054
Figure BDA0003097471070000055
其中,Em(*)表示动作提取操作,m表示第一人物体态关键点信息的动作信息,M表示动作提取操作后图片序列长度,Cm表示动作信息的通道数;Es(*)表示结构提取操作,s表示第一人物体态关键点信息的结构信息,Cs表示结构信息的通道数;Ev(*)表示角度提取操作,v表示第一人物体态关键点信息的角度信息,Cv表示角度信息的通道数;
获得第二人物体态关键点信息的方法与获得第一人物体态关键点信息的方法相同。
优选地,所述步骤b中,获得第一人物的拟合新体态图的具体方法为:
将第一人物体态关键点信息和第二人物体态关键点信息的动作信息、结构信息和角度信息输入现有的体态重渲染网络中;所述体态重渲染网络由第二生成器G2构成,设置第二生成器损失函数进行训练,获得第一人物的拟合新体态图;
所述第二生成器损失函数为:
Figure BDA0003097471070000061
Figure BDA0003097471070000062
其中,
Figure BDA0003097471070000063
表示第一人物的拟合新体态图,q表示第一人物的拟合新体态图的数据分布,(c,d)表示图中像素点的坐标。
优选地,利用opencv图像处理工具,对面部图进行关键点识别,将第一人物的拟合新面部图关键点对关键点的覆盖到第一人物的拟合新体态图中的面部上,生成第一人物新全身图。
优选地,利用FFmpeg视频编解码工具,将所有第一人物新全身图逐帧拼接合成为视频。
与现有技术相比,本发明技术方案的有益效果是:
本发明根据第一人物原始视频片段的脸部参数、音频数据和第二人物原始视频片段的面部控制信息进行面部表情迁移,获得第一人物的拟合新面部图,该拟合新面部图拥有第二人物的头部姿势和第一人物的脸部细节,并且嘴型与音频一致,具有精准脸部细节的的同时保证了画音同步,不需要后期重新配音;根据第一人物原始视频片段的体态参数和第二人物原始视频片段的动作控制信息进行体态动作迁移,获得第一人物的拟合新体态图,该拟合体态图具有第一人物的体态和第二人物的动作,使最终生成的新视频片段具有自然、精确的姿态动作;利用第一人物的拟合新面部图替换第一人物的拟合新体态图中的面部,将生成的第一人物新全身图合成视频,载入第一人物原始视频片段的音频数据,获得的第一人物的新视频片段具有逼真面部细节、自然姿态动作、画音同步的人物视频,真实感强,观感自然。
附图说明
图1为实施例所述的一种人像视频处理方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
本实施例提供一种人像视频处理方法,如图1所示,包括:
S1:获取第一人物原始视频片段和第二人物原始视频片段;
S2:从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据;从第二人物原始视频片段中提取面部控制信息和动作控制信息;
从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据前,还需要对第一人物原始视频片段进行预处理,包括:
删除模糊图像,利用人体识别技术删除模糊、无法识别的图像;
提取图像帧,利用FFmpeg视频编解码工具从视频中提取图像帧;
统一数据格式,将提取的图像帧统一转化为相同的数据格式,便于计算机程序进行计算;
利用FFmpeg视频编解码工具从第一人物原始视频片段中提取音频数据;
从第二人物原始视频片段中提取面部控制信息和动作控制信息前,还需对第二人物原始视频片段的长度进行截取,使第二人物原始视频片段的长度与第一人物原始视频片段的音频数据的长度相等;截取第二人物原始视频片段的长度使其与第一人物原始视频片段的音频数据的长度相等,可以使最终获得的第一人物的新视频片段的画音同步,观感自然。
S3:面部表情迁移:根据第一人物原始视频片段的脸部参数、音频数据和第二人物原始视频片段的面部控制信息,获得第一人物的拟合新面部图;
面部表情迁移的具体方法为:
S3.1:将第一人物原始视频片段的音频数据输入训练好的音频特征转换面部表情基神经网络中,获得与第一人物原始视频片段的音频数据对应的第一人物表情基数据;
S3.2:将第一人物原始视频片段和第二人物原始视频片段输入训练好的三维重构神经网络中,获得第一人物的脸部参数和第二人物的面部控制信息,由此生成第一人物粗糙细节人脸图像;
训练好的三维重构神经网络的获得方法具体为:
将第一人物原始视频片段输入现有的三维重构神经网络中,转化为脸部参数集合X={X1,X2,…XM},其中XM表示第M帧的脸部参数,设置损失函数进行训练,获得训练好的三维重构神经网络;其中:
Xk=(αkkkk),k=1,2,…M
式中,Xk表示第k帧的脸部参数,αkkkk分别表示第k帧脸部的控制调节因子第一参数、第二参数、第三参数和第四参数;
Figure BDA0003097471070000081
Figure BDA0003097471070000082
Figure BDA0003097471070000083
式中,v表示重构的粗糙细节人脸图像的人脸顶点,r表示重构的粗糙细节人脸图像的人脸顶点漫反射率,C表示求将人脸顶点通过相机参数进行二维映射操作;αgeo表示重构的粗糙细节人脸图像的平均人脸几何参数,
Figure BDA0003097471070000084
表示第k帧脸部第p个顶点的控制调节因子第一参数,
Figure BDA0003097471070000085
表示重构的粗糙细节人脸图像的平均人脸几何调节因子,Nα表示重构的粗糙细节人脸图像的人脸几何调节因子数,
Figure BDA0003097471070000086
表示第k帧脸部第p个顶点的控制调节因子第二参数,
Figure BDA0003097471070000087
表示重构的粗糙细节人脸图像的平均人脸表情调节因子,Nδ表示重构的粗糙细节人脸图像的人脸表情调节因子数;αref表示重构的粗糙细节人脸图像的平均人脸顶点漫反射率,
Figure BDA0003097471070000088
表示第k帧脸部第p个顶点的控制调节因子第三参数,
Figure BDA0003097471070000089
重构的粗糙细节人脸图像的平均人脸反射调节因子,Nβ表示重构的粗糙细节人脸图像的人脸反射调节因子数;rp表示脸部第p个顶点的放射率,np表示脸部第p个顶点的单位法向量,Yb(*)代表b阶光照球谐函数,B表示光照球谐函数的阶数,
Figure BDA0003097471070000091
第k帧脸部b阶的控制调节因子第四参数;则重构出的第一人物的第i帧粗糙细节人脸图像
Figure BDA0003097471070000092
为:
Figure BDA0003097471070000093
式中,H(*)表示重构操作;
所述三维重构神经网络的损失函数为:
Figure BDA0003097471070000094
其中,I(i)表示第一人物原始视频片段的第i帧真实图像,
Figure BDA0003097471070000095
表示第一人物的第i帧粗糙细节人脸图像。
S3.3:利用第一人物表情基数据替换第一人物粗糙细节人脸图像的人脸细节,获得第一人物面部表情迁移图像;
S3.4:将S3.3中获得的第一人物面部表情迁移图像输入训练好的拟生成人脸面部细节神经网络中,获得第一人物的拟合新面部图;具体方法为:
Figure BDA0003097471070000096
进行归一化处理,获得
Figure BDA0003097471070000097
将第一人物第i帧粗糙细节人脸图像的eyes基类记为Ei,设定滑动窗口长度为2Nw,将第一人物第i帧粗糙细节人脸图像的前Nw帧和后Nw帧打包为第一人物第i个图像帧集合
Figure BDA0003097471070000098
输入现有的拟生成人脸面部细节神经网络,本实施例中,拟生成人脸面部细节神经网络使用U—net网络;所述现有的拟生成人脸面部细节神经网络包括第一生成器G1和判别器D,设置判别器损失函数和第一生成器损失函数,获得训练好的拟生成人脸面部细节神经网络;
所述判别器D由编码器Denc和解码器Ddec组成,判别器损失函数为:
Figure BDA0003097471070000099
所述第一生成器损失函数为:
Figure BDA00030974710700000910
其中,x表示脸部参数集合X的数据分布,Z表示第一人物第i个图像帧集合的数据分布,(c,d)表示图中像素点的坐标。
S4:体态动作迁移:根据第一人物原始视频片段的体态参数和第二人物原始视频片段的动作控制信息,获得第一人物的拟合新体态图;
所述体态动作迁移的具体方法为:
S4.1:将第一人物原始视频片段和第二人物原始视频片段输入现有的关键点预测网络,获得第一人物的体态参数和第二人物的动作控制信息,并由此获得第一人物和第二人物的体态关键点信息;
将第一人物原始视频片段输入现有的关键点预测网络中,转化为体态参数集合Y={Y1,Y2,…YM},其中YM表示第M帧图片的体态参数,通过二维关键点估计提取出体态关键点信息y∈RT*2N,其中,T表示图片序列长度,N表示体态关键点个数,本实施例中,N的取值为15;对体态关键点信息进行动作提取、结构提取和视角提取,获得第一人物体态关键点信息的动作信息、结构信息和角度信息:
Figure BDA0003097471070000101
Figure BDA0003097471070000102
Figure BDA0003097471070000103
其中,Em(*)表示动作提取操作,m表示第一人物体态关键点信息的动作信息,M表示动作提取操作后图片序列长度,Cm表示动作信息的通道数;Es(*)表示结构提取操作,s表示第一人物体态关键点信息的结构信息,Cs表示结构信息的通道数;Ev(*)表示角度提取操作,v表示第一人物体态关键点信息的角度信息,Cv表示角度信息的通道数;
获得第二人物体态关键点信息的方法与获得第一人物体态关键点信息的方法相同。
S4.2:将第一人物体态关键点信息和第二人物体态关键点信息整合输入现有的体态重渲染网络中,获得第一人物的拟合新体态图。
将第一人物体态关键点信息和第二人物体态关键点信息的动作信息、结构信息和角度信息输入现有的体态重渲染网络中;所述体态重渲染网络由第二生成器G2构成,设置第二生成器损失函数进行训练,获得第一人物的拟合新体态图;
所述第二生成器损失函数为:
Figure BDA0003097471070000111
Figure BDA0003097471070000112
其中,
Figure BDA0003097471070000113
表示第一人物的拟合新体态图,q表示第一人物的拟合新体态图的数据分布,(c,d)表示图中像素点的坐标。
S5:利用第一人物的拟合新面部图替换第一人物的拟合新体态图中的面部,生成第一人物新全身图;
利用opencv图像处理工具,对面部图进行关键点识别,将第一人物的拟合新面部图关键点对关键点的覆盖到第一人物的拟合新体态图中的面部上,生成第一人物新全身图。
S6:将所有第一人物新全身图合成视频,载入第一人物原始视频片段的音频数据,获得第一人物的新视频片段;
利用FFmpeg视频编解码工具,将所有第一人物新全身图逐帧拼接合成为视频。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种人像视频处理方法,其特征在于,包括:
获取第一人物原始视频片段和第二人物原始视频片段;
从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据;从第二人物原始视频片段中提取面部控制信息和动作控制信息;
面部表情迁移:根据第一人物原始视频片段的脸部参数、音频数据和第二人物原始视频片段的面部控制信息,获得第一人物的拟合新面部图;
体态动作迁移:根据第一人物原始视频片段的体态参数和第二人物原始视频片段的动作控制信息,获得第一人物的拟合新体态图;
利用第一人物的拟合新面部图替换第一人物的拟合新体态图中的面部,生成第一人物新全身图;
将所有第一人物新全身图合成视频,载入第一人物原始视频片段的音频数据,获得第一人物的新视频片段。
2.根据权利要求1所述的人像视频处理方法,其特征在于,从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据前,还需要对第一人物原始视频片段进行预处理,包括删除模糊图像、提取图像帧和统一数据格式。
3.根据权利要求2所述的人像视频处理方法,其特征在于,从第二人物原始视频片段中提取面部控制信息和动作控制信息,还需对第二人物原始视频片段的长度进行截取,使第二人物原始视频片段的长度与第一人物原始视频片段的音频数据的长度相等。
4.根据权利要求3所述的人像视频处理方法,其特征在于,所述面部迁移的具体方法为:
步骤一:将第一人物原始视频片段的音频数据输入训练好的音频特征转换面部表情基神经网络中,获得与第一人物原始视频片段的音频数据对应的第一人物表情基数据;
步骤二:将第一人物原始视频片段和第二人物原始视频片段输入训练好的三维重构神经网络中,获得第一人物的脸部参数和第二人物的面部控制信息,由此生成第一人物粗糙细节人脸图像;
步骤三:利用第一人物表情基数据替换第一人物粗糙细节人脸图像的人脸细节,获得第一人物面部表情迁移图像;
步骤四:将步骤三中获得的第一人物面部表情迁移图像输入训练好的拟生成人脸面部细节神经网络中,获得第一人物的拟合新面部图。
5.根据权利要求4所述的人像视频处理方法,其特征在于,所述步骤二中,训练好的三维重构神经网络的获得方法为:
将第一人物原始视频片段输入现有的三维重构神经网络中,转化为脸部参数集合X={X1,X2,…XM},其中XM表示第M帧的脸部参数,设置损失函数进行训练,获得训练好的三维重构神经网络;其中:
Xk=(αk,δk,βk,γk),k=1,2,…M
式中,Xk表示第k帧的脸部参数,αk,δk,βk,γk分别表示第k帧脸部的控制调节因子第一参数、第二参数、第三参数和第四参数;
Figure FDA0003097471060000021
Figure FDA0003097471060000022
Figure FDA0003097471060000023
式中,v表示重构的粗糙细节人脸图像的人脸顶点,r表示重构的粗糙细节人脸图像的人脸顶点漫反射率,C表示求将人脸顶点通过相机参数进行二维映射操作;αgeo表示重构的粗糙细节人脸图像的平均人脸几何参数,
Figure FDA0003097471060000024
表示第k帧脸部第p个顶点的控制调节因子第一参数,
Figure FDA0003097471060000025
表示重构的粗糙细节人脸图像的平均人脸几何调节因子,Nα表示重构的粗糙细节人脸图像的人脸几何调节因子数,
Figure FDA0003097471060000026
表示第k帧脸部第p个顶点的控制调节因子第二参数,
Figure FDA0003097471060000027
表示重构的粗糙细节人脸图像的平均人脸表情调节因子,Nδ表示重构的粗糙细节人脸图像的人脸表情调节因子数;αref表示重构的粗糙细节人脸图像的平均人脸顶点漫反射率,
Figure FDA0003097471060000028
表示第k帧脸部第p个顶点的控制调节因子第三参数,
Figure FDA0003097471060000029
重构的粗糙细节人脸图像的平均人脸反射调节因子,Nβ表示重构的粗糙细节人脸图像的人脸反射调节因子数;rp表示脸部第p个顶点的放射率,np表示脸部第p个顶点的单位法向量,Yb(*)代表b阶光照球谐函数,B表示光照球谐函数的阶数,
Figure FDA0003097471060000031
第k帧脸部b阶的控制调节因子第四参数;则重构出的第一人物的第i帧粗糙细节人脸图像
Figure FDA0003097471060000032
为:
Figure FDA0003097471060000033
式中,H(*)表示重构操作;
所述三维重构神经网络的损失函数为:
Figure FDA0003097471060000034
其中,I(i)表示第一人物原始视频片段的第i帧真实图像,
Figure FDA0003097471060000035
表示第一人物的第i帧粗糙细节人脸图像。
6.根据权利要求5所述的人像视频处理方法,其特征在于,所述步骤四中,获得第一人物的拟合新面部图的具体方法为:
Figure FDA0003097471060000036
进行归一化处理,获得
Figure FDA0003097471060000037
将第一人物第i帧粗糙细节人脸图像的eyes基类记为Ei,设定滑动窗口长度为2Nw,将第一人物第i帧粗糙细节人脸图像的前Nw帧和后Nw帧打包为第一人物第i个图像帧集合
Figure FDA0003097471060000038
输入现有的拟生成人脸面部细节神经网络;所述现有的拟生成人脸面部细节神经网络包括第一生成器G1和判别器D,设置判别器损失函数和第一生成器损失函数,获得训练好的拟生成人脸面部细节神经网络;
所述判别器D由编码器Denc和解码器Ddec组成,判别器损失函数为:
Figure FDA0003097471060000039
所述第一生成器损失函数为:
Figure FDA00030974710600000310
其中,x表示脸部参数集合X的数据分布,Z表示第一人物第i个图像帧集合的数据分布,(c,d)表示图中像素点的坐标。
7.根据权利要求6所述的人像视频处理方法,其特征在于,所述体态动作迁移的具体方法为:
步骤a:将第一人物原始视频片段和第二人物原始视频片段输入现有的关键点预测网络,获得第一人物的体态参数和第二人物的动作控制信息,并由此获得第一人物和第二人物的体态关键点信息;
步骤b:将体态关键点信息整合输入现有的体态重渲染网络中,获得第一人物的拟合新体态图。
8.根据权利要求7所述的人像视频处理方法,其特征在于,所述步骤a中,获得第一人物和第二人物的体态关键点信息的具体方法为:
将第一人物原始视频片段输入现有的关键点预测网络中,转化为体态参数集合Y={Y1,Y2,…YM},其中YM表示第M帧图片的体态参数,通过二维关键点估计提取出体态关键点信息y∈RT*2N,其中,T表示图片序列长度,N表示体态关键点个数;对体态关键点信息进行动作提取、结构提取和视角提取,获得第一人物体态关键点信息的动作信息、结构信息和角度信息:
Figure FDA0003097471060000041
Figure FDA0003097471060000042
Figure FDA0003097471060000043
其中,Em(*)表示动作提取操作,m表示第一人物体态关键点信息的动作信息,M表示动作提取操作后图片序列长度,Cm表示动作信息的通道数;Es(*)表示结构提取操作,s表示第一人物体态关键点信息的结构信息,Cs表示结构信息的通道数;Ev(*)表示角度提取操作,v表示第一人物体态关键点信息的角度信息,Cv表示角度信息的通道数;
获得第二人物体态关键点信息的方法与获得第一人物体态关键点信息的方法相同。
9.根据权利要求8所述的人像视频处理方法,其特征在于,所述步骤b中,获得第一人物的拟合新体态图的具体方法为:
将第一人物体态关键点信息和第二人物体态关键点信息的动作信息、结构信息和角度信息输入现有的体态重渲染网络中;所述体态重渲染网络由第二生成器G2构成,设置第二生成器损失函数进行训练,获得第一人物的拟合新体态图;
所述第二生成器损失函数为:
Figure FDA0003097471060000044
Figure FDA0003097471060000051
其中,
Figure FDA0003097471060000052
表示第一人物的拟合新体态图,q表示第一人物的拟合新体态图的数据分布,(c,d)表示图中像素点的坐标。
10.根据权利要求9所述的人像视频处理方法,其特征在于,利用FFmpeg视频编解码工具,将所有第一人物新全身图逐帧拼接合成为视频。
CN202110615917.2A 2021-06-02 2021-06-02 一种人像视频处理方法 Active CN113221840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110615917.2A CN113221840B (zh) 2021-06-02 2021-06-02 一种人像视频处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110615917.2A CN113221840B (zh) 2021-06-02 2021-06-02 一种人像视频处理方法

Publications (2)

Publication Number Publication Date
CN113221840A true CN113221840A (zh) 2021-08-06
CN113221840B CN113221840B (zh) 2022-07-26

Family

ID=77082589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110615917.2A Active CN113221840B (zh) 2021-06-02 2021-06-02 一种人像视频处理方法

Country Status (1)

Country Link
CN (1) CN113221840B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792705A (zh) * 2021-09-30 2021-12-14 北京跳悦智能科技有限公司 一种视频表情迁移方法及系统、计算机设备
CN113987268A (zh) * 2021-09-30 2022-01-28 深圳追一科技有限公司 数字人视频生成方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150035862A1 (en) * 2013-08-01 2015-02-05 Nbcuniversal Media, Llc Multiple perspective video system and method
US20190122411A1 (en) * 2016-06-23 2019-04-25 LoomAi, Inc. Systems and Methods for Generating Computer Ready Animation Models of a Human Head from Captured Data Images
CN110930298A (zh) * 2019-11-29 2020-03-27 北京市商汤科技开发有限公司 图像处理方法及装置、图像处理设备及存储介质
CN111368137A (zh) * 2020-02-12 2020-07-03 百度在线网络技术(北京)有限公司 视频的生成方法、装置、电子设备及可读存储介质
CN111383307A (zh) * 2018-12-29 2020-07-07 上海智臻智能网络科技股份有限公司 基于人像的视频生成方法及设备、存储介质
CN111626218A (zh) * 2020-05-28 2020-09-04 腾讯科技(深圳)有限公司 基于人工智能的图像生成方法、装置、设备及存储介质
WO2020207270A1 (zh) * 2019-04-09 2020-10-15 五邑大学 一种三维人脸重建方法及其系统、装置、存储介质
WO2021023869A1 (en) * 2019-08-08 2021-02-11 Universite De Lorraine Audio-driven speech animation using recurrent neutral network

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150035862A1 (en) * 2013-08-01 2015-02-05 Nbcuniversal Media, Llc Multiple perspective video system and method
US20190122411A1 (en) * 2016-06-23 2019-04-25 LoomAi, Inc. Systems and Methods for Generating Computer Ready Animation Models of a Human Head from Captured Data Images
CN111383307A (zh) * 2018-12-29 2020-07-07 上海智臻智能网络科技股份有限公司 基于人像的视频生成方法及设备、存储介质
WO2020207270A1 (zh) * 2019-04-09 2020-10-15 五邑大学 一种三维人脸重建方法及其系统、装置、存储介质
WO2021023869A1 (en) * 2019-08-08 2021-02-11 Universite De Lorraine Audio-driven speech animation using recurrent neutral network
CN110930298A (zh) * 2019-11-29 2020-03-27 北京市商汤科技开发有限公司 图像处理方法及装置、图像处理设备及存储介质
CN111368137A (zh) * 2020-02-12 2020-07-03 百度在线网络技术(北京)有限公司 视频的生成方法、装置、电子设备及可读存储介质
CN111626218A (zh) * 2020-05-28 2020-09-04 腾讯科技(深圳)有限公司 基于人工智能的图像生成方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
H. RAKSHA,ET AL.: "Action based Video Summarization", 《ENCON 2019 - 2019 IEEE REGION 10 CONFERENCE (TENCON)》 *
傅勇等: "改进级联卷积神经网络的平面旋转人脸检测", 《计算机工程与设计》 *
高翔等: "3DMM与GAN结合的实时人脸表情迁移方法", 《计算机应用与软件》 *
黄菲等: "基于生成对抗网络的异质人脸图像合成:进展与挑战", 《南京信息工程大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792705A (zh) * 2021-09-30 2021-12-14 北京跳悦智能科技有限公司 一种视频表情迁移方法及系统、计算机设备
CN113987268A (zh) * 2021-09-30 2022-01-28 深圳追一科技有限公司 数字人视频生成方法、装置、电子设备及存储介质
CN113792705B (zh) * 2021-09-30 2024-04-23 北京跳悦智能科技有限公司 一种视频表情迁移方法及系统、计算机设备

Also Published As

Publication number Publication date
CN113221840B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
US7027054B1 (en) Do-it-yourself photo realistic talking head creation system and method
US6919892B1 (en) Photo realistic talking head creation system and method
US8553037B2 (en) Do-It-Yourself photo realistic talking head creation system and method
US6351265B1 (en) Method and apparatus for producing an electronic image
US11514634B2 (en) Personalized speech-to-video with three-dimensional (3D) skeleton regularization and expressive body poses
US5623587A (en) Method and apparatus for producing an electronic image
CN113269872A (zh) 基于三维人脸重构和视频关键帧优化的合成视频生成方法
US6492990B1 (en) Method for the automatic computerized audio visual dubbing of movies
US20070165022A1 (en) Method and system for the automatic computerized audio visual dubbing of movies
US7109993B2 (en) Method and system for the automatic computerized audio visual dubbing of movies
CN113221840B (zh) 一种人像视频处理方法
US11968433B2 (en) Systems and methods for generating synthetic videos based on audio contents
CN115209180A (zh) 视频生成方法以及装置
CN114793300A (zh) 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统
CN113395569B (zh) 视频生成方法及装置
Hong et al. iFACE: a 3D synthetic talking face
CN117557695A (zh) 一种音频驱动单张照片生成视频的方法及装置
Perng et al. Image talk: a real time synthetic talking head using one single image with chinese text-to-speech capability
CN115379278A (zh) 一种基于xr技术沉浸式微课的录制方法及系统
CN113891079A (zh) 自动化教学视频生成方法、装置、计算机设备及存储介质
JP2843262B2 (ja) 表情再現装置
JPH11149285A (ja) 映像音響システム
CN113436302A (zh) 一种人脸动画合成方法及系统
Nunes et al. Talking avatar for web-based interfaces
TW422960B (en) Method of real time synthesizing dynamic facial expression by speech and single image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant