CN113221840A - 一种人像视频处理方法 - Google Patents
一种人像视频处理方法 Download PDFInfo
- Publication number
- CN113221840A CN113221840A CN202110615917.2A CN202110615917A CN113221840A CN 113221840 A CN113221840 A CN 113221840A CN 202110615917 A CN202110615917 A CN 202110615917A CN 113221840 A CN113221840 A CN 113221840A
- Authority
- CN
- China
- Prior art keywords
- person
- face
- original video
- posture
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 230000009471 action Effects 0.000 claims abstract description 30
- 230000001815 facial effect Effects 0.000 claims abstract description 30
- 230000008921 facial expression Effects 0.000 claims abstract description 22
- 238000013508 migration Methods 0.000 claims abstract description 22
- 230000005012 migration Effects 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 7
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000005286 illumination Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 abstract description 6
- 230000036544 posture Effects 0.000 description 55
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种人像视频处理方法,包括:获取第一人物原始视频片段,从中提取脸部参数、体态参数和音频数据;获取第二人物原始视频片段,从中提取面部控制信息和动作控制信息;根据第一人物的脸部参数、音频数据和第二人物的面部控制信息进行面部表情迁移,获得第一人物的拟合新面部图;根据第一人物的体态参数和第二人物的动作控制信息进行体态动作迁移,获得第一人物的拟合新体态图;利用拟合新面部图替换拟合新体态图中的面部,生成第一人物新全身图;将所有第一人物新全身图合成视频,载入音频数据,获得第一人物的新视频片段。本发明生成的人物新视频片段具有逼真面部细节、自然姿态动作、画音同步的人物视频,真实感强,观感自然。
Description
技术领域
本发明涉及人像视频处理的技术领域,更具体地,涉及一种人像视频处理方法。
背景技术
随着科学技术和互联网经济的不断发展,视频影像逐渐成为人们生活中不可或缺的一部分。伴随着短视频的火爆,使越来越多人意识到这种直观、便捷和低门槛的视频影像才是被大众所接受的。近年来许多行业开启了互联网+模式,以在线视频的新模式呈现在人们面前,例如在线教育、线上直播卖货、新闻主播等,新模式所带来的经济效益是十分巨大的。可是渐渐地现有的视频影像技术的缺点也暴露出来,以在线教育为例,录课模式是在线教育领域中最常见的方式,在线教育平台签订优秀教师,为教师们录制一整套的课程放置互联网上进行销售。然而每位教师每年录制的课程的相似度极高,并且录制出来的课需要经过剪辑、组合和加工才能进行销售,这样的视频因为剪辑技术问题导致缺乏流畅感,会有明显的断层、画面抖动和掉帧的现象,用户体验较差。新闻主播也有同样的特性,重复性高,但由于新闻的时效性,直播过程中对于主播面部表情、体态动作和话音同步有极高的要求。所以目前人像视频主要存在以下几个问题:1)生成人物视频仅仅只有画面,需要在进行后期配音,容易出现画音不同步的情况,导致观感不自然,真实感不强,观众体验感差。2)目前人物视频合成方法大多关注人物脸部,忽视了人物动作和姿态,人物不自然,应用范围局限。3)人物数据利用率低,同一个人的不同动作的视频或不同的内容的视屏,需要重新收集人物的所有数据重新制作。4)传统人像视频中采取人工和软件的合成方法,生产成本高,生产周期慢。
2020年7月3日公开的中国专利CN111368853A公开了一种用于训练模型的标签构建方法、系统、装置及存储介质,通过对人物图像进行标签提取,将复杂的人物图像,简化为关键点二维坐标或二维掩码,用于训练生成对抗神经网络模型(GAN模型);通过简单地修改关键点的坐标位置,或者二维掩码形状,就可以生成不同的标签图像,输入训练好的生成对抗神经网络模型,即可生成与标签对应的人物图像,再进一步合成视频;该方法仅关注人物脸部细节,忽视了人物动作和姿态,人物不自然;并且没有考虑到音频与视频匹配的问题,直接加载音频会是话音不同步,后期配音会使视频中的人物的口型无法音频内容匹配,真实感差。
发明内容
本发明为克服上述现有人像视频生成技术无法兼顾准确的脸部细节和姿态动作的缺陷,提供一种人像视频处理方法,可以生成具有逼真面部细节、自然姿态动作、画音同步的人物视频,真实感强,观感自然。
为解决上述技术问题,本发明的技术方案如下:
本发明提供一种人像视频处理方法,包括:
获取第一人物原始视频片段和第二人物原始视频片段;
从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据;从第二人物原始视频片段中提取面部控制信息和动作控制信息;
面部表情迁移:根据第一人物原始视频片段的脸部参数、音频数据和第二人物原始视频片段的面部控制信息,获得第一人物的拟合新面部图;
体态动作迁移:根据第一人物原始视频片段的体态参数和第二人物原始视频片段的动作控制信息,获得第一人物的拟合新体态图;
利用第一人物的拟合新面部图替换第一人物的拟合新体态图中的面部,生成第一人物新全身图;
将所有第一人物新全身图合成视频,载入第一人物原始视频片段的音频数据,获得第一人物的新视频片段。
优选地,从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据前,还需要对第一人物原始视频片段进行预处理,包括:
删除模糊图像,利用人体识别技术删除模糊、无法识别的图像;
提取图像帧,利用FFmpeg视频编解码工具从视频中提取图像帧;
统一数据格式,将提取的图像帧统一转化为相同的数据格式,便于计算机程序进行计算;
所述音频数据使用FFmpeg视频编解码工具从视频中提取。
优选地,从第二人物原始视频片段中提取面部控制信息和动作控制信息前,还需对第二人物原始视频片段的长度进行截取,使第二人物原始视频片段的长度与第一人物原始视频片段的音频数据的长度相等;截取第二人物原始视频片段的长度使其与第一人物原始视频片段的音频数据的长度相等,可以使最终获得的第一人物的新视频片段的画音同步,观感自然。
优选地,所述面部迁移的具体方法为:
步骤一:将第一人物原始视频片段的音频数据输入训练好的音频特征转换面部表情基神经网络中,获得与第一人物原始视频片段的音频数据对应的第一人物表情基数据;
步骤二:将第一人物原始视频片段和第二人物原始视频片段输入训练好的三维重构神经网络中,获得第一人物的脸部参数和第二人物的面部控制信息,由此生成第一人物粗糙细节人脸图像;
步骤三:利用第一人物表情基数据替换第一人物粗糙细节人脸图像的人脸细节,获得第一人物面部表情迁移图像;
步骤四:将步骤三中获得的第一人物面部表情迁移图像输入训练好的拟生成人脸面部细节神经网络中,获得第一人物的拟合新面部图。
优选地,所述步骤二中,获得训练好的三维重构神经网络的具体方法为:
将第一人物原始视频片段输入现有的三维重构神经网络中,转化为脸部参数集合X={X1,X2,…XM},其中XM表示第M帧的脸部参数,设置损失函数进行训练,获得训练好的三维重构神经网络;其中:
Xk=(αk,δk,βk,γk),k=1,2,…M
式中,Xk表示第k帧的脸部参数,αk,δk,βk,γk分别表示第k帧脸部的控制调节因子第一参数、第二参数、第三参数和第四参数;
式中,v表示重构的粗糙细节人脸图像的人脸顶点,r表示重构的粗糙细节人脸图像的人脸顶点漫反射率,C表示求将人脸顶点通过相机参数进行二维映射操作;αgeo表示重构的粗糙细节人脸图像的平均人脸几何参数,表示第k帧脸部第p个顶点的控制调节因子第一参数,表示重构的粗糙细节人脸图像的平均人脸几何调节因子,Nα表示重构的粗糙细节人脸图像的人脸几何调节因子数,表示第k帧脸部第p个顶点的控制调节因子第二参数,表示重构的粗糙细节人脸图像的平均人脸表情调节因子,Nδ表示重构的粗糙细节人脸图像的人脸表情调节因子数;αref表示重构的粗糙细节人脸图像的平均人脸顶点漫反射率,表示第k帧脸部第p个顶点的控制调节因子第三参数,重构的粗糙细节人脸图像的平均人脸反射调节因子,Nβ表示重构的粗糙细节人脸图像的人脸反射调节因子数;rp表示脸部第p个顶点的放射率,np表示脸部第p个顶点的单位法向量,Yb(*)代表b阶光照球谐函数,B表示光照球谐函数的阶数,第k帧脸部b阶的控制调节因子第四参数;则重构出的第一人物的第i帧粗糙细节人脸图像为:
式中,H(*)表示重构操作;
所述三维重构神经网络的损失函数为:
优选地,所述步骤四中,获得第一人物的拟合新面部图的具体方法为:
将进行归一化处理,获得将第一人物第i帧粗糙细节人脸图像的eyes基类记为Ei,设定滑动窗口长度为2Nw,将第一人物第i帧粗糙细节人脸图像的前Nw帧和后Nw帧打包为第一人物第i个图像帧集合输入现有的拟生成人脸面部细节神经网络;所述现有的拟生成人脸面部细节神经网络包括第一生成器G1和判别器D,设置判别器损失函数和第一生成器损失函数,获得训练好的拟生成人脸面部细节神经网络;
所述判别器D由编码器Denc和解码器Ddec组成,判别器损失函数为:
所述第一生成器损失函数为:
其中,x表示脸部参数集合X的数据分布,Z表示第一人物第i个图像帧集合的数据分布,(c,d)表示图中像素点的坐标。
优选地,所述体态动作迁移的具体方法为:
步骤a:将第一人物原始视频片段和第二人物原始视频片段输入现有的关键点预测网络,获得第一人物的体态参数和第二人物的动作控制信息,并由此获得第一人物和第二人物的体态关键点信息;
步骤b:将第一人物体态关键点信息和第二人物体态关键点信息整合输入现有的体态重渲染网络中,获得第一人物的拟合新体态图。
优选地,所述步骤a中,获得第一人物体态关键点信息和第二人物体态关键点信息的具体方法为:
将第一人物原始视频片段输入现有的关键点预测网络中,转化为体态参数集合Y={Y1,Y2,…YM},其中YM表示第M帧图片的体态参数,通过二维关键点估计提取出体态关键点信息y∈RT*2N,其中,T表示图片序列长度,N表示体态关键点个数;对体态关键点信息进行动作提取、结构提取和视角提取,获得第一人物体态关键点信息的动作信息、结构信息和角度信息:
其中,Em(*)表示动作提取操作,m表示第一人物体态关键点信息的动作信息,M表示动作提取操作后图片序列长度,Cm表示动作信息的通道数;Es(*)表示结构提取操作,s表示第一人物体态关键点信息的结构信息,Cs表示结构信息的通道数;Ev(*)表示角度提取操作,v表示第一人物体态关键点信息的角度信息,Cv表示角度信息的通道数;
获得第二人物体态关键点信息的方法与获得第一人物体态关键点信息的方法相同。
优选地,所述步骤b中,获得第一人物的拟合新体态图的具体方法为:
将第一人物体态关键点信息和第二人物体态关键点信息的动作信息、结构信息和角度信息输入现有的体态重渲染网络中;所述体态重渲染网络由第二生成器G2构成,设置第二生成器损失函数进行训练,获得第一人物的拟合新体态图;
所述第二生成器损失函数为:
优选地,利用opencv图像处理工具,对面部图进行关键点识别,将第一人物的拟合新面部图关键点对关键点的覆盖到第一人物的拟合新体态图中的面部上,生成第一人物新全身图。
优选地,利用FFmpeg视频编解码工具,将所有第一人物新全身图逐帧拼接合成为视频。
与现有技术相比,本发明技术方案的有益效果是:
本发明根据第一人物原始视频片段的脸部参数、音频数据和第二人物原始视频片段的面部控制信息进行面部表情迁移,获得第一人物的拟合新面部图,该拟合新面部图拥有第二人物的头部姿势和第一人物的脸部细节,并且嘴型与音频一致,具有精准脸部细节的的同时保证了画音同步,不需要后期重新配音;根据第一人物原始视频片段的体态参数和第二人物原始视频片段的动作控制信息进行体态动作迁移,获得第一人物的拟合新体态图,该拟合体态图具有第一人物的体态和第二人物的动作,使最终生成的新视频片段具有自然、精确的姿态动作;利用第一人物的拟合新面部图替换第一人物的拟合新体态图中的面部,将生成的第一人物新全身图合成视频,载入第一人物原始视频片段的音频数据,获得的第一人物的新视频片段具有逼真面部细节、自然姿态动作、画音同步的人物视频,真实感强,观感自然。
附图说明
图1为实施例所述的一种人像视频处理方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
本实施例提供一种人像视频处理方法,如图1所示,包括:
S1:获取第一人物原始视频片段和第二人物原始视频片段;
S2:从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据;从第二人物原始视频片段中提取面部控制信息和动作控制信息;
从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据前,还需要对第一人物原始视频片段进行预处理,包括:
删除模糊图像,利用人体识别技术删除模糊、无法识别的图像;
提取图像帧,利用FFmpeg视频编解码工具从视频中提取图像帧;
统一数据格式,将提取的图像帧统一转化为相同的数据格式,便于计算机程序进行计算;
利用FFmpeg视频编解码工具从第一人物原始视频片段中提取音频数据;
从第二人物原始视频片段中提取面部控制信息和动作控制信息前,还需对第二人物原始视频片段的长度进行截取,使第二人物原始视频片段的长度与第一人物原始视频片段的音频数据的长度相等;截取第二人物原始视频片段的长度使其与第一人物原始视频片段的音频数据的长度相等,可以使最终获得的第一人物的新视频片段的画音同步,观感自然。
S3:面部表情迁移:根据第一人物原始视频片段的脸部参数、音频数据和第二人物原始视频片段的面部控制信息,获得第一人物的拟合新面部图;
面部表情迁移的具体方法为:
S3.1:将第一人物原始视频片段的音频数据输入训练好的音频特征转换面部表情基神经网络中,获得与第一人物原始视频片段的音频数据对应的第一人物表情基数据;
S3.2:将第一人物原始视频片段和第二人物原始视频片段输入训练好的三维重构神经网络中,获得第一人物的脸部参数和第二人物的面部控制信息,由此生成第一人物粗糙细节人脸图像;
训练好的三维重构神经网络的获得方法具体为:
将第一人物原始视频片段输入现有的三维重构神经网络中,转化为脸部参数集合X={X1,X2,…XM},其中XM表示第M帧的脸部参数,设置损失函数进行训练,获得训练好的三维重构神经网络;其中:
Xk=(αk,δk,βk,γk),k=1,2,…M
式中,Xk表示第k帧的脸部参数,αk,δk,βk,γk分别表示第k帧脸部的控制调节因子第一参数、第二参数、第三参数和第四参数;
式中,v表示重构的粗糙细节人脸图像的人脸顶点,r表示重构的粗糙细节人脸图像的人脸顶点漫反射率,C表示求将人脸顶点通过相机参数进行二维映射操作;αgeo表示重构的粗糙细节人脸图像的平均人脸几何参数,表示第k帧脸部第p个顶点的控制调节因子第一参数,表示重构的粗糙细节人脸图像的平均人脸几何调节因子,Nα表示重构的粗糙细节人脸图像的人脸几何调节因子数,表示第k帧脸部第p个顶点的控制调节因子第二参数,表示重构的粗糙细节人脸图像的平均人脸表情调节因子,Nδ表示重构的粗糙细节人脸图像的人脸表情调节因子数;αref表示重构的粗糙细节人脸图像的平均人脸顶点漫反射率,表示第k帧脸部第p个顶点的控制调节因子第三参数,重构的粗糙细节人脸图像的平均人脸反射调节因子,Nβ表示重构的粗糙细节人脸图像的人脸反射调节因子数;rp表示脸部第p个顶点的放射率,np表示脸部第p个顶点的单位法向量,Yb(*)代表b阶光照球谐函数,B表示光照球谐函数的阶数,第k帧脸部b阶的控制调节因子第四参数;则重构出的第一人物的第i帧粗糙细节人脸图像为:
式中,H(*)表示重构操作;
所述三维重构神经网络的损失函数为:
S3.3:利用第一人物表情基数据替换第一人物粗糙细节人脸图像的人脸细节,获得第一人物面部表情迁移图像;
S3.4:将S3.3中获得的第一人物面部表情迁移图像输入训练好的拟生成人脸面部细节神经网络中,获得第一人物的拟合新面部图;具体方法为:
将进行归一化处理,获得将第一人物第i帧粗糙细节人脸图像的eyes基类记为Ei,设定滑动窗口长度为2Nw,将第一人物第i帧粗糙细节人脸图像的前Nw帧和后Nw帧打包为第一人物第i个图像帧集合输入现有的拟生成人脸面部细节神经网络,本实施例中,拟生成人脸面部细节神经网络使用U—net网络;所述现有的拟生成人脸面部细节神经网络包括第一生成器G1和判别器D,设置判别器损失函数和第一生成器损失函数,获得训练好的拟生成人脸面部细节神经网络;
所述判别器D由编码器Denc和解码器Ddec组成,判别器损失函数为:
所述第一生成器损失函数为:
其中,x表示脸部参数集合X的数据分布,Z表示第一人物第i个图像帧集合的数据分布,(c,d)表示图中像素点的坐标。
S4:体态动作迁移:根据第一人物原始视频片段的体态参数和第二人物原始视频片段的动作控制信息,获得第一人物的拟合新体态图;
所述体态动作迁移的具体方法为:
S4.1:将第一人物原始视频片段和第二人物原始视频片段输入现有的关键点预测网络,获得第一人物的体态参数和第二人物的动作控制信息,并由此获得第一人物和第二人物的体态关键点信息;
将第一人物原始视频片段输入现有的关键点预测网络中,转化为体态参数集合Y={Y1,Y2,…YM},其中YM表示第M帧图片的体态参数,通过二维关键点估计提取出体态关键点信息y∈RT*2N,其中,T表示图片序列长度,N表示体态关键点个数,本实施例中,N的取值为15;对体态关键点信息进行动作提取、结构提取和视角提取,获得第一人物体态关键点信息的动作信息、结构信息和角度信息:
其中,Em(*)表示动作提取操作,m表示第一人物体态关键点信息的动作信息,M表示动作提取操作后图片序列长度,Cm表示动作信息的通道数;Es(*)表示结构提取操作,s表示第一人物体态关键点信息的结构信息,Cs表示结构信息的通道数;Ev(*)表示角度提取操作,v表示第一人物体态关键点信息的角度信息,Cv表示角度信息的通道数;
获得第二人物体态关键点信息的方法与获得第一人物体态关键点信息的方法相同。
S4.2:将第一人物体态关键点信息和第二人物体态关键点信息整合输入现有的体态重渲染网络中,获得第一人物的拟合新体态图。
将第一人物体态关键点信息和第二人物体态关键点信息的动作信息、结构信息和角度信息输入现有的体态重渲染网络中;所述体态重渲染网络由第二生成器G2构成,设置第二生成器损失函数进行训练,获得第一人物的拟合新体态图;
所述第二生成器损失函数为:
S5:利用第一人物的拟合新面部图替换第一人物的拟合新体态图中的面部,生成第一人物新全身图;
利用opencv图像处理工具,对面部图进行关键点识别,将第一人物的拟合新面部图关键点对关键点的覆盖到第一人物的拟合新体态图中的面部上,生成第一人物新全身图。
S6:将所有第一人物新全身图合成视频,载入第一人物原始视频片段的音频数据,获得第一人物的新视频片段;
利用FFmpeg视频编解码工具,将所有第一人物新全身图逐帧拼接合成为视频。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种人像视频处理方法,其特征在于,包括:
获取第一人物原始视频片段和第二人物原始视频片段;
从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据;从第二人物原始视频片段中提取面部控制信息和动作控制信息;
面部表情迁移:根据第一人物原始视频片段的脸部参数、音频数据和第二人物原始视频片段的面部控制信息,获得第一人物的拟合新面部图;
体态动作迁移:根据第一人物原始视频片段的体态参数和第二人物原始视频片段的动作控制信息,获得第一人物的拟合新体态图;
利用第一人物的拟合新面部图替换第一人物的拟合新体态图中的面部,生成第一人物新全身图;
将所有第一人物新全身图合成视频,载入第一人物原始视频片段的音频数据,获得第一人物的新视频片段。
2.根据权利要求1所述的人像视频处理方法,其特征在于,从第一人物原始视频片段中提取每一帧图像的脸部参数、体态参数和第一人物原始视频片段的音频数据前,还需要对第一人物原始视频片段进行预处理,包括删除模糊图像、提取图像帧和统一数据格式。
3.根据权利要求2所述的人像视频处理方法,其特征在于,从第二人物原始视频片段中提取面部控制信息和动作控制信息,还需对第二人物原始视频片段的长度进行截取,使第二人物原始视频片段的长度与第一人物原始视频片段的音频数据的长度相等。
4.根据权利要求3所述的人像视频处理方法,其特征在于,所述面部迁移的具体方法为:
步骤一:将第一人物原始视频片段的音频数据输入训练好的音频特征转换面部表情基神经网络中,获得与第一人物原始视频片段的音频数据对应的第一人物表情基数据;
步骤二:将第一人物原始视频片段和第二人物原始视频片段输入训练好的三维重构神经网络中,获得第一人物的脸部参数和第二人物的面部控制信息,由此生成第一人物粗糙细节人脸图像;
步骤三:利用第一人物表情基数据替换第一人物粗糙细节人脸图像的人脸细节,获得第一人物面部表情迁移图像;
步骤四:将步骤三中获得的第一人物面部表情迁移图像输入训练好的拟生成人脸面部细节神经网络中,获得第一人物的拟合新面部图。
5.根据权利要求4所述的人像视频处理方法,其特征在于,所述步骤二中,训练好的三维重构神经网络的获得方法为:
将第一人物原始视频片段输入现有的三维重构神经网络中,转化为脸部参数集合X={X1,X2,…XM},其中XM表示第M帧的脸部参数,设置损失函数进行训练,获得训练好的三维重构神经网络;其中:
Xk=(αk,δk,βk,γk),k=1,2,…M
式中,Xk表示第k帧的脸部参数,αk,δk,βk,γk分别表示第k帧脸部的控制调节因子第一参数、第二参数、第三参数和第四参数;
式中,v表示重构的粗糙细节人脸图像的人脸顶点,r表示重构的粗糙细节人脸图像的人脸顶点漫反射率,C表示求将人脸顶点通过相机参数进行二维映射操作;αgeo表示重构的粗糙细节人脸图像的平均人脸几何参数,表示第k帧脸部第p个顶点的控制调节因子第一参数,表示重构的粗糙细节人脸图像的平均人脸几何调节因子,Nα表示重构的粗糙细节人脸图像的人脸几何调节因子数,表示第k帧脸部第p个顶点的控制调节因子第二参数,表示重构的粗糙细节人脸图像的平均人脸表情调节因子,Nδ表示重构的粗糙细节人脸图像的人脸表情调节因子数;αref表示重构的粗糙细节人脸图像的平均人脸顶点漫反射率,表示第k帧脸部第p个顶点的控制调节因子第三参数,重构的粗糙细节人脸图像的平均人脸反射调节因子,Nβ表示重构的粗糙细节人脸图像的人脸反射调节因子数;rp表示脸部第p个顶点的放射率,np表示脸部第p个顶点的单位法向量,Yb(*)代表b阶光照球谐函数,B表示光照球谐函数的阶数,第k帧脸部b阶的控制调节因子第四参数;则重构出的第一人物的第i帧粗糙细节人脸图像为:
式中,H(*)表示重构操作;
所述三维重构神经网络的损失函数为:
6.根据权利要求5所述的人像视频处理方法,其特征在于,所述步骤四中,获得第一人物的拟合新面部图的具体方法为:
将进行归一化处理,获得将第一人物第i帧粗糙细节人脸图像的eyes基类记为Ei,设定滑动窗口长度为2Nw,将第一人物第i帧粗糙细节人脸图像的前Nw帧和后Nw帧打包为第一人物第i个图像帧集合输入现有的拟生成人脸面部细节神经网络;所述现有的拟生成人脸面部细节神经网络包括第一生成器G1和判别器D,设置判别器损失函数和第一生成器损失函数,获得训练好的拟生成人脸面部细节神经网络;
所述判别器D由编码器Denc和解码器Ddec组成,判别器损失函数为:
所述第一生成器损失函数为:
其中,x表示脸部参数集合X的数据分布,Z表示第一人物第i个图像帧集合的数据分布,(c,d)表示图中像素点的坐标。
7.根据权利要求6所述的人像视频处理方法,其特征在于,所述体态动作迁移的具体方法为:
步骤a:将第一人物原始视频片段和第二人物原始视频片段输入现有的关键点预测网络,获得第一人物的体态参数和第二人物的动作控制信息,并由此获得第一人物和第二人物的体态关键点信息;
步骤b:将体态关键点信息整合输入现有的体态重渲染网络中,获得第一人物的拟合新体态图。
8.根据权利要求7所述的人像视频处理方法,其特征在于,所述步骤a中,获得第一人物和第二人物的体态关键点信息的具体方法为:
将第一人物原始视频片段输入现有的关键点预测网络中,转化为体态参数集合Y={Y1,Y2,…YM},其中YM表示第M帧图片的体态参数,通过二维关键点估计提取出体态关键点信息y∈RT*2N,其中,T表示图片序列长度,N表示体态关键点个数;对体态关键点信息进行动作提取、结构提取和视角提取,获得第一人物体态关键点信息的动作信息、结构信息和角度信息:
其中,Em(*)表示动作提取操作,m表示第一人物体态关键点信息的动作信息,M表示动作提取操作后图片序列长度,Cm表示动作信息的通道数;Es(*)表示结构提取操作,s表示第一人物体态关键点信息的结构信息,Cs表示结构信息的通道数;Ev(*)表示角度提取操作,v表示第一人物体态关键点信息的角度信息,Cv表示角度信息的通道数;
获得第二人物体态关键点信息的方法与获得第一人物体态关键点信息的方法相同。
10.根据权利要求9所述的人像视频处理方法,其特征在于,利用FFmpeg视频编解码工具,将所有第一人物新全身图逐帧拼接合成为视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615917.2A CN113221840B (zh) | 2021-06-02 | 2021-06-02 | 一种人像视频处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615917.2A CN113221840B (zh) | 2021-06-02 | 2021-06-02 | 一种人像视频处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221840A true CN113221840A (zh) | 2021-08-06 |
CN113221840B CN113221840B (zh) | 2022-07-26 |
Family
ID=77082589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110615917.2A Active CN113221840B (zh) | 2021-06-02 | 2021-06-02 | 一种人像视频处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221840B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792705A (zh) * | 2021-09-30 | 2021-12-14 | 北京跳悦智能科技有限公司 | 一种视频表情迁移方法及系统、计算机设备 |
CN113987268A (zh) * | 2021-09-30 | 2022-01-28 | 深圳追一科技有限公司 | 数字人视频生成方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150035862A1 (en) * | 2013-08-01 | 2015-02-05 | Nbcuniversal Media, Llc | Multiple perspective video system and method |
US20190122411A1 (en) * | 2016-06-23 | 2019-04-25 | LoomAi, Inc. | Systems and Methods for Generating Computer Ready Animation Models of a Human Head from Captured Data Images |
CN110930298A (zh) * | 2019-11-29 | 2020-03-27 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、图像处理设备及存储介质 |
CN111368137A (zh) * | 2020-02-12 | 2020-07-03 | 百度在线网络技术(北京)有限公司 | 视频的生成方法、装置、电子设备及可读存储介质 |
CN111383307A (zh) * | 2018-12-29 | 2020-07-07 | 上海智臻智能网络科技股份有限公司 | 基于人像的视频生成方法及设备、存储介质 |
CN111626218A (zh) * | 2020-05-28 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像生成方法、装置、设备及存储介质 |
WO2020207270A1 (zh) * | 2019-04-09 | 2020-10-15 | 五邑大学 | 一种三维人脸重建方法及其系统、装置、存储介质 |
WO2021023869A1 (en) * | 2019-08-08 | 2021-02-11 | Universite De Lorraine | Audio-driven speech animation using recurrent neutral network |
-
2021
- 2021-06-02 CN CN202110615917.2A patent/CN113221840B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150035862A1 (en) * | 2013-08-01 | 2015-02-05 | Nbcuniversal Media, Llc | Multiple perspective video system and method |
US20190122411A1 (en) * | 2016-06-23 | 2019-04-25 | LoomAi, Inc. | Systems and Methods for Generating Computer Ready Animation Models of a Human Head from Captured Data Images |
CN111383307A (zh) * | 2018-12-29 | 2020-07-07 | 上海智臻智能网络科技股份有限公司 | 基于人像的视频生成方法及设备、存储介质 |
WO2020207270A1 (zh) * | 2019-04-09 | 2020-10-15 | 五邑大学 | 一种三维人脸重建方法及其系统、装置、存储介质 |
WO2021023869A1 (en) * | 2019-08-08 | 2021-02-11 | Universite De Lorraine | Audio-driven speech animation using recurrent neutral network |
CN110930298A (zh) * | 2019-11-29 | 2020-03-27 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、图像处理设备及存储介质 |
CN111368137A (zh) * | 2020-02-12 | 2020-07-03 | 百度在线网络技术(北京)有限公司 | 视频的生成方法、装置、电子设备及可读存储介质 |
CN111626218A (zh) * | 2020-05-28 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像生成方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
H. RAKSHA,ET AL.: "Action based Video Summarization", 《ENCON 2019 - 2019 IEEE REGION 10 CONFERENCE (TENCON)》 * |
傅勇等: "改进级联卷积神经网络的平面旋转人脸检测", 《计算机工程与设计》 * |
高翔等: "3DMM与GAN结合的实时人脸表情迁移方法", 《计算机应用与软件》 * |
黄菲等: "基于生成对抗网络的异质人脸图像合成:进展与挑战", 《南京信息工程大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792705A (zh) * | 2021-09-30 | 2021-12-14 | 北京跳悦智能科技有限公司 | 一种视频表情迁移方法及系统、计算机设备 |
CN113987268A (zh) * | 2021-09-30 | 2022-01-28 | 深圳追一科技有限公司 | 数字人视频生成方法、装置、电子设备及存储介质 |
CN113792705B (zh) * | 2021-09-30 | 2024-04-23 | 北京跳悦智能科技有限公司 | 一种视频表情迁移方法及系统、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113221840B (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7027054B1 (en) | Do-it-yourself photo realistic talking head creation system and method | |
US6919892B1 (en) | Photo realistic talking head creation system and method | |
US8553037B2 (en) | Do-It-Yourself photo realistic talking head creation system and method | |
US6351265B1 (en) | Method and apparatus for producing an electronic image | |
US11514634B2 (en) | Personalized speech-to-video with three-dimensional (3D) skeleton regularization and expressive body poses | |
US5623587A (en) | Method and apparatus for producing an electronic image | |
CN113269872A (zh) | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 | |
US6492990B1 (en) | Method for the automatic computerized audio visual dubbing of movies | |
US20070165022A1 (en) | Method and system for the automatic computerized audio visual dubbing of movies | |
US7109993B2 (en) | Method and system for the automatic computerized audio visual dubbing of movies | |
CN113221840B (zh) | 一种人像视频处理方法 | |
US11968433B2 (en) | Systems and methods for generating synthetic videos based on audio contents | |
CN115209180A (zh) | 视频生成方法以及装置 | |
CN114793300A (zh) | 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统 | |
CN113395569B (zh) | 视频生成方法及装置 | |
Hong et al. | iFACE: a 3D synthetic talking face | |
CN117557695A (zh) | 一种音频驱动单张照片生成视频的方法及装置 | |
Perng et al. | Image talk: a real time synthetic talking head using one single image with chinese text-to-speech capability | |
CN115379278A (zh) | 一种基于xr技术沉浸式微课的录制方法及系统 | |
CN113891079A (zh) | 自动化教学视频生成方法、装置、计算机设备及存储介质 | |
JP2843262B2 (ja) | 表情再現装置 | |
JPH11149285A (ja) | 映像音響システム | |
CN113436302A (zh) | 一种人脸动画合成方法及系统 | |
Nunes et al. | Talking avatar for web-based interfaces | |
TW422960B (en) | Method of real time synthesizing dynamic facial expression by speech and single image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |