CN117196937B - 一种基于人脸识别模型的视频换脸方法、设备及存储介质 - Google Patents
一种基于人脸识别模型的视频换脸方法、设备及存储介质 Download PDFInfo
- Publication number
- CN117196937B CN117196937B CN202311161763.XA CN202311161763A CN117196937B CN 117196937 B CN117196937 B CN 117196937B CN 202311161763 A CN202311161763 A CN 202311161763A CN 117196937 B CN117196937 B CN 117196937B
- Authority
- CN
- China
- Prior art keywords
- face
- matrix
- video
- target
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 158
- 230000004927 fusion Effects 0.000 claims abstract description 51
- 230000009466 transformation Effects 0.000 claims abstract description 26
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 25
- 210000005252 bulbus oculi Anatomy 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 24
- 210000001508 eye Anatomy 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 6
- 210000000056 organ Anatomy 0.000 claims description 6
- 238000005530 etching Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007797 corrosion Effects 0.000 description 2
- 238000005260 corrosion Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于人脸识别模型的视频换脸方法、设备及存储介质,方法包括以下步骤:获取目标图片,从目标图片中提取第一人脸,获取第一人脸的目标人脸矩阵;获取待处理视频,从待处理视频中提取第二人脸,得到原始人脸矩阵和仿射变换矩阵;将原始人脸矩阵和目标人脸矩阵输入人脸识别模型进行人脸融合,得到融合人脸矩阵;根据仿射变换矩阵将融合人脸矩阵贴回待处理视频中,得到换脸视频。本发明利用针对性训练得到的人脸识别模型和眼球约束损失函数,能够实现更加精确地更换每一帧视频的人脸;通过面部遮罩的设计对于大遮挡以及换脸后眼球僵硬问题提供了有效解决方案;同时为了提高视频换脸效率加入视频帧预处理机制,使得换脸效率显著提升。
Description
技术领域
本发明涉及视频人像处理技术领域,尤其是一种基于人脸识别模型的视频换脸方法、设备及存储介质。
背景技术
随着机器学习与深度学习技术的日益成熟,机器学习与深度学习在视频文创工作中起到的作用逐渐增大,人们的精神需求也不仅限于普通的视频创作,而是希望有更多个性化的创作。
视频换脸技术自deepfake大火至今技术水平不断攀升,不再需要额外的训练只需要单张人脸即可完成视频换脸的模型层出不穷。但是,视频素材中的人物侧脸问题以及脸部遮挡问题一直未能有良好的解决方案,视频换脸速度也有待提高。
发明内容
有鉴于此,本发明实施例提供一种基于人脸识别模型的视频换脸方法、设备及存储介质。
本发明的第一方面提供了一种基于人脸识别模型的视频换脸方法,包括以下步骤:
获取目标图片,所述目标图片中记录有第一人脸;
从所述目标图片中提取所述第一人脸,获取所述第一人脸的目标人脸矩阵;
获取待处理视频,所述待处理视频中记录有第二人脸;
从所述待处理视频中提取所述第二人脸,得到原始人脸矩阵和仿射变换矩阵;
将所述原始人脸矩阵和所述目标人脸矩阵输入人脸识别模型进行人脸融合,得到融合人脸矩阵;
根据所述仿射变换矩阵将所述融合人脸矩阵贴回所述待处理视频中,得到换脸视频。
进一步地,所述从待处理视频中提取所述第二人脸,具体包括以下步骤:
对所述待处理视频进行人脸识别,获取所述待处理视频中含有第二人脸的视频帧;
将所述含有第二人脸的视频帧作为目标视频帧从所述待处理视频中抽出;
解析所述目标视频帧中的关键点,所述关键点为所述第二人脸边缘点的集合;
根据所述关键点在所述目标视频帧中的分布,确定所述第二人脸在所述目标视频帧中的位置和角度,生成仿射变换矩阵;
沿所述关键点从所述目标视频帧中裁剪所述第二人脸,生成原始人脸矩阵。
进一步地,在所述沿关键点从所述目标视频帧中裁剪所述第二人脸步骤之后,还包括生成所述原始人脸矩阵的面部遮罩的步骤;所述面部遮罩用于确认所述第二人脸在所述目标视频帧中的保留区域;
所述生成原始人脸矩阵的面部遮罩,具体包括以下步骤:
生成所述原始人脸矩阵的初始面部遮罩;所述初始面部遮罩中包含第一区域和第二区域;所述第一区域中包含所述第二人脸的脸部器官;所述第二区域中包含所述第二人脸的遮挡物;
对所述第一区域的边缘进行腐蚀处理,得到腐蚀后的面部遮罩;
对所述腐蚀后的面部遮罩进行高斯模糊处理,得到处理面部遮罩。
进一步地,所述人脸识别模型的损失函数如下式(1)所示:
L=λadvLadv+λidLid+λattLatt+λrecLrec+λeyeLeye#(1)
其中λ表示超参数,λadv、λid、λatt、λrec、λeye分别是1、80、15、20、1500;Ladv表示对抗生成模型的损失函数;Lid表示人脸身份特征损失,用于表征在特征融合人过程中产生的关于人脸的身份特征损失;Latt表示人脸属性特征损失,用于表征在特征融合人过程中产生的关于人脸的属性特征损失;Lrec表示人脸重构损失,用于增强模型对所述第一人脸的还原能力并增强对所述第二人脸属性特征的约束;Leye表示眼睛角度损失函数,用于将所述原始人脸矩阵中的眼球方向保留在所述融合人脸矩阵中。
进一步地,在所述人脸识别模型的损失函数中:
Ladv具体如下式(2)所示:
其中,E表示人脸的分布,logD(x,y)表示人脸的正向判别概率,log(1-D(x,G(x)))表示人脸的负向判别概率,G表示生成器网络,D表示鉴别器网络;
Lid具体如下式(3)所示:
Lid=1-cos(I(Xs),I(Xt))#(3)
其中I表示人脸特征的提取过程,Xs表示所述原始人脸矩阵,Xt表示所述目标人脸矩阵,Cos()表示余弦相似度;
Cos()具体如下式(4)所示:
Latt具体如下式(5)所示:
其中Di(IG)表示多尺度辨别器在第i层对所述融合人脸矩阵的特征提取,Di(IS)表示多尺度辨别器在第i层对所述原始人脸矩阵的特征提取;
Lrec具体如下式(6)所示:
其中IS表示从所述目标人脸矩阵中提取的人脸身份特征;IT表示从所述原始人脸矩阵中提取的人脸身份特征;
Leye具体如下式(7)所示:
其中Kp()表示检测得到的眼部区域热图,Xs表示所述原始人脸矩阵,Xg表示所述融合人脸矩阵。
进一步地,在所述根据仿射变换矩阵将所述融合人脸矩阵贴回所述待处理视频中步骤之前,还包括确定所述融合人脸矩阵的保留区域的步骤;
所述确定融合人脸矩阵的保留区域,具体包括以下步骤:
将所述处理面部遮罩覆盖于所述融合人脸矩阵上;
根据所述处理面部遮罩中的第二区域对所述融合人脸矩阵进行裁剪,去除所述融合人脸矩阵中属于所述处理面部遮罩中第二区域的像素值;保留所述融合人脸矩阵中属于所述处理面部遮罩中第一区域的像素值。
进一步地,所述根据仿射变换矩阵将所述融合人脸矩阵贴回所述待处理视频中,具体包括以下步骤:
将所述融合人脸矩阵以所述关键点为基础贴回所述目标视频帧中,得到换脸视频帧;
以所述换脸视频帧替换所述待处理视频中的目标视频帧,得到换脸视频。
进一步地,在所述将融合人脸矩阵以所述关键点为基础贴回所述目标视频帧中步骤之后,还包括以下步骤:
对所述换脸视频帧进行超分处理。
本发明第二方面公开一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现一种基于人脸识别模型的视频换脸方法。
本发明第三方面公开一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现一种基于人脸识别模型的视频换脸方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例具有如下有益效果:本发明所提供一种基于人脸识别模型的视频换脸方法、设备及存储介质,利用针对性训练得到的人脸识别模型和眼球约束损失函数,能够实现更加精确地更换每一帧视频的人脸;通过面部遮罩的设计对于大遮挡以及换脸后眼球僵硬问题提供了有效解决方案;同时为了提高视频换脸效率加入视频帧预处理机制,使得换脸效率显著提升。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质基本实施流程图;
图2是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中从视频中提取人脸的步骤示意图;
图3是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中生成面部遮罩的步骤示意图;
图4是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中面部遮罩效果演示的原图;
图5是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中未采用面部遮罩处理的换脸效果示意图;
图6是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中采用面部遮罩处理的换脸效果示意图;
图7是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中人脸识别模型生成器示意图;
图8是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中人脸识别模型鉴别器示意图;
图9是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中确定融合人脸矩阵保留区域的步骤示意图;
图10是本发明一种基于人脸识别模型的视频换脸方法、设备及存储介质中对换脸视频进行超分处理的步骤示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,为本发明实施例所提供一种基于人脸识别模型的视频换脸方法,包括以下步骤:
S1.获取目标图片,目标图片中记录有第一人脸。
S2.从目标图片中提取第一人脸,获取第一人脸的目标人脸矩阵;
S3.获取待处理视频,待处理视频中记录有第二人脸;
S4.从待处理视频中提取第二人脸,得到原始人脸矩阵和仿射变换矩阵;
S5.将原始人脸矩阵和目标人脸矩阵输入人脸识别模型进行人脸融合,得到融合人脸矩阵;
S6.根据仿射变换矩阵将融合人脸矩阵贴回待处理视频中,得到换脸视频。
本发明实施例中,待处理视频是指需要进行换脸的视频,第二人脸是指在待处理视频中出现的需要进行换脸操作的人脸图像;第二人脸出现在待处理视频中的某一帧或多帧,但不一定出现在待处理视频的每一帧中。目标图片是指用于进行换脸操作的人脸素材,目标图片中所记录的第一人脸为换脸的目标操作对象。在本发明的一个实施例中,第一人脸和第二人脸可以为相同的人脸。
本发明实施例中从目标图片中提取第一人脸具体通过优化的Insightface模型实现。InsightFace人脸识别模型是一种在学术和商业用途上公开授权的人脸识别神经网络,其主干网络包括ResNet,MobilefaceNet,MobileNet,InceptionResNet_v2,DenseNet,DPN等;损失函数包括Softmax,SphereFace,CosineFace,ArcFace和Triplet(Euclidean/Angular)Loss等。本发明实施例通过Insightface模型裁剪得到目标图片中的第一人脸后,将第一人脸的四周进行一定像素(本实施例为20)的缩小后再进行特征提取并生成目标人脸矩阵,以保证人脸面部身份特征提取的准确度。
步骤S4中,从待处理视频中提取第二人脸,具体包括以下步骤:
S4-1.对待处理视频进行人脸识别,获取待处理视频中含有第二人脸的视频帧;
S4-2.将含有第二人脸的视频帧作为目标视频帧从待处理视频中抽出;
S4-3.解析目标视频帧中的关键点,关键点为第二人脸边缘点的集合;
S4-4.根据关键点在目标视频帧中的分布,确定第二人脸在目标视频帧中的位置和角度,生成仿射变换矩阵;
S4-5.沿关键点从目标视频帧中裁剪第二人脸,生成原始人脸矩阵。
由于待处理视频中可能存在不包含第二人脸的视频帧和包含第二人脸的视频帧,因此为了提高换脸效率,本实施例在从待处理视频中提取第二人脸之前,首先对待处理视频进行人脸识别,将待处理视频分为有人脸视频帧和无人脸视频帧;其中,对于无人脸的视频帧直接保留原始帧,有人脸的视频帧则作为目标视频帧单独抽取。对于待处理视频的人脸识别同样采用I ns ightface模型实现;由于待处理视频中的第二人脸并不一定为正脸,因此本实施例中除了提取第二人脸的原始人脸矩阵外,还要提取第二人脸对于目标视频帧的仿射变换矩阵。仿射变换矩阵可以采用5点、68点或者128点实现人脸对齐。本实施例中关键点指第二人脸边缘点的集合,以5点仿射变换为例,对第二人脸的左眼瞳孔、右眼瞳孔、鼻尖、左嘴角和右嘴角5个关键点进行采集,根据关键点在目标视频帧中的分布,确定第二人脸在目标视频帧中的位置和角度,以便生成第二人脸的仿射变换矩阵。最后将原始人脸矩阵和仿射变换矩阵保存处理。
示例性地,待处理视频可以为电影中某一片段,该片段中存在演员A、B、C三者的人脸,其中第一人脸为未出镜的演员D人脸,第二人脸为演员C人脸;则换脸操作的目标是将电影片段中演员C的人脸替换为演员D的人脸。
在一部分实施例中,待处理视频中的第二人脸前可能存在口罩、水壶、帽子等遮挡物,这些遮挡物容易干扰人脸识别的效果,同时在换脸操作时也需要避开这些遮挡物。为此,本实施例在步骤S4-5.沿关键点从目标视频帧中裁剪第二人脸之后,还包括S4-6.生成原始人脸矩阵的面部遮罩的步骤。其中面部遮罩用于确认第二人脸在目标视频帧中的保留区域;
S4-6.生成原始人脸矩阵的面部遮罩,具体包括以下步骤:
S4-6-1.生成原始人脸矩阵的初始面部遮罩;初始面部遮罩中包含第一区域和第二区域;第一区域中包含第二人脸的脸部器官;第二区域中包含第二人脸的遮挡物;
S4-6-2.对第一区域的边缘进行腐蚀处理,得到腐蚀后的面部遮罩;
S4-6-3.对腐蚀后的面部遮罩进行高斯模糊处理,得到处理面部遮罩。
本实施例中采用基于bisenetv2模型改进的防遮挡bis_shelter模型生成原始人脸矩阵的初始面部遮罩。由于原有的bisenetv2模型无法有效的辨别面部遮挡,在换脸时经常会把遮挡物当作视频中人脸的属性特征从而导致换脸出现大量伪影或者换脸失败。故本发明实施例采用公开的Face Synthetics以及CelebA_maskHQ数据集进行重新标注,并自建大遮挡小型数据集1000张,去除掉人脸五官以外的多余标注采用11分类标注;最终训练得到改进的防遮挡bis_shelter模型。同时使用Sobel算子得到每张人像图的边缘二值图作为模型输入的第四个通道,这样做保证模型对于图像的边缘信息更加敏感。上述改进使得本发明实施例得到的防遮挡bis_shelter模型对于大遮挡视频帧的换脸效果有着显著的提升。
在步骤S4-6-1.生成原始人脸矩阵的初始面部遮罩后,由于初始面部遮罩为二值图像,即包含了第二人脸的脸部器官元素的第一区域和包含遮挡物的第二区域。脸部器官包括眼睛、鼻子、嘴巴等,其中第一区域是本发明实施例需要保留的人脸区域,第二区域则是需要舍弃的区域。为了保证第一区域在贴回原视频帧时边缘不会出现色差和异样的情况,本实施例对第一区域的边缘进行腐蚀处理,使得第一区域的前景图像模糊,得到腐蚀后的面部遮罩;其次对腐蚀后的面部遮罩进行高斯模糊处理,对第一、第二区域边界地区进行加权平均处理得到边界模糊的处理面部遮罩。高斯模糊将每个像素的值与周围像素的值进行加权平均,从而减少局部细节的影响,进而达到了减少色差和边界感的作用。
本实施例步骤S5中,将原始人脸矩阵和目标人脸矩阵进行人脸融合的人脸识别模型为基于对抗生成模型改进的人脸识别模型。
本发明实施例的生成对抗网络包括生成器和判别器,生成器从原始人脸矩阵中提取第一人脸的属性特征,从目标人脸矩阵中提取第二人脸的身份特征,并将第一人脸的身份特征注入第二人脸的属性特征中,生成混合人脸矩阵。本发明实施例采用训练好的生成对抗网络的生成器对图像或者视频进行换脸操作,使得换脸图像更好的保持原图像的人脸姿态、人脸表情等属性特征,同时目标图像中的身份特征也更好的融合到换脸图像中,增强了目标图像的身份特征的迁移能力,并且能够保持原图像的属性特征和目标图像的身份特征。
本发明实施例中人脸识别模型的总损失函数如下式(1)所示:
L=λadvLadv+λidLid+λattLatt+λrecLrec+λeyeLeye#(1)
其中λ表示超参数,λadv、λid、λatt、λrec、λeye分别是1、80、15、20、1500。Ladv表示对抗生成模型的损失函数;Lid表示人脸身份特征损失,用于表征在特征融合人过程中产生的关于人脸的身份特征损失;Latt表示人脸属性特征损失,用于表征在特征融合人过程中产生的关于人脸的属性特征损失;Lrec表示人脸重构损失,用于增强模型对第一人脸的还原能力并增强对第二人脸属性特征的约束;Leye表示眼睛角度损失函数,用于将原始人脸矩阵中的眼球方向保留在融合人脸矩阵中。
在人脸识别模型的损失函数中:
对抗生成模型的损失函数Ladv具体如下式(2)所示:
其中,E表示人脸的分布,logD(x,y)表示人脸的正向判别概率,log(1-D(x,G(x)))表示人脸的负向判别概率,G表示生成器网络,D表示鉴别器网络;对抗生成模型的损失函数主要用于计算原始人脸矩阵和目标人脸矩阵中的距离差距Ladv。
人脸身份特征损失Lid具体如下式(3)所示:
Lid=1-cos(I(Xs),I(Xt))#(3)
其中I表示人脸特征的提取过程,Xs表示原始人脸矩阵,Xt表示目标人脸矩阵,Cos()表示余弦相似度;
Cos()具体如下式(4)所示:
本实施例提取目标人脸矩阵中第二人脸的身份特征和原始人脸矩阵中第一人脸的身份特征,并计算目标人脸矩阵中第二人脸的身份特征和原始人脸矩阵中第一人脸的身份特征的距离,进而得到身份特征损失Lid。通过计算目标人脸矩阵和原始人脸矩阵的身份特征损失,可以约束目标人脸矩阵的身份特征与原始人脸矩阵的身份特征更为相似,使得融合人脸矩阵更好地保持目标人脸矩阵的身份特征。
人脸属性特征损失Latt具体如下式(5)所示:
其中Di(IG)表示多尺度辨别器在第i层对融合人脸矩阵的特征提取,Di(IS)表示多尺度辨别器在第i层对原始人脸矩阵的特征提取。本实施例中人脸属性特征包括性别、年龄等,通过设计包含性别识别层和年龄识别层的多尺度辨别器,对原始人脸矩阵进行人脸属性识别,计算相应属性特征的损失值对人脸识别模型的融合进行优化。
人脸重构损失Lrec具体如下式(6)所示:
其中Is表示从目标人脸矩阵中提取的人脸身份特征;IT表示从原始人脸矩阵中提取的人脸身份特征。本实施例中通过计算原始人脸矩阵和目标人脸矩阵中相同位置的像素点的像素值的差值,通过计算生成器的重构损失来约束调整人脸识别模型生成器的参数,增强模型对于第二人脸的还原能力以强化对于第二人脸属性特征的约束,使得生成器生成的融合人脸矩阵更好地保持原始人脸矩阵的属性特征,换脸图像更为真实自然。
眼睛角度损失Leye具体如下式(7)所示:
其中Kp()表示检测得到的眼部区域热图,Xs表示原始人脸矩阵,Xg表示融合人脸矩阵。本实施例Leye人眼损失用于有效地约束换脸后眼球方向僵硬的问题,保证在加大人脸身份特征损失权重的基础上仍然可以保留原始模板中眼球的方向。
本实施例人脸识别模型训练数据集共876,859张人像图片,其中包含839,388张VggFace2人脸数据集,37,471张亚洲人脸数据集。数据集像素大小为256*256,自建大遮挡小型数据集1000张,像素大小为256*256。本实施例中λ为超参数、λadv、λid、λatt、λrec、λeye分别设为1、80、15、20、1500。
本实施例将原始人脸矩阵和目标人脸矩阵通过人脸识别模型进行人脸融合后,根据仿射变换矩阵将融合人脸矩阵贴回待处理视频中,能够实现对于待处理视频中人脸的换脸效果。
步骤S6.根据仿射变换矩阵将融合人脸矩阵贴回待处理视频中,具体包括以下步骤:
S6-1.将融合人脸矩阵以关键点为基础贴回目标视频帧中,得到换脸视频帧;
S6-2.以换脸视频帧替换待处理视频中的目标视频帧,得到换脸视频。
将融合人脸矩阵贴回待处理视频中通常需要对图像进行旋转、缩放、平移等处理过程。本发明实施例中仿射变换矩阵中参数可以包括旋转参数、缩放参数和平移参数;其中旋转参数表示对图像进行旋转处理的参数、缩放参数表示对图像进行缩放处理的参数、平移参数表示对图像进行平移处理的参数。上述参数组合的仿射变换矩阵可以实现从一个空间向量转换到另一个空间向量的变换关系,实现了融合人脸矩阵和待处理视频的人脸对齐。
在一部分实施例中,由于换脸时需要避开人脸前的遮挡物,因此在步骤S6.根据仿射变换矩阵将融合人脸矩阵贴回待处理视频中步骤之前,还包括S6-0.确定融合人脸矩阵的保留区域的步骤;
S6-0.确定融合人脸矩阵的保留区域,具体包括以下步骤:
S6-0-1.将处理面部遮罩覆盖于融合人脸矩阵上;
S6-0-2.根据处理面部遮罩中的第二区域对融合人脸矩阵进行裁剪,去除融合人脸矩阵中属于处理面部遮罩中第二区域的像素值;保留融合人脸矩阵中属于处理面部遮罩中第一区域的像素值。
本实施例中通过保留包含了第二人脸的脸部器官等元素的第一区域的像素值、舍去包含遮挡物的第二区域的像素值,有效的避免了物品遮挡人脸导致的换脸区域异常失败问题,有效减少了大遮挡区域人脸融合后的伪影问题。
在一部分实施例中,由于对人脸矩阵进行了高斯模糊处理,人脸矩阵的分辨率较低,因此在步骤S6.将融合人脸矩阵以关键点为基础贴回目标视频帧中步骤之后,还包括以下步骤:
S7.对换脸视频帧进行超分处理。
超分处理主要用于对融合人脸矩阵进行图像重建,使得融合人脸矩阵的分辨率贴近待处理视频的分辨率。超分处理可以采用基于单帧图像的超分方法如长球函数外推法、基于解析延拓原理外推法等,也可以采用基于多帧图像的超分方法如解混叠重建算法、代数滤波反向投影法等。本实施例通过对换脸视频帧进行超分处理实现了融合人脸矩阵的纹理恢复,使得换脸后视频更为逼真。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(trans itory med ia),如调制的数据信号和载波。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.一种基于人脸识别模型的视频换脸方法,其特征在于,包括以下步骤:
获取目标图片,所述目标图片中记录有第一人脸;
从所述目标图片中提取所述第一人脸,获取所述第一人脸的目标人脸矩阵;
获取待处理视频,所述待处理视频中记录有第二人脸;
从所述待处理视频中提取所述第二人脸,得到原始人脸矩阵和仿射变换矩阵;
将所述原始人脸矩阵和所述目标人脸矩阵输入人脸识别模型进行人脸融合,得到融合人脸矩阵;
根据所述仿射变换矩阵将所述融合人脸矩阵贴回所述待处理视频中,得到换脸视频;
所述人脸识别模型的损失函数如下式(1)所示:
L=λadvLadv+λidLid+λattLatt+λrecLrec+λeyeLeye#(1)
其中λ表示超参数,λadv、λid、λatt、λrec、λeye分别是1、80、15、20、1500;Ladv表示对抗生成模型的损失函数;Lid表示人脸身份特征损失,用于表征在特征融合人过程中产生的关于人脸的身份特征损失;Latt表示人脸属性特征损失,用于表征在特征融合人过程中产生的关于人脸的属性特征损失;Lrec表示人脸重构损失,用于增强模型对所述第一人脸的还原能力并增强对所述第二人脸属性特征的约束;Leye表示眼睛角度损失函数,用于将所述原始人脸矩阵中的眼球方向保留在所述融合人脸矩阵中;
在所述人脸识别模型的损失函数中:
Ladv具体如下式(2)所示:
其中,E表示人脸的分布,logD(x,y)表示人脸的正向判别概率,log(1-D(x,G(x)))表示人脸的负向判别概率,G表示生成器网络,D表示鉴别器网络;
Lid具体如下式(3)所示:
Lid=1-cos(I(Xs),I(Xt))#(3)
其中I表示人脸特征的提取过程,Xs表示所述原始人脸矩阵,Xt表示所述目标人脸矩阵,Cos()表示余弦相似度;
Cos()具体如下式(4)所示:
Latt具体如下式(5)所示:
其中Di(IG)表示多尺度辨别器在第i层对所述融合人脸矩阵的特征提取,Di(IS)表示多尺度辨别器在第i层对所述原始人脸矩阵的特征提取;
Lrec具体如下式(6)所示:
其中IS表示从所述目标人脸矩阵中提取的人脸身份特征;IT表示从所述原始人脸矩阵中提取的人脸身份特征;
Leye具体如下式(7)所示:
其中Kp()表示检测得到的眼部区域热图,Xs表示所述原始人脸矩阵,Xg表示所述融合人脸矩阵。
2.根据权利要求1所述的一种基于人脸识别模型的视频换脸方法,其特征在于,所述从待处理视频中提取所述第二人脸,具体包括以下步骤:
对所述待处理视频进行人脸识别,获取所述待处理视频中含有第二人脸的视频帧;
将所述含有第二人脸的视频帧作为目标视频帧从所述待处理视频中抽出;
解析所述目标视频帧中的关键点,所述关键点为所述第二人脸边缘点的集合;
根据所述关键点在所述目标视频帧中的分布,确定所述第二人脸在所述目标视频帧中的位置和角度,生成仿射变换矩阵;
沿所述关键点从所述目标视频帧中裁剪所述第二人脸,生成原始人脸矩阵。
3.根据权利要求2所述的一种基于人脸识别模型的视频换脸方法,其特征在于,在所述沿关键点从所述目标视频帧中裁剪所述第二人脸步骤之后,还包括生成所述原始人脸矩阵的面部遮罩的步骤;所述面部遮罩用于确认所述第二人脸在所述目标视频帧中的保留区域;
所述生成原始人脸矩阵的面部遮罩,具体包括以下步骤:
生成所述原始人脸矩阵的初始面部遮罩;所述初始面部遮罩中包含第一区域和第二区域;所述第一区域中包含所述第二人脸的脸部器官;所述第二区域中包含所述第二人脸的遮挡物;
对所述第一区域的边缘进行腐蚀处理,得到腐蚀后的面部遮罩;
对所述腐蚀后的面部遮罩进行高斯模糊处理,得到处理面部遮罩。
4.根据权利要求3所述的一种基于人脸识别模型的视频换脸方法,其特征在于,在所述根据仿射变换矩阵将所述融合人脸矩阵贴回所述待处理视频中步骤之前,还包括确定所述融合人脸矩阵的保留区域的步骤;
所述确定融合人脸矩阵的保留区域,具体包括以下步骤:
将所述处理面部遮罩覆盖于所述融合人脸矩阵上;
根据所述处理面部遮罩中的第二区域对所述融合人脸矩阵进行裁剪,去除所述融合人脸矩阵中属于所述处理面部遮罩中第二区域的像素值;保留所述融合人脸矩阵中属于所述处理面部遮罩中第一区域的像素值。
5.根据权利要求2所述的一种基于人脸识别模型的视频换脸方法,其特征在于,所述根据仿射变换矩阵将所述融合人脸矩阵贴回所述待处理视频中,具体包括以下步骤:
将所述融合人脸矩阵以所述关键点为基础贴回所述目标视频帧中,得到换脸视频帧;
以所述换脸视频帧替换所述待处理视频中的目标视频帧,得到换脸视频。
6.根据权利要求5所述的一种基于人脸识别模型的视频换脸方法,其特征在于,在所述将融合人脸矩阵以所述关键点为基础贴回所述目标视频帧中步骤之后,还包括以下步骤:
对所述换脸视频帧进行超分处理。
7.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-6中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311161763.XA CN117196937B (zh) | 2023-09-08 | 2023-09-08 | 一种基于人脸识别模型的视频换脸方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311161763.XA CN117196937B (zh) | 2023-09-08 | 2023-09-08 | 一种基于人脸识别模型的视频换脸方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117196937A CN117196937A (zh) | 2023-12-08 |
CN117196937B true CN117196937B (zh) | 2024-05-14 |
Family
ID=88993780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311161763.XA Active CN117196937B (zh) | 2023-09-08 | 2023-09-08 | 一种基于人脸识别模型的视频换脸方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117196937B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902546A (zh) * | 2018-05-28 | 2019-06-18 | 华为技术有限公司 | 人脸识别方法、装置及计算机可读介质 |
CN111476710A (zh) * | 2020-04-13 | 2020-07-31 | 上海艾麒信息科技有限公司 | 基于移动平台的视频换脸方法及系统 |
CN111508050A (zh) * | 2020-04-16 | 2020-08-07 | 北京世纪好未来教育科技有限公司 | 图像处理方法及装置、电子设备和计算机存储介质 |
CN111783603A (zh) * | 2020-06-24 | 2020-10-16 | 有半岛(北京)信息科技有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
WO2021134546A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 提高语音识别率的输入法 |
CN113343878A (zh) * | 2021-06-18 | 2021-09-03 | 北京邮电大学 | 基于生成对抗网络的高保真人脸隐私保护方法和系统 |
CN113361320A (zh) * | 2021-04-07 | 2021-09-07 | 汇纳科技股份有限公司 | 基于稠密人脸关键点的视频换脸方法、系统、介质及设备 |
CN113486944A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 人脸融合方法、装置、设备及存储介质 |
CN113486785A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 基于深度学习的视频换脸方法、装置、设备及存储介质 |
CN114007099A (zh) * | 2021-11-04 | 2022-02-01 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和用于视频处理的装置 |
CN114495190A (zh) * | 2021-08-03 | 2022-05-13 | 马上消费金融股份有限公司 | 换脸网络模型的训练方法、图像换脸方法及相关设备 |
CN114898269A (zh) * | 2022-05-20 | 2022-08-12 | 公安部第三研究所 | 基于眼部特征和人脸特点实现深度伪造融合检测的系统、方法、装置、处理器及其存储介质 |
CN115565238A (zh) * | 2022-11-22 | 2023-01-03 | 腾讯科技(深圳)有限公司 | 换脸模型的训练方法、装置、设备、存储介质和程序产品 |
CN115937931A (zh) * | 2022-11-08 | 2023-04-07 | 北京中科睿鉴科技有限公司 | 人脸姿态判断方法及换脸方法 |
-
2023
- 2023-09-08 CN CN202311161763.XA patent/CN117196937B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902546A (zh) * | 2018-05-28 | 2019-06-18 | 华为技术有限公司 | 人脸识别方法、装置及计算机可读介质 |
WO2021134546A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 提高语音识别率的输入法 |
CN111476710A (zh) * | 2020-04-13 | 2020-07-31 | 上海艾麒信息科技有限公司 | 基于移动平台的视频换脸方法及系统 |
CN111508050A (zh) * | 2020-04-16 | 2020-08-07 | 北京世纪好未来教育科技有限公司 | 图像处理方法及装置、电子设备和计算机存储介质 |
CN111783603A (zh) * | 2020-06-24 | 2020-10-16 | 有半岛(北京)信息科技有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
CN113361320A (zh) * | 2021-04-07 | 2021-09-07 | 汇纳科技股份有限公司 | 基于稠密人脸关键点的视频换脸方法、系统、介质及设备 |
CN113343878A (zh) * | 2021-06-18 | 2021-09-03 | 北京邮电大学 | 基于生成对抗网络的高保真人脸隐私保护方法和系统 |
CN113486944A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 人脸融合方法、装置、设备及存储介质 |
CN113486785A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 基于深度学习的视频换脸方法、装置、设备及存储介质 |
CN114495190A (zh) * | 2021-08-03 | 2022-05-13 | 马上消费金融股份有限公司 | 换脸网络模型的训练方法、图像换脸方法及相关设备 |
CN114007099A (zh) * | 2021-11-04 | 2022-02-01 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和用于视频处理的装置 |
CN114898269A (zh) * | 2022-05-20 | 2022-08-12 | 公安部第三研究所 | 基于眼部特征和人脸特点实现深度伪造融合检测的系统、方法、装置、处理器及其存储介质 |
CN115937931A (zh) * | 2022-11-08 | 2023-04-07 | 北京中科睿鉴科技有限公司 | 人脸姿态判断方法及换脸方法 |
CN115565238A (zh) * | 2022-11-22 | 2023-01-03 | 腾讯科技(深圳)有限公司 | 换脸模型的训练方法、装置、设备、存储介质和程序产品 |
Non-Patent Citations (1)
Title |
---|
定制化动作的人脸视频合成系统;苏嘉洋;中国优秀硕士学位论文全文数据库信息科技辑;20220115(第01期);I138-2118 * |
Also Published As
Publication number | Publication date |
---|---|
CN117196937A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Editing text in the wild | |
Shen et al. | Human-aware motion deblurring | |
Rössler et al. | Faceforensics: A large-scale video dataset for forgery detection in human faces | |
Mahfoudi et al. | Defacto: Image and face manipulation dataset | |
Dolhansky et al. | Eye in-painting with exemplar generative adversarial networks | |
Zhang et al. | Ensnet: Ensconce text in the wild | |
Ren et al. | Face video deblurring using 3D facial priors | |
Kim et al. | Recurrent temporal aggregation framework for deep video inpainting | |
CN111681198A (zh) | 一种形态学属性滤波多模融合成像方法、系统及介质 | |
CN114936605A (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN111951154B (zh) | 包含背景和介质的图片的生成方法及装置 | |
Shao et al. | Generative image inpainting via edge structure and color aware fusion | |
Le et al. | Object removal from complex videos using a few annotations | |
Metzger et al. | Guided depth super-resolution by deep anisotropic diffusion | |
CN113486944A (zh) | 人脸融合方法、装置、设备及存储介质 | |
CN114549557A (zh) | 一种人像分割网络训练方法、装置、设备及介质 | |
CN115270184A (zh) | 视频脱敏、车辆的视频脱敏方法、车载处理系统 | |
Jam et al. | Symmetric skip connection Wasserstein GAN for high-resolution facial image inpainting | |
CN113989709A (zh) | 目标检测方法及装置、存储介质、电子设备 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN117196937B (zh) | 一种基于人脸识别模型的视频换脸方法、设备及存储介质 | |
Wang et al. | RT-Deblur: Real-time image deblurring for object detection | |
Zhang et al. | Symmetry-aware face completion with generative adversarial networks | |
Garg et al. | Original Research Article A shadow preservation framework for effective content-aware image retargeting process | |
Chen et al. | A deep motion deblurring network using channel adaptive residual module |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |