CN112330526A - 一种人脸转换模型的训练方法、存储介质及终端设备 - Google Patents
一种人脸转换模型的训练方法、存储介质及终端设备 Download PDFInfo
- Publication number
- CN112330526A CN112330526A CN201910720823.4A CN201910720823A CN112330526A CN 112330526 A CN112330526 A CN 112330526A CN 201910720823 A CN201910720823 A CN 201910720823A CN 112330526 A CN112330526 A CN 112330526A
- Authority
- CN
- China
- Prior art keywords
- face
- face image
- converted
- image
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 143
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000001815 facial effect Effects 0.000 claims description 28
- 238000004891 communication Methods 0.000 claims description 10
- 230000008921 facial expression Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 3
- 241000282414 Homo sapiens Species 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 15
- 230000014509 gene expression Effects 0.000 abstract description 11
- 238000012546 transfer Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 21
- 238000001514 detection method Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 241000220317 Rosa Species 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000001747 pupil Anatomy 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000010978 jasper Substances 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种人脸转换模型的训练方法、存储介质及终端设备,所述方法包括:采用待转换人脸图像、目标人脸图像以及待转换人脸图像的第一人脸状态作为训练样本数据,通过预设生成对抗网络输出转换人脸图像以及转换人脸图像对应的真实率,再提取转换人脸图像的第二人脸状态,根据目标人脸图像和待转换人脸图像、第一人脸状态和第二人脸状态、及真实率对预设生成对抗网络进行训练,得到已训练的人脸转换模型。这样在对抗生成网络训练过程中加入第一人脸状态和第二人脸状态,使得所述对抗生成网络可以将待转换人脸图像的人脸状态迁移至目标人脸图像上,使得人脸转换模型无需针对不同表情朝向进行一一对应,从而提高了人脸转换模型的训练速度。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种人脸转换模型的训练方 法、存储介质及终端设备。
背景技术
人脸转换技术为将图片或者视频中的人脸图像转换为目标人脸图像,例 如,将泰坦尼克号中rose以及jack的人脸图像换成小明和小红的人脸图像 等,再如如果一部影片中的女主角为用户不喜欢,用户也可以换成自己喜欢 的女星的人脸图像以提高用户观影乐趣。
人脸转换技术涉及到人脸检测、生成虚拟人脸、人脸状态的迁移三个关 键技术,即在人脸转换过程中需要检测图片或者视频中的人脸图像,并根据 检测得到的人脸图像生成目标人脸图像,并将人脸图像的表情和朝向转移至 目标人脸图像上。而目前现有的人脸转换技术常见的方法是基于cycle gan 算法的人脸转换技术,其在训练人脸转换模型时,需要转换人脸换脸和目标 人脸图像一一对应,并且在训练过程中需要将同一种表情,同一种朝向的人 脸图像进行一一对应,这不但增加了人脸转换模型的训练难度,而且当需要 增加新人脸图像的转换时,需要重复上述对应的工作。
发明内容
本发明所要解决的技术问题是,提供一种人脸转换模型的训练方法、存 储介质及终端设备。
为了解决上述技术问题,本发明所采用的技术方案为:
一种人脸转换模型的训练方法,所述方法包括:
获取训练样本数据,所述训练样本数据包括待转换人脸图像集和目标人 脸图像集,所述待转换人脸图像集包括待转换人脸图像以及待转换人脸图像 对应的第一人脸状态,所述目标人脸图像集包括待转换人脸图像集中每一张 待转换人脸图像对应的目标人脸图像,其中,第一人脸状态包括待转换人脸 图像中的人脸朝向和/或人脸表情;
将所述训练样本数据输入预设生成对抗网络,通过所述预设生成对抗网 络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像对应 的真实率,其中,所述转换人脸图像的人脸样貌与所述目标人脸图像的人脸 样貌对应,所述转换人脸图像的第二人脸状态与所述待转换人脸图像的第一 人脸状态对应;
识别所述转换人脸图像的第二人脸状态;
根据所述第一人脸状态和所述第二人脸状态,以及所述真实率对所述预 设生成对抗网络进行修正,得到已训练的人脸转换模型。
所述人脸转换模型的训练方法,其中,所述预设生成对抗网络包括生成 器和判别器;所述将所述训练样本数据输入预设生成对抗网络,通过所述预 设生成对抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换 人脸图像对应的真实率,具体包括:
将所述待转换人脸图像、所述第一人脸状态以及目标人脸图像输入所述 生成器,通过所述生成器生成所述待转换人脸图像对应的转换人脸图像;
将所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像输入所 述判别器,通过所述判别器输出所述转换人脸图像与目标人脸图像的真实率。
所述人脸转换模型的训练方法,其中,根据所述第一人脸状态和所述第 二人脸状态,以及所述真实率对所述预设生成对抗网络进行修正,得到已训 练的人脸转换模型,具体包括:
固定所述生成器,根据所述转换人脸图像以及所述转换人脸图像对应的 目标人脸图像对所述判别器进行训练;
固定所述判别器,根据所述真实率以及所述第一人脸状态和所述第二人 脸状态对所述生成器进行训练;
继续执行固定所述生成器的步骤直至所述预设生成对抗网络满足预设条 件,以得到已训练的人脸转换模型。
所述人脸转换模型的训练方法,其中,所述固定所述生成器,根据所述 转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行 训练,具体包括:
固定所述生成器,根据所述转换人脸图像以及所述转换人脸图像对应的 目标人脸图像计算第一损失值;
根据所述第一损失值对所述判别器的网络参数进行修正,以对修正后的 所述判别器进行训练。
所述人脸转换模型的训练方法,其中,所述固定所述判别器,根据所述 真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练具 体包括:
根据所述真实率计算第二损失值,并根据所述第一人脸状态和所述第二 人脸状态进行第三损失值;
根据所述第二损失值和第三损失值计算第四损失值,并根据所述第四损 失值对所述生成器的网络参数进行修正,以对修正后的所述生成器进行训练。
所述人脸转换模型的训练方法,其中,所述识别所述转换人脸图像的第 二人脸状态具体包括:
将所述转换人脸图像输入已训练的人脸识别模型,以得到转换人脸图像 的第一特征坐标点集,其中,所述人脸识别模型为基于人脸图像训练样本集 训练得到的,所述人脸图像训练样本集包括多组人脸图像训练样本,各组人 脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标点 集;
根据所述第一特征坐标点集确定所述转换人脸图像的第二人脸状态。
所述人脸转换模型的训练方法,其中,,所述获取训练样本数据具体包括:
获取待转换人脸图像以及所述待转换人脸图像对应的目标人脸图像;
将所述待转换人脸图像输入已训练的人脸识别模型,以得到所述待转换 人脸图像对应的第二特征坐标点集,其中,所述人脸识别模型为基于人脸图 像训练样本集训练得到的,所述人脸图像训练样本集包括多组人脸图像训练 样本,各组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸 特征坐标点集;
根据所述第二特征坐标点集确定所述待转换人脸图像的第一人脸状态;
根据所述待转换人脸图像以及所述待转换人脸图像对应的第一人脸状态 生成待转换人脸图像集,并根据所述目标人脸图像生成目标人脸图像集。
一种人脸图像转换方法,应用如上任意一项所述的人脸转换模型的训练 方法得到的已训练的人脸转换模型,所述人脸图像转换方法包括:
获取待转换人脸图像以及目标人脸图像,并将所述待转换人脸图像以及 所述目标人脸图像输入所述已训练的人脸转换模型;
获取所述已训练的人脸转换模型所输出的转换人脸图像,以得到所述待 转换人脸图像对应的转换人脸图像;其中,所述待转换人脸图像对应的第一 人脸状态与所述转换人脸图像的第二人脸状态数据对应,所述转换人脸图像 的人脸样貌与所述目标人脸图像的人脸样貌对应。
所述人脸图像转换方法,其中,所述已训练的人脸转换模型包括生成器, 所述获取待转换人脸图像以及目标人脸图像,并将所述待转换人脸图像以及 目标人脸图像输入所述已训练的人脸转换模型具体包括:
获取待转换人脸图像以及目标人脸图像,并将所述待转换人脸图像以及 目标人脸图像输入生成器;
获取所述生成器输出的转换人脸图像,以得所述待转换人脸图像对应的 转换人脸图像。
所述人脸图像转换方法,其中,所述获取待转换人脸图像具体为:
获取具有人脸图像的待处理图像;
提取所述待处理图像中的人脸图像,并将提取到的所述人脸图像作为待 转换人脸图像。
所述人脸图像转换方法,其中,所述待处理图像为具有人脸图像的视频 帧或携带人脸图像的图片。
所述人脸图像转换方法,其中,所述获取所述已训练的人脸转换模型所 输出的转换人脸图像,以得到所述待转换人脸图像对应的转换人脸图像之后 还包括:
将所述转换人脸图像替换所述待处理图像中的所述待转换人脸图像,以 得到携带所述转换人脸图像的待处理图像。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多 个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上 任一所述人脸转换模型的训练方法或者如上任一所述的人脸图像转换方法中 的步骤。
一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储 有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述人脸转换模型 的训练方法或者如上任一所述的人脸转换模型的训练方法中的步骤。
与现有技术相比,本发明实施例具有以下优点:
根据本发明实施方式提供人脸转换模型的训练方法,采用待转换人脸图 像、目标人脸图像以及待转换人脸图像的第一人脸状态作为训练样本数据, 通过预设生成对抗网络输出转换人脸图像以及转换人脸图像对应的真实率, 再提取转换人脸图像的第二人脸状态,根据所述目标人脸图像和待转换人脸 图像、第一人脸状态和第二人脸状态、以及真实率对预设生成对抗网络进行 训练,以得到已训练的人脸转换模型。可见,本发明实施例中,在对抗生成 网络训练过程中加入待转换人脸图像的第一人脸状态和转换人脸图像的第二 人脸状态,使得所述对抗生成网络可以将待转换人脸图像的人脸状态迁移至 目标人脸图像上,使得人脸转换模型无需针对不同表情朝向进行一一对应, 从而提高了人脸转换模型的训练速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要支持的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员 来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一个示例性应用场景的框架示意图;
图2为本发明实施例中一种人脸转换模型的训练方法的流程示意图;
图3为本发明实施例中一种人脸转换模型的训练方法中流程框图;
图4为本发明实施例中一种人脸转换模型的训练方法中预设人脸识别模 型的训练过程的流程示意图;
图5为本发明实施例中一种人脸转换模型的训练方法中步骤S20的流程 示意图;
图6为本发明实施例中一种人脸转换模型的训练方法中人脸图像的特征 点的示意图;
图7为本发明实施例中一种人脸图像转换方法的流程示意图;
图8为本发明实施例中一种终端设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的 所有其他实施例,都属于本发明保护的范围。
发明人经过研究发现,人脸转换技术涉及到人脸检测、生成虚拟人脸、 人脸状态的迁移三个关键技术,即在人脸转换过程中需要检测图片或者视频 中的待转换人脸图像,再获取期望转换得到的目标人脸图像,最后将待转换 人脸图像映射至目标人脸图像上,并将待转换人脸图像的人脸状态迁移至目 标人脸图像上。而目前现有的人脸转换技术常见的方法是基于cycle gan算 法的人脸转换技术,其在训练人脸转换模型时,需要转换人脸换脸和目标人 脸图像一一对应,并且在训练过程中需要将同一种表情,同一种朝向的人脸图像进行一一对应,这不但增加了人脸转换模型的训练难度,而且当需要增 加新人脸图像的转换时,需要重复上述对应的工作。
为了解决上述问题,在本发明实施例中,采用待转换人脸图像、目标人 脸图像以及待转换人脸图像的第一人脸状态作为训练样本数据,通过预设生 成对抗网络输出转换人脸图像以及转换人脸图像对应的真实率,再提取转换 人脸图像的第二人脸状态,根据所述目标人脸图像和待转换人脸图像、第一 人脸状态和第二人脸状态、以及真实率对预设生成对抗网络进行训练,以得 到已训练的人脸转换模型。可见,本发明实施例中,在对抗生成网络训练过 程中加入待转换人脸图像的第一人脸状态和转换人脸图像的第二人脸状态,使得所述对抗生成网络可以将待转换人脸图像的人脸状态迁移至目标人脸图 像上,使得人脸转换模型无需针对不同表情朝向进行一一对应,从而提高了 人脸转换模型的训练速度。
举例说明,本发明实施例可以应用到如图1所示的场景。在该场景中, 首先,用户101可以采集训练数据样本,并将所述训练数据样本输入终端设 备,以使得终端设备102依据所述训练数据样本对预设生成对抗网络。终端 设备102可以预先存储有预设生成对抗网络,并响应用户101的输入的训练 数据样本,将所述训练样本作为输入项输入预设生成对抗网络,然后,通过 预设人脸识别模型获取对抗生成网络输出的转换人脸图像的第二人脸状态; 根据所述转换人脸图像和待转换人脸图像,所述第一人脸状态和所述第二人 脸状态,以及真实率对所述预设生成对抗网络进行修正,以得到所述人脸转 换模型。
需要注意的是,上述应用场景仅是为了便于理解本发明而示出,本发明 的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适 用的任何场景。
下面结合附图,详细说明本发明的各种非限制性实施方式。
本实施例提供了一种人脸转换模型的训练方法,如图2和3所示,所述 方法例如可以包括以下步骤:
S10、获取训练样本数据,所述训练样本数据包括待转换人脸图像集和目 标人脸图像集,所述待转换人脸图像集包括待转换人脸图像以及待转换人脸 图像对应的第一人脸状态,所述目标人脸图像集包括待转换人脸图像集中每 一张待转换人脸图像对应的目标人脸图像,其中,第一人脸状态包括待转换 人脸图像中的人脸朝向和/或人脸表情。
具体地,所述训练样本数据为对预设生成对抗网络进行训练所需的人脸 图像,所述训练样本数据包括待转换人脸图像集和目标人脸图像集。所述待 转换人脸图像集包括待转换人脸图像以及待转换人脸图像对应的第一人脸状 态,所述目标人脸图像集中的目标人脸图像与待转换人脸图像集中的一张待 转换人脸图像对应。这里将待转换人脸图像期望转换到的人脸图像记为转换 人脸图像,所述转换人脸图像的人脸样貌与目标人脸图像的人脸样貌相对应, 所述转换人脸图像的第二人脸状态与待转换人脸图像的第一人脸状态相对 应。
进一步所述人脸状态至少包含人脸朝向和人脸表情中的一种,其中,所 述人脸朝向可以包括正前方向、左前方等。所述人脸表情可以包括笑,哭等。 在本实施例中,所述人脸状态包括人脸朝向和人脸表情。相应的,所述第一 人脸状态指的是待转换人脸图像的人脸状态,例如第一人脸状态可以包括待 转换人脸图像的人脸朝向和/或人脸表情,所述第二人脸状态指的是转换人脸 图像的人脸状态,例如第二人脸状态可以包括转换人脸图像的人脸朝向和人 脸表情。
举例说明:所述待转换人脸图像为A的人脸图像,其对应的目标人脸图 像为B的人脸图像,所述A的人脸图像期望得到的转换人脸图像的人脸样貌 为B的人脸样貌,转换人脸图像的人脸状态为A的人脸状态。
进一步,在本实施例的一个实现方式中,所述获取训练样本数据具体包 括以下步骤:
S11、获取待转换人脸图像以及所述待转换人脸图像对应的目标人脸图 像;
S12、将所述待转换人脸图像输入已训练的人脸识别模型,以得到所述待 转换人脸图像对应的第二特征坐标点集,其中,所述人脸识别模型为基于人 脸图像训练样本集训练得到的,所述人脸图像训练样本集包括多组人脸图像 训练样本,各组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的 人脸特征坐标点集;
S13、根据所述第二特征坐标点集确定所述待转换人脸图像的第一人脸状 态;
S14、根据所述待转换人脸图像以及所述待转换人脸图像对应的第一人脸 状态生成待转换人脸图像集,并根据所述目标人脸图像生成目标人脸图像集。
具体地,所述已训练的人脸识别模型为用于识别人脸特征点的网络模型, 通过所述人脸识别模型可以识别人脸图像中人脸特征点集合。所述人脸识别 模型是基于人脸图像训练样本集训练得到,所述人脸图像训练样本集中的每 一人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标 点集。在本实施例中,所述人脸识别模型为MTCNN神经网络,所述人脸图像训 练样本集为人脸数据集。所述人脸数据集优选为300W数据集,所述300W数据 集包含300张室内图像和300张室外图像,并且300W数据集中各图像的表情、 光照条件、姿态、遮挡以及脸部大小均不同,并且各人脸图像均标注了人脸 的68个关键点,这样将人脸图像输入到已训练的人脸识别模型可以识别到人 脸的68个关键点。当然,在本实施例的其他实现方式中,所述人脸数据集还 可以为哥伦比亚大学公开人物脸部数据库等,所述各人脸图像上可以标注其 他数量的关键点,例如,5个关键点等。
进一步,所述MTCNN神经网络包括P-Net(Proposal Network)层、O-Net (OutputNetwork)层和R-Net层,P-Net层用于对图像金字塔特征提取与标 定边框,O-Net层用户识别面部的区域,R-Net层用于会滤除面部特征少的候 选框。如图4所示,所述已训练人脸识别模型使用过程具体可以为:首先将 输入的图片分解成大小不同的若干图片,以形成一个图片金字塔,然后将图片 金字塔中的各图片依次送入P-Net输出人脸框,O-Net识别面部的区域,并根 据识别到的面部区域对P-Net输出的人脸框进行位置的调整,R-Net获取O-Net输出的各人脸框识别到的面部特征,并各人脸框包含的面部特征对人脸进行 调整,以输出人脸特征点的坐标,例如,左右眼瞳孔,左右眼嘴角以及鼻尖。
此外,在预设人脸识别模型检测到待转换人脸图像和转换人脸图像的特 征点坐标后,可以分别将待转换人脸图像和转换人脸图像的特征点坐标进行 归一化处理,在所述归一化处理过程中,对于每个特征点坐标的横坐标处于 人脸检测框的宽度范围内,对于每个特征点坐标的纵坐标处于人脸检测框的 高度范围内,其中,所述人脸检测框宽和高优选为128。这里特征点P(x,y), x表示特征点的横坐标,y表示特征点的纵坐标,所述横坐标x的归一化公式和 纵坐标y的归一化公式可以分为:
x1=x/w
y1=y/h
其中,w为人脸检测框的宽,h为人脸检测框的高,x1为归一化后的横坐 标,y1为归一化后的纵坐标。
S20、将所述训练样本数据输入预设生成对抗网络,通过所述预设生成对 抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像 对应的真实率,其中,所述转换人脸图像的人脸样貌与所述目标人脸图像的 人脸样貌对应,所述转换人脸图像的第二人脸状态与所述待转换人脸图像的 第一人脸状态对应。
具体地,所述预设生成对抗网络为预先建立的用于人脸转换的生成对抗 网络,通过所述训练样本数据对所述预设生成对抗网络进行训练,可以得到 用于人脸交换的人脸交换模型。在本实施例中,所述预设生成对抗网络采用Generative Adversarial Nets网络(GAN网络),其具体可以包括生成器和 判别器,所述生成器用于根据人脸图像生成转换人脸图像,所述判别器用于 判别转换人脸图像与目标人脸图像的真实率。相应的,如图5所示,所述预 设生成对抗网络包括生成器和判别器;所述将所述训练样本数据输入预设生成对抗网络,通过所述预设生成对抗网络获取待转换人脸图像分别对应的转 换人脸图像以及所述转换人脸图像对应的真实率,具体包括以下步骤:
S21、将所述待转换人脸图像、所述第一人脸状态以及目标人脸图像输入 所述生成器,通过所述生成器生成所述待转换人脸图像对应的转换人脸图像;
S22、将所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像输 入所述判别器,通过所述判别器输出所述转换人脸图像与目标人脸图像的真 实率。
具体地,所述生成器为全卷积模型,所述全卷积模型包括输入层、六层 卷积层以及输出层,所述输入层的输入项为待转换人脸图像、目标人脸图像 以及第一人脸状态,所述输出层输出转换人脸图像。在本实施例中,生成器 的网络结构可以如表1所示,所述输入层记为Input网络层,六层卷积层按照 卷积层的排布顺序依次记为C7s1_32网络层、D64网络层、D128网络层、 Res_block网络层、U64网络层以及U32网络层,所述输出层记为C7s1_3网络 层。所述输入层的输出项为所述C7s1_32网络层的输入项,所述C7s1_32网络 层的输出项为所述D64网络层的输入项,所述D64网络层的输出项为所述D128 网络层的输入项,所述D128网络层的输出项为Res_block网络层的输入项,所 述Res_block网络层的输出项为U64网络层的输入项,所述U64网络层的输出 项为U32网络层的输入项,所述U32网络层的输出项为C7s1_32网络层的输入 项,所述C7s1_32网络层输出生成器生成的转换人脸图像。
表1生成器的网络结构
进一步,如表1所示,所述Input层的输入项为128*128*3的待转换人脸 图像,所述待转换人脸图像依次通过各卷积层后通C7s1_3层输出转换人脸图 像。此外,在所述特性中的conv:卷积层,Deconv:反卷积层,K:卷积核的大小, S:步幅Stride的大小,P:填充像素padding的大小,O:输出通道数。所述生 成器的网络结构中的Input层未配置有激活层,最后C7s1_3层的激活函数采用 tanh作为激活函数,而除了Input层和C7s1_3层外均采用Relu作为激活函数, 通过ReLU作为激活函数,可以提高C7s1_32网络层、D64网络层、D128网络层、 Res_block网络层、U64网络层以及U32网络层的梯度传递效率,并且经过多 次的反向传播,梯度幅度变化小,提高了训练的生成器的准确性。
进一步,在本实施例的一个实现方式中,所述Res_block残差层的网络结 构可以如表2所示。
表2 Res_block残差层的网络结构
网络层名字 | 输入大小(H*W*C) | 输出大小(H*W*C) | 特性 |
Res_input | 32*32*128 | 32*32*128 | |
Res_conv1 | 32*32*128 | 32*32*128 | Conv;K:3,S:1,P:1,O:128 |
Res_conv2 | 32*32*128 | 32*32*128 | Conv;K:3,S:1,P:1,O:128 |
Res_elewise_add | 32*32*128 | 32*32*128 | 逐元素相加 |
其中,所述Res_block残差层采用了4层Res_block残差模块,所述4层 Res_block残差模块中的最后一层残差模块将Res_input和Res_conv2的输出 逐元素相加,并且每个Res_block残差模块后均加入batch normization和relu 层。所述Res_block残差层通过入batch normization可以提高训练加速并防 止过拟合,并通过加入所述relu层来进入非线性运算,加强网络表示性,防 止梯度消失并且梯度计算方便。此外,所述表格2中的特性中的各符号的意 思与表格1中的特性中的各符号的意思相同,这里就不在赘述。
进一步,所述判别器采用交叉熵损失函数进行训练,并且所述判别器的 网络结构可以如表3所示,所述网格结构中除了Last_conv卷积层之外其余的 卷积层均采用relu激活函数,通过ReLU作为激活函数,可以提高除Last_conv 卷积层之外其余的卷积层梯度传递效率,并且经过多次的反向传播,梯度幅 度变化小,提高了训练的生成器的准确性,而Last_conv卷积层采用sigmoid 激活函数,可以通过sigmoid激活函数来抑制转换人脸图像与目标人脸图像的 真实率的误差。所述网络结构中的各卷积层依次设置,并且前一卷积层的输 出项为后一卷积层的输入项。
表3判别器的网络结构
网络层名字 | 输入大小(H*W*C) | 输出大小(H*W*C) | 特性 |
Input | 128*128*3 | 128*128*3 | 值范围[-1,1] |
C64 | 128*128*3 | 64*64*64 | Conv;K:3,S:2,P:1,O:64 |
C128 | 64*64*64 | 32*32*128 | Conv;K:3,S:2,P:1,O:128 |
C256 | 32*32*128 | 16*16*256 | Conv;K:3,S:2,P:1,O:256 |
C512 | 16*16*256 | 8*8*512 | Conv;K:3,S:2,P:1,O:512 |
Last_conv | 8*8*512 | 8*8*1 | Conv;K:3,S:1,P:1,O:1 |
Pool | 8*8*1 | 1*1*1 | AvePool;K:8,S:1,P:0,O:1 |
S30、识别所述转换人脸图像的第二人脸状态。
具体地,所述第二人脸状态为转换得到的转换人脸图像的人脸状态,所 述人脸状态与所述待转换人脸图像的第一人脸状态相对应。所述第二人脸状 态可以运用基于边缘检测Canny算子的随机Hough变化定位到的瞳孔、鼻子 以及嘴部的坐标来确定,也可以是通过人脸识别模型识别得到。在本实施例 的一种实现方式中,当所述第二人脸状态通过人脸识别模型识别得到时,相 应的,所述识别所述转换人脸图像的第二人脸状态,具体包括以下步骤:
S31、将所述转换人脸图像输入已训练的人脸识别模型,以得到转换人脸 图像的第一特征坐标点集,其中,所述人脸识别模型为基于人脸图像训练样 本集训练得到的,所述人脸图像训练样本集包括多组人脸图像训练样本,各 组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标 点集;
S32、根据所述第一特征坐标点集确定所述转换人脸图像的第二人脸状 态。
具体地,所述已训练的人脸识别模型为基于MTCNN神经网络训练得到,所 述预设人脸识别模型的训练样本为人脸数据集。所述人脸数据集优选为300W 数据集,所述300W数据集包含300张室内图像和300张室外图像,并且300W 数据集中各图像的表情、光照条件、姿态、遮挡以及脸部大小均不同,并且 各人脸图像均标注了人脸的68个关键点,这样将人脸图像输入到已训练的人 脸识别模型可以识别到人脸的68个关键点。当然,在本实施例的其他实现方 式中,所述人脸数据集还可以为哥伦比亚大学公开人物脸部数据库等,所述各人脸图像上可以标注其他数量的关键点,例如,5个关键点等。
在本实施例中,所述MTCNN神经网络包括P-Net(Proposal Network)层、 O-Net(Output Network)层和R-Net层,P-Net层用于对图像金字塔特征提取 与标定边框,O-Net层用户识别面部的区域,R-Net层用于会滤除面部特征少 的候选框。如图6所示,所述已训练人脸识别模型使用过程具体可以为:首 先将输入的图片分解成大小不同的若干图片,以形成一个图片金字塔,然后将 图片金字塔中的各图片依次送入P-Net输出人脸框,O-Net识别面部的区域, 并根据识别到的面部区域对P-Net输出的人脸框进行位置的调整,R-Net获取 O-Net输出的各人脸框识别到的面部特征,并各人脸框包含的面部特征对人脸 进行调整,以输出人脸特征点的坐标,例如,左右眼瞳孔,左右眼嘴角以及 鼻尖。此外,在预设人脸识别模型检测到待转换人脸图像和转换人脸图像的 特征点坐标后,可以分别将待转换人脸图像和转换人脸图像的特征点坐标进 行归一化处理,在所述归一化处理过程中,对于每个特征点坐标的横坐标处 于人脸检测框的宽度范围内,对于每个特征点坐标的纵坐标处于人脸检测框 的高度范围内,其中,所述人脸检测框宽和高优选为128。这里特征点P(x,y),x表示特征点的横坐标,y表示特征点的纵坐标,所述横坐标x的归一化公 式和纵坐标y的归一化公式可以分为:
x1=x/w
y1=y/h
其中,w为人脸检测框的宽,h为人脸检测框的高,x1为归一化后的横坐 标,y1为归一化后的纵坐标。
进一步,所述第一特征坐标点集和第二特征坐标点集包含的坐标点数量 相同且一一对应。例如,所述第一特征坐标点集记为(A1,A2,...,Ai,..., AN),第二特征坐标点集记为(B1,B2,...,Bi,...,BN),那么所述A1和 B1相对应,Ai和Bi相对应,AN和BN相对应。此外在本实施例中,所述已训练 的人脸识别模型用于识别人脸的68个关键点,如图6所示,所述68个关键 点分别分布在眼睛、鼻子、嘴部以及面部轮廓,通过所述68个关键点可以确 定人脸图像的人脸朝向和表情。相应的,所述第一特征坐标点集和第二特征 坐标点集均包括68个坐标点,并且每个坐标点表示一个人脸关键点的位置。 这样根据所述第一特征坐标点集可以确定转换人脸图像中眼睛、鼻子、嘴部 以及面部轮廓的位置,根据转换人脸图像中眼睛、鼻子、嘴部以及面部轮廓 的位置可以确定转换人脸图像的人脸状态;根据第二特征坐标点集可以确定 待转换人脸图像中眼睛、鼻子、嘴部以及面部轮廓的位置,根据待转换人脸 图像中眼睛、鼻子、嘴部以及面部轮廓的位置可以确定待转换人脸图像的人 脸状态。
S40、根据所述第一人脸状态和所述第二人脸状态,以及所述真实率对所 述预设生成对抗网络进行修正,得到已训练的人脸转换模型。
具体地,所述对所述预设生成对抗网络进行修正指的是对所述预设生成 对抗网络的网络参数进行修正,直至所述网络参数满足预设条件。所述预设 条件包括损失函数值满足预设要求或者训练次数达到预设次数。所述预设要 求可以是根据人脸转换模型精度来确定,这里不做详细说明,所述预设次数 可以为预设神经网络的最大训练次数,例如,4000次等。
进一步,所述对抗生成网络包括生成器和判别器,所述生成器用于生成 转换人脸图像,所述转换人脸图像用于输出转换人脸图像,并期望转换人脸 图像骗过所述判别器,所述判别器用于判断转换人脸图像的真假所述生成器 与所述判别器为对抗关系,而为了保证生成对抗网络中生成器和判别器的平 衡性,在对预设生成对抗网络进行训练时,可以采用对生成器和判别器交替 训练的方式。相应的,所述根据所述第一人脸状态和所述第二人脸状态,以 及所述真实率对所述预设生成对抗网络进行修正,得到已训练的人脸转换模型,具体包括以下步骤:
S41、固定所述生成器,根据所述转换人脸图像以及所述转换人脸图像对 应的目标人脸图像对所述判别器进行训练;
S42、固定所述判别器,根据所述真实率以及所述第一人脸状态和所述第 二人脸状态对所述生成器进行训练;
S43、继续执行固定所述生成器的步骤直至所述预设生成对抗网络满足预 设条件,以得到已训练的人脸转换模型
具体地,所述固定所述生成器指的是固定所述生成器的网络参数,所述 固定所述判别器指的是固定所述判别器的网络参数。在对所述判别器进行训 练时,保持所述生成器的网络参数不变,而在对所述生成器进行训练时,保 证所述判别器的网络参数不变,并交替对所述生成器和判别器进行训练。
进一步,在本实施例的一个实现方式中,所述生成器和判别器的交替训 练可以在一次训练中完成,所述交替训练的过程可以为:首先,将待转换人 脸图像、目标人脸图像以及第一人脸状态输入生成器,并且读取生成器输出 的转换人脸图像;其次,固定所述生成器,根据所述转换人脸图像以及所述 转换人脸图像对应的目标人脸图像对所述判别器进行训练,并通过训练后的 判别器输出转换人脸图像与目标人脸图像的真实率;然后,固定所述判别器, 根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进 行训练,以实现对生成器与判别的交替训练。
进一步,在本实施例的一个实现方式中,所述生成器和判别器的交替训 练可以在两次训练中完成,第一次训练的过程:将待转换人脸图像、目标人 脸图像以及第一人脸状态输入生成器,并且读取生成器输出的转换人脸图像, 固定所述生成器,根据所述转换人脸图像以及所述转换人脸图像对应的目标 人脸图像对所述判别器进行训练,并通过训练后的判别器输出转换人脸图像 与目标人脸图像的真实率;第二训练的过程为:将待转换人脸图像、目标人 脸图像以及第一人脸状态输入生成器,并且读取生成器输出的转换人脸图像; 固定判别器,根据所述真实率以及所述第一人脸状态和所述第二人脸状态对 所述生成器进行训练,以实现对生成器与判别的交替训练。
进一步,在本实施例的一个实现方式中,如图7所示,所述固定所述生 成器,根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对 所述判别器进行训练,具体包括:
S411、固定所述生成器,根据所述转换人脸图像以及所述转换人脸图像 对应的目标人脸图像计算第一损失值;
S412、根据所述第一损失值对所述判别器的网络参数进行修正,以对修 正后的所述判别器进行训练。
具体地,所述第一损失值为判别器判别转换人脸图像与目标人脸图像的 真实率的损失值,所述第一损失值表示所述判别器判别得到的真实率与转换 人脸图像与目标人脸图像的真实率的损失值,所述第一损失值越大,说明判 别器判断的准确性越低,所述第一损失值越小,说明判别器判断的准确性越 高。在本实施例中,所述第一损失值对应的损失函数记为所述第一损失函数 Ld,根据所述第一损失函数计算判别器的第一损失值,并通过所述第一损失 值对所述判别器的网络参数进行修正。在本实施例中,所述第一损失函数Ld的 表达式可以为:
其中,所述B表示转换人脸图像,D为判别器,所述C表示目标人脸图像, D(B)表示判别器判别B的真实率,D(C)表示判别器判别C的真实率。
进一步,在本实施例的一个实现方式中,所述固定所述判别器,根据所 述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练 具体包括:
S421、根据所述真实率计算第二损失值,并根据所述第一人脸状态和所 述第二人脸状态进行第三损失值;
S422、根据所述第二损失值和第三损失值计算第四损失值,并根据所述 第四损失值对所述生成器的网络参数进行修正,以对修正后的所述生成器进 行训练。
具体地,所述生成器包括两部分损失值,两部分损失值中的一部分损失 值用于表示人脸样貌转换的损失值,记为第二损失值,另一部分损失值用于 表示人脸状态的损失,记为第三损失值。其中,所述第二损失值用于表示转 换人脸图像的人脸样貌与目标人脸图像的人脸样貌的损失值,通过第二损失 值可以反映反应转换人脸图像与目标人脸图像的相似程度,并且所述第二损 失值越大,转换人脸图像的相似程度越低,反之,所述二损失值越小,转换 人脸图像的相似程度越高。所述第三损失值为待转换人脸图像的第二人脸状态与转换人脸图像的第一人脸状态的损失值,所述第三损失值用于表示待转 换人脸图像的第一人脸状态与转换人脸图像的第二人脸状态的相似程度,第 二损失值越大,待转换人脸图像的第一人脸状态与转换人脸图像的第二人脸 状态的相似程度越低,反之,所述二损失值越小,第一人脸状态与第二人脸状 态的相似程度越高。在本实施例中,所述第二损失值对应的第二损失函数Ld, 所述第三损失值对应的所述第三损失函数Llm,所述第二损失函数Lg的表达式 可以为:
Lg=-log(D(B))
其中,所述B表示转换人脸图像,D为判别器。
进一步,所述第三损失函数的表达式可以为:
其中,所述Ai表示待转换人脸图像的特征点坐标,Bi表示转换人脸图像的 特征坐标点,所述N表示特征点坐标的数量,为正整数,i代表特征点坐标在 特征点坐标集中的位置,为正整数。
进一步,所述生成器的损失值根据所述第二损失值和所述第三损失值计 算计算得到,从而,在得到第二损失值和第三损失值之后,可以根据所述第 二损失值和第三损失值计算所述生成器的损失值,其中,所述生成器的损失 值L的计算公式为:
L=Lg+λLlm
其中,L表示生成器损失值,Lg为第二损失函数,Llm为第三损失函数,λ 为权重系数。
此外,基于上述的人脸转换模型的训练方法,本发明还提供了一种人脸 图像转换方法,应用上述所述的人脸转换模型的训练方法得到的已训练的人 脸转换模型,如图7所示,所述人脸图像转换方法包括:
M10、获取待转换人脸图像以及目标人脸图像,并将所述待转换人脸图像 以及所述目标人脸图像输入所述已训练的人脸转换模型;
M20、获取所述已训练的人脸转换模型所输出的转换人脸图像,以得到所 述待转换人脸图像对应的转换人脸图像;其中,所述待转换人脸图像对应的 第一人脸状态与所述转换人脸图像的第二人脸状态数据对应,所述转换人脸 图像的人脸样貌与所述目标人脸图像的人脸样貌对应。
具体地,所述待转换人脸图像可以为预先设置的人脸图像,也可以是根 据接收的选取操作而确定的人脸图像,还可以是根据用户输入的关键词查找 到的人脸图像,例如,待转换人脸图像为根据接收的选取操作,在当前显示 的画面中选取的人脸图像。所述目标人脸图像可以是用户预先设置的,也可 以是根据用户输入的关键词查找到。例如,所述目标人脸图像为根据用户输 入的关键“张曼玉”查找到的张曼玉的人脸图像。
进一步,在本实施例的一个实现方式中,所述已训练的人脸转换模型包 括生成器,相应的,所述获取待转换人脸图像以及目标人脸图像,并将所述 待转换人脸图像以及目标人脸图像输入所述已训练的人脸转换模型具体包 括:
获取待转换人脸图像以及目标人脸图像,并将所述待转换人脸图像以及 目标人脸图像输入生成器;
获取所述生成器输出的转换人脸图像,以得所述待转换人脸图像对应的 转换人脸图像。
具体地,在获取到待转换人脸图像和目标人脸图像后,将所述待转换人 脸图像和目标人脸图像输入生成器中,通过所述生成器生成所述待转换人脸 图像对应的转换人脸图像。所述待转换人脸图像对应的第一人脸状态与所述 转换人脸图像的第二人脸状态数据对应,所述转换人脸图像的人脸样貌与所 述目标人脸图像的人脸样貌对应,以使得转换得到的目标人脸图像的人脸状 态与所述待转换人脸图像一致,从而实现了人脸图像转换以及人脸状态的迁 移,提高转换得到的目标人脸图像的真实性。
进一步,在本实施例的一个实现方式中,所述人脸图像是通过对待处理 图像进行识别得到的,相应的,所述获取待转换人脸图像具体为:
获取具有人脸图像的待处理图像;
提取所述待处理图像中的人脸图像,并将提取到的所述人脸图像作为待 转换人脸图像。
具体地,所所述待处理图像可以具有人脸图像的视频帧。所述具有人脸 图像的视频帧的选取过程可以为:将视频文件划分为若干视频帧,在划分得 到的若干视频帧内选取具有人脸图像的人脸视频帧,可以在选取到的具有人 脸图像的人脸视频帧中任选一人脸视频帧作为待处理图像,也可以是接收到 选取操作,并将选取操作对应的人脸视频帧作为待处理图像。其中,所述选 取操作可以是选取特定人脸视频帧的操作,也可以是输入人脸关键词的操作。 例如,选取操作为输入人脸关键词“A”,在所有人脸视频帧中查找携带A的人 脸视频帧,将查找到人脸视频帧作为待处理图像。同时,在将待处理图像中 的待转换人脸图像转换为目标人脸图像后,对于所述视频中任一携带所述待 转换人脸图像的视频帧,均将所述视频帧中携带的待转换人脸图像转换为目 标人脸图像。此外,所述待处理图像还可以为携带人脸图像的图片,所述图 片可以输用户输入的,也可以是通过互联网下载的,还可以是通过拍摄装置 拍摄得到的。
举例说明:当用户观看电影“泰坦尼克号”时,想要将rose的人脸转换 为C的人脸,那么接收用户输入的关键字“rose”,根据所述关键字在“泰坦 尼克号”的视频中查找所有携带“rose”人脸图像的视频帧,分别将查找到 的各视频帧作为待处理图像,将各待处理图像携带的“rose”人脸图像转换 为“C”人脸图像,在播放“泰坦尼克号”的视频的过程中,携带“rose”人 脸图像的视频帧中“rose”人脸图像转换为“C”人脸图像。
进一步,在获取到待转换人脸图像对应的转换人脸图像后,采用所述转 换人脸图像替换待转换人脸图像,以得到转换后的图像。相应的,所述获取 所述已训练的人脸转换模型所输出的转换人脸图像,以得到所述待转换人脸 图像对应的转换人脸图像之后还包括:
将所述转换人脸图像替换所述待处理图像中的所述待转换人脸图像,以 得到携带所述转换人脸图像的待处理图像。
具体地,所述转换人脸图像替换所述待转换人脸图像可以为将处理图像 中的待转换人脸图像去除,并将转换人脸图像添加到所述去除区域,以使得 转换人脸图像替换所述待转换人脸图像;也可以将处理图像中的待转换人脸 图像去除,将转换人脸图像融合到所述去除区域,例如,泊松融合。
基于上述人脸转换模型的训练方法,本发明提供了一种计算机可读存储 介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多 个程序可被一个或者多个处理器执行,以实现上述实施例所述的人脸转换模 型的训练方法中的步骤。例如,所述计算机可读存储介质可以是ROM、随机存 取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供了一种终端设备,如图8所示,其包括至少一个处理器 (processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接 口(CommunicationsInterface)23和总线24。其中,处理器20、显示屏 21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21 设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。 处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现 并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算 机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20 通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以 及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操 作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的 使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可 以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种 可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具 体过程在上述方法中已经详细说明,在这里就不再一一陈述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公 开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被 视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确 结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所 附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明 的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发 明的保护范围之内。
Claims (14)
1.一种人脸转换模型的训练方法,其特征在于,所述方法包括:
获取训练样本数据,所述训练样本数据包括待转换人脸图像集和目标人脸图像集,所述待转换人脸图像集包括待转换人脸图像以及待转换人脸图像对应的第一人脸状态,所述目标人脸图像集包括待转换人脸图像集中每一张待转换人脸图像对应的目标人脸图像,其中,第一人脸状态包括待转换人脸图像中的人脸朝向和/或人脸表情;
将所述训练样本数据输入预设生成对抗网络,通过所述预设生成对抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像对应的真实率,其中,所述转换人脸图像的人脸样貌与所述目标人脸图像的人脸样貌对应,所述转换人脸图像的第二人脸状态与所述待转换人脸图像的第一人脸状态对应;
识别所述转换人脸图像的第二人脸状态;
根据所述第一人脸状态和所述第二人脸状态,以及所述真实率对所述预设生成对抗网络进行修正,得到已训练的人脸转换模型。
2.根据权利要求1所述人脸转换模型的训练方法,其特征在于,所述预设生成对抗网络包括生成器和判别器;所述将所述训练样本数据输入预设生成对抗网络,通过所述预设生成对抗网络获取待转换人脸图像分别对应的转换人脸图像以及所述转换人脸图像对应的真实率,具体包括:
将所述待转换人脸图像、所述第一人脸状态以及目标人脸图像输入所述生成器,通过所述生成器生成所述待转换人脸图像对应的转换人脸图像;
将所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像输入所述判别器,通过所述判别器输出所述转换人脸图像与目标人脸图像的真实率。
3.根据权利要求2所述人脸转换模型的训练方法,其特征在于,根据所述第一人脸状态和所述第二人脸状态,以及所述真实率对所述预设生成对抗网络进行修正,得到已训练的人脸转换模型,具体包括:
固定所述生成器,根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练;
固定所述判别器,根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练;
继续执行固定所述生成器的步骤直至所述预设生成对抗网络满足预设条件,以得到已训练的人脸转换模型。
4.根据权利要求3所述人脸转换模型的训练方法,其特征在于,所述固定所述生成器,根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像对所述判别器进行训练,具体包括:
固定所述生成器,根据所述转换人脸图像以及所述转换人脸图像对应的目标人脸图像计算第一损失值;
根据所述第一损失值对所述判别器的网络参数进行修正,以对修正后的所述判别器进行训练。
5.根据权利要求3所述人脸转换模型的训练方法,其特征在于,所述固定所述判别器,根据所述真实率以及所述第一人脸状态和所述第二人脸状态对所述生成器进行训练具体包括:
根据所述真实率计算第二损失值,并根据所述第一人脸状态和所述第二人脸状态进行第三损失值;
根据所述第二损失值和第三损失值计算第四损失值,并根据所述第四损失值对所述生成器的网络参数进行修正,以对修正后的所述生成器进行训练。
6.根据权利要求1-5任意一项所述人脸转换模型的训练方法,其特征在于,所述识别所述转换人脸图像的第二人脸状态具体包括:
将所述转换人脸图像输入已训练的人脸识别模型,以得到转换人脸图像的第一特征坐标点集,其中,所述人脸识别模型为基于人脸图像训练样本集训练得到的,所述人脸图像训练样本集包括多组人脸图像训练样本,各组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标点集;
根据所述第一特征坐标点集确定所述转换人脸图像的第二人脸状态。
7.根据权利要求1-5任意一项所述人脸转换模型的训练方法,其特征在于,所述获取训练样本数据具体包括:
获取待转换人脸图像以及所述待转换人脸图像对应的目标人脸图像;
将所述待转换人脸图像输入已训练的人脸识别模型,以得到所述待转换人脸图像对应的第二特征坐标点集,其中,所述人脸识别模型为基于人脸图像训练样本集训练得到的,所述人脸图像训练样本集包括多组人脸图像训练样本,各组人脸图像训练样本均包括人脸图像以及所述人脸图像对应的人脸特征坐标点集;
根据所述第二特征坐标点集确定所述待转换人脸图像的第一人脸状态;
根据所述待转换人脸图像以及所述待转换人脸图像对应的第一人脸状态生成待转换人脸图像集,并根据所述目标人脸图像生成目标人脸图像集。
8.一种人脸图像转换方法,其特征在于,应用如权利要求1-7任意一项所述的人脸转换模型的训练方法得到的已训练的人脸转换模型,所述人脸图像转换方法包括:
获取待转换人脸图像以及目标人脸图像,并将所述待转换人脸图像以及所述目标人脸图像输入所述已训练的人脸转换模型;
获取所述已训练的人脸转换模型所输出的转换人脸图像,以得到所述待转换人脸图像对应的转换人脸图像;其中,所述待转换人脸图像对应的第一人脸状态与所述转换人脸图像的第二人脸状态数据对应,所述转换人脸图像的人脸样貌与所述目标人脸图像的人脸样貌对应。
9.根据权利要求8所述人脸图像转换方法,其特征在于,所述已训练的人脸转换模型包括生成器,所述获取待转换人脸图像以及目标人脸图像,并将所述待转换人脸图像以及目标人脸图像输入所述已训练的人脸转换模型具体包括:
获取待转换人脸图像以及目标人脸图像,并将所述待转换人脸图像以及目标人脸图像输入生成器;
获取所述生成器输出的转换人脸图像,以得所述待转换人脸图像对应的转换人脸图像。
10.根据权利要求8所述人脸图像转换方法,其特征在于,所述获取待转换人脸图像具体为:
获取具有人脸图像的待处理图像;
提取所述待处理图像中的人脸图像,并将提取到的所述人脸图像作为待转换人脸图像。
11.根据权利要求10所述人脸图像转换方法,其特征在于,所述待处理图像为具有人脸图像的视频帧或携带人脸图像的图片。
12.根据权利要求10或11所述人脸图像转换方法,其特征在于,所述获取所述已训练的人脸转换模型所输出的转换人脸图像,以得到所述待转换人脸图像对应的转换人脸图像之后还包括:
将所述转换人脸图像替换所述待处理图像中的所述待转换人脸图像,以得到携带所述转换人脸图像的待处理图像。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~7任意一项所述人脸转换模型的训练方法或者如权利要求9~12任意一项所述的人脸图像转换方法中的步骤。
14.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1~7任意一项所述人脸转换模型的训练方法或者如权利要求9~12任意一项所述的人脸转换模型的训练方法中的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910720823.4A CN112330526B (zh) | 2019-08-05 | 2019-08-05 | 一种人脸转换模型的训练方法、存储介质及终端设备 |
PCT/CN2020/103064 WO2021023003A1 (zh) | 2019-08-05 | 2020-07-20 | 一种人脸转换模型的训练方法、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910720823.4A CN112330526B (zh) | 2019-08-05 | 2019-08-05 | 一种人脸转换模型的训练方法、存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112330526A true CN112330526A (zh) | 2021-02-05 |
CN112330526B CN112330526B (zh) | 2024-02-09 |
Family
ID=74319744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910720823.4A Active CN112330526B (zh) | 2019-08-05 | 2019-08-05 | 一种人脸转换模型的训练方法、存储介质及终端设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112330526B (zh) |
WO (1) | WO2021023003A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743381A (zh) * | 2021-11-03 | 2021-12-03 | 四川大学华西医院 | 基于mtcnn算法的人脸多特征点检测方法及装置 |
CN114399426A (zh) * | 2021-12-31 | 2022-04-26 | 深圳数联天下智能科技有限公司 | 脸部皮肤状态图像的生成、模型训练方法、设备和介质 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077379B (zh) * | 2021-03-23 | 2024-03-22 | 深圳数联天下智能科技有限公司 | 特征潜码的提取方法及装置、设备及存储介质 |
CN113052068B (zh) * | 2021-03-24 | 2024-04-30 | 深圳威富云数科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN113034393A (zh) * | 2021-03-25 | 2021-06-25 | 北京百度网讯科技有限公司 | 照片修复方法、装置、设备以及存储介质 |
CN113033442B (zh) * | 2021-03-31 | 2023-01-10 | 杭州新畅元科技有限公司 | 基于StyleGAN的高自由度人脸驱动方法和装置 |
CN113160036B (zh) * | 2021-04-19 | 2022-09-20 | 金科智融科技(珠海)有限公司 | 一种保持脸型不变的图像换脸方法 |
CN113420665B (zh) * | 2021-06-23 | 2024-05-07 | 平安国际智慧城市科技股份有限公司 | 对抗人脸图像生成、人脸识别模型训练方法、装置及设备 |
CN113344776B (zh) * | 2021-06-30 | 2023-06-27 | 北京字跳网络技术有限公司 | 图像处理方法、模型训练方法、装置、电子设备及介质 |
CN114937115A (zh) * | 2021-07-29 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、人脸更换模型处理方法、装置和电子设备 |
CN113609960B (zh) * | 2021-08-03 | 2023-07-28 | 北京奇艺世纪科技有限公司 | 一种目标图片的人脸驱动方法及装置 |
CN113807353B (zh) * | 2021-09-29 | 2023-08-01 | 中国平安人寿保险股份有限公司 | 图像转换模型训练方法、装置、设备及存储介质 |
CN113989103B (zh) * | 2021-10-25 | 2024-04-26 | 北京字节跳动网络技术有限公司 | 模型训练方法、图像处理方法、装置、电子设备及介质 |
CN114332671B (zh) * | 2021-11-08 | 2022-11-01 | 深圳追一科技有限公司 | 基于视频数据的处理方法、装置、设备及介质 |
CN118052723A (zh) * | 2023-12-08 | 2024-05-17 | 深圳市石代科技集团有限公司 | 一种用于人脸替换的智能设计系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090022188A1 (en) * | 2007-07-20 | 2009-01-22 | Etienne Almoric | Frequency modulation in the optical alignment of wavelength-converted laser sources |
CN107423701A (zh) * | 2017-07-17 | 2017-12-01 | 北京智慧眼科技股份有限公司 | 基于生成式对抗网络的人脸非监督特征学习方法及装置 |
CN108537152A (zh) * | 2018-03-27 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 用于检测活体的方法和装置 |
CN108710831A (zh) * | 2018-04-24 | 2018-10-26 | 华南理工大学 | 一种基于机器视觉的小数据集人脸识别算法 |
CN108776983A (zh) * | 2018-05-31 | 2018-11-09 | 北京市商汤科技开发有限公司 | 基于重建网络的人脸重建方法和装置、设备、介质、产品 |
WO2019015466A1 (zh) * | 2017-07-17 | 2019-01-24 | 广州广电运通金融电子股份有限公司 | 人证核实的方法及装置 |
CN109961055A (zh) * | 2019-03-29 | 2019-07-02 | 广州市百果园信息技术有限公司 | 人脸关键点检测方法、装置、设备及存储介质 |
WO2019128508A1 (zh) * | 2017-12-28 | 2019-07-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107123083B (zh) * | 2017-05-02 | 2019-08-27 | 中国科学技术大学 | 人脸编辑方法 |
CN108846793B (zh) * | 2018-05-25 | 2022-04-22 | 深圳市商汤科技有限公司 | 基于图像风格转换模型的图像处理方法和终端设备 |
CN109934767A (zh) * | 2019-03-06 | 2019-06-25 | 中南大学 | 一种基于身份和表情特征转换的人脸表情转换方法 |
-
2019
- 2019-08-05 CN CN201910720823.4A patent/CN112330526B/zh active Active
-
2020
- 2020-07-20 WO PCT/CN2020/103064 patent/WO2021023003A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090022188A1 (en) * | 2007-07-20 | 2009-01-22 | Etienne Almoric | Frequency modulation in the optical alignment of wavelength-converted laser sources |
CN107423701A (zh) * | 2017-07-17 | 2017-12-01 | 北京智慧眼科技股份有限公司 | 基于生成式对抗网络的人脸非监督特征学习方法及装置 |
WO2019015466A1 (zh) * | 2017-07-17 | 2019-01-24 | 广州广电运通金融电子股份有限公司 | 人证核实的方法及装置 |
WO2019128508A1 (zh) * | 2017-12-28 | 2019-07-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN108537152A (zh) * | 2018-03-27 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 用于检测活体的方法和装置 |
CN108710831A (zh) * | 2018-04-24 | 2018-10-26 | 华南理工大学 | 一种基于机器视觉的小数据集人脸识别算法 |
CN108776983A (zh) * | 2018-05-31 | 2018-11-09 | 北京市商汤科技开发有限公司 | 基于重建网络的人脸重建方法和装置、设备、介质、产品 |
CN109961055A (zh) * | 2019-03-29 | 2019-07-02 | 广州市百果园信息技术有限公司 | 人脸关键点检测方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
O\'TOOLE, AJ: "Recognizing people from dynamic and static faces and bodies: Dissecting identity with a fusion approach", 《VISION RESEARCH》, vol. 51, no. 1, pages 74 - 83, XP027571231 * |
丁莎莎: "基于深度图像的卡通人脸表情模拟", 《中国优秀硕士学位论文全文数据库 电子期刊 信息科技辑》, no. 1, pages 138 - 3808 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743381A (zh) * | 2021-11-03 | 2021-12-03 | 四川大学华西医院 | 基于mtcnn算法的人脸多特征点检测方法及装置 |
CN114399426A (zh) * | 2021-12-31 | 2022-04-26 | 深圳数联天下智能科技有限公司 | 脸部皮肤状态图像的生成、模型训练方法、设备和介质 |
CN114399426B (zh) * | 2021-12-31 | 2024-04-30 | 深圳数联天下智能科技有限公司 | 脸部皮肤状态图像的生成、模型训练方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021023003A1 (zh) | 2021-02-11 |
CN112330526B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330526A (zh) | 一种人脸转换模型的训练方法、存储介质及终端设备 | |
JP7386545B2 (ja) | 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置 | |
CN110147721B (zh) | 一种三维人脸识别方法、模型训练方法和装置 | |
CN109033940B (zh) | 一种图像识别方法、装置、计算设备及存储介质 | |
CN103810490B (zh) | 一种确定人脸图像的属性的方法和设备 | |
TWI691937B (zh) | 過濾光斑的方法和裝置、電腦可讀取儲存介質、處理器、視線追蹤設備 | |
CN106778785B (zh) | 构建图像特征提取模型的方法及图像识别的方法、装置 | |
JP2008152789A (ja) | 顔映像の類似度の算出方法及び装置とこれを利用した顔映像の検索方法及び装置、並びに顔合成方法 | |
JP5671928B2 (ja) | 学習装置、学習方法、識別装置、識別方法、およびプログラム | |
CN111108508B (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
Ling et al. | Image quality assessment for free viewpoint video based on mid-level contours feature | |
JP7519127B2 (ja) | ユーザのバイオメトリック特性を有する画像中の物体を識別して、画像のうちバイオメトリック特性を含む部分を他の部分から分離することにより当該ユーザのidを検証するための方法 | |
EP4459575A1 (en) | Liveness detection method, device and apparatus, and storage medium | |
Kampelmuhler et al. | Synthesizing human-like sketches from natural images using a conditional convolutional decoder | |
CN111898571A (zh) | 动作识别系统及方法 | |
CN109598270A (zh) | 扭曲文字的识别方法及装置、存储介质及处理器 | |
CN114743241A (zh) | 一种人脸表情识别方法、装置、电子设备及存储介质 | |
Athavale et al. | One eye is all you need: Lightweight ensembles for gaze estimation with single encoders | |
CN109165551B (zh) | 一种自适应加权融合显著性结构张量和lbp特征的表情识别方法 | |
Kurdthongmee et al. | A yolo detector providing fast and accurate pupil center estimation using regions surrounding a pupil | |
CN107886568B (zh) | 一种利用3D Avatar重建人脸表情的方法及系统 | |
CN113743275A (zh) | 一种微表情类型的确定方法、装置、电子设备及存储介质 | |
CN116778533A (zh) | 一种掌纹全感兴趣区域图像提取方法、装置、设备及介质 | |
Wu et al. | Spontaneous versus posed smile recognition via region-specific texture descriptor and geometric facial dynamics | |
CN114360026A (zh) | 一种具有准确注意力的自然遮挡表情识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |