CN112766143A - 一种基于多情绪的人脸老化处理方法和系统 - Google Patents
一种基于多情绪的人脸老化处理方法和系统 Download PDFInfo
- Publication number
- CN112766143A CN112766143A CN202110054794.XA CN202110054794A CN112766143A CN 112766143 A CN112766143 A CN 112766143A CN 202110054794 A CN202110054794 A CN 202110054794A CN 112766143 A CN112766143 A CN 112766143A
- Authority
- CN
- China
- Prior art keywords
- size
- layer
- output
- regularization
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000032683 aging Effects 0.000 title claims abstract description 65
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 230000008451 emotion Effects 0.000 claims abstract description 56
- 230000002996 emotional effect Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 136
- 230000004913 activation Effects 0.000 claims description 102
- 238000012549 training Methods 0.000 claims description 33
- 238000005457 optimization Methods 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 12
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 230000036651 mood Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 claims description 3
- 230000008909 emotion recognition Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 208000016615 Central areolar choroidal dystrophy Diseases 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- FSCNUJMKSQHQSY-UHFFFAOYSA-N Gein Chemical compound COC1=CC(CC=C)=CC=C1OC1C(O)C(O)C(O)C(COC2C(C(O)C(O)CO2)O)O1 FSCNUJMKSQHQSY-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多情绪的人脸老化处理方法,包括:获取一张原始图片和一张与该原始图片对应的目标图片;将获取的原始图片和目标图片分别输入训练好的第一网络模型的编码器Ee和EI中,以分别得到原始图片的关键特征和目标图片的关键特征;将获得的原始图片的关键特征、以及目标图片的关键特征输入训练好的第一生成网络的生成器GE中,以获得一张彩色图片;将彩色图片输入训练好的第二网络模型的生成器GA,以得到老化处理后的彩色图片;本发明利用多重损失保证CD‑Net在不丢失其它信息的情况下学习真实的图像,可以生成不同的情绪下逼真的面部衰老图像,并且这些情绪特征是特定的,不是随机的。
Description
技术领域
本发明属于图像处理领域,更具体地,涉及一种基于多情绪的人脸老 化处理方法和系统。
背景技术
现有的人脸老化处理技术主要包括两个过程,即构建大规模人脸老化 数据集、以及构建新颖的深度学习框架。其中构建大规模人脸老化数据集需 要采集各个年龄段的人脸图像,而构建新颖的深度学习框架需要通过构建 网络模型,并对网络模型进行深度训练。
然而,现有的人脸老化处理技术,仍然存在一些不可忽略的缺陷:
第一、当前人脸老化算法都是基于单一人脸情绪下进行的,而实际上不 同情绪下的人脸老化结果不相同,这导致当前人脸老化算法性能较差,难以 在现有基础进一步提升;
第二、当前人脸不同情绪下的人脸数据集几乎没有,同时标注这样的大 规模数据集需要巨大人力和物力支持,而且还要收集相同人脸图像不同时 期的图像,耗时较长;
第三、当前大多数人脸老化处理过程都是系统随机老化到某一年龄,难 以在指定的老化区间上进行老化处理。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多情绪 的人脸老化处理方法和系统,其目的在于,解决现有人脸老化处理方法人 脸老化算法性能较差的技术问题,标注大规模数据集需要巨大人力和物力 支持、且收集相同人脸图像不同时期的图像耗时较长的技术问题,以及难 以在指定的老化区间上进行老化处理的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于多情绪的 人脸老化处理方法,包括以下步骤:
(1)获取一张原始图片和一张与该原始图片对应的目标图片;
(2)将步骤(1)获取的原始图片和目标图片分别输入训练好的第一 网络模型的编码器Ee和EI中,以分别得到原始图片的关键特征和目标图片 的关键特征;
(3)将步骤(2)获得的原始图片的关键特征、以及目标图片的关键 特征输入训练好的第一生成网络的生成器GE中,以获得一张彩色图片;
(4)将步骤(3)得到的彩色图片输入训练好的第二网络模型的生成 器GA,以得到老化处理后的彩色图片。
优选地,编码器Ee和EI都采用VGG-16网络结构,且只保留第一个全 连接层;
第一网络模型中的生成器GE包括卷积模块层、以及编码和解码模型;
卷积模块层是由上采样层、卷积层、激活函数按前后串联形成,其中, 上采样步长为2,输出大小128*128*1,卷积核尺寸为1*1,卷积步长为1, 激活函数采用ReLU,输出大小为128*128*3;
编码和解码模型的结构如下:
第一层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成 (如图3),输入大小为128*128*3。其中,卷积核大小为1*1,步长为2, 输出大小为64*64*64,正则化操作的local_size是5,alpha值是0.0001, beta值是0.75,激活函数采用ReLU。
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为64*64*64。其中,卷积核大小为1*1,步长为2,输出大小为 32*32*128,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为32*32*128。其中,卷积核大小为1*1,步长为2,输出大小为 16*16*256,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第四层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为16*16*256。其中,卷积核大小为1*1,步长为2,输出大小为 8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第五层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数 按顺序前后串联形成,输入大小为8*8*512。其中,上采样步长为2,输出 大小16*16*256,卷积核尺寸为1*1,卷积步长为1,正则化操作的local_size 是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU,输出大小为 16*16*256。
第六层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数 按顺序前后串联形成,输入大小为16*16*256。其中,上采样步长为2,输 出大小32*32*128,卷积核尺寸为1*1,卷积步长为1,正则化操作的 local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU, 输出大小为32*32*128。
第七层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数 按顺序前后串联形成,输入大小为32*32*128。其中,上采样步长为2,输 出大小64*64*64,卷积核尺寸为1*1,卷积步长为1,正则化操作的local_size 是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU,输出大小为 64*64*64。
第八层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数 按顺序前后串联形成,输入大小为64*64*64。其中,上采样步长为2,输 出大小128*128*32,卷积核尺寸为1*1,卷积步长为1,正则化操作的 local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU, 输出大小为128*128*32。
第九层是卷积模块层,由卷积层、正则化层、激活函数按顺序前后串 联形成,输入大小为128*128*32,其中,卷积核尺寸为1*1,卷积步长为1, 正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数 采用ReLU,输出大小为128*128*3。
优选地,第一网络模型中判别器DE的结构为:
第一层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为128*128*3。其中,卷积核大小为1*1,步长为2,输出大小为 64*64*64,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为64*64*64。其中,卷积核大小为1*1,步长为2,输出大小为 32*32*128,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为32*32*128。其中,卷积核大小为1*1,步长为2,输出大小为 16*16*256,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第四层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为16*16*256。其中,卷积核大小为1*1,步长为2,输出大小为 8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第五层是第一个全连接层,对第四层输出进行全连接操作,输出为 1*4096。
第六层是第二个全连接层,对第四层输出进行全连接操作,输出为 1*1024。
第七层是第三个全连接层,对第四层输出进行全连接操作,输出为 1*512,最后采用softmax函数进行预测,进而判别图片的真伪。
优选地,第一网络模型中第一情绪分类器的结构如下:
第一层是卷积模块层,其是由卷积层、池化层、正则化操作以及激活 函数组成,且每个输入标签大小为128*128*3,其中,卷积核大小为1*1, 步长为2,池化层采用最大池化操作,步长为2,输出大小未32*32*64,正 则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采 用ReLU;
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 且每个输入标签大小为32*32*64,其中,卷积核大小为1*1,步长为2,输 出大小未16*16*256,正则化操作的local_size是5,alpha值是0.0001,beta 值是0.75,激活函数采用ReLU;
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 且每个输入标签大小为16*16*256,其中,卷积核大小为1*1,步长为2, 输出大小未8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta 值是0.75,激活函数采用ReLU。
第四层是第一个全连接层,将第三层输出进行全连接操作,输出为 1*1024。
第五层是第二个全连接层,将第四层输出进行全连接操作,输出为1*512。
第六层是第三个全连接层,对第五层的输出进行全连接操作,输出大 小为1*256的输出样本。最后采用softmax函数进行预测,得到相应的结果。
优选地,步骤(3)具体为,首先将步骤(2)得到的两个1*4096的关 键特征分别变为大小为64*64*1的特征图e(j)和I(i),然后将两个特征图连 接起来,变为大小为64*64*2的特征图,随后将其输入生成器GE中的卷积 模块层,对该特征图执行上卷积操作,并获得大小为128*128*3特征图, 最后,将该特征图先后输入生成器GE的编码和解码模型,最终获得大小为 128*128*3的彩色图片。
优选地,第一网络模型和第二网络模型是共同训练获得,其具体训练 过程为:
(1-1)从原始数据集(XO(1),XO(2),...,XO(N))和情绪数据集(XE(1), XE(2),...,XE(N))中分别任意选择一张图片XO(i)和XE(j),将图片XO(i)和XE(j) 分别输入到第一网络模型的编码器Ee和EI,以得到两个大小为1*4096的特 征向量I(i)和e(j),对这两个特征向量进行调整,以得到一个大小为64*64*1 的中间特征图,将该中间特征图输入生成器GE,以得到大小为128*128*3 的彩色图片所组成的集合(XG(1),XG(2),...,XG(N)),其中N表示原始数据 集或情绪数据集中的图片总数,且i和j均∈[1,N]。
(1-2)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张 彩色图片输入判别器DE中,以得到所有彩色图片对应的第一识别结果(yG(1), yG(2),...,yG(N)),根据所有彩色图片对应的第一识别结果(yG(1),yG(2),..., yG(N))获取判别器的损失和生成器的损失;
其中判别器的损失等于:
其中XO(i)表示原始数据集XO(1),XO(2),...,XO(N)中的第i个数据,yG(i) 表示第一识别结果yG(1),yG(2),...,yG(N)中的第i个数据。
生成器的损失等于:
(1-3)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张 彩色图片输入第一情绪分类器中,以得到所有彩色图片对应的第二识别结 果yE(1),yE(2),...,yE(N),根据该第二识别结果yE(1),yE(2),...,yE(N)与真实的 情绪标签yE(1)’,yE(2)’,...,yE(N)’)获取情绪分类损失;
其中情绪分类损失为:
(1-4)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张 彩色图片分别输入编码器Ee’和EI’中,以分别得到编码结果(yEe(1),yEe(2),..., yEe(N))和(yEI(1),yEI(2),...,yEI(N)),根据编码结果(yEe(1),yEe(2),...,yEe(N))与 特征图(yEe(1)’,yEe(2)’,...,yEe(N)’)获取编码器Ee’的损失,并根据编码结果 (yEI(1),yEI(2),...,yEI(N))与特征图(yEI(1)’,yEI(2)’,...,yEI(N)’)获取编码器EI’的 损失;
其中编码器Ee’的损失等于:
编码器EI’的损失等于:
(1-5)根据步骤(1-2)得到的判别器的损失和生成器的损失、步骤(1-3) 得到的情绪分类损失、以及步骤(1-4)得到的编码器Ee’和编码器EI’的损 失,对第一网络模型进行迭代训练,直到第一网络模型的训练目标优化函 数收敛为止;
(1-6)先后将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))输入 到第二网络模型的生成器GA中,以得到目标图片集合(XGA(1),XGA(2),..., XGA(N));
(1-7)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N)) 中的每一张目标图片输入第二网络模型的判别器DA中,以得到所有彩色图 片对应的第三识别结果yGA(1),yGA(2),...,yGA(N),根据所有彩色图片对应的 第三识别结果yGA(1),yGA(2),...,yGA(N)获取判别器DA的损失和生成器GA的损失;
其中判别器的损失为:
生成器的损失为:
(1-8)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N)) 中的每一张目标图片输入VGG-16模型中,以得到所有目标图片对应的年 龄识别结果yAge(1),yAge(2),...,yAge(N),根据年龄识别结果yAge(1),yAge(2),..., yAge(N)和目标老化年龄标签yAge(1)’,yAge(2)’,...,yAge(N)’获取年龄分类损失;
其中年龄分类损失为:
(1-9)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N)) 中的每一张目标图片输入到第二情绪分类器中,以得到所有目标图片对应 的情绪识别结果yEA(1),yEA(2),...,yEA(N),根据情绪识别结果yEA(1), yEA(2),...,yEA(N)和真实的情绪标签yEA(1)’,yEA(2)’,...,yEA(N)’获取情绪分类 损失;
其中情绪分类损失为:
(1-10)根据步骤(1-7)得到的判别器DA的损失和生成器GA的损失、 步骤(1-8)得到的年龄分类损失、以及步骤(1-9)得到的情绪分类损失对 第二网络模型进行迭代训练,直到该第二网络模型的训练目标优化函数收 敛为止。
(1-11)重复上述步骤(1-1)至(1-10),直至迭代次数达到最大设定 迭代次数、或者待测试人工智能模型的预测误差大于0.5、或者替代模型的 损失函数大于0.5为止,从而得到训练好的第一网络模型和第二网络模型。
优选地,第一网络模型的训练目标优化函数为:
(a)判别器的优化函数:
LD(E)=Ladv(DE)
(b)生成器的优化函数:
优选地,第二网络模型的训练优化函数为:
(c)判别器的优化函数:
(d)生成器的优化函数:
按照本发明的另一方面,提供了一种基于多情绪的人脸老化处理系统, 包括:
第一模块,用于获取一张原始图片和一张与该原始图片对应的目标图 片;
第二模块,用于将第一模块获取的原始图片和目标图片分别输入训练 好的第一网络模型的编码器Ee和EI中,以分别得到原始图片的关键特征和 目标图片的关键特征;
第三模块,用于将第二模块获得的原始图片的关键特征、以及目标图 片的关键特征输入训练好的第一生成网络的生成器GE中,以获得一张彩色 图片;
第四模块,用于将第三模块得到的彩色图片输入训练好的第二网络模 型的生成器GA,以得到老化处理后的彩色图片。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够 取得下列有益效果:
(1)由于本发明先进行不同情绪学习,然后基于不同情绪特征得到相 应人脸老化结果,因此能够解决现有人脸老化算法由于是基于单一人脸情 绪导致性能较差的技术问题。
(2)由于本发明采用了步骤(1-5)和步骤(1-10),确保原始单一情 绪人脸老化数据集学习到逼真情绪特征,且保持人脸图像原有特性,因此 能够生成大规模不同情绪人脸老化数据集,并节省收集和标注数据集所需 要的大量开销。
(3)由于本发明采用了步骤(1-6)、步骤(1-7)以及步骤(1-8),能 让任意一张图片老化到指定年龄区间上,这能极大满足现实应用需求。
(4)由于本发明采用了第一网络模型和第二网络模型进行端到端的训 练,这样确保整个系统更快训练和收敛,从而更高效地生成老化图片。
(5)由于本发明采用的网络结构简单,因此该模型能方便部署,且运 行耗时较短,较好用于现实中一些黑盒模型鲁棒性测试。
附图说明
图1是本发明基于多情绪的人脸老化处理方法的整体系统架构图;
图2是本发明第一网络模型中生成器GE所包括的卷积模块层的架构图;
图3是本发明第一网络模型中生成器GE所包括的编码和解码模型的架 构图;
图4是本发明图3的编码和解码模型中上卷积模块层的架构图;
图5是本发明第一网络模型中第一情绪分类器的卷积模块层的示意图;
图6是本发明提供的跨领域面部情绪学习的示例图;
图7是本发明提供的不同情绪下的一些老化示例图;
图8是本发明基于多情绪的人脸老化处理方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的 本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可 以相互组合。
如图1和图8所示,本发明提供了一种基于多情绪的人脸老化处理方 法,包括以下步骤:
(1)获取一张原始图片和一张与该原始图片对应的目标图片;
具体而言,原始图片和目标图片的大小均为256*256*3。
(2)将步骤(1)获取的原始图片和目标图片分别输入训练好的第一 网络模型的编码器Ee和EI中,以分别得到原始图片的关键特征和目标图片 的关键特征;
本发明的第一网络模型(即运动网络模型Emotion-Net)包括顺次连接 的编码器Ee和EI、生成器GE、判别器DE、第一情绪分类器、以及重构编 码器Ee’和EI’。具体而言,编码器Ee和EI都采用VGG-16网络结构,且只 保留第一个全连接层;
具体而言,重构编码器Ee’和EI’分别和编码器Ee和EI具有完全相同的 结构,在此不再赘述。
需要注意的是,上述两个编码器的初始化过程并不相同,编码器Ee在 初始化过程中的权重大小符合泊松分布,而编码器EI在初始化过程中的权 重大小符合均匀分布,通过后续的编码过程,编码器Ee和EI的输出均为 1*4096大小的关键特征。
第一网络模型中的生成器GE包括卷积模块层、以及编码和解码模型。
卷积模块层(如图2所示)是由上采样层、卷积层、激活函数按前后 串联形成。其中,上采样步长为2,输出大小128*128*1,卷积核尺寸为1*1, 卷积步长为1,激活函数采用ReLU,输出大小为128*128*3。
编码和解码模型的结构如下:
第一层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成 (如图3所示),输入大小为128*128*3。其中,卷积核大小为1*1,步长 为2,输出大小为64*64*64,正则化操作的local_size是5,alpha值是0.0001, beta值是0.75,激活函数采用ReLU。
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为64*64*64。其中,卷积核大小为1*1,步长为2,输出大小为 32*32*128,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为32*32*128。其中,卷积核大小为1*1,步长为2,输出大小为 16*16*256,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第四层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为16*16*256。其中,卷积核大小为1*1,步长为2,输出大小为 8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第五层是上卷积模块层(如图4所示),由上采样层、卷积层、正则化 层、激活函数按顺序前后串联形成,输入大小为8*8*512。其中,上采样步 长为2,输出大小16*16*256,卷积核尺寸为1*1,卷积步长为1,正则化 操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用 ReLU,输出大小为16*16*256。
第六层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数 按顺序前后串联形成,输入大小为16*16*256。其中,上采样步长为2,输 出大小32*32*128,卷积核尺寸为1*1,卷积步长为1,正则化操作的 local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU, 输出大小为32*32*128。
第七层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数 按顺序前后串联形成,输入大小为32*32*128。其中,上采样步长为2,输 出大小64*64*64,卷积核尺寸为1*1,卷积步长为1,正则化操作的local_size 是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU,输出大小为 64*64*64。
第八层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数 按顺序前后串联形成,输入大小为64*64*64。其中,上采样步长为2,输 出大小128*128*32,卷积核尺寸为1*1,卷积步长为1,正则化操作的 local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU, 输出大小为128*128*32。
第九层是卷积模块层,由卷积层、正则化层、激活函数按顺序前后串 联形成(如图2所示),输入大小为128*128*32。其中,卷积核尺寸为1*1, 卷积步长为1,正则化操作的local_size是5,alpha值是0.0001,beta值是 0.75,激活函数采用ReLU,输出大小为128*128*3。
第一网络模型中判别器DE的结构为:
第一层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成 (如图3所示),输入大小为128*128*3。其中,卷积核大小为1*1,步长 为2,输出大小为64*64*64,正则化操作的local_size是5,alpha值是0.0001, beta值是0.75,激活函数采用ReLU。
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为64*64*64。其中,卷积核大小为1*1,步长为2,输出大小为 32*32*128,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为32*32*128。其中,卷积核大小为1*1,步长为2,输出大小为 16*16*256,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第四层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 输入大小为16*16*256。其中,卷积核大小为1*1,步长为2,输出大小为 8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75, 激活函数采用ReLU。
第五层是第一个全连接层,对第四层输出进行全连接操作,输出为 1*4096。
第六层是第二个全连接层,对第四层输出进行全连接操作,输出为 1*1024。
第七层是第三个全连接层,对第四层输出进行全连接操作,输出为 1*512。最后采用softmax函数进行预测,进而判别图片的真伪。
第一网络模型中第一情绪分类器的结构如下:
第一层是卷积模块层,其是由卷积层、池化层、正则化操作以及激活 函数组成(如图5所示),且每个输入标签大小为128*128*3,其中,卷积 核大小为1*1,步长为2,池化层采用最大池化操作,步长为2,输出大小 未32*32*64,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成 (如图4所示),且每个输入标签大小为32*32*64,其中,卷积核大小为 1*1,步长为2,输出大小未16*16*256,正则化操作的local_size是5,alpha 值是0.0001,beta值是0.75,激活函数采用ReLU。
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成, 且每个输入标签大小为16*16*256,其中,卷积核大小为1*1,步长为2, 输出大小未8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta 值是0.75,激活函数采用ReLU。
第四层是第一个全连接层,将第三层输出进行全连接操作,输出为 1*1024。
第五层是第二个全连接层,将第四层输出进行全连接操作,输出为 1*512。
第六层是第三个全连接层,对第五层的输出进行全连接操作,输出大 小为1*256的输出样本。最后采用softmax函数进行预测,得到相应的结果。
(3)将步骤(2)获得的原始图片的关键特征、以及目标图片的关键 特征输入训练好的第一生成网络的生成器GE中,以获得一张彩色图片;
具体而言,在生成器GE中,是先进行上卷积操作,后进行编码和解码 过程。
更具体而言,本步骤首先是将步骤(2)得到的两个1*4096的关键特 征分别变为大小为64*64*1的特征图e(j)和I(i),然后将两个特征图连接起 来,变为大小为64*64*2的特征图,随后将其输入生成器GE中的卷积模块 层,对该特征图执行上卷积操作,并获得大小为128*128*3特征图,最后, 将该特征图先后输入生成器GE的编码和解码模型,最终获得大小为 128*128*3的彩色图片。
(4)将步骤(3)得到的彩色图片输入训练好的第二网络模型的生成 器GA,以得到老化处理后的彩色图片;
本发明的第二网络模型(即年龄网络模型Age-Net)包括顺次连接的生 成器GA、判别器DA、VGG-16模型、以及第二情绪分类器。
第二网络模型中的生成器GA的结构与第一网络模型中的生成器GE中 的编码和解码模型完全相同,在此不再赘述。
第二网络模型中的判别器DA与第一网络模型中的判别器DE具有完全 相同的结构,在此不再赘述。
第二网络模型中的第二情绪分类器与第一网络模型中的第一情绪分类 器具有完全相同的结构,在此不再赘述。
本发明的第一网络模型和第二网络模型是共同训练获得,其具体训练 过程如下:
(1-1)从原始数据集(XO(1),XO(2),...,XO(N))和情绪数据集(XE(1), XE(2),...,XE(N))中分别任意选择一张图片XO(i)和XE(j),将图片XO(i)和XE(j) 分别输入到第一网络模型的编码器Ee和EI,以得到两个大小为1*4096的特 征向量I(i)和e(j),对这两个特征向量进行调整(即调用Tensorflow里面 reshape函数对这两个特征向量进行处理),以得到一个大小为64*64*1的中 间特征图,将该中间特征图输入生成器GE,以得到大小为128*128*3的彩 色图片所组成的集合(XG(1),XG(2),...,XG(N)),其中N表示原始数据集或 情绪数据集中的图片总数,且i和j均∈[1,N]。
(1-2)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张 彩色图片输入判别器DE中,以得到所有彩色图片对应的第一识别结果(yG(1), yG(2),...,yG(N)),根据所有彩色图片对应的第一识别结果(yG(1),yG(2),..., yG(N))获取判别器的损失和生成器的损失;
具体而言,判别器的损失等于:
其中XO(i)表示原始数据集XO(1),XO(2),...,XO(N)中的第i个数据,yG(i) 表示第一识别结果yG(1),yG(2),...,yG(N)中的第i个数据。
生成器的损失等于:
(1-3)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张 彩色图片输入第一情绪分类器中,以得到所有彩色图片对应的第二识别结 果yE(1),yE(2),...,yE(N),根据该第二识别结果yE(1),yE(2),...,yE(N)与真实的 情绪标签yE(1)’,yE(2)’,...,yE(N)’)获取情绪分类损失;
具体而言,情绪分类损失为:
(1-4)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张 彩色图片分别输入编码器Ee’和EI’中,以分别得到编码结果(yEe(1),yEe(2),..., yEe(N))和(yEI(1),yEI(2),...,yEI(N)),根据编码结果(yEe(1),yEe(2),...,yEe(N))与 特征图(yEe(1)’,yEe(2)’,...,yEe(N)’)获取编码器Ee’的损失,并根据编码结果 (yEI(1),yEI(2),...,yEI(N))与特征图(yEI(1)’,yEI(2)’,...,yEI(N)’)获取编码器EI’的 损失;
具体而言,编码器Ee’的损失等于:
编码器EI’的损失等于:
(1-5)根据步骤(1-2)得到的判别器的损失和生成器的损失、步骤(1-3) 得到的情绪分类损失、以及步骤(1-4)得到的编码器Ee’和编码器EI’的损 失,对第一网络模型进行迭代训练,直到第一网络模型的训练目标优化函 数收敛为止;
具体而言,第一网络模型的训练目标优化函数为:
(a)判别器的优化函数:
LD(E)=Ladv(DE)
(b)生成器的优化函数:
(1-6)先后将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))输入 到第二网络模型的生成器GA中,以得到目标图片集合(XGA(1),XGA(2),..., XGA(N));
(1-7)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N)) 中的每一张目标图片输入第二网络模型的判别器DA中,以得到所有彩色图 片对应的第三识别结果yGA(1),yGA(2),...,yGA(N),根据所有彩色图片对应的 第三识别结果yGA(1),yGA(2),...,yGA(N)获取判别器DA的损失和生成器GA的损失;
具体而言,判别器的损失为:
生成器的损失为:
(1-8)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N)) 中的每一张目标图片输入VGG-16模型中,以得到所有目标图片对应的年 龄识别结果yAge(1),yAge(2),...,yAge(N),根据年龄识别结果yAge(1),yAge(2),..., yAge(N)和目标老化年龄标签yAge(1)’,yAge(2)’,...,yAge(N)’获取年龄分类损失;
在本步骤中,目标老化年龄是5个区间构成的区间集合,即为{11-20, 21-30,31-40,41-50,50+},指定的目标老化年龄即为该区间集合中的任意一 个区间。
本步骤中的年龄分类损失为:
(1-9)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N)) 中的每一张目标图片输入到第二情绪分类器中,以得到所有目标图片对应 的情绪识别结果yEA(1),yEA(2),...,yEA(N),根据情绪识别结果yEA(1), yEA(2),...,yEA(N)和真实的情绪标签yEA(1)’,yEA(2)’,...,yEA(N)’获取情绪分类 损失;
具体而言,本步骤中的情绪分类损失为:
(1-10)根据步骤(1-7)得到的判别器DA的损失和生成器GA的损失、 步骤(1-8)得到的年龄分类损失、以及步骤(1-9)得到的情绪分类损失对 第二网络模型进行迭代训练,直到该第二网络模型的训练目标优化函数收 敛为止。
具体而言,第二网络模型的训练优化函数为:
(c)判别器的优化函数:
(d)生成器的优化函数:
(1-11)重复上述步骤(1-1)至(1-10),直至迭代次数达到最大设定 迭代次数(10万次)、或者待测试人工智能模型的预测误差较大(大于0.5)、 或者替代模型的损失函数较大(大于0.5)为止,从而得到训练好的第一网 络模型和第二网络模型;
第一网络模型和第二网络模型是通过“控制门”(即GATE,其可以看成 一个控制门,就是第一网络模型生成的图片必须满足上述判断条件,才能 接通)进行连接,从而实现端到端训练过程。
需要注意的是,在训练过程中,“GATE”一直处于待定状态,一旦 Emotion-Net生成合格的图片,“GATE”结构关闭,从而实现端到端的训练 过程。
优选地,本发明的上述训练过程还可以包括在上述步骤(1-11)之后, 利用测试数据集对训练好的第一网络模型和第二网络模型进行老化处理, 并统计老化结果。
具体而言,本步骤是对测试中每一个老化结果进行判断,从而得出系 统的老化性能。随机挑选500个志愿者。对测试完的结果进行好坏的判断, 每人对每一个测试结果都进行判断。
优选地,本发明采用的老化数据集为CACD和Morph-II,人脸情绪数 据集为CFEE,CACD图片有160000张,90%用于训练,其它用作测试, 老化区间为{11-20,21-30,31-40,41-50,50+.};Morph-II有52099张图片, 主要用于性能测试。CFEE有5962张图片,26种不同的情绪特征,5365张 图片用于训练,597张图片用于测试。
优选地,本发明方法是用tensorflow框架实现的,在NVIDIATesla P100 上进行实现的,batch大小为128,最大迭代次数为300000。训练方法采用 10倍交叉验证方法,采用Adam优化器对系统进行更新。
测试结果:
本发明所有实验都是NVIDIATesla P100上用Tensorflow实现的,批大 小(Batchsize)为128,最大迭代次数为300000,训练方法采用1-fold交 叉验证方法。整个系统训练花费46个小时本实验中,本发明采用Adam优 化器,初始学习率为0.0002,且β1和β2费别设为0.5和0.99。
图6给出不同情绪学习结果,比较算法为目前最好的算法StarGAN网 络,学习情绪为Angry(生气的),Disgusted(恶心的),Fearful(害怕的), Happy(高兴的),Sad(生气的)以及Surprised(惊讶的)。从实验结果可以 看出我们算法能很好地学习人脸不同情绪,且能逼真显示出来。
图6给出不同情绪学习结果,比较算法为目前最好的算法StarGAN网 络,学习情绪为Angry(生气的),Disgusted(恶心的),Fearful(害怕的), Happy(高兴的),Sad(生气的)以及Surprised(惊讶的)。从实验结果可以 看出我们算法能很好地学习人脸不同情绪,且能逼真显示出来。
图7给出不同情绪下老化结果,我们可以看到不同人脸情绪下的老化 结果不一样,且我们算法能逼真学习到不同情绪下的老化特性,并逼真显 示出来。
在相同的测试数据集情况下,本发明的性能和最新的老化算法CAAE, acGAN、以及IPCGAN进行比较,从以下4个方面进行比较:(1)情绪分 类准确率即最终生成的图片是否学习好目标图片的情绪;(2)年龄分类准 确率即最终老化的图片是否达到目标要求;(3)脸部认证准确率,即最终 生成图片还是不是原始那个人;(4)图片质量,即图片是否清晰;表1给出详细结果,从表中可以得出我们提出在这4个方面表现最好。
用我们算法对测试集机型老化处理,并用最新的年龄预测算法对老化 结果进行判断,判别该结果是否达到指定的年龄区间里面,进而统计合格 老化结果,表2给出最新年龄预测算法预测结果,预测算法分别为 Ranking-CNN、DLDL、DEX、dLDLF、DRF、以及AR-Net,这其中AR-Net 算法年龄预测准确率最高。丛表2可以看出,AR-Net预测大多数结果都达 到指定年龄区间,这也证明我们算法有效性。
表1不同算法老化结果比较
不同性能指标 | CAAE | acGAN | IPCGAN | 本发明算法 |
情绪分类准确率 | - | - | - | 96.41% |
年龄分类准确率 | 22.13% | 30.17% | 31.34% | 35.41% |
脸部认证准确率 | 90.41% | 82.62% | 93.13% | 98.72% |
图片质量 | 69.64% | 40.13% | 72.42% | 83.14% |
表2不同年龄预测算法对人脸老化处理结果的预测准确率
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多情绪的人脸老化处理方法,其特征在于,包括以下步骤:
(1)获取一张原始图片和一张与该原始图片对应的目标图片;
(2)将步骤(1)获取的原始图片和目标图片分别输入训练好的第一网络模型的编码器Ee和EI中,以分别得到原始图片的关键特征和目标图片的关键特征;
(3)将步骤(2)获得的原始图片的关键特征、以及目标图片的关键特征输入训练好的第一生成网络的生成器GE中,以获得一张彩色图片;
(4)将步骤(3)得到的彩色图片输入训练好的第二网络模型的生成器GA,以得到老化处理后的彩色图片。
2.根据权利要求1所述的人脸老化处理方法,其特征在于,
编码器Ee和EI都采用VGG-16网络结构,且只保留第一个全连接层;
第一网络模型中的生成器GE包括卷积模块层、以及编码和解码模型;
卷积模块层是由上采样层、卷积层、激活函数按前后串联形成,其中,上采样步长为2,输出大小128*128*1,卷积核尺寸为1*1,卷积步长为1,激活函数采用ReLU,输出大小为128*128*3;
编码和解码模型的结构如下:
第一层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成(如图3),输入大小为128*128*3。其中,卷积核大小为1*1,步长为2,输出大小为64*64*64,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,输入大小为64*64*64。其中,卷积核大小为1*1,步长为2,输出大小为32*32*128,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,输入大小为32*32*128。其中,卷积核大小为1*1,步长为2,输出大小为16*16*256,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第四层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,输入大小为16*16*256。其中,卷积核大小为1*1,步长为2,输出大小为8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第五层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成,输入大小为8*8*512。其中,上采样步长为2,输出大小16*16*256,卷积核尺寸为1*1,卷积步长为1,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU,输出大小为16*16*256。
第六层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成,输入大小为16*16*256。其中,上采样步长为2,输出大小32*32*128,卷积核尺寸为1*1,卷积步长为1,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU,输出大小为32*32*128。
第七层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成,输入大小为32*32*128。其中,上采样步长为2,输出大小64*64*64,卷积核尺寸为1*1,卷积步长为1,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU,输出大小为64*64*64。
第八层是上卷积模块层,由上采样层、卷积层、正则化层、激活函数按顺序前后串联形成,输入大小为64*64*64。其中,上采样步长为2,输出大小128*128*32,卷积核尺寸为1*1,卷积步长为1,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU,输出大小为128*128*32。
第九层是卷积模块层,由卷积层、正则化层、激活函数按顺序前后串联形成,输入大小为128*128*32,其中,卷积核尺寸为1*1,卷积步长为1,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU,输出大小为128*128*3。
3.根据权利要求1或2所述的人脸老化处理方法,其特征在于,第一网络模型中判别器DE的结构为:
第一层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,输入大小为128*128*3。其中,卷积核大小为1*1,步长为2,输出大小为64*64*64,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,输入大小为64*64*64。其中,卷积核大小为1*1,步长为2,输出大小为32*32*128,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,输入大小为32*32*128。其中,卷积核大小为1*1,步长为2,输出大小为16*16*256,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第四层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,输入大小为16*16*256。其中,卷积核大小为1*1,步长为2,输出大小为8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第五层是第一个全连接层,对第四层输出进行全连接操作,输出为1*4096。
第六层是第二个全连接层,对第四层输出进行全连接操作,输出为1*1024。
第七层是第三个全连接层,对第四层输出进行全连接操作,输出为1*512,最后采用softmax函数进行预测,进而判别图片的真伪。
4.根据权利要求1至3中任意一项所述的人脸老化处理方法,其特征在于,第一网络模型中第一情绪分类器的结构如下:
第一层是卷积模块层,其是由卷积层、池化层、正则化操作以及激活函数组成,且每个输入标签大小为128*128*3,其中,卷积核大小为1*1,步长为2,池化层采用最大池化操作,步长为2,输出大小未32*32*64,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU;
第二层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,且每个输入标签大小为32*32*64,其中,卷积核大小为1*1,步长为2,输出大小未16*16*256,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU;
第三层是卷积模块层,其是由卷积层、正则化操作以及激活函数组成,且每个输入标签大小为16*16*256,其中,卷积核大小为1*1,步长为2,输出大小未8*8*512,正则化操作的local_size是5,alpha值是0.0001,beta值是0.75,激活函数采用ReLU。
第四层是第一个全连接层,将第三层输出进行全连接操作,输出为1*1024。
第五层是第二个全连接层,将第四层输出进行全连接操作,输出为1*512。
第六层是第三个全连接层,对第五层的输出进行全连接操作,输出大小为1*256的输出样本。最后采用softmax函数进行预测,得到相应的结果。
5.根据权利要求1所述的人脸老化处理方法,其特征在于,步骤(3)具体为,首先将步骤(2)得到的两个1*4096的关键特征分别变为大小为64*64*1的特征图e(j)和I(i),然后将两个特征图连接起来,变为大小为64*64*2的特征图,随后将其输入生成器GE中的卷积模块层,对该特征图执行上卷积操作,并获得大小为128*128*3特征图,最后,将该特征图先后输入生成器GE的编码和解码模型,最终获得大小为128*128*3的彩色图片。
6.根据权利要求1所述的人脸老化处理方法,其特征在于,第一网络模型和第二网络模型是共同训练获得,其具体训练过程为:
(1-1)从原始数据集(XO(1),XO(2),...,XO(N))和情绪数据集(XE(1),XE(2),...,XE(N))中分别任意选择一张图片XO(i)和XE(j),将图片XO(i)和XE(j)分别输入到第一网络模型的编码器Ee和EI,以得到两个大小为1*4096的特征向量I(i)和e(j),对这两个特征向量进行调整,以得到一个大小为64*64*1的中间特征图,将该中间特征图输入生成器GE,以得到大小为128*128*3的彩色图片所组成的集合(XG(1),XG(2),...,XG(N)),其中N表示原始数据集或情绪数据集中的图片总数,且i和j均∈[1,N]。
(1-2)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张彩色图片输入判别器DE中,以得到所有彩色图片对应的第一识别结果(yG(1),yG(2),...,yG(N)),根据所有彩色图片对应的第一识别结果(yG(1),yG(2),...,yG(N))获取判别器的损失和生成器的损失;
其中判别器的损失等于:
Ladv(DE)=X[(DE(XO(i)))2]+yG(i)[(yG(i)-1)2]
其中XO(i)表示原始数据集XO(1),XO(2),...,XO(N)中的第i个数据,yG(i)表示第一识别结果yG(1),yG(2),...,yG(N)中的第i个数据。
生成器的损失等于:
Ladv(DE)=yG(i)[(yG(i))-1)2]
(1-3)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张彩色图片输入第一情绪分类器中,以得到所有彩色图片对应的第二识别结果yE(1),yE(2),...,yE(N),根据该第二识别结果yE(1),yE(2),...,yE(N)与真实的情绪标签yE(1)’,yE(2)’,...,yE(N)’)获取情绪分类损失;
其中情绪分类损失为:
(1-4)将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))中的每张彩色图片分别输入编码器Ee’和EI’中,以分别得到编码结果(yEe(1),yEe(2),...,yEe(N))和(yEI(1),yEI(2),...,yEI(N)),根据编码结果(yEe(1),yEe(2),...,yEe(N))与特征图(yEe(1)’,yEe(2)’,...,yEe(N)’)获取编码器Ee’的损失,并根据编码结果(yEI(1),yEI(2),...,yEI(N))与特征图(yEI(1)’,yEI(2)’,...,yEI(N)’)获取编码器EI’的损失;
其中编码器Ee’的损失等于:
编码器EI’的损失等于:
(1-5)根据步骤(1-2)得到的判别器的损失和生成器的损失、步骤(1-3)得到的情绪分类损失、以及步骤(1-4)得到的编码器Ee’和编码器EI’的损失,对第一网络模型进行迭代训练,直到第一网络模型的训练目标优化函数收敛为止;
(1-6)先后将步骤(1-1)得到的集合(XG(1),XG(2),...,XG(N))输入到第二网络模型的生成器GA中,以得到目标图片集合(XGA(1),XGA(2),...,XGA(N));
(1-7)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N))中的每一张目标图片输入第二网络模型的判别器DA中,以得到所有彩色图片对应的第三识别结果yGA(1),yGA(2),...,yGA(N),根据所有彩色图片对应的第三识别结果yGA(1),yGA(2),...,yGA(N)获取判别器DA的损失和生成器GA的损失;
其中判别器的损失为:
Ladv(DA)=X[(DE(XO(i)|yAge(i)'))2]+yGA(i)[(yGA(i)-1)2]
生成器的损失为:
Ladv(GA)=yGA(i)[(yGA(i)-1)2]
(1-8)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N))中的每一张目标图片输入VGG-16模型中,以得到所有目标图片对应的年龄识别结果yAge(1),yAge(2),...,yAge(N),根据年龄识别结果yAge(1),yAge(2),...,yAge(N)和目标老化年龄标签yAge(1)’,yAge(2)’,...,yAge(N)’获取年龄分类损失;
其中年龄分类损失为:
(1-9)将步骤(1-6)得到的目标图片集合(XGA(1),XGA(2),...,XGA(N))中的每一张目标图片输入到第二情绪分类器中,以得到所有目标图片对应的情绪识别结果yEA(1),yEA(2),...,yEA(N),根据情绪识别结果yEA(1),yEA(2),...,yEA(N)和真实的情绪标签yEA(1)’,yEA(2)’,...,yEA(N)’获取情绪分类损失;
其中情绪分类损失为:
(1-10)根据步骤(1-7)得到的判别器DA的损失和生成器GA的损失、步骤(1-8)得到的年龄分类损失、以及步骤(1-9)得到的情绪分类损失对第二网络模型进行迭代训练,直到该第二网络模型的训练目标优化函数收敛为止。
(1-11)重复上述步骤(1-1)至(1-10),直至迭代次数达到最大设定迭代次数、或者待测试人工智能模型的预测误差大于0.5、或者替代模型的损失函数大于0.5为止,从而得到训练好的第一网络模型和第二网络模型。
9.一种基于多情绪的人脸老化处理系统,其特征在于,包括:
第一模块,用于获取一张原始图片和一张与该原始图片对应的目标图片;
第二模块,用于将第一模块获取的原始图片和目标图片分别输入训练好的第一网络模型的编码器Ee和EI中,以分别得到原始图片的关键特征和目标图片的关键特征;
第三模块,用于将第二模块获得的原始图片的关键特征、以及目标图片的关键特征输入训练好的第一生成网络的生成器GE中,以获得一张彩色图片;
第四模块,用于将第三模块得到的彩色图片输入训练好的第二网络模型的生成器GA,以得到老化处理后的彩色图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110054794.XA CN112766143B (zh) | 2021-01-15 | 2021-01-15 | 一种基于多情绪的人脸老化处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110054794.XA CN112766143B (zh) | 2021-01-15 | 2021-01-15 | 一种基于多情绪的人脸老化处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766143A true CN112766143A (zh) | 2021-05-07 |
CN112766143B CN112766143B (zh) | 2023-08-25 |
Family
ID=75701715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110054794.XA Active CN112766143B (zh) | 2021-01-15 | 2021-01-15 | 一种基于多情绪的人脸老化处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766143B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918743A (zh) * | 2021-12-15 | 2022-01-11 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种面向长尾分布场景下图片分类的模型训练方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846350A (zh) * | 2018-06-08 | 2018-11-20 | 江苏大学 | 容忍年龄变化的人脸识别方法 |
CN109523463A (zh) * | 2018-11-20 | 2019-03-26 | 中山大学 | 一种基于条件生成对抗网络的人脸老化方法 |
CN110852935A (zh) * | 2019-09-26 | 2020-02-28 | 西安交通大学 | 一种人脸图像随年龄变化的图像处理方法 |
US20200210773A1 (en) * | 2019-01-02 | 2020-07-02 | Boe Technology Group Co., Ltd. | Neural network for image multi-label identification, related method, medium and device |
KR20200105446A (ko) * | 2019-02-28 | 2020-09-07 | 주식회사 하가 | 감정 인식 장치 및 감정 인식 방법 |
-
2021
- 2021-01-15 CN CN202110054794.XA patent/CN112766143B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846350A (zh) * | 2018-06-08 | 2018-11-20 | 江苏大学 | 容忍年龄变化的人脸识别方法 |
CN109523463A (zh) * | 2018-11-20 | 2019-03-26 | 中山大学 | 一种基于条件生成对抗网络的人脸老化方法 |
US20200210773A1 (en) * | 2019-01-02 | 2020-07-02 | Boe Technology Group Co., Ltd. | Neural network for image multi-label identification, related method, medium and device |
KR20200105446A (ko) * | 2019-02-28 | 2020-09-07 | 주식회사 하가 | 감정 인식 장치 및 감정 인식 방법 |
CN110852935A (zh) * | 2019-09-26 | 2020-02-28 | 西安交通大学 | 一种人脸图像随年龄变化的图像处理方法 |
Non-Patent Citations (1)
Title |
---|
邹建成;曹秀玲;: "一种基于改进的卷积神经网络的人脸表情识别方法", 北方工业大学学报, no. 02 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918743A (zh) * | 2021-12-15 | 2022-01-11 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种面向长尾分布场景下图片分类的模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112766143B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN110210486B (zh) | 一种基于素描标注信息的生成对抗迁移学习方法 | |
CN111145116B (zh) | 一种基于生成对抗网络的海面雨天图像样本增广方法 | |
CN107229914B (zh) | 一种基于深度q学习策略的手写数字识别方法 | |
CN110046249A (zh) | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN112766315B (zh) | 一种用于测试人工智能模型鲁棒性的方法和系统 | |
CN111079784B (zh) | 基于卷积神经网络的烘烤过程中烤烟烘烤阶段识别方法 | |
CN109741341A (zh) | 一种基于超像素和长短时记忆网络的图像分割方法 | |
CN112766062A (zh) | 一种基于双流深度神经网络的人体行为识别方法 | |
CN110414626A (zh) | 一种猪只品种识别方法、装置和计算机可读存储介质 | |
CN114170484B (zh) | 图片属性预测方法、装置、电子设备和存储介质 | |
CN113673482A (zh) | 基于动态标签分配的细胞抗核抗体荧光识别方法及系统 | |
CN115909011A (zh) | 基于改进的SE-Inception-v3网络模型的天文图像自动分类方法 | |
CN115331284A (zh) | 一种基于自愈机制的真实场景下的人脸表情识别方法及系统 | |
CN108416795A (zh) | 基于排序池化融合空间特征的视频动作识别方法 | |
CN114743133A (zh) | 一种轻量化的小样本视频分类识别方法及系统 | |
CN112766143B (zh) | 一种基于多情绪的人脸老化处理方法和系统 | |
CN113705215A (zh) | 一种基于元学习的大规模多标签文本分类方法 | |
CN116306780B (zh) | 一种动态图链接生成方法 | |
CN105389573B (zh) | 一种基于局部三值模式分层重构的人脸识别方法 | |
Uittenbogaard et al. | Conditional transfer with dense residual attention: Synthesizing traffic signs from street-view imagery | |
CN111767842B (zh) | 基于迁移学习和自编码器数据增强的微表情种类判别方法 | |
CN111260570B (zh) | 基于循环一致性对抗网络的碑帖二值化背景噪声模拟方法 | |
CN112434614A (zh) | 一种基于Caffe框架的滑窗动作检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |