CN111667559A - 一种基于深度迁移网络的多形态人脸情感生成方法 - Google Patents

一种基于深度迁移网络的多形态人脸情感生成方法 Download PDF

Info

Publication number
CN111667559A
CN111667559A CN202010463495.7A CN202010463495A CN111667559A CN 111667559 A CN111667559 A CN 111667559A CN 202010463495 A CN202010463495 A CN 202010463495A CN 111667559 A CN111667559 A CN 111667559A
Authority
CN
China
Prior art keywords
expression
image
data set
network
stargan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010463495.7A
Other languages
English (en)
Other versions
CN111667559B (zh
Inventor
聂烜
李钦
刘龙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010463495.7A priority Critical patent/CN111667559B/zh
Publication of CN111667559A publication Critical patent/CN111667559A/zh
Application granted granted Critical
Publication of CN111667559B publication Critical patent/CN111667559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于深度迁移网络的多形态人脸情感生成方法,采取一种基于多特征密集残差卷积神经网络的情绪特征提取方法,使用残差网络对不同的卷积层提取出来的表情特征进行融合,充分利用不同卷积层提取出来的所有表情特征。选取StarGAN网络为迁移模型,基于Wasserstein距离函数对原网络中的判别器D进行了改进,并将基于多特征融合密集残差神经网络的特征提取方法加入改进后W‑StarGAN网络中,完成了静态人脸图像多表情迁移任务,最终得到多形态人脸情感图像。本发明减少了传统表情特征提取算法中的人工干预,最后通过表情识别实验验证本发明的表情特征提取方法能够有效提升表情特征提取的效果,整体表情识别率达到了93.82%,相较于传统CNN特征提取方法提高了1.49%。

Description

一种基于深度迁移网络的多形态人脸情感生成方法
技术领域
本发明涉及人脸图像领域,特别涉及人脸表情迁移技术。
背景技术
对表情迁移技术的研究现状进行研究分析后我们得出,现有的表情迁移方式主要包括两大类。第一种就是改变整个人脸,实验通过改变图像或者视频当中的人物面部形态来完成对人物角色的改变,例如某些相机中提供的换脸功能。而在去年热度极高的DeepFakes技术就是改变人脸技术的一种比较完善的应用场景。第二种技术就是仅改变人脸中的部分表情细节,保留原面部图像的身份信息,通过不同表情之间的特征变化来达到表情的迁移。
Zhang等人研究出的人脸表情生成方法是采用的是几何驱动技术。作者通过对原始的面部情绪进行特征点获取以及标定,利用三维建模技术生成出一张具有个性化表情的面部图片,其中每一个表情图像都是由不同的几何模块和细节文理模块合成的。系统的关键技术在于对于原始表情的特征点获取部分,因此提出了一种基于立体技术的三维交互式情绪编辑方法,研究人员可以通过改变特征点的位置来改变模型中的面部表情,仿真出不同的表情之间的面部细节差异。但是这个方法是基于三维坐标信息的标定方法,需要采用专业的动点采集设备来进行特征点采集,模型建立的时间过长,同时作为工程应用不具备良好的迁移性。
Liu Z等人研究出的面部表情合成方法是基于一种情绪比率图像(expressionratio image,ERI)技术的映射方法。作者提出人脸表情的迁移过程不仅仅包含面部五官的运动变化,同时也需要加入光线明暗以及外观上的微妙变化,包括面部褶皱等等,这样才会得到更加逼真的表情图像。这种方法在完成表情迁移的过程中,在处理不同光源的图像时,没有关注到除了目标面部表情的逼真程度的其他要素,包括目标面部的物理特征,这个方法只是将原始表情图像完全覆盖到了目标的面部图像上去。不完全意义上算是表情的迁移。
Choi Y等人在2017提出了StarGAN神经网络,它是一种新型的生成网络,解决了传统GAN网络在完成多领域迁移过程中训练过于复杂的问题。其中关于面部表情的迁移上面,该模型也完成的较为出色。StarGAN网络完成了只需要训练一个GAN网络模型就可以对多个特征域执行图像到图像的风格迁移,同时也解决了同时在多个数据集上进行训练的问题。但是作为GAN网络的一种,StarGAN存在以下两个问题:判别器D训练的更加成熟同样也会导致了一个问题,模式崩坏(mode collapse),那就是生成器G最终生成的图像虽然很逼真,但是结果缺乏多样性。另一个问题是训练过程较为困难,GAN网络的训练过程并不是生成器G和判别器D同时开始训练,而是先训练判别器D一段时间再开始训练判别器D,在这个过程中需要不断协调G和D的训练程度;而且在训练过程中,判别器D和生成器G的损失函数无法指示训练过程,缺乏一个有意义的指标和生成图片的质量相关联。
RKumar等人也是在2017年提出了ObamaNet,这是一种改变面部动作的迁移网络。通过记录人物面部嘴唇的位置信息,不断改变坐标点,来生成能够模仿正常人类说话的连续动作。这种方法为了极大程度的保留人物信息,仅仅对人物的嘴巴部分进行了动作变换,而其他的部位没有进行变动。这样的方式虽然会极大程度的保留人物的特征信息,但是仅仅对单一器官进行修改影响了生成结果的整体形象。
Eskimez E等人在2018年发表的论文中提到了表情迁移应该具有多样化和个性化。论文提出了一种通过语音控制来对面部特征进行标定的系统,在训练过程中,为了让神经网络能够完成视频与音频之间的协调操作,忽略不同人物的面部表情之间的差异,作者在数据集中训练出来了一个与真实面部大小位置等物理信息均无关的人脸图像,再在最终合成之前加入不同表情的细节特征。这种方法与传统情绪迁移方法有相同的地方,不过是从音频获取对应的特征信息,然后与目标人物的面部图像相结合。系统虽然完成了不同的人物面部之间差异的融合,但是这种差异只是体现在人物外观信息,对于不同的个体存在的面部动作习惯并未进行进一步修改。
发明内容
要解决的技术问题
本发明首先要解决的在传统的表情特征提取算法中,表情特征的关键点以及向量都是人为添加的,这样的算法严重依赖于实验人员的操作方法,整体实验的效果不是很好的问题。其次解决传统的图像合成算法生成的效果存在单一化,不够逼真的问题。
技术方案
一种基于深度迁移网络的多形态人脸情感生成方法,其特征在于步骤如下:
步骤1:对数据集进行增强操作,将数据集分为训练数据集和测试数据集;所述的数据集为包含7种表情Angry,Disgust,Fear,Happy,Sad,Surprise,Normal的面部表情图像;
步骤2:为训练数据集生成标签文件:其中第一行表示训练数据集中总共包含多少张图像数据,第二行中的Angry,Disgust,Fear,Happy,Sad,Surprise,Normal分别表示图像所包含的特征信息,从第三行开始是分别对于每张图像的特征表示,以第三行的信息为列,代表的是数据集中的第一张图片,(1,-1,-1,-1,-1,-1,-1)序列与特征信息一一对应,1表示该图像包含有该种表情特征信息,-1则表示图像不包含该表情特征信息;按照同样的方法为测试数据集生成标签文件;
步骤3:利用训练数据集对多特征密集残差卷积神经网络进行训练,利用测试数据集进行测试提取人脸中的表情特征,最后利用JAFFE人脸表情数据集来验证所该网络对表情特征提取是否有效,如果无效继续训练直至有效;所述的多特征密集残差卷积神经网络从上到下分别为64个3*3的卷积核、最大池化层、3个残差块、512个3*3的卷积核、平均池化层、全连接层;
步骤4:利用迁移学习,选用StarGAN神经网络模型进行表情特征的迁移;
步骤5:将用于情绪特征提取的卷积神经网络加入StarGAN模型;
步骤6:利用Wasserstein距离改进StarGAN模型中的判别器网络;在判别器D的深层网络结构中取出了最后一层的sigmoid函数,得到W-starGAN模型;改进后的W-StarGAN的判别器D在每次训练完权值更新后把参数截断在一定范围内,使用Lipschitz限制来降低梯度下降过程中出现梯度爆炸或是梯度消失问题的可能性;
步骤7:对W-starGAN模型重新进行训练,训练好的W-starGAN即可很好的实现表情迁移,并且生成的图像逼真且特征明显。
步骤1中所述的数据集包括JAFFE数据集或者Fer2013数据集。
步骤1中所述的增强操作包括图像旋转和图像裁剪算法。
步骤3中所述的残差块总共使用了三个密集块来完成整体连接,在残差块模块中,最开始的卷积层输出了32个卷积特征图,当模块的个数不断增加时增加,按照密集块排列的顺序依次以2(i-1)为增幅增加提取特征的卷积层的个数,i为卷积层的层数。
有益效果
本发明提出的一种基于深度迁移网络的多形态人脸情感生成方法,有益效果如下:
1、因为在训练之前加入了图像数据增强方法,通过增强数据来扩展训练数据集,并且去除数据集中的一些影响因素,保证图像大小一致,提升了算法的训练效果。
2、提出一种基于多特征密集残差卷积神经网络的情绪特征提取方法,使用残差网络将不同卷积层提取出来的特征图进行融合,确保最后输出的结果中包含每一个卷积层提取到的特征细节。残差块同时也有利于解决在神经网络训练过程中损失函数出现的退化问题。本发明减少了传统表情特征提取算法中的人工干预,最后通过表情识别实验验证本发明的表情特征提取方法能够有效提升表情特征提取的效果,整体表情识别率达到了93.82%,相较于传统CNN特征提取方法提高了1.49%,证明了本发明提出的基于残差卷积神经网络的表情特征提取方法能够更好的对表情特征进行提取,为后续表情迁移算法打好基础。
3、提出一种基于迁移学习的面部情绪迁移方法。以StarGAN神经网络为迁移模型,同时基于Wasserstein距离函数进一步对网络模型进行改进,将由残差网络提取得到的情绪特征加入改进后的W-StarGAN网络中,经过进一步学习训练,得到多形态静态人脸情绪图像。实验结果表明,使用改进后的网络模型能够更好的完成表情迁移任务,生成的图像更加真实。相较于改进前的StarGAN网络模型,在SSIM数值上提升了0.076,在图像均方误差上降低了0.00035。
附图说明
图1面部情绪迁移系统
图2 StarGAN训练详细结构
图3人脸表情迁移的主要实施步骤
图4数据集标签文件
图5 CNN模型图
图6残差块DenseBlock(i)(i=1,2,3)
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明所解决问题的方法分为以下三个部分:
一:对现有情绪图像数据的预处理。因为收集大量样本成本高得令人望而却步,因此数据增强方法已被普遍采用。由于本实验采用的情绪图像数据集相对数量较小,因此在数据量有限的情况下,使用数据增强(Data Augmentation)来增加训练样本的多样性。主要使用了图像旋转以及图像随机裁剪算法,通过对实现原理以及作用的分析,将图像增强算法加入我们的神经网络训练的数据处理部分,为后续面部情绪特征的提取以及神经网络的训练打好基础。具体处理如下:
1、Fer2013面部表情数据集由35886张面部表情图片组成,使用图像旋转和图像随机裁剪算法。对数据集进行增强操作并生成与之对应的Label特征域文件。其中通过图像旋转方法扩展我们的训练数据集,采用图像裁剪的方法进一步扩展数据集,同时保证训练过程中图像数据大小一致,在实验中我们裁剪的大小为30*30,同时去除了训练数据中的其他信息影响,为后续的训练过程打好基础。
2、JAFFE数据集总共包括212张人脸表情数据,使用图像裁剪算法之后,图像数据扩大为原先的3倍,其中原始图像同样作为残差卷积神经网络的训练数据。后续我们将原始图像分为4个测试组进行测试。
二:面部表情特征提取。采取一种基于多特征密集残差卷积神经网络的情绪特征提取方法,使用残差网络对不同的卷积层提取出来的表情特征进行融合,充分利用不同卷积层提取出来的所有表情特征。同时残差网络的引入能够很好的解决神经网络在训练过程中损失函数出现的退化问题。实验验证本发明的表情特征提取方法能够有效提升表情特征提取的效果,整体表情识别率达到了93.82%,相较于传统CNN特征提取方法提高了1.49%,证明了本发明提出的基于残差卷积神经网络的表情特征提取方法能够更好的对表情特征进行提取,为后续表情迁移算法打好基础。
三:面部情绪迁移。在第二部分中采用了一种基于多特征融合的残差卷积神经网络的面部情绪特征提取算法。接下来需要完成表情图像的合成,这里采用迁移深度神经网络的方法进行面部情绪迁移算法。应用的理论特征迁移以及模型迁移,既在同一个人脸图像特征空间内,将正常的表情特征迁移至其他表情特征,完成不同情绪人脸图像的生成。具体是,首先选取StarGAN网络为迁移模型,并进一步基于Wasserstein距离函数对原网络中的判别器D进行了进一步改进,并将第二部分中提出的基于多特征融合密集残差神经网络的特征提取方法加入改进后W-StarGAN网络中,在第一部分中进行数据增强操作后的fer2013数据集上进行进一步的训练学习,完成了静态人脸图像多表情迁移任务,最终得到多形态人脸情感图像。通过主观与客观方法对本发明提出情绪迁移方法进行评估,结果表示改进后的W-StarGAN网络生成的面部表情图像的结构相似性SSIM(structuralsimilarity index)数值达到了0.895,相较于原StarGAN网络而言提高了0.076,图像均方误差值为0.00136,相较于传统StarGAN网络降低了0.00035,接下来使用主观测评方法,结果显示改进后的W-StarGAN网络生成的表情图像更逼真,更容易让人接受。验证了算法具有一定的有效性和鲁棒性。
图1所示,是面部表情迁移系统。系统最初部分需要模型完成图像中人脸部分的定位检测,接下来进一步提取人脸中的表情特征,最后完成表情特征的迁移,生成一副新的人脸表情图像。
图2所示,是StarGAN模型训练详细结构图,根据下图可以看出在该神经网络中,判别器(Discriminator)不仅需要判断出生成的图片的真伪还需要判断出生成图片应该处于哪一个任务域。在生成对抗网络结构中,生成器G和判别器D的目标任务是对立的。生成G的目标是合成出更加逼真而且符合特征的图像,让判别器D将合成的图像都判定是真的图像;但是判别器D的任务则是尽可能的将生成器G生成的图像全部找出来。
如图3所示,本发明提出的方法实施起来大致需要以上九个步骤。接下来将会分步,对每一步骤进行具体的描述。
第一步,下载数据集。
对于JAFFE数据集可以从网上搜索以下网址进行下载:http://www.kasrl.org/jaffe_info.html。得到的就是213张图像。由10名日本女学生,每个人做出7种表情组成.7种表情包括:Angry,Disgust,Fear,Happy,Sad,Surprise,Normal.(愤怒,厌恶,恐惧,高兴,悲伤,惊讶,中性)
对于Fer2013数据集可以去kaggle上获取,https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data,只要注册一个账号就能进行下载。但下载之后得到的数据为csv文件,然后要对csv文件进行解析,将数字格式的图像数据转换成后续实验需要的图像数据。就可以得到35886张面部表情图片组成,每张图片是由大小固定为48×48的灰度图像组成,共有7种表情;Angry,Disgust,Fear,Happy,Sad,Surprise,Normal.(愤怒,厌恶,恐惧,高兴,悲伤,惊讶,中性).接下按照来按照后续需求将图像分为两个大类,包括训练数据集和测试数据集。
第二步,数据集的增强操作。图像数据准备对神经网络与卷积神经网络模型训练有重要影响,当样本空间不够或者样本数量不足的时候会严重影响训练或者导致训练出来的模型泛化程度不够,识别率与准确率不高,针对此问题,实验在训练网络之前对数据集进行增强操作,可以利用图像旋转的方法:以图像的中心作为旋转中心,然后根据要求旋转一定的角度。用数据来解释的话就是将图像中的每一个像素点,通过正弦或者余弦公式进行计算,得到旋转一定角度后的像素点的位置信息。这样每变化一个角度即可得到一个新的图像,同时要确保旋转时不会丢失图像信息,用此种方式便可扩大数据集。
第三步,为训练集生成标签文件。标签文件的内容如图4所示。
其中第一行表示训练数据集中总共包含多少张图像数据,第二行中的Angry,Disgust,Fear,Happy,Sad,Surprise,Normal分别表示图像所包含的特征信息,从第三行开始是分别对于每张图像的特征表示,以第三行的信息为列,代表的是数据集中的一张图片,(1,-1,-1,-1,-1,-1,-1)序列与特征信息一一对应,1表示该图像包含有该种表情特征信息,-1则表示图像不包含该表情特征信息,为实验后续神经网络的训练做好基础。按照同样的方法为测试数据集生成标签文件;
第四步,将传统卷积神经网络改进为多特征密集残差卷积神经网络用于表情特征提取。
在大部分的卷积神经网络当中,浅层的卷积层一般卷积核都比较大,在对大尺寸图像的处理过程中,很容易对较小的图像特征进行提取,但是因为图像分割的过小无法对整个图像进行表述,而到了深层网络中,虽然可以提取出图像的整体外观以及描边信息,但是却无法获取到更加微小的细节信息。而无法将二者获取到的信息更好的融合是卷积神经网络用于提取图像特征的一个问题。为了解决这个问题,提出使用残差网络对卷积神经网络进行补充,完成表情图像的特征提取。
如图5展示的模型,即为改进后的多特征密集残差卷积神经网络。从上到下分别为64个3*3的卷积核用于提取面部情绪的局部特征,最大池化层用于降低维度,提取出特征差异最大的值,3个残差块用于将提取图像的整体外观以及描边信息更好的融合、512个3*3的卷积核,平均池化层用于帮助分类器按照不同的特征分类、一个全连接用于将局部特征重新通过权值矩阵组装成完整的图。图6为图5中残差块的具体展示。模型中展示出了总共使用了三个密集块来完成整体连接,在残差块模块中,最开始的卷积层输出了32个卷积特征图,当模块的个数不断增加时增加,按照密集块排列的顺序依次以2(i-1)为增幅增加提取特征的卷积层的个数,这样的改进一方面保证了模型在特征提取过程中的运算速度,同时新增的卷积层可以从图像中提取到更多的特征信息。
改进的多特征密集残差卷积神经网络:
(1)引入残差块。能够降低在卷及神经网络在提取特征的过程中出现的退化问题,同时也可以通过shortcut connection来将不同层提取到的特征图进行更好的融合。能够将图像中的整体特征和局部的细微特征相结合,更完整的提取出不同表情图像的特征细节。
(2)修改局部区域。因为密集网络模型DenseNet虽然可以把所有卷积层提取出来的表情图像特征进行更好的融合,但是在融合的过程中会产生过多的数据冗余,因此在传统的残差块基础上,扩大每一个block所包含的特征图的数量,同时减少block的长度。这样能够保证每一个卷积层所有需要计算的特征图的个数保持在一个2的次幂,从而加快卷积层对于图像数据的计算速度。最后再添加ResNet模型确保在减少数据冗余的同时,不影响整体特征信息的流动。
(3)添加了Island_loss层。增大了不同面部表情特征类之间的距离,缩减了同一面部表情特征类内部的距离。
第五步,利用第三步处理好的fer2013的训练集部分对多特征密集残差卷积神经网络进行训练,利用第三步处理好的fer2013的测试集部分进行测试。最后可以利用JAFFE人脸表情数据集来验证所该网络对表情特征提取是否有效。
第六步,利用迁移学习,选用适合的预训练模型进行表情特征的迁移。在图1中可知,在经过上述步骤已经实现利用卷积神经网络对人脸中的表情特征的提取,最后完成表情特征的迁移,生成一副新的人脸表情图像。这里选取StarGAN神经网络模型。StarGAN顾名思义就是具有星型结构的生成对抗网络,其解决的主要问题为多任务域(multi-domain)的图像到图像之间的转换,StarGAN的基本思想为将输入图像和目标域一起作为生成器(Generator)的输入得到生成的图像,再将生成的图像和起始域的值作为同一个生成器的输入得到重构的图像,StarGAN希望的是最终重构的图像和最开始输入的图像之间越接近越好。
第七步,将用于情绪特征提取的卷积神经网络加入StarGAN模型。StarGAN预训练模型的数据集celebA为人脸图像数据集,该数据集中拥有40多种特征标签,但是没有面部表情特征标签。加入了我们在第四步提出的基于残差网络的表情特征提取方法。使得StarGAN的卷积层可以实现情绪特征的提取。
第八步,利用Wasserstein距离改进StarGAN模型中的判别器网络。StarGAN的实质为:星形生成对抗网络。存在的问题如果判别器D训练得太好,生成器G就无法得到足够的梯度继续优化,而如果判别器D训练得太弱,指示作用不显著,同样不能让生成器D进行有效的学习。这样一来,判别器G的训练火候就非常难把控,这就是GAN训练难的根源。
在StarGAN网络中,GAN的目标函数是:
Figure BDA0002511848350000111
整个训练是一个迭代过程。其实极小极大化博弈可以分开理解,即在给定G的情况下先最大化V(D,G)而取D,然后固定D,并最小化V(D,G)而得到G。其中,给定G,最大化V(D,G)评估了Pg和Pdata之间的差异或距离。Pdata是指真实数据的分布,pz是指原始噪音的分布,pg是指经过生成器后的数据分布。其中G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。G(z)表示从噪音z到数据样本空间的映射函数。D(x)表示对于输入样本x输出判断为真实数据的概率。E代表求得期望,总得来说前一部分Ex~pdata(x)[logD(x)]可以理解为判别模型正确判定真实数据的对数期望,后一部分Ez~pz[log(1-D(G(z)))]可以理解为判别模型正确识别假样本的对数期望。
Wasserstein距离度量两个概率分布之间的距离,定义如下:
Figure BDA0002511848350000112
其中,P1和P2两种概率组合起来的所有的情况的联合分布的集合由Π(P1,P2)来表示,也就是说,P1和P2均以边缘分布的形式出现在Π(P1,P2)中。在联合分布中每一种可能出现的情况γ,都可以在(x,y)~γ采样中计算得出一个真实的样本x和一个生成的样本y对距离的期望值E(x,y)~γ[||x-y||]。在所有E(x,y)~γ[||x-y||]可能的联合分布中能够对这个期望值取到下界
Figure BDA0002511848350000121
这就是Wasserstein距离的定义。Wasserstein距离就是衡量把概率分布q“搬到”p的最小代价。虽然Wasserstein距离可以有效的解决loss函数在训练过程中的梯度消失问题,但是在实际问题中,公式(2)中的
Figure BDA0002511848350000122
并没有办法直接求解,因此本发明进行了以下改动。使用Lipschitz连续对公式(2)进行变形:
Figure BDA0002511848350000123
Lipschitz连续的意义是说,如果一个连续函数f,我们在函数上面提出了一个限制条件,即任意两个元素x1和x2在符合|f(x1)-f(x2)|≤K|x1-x2|的情况下,存在一个常数K≥0,此时将连续函数f的Lipschitz常数为K。
公式(3)的意思是对所有满足1-Lipschitz限制的函数f取到
Figure BDA0002511848350000125
的上界。也就是说,Lipschitz限制规定了连续函数f的最大局部变动幅度。
然后可以用神经网络的方法来解决上述优化问题:
Figure BDA0002511848350000124
公式(4),Pr指原分布,P(z)指通过生成一个随机变量z的分布,θz表示多层感知机的参数,并通过神经网络训练权重w。用公式(4)加入在判别器D最后一层的激活函数(sigmoid),进而影响到目标函数,得到W-StarGAN模型;改进后的W-StarGAN的判别器D在每次训练完权值更新后把参数截断在一定范围内,使用Lipschitz限制来降低梯度下降过程中出现梯度爆炸或是梯度消失问题的可能性。
改进后的W-StarGAN在判别器D的深层网络结构中取出了最后一层的sigmoid函数(sigmoid函数输出范围是(0,1),主要用于二分类问题),因此改进后的判别器D输出不再是true和fake两种结果,而是输出一般意义上的分数,也就是对生成器G生成的图片给出一个具体分值,通过后期加阈值来判断图片的逼真程度,解决了StarGAN模型的判别器D中缺乏一个有意义的指标和生成图片的质量相关联;
改进后的W-StarGAN的判别器D在每次训练完权值更新后把参数截断在一定范围内,使用Lipschitz限制来降低梯度下降过程中出现梯度爆炸或是梯度消失问题的可能性。
在改进之后,可以对判别器D进行更多的训练,而且不会出现原型中无法协调判别器D和生成器G之间的协调困难问题,因为改进后的网络,判别器D训练得越好,对于生成器G的提升就更有利。
第九步,对W-starGAN模型重新进行训练,训练好的W-starGAN即可很好的实现表情迁移,并且生成的图像逼真且特征明显。

Claims (4)

1.一种基于深度迁移网络的多形态人脸情感生成方法,其特征在于步骤如下:
步骤1:对数据集进行增强操作,将数据集分为训练数据集和测试数据集;所述的数据集为包含7种表情Angry,Disgust,Fear,Happy,Sad,Surprise,Normal的面部表情图像;
步骤2:为训练数据集生成标签文件:其中第一行表示训练数据集中总共包含多少张图像数据,第二行中的Angry,Disgust,Fear,Happy,Sad,Surprise,Normal分别表示图像所包含的特征信息,从第三行开始是分别对于每张图像的特征表示,以第三行的信息为列,代表的是数据集中的第一张图片,(1,-1,-1,-1,-1,-1,-1)序列与特征信息一一对应,1表示该图像包含有该种表情特征信息,-1则表示图像不包含该表情特征信息;按照同样的方法为测试数据集生成标签文件;
步骤3:利用训练数据集对多特征密集残差卷积神经网络进行训练,利用测试数据集进行测试提取人脸中的表情特征,最后利用JAFFE人脸表情数据集来验证所该网络对表情特征提取是否有效,如果无效继续训练直至有效;所述的多特征密集残差卷积神经网络从上到下分别为64个3*3的卷积核、最大池化层、3个残差块、512个3*3的卷积核、平均池化层、全连接层;
步骤4:利用迁移学习,选用StarGAN神经网络模型进行表情特征的迁移;
步骤5:将用于情绪特征提取的卷积神经网络加入StarGAN模型;
步骤6:利用Wasserstein距离改进StarGAN模型中的判别器网络;在判别器D的深层网络结构中取出了最后一层的sigmoid函数,得到W-starGAN模型;改进后的W-StarGAN的判别器D在每次训练完权值更新后把参数截断在一定范围内,使用Lipschitz限制来降低梯度下降过程中出现梯度爆炸或是梯度消失问题的可能性;
步骤7:对W-starGAN模型重新进行训练,训练好的W-starGAN即可很好的实现表情迁移,并且生成的图像逼真且特征明显。
2.根据权利要求1所述的一种基于深度迁移网络的多形态人脸情感生成方法,其特征在于步骤1中所述的数据集包括JAFFE数据集或者Fer2013数据集。
3.根据权利要求1所述的一种基于深度迁移网络的多形态人脸情感生成方法,其特征在于步骤1中所述的增强操作包括图像旋转和图像裁剪算法。
4.根据权利要求1所述的一种基于深度迁移网络的多形态人脸情感生成方法,其特征在于步骤3中所述的残差块总共使用了三个密集块来完成整体连接,在残差块模块中,最开始的卷积层输出了32个卷积特征图,当模块的个数不断增加时增加,按照密集块排列的顺序依次以2(i-1)为增幅增加提取特征的卷积层的个数,i为卷积层的层数。
CN202010463495.7A 2020-05-27 2020-05-27 一种基于深度迁移网络的多形态人脸情感生成方法 Active CN111667559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010463495.7A CN111667559B (zh) 2020-05-27 2020-05-27 一种基于深度迁移网络的多形态人脸情感生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010463495.7A CN111667559B (zh) 2020-05-27 2020-05-27 一种基于深度迁移网络的多形态人脸情感生成方法

Publications (2)

Publication Number Publication Date
CN111667559A true CN111667559A (zh) 2020-09-15
CN111667559B CN111667559B (zh) 2022-08-02

Family

ID=72384984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010463495.7A Active CN111667559B (zh) 2020-05-27 2020-05-27 一种基于深度迁移网络的多形态人脸情感生成方法

Country Status (1)

Country Link
CN (1) CN111667559B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380395A (zh) * 2020-10-30 2021-02-19 华南理工大学 基于双流架构的图卷积网络的情感获取方法、系统及存储介质
CN112613552A (zh) * 2020-12-18 2021-04-06 北京工业大学 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN112699797A (zh) * 2020-12-30 2021-04-23 常州码库数据科技有限公司 基于联合特征对关系网络的静态人脸表情识别方法及系统
CN112767519A (zh) * 2020-12-30 2021-05-07 电子科技大学 结合风格迁移的可控表情生成方法
CN113192530A (zh) * 2021-04-26 2021-07-30 深圳追一科技有限公司 模型训练、嘴部动作参数获取方法、装置、设备及介质
CN113592001A (zh) * 2021-08-03 2021-11-02 西北工业大学 一种基于深度典型相关性分析的多模态情感识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055470A (ja) * 2016-09-29 2018-04-05 国立大学法人神戸大学 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム
WO2019011093A1 (zh) * 2017-07-12 2019-01-17 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置
CN109376692A (zh) * 2018-11-22 2019-02-22 河海大学常州校区 面向人脸表情识别的迁移卷积神经网络方法
CN109785227A (zh) * 2018-12-29 2019-05-21 天津大学 基于卷积神经网络的人脸情感颜色迁移方法
CN110084121A (zh) * 2019-03-27 2019-08-02 南京邮电大学 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110414371A (zh) * 2019-07-08 2019-11-05 西南科技大学 一种基于多尺度核卷积神经网络的实时人脸表情识别方法
CN111191564A (zh) * 2019-12-26 2020-05-22 三盟科技股份有限公司 基于多角度神经网络的多姿态人脸情绪识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055470A (ja) * 2016-09-29 2018-04-05 国立大学法人神戸大学 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム
WO2019011093A1 (zh) * 2017-07-12 2019-01-17 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置
CN109376692A (zh) * 2018-11-22 2019-02-22 河海大学常州校区 面向人脸表情识别的迁移卷积神经网络方法
CN109785227A (zh) * 2018-12-29 2019-05-21 天津大学 基于卷积神经网络的人脸情感颜色迁移方法
CN110084121A (zh) * 2019-03-27 2019-08-02 南京邮电大学 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110414371A (zh) * 2019-07-08 2019-11-05 西南科技大学 一种基于多尺度核卷积神经网络的实时人脸表情识别方法
CN111191564A (zh) * 2019-12-26 2020-05-22 三盟科技股份有限公司 基于多角度神经网络的多姿态人脸情绪识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KENG-CHENG LIU等: "Real-Time Facial Expression Recognition Based on CNN", 《2019 INTERNATIONAL CONFERENCE ON SYSTEM SCIENCE AND ENGINEERING (ICSSE)》, 5 September 2019 (2019-09-05), pages 120 - 123 *
刘伦豪杰等: "基于迁移卷积神经网络的人脸表情识别", 《电脑知识与技术》 *
刘伦豪杰等: "基于迁移卷积神经网络的人脸表情识别", 《电脑知识与技术》, no. 07, 5 March 2019 (2019-03-05) *
李婷婷等: "基于GAN改进的人脸表情识别算法及应用", 《吉林大学学报(理学版)》, no. 03, 26 May 2020 (2020-05-26), pages 163 - 168 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380395A (zh) * 2020-10-30 2021-02-19 华南理工大学 基于双流架构的图卷积网络的情感获取方法、系统及存储介质
CN112380395B (zh) * 2020-10-30 2022-04-22 华南理工大学 基于双流架构的图卷积网络的情感获取方法、系统及存储介质
CN112613552A (zh) * 2020-12-18 2021-04-06 北京工业大学 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN112613552B (zh) * 2020-12-18 2024-05-28 北京工业大学 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN112699797A (zh) * 2020-12-30 2021-04-23 常州码库数据科技有限公司 基于联合特征对关系网络的静态人脸表情识别方法及系统
CN112767519A (zh) * 2020-12-30 2021-05-07 电子科技大学 结合风格迁移的可控表情生成方法
CN112767519B (zh) * 2020-12-30 2022-04-19 电子科技大学 结合风格迁移的可控表情生成方法
CN112699797B (zh) * 2020-12-30 2024-03-26 常州码库数据科技有限公司 基于联合特征对关系网络的静态人脸表情识别方法及系统
CN113192530A (zh) * 2021-04-26 2021-07-30 深圳追一科技有限公司 模型训练、嘴部动作参数获取方法、装置、设备及介质
CN113192530B (zh) * 2021-04-26 2023-08-22 深圳追一科技有限公司 模型训练、嘴部动作参数获取方法、装置、设备及介质
CN113592001A (zh) * 2021-08-03 2021-11-02 西北工业大学 一种基于深度典型相关性分析的多模态情感识别方法
CN113592001B (zh) * 2021-08-03 2024-02-02 西北工业大学 一种基于深度典型相关性分析的多模态情感识别方法

Also Published As

Publication number Publication date
CN111667559B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN111667559B (zh) 一种基于深度迁移网络的多形态人脸情感生成方法
CN113221639B (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN113807265B (zh) 一种多样化的人脸图像合成方法及系统
CN111028319B (zh) 一种基于面部运动单元的三维非真实感表情生成方法
CN113901894A (zh) 一种视频生成方法、装置、服务器及存储介质
CN110796593A (zh) 基于人工智能的图像处理方法、装置、介质及电子设备
CN111369646B (zh) 一种融合注意力机制的表情合成方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN110610138A (zh) 一种基于卷积神经网络的面部情感分析方法
CN113298018A (zh) 基于光流场和脸部肌肉运动的假脸视频检测方法及装置
Kandeel et al. Facial expression recognition using a simplified convolutional neural network model
Dimlo et al. Innovative method for face emotion recognition using hybrid deep neural networks
CN116758621A (zh) 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法
CN113705480A (zh) 基于姿态识别神经网络的姿态识别方法、设备和介质
CN113469116A (zh) 一种结合lbp特征和轻量级神经网络的人脸表情识别方法
Kasi et al. A Deep Learning Based Cross Model Text to Image Generation using DC-GAN
Kaddoura Real-World Applications
CN113128456B (zh) 一种联合图片生成的行人重识别方法
Rehman et al. Investigation and Morphing Attack Detection Techniques in Multimedia: A Detail Review
Agianpuye et al. Synthesizing neutral facial expression on 3D faces using Active Shape Models
CN115631285B (zh) 基于统一驱动的人脸渲染方法、装置、设备及存储介质
CN117152843B (zh) 数字人的动作控制方法及其系统
Bansal et al. Dynamic ISL Word Recognition System using ResNet50 and RNN Deep Learning Models
Ma et al. Decoupled Two-Stage Talking Head Generation via Gaussian-Landmark-Based Neural Radiance Fields

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant