CN111553267B - 图像处理方法、图像处理模型训练方法及设备 - Google Patents
图像处理方法、图像处理模型训练方法及设备 Download PDFInfo
- Publication number
- CN111553267B CN111553267B CN202010344536.0A CN202010344536A CN111553267B CN 111553267 B CN111553267 B CN 111553267B CN 202010344536 A CN202010344536 A CN 202010344536A CN 111553267 B CN111553267 B CN 111553267B
- Authority
- CN
- China
- Prior art keywords
- image sample
- face image
- template
- initial
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 234
- 238000012545 processing Methods 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003672 processing method Methods 0.000 title claims abstract description 39
- 230000001815 facial effect Effects 0.000 claims abstract description 265
- 230000004927 fusion Effects 0.000 claims description 72
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000010801 machine learning Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 230000036544 posture Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 210000001508 eye Anatomy 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000012010 growth Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003698 anagen phase Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
Abstract
本申请涉及人工智能领域,提供了一种图像处理方法、图像处理模型训练方法及设备。所述图像处理方法包括:获取模板面部图像和至少两张初始面部图像;对所述模板面部图像进行编码,得到所述模板面部图像的属性特征;分别对各张所述初始面部图像进行编码,得到各张所述初始面部图像各自对应的面部身份特征;组合各个所述面部身份特征,得到组合身份特征;融合所述组合身份特征及所述属性特征,得到目标特征;解码所述目标特征,得到目标面部图像;所述目标面部图像与组合身份特征匹配、且与所述模板面部图像的属性特征匹配。采用本方法能够提高图像处理效率。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像处理方法、图像处理模型训练方法及设备。
背景技术
随着人工智能在图像处理技术上的不断发展,在计算机设备上对图像或者视频进行个性化处理,生成新的图像或者视频变得越来越普遍。例如,用户通过终端拍照后,对拍摄的照片进行美化等个性化处理,生成新的图像。
然而,目前这种图像处理方式需要用户手动操作,比如手动选择需要处理的图像区域或者手动选择美化图像的素材等。这种图像处理方式操作繁琐,而且对用户动手能力要求较高,导致图像处理的效率偏低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高图像处理效率的图像处理方法、图像处理模型训练方法及设备。
一种图像处理方法,所述方法包括:
获取模板面部图像和至少两张初始面部图像;
对所述模板面部图像进行编码,得到所述模板面部图像的属性特征;
分别对各张所述初始面部图像进行编码,得到各张所述初始面部图像各自对应的面部身份特征;
组合各个所述面部身份特征,得到组合身份特征;
融合所述组合身份特征及所述属性特征,得到目标特征;
解码所述目标特征,得到目标面部图像;所述目标面部图像与组合身份特征匹配、且与所述模板面部图像的属性特征匹配。
一种图像处理装置,所述装置包括:
图像获取模块,用于获取模板面部图像和至少两张初始面部图像;
第一编码模块,用于对所述模板面部图像进行编码,得到所述模板面部图像的属性特征;
第二编码模块,用于分别对各张所述初始面部图像进行编码,得到各张所述初始面部图像各自对应的面部身份特征;
特征组合模块,用于组合各个所述面部身份特征,得到组合身份特征;
特征融合模块,用于融合所述组合身份特征及所述属性特征,得到目标特征;
解码模块,用于解码所述目标特征,得到目标面部图像;所述目标面部图像与组合身份特征匹配、且与所述模板面部图像的属性特征匹配。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取模板面部图像和至少两张初始面部图像;
对所述模板面部图像进行编码,得到所述模板面部图像的属性特征;
分别对各张所述初始面部图像进行编码,得到各张所述初始面部图像各自对应的面部身份特征;
组合各个所述面部身份特征,得到组合身份特征;
融合所述组合身份特征及所述属性特征,得到目标特征;
解码所述目标特征,得到目标面部图像;所述目标面部图像与组合身份特征匹配、且与所述模板面部图像的属性特征匹配。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取模板面部图像和至少两张初始面部图像;
对所述模板面部图像进行编码,得到所述模板面部图像的属性特征;
分别对各张所述初始面部图像进行编码,得到各张所述初始面部图像各自对应的面部身份特征;
组合各个所述面部身份特征,得到组合身份特征;
融合所述组合身份特征及所述属性特征,得到目标特征;
解码所述目标特征,得到目标面部图像;所述目标面部图像与组合身份特征匹配、且与所述模板面部图像的属性特征匹配。
上述图像处理方法、装置、计算机设备和存储介质,在获取到至少两张初始面部图像和模板面部图像后,自动对各张初始面部图像和模板面部图像分别进行编码,得到各张初始面部图像各自对应的面部身份特征以及模板面部图像的属性特征,进一步组合各个所述面部身份特征,得到组合身份特征,接着融合得到的组合身份特征和属性特征得到目标特征,最后解码目标特征即可得到目标面部图像,避免了人工处理的繁琐操作,极大地提高了图像处理的效率。
一种图像处理模型训练方法,所述方法包括:
获取生成网络、无监督图像样本和自监督图像样本;所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;所述第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;所述第二初始面部图像样本和第二模板面部图像样本为相同的图像样本;
根据所述无监督图像样本对所述生成网络进行无监督训练;
根据所述自监督图像样本对所述生成网络进行自监督训练;
重复进入根据所述无监督图像样本对所述生成网络进行无监督训练的步骤,以使所述无监督训练和所述自监督训练交替进行,直至满足训练停止条件时结束训练;
结束训练时得到的生成网络用于根据对模板面部图像进行编码得到的属性特征以及对至少两张初始面部图像分别进行编码得到的面部身份特征,得到目标面部图像。
一种图像处理模型训练装置,所述装置包括:
获取模块,用于获取生成网络、无监督图像样本和自监督图像样本;所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;所述第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;所述第二初始面部图像样本和第二模板面部图像样本为相同的图像样本;
训练模块,用于根据所述无监督图像样本对所述生成网络进行无监督训练;根据所述自监督图像样本对所述生成网络进行自监督训练;重复进入根据所述无监督图像样本对所述生成网络进行无监督训练的步骤,以使所述无监督训练和所述自监督训练交替进行,直至满足训练停止条件时结束训练;结束训练时得到的生成网络用于根据对模板面部图像进行编码得到的属性特征以及对至少两张初始面部图像分别进行编码得到的面部身份特征,得到目标面部图像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取生成网络、无监督图像样本和自监督图像样本;所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;所述第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;所述第二初始面部图像样本和第二模板面部图像样本为相同的图像样本;
根据所述无监督图像样本对所述生成网络进行无监督训练;
根据所述自监督图像样本对所述生成网络进行自监督训练;
重复进入根据所述无监督图像样本对所述生成网络进行无监督训练的步骤,以使所述无监督训练和所述自监督训练交替进行,直至满足训练停止条件时结束训练;
结束训练时得到的生成网络用于根据对模板面部图像进行编码得到的属性特征以及对至少两张初始面部图像分别进行编码得到的面部身份特征,得到目标面部图像。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取生成网络、无监督图像样本和自监督图像样本;所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;所述第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;所述第二初始面部图像样本和第二模板面部图像样本为相同的图像样本;
根据所述无监督图像样本对所述生成网络进行无监督训练;
根据所述自监督图像样本对所述生成网络进行自监督训练;
重复进入根据所述无监督图像样本对所述生成网络进行无监督训练的步骤,以使所述无监督训练和所述自监督训练交替进行,直至满足训练停止条件时结束训练;
结束训练时得到的生成网络用于根据对模板面部图像进行编码得到的属性特征以及对至少两张初始面部图像分别进行编码得到的面部身份特征,得到目标面部图像。
上述图像处理模型训练方法、装置、计算机设备和存储介质,采用无监督数据和自监督数据交替进行模型训练,一方面由于采用无监督数据进行无监督训练时,不需要进行样本标注,可以大大降低模型训练的成本;另一方面引入自监督数据进行自监督训练来辅助训练生成网络,可以大幅提高生成网络在各种情况下的稳定性,且由于自监督训练和无监督训练均没有训练标签,在训练过程中可以引入各自姿态的样本进行训练,使得训练得到的生成网络对输入图像无任何姿态限制,可以处理任意面部图像。这样在利用训练完成的生成网络进行图像处理时,可以极大地提高图像处理效率。
附图说明
图1为一个实施例中图像处理方法的应用环境图;
图2为一个实施例中应用图像处理方法进行图像处理的结果示意图;
图3为一个实施例中图像处理方法的流程示意图;
图4为另一个实施例中图像处理方法所涉及面部图像的示意图;
图5为另一个实施例中应用图像处理方法进行图像处理的结果示意图;
图6为一个实施例中图像处理方法所涉及的模型的连接关系示意图;
图7为一个实施例中特征融合步骤的流程示意图;
图8为一个实施例中训练过程中各个模型的连接关系示意图;
图9为一个实施例中图像处理的流程框图;
图10为一个实施例中图像处理模型训练方法的流程示意图;
图11为一个实施例中图像处理装置的结构框图;
图12为一个实施例中图像处理模型训练装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像处理方法,可以应用于如图1所示的应用环境中。终端102和服务器104均可单独用于执行本申请实施例中提供的图像处理方法。终端102和服务器104也可通过交互协同执行本申请实施例中提供的图像处理方法。
需要说明的是,在本申请中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例提供的图像处理方法旨在根据至少两张初始面部图像及一张模板面部图像生成对应的目标面部图像,生成的目标面部图像的面部身份特征(如五官,皮肤颜色等)与各张初始面部图像均有一定的相似度,且目标面部图像中除面部身份特征之外的其他属性特征(包括发型,着装,背景,光线,姿态,表情等)与模板面部图像一致。
如图2所示,为一个实施例中应用图像处理方法进行图像处理的结果示意图。参考图2,其中,图2(a)和图2(b)为初始面部图像,图2(c)为模板面部图像,图2(d)为生成的目标面部图像,可以看出,图2(d)中人脸图像的五官特征(即面部身份特征)相似于图2(a)和图2(b),且图2(d)中人脸图像的发型(即属性特征)与图2(c)相同。
本申请实施例提供的图像处理方法涉及人工智能领域。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案主要涉及人工智能的计算机视觉技术和机器学习等技术。其中:
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请通过下述的实施例对涉及的计算机视觉技术和机器学习等技术进行说明。
在一个实施例中,如图3所示,提供了一种图像处理方法,以该方法应用于计算机设备为例来举例说明。该计算机设备具体可以是图1中的终端102或者服务器104。该图像处理方法包括以下步骤:
步骤302,获取模板面部图像和至少两张初始面部图像。
其中,初始面部图像和模板面部图像都是包括目标对象的面部的图像。目标对象可以是自然人、动物或者虚拟角色等。初始面部图像具体可以是初始人脸图像,模板面部图像具体可以是模板人脸图像。
需要说明的是,基于本申请提供的图像处理方法的目的,用于提供面部身份特征的图像为初始面部图像,用于提供属性特征的图像为模板面部图像。
具体地,计算机设备获取一张模板面部图像和至少两张初始面部图像。可以理解,计算机设备获取的初始面部图像通常为不相同的目标对象对应的面部图像。
在一个实施例中,初始面部图像可以是用户提供的图像,比如用户通过终端拍摄的人物照片等。模板面部图像可以是计算机设备提供给用户选择作为模板的图像,比如游戏角色图像或者公众人物图像等。在另外的实施例中,初始面部图像和模板面部图像可以都是用户提供的图像。此时,用户则需要指定提供的图像中,作为初始面部图像的图像和作为模板面部图像的图像。
在一个具体的实施例中,终端上可运行有图像处理应用,终端可根据用户操作开启图像处理应用,图像处理应用则可获取用户拍摄并选定的至少两张照片作为初始面部图像,并获取用户从模板面部图像集中选中的模板面部图像。
在一个实施例中,包括面部的图像可直接作为初始面部图像或者模板面部图像。当然,包括面部的图像可也可以经过截取后再作为初始面部图像或者模板面部图像。举例说明,如图4所示,图4(a)和图4(b)都可以是初始面部图像或者模板面部图像,图4(b)是图4(a)经过截取后得到的图像。
步骤304,对模板面部图像进行编码,得到模板面部图像的属性特征。
步骤306,分别对各张初始面部图像进行编码,得到各张初始面部图像各自对应的面部身份特征。
其中,编码是将信息从一种形式或格式转换为另一种形式或格式的过程。对初始面部图像进行编码,是对初始面部图像所包括的其中一种特征信息进行表达的过程。该特征信息具体可以是面部身份特征。对模板面部图像进行编码,是对模板面部图像所包括的另一种特征信息进行表达的过程。该特征信息具体可以是属性特征。面部身份特征和属性特征是不同的两种特征。
面部身份特征是面部中用于标识身份的特征。面部身份特征用于进行身份识别。面部身份特征可以是指通过数学计算或者神经网络训练得到的,能够用于区分不同对象的身份信息的数学特征。面部身份特征不因图像中面部的姿态、表情、光照或者纹理等数据的改变,而改变身份识别的结果。属性特征则是与身份识别无关的其他特征。属性特征可以包括姿态、表情、光照或者等特征中的至少一种。
具体地,计算机设备可选择传统的编码函数分别对各张初始面部图像和模板面部图像进行编码。传统的编码函数,如基于SIFT(Scale Invariant Feature Transform,尺度不变特征变换)算法或HOG(Histogram of Oriented Gradient,方向梯度直方图)算法的编码函数等。在另外的实施例中,计算机设备也可以选择基于机器学习的神经网络来对初始面部图像和模板面部图像进行编码。该用来编码的神经网络具体可以是基于卷积运算的编码模型等。
步骤308,组合各个面部身份特征,得到组合身份特征。
具体地,计算机设备可以将各个面部身份特征按照预设的规则进行叠加,得到组合身份特征。根据设定的规则不同,得到的组合身份特征可以包含各个面部身份特征的所有特征,也可以只包含各个面部身份特征的部分特征。通过设定不同的规则,可以控制生成的目标面部图像与各张初始面部图像的相似度。
如图5所示,为不同规则下生成目标面部图像的效果示意图。图5中第1列与第2列为初始面部图像,第1-3行分别初始面部图像与不同模板面部图像生成目标面部图像的效果图。其中,每行的第3、第4及第5列分别为初始面部图像的各个面部身份特征按照不同的预设规则进行叠加后最终生成的目标面部图像,由图5可以看出,由于预设的规则的不同,每行的第3、第4及第5列的目标面部图像分别与第1列与第2列的初始面部图像具有不同相似程度。
在一个实施例中,组合各个面部身份特征,得到组合身份特征包括:获取各个面部身份特征对应的组合权重,根据各个面部身份特征各自对应的组合权重叠加各个面部身份特征,得到组合身份特征。
其中,组合权重为预先设置的权重。通过对初始面部图像的面部身份特征设置权重,可控制目标面部图像与初始面部图像的相似度,初始面部图像的面部身份特征权重越大,则目标面部图像与该初始面部图像的相似度越高。
继续参考图5,每一行的第1列中,男性初始面部图像对应的初始面部特征权重更大,则最终得到的目标面部图像与第1列的初始面部图像相似度更高(更像男性);每一行的第3列中,女性初始面部图像对应的初始面部特征权重更大,则最终得到的目标面部图像与第3列的初始面部图像相似度更高(更像女性)。
具体地,面部身份特征通常包括多个特征通道,那么可以对面部身份特征设置统一的权重,也可以对面部身份特征对应的各个特征通道分别设置不同的权重,在进行叠加时,对属于同一维度的特征通道进行对应叠加。举个例子,假设初始面部图像A的面部身份特征包括3个特征通道依次分别为X1、X2、X3,初始面部图像B的面部身份特征包括3个特征通道分别依次为Y1、Y2、Y3,则可以对初始面部图像A设置统一的权重a,对初始面部图像B设置统一的权重b,那么叠加得到的组合身份特征包括的特征通道依次为(aX1+bY1)、(aX2+bY2)、(aX3+bY3);也可以对初始面部图像A的三个特征通道分别设置权重为a1、a2、a3,对初始面部图像A的三个特征通道分别设置权重为b1、b2、b3,那么叠加得到的组合身份特征包括的特征通道依次为(a1X1+b1Y1)、(a2X2+b2Y2)、(a3X3+b3Y3)。
在另外的实施例中,计算机设备在对各个面部身份特征进行叠加时,可以按照预设的规则对各个面部身份特征的特征通道进行选择,根据选择结果对属于同一维度的通道特征进行叠加。预设的规则例如可以是对第一张初始面部图像选择第一个特征通道和第三个特征通道,对第二张初始面部图像选择第二个特征通道和第三个通道特征,如上面的例子中,对初始面部图像A的面部身份特征所包括3个特征通道X1、X2、X3进行选择后得到特征通道X1、X3,对初始面部图像B的面部身份特征所包括3个特征通道Y1、Y2、Y3进行选择后得到特征通道Y2、Y3,则最后叠加得到的组合身份特征包含的特征通道为X1、Y2、(X3+Y3)。
步骤310,融合组合身份特征及属性特征,得到目标特征。
其中,融合是指通过一个数据表示多于一个数据,并包含这多于一个数据表达的信息。在本实施例中,将多于一个特征融合成一个特征,可以去除数据的离散性,便于后续的解码过程。
具体地,计算机设备可以对组合身份特征和属性特征进行组合、拼接或者按权重加和等操作,或者进一步通过神经网络对组合、拼接或者按权重加和等操作的结果进行运算,得到融合了两种特征信息的目标特征。
步骤312,解码目标特征,得到目标面部图像;目标面部图像与组合身份特征匹配、且与模板面部图像的属性特征匹配。
其中,解码是编码的逆过程。解码将通过另一种形式进行表达的数据还原到原来的形式或者格式,重构出与原来图像的形式或格式相同的新图像。
具体地,计算机设备在得到目标特征后,对目标特征进行解码还原得到目标面部图像。由于目标特征融合了由各张初始面部图像对应的面部身份特征得到的组合身份特征,以及模板面部图像的属性特征,则目标面部图像在面部身份特征上与各张初始面部图像保持一致,在属性特征上与模板面部图像保持一致。其中,计算机设备可选择传统的解码函数对目标特征进行解码,也可以选择神经网络来对目标特征进行解码。
在一个实施例中,模板面部图像是时间连续的视频帧序列中的其中一帧。该图像处理方法还包括:获取视频帧序列中的其他视频帧各自对应的目标面部图像;按照各个视频帧在视频帧序列中的时序位置,拼接各个视频帧所对应的目标面部图像,得到目标视频。
具体地,当模板面部图像是时间连续的视频帧序列的其中一帧时,计算机设备可重复上述步骤302-步骤310得到该视频帧序列中其他视频帧各自对应的目标面部图像,然后按照该视频帧序列中每一个视频帧在视频帧序列中的时序位置,拼接各个视频帧所对应的目标面部图像,得到目标视频,从而实现对一整个视频进行换脸。
上述图像处理方法,在获取到至少两张初始面部图像和模板面部图像后,自动对各张初始面部图像和模板面部图像分别进行编码,得到各张初始面部图像各自对应的面部身份特征以及模板面部图像的属性特征,进一步组合各个面部身份特征,得到组合身份特征,接着融合得到的组合身份特征和属性特征得到目标特征,最后解码目标特征即可得到目标面部图像,避免了人工处理的繁琐操作,极大地提高了图像处理的效率。
而且,通过组合各个面部身份特征,得到组合身份特征,可以控制目标面部图像与各初始面部图像的相似度,提高了图像处理的可操作性。
在一个实施例中,对模板面部图像进行编码,得到模板面部图像的属性特征包括:通过属性特征编码模型对模板面部图像进行编码,得到模板面部图像的属性特征;融合组合身份特征及属性特征,得到目标特征包括:通过特征融合模型对组合身份特征及属性特征进行融合处理,得到目标特征;解码目标特征,得到目标面部图像,包括:通过解码模型对目标特征进行解码,得到目标面部图像;其中,特征融合模型、解码模型与属性特征编码模型,通过交替使用无监督图像样本和自监督图像样本联合训练得到。
其中,属性特征编码模型、特征融合模型以及解码模型均为机器学习模型。这三个模型通过交替使用无监督图像样本和自监督图像样本联合训练得到。
无监督图像样本是没有训练标签的图像样本,用于无监督训练。无监督图像样本包括多组样本对,每组样本对包括初始面部图像样本和模板面部图像样本。自监督图像样本是能够自动产生训练标签的图像样本,用于自监督训练。自监督图像样本包括多组样本对,每组样本对包括初始面部图像样本、模板面部图像样本,且每组样本对中初始面部图像样本和模板面部图像样本为相同的图像。
在一个实施例中,计算机设备在对各张初始面部图像进行编码时,也可以通过机器学习模型实现。具体来说,计算机设备可通过识别特征编码模型分别对各张初始面部图像分别进行编码,得到各张初始面部图像各自对应的面部身份特征。
识别特征编码模型是通过通用图像样本训练得到,通用图像样本,是训练具有通用的面部身份特征编码能力的机器学习模型的训练样本。这种机器学习模型在各种人脸识别场景中应用十分广泛。通用的面部身份特征编码能力的机器学习模型所编码得到的面部身份特征,即符合本申请提供的图像处理方法对面部身份特征的需求,那么通用的面部身份特征编码能力的机器学习模型即可用作本申请提供的图像处理方法的识别特征编码模型。
也就是说,在本实施例中,计算机设备将通过四个模型(识别特征编码模型、属性特征编码模型、特征融合模型以及解码面部身份特征模型)对获取到的模板面部图像和至少两张初始面部图像来进行处理得到目标面部图像。通过四个模型共同处理,可以显著提高图像处理的效率和准确率。
如图6所示,为本实施例中图像处理方法所涉及的模型的连接关系示意图。由图6可以看出,计算机设备将两张初始面部图像Source1、Source2输入到识别特征编码模型中,分别得到Source1的面部身份特征Zid1和Source2的面部身份特征Zid2,通过特征组合模块对Zid1和Zid1进行组合,得到组合身份特征Zid,计算机设备将模板面部图像Reference输入属性特征编码模型,得到Reference的属性特征Zatt,进一步将组合身份特征Zid和属性特征Zatt输入特征融合模型,得到目标特征Zaim,最后将目标特征Zaim输入解码模型,得到目标面部图像Result。
本实施例中,通过深度学习的神经网络实现特征的编码与解码,利用神经网络强大的学习能力,根据从初始面部图像和模板面部图像中编码得到需要的有用特征,重建出保持了初始面部图像的面部身份特征以及模板面部图像的属性特征的模板面部图像。而且,特征融合模型、解码模型与属性特征编码模型,通过交替使用无监督图像样本和自监督图像样本联合训练所得,这样可以通过自监督学习对无监督学习进行辅助,使得训练得到的模型在图像生成时效果更佳,且模型训练过程不需要对样本进行标注,成本大大降低。
在一个实施例中,特征融合模型包括多个网络层;如图7所示,通过特征融合模型对组合身份特征及属性特征进行融合处理,得到目标特征包括:
步骤702,将第一个网络层确定为当前网络层,拼接组合身份特征及属性特征得到当前网络层的输入特征,将输入特征输入当前网络层,得到当前网络层的输出特征。
具体地,拼接的过程也就是对组合身份特征和属性特征进行通道合并的过程。例如,组合身份特征包括N个特征通道,属性特征包括M个特征通道,那么通道合并的结果则包括N+M个特征通道。
本实施例中,计算机设备将特征融合模型的第一个网络层确定为当前网络层,将组合身份特征及属性特征进行拼接后输入到第一个网络层后,第一个网络层对输入的特征进行深度学习运算,得到输出特征。其中,深度学习运算包括卷积运算等神经网络的深度运算,例如,可以通过卷积运算对输入的特征进行特征提取来得到输出特征。
步骤704,拼接当前网络层的输入特征和输出特征,得到更新后的输入特征。
具体地,计算机设备拼接当前网络层的输入特征和输出特征,将拼接后得到的特征确定为输入特征,从而得到更新后的输入特征。
步骤706,将下一个网络层确定为当前网络层。
步骤708,将更新后的输入特征作为当前网络层的输入特征输入当前网络层,得到当前网络层的输出特征。
步骤710,判断当前网络层是否为末尾网络层,若是,则进入步骤712,若否,则进入步骤704。
步骤712,将当前网络层的输出特征确定为目标特征。
本实施例中,通过将组合身份特征及属性特征输入到包括多个网络层的特征融合模型中进行多级融合,可以更好地对特征进行融合,使得最终得到的目标面部图像更加稳定。
在一个实施例中,属性特征编码模型、特征融合模型和解码模型包括于生成网络;生成网络的训练步骤包括:
1、获取无监督图像样本和自监督图像样本。
其中,无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;第二初始面部图像样本和第二模板面部图像样本为相同的图像样本。
2、根据无监督图像样本对生成网络进行无监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
其中,无监督图像样本包括若干组无监督样本对,每一组无监督样本对Unsupervised包括第一初始面部图像样本Source和第一模板面部图像样本Reference,即Unsupervised(Source,Reference)。无监督图像样本用于进行无监督训练,无监督训练也可称为无监督学习,是机器学习模型基于没有标注的样本数据进行学习的方式。
需要说明的是,生成网络通常与判别网络组成生成对抗网络(GenerativeAdversarial Network,简称GAN),在训练的过程中,生成网络与判别网络通过相互博弈的方式进行学习。生成网络从潜在空间(latent space)中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终生成以假乱真的图像。
因此,在本实施例中,计算机设备可根据无监督图像样本构建联合训练判别网络和生成网络的无监督训练损失函数,根据该无监督训练损失函数进行训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数。其中,判别网络可以是通用的判别网络,有监督图像样本中的图像样本均可以认为是真实样本,可用作判别网络的正样本;而生成网络基于初始面部图像样本和模板面部图像样本生成的目标图像样本则是生成的图像,可用作判别网络的负样本,判别网络学习将生成网络的输出从真实样本中尽可能分辨出来。
在一个实施例中,生成网络还包括识别特征编码模型,根据无监督图像样本对生成网络进行无监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数包括:通过识别特征编码模型对第一初始面部图像样本进行编码,得到第一初始面部图像样本的面部身份特征;通过属性特征编码模型对第一模板面部图像样本进行编码,得到第一模板面部图像样本的属性特征;将第一初始面部图像样本的面部身份特征及第一模板面部图像样本的属性特征依次输入特征融合模型及解码模型,得到第一目标面部图像样本;通过识别特征编码模型及属性特征编码模型分别对第一目标面部图像样本进行编码,得到第一目标面部图像样本的面部身份特征及属性特征;获取判别网络,将第一初始面部图像样本和第一模板面部图像样本中的至少一种作为判别网络的正样本,将第一目标面部图像样本作为判别网络的负样本;基于判别网络的判别损失、第一初始面部图像样本与第一目标面部图像样本之间面部身份特征的差异及第一模板面部图像样本与第一目标面部图像样本之间属性特征的差异,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
本实施例中,生成网络包括识别特征编码模型、属性特征编码模型、特征融合模型和解码模型。其中,通用的面部身份特征编码能力的机器学习模型所编码得到的面部身份特征,即符合本申请提供的图像处理方法对面部身份特征的需求,因此,通用的面部身份特征编码能力的机器学习模型即可用作本申请提供的图像处理方法的识别特征编码模型。本申请实施例中的识别特征编码模型可以预先单独进行训练,在后续训练过程中,则固定识别特征编码模型的模型参数,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
如图8所示,为训练过程中各个模型的连接关系示意图。参考图8,在无监督训练过程中,计算机设备将第一初始面部图像样本Source输入识别特征编码模型,输出第一初始面部图像样本Source的面部身份特征Zid,将第一模板面部图像样本Reference输入属性特征编码模型,输出第一模板面部图像样本Reference的属性特征Zatt,接着将面部身份特征Zid与属性特征Zatt输入特征融合模型中,输出目标特征Zaim,最后将目标特征Zaim输入解码模型,得到第一目标面部图像样本Result。
进一步地,计算机设备再将第一目标面部图像样本Result分别输入生成网络的识别特征编码模型和属性特征编码模型,得到第一目标面部图像样本Result的面部身份特征Xid和属性特征Xatt。
可以理解的是,本实施例中,由于是进行无监督训练,没有对应的训练标签,那么计算机设备可以分别获取判别网络的判别结果和样本标签之间的损失、第一目标面部图像样本Result的面部身份特征Xid和第一初始面部图像样本Source的面部身份特征Zid之间的损失、第一目标面部图像样本Result的属性特征Xatt和第一模板面部图像样本Reference的属性特征Zatt之间的损失。
这样,计算机设备就可以将判别损失(Discriminator Loss)、面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss)以及属性特征差(Xatt和Yatt之间的差异)的损失(Attribute Loss)加权求和后作为对抗训练生成网络和判别网络的无监督训练损失函数,基于该无监督训练损失函数调整属性特征编码模型、特征融合模型和解码模型的模型参数。其中,权重分布可根据损失对生成结果的重要程度,及实际图像处理的需求自定义设置。
3、根据自监督图像样本对生成网络进行自监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
本实施例中,考虑到纯无监督训练非常难,因此可以通过构建自监督图像样本进行自监督训练来对无监督训练进行辅助。自监督图像样本包括若干组自监督样本对,每一组自监督样本对包括第二初始面部图像样本Source和第二模板面部图像样本Source,即Self-supervised(Source,Source)。自监督图像样本用于进行自监督训练,自监督训练也可称自监督学习(self-supervised learning),可以被看作是机器学习的一种“理想状态”,机器学习模型直接从无标签数据中自行学习产生标签,无需标注数据。
具体地,计算机设备可以根据自监督图像样本构建联合训练判别网络和生成网络的自监督训练损失函数,根据该自监督训练损失函数训练前述同一个生成对抗网络(生成网络+判别网络)。
在一个实施例中,根据自监督图像样本对生成网络进行自监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数包括:通过识别特征编码模型对第二初始面部图像样本进行编码,得到第二初始面部图像样本的面部身份特征;通过属性特征编码模型对第二模板面部图像样本进行编码,得到第二模板面部图像样本的属性特征;将第二初始面部图像样本的面部身份特征及第二模板面部图像样本的属性特征依次输入特征融合模型及解码模型,得到第二目标面部图像样本;通过识别特征编码模型及属性特征编码模型分别对第二目标面部图像样本进行编码,得到第二目标面部图像样本的面部身份特征及属性特征;将第二初始面部图像样本和第二模板面部图像样本中的至少一种作为判别网络的正样本,将第二目标面部图像样本作为判别网络的负样本;基于判别网络的判别损失、第二目标面部图像样本和第二初始面部图像样本之间像素的差异、第二初始面部图像样本与第二目标面部图像样本之间面部身份特征的差异及第二模板面部图像样本与第二目标面部图像样本之间属性特征的差异,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
具体地,计算机设备可将第二初始面部图像样本Source输入生成网络的识别特征编码模型,得到第二初始面部图像样本Source的面部身份特征Zid;将第二模板面部图像样本Source输入生成网络的属性特征编码模型,得到第二模板面部图像样本Source的属性特征Zatt;将面部身份特征Zid和属性特征Zatt共同依次经过生成网络的特征融合模型和解码模型后,得到第二目标面部图像样本Result。
进一步地,计算机设备将第二目标面部图像样本Result输入分别输入生成网络的识别特征编码模型和属性特征编码模型,得到第二目标面部图像样本Result的面部身份特征Xid和属性特征Xatt。
可以理解,由于自监督训练样本中第一初始面部图像样本和第一模板面部图像样本采用相同的图像样本Source,那么理想状态下,应该生成和Source一样的图像,也就是说在自监督训练的过程,模型将自动产生训练标签,该训练标签即为第一初始面部图像样本对应的图像Source。那么在构建自监督训练损失函数时,计算机设备可以获取第二目标面部图像样本Result与该训练标签Source之间的像素损失作为像素重建损失(Reconstruction Loss),根据该像素重建损失来构建生成网络的损失函数。另外,由于在生成网络中还包括两个编码分支分别编码得到面部身份特征和属性特征。那么,在构建生成网络的损失函数,还可以增加第二目标面部图像样本Result与第二初始面部图像样本Source的面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss),以及第二目标面部图像样本Result与第二模板面部图像样本Reference的属性特征差(Xatt和Zatt之间的差异)的损失(Attribute Loss)。
这样,计算机设备可以将判别损失(Discriminator Loss)、像素重建损失(Reconstruction Loss)、面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss)以及属性特征差(Xatt和Zatt之间的差异)的损失(Attribute Loss)加权求和后作为对抗训练生成网络和判别网络的自监督训练损失函数,基于该自监督训练损失函数调整属性特征编码模型、特征融合模型和解码模型的模型参数。其中,权重分布可根据损失对生成结果的重要程度,及实际图像处理的需求自定义设置。
4、重复步骤2-3,以使无监督训练和自监督训练交替进行,直至满足训练停止条件时结束训练。
具体地,计算机设备交替使用无监督图像样本及自监督图像样本,训练同一个生成对抗网络,以使无监督训练和自监督训练交替地进行,直至生成效果稳定,并且输出的目标面部图像样本Result的面部身份特征显著接近初始面部图像样本Source的面部身份特征,以及目标面部图像样本Result的属性特征显著接近模板面部图像样本Reference的属性特征。即从观感上生成网络能够生成身份(Identity)与初始面部图像样本Source一致,其他特征(姿态、表情、光照以及背景等)与面部图像样本Reference一致的目标面部图像。
本实施例中,采用无监督数据和自监督数据交替进行模型训练,一方面由于采用无监督数据进行训练时,不需要进行样本标注,可以大大降低模型训练的成本;另一方面引入自监督数据来对辅助训练生成网络,可以大幅提高生成网络在各种情况下的稳定性,且由于自监督训练和无监督训练均没有训练标签,在训练过程中可以引入各自姿态的样本进行训练,使得训练得到的生成网络对输入图像无任何姿态限制,可以处理任意面部图像。这样在利用训练完成的生成网络进行图像处理时,可以极大地提高图像处理效率。
在另外的实施例中,在训练生成网络时,可先从无监督图像样本或者自监督图像样本中选取姿态较正的初始面部图像进行前期训练,在训练后期则再加入其他姿态的初始面部图像进行训练,这样不仅可以提高模型训练时的收敛速度,而且可以使得训练得到的模型更加稳定。
在一个实施例中,获取模板面部图像和至少两张初始面部图像包括:获取模板图像和至少两张初始图像;分别对各张初始图像和模板图像进行面部特征点对齐,定位各张初始图像和模板图像中的面部区域;按照各张初始图像中定位的面部区域截取初始面部图像,并按照模板图像中定位的面部区域截取模板面部图像;在解码目标特征,得到目标面部图像之后,方法还包括:将目标面部图像反向回贴至模板图像中的面部区域,得到目标图像。
其中,面部特征点是面部区域中具有表征能力的关键点。面部特征点可以是但不限于眼睛、鼻子、嘴巴、眉毛和脸部轮廓等的关键点。在一个具体的实施例中,面部特征点具体可以是五官特征点。
在本实施例中,初始图像区别于初始面部图像,初始面部图像是从初始图像中截取出的图像。模板图像区别于模板面部图像,模板面部图像是从模板图像中截取出的图像。可以理解,本申请所提供的图像处理方法主要是针对面部区域进行处理。通常情况下,图像中面部区域的占比较小(除面部特写的图像外)。那么,计算机设备可对图像进行前处理,即截取初始图像和模板图像中的面部区域,基于截取得到的面部图像进行后续的图像处理,这样可以减少图像处理过程中的计算量,提高图像处理效率。
通常情况下,初始图像可以是用户输入的图像,模板图像可以计算机设备提供的图像。具体地,计算机设备在获取至少两张初始图像后,对于每一张初始面部图像,可基于传统的特征点定位算法或者机器学习模型对该初始图像进行面部特征点对齐,确定该初始图像中的面部特征点,根据在该初始图像中确定的面部特征点,定位该初始图像中确定的面部区域,按照该初始图像中定位的面部区域截取初始面部图像。
对于模板图像,计算机设备可按照与处理初始图像获取初始面部图像相同的方式获取模板面部图像。但对模板图像进行处理的时机可以是事先进行的,这样可提高图像处理效率;也可以是实时进行的,这样可减轻设备存储负担。
可以理解的是,计算机设备原始获取的是初始图像和模板图像,在图像处理时,是处理的从初始图像和模板图像中截取出的面部图像,那么在得到目标面部图像后,也需要将目标面部图像进行反向回帖,还原图像尺寸和图像内容。因此,本实施例中,计算机设备在得到目标面部图像后,可将目标面部图像反向回贴至模板图像中的面部区域,得到目标图像;这样得到的目标图像保持了初始图像中面部区域的面部身份特征和模板图像中面部区域的属性特征,且面部区域外的部分与模板图像一致。
举例说明,参考图9,该图示出了一个实施例中图像处理的流程框图。计算机设备获取到初始图像组(包括两张初始图像)和模板图像后,可对初始图像组进行面部特征点对齐(即面部检测配准),再根据确定的面部特征点确定面部区域截图(即根据配准点抠图),得到初始面部图像组(即姿态对齐的面部图像组)。另外,计算机设备也可对模板图像进行面部特征点对齐(即面部检测配准),再根据确定的面部特征点确定面部区域截图(即根据配准点抠图),得到模板面部图像(即姿态对齐的面部图像)。
此后,计算机设备可将初始面部图像组输入识别特征编码模型,编码得到初始面部图像组对应的面部身份特征组(包括初始面部图像中各初始面部图像的面部身份特征),将得到的面部身份特征组经过特征组合模块进行组合得到组合身份特征;并将模板面部图像输入属性特征编码模型,编码得到属性特征;接着将组合身份特征与属性特征共同输入特征融合模型进行特征融合,再通过解码模型得到目标面部图像。
进一步,计算机设备在得到目标面部图像后,可将目标面部图像反向回贴至模板图像,得到目标图像。
上述实施例中,在进行图像处理时,仅截取出面部区域进行图像处理,不仅减少了图像处理的数据量,提高了图像处理效率;也无需对面部区域外的区域进行处理的无用功,避免了浪费运算资源。
在一个实施例中,如图10所示,提供了一种图像处理模型训练方法,以该方法应用于计算机设备为例来举例说明。该计算机设备具体可以是图1中的终端102或者服务器104。该图像处理模型训练方法包括以下步骤:
步骤1002,获取生成网络、无监督图像样本和自监督图像样本。
其中,无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;第二初始面部图像样本和第二模板面部图像样本为相同的图像样本。
步骤1004,根据无监督图像样本对生成网络进行无监督训练。
步骤1006,根据自监督图像样本对生成网络进行自监督训练。
步骤1008,重复进入根据无监督图像样本对生成网络进行无监督训练的步骤,以使无监督训练和自监督训练交替进行,直至满足训练停止条件时结束训练。结束训练时得到的生成网络用于根据对模板面部图像进行编码得到的属性特征以及对至少两张初始面部图像分别进行编码得到的面部身份特征,得到目标面部图像。
上述图像处理模型训练方法,采用无监督数据和自监督数据交替进行模型训练,一方面由于采用无监督数据进行无监督训练时,不需要进行样本标注,可以大大降低模型训练的成本;另一方面引入自监督数据进行自监督训练来辅助训练生成网络,可以大幅提高生成网络在各种情况下的稳定性,且由于自监督训练和无监督训练均没有训练标签,在训练过程中可以引入各自姿态的样本进行训练,使得训练得到的生成网络对输入图像无任何姿态限制,可以处理任意面部图像。这样在利用训练完成的生成网络进行图像处理时,可以极大地提高图像处理效率。
在一个实施例中,生成网络包括属性特征编码模型、特征融合模型及解码模型;根据无监督图像样本对生成网络进行无监督训练,包括:根据无监督图像样本对生成网络进行无监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数;根据自监督图像样本对生成网络进行自监督训练,包括:根据自监督图像样本对生成网络进行自监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
关于图像处理模型训练方法的限定和描述可参考上文实施例中的描述,本申请在此不赘述。
本申请还提供一种应用场景,该应用场景应用上述的图像处理方法和图像处理模型训练方法。具体地,该方法在该应用场景的应用如下:
在该应用场景中,初始图像为两张人脸图像,生成网络包括识别特征编码模型、属性特征编码模型、特征融合模型和解码模型,且特征融合模型包括多个网络层。服务器用于执行图像处理模型训练方法,生成网络训练完成后下发至终端,终端上运行的图像处理应用执行图像处理方法来生成与该这两张人脸图像均有一定相似性的人脸图像,应用于各种娱乐应用中。
例如,用户提供的一男一女两张人脸图像(夫妻或者情侣)作为初始图像,以及任意小孩人脸图像作为模板图像,可生成与男女双方均有一定相似性的小孩人脸,可以应用于预测小孩长相的娱乐应用中。其中,通过调整模板图像对应的人脸的年龄,还可以预测该小孩成长过程中不同年龄阶段的长相。
又如,用户提供自己的人脸图像以及任意明星的人脸图像作为初始图像,以及自己的同一张人脸图像作为模板图像,可为自己生成相似于某个明星的人脸图像,可以应用于换脸或者整容结果预测等娱乐应用中。
再比如,用户提供自己的人脸图像以及任意动漫或者卡通人物的人脸图像作为初始图像,以及任意动漫或者卡通人物的人脸图像作为模板图像,可为自己生成相似于动漫或者卡通人物的人脸图像,可以应用于换脸或者制作表情包等娱乐应用中。
在该应用场景中,具体步骤如下:
1.1、服务器获取生成网络、无监督图像样本和自监督图像样本;无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;第二初始面部图像样本和第二模板面部图像样本为相同的图像样本。
1.2.1、通过识别特征编码模型对第一初始面部图像样本进行编码,得到第一初始面部图像样本的面部身份特征;
1.2.2、通过属性特征编码模型对第一模板面部图像样本进行编码,得到第一模板面部图像样本的属性特征;
1.2.3、将第一初始面部图像样本的面部身份特征及第一模板面部图像样本的属性特征依次输入特征融合模型及解码模型,得到第一目标面部图像样本;
1.2.4、通过识别特征编码模型及属性特征编码模型分别对第一目标面部图像样本进行编码,得到第一目标面部图像样本的面部身份特征及属性特征;
1.2.5、获取判别网络,将第一初始面部图像样本和第一模板面部图像样本中的至少一种作为判别网络的正样本,将第一目标面部图像样本作为判别网络的负样本;
1.2.6、基于判别网络的判别损失、第一初始面部图像样本与第一目标面部图像样本之间面部身份特征的差异及第一模板面部图像样本与第一目标面部图像样本之间属性特征的差异,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
1.3.1、通过识别特征编码模型对第二初始面部图像样本进行编码,得到第二初始面部图像样本的面部身份特征;
1.3.2、通过属性特征编码模型对第二模板面部图像样本进行编码,得到第二模板面部图像样本的属性特征;
1.3.3、将第二初始面部图像样本的面部身份特征及第二模板面部图像样本的属性特征依次输入特征融合模型及解码模型,得到第二目标面部图像样本;
1.3.4、通过识别特征编码模型及属性特征编码模型分别对第二目标面部图像样本进行编码,得到第二目标面部图像样本的面部身份特征及属性特征;
1.3.5、将第二初始面部图像样本和第二模板面部图像样本中的至少一种作为判别网络的正样本,将第二目标面部图像样本作为判别网络的负样本;
1.3.6、基于判别网络的判别损失、第二目标面部图像样本和第二初始面部图像样本之间像素的差异、第二初始面部图像样本与第二目标面部图像样本之间面部身份特征的差异及第二模板面部图像样本与第二目标面部图像样本之间属性特征的差异,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
1.4、交替进行1.2.1-1.2.6和1.3.1-1.3.6,以使无监督训练和自监督训练交替进行,直至生成网络的生成效果稳定,并且输出的目标人脸图像样本的人脸身份特征显著接近初始人脸图像样本的人脸身份特征,以及目标人脸图像样本的属性特征显著接近模板人脸图像样本的属性特征。即从观感上生成网络能够生成身份(Identity)与初始人脸图像样本一致,其他特征(姿态、表情、光照以及背景等)与人脸图像样本一致的目标人脸图像。
1.5、服务器将训练好的生成网络下发至终端。
2.1、终端根据用户操作运行图像处理应用后,图像处理应用可获取通过用户操作选择的两张初始图像和模板图像,分别对每一张初始图像和模板图像进行人脸特征点对齐,定位每一张初始图像和模板图像中的人脸区域;按照每一张初始图像中定位的人脸区域截取初始人脸图像,并按照模板图像中定位的人脸区域截取模板人脸图像。
2.2、图像处理应用将各张初始人脸图像分别输入识别特征编码模型;通过识别特征编码模型对各张初始人脸图像进行编码,输出各张初始人脸图像的人脸身份特征,并组合各张初始人脸图像的人脸身份特征得到组合身份特征。并行地将模板人脸图像输入属性特征编码模型;通过属性特征编码模型对模板人脸图像进行编码,输出模板人脸图像的属性特征。
2.3、图像处理应用再将组合身份特征及属性特征共同输入特征融合模型的第一网络层,通过第一个网络层对组合身份特征及属性特征进行深度学习运算,得到当前输出特征;将下一个网络层确定为当前网络层;拼接当前网络层对应的上一个网络层的输入特征和当前输出特征,得到当前输入特征;将当前输入特征输入当前网络层,通过当前网络层进行深度学习运算得到当前输出特征,并进入将下一个网络层确定为当前网络层的步骤,直至当前网络层为末尾网络层时,得到目标特征。
2.4、图像处理应用再将目标特征输入解码模型,得到目标人脸图像;目标人脸图像与组合身份特征匹配、且与模板人脸图像的属性特征匹配。
2.5、图像处理应用再将目标人脸图像反向回贴至模板图像中的人脸区域,得到目标图像。该目标图像保持了各张初始图像中人脸区域的人脸身份特征和模板图像中人脸区域的属性特征,从而实现了根据多张图像进行人脸的生成。
本申请还提供另外一种应用场景,在该应用场景中,可根据两张或者两张以上任意的人脸图像,以及任意的模板图像,根据需求生成各种场景下的人脸数据。例如,传统的深度学习如人脸检测,人脸识别等需要收集大量的人脸图片作为训练数据,而肖像权又经常成为一个大问题,采用本申请所提供的图像处理方法,可以合成各种各样不存在的人脸,完全不需要考虑肖像权的问题。又如,广告宣传等商业行为需要好看的模特人脸,也可以通过本申请所提供的图像处理方法生成,得到的模特人脸由于无需考虑肖像权,节省高昂的模特费用。该应用场景中,图像处理方法的具体步骤可参考本申请任意实施例提供的步骤,本申请在此不赘述。
另外,当模板面部图像是时间连续的视频帧序列中的其中一帧时,图像处理应用还可获取视频帧序列中的其他视频帧各自对应的目标面部图像;按照各个视频帧在视频帧序列中的时序位置,拼接各个视频帧所对应的目标面部图像,得到目标视频,从而实现视频换脸的图像处理。
应该理解的是,虽然前述实施例中流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,这些流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种图像处理装置1100,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
图像获取模块1102,用于获取模板面部图像和至少两张初始面部图像;
第一编码模块1104,用于对模板面部图像进行编码,得到模板面部图像的属性特征;
第二编码模块1106,用于分别对各张初始面部图像进行编码,得到各张初始面部图像各自对应的面部身份特征;
特征组合模块1108,用于组合各个面部身份特征,得到组合身份特征;
特征融合模块1110,用于融合组合身份特征及属性特征,得到目标特征;
解码模块1112,用于解码目标特征,得到目标面部图像;目标面部图像与组合身份特征匹配、且与模板面部图像的属性特征匹配。
在一个实施例中,第一编码模块1104还用于通过属性特征编码模型对模板面部图像进行编码,得到模板面部图像的属性特征;特征融合模块1110还用于通过特征融合模型对组合身份特征及属性特征进行融合处理,得到目标特征;解码模块1112还用于通过解码模型对目标特征进行解码,得到目标面部图像;其中,特征融合模型、解码模型与属性特征编码模型,通过交替使用无监督图像样本和自监督图像样本联合训练得到。
在一个实施例中,特征融合模型包括多个网络层;特征融合模块1110用于将第一个网络层确定为当前网络层,拼接组合身份特征及属性特征得到当前网络层的输入特征,将输入特征输入当前网络层,得到当前网络层的输出特征;拼接当前网络层的输入特征和输出特征,得到更新后的输入特征;将下一个网络层确定为当前网络层,将更新后的输入特征作为当前网络层的输入特征输入当前网络层,得到当前网络层的输出特征,并进入拼接当前网络层的输入特征和输出特征,得到更新后的输入特征的步骤,直至当前网络层为末尾网络层时,将当前网络层的输出特征确定为目标特征。
在一个实施例中,属性特征编码模型、特征融合模型和解码模型包括于生成网络;该图像处理装置还包括;训练模块,用于获取无监督图像样本和自监督图像样本;无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;第二初始面部图像样本和第二模板面部图像样本为相同的图像样本;根据无监督图像样本对生成网络进行无监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数;根据自监督图像样本对生成网络进行自监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数;重复进入根据无监督图像样本对生成网络进行无监督训练的步骤,以使无监督训练和自监督训练交替进行,直至满足训练停止条件时结束训练。
在一个实施例中,生成网络还包括识别特征编码模型,训练模块还用于通过识别特征编码模型对第一初始面部图像样本进行编码,得到第一初始面部图像样本的面部身份特征;通过属性特征编码模型对第一模板面部图像样本进行编码,得到第一模板面部图像样本的属性特征;将第一初始面部图像样本的面部身份特征及第一模板面部图像样本的属性特征依次输入特征融合模型及解码模型,得到第一目标面部图像样本;通过识别特征编码模型及属性特征编码模型分别对第一目标面部图像样本进行编码,得到第一目标面部图像样本的面部身份特征及属性特征;获取判别网络,将第一初始面部图像样本和第一模板面部图像样本中的至少一种作为判别网络的正样本,将第一目标面部图像样本作为判别网络的负样本;基于判别网络的判别损失、第一初始面部图像样本与第一目标面部图像样本之间面部身份特征的差异及第一模板面部图像样本与第一目标面部图像样本之间属性特征的差异,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
在一个实施例中,训练模块还用于通过识别特征编码模型对第二初始面部图像样本进行编码,得到第二初始面部图像样本的面部身份特征;通过属性特征编码模型对第二模板面部图像样本进行编码,得到第二模板面部图像样本的属性特征;将第二初始面部图像样本的面部身份特征及第二模板面部图像样本的属性特征依次输入特征融合模型及解码模型,得到第二目标面部图像样本;通过识别特征编码模型及属性特征编码模型分别对第二目标面部图像样本进行编码,得到第二目标面部图像样本的面部身份特征及属性特征;将第二初始面部图像样本和第二模板面部图像样本中的至少一种作为判别网络的正样本,将第二目标面部图像样本作为判别网络的负样本;基于判别网络的判别损失、第二目标面部图像样本和第二初始面部图像样本之间像素的差异、第二初始面部图像样本与第二目标面部图像样本之间面部身份特征的差异及第二模板面部图像样本与第二目标面部图像样本之间属性特征的差异,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
在一个实施例中,图像获取模块1102还用于获取模板图像和至少两张初始图像;分别对各张初始图像和模板图像进行面部特征点对齐,定位各张初始图像和模板图像中的面部区域;按照各张初始图像中定位的面部区域截取初始面部图像,并按照模板图像中定位的面部区域截取模板面部图像;该图像处理装置还包括:回贴模块,用于将目标面部图像反向回贴至模板图像中的面部区域,得到目标图像。
在一个实施例中,模板面部图像是时间连续的视频帧序列中的其中一帧;该图像处理装置还包括:目标视频获得模块,用于获取视频帧序列中的其他视频帧各自对应的目标面部图像;按照各个视频帧在视频帧序列中的时序位置,拼接各个视频帧所对应的目标面部图像,得到目标视频。
在一个实施例中,特征组合模块1108还用于获取各个面部身份特征对应的组合权重;按照各个面部身份特征各自对应的组合权重叠加各个面部身份特征,得到组合身份特征。
上述图像处理装置,在获取到至少两张初始面部图像和模板面部图像后,自动对各张初始面部图像和模板面部图像分别进行编码,得到各张初始面部图像各自对应的面部身份特征以及模板面部图像的属性特征,进一步组合各个面部身份特征,得到组合身份特征,接着融合得到的组合身份特征和属性特征得到目标特征,最后解码目标特征即可得到目标面部图像,避免了人工处理的繁琐操作,极大地提高了图像处理的效率。
在一个实施例中,如图12所示,提供了一种图像处理模型训练装置1200,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
获取模块1202,用于获取生成网络、无监督图像样本和自监督图像样本;无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;第二初始面部图像样本和第二模板面部图像样本为相同的图像样本;
训练模块1204,用于根据无监督图像样本对生成网络进行无监督训练;根据自监督图像样本对生成网络进行自监督训练;重复进入根据无监督图像样本对生成网络进行无监督训练的步骤,以使无监督训练和自监督训练交替进行,直至满足训练停止条件时结束训练;结束训练时得到的生成网络用于根据对模板面部图像进行编码得到的属性特征以及对至少两张初始面部图像分别进行编码得到的面部身份特征,得到目标面部图像。
在一个实施例中,生成网络包括属性特征编码模型、特征融合模型及解码模型;训练模块1204还用于根据无监督图像样本对生成网络进行无监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数;根据自监督图像样本对生成网络进行自监督训练,调整属性特征编码模型、特征融合模型和解码模型的模型参数。
上述图像处理模型训练装置,采用无监督数据和自监督数据交替进行模型训练,一方面由于采用无监督数据进行训练时,不需要进行样本标注,可以大大降低模型训练的成本;另一方面引入自监督数据来对辅助训练生成网络,可以大幅提高生成网络在各种情况下的稳定性,且由于自监督训练和无监督训练均没有训练标签,在训练过程中可以引入各自姿态的样本进行训练,使得训练得到的生成网络对输入图像无任何姿态限制,可以处理任意面部图像。这样在利用训练完成的生成网络进行图像处理时,可以极大地提高图像处理效率。
关于图像处理/图像处理模型训练装置的具体限定可以参见上文中对于图像处理/图像处理模型训练方法的限定,在此不再赘述。上述图像处理/图像处理模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器或终端,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理/图像处理模型训练方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各实施例中的图像处理方法或者图像处理模型训练方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的图像处理方法或者图像处理模型训练方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种图像处理方法,其特征在于,所述方法包括:
获取模板面部图像和至少两张初始面部图像;
通过生成网络,对所述模板面部图像进行编码,得到所述模板面部图像的属性特征;
分别对各张所述初始面部图像进行编码,得到各张所述初始面部图像各自对应的面部身份特征;
组合各个所述面部身份特征,得到组合身份特征;
通过所述生成网络融合所述组合身份特征及所述属性特征,得到目标特征;
通过所述生成网络解码所述目标特征,得到目标面部图像;所述目标面部图像与组合身份特征匹配、且与所述模板面部图像的属性特征匹配;
其中,所述生成网络通过交替使用无监督图像样本和自监督图像样本训练得到;所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;所述第一初始面部图像样本和第一模板面部图像样本不相同;所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;所述第二初始面部图像样本和第二模板面部图像样本相同;所述生成网络的训练步骤包括:
通过所述生成网络,对所述第一初始面部图像样本进行编码,得到所述第一初始面部图像样本的面部身份特征,对所述第一模板面部图像样本进行编码,得到所述第一模板面部图像样本的属性特征,对所述第一初始面部图像样本的面部身份特征及所述第一模板面部图像样本的属性特征依次进行特征融合和解码,得到第一目标面部图像样本,对第一目标面部图像样本进行编码,得到所述第一目标面部图像样本的面部身份特征及属性特征;将所述第一初始面部图像样本和所述第一模板面部图像样本中的至少一种作为判别网络的正样本,将所述第一目标面部图像样本作为所述判别网络的负样本;基于所述判别网络的判别损失、所述第一初始面部图像样本与所述第一目标面部图像样本之间面部身份特征的差异及所述第一模板面部图像样本与所述第一目标面部图像样本之间属性特征的差异,调整所述生成网络的模型参数以进行无监督训练;
根据所述自监督图像样本对所述生成网络进行自监督训练;
重复执行所述通过所述生成网络,对所述第一初始面部图像样本进行编码的步骤,以使所述无监督训练和所述自监督训练交替进行,直至满足训练停止条件时结束训练。
2.根据权利要求1所述的方法,其特征在于,所述生成网络包括特征融合模型,所述特征融合模型包括多个网络层;所述通过所述生成网络融合所述组合身份特征及所述属性特征,得到目标特征包括:
将第一个网络层确定为当前网络层,拼接所述组合身份特征及所述属性特征得到当前网络层的输入特征,将所述输入特征输入所述当前网络层,得到当前网络层的输出特征;
拼接当前网络层的输入特征和输出特征,得到更新后的输入特征;
将下一个网络层确定为当前网络层,将更新后的输入特征作为当前网络层的输入特征输入当前网络层,得到当前网络层的输出特征,并进入所述拼接当前网络层的输入特征和输出特征,得到更新后的输入特征的步骤,直至当前网络层为末尾网络层时,将当前网络层的输出特征确定为目标特征。
3.根据权利要求1所述的方法,其特征在于,所述生成网络包括识别特征编码模型、属性特征编码模型、特征融合模型及解码模型;所述根据所述自监督图像样本对所述生成网络进行自监督训练,包括:
通过所述识别特征编码模型对所述第二初始面部图像样本进行编码,得到所述第二初始面部图像样本的面部身份特征;
通过所述属性特征编码模型对所述第二模板面部图像样本进行编码,得到所述第二模板面部图像样本的属性特征;
将所述第二初始面部图像样本的面部身份特征及所述第二模板面部图像样本的属性特征依次输入所述特征融合模型及所述解码模型,得到第二目标面部图像样本;
通过所述识别特征编码模型及所述属性特征编码模型分别对第二目标面部图像样本进行编码,得到所述第二目标面部图像样本的面部身份特征及属性特征;
将所述第二初始面部图像样本和所述第二模板面部图像样本中的至少一种作为所述判别网络的正样本,将所述第二目标面部图像样本作为所述判别网络的负样本;
基于所述判别网络的判别损失、所述第二目标面部图像样本和所述第二初始面部图像样本之间像素的差异、所述第二初始面部图像样本与所述第二目标面部图像样本之间面部身份特征的差异及所述第二模板面部图像样本与所述第二目标面部图像样本之间属性特征的差异,调整所述属性特征编码模型、所述特征融合模型和所述解码模型的模型参数。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述获取模板面部图像和至少两张初始面部图像包括:
获取模板图像和至少两张初始图像;
分别对各张所述初始图像和所述模板图像进行面部特征点对齐,定位各张所述初始图像和所述模板图像中的面部区域;
按照各张所述初始图像中定位的面部区域截取初始面部图像,并按照所述模板图像中定位的面部区域截取模板面部图像;
在所述通过解码模型解码所述目标特征,得到目标面部图像之后,所述方法还包括:
将所述目标面部图像反向回贴至所述模板图像中的面部区域,得到目标图像。
5.根据权利要求4所述的方法,其特征在于,所述模板面部图像是时间连续的视频帧序列中的其中一帧;所述方法还包括:
获取所述视频帧序列中的其他视频帧各自对应的目标面部图像;
按照各个视频帧在所述视频帧序列中的时序位置,拼接各个视频帧所对应的目标面部图像,得到目标视频。
6.根据权利要求4所述的方法,其特征在于,所述组合各个所述面部身份特征,得到组合身份特征包括:
获取各个所述面部身份特征对应的组合权重;
按照各个所述面部身份特征各自对应的组合权重叠加各个所述面部身份特征,得到组合身份特征。
7.一种图像处理模型训练方法,其特征在于,所述方法包括:
获取生成网络、无监督图像样本和自监督图像样本;所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;所述第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;所述第二初始面部图像样本和第二模板面部图像样本为相同的图像样本;
通过所述生成网络,对所述第一初始面部图像样本进行编码,得到所述第一初始面部图像样本的面部身份特征,对所述第一模板面部图像样本进行编码,得到所述第一模板面部图像样本的属性特征,对所述第一初始面部图像样本的面部身份特征及所述第一模板面部图像样本的属性特征依次进行特征融合和解码,得到第一目标面部图像样本,对第一目标面部图像样本进行编码,得到所述第一目标面部图像样本的面部身份特征及属性特征;将所述第一初始面部图像样本和所述第一模板面部图像样本中的至少一种作为判别网络的正样本,将所述第一目标面部图像样本作为所述判别网络的负样本;基于所述判别网络的判别损失、所述第一初始面部图像样本与所述第一目标面部图像样本之间面部身份特征的差异及所述第一模板面部图像样本与所述第一目标面部图像样本之间属性特征的差异,调整所述生成网络的模型参数以进行无监督训练;
根据所述自监督图像样本对所述生成网络进行自监督训练;
重复执行所述通过所述生成网络,对所述第一初始面部图像样本进行编码的步骤,以使所述无监督训练和所述自监督训练交替进行,直至满足训练停止条件时结束训练;
结束训练时得到的生成网络用于根据对模板面部图像进行编码得到的属性特征以及对至少两张初始面部图像分别进行编码得到的面部身份特征,得到目标面部图像。
8.一种图像处理装置,其特征在于,所述装置包括:
图像获取模块,用于获取模板面部图像和至少两张初始面部图像;
第一编码模块,用于通过生成网络对所述模板面部图像进行编码,得到所述模板面部图像的属性特征;
第二编码模块,用于分别对各张所述初始面部图像进行编码,得到各张所述初始面部图像各自对应的面部身份特征;
特征组合模块,用于组合各个所述面部身份特征,得到组合身份特征;
特征融合模块,用于通过所述生成网络融合所述组合身份特征及所述属性特征,得到目标特征;
解码模块,用于通过所述生成网络解码所述目标特征,得到目标面部图像;所述目标面部图像与组合身份特征匹配、且与所述模板面部图像的属性特征匹配;其中,所述生成网络,通过交替使用无监督图像样本和自监督图像样本联合训练得到;所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;所述第一初始面部图像样本和第一模板面部图像样本不相同;所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;所述第二初始面部图像样本和第二模板面部图像样本相同;
训练模块,通过所述生成网络,对所述第一初始面部图像样本进行编码,得到所述第一初始面部图像样本的面部身份特征,对所述第一模板面部图像样本进行编码,得到所述第一模板面部图像样本的属性特征,对所述第一初始面部图像样本的面部身份特征及所述第一模板面部图像样本的属性特征依次进行特征融合和解码,得到第一目标面部图像样本,对第一目标面部图像样本进行编码,得到所述第一目标面部图像样本的面部身份特征及属性特征;将所述第一初始面部图像样本和所述第一模板面部图像样本中的至少一种作为判别网络的正样本,将所述第一目标面部图像样本作为所述判别网络的负样本;基于所述判别网络的判别损失、所述第一初始面部图像样本与所述第一目标面部图像样本之间面部身份特征的差异及所述第一模板面部图像样本与所述第一目标面部图像样本之间属性特征的差异,调整所述生成网络的模型参数以进行无监督训练;根据所述自监督图像样本对所述生成网络进行自监督训练;重复执行所述通过所述生成网络,对所述第一初始面部图像样本进行编码的步骤,以使所述无监督训练和所述自监督训练交替进行,直至满足训练停止条件时结束训练。
9.根据权利要求8所述的装置,其特征在于,所述生成网络包括特征融合模型,所述特征融合模型包括多个网络层;特征融合模块,还用于:将第一个网络层确定为当前网络层,拼接所述组合身份特征及所述属性特征得到当前网络层的输入特征,将所述输入特征输入所述当前网络层,得到当前网络层的输出特征;拼接当前网络层的输入特征和输出特征,得到更新后的输入特征;将下一个网络层确定为当前网络层,将更新后的输入特征作为当前网络层的输入特征输入当前网络层,得到当前网络层的输出特征,并进入所述拼接当前网络层的输入特征和输出特征,得到更新后的输入特征的步骤,直至当前网络层为末尾网络层时,将当前网络层的输出特征确定为目标特征。
10.根据权利要求8所述的装置,其特征在于,所述生成网络包括识别特征编码模型、属性特征编码模型、特征融合模型及解码模型;所述训练模块还用于:通过所述识别特征编码模型对所述第二初始面部图像样本进行编码,得到所述第二初始面部图像样本的面部身份特征;通过所述属性特征编码模型对所述第二模板面部图像样本进行编码,得到所述第二模板面部图像样本的属性特征;将所述第二初始面部图像样本的面部身份特征及所述第二模板面部图像样本的属性特征依次输入所述特征融合模型及所述解码模型,得到第二目标面部图像样本;通过所述识别特征编码模型及所述属性特征编码模型分别对第二目标面部图像样本进行编码,得到所述第二目标面部图像样本的面部身份特征及属性特征;将所述第二初始面部图像样本和所述第二模板面部图像样本中的至少一种作为所述判别网络的正样本,将所述第二目标面部图像样本作为所述判别网络的负样本;基于所述判别网络的判别损失、所述第二目标面部图像样本和所述第二初始面部图像样本之间像素的差异、所述第二初始面部图像样本与所述第二目标面部图像样本之间面部身份特征的差异及所述第二模板面部图像样本与所述第二目标面部图像样本之间属性特征的差异,调整所述属性特征编码模型、所述特征融合模型和所述解码模型的模型参数。
11.根据权利要求8至10任意一项所述的装置,其特征在于,所述图像获取模块,还用于:获取模板图像和至少两张初始图像;分别对各张所述初始图像和所述模板图像进行面部特征点对齐,定位各张所述初始图像和所述模板图像中的面部区域;按照各张所述初始图像中定位的面部区域截取初始面部图像,并按照所述模板图像中定位的面部区域截取模板面部图像;所述装置还包括:回贴模块,用于将所述目标面部图像反向回贴至所述模板图像中的面部区域,得到目标图像。
12.根据权利要求11所述的装置,其特征在于,所述模板面部图像是时间连续的视频帧序列中的其中一帧;所述装置还包括:目标视频获得模块,用于获取所述视频帧序列中的其他视频帧各自对应的目标面部图像;按照各个视频帧在所述视频帧序列中的时序位置,拼接各个视频帧所对应的目标面部图像,得到目标视频。
13.根据权利要求11所述的装置,其特征在于,所述特征组合模块还用于:
获取各个所述面部身份特征对应的组合权重;按照各个所述面部身份特征各自对应的组合权重叠加各个所述面部身份特征,得到组合身份特征。
14.一种图像处理模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取生成网络、无监督图像样本和自监督图像样本;所述无监督图像样本包括第一初始面部图像样本和第一模板面部图像样本;所述第一初始面部图像样本和第一模板面部图像样本为不相同的图像样本;所述自监督图像样本包括第二初始面部图像样本和第二模板面部图像样本;所述第二初始面部图像样本和第二模板面部图像样本为相同的图像样本;
训练模块,用于通过所述生成网络,对所述第一初始面部图像样本进行编码,得到所述第一初始面部图像样本的面部身份特征,对所述第一模板面部图像样本进行编码,得到所述第一模板面部图像样本的属性特征,对所述第一初始面部图像样本的面部身份特征及所述第一模板面部图像样本的属性特征依次进行特征融合和解码,得到第一目标面部图像样本,对第一目标面部图像样本进行编码,得到所述第一目标面部图像样本的面部身份特征及属性特征;将所述第一初始面部图像样本和所述第一模板面部图像样本中的至少一种作为判别网络的正样本,将所述第一目标面部图像样本作为所述判别网络的负样本;基于所述判别网络的判别损失、所述第一初始面部图像样本与所述第一目标面部图像样本之间面部身份特征的差异及所述第一模板面部图像样本与所述第一目标面部图像样本之间属性特征的差异,调整所述生成网络的模型参数以进行无监督训练;根据所述自监督图像样本对所述生成网络进行自监督训练;重复执行所述通过所述生成网络,对所述第一初始面部图像样本进行编码的步骤,以使所述无监督训练和所述自监督训练交替进行,直至满足训练停止条件时结束训练;结束训练时得到的生成网络用于根据对模板面部图像进行编码得到的属性特征以及对至少两张初始面部图像分别进行编码得到的面部身份特征,得到目标面部图像。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
16.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344536.0A CN111553267B (zh) | 2020-04-27 | 2020-04-27 | 图像处理方法、图像处理模型训练方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344536.0A CN111553267B (zh) | 2020-04-27 | 2020-04-27 | 图像处理方法、图像处理模型训练方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553267A CN111553267A (zh) | 2020-08-18 |
CN111553267B true CN111553267B (zh) | 2023-12-01 |
Family
ID=72001566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010344536.0A Active CN111553267B (zh) | 2020-04-27 | 2020-04-27 | 图像处理方法、图像处理模型训练方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553267B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734726B (zh) * | 2020-09-29 | 2024-02-02 | 首都医科大学附属北京天坛医院 | 一种血管造影的分型方法、装置以及设备 |
CN112800452B (zh) * | 2021-03-19 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 用户身份图像处理和识别的方法及装置 |
KR20220116331A (ko) | 2021-04-07 | 2022-08-22 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 모델 트레이닝 방법, 보행자 재인식 방법, 장치 및 전자 기기 |
CN113395569B (zh) * | 2021-05-29 | 2022-12-09 | 北京优幕科技有限责任公司 | 视频生成方法及装置 |
CN115393183B (zh) * | 2022-10-28 | 2023-02-07 | 腾讯科技(深圳)有限公司 | 图像编辑方法、装置、计算机设备和存储介质 |
CN115565238B (zh) * | 2022-11-22 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 换脸模型的训练方法、装置、设备、存储介质和程序产品 |
CN115830652B (zh) * | 2023-01-11 | 2023-05-09 | 山西清众科技股份有限公司 | 一种深度掌纹识别装置及方法 |
CN117540789B (zh) * | 2024-01-09 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 模型训练方法、面部表情迁移方法、装置、设备及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610209A (zh) * | 2017-08-17 | 2018-01-19 | 上海交通大学 | 人脸表情合成方法、装置、存储介质和计算机设备 |
CN108197666A (zh) * | 2018-01-30 | 2018-06-22 | 咪咕文化科技有限公司 | 一种图像分类模型的处理方法、装置及存储介质 |
CN108647560A (zh) * | 2018-03-22 | 2018-10-12 | 中山大学 | 一种基于cnn的保持表情信息的人脸转移方法 |
CN109376667A (zh) * | 2018-10-29 | 2019-02-22 | 北京旷视科技有限公司 | 目标检测方法、装置及电子设备 |
CN109544488A (zh) * | 2018-10-08 | 2019-03-29 | 西北大学 | 一种基于卷积神经网络的图像合成方法 |
CN109934767A (zh) * | 2019-03-06 | 2019-06-25 | 中南大学 | 一种基于身份和表情特征转换的人脸表情转换方法 |
CN110097606A (zh) * | 2018-01-29 | 2019-08-06 | 微软技术许可有限责任公司 | 面部合成 |
CN110399809A (zh) * | 2019-07-08 | 2019-11-01 | 北京亮亮视野科技有限公司 | 多特征融合的人脸关键点检测方法及装置 |
CN110472533A (zh) * | 2019-07-31 | 2019-11-19 | 北京理工大学 | 一种基于半监督训练的人脸识别方法 |
CN110517185A (zh) * | 2019-07-23 | 2019-11-29 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN110705516A (zh) * | 2019-10-18 | 2020-01-17 | 大连海事大学 | 一种基于协同网络结构的鞋底花纹图像聚类方法 |
CN110728193A (zh) * | 2019-09-16 | 2020-01-24 | 连尚(新昌)网络科技有限公司 | 一种脸部图像丰富度特征的检测方法及设备 |
CN110796111A (zh) * | 2019-11-05 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565434B2 (en) * | 2017-06-30 | 2020-02-18 | Google Llc | Compact language-free facial expression embedding and novel triplet training scheme |
US11120337B2 (en) * | 2017-10-20 | 2021-09-14 | Huawei Technologies Co., Ltd. | Self-training method and system for semi-supervised learning with generative adversarial networks |
-
2020
- 2020-04-27 CN CN202010344536.0A patent/CN111553267B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610209A (zh) * | 2017-08-17 | 2018-01-19 | 上海交通大学 | 人脸表情合成方法、装置、存储介质和计算机设备 |
CN110097606A (zh) * | 2018-01-29 | 2019-08-06 | 微软技术许可有限责任公司 | 面部合成 |
CN108197666A (zh) * | 2018-01-30 | 2018-06-22 | 咪咕文化科技有限公司 | 一种图像分类模型的处理方法、装置及存储介质 |
CN108647560A (zh) * | 2018-03-22 | 2018-10-12 | 中山大学 | 一种基于cnn的保持表情信息的人脸转移方法 |
CN109544488A (zh) * | 2018-10-08 | 2019-03-29 | 西北大学 | 一种基于卷积神经网络的图像合成方法 |
CN109376667A (zh) * | 2018-10-29 | 2019-02-22 | 北京旷视科技有限公司 | 目标检测方法、装置及电子设备 |
CN109934767A (zh) * | 2019-03-06 | 2019-06-25 | 中南大学 | 一种基于身份和表情特征转换的人脸表情转换方法 |
CN110399809A (zh) * | 2019-07-08 | 2019-11-01 | 北京亮亮视野科技有限公司 | 多特征融合的人脸关键点检测方法及装置 |
CN110517185A (zh) * | 2019-07-23 | 2019-11-29 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN110472533A (zh) * | 2019-07-31 | 2019-11-19 | 北京理工大学 | 一种基于半监督训练的人脸识别方法 |
CN110728193A (zh) * | 2019-09-16 | 2020-01-24 | 连尚(新昌)网络科技有限公司 | 一种脸部图像丰富度特征的检测方法及设备 |
CN110705516A (zh) * | 2019-10-18 | 2020-01-17 | 大连海事大学 | 一种基于协同网络结构的鞋底花纹图像聚类方法 |
CN110796111A (zh) * | 2019-11-05 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于核函数因素分解模型的表情合成与识别;周川 等;清华大学学报(自然科学版)(第10期);113-116 * |
Also Published As
Publication number | Publication date |
---|---|
CN111553267A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553267B (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
Zeng et al. | Srnet: Improving generalization in 3d human pose estimation with a split-and-recombine approach | |
WO2022089360A1 (zh) | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 | |
CN111583399B (zh) | 图像处理方法、装置、设备、介质和电子设备 | |
CN111274994B (zh) | 漫画人脸检测方法、装置、电子设备及计算机可读介质 | |
CN111275784B (zh) | 生成图像的方法和装置 | |
CN111739027B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN113570684A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114943789A (zh) | 一种图像处理方法、模型训练方法及相关装置 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN113780249B (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
CN113139628A (zh) | 样本图像的识别方法、装置、设备及可读存储介质 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN113590854B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
RU2755396C1 (ru) | Нейросетевой перенос выражения лица и позы головы с использованием скрытых дескрипторов позы | |
CN111325252B (zh) | 图像处理方法、装置、设备、介质 | |
CN117252947A (zh) | 图像处理方法、装置、计算机、存储介质及程序产品 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
CN110956599A (zh) | 图片处理方法和装置、存储介质及电子装置 | |
CN115708135A (zh) | 人脸识别模型的处理方法、人脸识别方法及装置 | |
CN113011320A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN113822114A (zh) | 一种图像处理方法、相关设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40027306 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |