CN112766366A - 对抗生成网络的训练方法及其图像处理方法、装置 - Google Patents

对抗生成网络的训练方法及其图像处理方法、装置 Download PDF

Info

Publication number
CN112766366A
CN112766366A CN202110064284.0A CN202110064284A CN112766366A CN 112766366 A CN112766366 A CN 112766366A CN 202110064284 A CN202110064284 A CN 202110064284A CN 112766366 A CN112766366 A CN 112766366A
Authority
CN
China
Prior art keywords
image
reconstructed
loss value
attribute
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110064284.0A
Other languages
English (en)
Inventor
朱振文
吴泽衡
谭圣琦
周古月
徐倩
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110064284.0A priority Critical patent/CN112766366A/zh
Publication of CN112766366A publication Critical patent/CN112766366A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种用于图像处理的对抗生成网络的训练方法及其图像处理方法、装置、电子设备及计算机可读存储介质;方法包括:通过生成对抗网络中的生成器对第一待重建图像执行图像处理任务,以得到向第一标准图像拟合而生成的第一重建图像,第一标准图像与第一待重建图像均包括第一对象;通过生成对抗网络中的判别器对第一重建图像进行分类处理,以得到生成损失值;基于第一重建图像的语义特征与第一标准图像的语义特征确定第一语义特征损失值,并基于第一重建图像的属性特征与第一待重建图像的属性特征确定第一属性特征损失值;融合生成损失值、第一语义特征损失值和第一属性特征损失值,以训练生成器。通过本申请,能够高效精确地重建图像。

Description

对抗生成网络的训练方法及其图像处理方法、装置
技术领域
本申请涉及图像处理技术,尤其涉及一种用于图像处理的对抗生成网络的训练方法及其图像处理方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图像处理是人工智能的重要应用。典型地,可通过各种神经网络模型对图像进行处理,如背景替换、局部颜色替换、遮挡去除和空白区域补充等处理,以得到处理后的重建图像。然而,相关技术在训练用于图像处理的神经网络模型时,经常出现神经网络模型学习非变换区域的变化的情况,使得应用神经网络模型进行图像识别时,重建图像中非变换区域发生变化,难以保证重建图像的精确性。
发明内容
本申请实施例提供一种用于图像处理的对抗生成网络的训练方法及其图像处理方法、装置、电子设备及计算机可读存储介质,能够高效精确地重建图像。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种用于图像处理的对抗生成网络的训练方法,包括:
通过生成对抗网络中的生成器对第一待重建图像执行图像处理任务,以得到向第一标准图像拟合而生成的第一重建图像,所述第一标准图像与所述第一待重建图像均包括第一对象;
通过所述生成对抗网络中的判别器对所述第一重建图像进行分类处理,以得到生成损失值;
基于所述第一重建图像的语义特征与所述第一标准图像的语义特征确定第一语义特征损失值,并基于所述第一重建图像的属性特征与所述第一待重建图像的属性特征确定第一属性特征损失值;
融合所述生成损失值、所述第一语义特征损失值和所述第一属性特征损失值,以训练所述生成器。
本申请实施例提供一种用于图像处理的对抗生成网络的训练装置,包括:
第一图像处理模块,用于通过生成对抗网络中的生成器对第一待重建图像执行图像处理任务,以得到向第一标准图像拟合而生成的第一重建图像,所述第一标准图像与所述第一待重建图像均包括第一对象;
分类处理模块,用于通过所述生成对抗网络中的判别器对所述第一重建图像进行分类处理,以得到生成损失值;
确定模块,用于基于所述第一重建图像的语义特征与所述第一标准图像的语义特征确定第一语义特征损失值,并基于所述第一重建图像的属性特征与所述第一待重建图像的属性特征确定第一属性特征损失值;
训练模块,用于融合所述生成损失值、所述第一语义特征损失值和所述第一属性特征损失值,以训练所述生成器。
上述方案中,所述分类处理模块,还用于:
通过所述生成对抗网络中预训练的判别器对所述第一重建图像进行分类处理,以得到所述第一重建图像属于标准图像类型的第一预测概率;
基于所述第一预测概率得到所述第一重建图像不属于所述标准图像类型的第一非标准概率;
对所述第一非标准概率进行指数运算或对数运算,并将运算结果作为所述生成器的生成损失值。
上述方案中,所述确定模块,还用于:
通过预训练的语义识别模型提取所述第一重建图像的第一语义特征,并提取所述第一标准图像的第二语义特征;
确定所述第一语义特征与所述第二语义特征之间的第一距离,并确定与所述第一距离正相关的第一语义特征损失值。
上述方案中,所述语义特征损失值是通过所述语义识别模型的语义识别损失函数确定的;所述确定模块,还用于:
将所述第一语义特征与所述第二语义特征代入所述语义识别损失函数,以确定所述第一语义特征与所述第二语义特征在各个维度上的距离,并将所述各个维度上的距离进行融合,将融合结果作为所述第一语义特征损失值。
上述方案中,所述确定模块,还用于:
通过预训练的属性识别模型提取所述第一重建图像的属性特征;
确定所述第一重建图像的属性特征与所述第一待重建图像的属性特征之间的第二距离,并确定与所述第二距离正相关的第一属性特征损失值。
上述方案中,所述第一属性特征损失值是通过所述属性识别模型的属性识别损失函数确定的;所述确定模块,还用于:
将所述第一重建图像的属性特征与所述第一待重建图像的属性特征代入所述属性识别损失函数,以
通过所述属性识别损失函数将所述第一重建图像的属性特征、所述第一待重建图像的属性特征、单位向量与所述第一重建图像的属性特征的差值以及所述单位向量与所述第一待重建图像的属性特征的差值进行融合,将融合结果作为所述第一属性特征损失值。
上述方案中,所述生成损失值是通过所述生成器和所述判别器之间的第一对抗损失函数确定的,所述第一语义特征损失值是通过语义识别模型的语义识别损失函数确定的,所述第一属性特征损失值是通过属性识别模型的属性识别损失函数确定的;所述训练模块,还用于:
对所述第一对抗损失函数、所述语义识别损失函数以及所述属性识别损失函数进行加权求和,得到总损失函数;
对所述生成损失值、所述第一语义特征损失值和所述第一属性特征损失值进行加权求和,得到总损失值;
基于所述总损失函数在所述生成器中反向传播所述总损失值,以确定所述生成器的梯度,根据所述梯度更新所述生成器的参数。
上述方案中,所述训练模块,还用于:
通过所述生成器对第二待重建图像执行所述图像处理任务,以得到向第二标准图像拟合而生成的第二重建图像,所述第二标准图像与所述第二待重建图像均包括第二对象;
通过所述判别器对所述第二重建图像和所述第三标准图像分别进行分类处理,以得到判别损失值;
基于所述第二重建图像的语义特征与所述第二标准图像的语义特征确定第二语义特征损失值,并基于所述第二重建图像的属性特征与所述第二待重建图像的属性特征确定第二属性特征损失值;
融合所述判别损失值、所述第二语义特征损失值和所述第二属性特征损失值,以训练所述判别器。
上述方案中,所述训练模块,还用于:
通过所述判别器对所述第二重建图像进行分类处理,以得到所述第二重建图像属于标准图像类型的第二预测概率,并
通过所述判别器对所述第三标准图像进行分类处理,以得到所述第三标准图像属于所述标准图像类型的第三预测概率;
将所述第二预测概率与所述第三预测概率进行融合,并将融合结果作为所述判别损失值。
上述方案中,所述判别损失值是通过所述生成器和所述判别器之间的第二对抗损失函数确定的;所述训练模块,还用于:
将所述第二预测概率代入所述第二对抗损失函数,以通过所述第二对抗损失函数确定所述第二重建图像不属于所述标准图像类型的第二非标准概率,将所述第二非标准概率与所述第三预测概率基于指数算子或对数算子进行融合,将融合结果作为所述判别损失值。
上述方案中,当图像处理任务的类型为遮挡去除时,所述第一待重建图像包括脸部被遮挡的所述第一对象,所述第一标准图像包括脸部未被遮挡的所述第一对象,所述第一重建图像包括脸部被去除遮挡的所述第一对象;
当图像处理任务的类型为风格变换时,所述第一待重建图像包括第一风格背景,所述第一标准图像包括区别于所述第一风格背景的第二风格背景,所述第一重建图像包括用于替换所述第一风格背景的第二风格背景。
本申请实施例提供一种基于对抗生成网络的图像处理方法,所述对抗生成网络包括生成器和判别器;所述生成器是基于所述生成器与所述判别器之间的生成损失值、语义识别模型的语义特征损失值、属性识别模型的属性特征损失值进行融合并训练得到的;所述方法包括:
通过训练好的所述生成器对第三待重建图像执行图像处理任务,以得到对应的第三重建图像。
本申请实施例提供一种基于对抗生成网络的图像处理装置,所述对抗生成网络包括生成器和判别器;所述生成器是基于所述生成器与所述判别器之间的生成损失值、语义识别模型的语义特征损失值、属性识别模型的属性特征损失值进行融合并训练得到的;所述装置包括:
第二图像处理模块,用于通过训练好的所述生成器对第三待重建图像执行图像处理任务,以得到对应的第三重建图像。
上述方案中,所述第二图像处理模块,还用于当所述图像处理任务的类型为遮挡去除时,通过所述生成器对所述第三待重建图像进行卷积处理和池化处理,得到包括脸部被遮挡的第一对象的第三待重建图像的图像特征;
对所述融合特征进行预对所述图像特征进行上采样处理,得到上采样特征;
基于所述上采样特征进行融合处理,得到融合特征;
对所述融合特征进行预测处理,得到包括脸部被去除遮挡的所述第一对象的第三重建图像;
当所述图像处理任务的类型为风格变换时,通过所述生成器对所述第三待重建图像进行卷积处理和池化处理,得到包括第一风格背景的第三重建图像的图像特征;
对所述图像特征进行上采样处理,得到上采样特征;
基于所述上采样特征进行融合处理,得到融合特征;
对所述融合特征进行预测处理,得到基于第二风格背景替换所述第一风格背景后形成的第三重建图像。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的用于图像处理的对抗生成网络的训练方法、或基于对抗生成网络的图像处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的用于图像处理的对抗生成网络的训练方法、或基于对抗生成网络的图像处理方法。
本申请实施例具有以下有益效果:
在训练生成对抗网络中的生成器时,通过生成器和判别器的对抗学习保证训练后的生成器生成的重建图像的精确性;通过图像的语义特征损失值和属性特征损失值保证生成器生成的重建图像与待重建图像保持全局特征的一致性以及局部特征的一致性,与相关技术中没有考虑图像的属性特征而导致生成对抗网络学到了期待变化的部分之外的变化相比,本申请实施例因为考虑了图像的属性特征,从而确保生成对抗网络不会学习不必要的变化,提升了图像重建的精确性。
附图说明
图1是本申请实施例提供的训练系统100的架构示意图;
图2是本申请实施例提供的训练系统的组成结构示意图;
图3A是本申请实施例提供的用于图像处理的对抗生成网络的训练方法的流程示意图;
图3B是本申请实施例提供的用于图像处理的对抗生成网络的训练方法的流程示意图;
图4是本申请实施例提供的训练流程示意图;
图5A是本申请实施例提供的服务器200的结构示意图;
图5B是本申请实施例提供的服务器600的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一/第二/第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)生成对抗网络:它是一种深度学习模型,包括生成器和判别器。生成器和判别器互相博弈学习,从而产生相当好的输出。其中,判别器基于输入变量进行分类预测,生成器通过给定的某种隐含信息来随机产生观测数据。
2)图像处理任务:对图像进行特定处理的任务,例如图像修复任务(如遮挡人脸重建)或图像风格变换任务等。
3)待重建图像:是需要对其进行图像处理的图像,如需要进行图像修复或图像风格变换等处理的图像。当图像处理任务为遮挡人脸重建时,待重建图像为遮挡人脸图像。
4)重建图像:对待重建图像进行图像处理之后得到的图像。当图像处理任务为遮挡人脸重建时,重建图像是对遮挡人脸图像进行图像处理后得到的无遮挡人脸图像。
5)标准图像:是真实图像,也是重建图像的拟合目标。当图像处理任务为遮挡人脸重建时,标准图像是真实的无遮挡人脸图像。
6)语义特征:图像语义(如轮廓、色调、情感等)维度上的关键特征,即图像整体性的关键特征。
7)属性特征:基于属性标签所获取到的特征,用于表征图像局部属性或整体属性。例如,当图像为人脸图像时,属性特征可以表征图像中的人的性别、年龄、是否戴帽子等。
相关技术通常使用生成对抗网络来进行图像修复或图像风格变换。在进行图像修复时,通过生成对抗网络中的生成器和判别器之间的对抗进行学习,之后,通过生成对抗网络的生成器对修复前的图像进行修复处理,生成修复图像。同样地,在进行图像风格变换时,通过生成对抗网络的生成器对风格变换前的图像进行图像变换处理,生成变换图像。然而,相关技术在进行对抗学习时,并未考虑图像的属性特征,这可能会使生成对抗网络学到除了期待变化的部分之外的变化,从而导致重建图像(即修复图像或变换图像)与期待的图像完全不同,大大降低了重建图像的精确性。例如,进行背景替换时,生成对抗网络学到非背景部分的变化,使得生成的变换图像中希望保持不变的非背景部分发生了变化。
相关技术一般通过两种方法来提高人脸检测的检出率和人脸识别的准确性,从而更好地进行客户人流统计和分析。遮挡人脸重建还可用于刑侦和罪犯追踪,罪犯在潜逃过程中往往会通过戴口罩等方式故意遮挡人脸,使得无法看清罪犯全貌。遮挡人脸重建能够基于罪犯的遮挡人脸生成罪犯的无遮挡人脸,这对于追捕罪犯会有遮挡人脸重建。第一种方法,是基于传统图像修复的方法,通过扩散、纹理合成和块匹配等方法来重建人脸遮挡区域。然而,当遇到大的遮挡区域时,通过这种方法重建后的人脸整体纹理和结构缺乏一致性,在语义和视觉上可行度较低。第二种方法,是通过生成对抗网络中的生成器来重建遮挡人脸,在生成对抗网络的训练过程中,输入待重建的遮挡人脸图像,生成器输出重建后的无遮挡人脸图像,将该重建后的无遮挡人脸图像和一张真实的无遮挡人脸图像一起输入判别器中,通过判别器来判断哪张图像是真实的,哪张图像是生成的。真实的无遮挡人脸图像和待重建的遮挡人脸图像中的人脸可以是同一个人,也可以是不同的人。最后通过生成器和判别器之间的对抗来学习。这种方法可能会使图像产生歧义,使得生成器学到除了遮挡改变之外的变化,从而导致生成的无遮挡人脸图像失去了原本的人脸信息,最终生成一个完全不同的人脸。为了衡量重建后的无遮挡人脸图像和待重建的遮挡人脸图像之间的相似度,以保持图像中的人脸关键特征不丢失,相关技术将重建后的无遮挡人脸图像和真实的无遮挡人脸图像输入到同一个人脸识别模型进行比对,从而约束重建后的无遮挡人脸图像,使其保持人脸关键特征不变,但这种方式只衡量了语义特征(即全局关键特征)维度上的相似度,没有对图像的属性特征进行有效衡量,这会导致重建后的人脸局部失真甚至出现明显的人脸结构不一致的问题。
为了解决相关技术在进行图像修复或图像风格转换时重建图像精确性差这一技术问题,本申请实施例提供一种用于图像处理的对抗生成网络的训练方法,能够生成在语义维度维度上和属性特征维度上都保持不变的重建图像,有效地提高了重建图像的精确性。
本申请实施例提供的用于图像处理的对抗生成网络的训练方法可以由各种电子设备实施,例如,可以由终端或服务器单独实施,也可以由服务器和终端协同实施。例如服务器独自承担下文所述的用于图像处理的对抗生成网络的训练方法,或者,终端向服务器发送训练请求,服务器根据接收的训练请求执行用于图像处理的对抗生成网络的训练方法。
本申请实施例提供的用于图像处理的对抗生成网络的训练的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器;终端可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例对此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AIaaS,AI as a Service),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,其中的一种人工智能云服务可以为对抗生成网络的训练服务,即云端的服务器封装有本申请实施例提供的用于图像处理的对抗生成网络的训练的程序。终端通过调用云服务中的对抗生成网络的训练服务,以使部署在云端的服务器通过对图像样本进行有监督的训练,得到训练好的生成对抗网络。之后,可通过训练好的生成对抗网络中的生成器对终端发送的待重建图像进行图像处理,生成重建图像。
在一些实施例中,以服务器和终端协同实施本申请实施例提供的用于图像处理的生成对抗网络的训练方法为例进行说明一个示例性的训练系统。参见图1,图1是本申请实施例提供的训练系统100的架构示意图。终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。终端向服务器发送训练请求,服务器根据接收的训练请求执行用于图像处理的生成对抗网络的训练方法。
在一些实施例中,在服务器200训练好生成对抗网络中的生成器和判别器之后,服务器200接收来自终端400的图像重建请求,通过生成器对终端200发送的待重建图像进行图像处理以生成重建图像,并将重建图像发送给终端400。
终端400的上述重新图像的过程可以适用于多种应用场景,以图像修复中的遮挡人脸重建为例进行说明。在许多场景中都需要通过遮挡人脸重建来提供完整的人脸图像,以确认人员身份。例如,在社区安防等场景中,当处于疾病传播高峰期时,戴口罩成为常态。此时,遮挡人脸重建能够有效提高人脸识别的准确性,从而对出入小区人员做到精准记录、无感知权限认证等。在智慧门店场景中,遮挡人脸重建能很大的帮助。
参见图2,图2是本申请实施例提供的训练系统的组成结构示意图。训练系统包括生成器201、判别器202、语义识别模型203和属性识别模型204。其中,生成器201和判别器202构成生成对抗网络。生成器201用于基于输入的待重建图像A生成重建图像A′;判别器202用于在生成器201和判别器202的训练阶段,判断生成器生成的重建图像A′的真伪;语义识别模型203用于在生成器201和判别器202的训练阶段,分别提取重建图像A′和标准图像B的特征;属性识别模型204用于确定图像属性,在本申请实施例中,用于在生成器201和判别器202的训练阶段,提取标准图像B的属性特征和属性标签C对应的属性特征。其中,K也是标准图像,K可以是与B相同的图像,也可以是与B不相同的标准图像。
例如,以图像处理任务为遮挡人脸重建为例,设置标准图像为不戴口罩的人的图像,则A为戴口罩人员的图像,A′为生成器201生成的该人员不戴口罩的图像,B为该人员不戴口罩的真实图像,K可以与B相同,也可以是其他人员不戴口罩的真实图像。
下面结合上文所述的训练系统中的各神经网络模型,说明本申请实施例提供的用于图像处理的对抗生成网络的训练方法。以下是以服务器为执行主体进行说明,具体可由服务器通过运行上文的各种计算机程序来实现的;当然,根据对下文的理解,不难看出也可以由终端和服务器协同实施本申请实施例提供的用于图像处理的对抗生成网络的训练方法。
参见图3A,图3A是本申请实施例提供的用于图像处理的对抗生成网络的训练方法的流程示意图,将结合图3A示出的步骤进行说明。
在步骤101中,通过生成对抗网络中的生成器对第一待重建图像执行图像处理任务,以得到向第一标准图像拟合而生成的第一重建图像,第一标准图像与第一待重建图像均包括第一对象。
在一些实施例中,图像处理任务的类型可以是图像修复或图像风格变换等。图像修复可包括遮挡去除或空白区域补充等;图像风格变换可包括背景替换、字体风格替换、图像整体风格替换或局部颜色替换等。
第一待重建图像是需要进行图像修复或图像风格变换的图像,第一标准图像是真实图像,所生成的第一重建图像需要尽可能与第一标准图像吻合。换言之,第一标准图像是第一重建图像的拟合目标。例如,当图像处理任务为遮挡去除(如遮挡人脸重建)时,第一待重建图像为遮挡人脸图像,该图像包括脸部被遮挡的第一对象,其拟合目标为同一人(第一对象)的真实的无遮挡人脸图像(即第一标准图像),对遮挡人脸图像进行图像处理后,得到无遮挡人脸图像(即第一重建图像),该图像包括脸部被去除遮挡的第一对象。第一对象可以是人、物、场景等。例如,第一对象为一只猫、一条船、一朵花、下雨场景或游乐园场景等。当图像处理任务的类型为风格变换时,第一待重建图像包括第一风格背景,第一标准图像包括区别于第一风格背景的第二风格背景,第一重建图像包括用于替换第一风格背景的第二风格背景。
在一些实施例中,生成器可以是全卷积网络(FCN,Fully ConvolutionalNetworks)或DeepLab等全卷积神经网络模型。以下以生成器为FCN为例对图像处理过程进行说明。
首先,通过生成器对第一待重建图像交替进行卷积处理和池化处理,在每次池化处理后,得到对应尺寸的图像特征。然后,对最后一次(第L个池化层)池化处理得到的图像特征进行上采样,即进行反卷积操作,得到的图像特征(上采样特征)与第L-1个池化层对应的图像特征尺寸相同。将上采样得到的图像特征与第L-1个池化层对应的图像特征进行加和处理(融合处理),继续对加和处理后得到的图像特征(融合特征)进行上采样,将上采样结果与第L-2个池化层对应的图像特征进行加和处理。重复上述操作,直至所得到的图像特征包含足够多的信息。在这样向前迭代的过程中,通过图像特征的融合弥补了前向池化处理所忽略的有用信息。最后通过softmax层进行预测处理,输出第一重建图像。
在步骤102中,通过生成对抗网络中的判别器对第一重建图像进行分类处理,以得到生成损失值。
在一些实施例中,判别器可以是各种分类神经网络模型,如GoogLeNet网络、VGG网络和Resnet101等。
在一些实施例中,通过生成对抗网络中的判别器对第一重建图像进行分类处理,以得到生成损失值,可采用如下步骤1021至步骤1023实现。
在步骤1021中,通过生成对抗网络中预训练的判别器对第一重建图像进行分类处理,以得到第一重建图像属于标准图像类型的第一预测概率。
在一些可能的实例中,通过预训练的判别器对第一重建图像进行卷积处理,得到第一图像特征;对第一图像特征进行池化处理,得到第一降维特征;通过sigmoid二分类函数或softmax归一化多分类函数等对第一降维特征进行分类处理,得到表征第一重建图像的类型为标准图像类型的第一预测概率。
在步骤1022中,基于第一预测概率得到第一重建图像不属于标准图像类型的第一非标准概率。
例如,第一预测概率为a,则第一非标准概率为1-a,表示第一重建图像不属于标准图像类型的概率为1-a。
在步骤1023中,对第一非标准概率进行指数运算或对数运算,并将运算结果作为生成器的生成损失值。
在一些可能的实例中,生成损失值是通过生成器和判别器之间的第一对抗损失函数确定的,第一对抗损失函数Lgan1的表达式如公式(1)所示:
Figure BDA0002903767070000141
其中,G(A)表示生成器生成的第一重建图像,D(G(A))表示第一重建图像属于标准图像类型的第一预测概率,1-D(G(A))表示第一重建图像不属于标准图像类型的第一非标准概率。
Figure BDA0002903767070000142
表示期望D(G(A))趋近于1,即生成器生成的第一重建图像尽可能接近于第一标准图像。因为指数运算与对数运算互为逆运算,因此还可对上述生成损失值的表达式进行相应的变换,得到表示同一含义的生成损失值。在一些可能的示例中,生成损失值的表达式也可以是其他形式,本申请实施例对其不做限制。
在步骤103中,基于第一重建图像的语义特征与第一标准图像的语义特征确定第一语义特征损失值。
在一些实施例中,通过预训练的语义识别模型提取第一重建图像的第一语义特征,并提取第一标准图像的第二语义特征。其中,语义识别模型通过提取输入图像的关键特征,从而对输入图像中包括的对象进行识别,它可以是人脸识别模型、物品识别模型等。第一语义特征表征语义维度上的关键特征,即整体性的关键特征。因为第一语义特征损失值是通过语义识别模型的语义识别损失函数确定的,所以,将第一语义特征与第二语义特征代入语义识别损失函数,以确定第一语义特征与第二语义特征在各个维度上的距离,即第一距离。然后确定与第一距离正相关的第一语义特征损失值,即,将各个维度上的距离进行融合,并将融合结果作为第一语义特征损失值。
在一些可能的示例中,语义识别损失函数Lrecog的表达式如公式(2)所示:
Lrecog=L2(FR(A′),FR(B)) (2)
其中,FR(A′)表示第一重建图像的(第一)语义特征,FR(B)表示第一标准图像的第二语义特征,L2表示计算FR(A′)和FR(B)的欧氏距离,即计算第一语义特征与第二语义特征在各个维度上的平方差,并对各个维度上的平方差求和后,开平方根得到欧氏距离,即第一语义特征损失值。在一些可能的示例中,L2也可以是马氏距离、汉明距离或切比雪夫距离等。
在步骤104中,基于第一重建图像的属性特征与第一待重建图像的属性特征确定第一属性特征损失值。
在一些实施例中,基于第一待重建图像的属性标签可以确定第一待重建图像的属性特征。然后,通过预训练的属性识别模型提取第一重建图像的属性特征。因为第一属性特征损失值是通过属性识别模型的属性识别损失函数确定的,所以,将第一重建图像的属性特征与第一待重建图像的属性特征代入属性识别损失函数,以确定第一重建图像的属性特征与第一待重建图像的属性特征之间的第二距离,并确定与第二距离正相关的第一属性特征损失值。即,通过属性识别损失函数将第一重建图像的属性特征、第一待重建图像的属性特征、单位向量与第一重建图像的属性特征的差值以及单位向量与第一待重建图像的属性特征的差值进行融合,将融合结果作为第一属性特征损失值。其中,融合可以是指数或对数运算符的融合。
在一些可能的示例中,属性识别损失函数Lattr的表达式可以如公式(3)所示:
Figure BDA0002903767070000151
其中,FA(A′)表示第一重建图像的属性特征,F表示第一待重建图像的属性特征,1为单位向量,Lcross-entropy表示交叉熵。当属性标签有多个时,此时,属性特征有对应的多维特征,1为单位矩阵,通过公式(3)计算第一重建图像的属性特征与第一待重建图像的属性特征在各个维度上的第二距离,并对各个维度上的第二距离进行求和,得到第一属性特征损失值。
在步骤105中,融合生成损失值、第一语义特征损失值和第一属性特征损失值,以训练生成器。
在一些实施例中,可通过如下公式(4)对第一对抗损失函数、语义识别损失函数以及属性识别损失函数进行加权求和,得到总损失函数Loss。
Loss=αLgan1+βLrecog+γLattr (4)
其中,α、β和γ表示各个损失函数的权重系数,权重系数可以根据实际情况进行调整。
之后,对步骤102至步骤104得到的生成损失值、第一语义特征损失值和第一属性特征损失值进行加权求和,得到总损失值。基于总损失函数在生成器中反向传播总损失值,以确定生成器的梯度,根据梯度更新生成器的参数,直至收敛,即总损失值最小,即可得到训练好的生成器。
在一些实施例中,在训练生成对抗网络中的生成器之前,会先通过训练系统训练判别器。可通过图3B所示的步骤1051至步骤1055训练判别器。
在步骤1051中,通过生成器对第二待重建图像执行图像处理任务,以得到向第二标准图像拟合而生成的第二重建图像,第二标准图像与第二待重建图像均包括第二对象。
其中,第二对象与第一对象可以是同一个人/同一物,也可以是不同的人/不同的物。第一待重建图像、第一标准图像、第二待重建图像、第二标准图像以及步骤1052中的第三标准图像均来自于图像样本。
在步骤1052中,通过判别器对第二重建图像和第三标准图像分别进行分类处理,以得到判别损失值。
在一些可能的示例中,第三标准图像是与第二标准图像同一类型的图像,即第三标准图像可以是与第二标准图像相同的图像,也可以是与第二标准图像不同的图像。例如,当图像处理任务为遮挡人脸重建时,第三标准图像与第二标准图像同为无遮挡人脸图像这一类型,两张图像中的人脸可以相同,也可以不同。
在一些可能的示例中,通过判别器对第二重建图像和第三标准图像分别进行分类处理,以得到判别损失值,可采用如下方式实现:通过判别器对第二重建图像进行分类处理,以得到第二重建图像属于标准图像类型的第二预测概率,并通过判别器对第三标准图像进行分类处理,以得到第三标准图像属于标准图像类型的第三预测概率。将第二预测概率与第三预测概率进行融合,并将融合结果作为判别损失值。
在一些可能的示例中,融合的过程如下,将第二预测概率代入第二对抗损失函数,以通过第二对抗损失函数确定第二重建图像不属于标准图像类型的第二非标准概率,将第二非标准概率与第三预测概率基于指数算子或对数算子进行融合,将融合结果作为判别损失值。
在一些可能的示例中,第二对抗损失函数Lgan2的表达式可以如公式(5)所示:
Lgan2=minG max D(logD(K)+log(1-D(G(A)))) (5)
其中,log(1-D(G(A)))为第一对抗损失函数的表达式,D(K)为判别器确定的第三标准图像属于标准图像类型的第三预测概率,1-D(G(A))表示第二重建图像不属于标准图像类型的第二非预测概率。公式(5)表示在训练判别器时,期望D(K)趋近于1,D(G(A))趋近于0。当训练生成器时,保持判别器参数不变,因此,公式(5)可以简化为
Figure BDA0002903767070000171
即第一对抗损失函数Lgan1的表达式。
将第二预测概率D(G(A))和第三预测概率D(K)代入第二对抗损失函数,即可基于公式(5)中的指数算子将它们按照公式(5)进行融合,并将融合的结果Lgan2作为判别损失值。
在步骤1053中,基于第二重建图像的语义特征与第二标准图像的语义特征确定第二语义特征损失值。
在步骤1054中,基于第二重建图像的属性特征与第二待重建图像的属性特征确定第二属性特征损失值。
在步骤1055中,融合判别损失值、第二语义特征损失值和第二属性特征损失值,以训练判别器。
在一些可能的示例中,因为训练生成器时,保持判别器参数不变,第二对抗损失函数Lgan2的表达式可以简化为第一对抗损失函数Lgan1的表达式,所以,公式(4)中的Lgan1也可以用Lgan2进行替代,以通过替换后的公式(4)同时表示训练生成器时用到的总损失函数和训练判别器时用到的总损失函数。通过判别器对应的总损失函数训练判别器。
其中,步骤1053与步骤1055的实施过程与前文中训练生成器的对应过程类似,此处不再进行赘述。
需要说明的是,可以通过本申请实施例提供的训练系统来训练判别器,之后基于训练好的判别器来训练生成器。在一些可能的示例中,也可以预先训练好判别器,再通过本申请实施例提供的训练系统直接训练生成器。
在一些实施例中,在训练好生成器之后,可通过训练好的生成器对第三待重建图像执行图像处理任务,以得到对应的第三重建图像。例如,当图像处理任务为风格变换时,通过训练好的生成器对第三待重建图像进行卷积处理和池化处理,得到包括脸部被遮挡的第一对象的第三待重建图像的图像特征;对融合特征进行预对图像特征进行上采样处理,得到上采样特征;基于上采样特征进行融合处理,得到融合特征;对融合特征进行预测处理,得到包括脸部被去除遮挡的第一对象的第三重建图像。再如,当图像处理任务的类型为风格变换时,通过生成器对第三待重建图像进行卷积处理和池化处理,得到包括第一风格(如巴洛克风格)背景的第三重建图像的图像特征;对图像特征进行上采样处理,得到上采样特征;基于上采样特征进行融合处理,得到融合特征;对融合特征进行预测处理,得到基于第二风格(如梵高风格)背景替换第一风格背景后形成的第三重建图像。
其中,对第三待处理图像执行图像处理任务,以得到对应的第三重建图像的过程还可参见前述步骤101中通过FCN进行图像处理的过程,此处不再赘述。
可以看出,本申请实施例在训练生成对抗网络中的生成器时,通过生成器和判别器对应的损失值保证训练后的生成器生成的重建图像的精确性;通过图像的语义特征损失值和属性特征损失值保证生成器生成的重建图像与待重建图像保持全局特征的一致性以及局部特征的一致性,从而提升了图像重建的精确性。
下面,将说明本申请实施例用于遮挡人脸重建时的示例性应用。
如图2的训练系统所示,在进行遮挡人脸重建时,通过人脸识别模型(即语义识别模型203)保持图像中人脸语义维度上关键特征(即语义特征)不变。人脸识别模型对生成器201生成的无遮挡人脸图像A′和无遮挡图像B中的人脸分别进行映射,得到两个固定维度(如256维、512维等)的特征,其中,无遮挡图像B与遮挡人脸图像A中的人脸属于同一个人。然后通过两个特征之间的距离来确定无遮挡人脸图像A′和无遮挡图像B中的人是否是同一个人;同时通过人脸属性模型保持图像中人脸属性维度上关键特征(即属性特征)不变。人脸属性模型是多任务多分类模型,其中,人脸属性包括性别、年龄、表情、是否戴眼镜和是否戴帽子等,通过生成器生成的无遮挡人脸图像A′和与遮挡人脸图像A应保持各种属性上的一致。
在训练时,每一组训练数据需要包含至少三张图像和一系列属性标签。第一张图像是遮挡人脸图像A,第二张图像是同一个人的无遮挡人脸图像B,第三张图像是同一个人或不同人的无遮挡人脸图像K,还需要遮挡人脸图像A对应的一系列属性标签C。
将每一组训练数据中的遮挡人脸图像A输入到生成器201中,生成器201可以是各种常见的全卷积模型,如FCN、DeepLab等,它对遮挡人脸图像A进行特征编解码后生成无遮挡人脸图像A′。接着,通过判别器202、人脸识别模型和人脸属性模型(即属性识别模型204)来指导生成器201的学习。以下对生成器201的学习过程进行说明。
判别器202是一个分类模型,用来判断一张图像是真实的,还是生成的;将一张真实的无遮挡人脸图像K和生成器201生成的无遮挡人脸图像A′都输入到判别器202中,基于第二对抗损失函数Lgan2确定判别损失值,并通过对抗学习来更新判别器202的参数。第二对抗损失函数Lgan2如前文中公式(5)所示。当判别器202的参数更新完成后,将生成器201生成的无遮挡人脸图像输入到判别器202中,基于第一对抗损失函数Lgan1确定生成损失值,并通过对抗学习来更新生成器201的参数。第一对抗损失函数Lgan1如前文中公式(1)所示。
人脸识别模型是预先训练好的,它可以提取输入的人脸图像中一个固定维度的特征。同一个人的特征相近,不同人的特征相差较远。将生成的无遮挡人脸图像A′和同一个人的另一张无遮挡人脸图像B输入到人脸识别模型中,分别提取特征并计算特征间的距离。由于是同一个人,因此两个特征间的距离应该尽可能接近,由此可以基于语义识别损失函数Lrecog确定语义特征损失值,语义识别损失函数Lrecog的表达式如前文中公式(2)所示。
人脸属性模型是预先训练好的,它是一个多任务多分类模型,用来判断一张人脸图像的各种属性。将生成的无遮挡人脸图像A′输入到人脸属性模型中,可以得到无遮挡人脸图像A′预测的各类属性输出,无遮挡人脸图像A′和遮挡人脸图像A具有同样的属性标签C,由此可以基于属性识别损失函数Lattr确定属性特征损失值,属性识别损失函数Lattr的表达式如前文中公式(3)所示。
最终,构造的目标函数(总损失函数)如下所示:
Loss=αLgan2+βLrecog+γLattr
其中,α、β和γ表示各个损失函数的权重系数,权重系数可以根据实际实验情况进行调整。确定目标函数之后,就可以开始进行模型参数更新了。这里,固定住人脸识别模型和人脸属性模型的参数,不进行参数更新,先根据上式更新判别器202的参数,之后在对生成器进行训练时,根据前文中公式(4)更新生成器201的参数。
以下以判别器为例说明其训练过程,将通过如下步骤1至步骤8进行说明。
步骤1,获取训练数据,每组训练数据包含三张图像(A,B,K)以及遮挡人脸图像A对应的多类属性标签C。
步骤2,将遮挡人脸图像A输入到生成器中,生成无遮挡人脸图像A′
步骤3,将A′与K输入到判别器,基于第二对抗损失函数确定判别损失值。
步骤4,将无遮挡人脸图像A′以及无遮挡人脸图像B输入到预先训练好的人脸识别模型中,基于语义识别损失函数确定语义特征损失值。
步骤5,将无遮挡人脸图像A′以及属性标签C输入到预先训练好的人脸属性模型中,基于属性识别损失函数确定属性特征损失值。
步骤6,将判别损失值、语义特征损失值和属性特征损失值代入总损失函数,得到总损失值。
步骤7,根据总损失值计算梯度,以更新判别器参数。
其中,人脸识别模型和人脸属性模型的参数不需要更新。
步骤8,判断判别器是否收敛,若未收敛,转至步骤1,直至收敛。
当总损失值小于一定值时,确定判别器收敛。其中,上述训练过程也可参见图4,图4是本申请实施例提供的训练流程示意图。当判别器完成训练后,可按照类似的流程更新生成器201的参数。
可见,本申请实施例将生成对抗网络、人脸识别和人脸属性识别结合在一起,以对生成器201进行训练,能够保证通过训练好的生成器201重建后的无遮挡人脸图像足够真实,人脸各类属性不会发生畸变,并且人脸的关键特征不丢失,不容易发生图像映射歧义。
因此,通过本申请实施例所提供的方案可以解决遮挡人脸重建中的三个主要问题。一是遮挡人脸图像重建后,人脸的真实度问题。二是遮挡人脸重建后,人脸关键特征点的保留问题,这种保留并非指像素级别上的特征点保留,而是指对人脸进行特征表示之后,语义特征上保持尽可能保持一致。三是遮挡人脸重建后,人脸各类属性信息的保留问题。
下面继续说明本申请实施例提供的用于图像处理的对抗生成网络的训练装置443实施为软件模块的示例性结构,以实施本申请实施例的电子设备为服务器为例。
参见图5A,图5A是本申请实施例提供的服务器200的结构示意图,图5A所示的服务器200包括:至少一个处理器210、存储器240、至少一个网络接口220。服务器200中的各个组件通过总线系统230耦合在一起。可理解,总线系统230用于实现这些组件之间的连接通信。总线系统230除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5A中将各种总线都标为总线系统230。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器240可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器240可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器240包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。
在一些实施例中,存储器240能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统241,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块242,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的用于图像处理的对抗生成网络的训练装置可以采用软件方式实现,图5A示出了存储在存储器240中的用于图像处理的对抗生成网络的训练装置243,其可以是程序和插件等形式的软件,包括以下软件模块:第一图像处理模块2431、分类处理模块2432、确定模块2433、训练模块2434,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
第一图像处理模块2431,用于通过生成对抗网络中的生成器对第一待重建图像执行图像处理任务,以得到向第一标准图像拟合而生成的第一重建图像,第一标准图像与第一待重建图像均包括第一对象。分类处理模块2432,用于通过生成对抗网络中的判别器对第一重建图像进行分类处理,以得到生成损失值。确定模块2433,用于基于第一重建图像的语义特征与第一标准图像的语义特征确定第一语义特征损失值,并基于第一重建图像的属性特征与第一待重建图像的属性特征确定第一属性特征损失值。训练模块2434,用于融合生成损失值、第一语义特征损失值和第一属性特征损失值,以训练生成器。
在一些实施例中,分类处理模块2432,还用于通过生成对抗网络中预训练的判别器对第一重建图像进行分类处理,以得到第一重建图像属于标准图像类型的第一预测概率;基于第一预测概率得到第一重建图像不属于标准图像类型的第一非标准概率;对第一非标准概率进行指数运算或对数运算,并将运算结果作为生成器的生成损失值。
在一些实施例中,确定模块2433,还用于通过预训练的语义识别模型提取第一重建图像的第一语义特征,并提取第一标准图像的第二语义特征;确定第一语义特征与第二语义特征之间的第一距离,并确定与第一距离正相关的第一语义特征损失值。
在一些实施例中,语义特征损失值是通过语义识别模型的语义识别损失函数确定的;确定模块2433,还用于将第一语义特征与第二语义特征代入语义识别损失函数,以确定第一语义特征与第二语义特征在各个维度上的距离,并将各个维度上的距离进行融合,将融合结果作为第一语义特征损失值。
在一些实施例中,确定模块2433,还用于通过预训练的属性识别模型提取第一重建图像的属性特征;确定第一重建图像的属性特征与第一待重建图像的属性特征之间的第二距离,并确定与第二距离正相关的第一属性特征损失值。
在一些实施例中,第一属性特征损失值是通过属性识别模型的属性识别损失函数确定的;确定模块2433,还用于将第一重建图像的属性特征与第一待重建图像的属性特征代入属性识别损失函数,以通过属性识别损失函数将第一重建图像的属性特征、第一待重建图像的属性特征、单位向量与第一重建图像的属性特征的差值以及单位向量与第一待重建图像的属性特征的差值进行融合,将融合结果作为第一属性特征损失值。
在一些实施例中,生成损失值是通过生成器和判别器之间的第一对抗损失函数确定的,第一语义特征损失值是通过语义识别模型的语义识别损失函数确定的,第一属性特征损失值是通过属性识别模型的属性识别损失函数确定的;训练模块2434,还用于对第一对抗损失函数、语义识别损失函数以及属性识别损失函数进行加权求和,得到总损失函数;对生成损失值、第一语义特征损失值和第一属性特征损失值进行加权求和,得到总损失值;基于总损失函数在生成器中反向传播总损失值,以确定生成器的梯度,根据梯度更新生成器的参数。
在一些实施例中,训练模块2434,还用于通过生成器对第二待重建图像执行图像处理任务,以得到向第二标准图像拟合而生成的第二重建图像,第二标准图像与第二待重建图像均包括第二对象;通过判别器对第二重建图像和第三标准图像分别进行分类处理,以得到判别损失值;基于第二重建图像的语义特征与第二标准图像的语义特征确定第二语义特征损失值,并基于第二重建图像的属性特征与第二待重建图像的属性特征确定第二属性特征损失值;融合判别损失值、第二语义特征损失值和第二属性特征损失值,以训练判别器。
在一些实施例中,训练模块2434,还用于通过判别器对第二重建图像进行分类处理,以得到第二重建图像属于标准图像类型的第二预测概率,并通过判别器对第三标准图像进行分类处理,以得到第三标准图像属于标准图像类型的第三预测概率;将第二预测概率与第三预测概率进行融合,并将融合结果作为判别损失值。
在一些实施例中,判别损失值是通过生成器和判别器之间的第二对抗损失函数确定的;训练模块2434,还用于将第二预测概率代入第二对抗损失函数,以通过第二对抗损失函数确定第二重建图像不属于标准图像类型的第二非标准概率,将第二非标准概率与第三预测概率基于指数算子或对数算子进行融合,将融合结果作为判别损失值。
在一些实施例中,当图像处理任务的类型为遮挡去除时,第一待重建图像包括脸部被遮挡的第一对象,第一标准图像包括脸部未被遮挡的第一对象,第一重建图像包括脸部被去除遮挡的第一对象;当图像处理任务的类型为风格变换时,第一待重建图像包括第一风格背景,第一标准图像包括区别于第一风格背景的第二风格背景,第一重建图像包括用于替换第一风格背景的第二风格背景。
当实施基于对抗生成网络的图像处理方法时,图1中的服务器200可以替换为服务器600,以下对服务器600进行说明。
参见图5B,图5B是本申请实施例提供的服务器600的结构示意图,以基于对抗生成网络的图像处理的电子设备为服务器600为例。图5B所示的服务器600包括至少一个处理器610、存储器640、至少一个网络接口620,服务器600中的各个组件通过总线系统630耦合在一起。
在一些实施例中,存储器包括操作系统641、网络通信模块642。本申请实施例提供的基于对抗生成网络的图像处理装置643可以采用软件方式实现,图5B示出了存储在存储器640中的基于对抗生成网络的图像处理装置643,其可以是程序和插件等形式的软件,包括第二图像处理模块6431。对抗生成网络包括生成器和判别器;生成器是基于生成器与判别器之间的生成损失值、语义识别模型的语义特征损失值、属性识别模型的属性特征损失值进行融合并训练得到的。第二图像处理模块6431,用于通过训练好的生成器对第三待重建图像执行图像处理任务,以得到对应的第三重建图像。
在一些实施例中,第二图像处理模块6431,还用于当图像处理任务的类型为遮挡去除时,通过生成器对第三待重建图像进行卷积处理和池化处理,得到包括脸部被遮挡的第一对象的第三待重建图像的图像特征;对融合特征进行预对图像特征进行上采样处理,得到上采样特征;基于上采样特征进行融合处理,得到融合特征;对融合特征进行预测处理,得到包括脸部被去除遮挡的第一对象的第三重建图像;当图像处理任务的类型为风格变换时,通过生成器对第三待重建图像进行卷积处理和池化处理,得到包括第一风格背景的第三重建图像的图像特征;对图像特征进行上采样处理,得到上采样特征;基于上采样特征进行融合处理,得到融合特征;对融合特征进行预测处理,得到基于第二风格背景替换第一风格背景后形成的第三重建图像。
当然,本申请实施例提供的基于对抗生成网络的图像处理装置643也可以采用硬件方式实现,本申请实施例在此不再赘述。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例上述的用于图像处理的对抗生成网络的训练方法或基于对抗生成网络的图像处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的用于图像处理的对抗生成网络的训练方法或基于对抗生成网络的图像处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本申请实施例在训练生成对抗网络中的生成器时,通过生成器和判别器对应的损失值保证训练后的生成器生成的重建图像的精确性;通过图像的语义特征损失值和属性特征损失值保证生成器生成的重建图像与待重建图像保持全局特征的一致性以及局部特征的一致性,从而提升了图像重建的精确性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (17)

1.一种用于图像处理的对抗生成网络的训练方法,其特征在于,所述方法包括:
通过生成对抗网络中的生成器对第一待重建图像执行图像处理任务,以得到向第一标准图像拟合而生成的第一重建图像,所述第一标准图像与所述第一待重建图像均包括第一对象;
通过所述生成对抗网络中的判别器对所述第一重建图像进行分类处理,以得到生成损失值;
基于所述第一重建图像的语义特征与所述第一标准图像的语义特征确定第一语义特征损失值,并基于所述第一重建图像的属性特征与所述第一待重建图像的属性特征确定第一属性特征损失值;
融合所述生成损失值、所述第一语义特征损失值和所述第一属性特征损失值,以训练所述生成器。
2.根据权利要求1所述的方法,其特征在于,所述通过所述生成对抗网络中的判别器对所述第一重建图像进行分类处理,以得到生成损失值,包括:
通过所述生成对抗网络中预训练的判别器对所述第一重建图像进行分类处理,以得到所述第一重建图像属于标准图像类型的第一预测概率;
基于所述第一预测概率得到所述第一重建图像不属于所述标准图像类型的第一非标准概率;
对所述第一非标准概率进行指数运算或对数运算,并将运算结果作为所述生成器的生成损失值。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一重建图像的语义特征与所述第一标准图像的语义特征确定第一语义特征损失值,包括:
通过预训练的语义识别模型提取所述第一重建图像的第一语义特征,并提取所述第一标准图像的第二语义特征;
确定所述第一语义特征与所述第二语义特征之间的第一距离,并确定与所述第一距离正相关的第一语义特征损失值。
4.根据权利要求3所述的方法,其特征在于,所述第一语义特征损失值是通过所述语义识别模型的语义识别损失函数确定的;所述确定所述第一语义特征与所述第二语义特征之间的第一距离,并确定与所述第一距离正相关的第一语义特征损失值,包括:
将所述第一语义特征与所述第二语义特征代入所述语义识别损失函数,以确定所述第一语义特征与所述第二语义特征在各个维度上的距离,并将所述各个维度上的距离进行融合,将融合结果作为所述第一语义特征损失值。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一重建图像的属性特征与所述第一待重建图像的属性特征确定第一属性特征损失值,包括:
通过预训练的属性识别模型提取所述第一重建图像的属性特征;
确定所述第一重建图像的属性特征与所述第一待重建图像的属性特征之间的第二距离,并确定与所述第二距离正相关的第一属性特征损失值。
6.根据权利要求5所述的方法,其特征在于,所述第一属性特征损失值是通过所述属性识别模型的属性识别损失函数确定的;所述确定所述第一重建图像的属性特征与所述第一待重建图像的属性特征之间的第二距离,并确定与所述第二距离正相关的第一属性特征损失值,包括:
将所述第一重建图像的属性特征与所述第一待重建图像的属性特征代入所述属性识别损失函数,以
通过所述属性识别损失函数将所述第一重建图像的属性特征、所述第一待重建图像的属性特征、单位向量与所述第一重建图像的属性特征的差值以及所述单位向量与所述第一待重建图像的属性特征的差值进行融合,将融合结果作为所述第一属性特征损失值。
7.根据权利要求1所述的方法,其特征在于,所述生成损失值是通过所述生成器和所述判别器之间的第一对抗损失函数确定的,所述第一语义特征损失值是通过语义识别模型的语义识别损失函数确定的,所述第一属性特征损失值是通过属性识别模型的属性识别损失函数确定的;
所述融合所述生成损失值、所述第一语义特征损失值和所述第一属性特征损失值,以训练所述生成器,包括:
对所述第一对抗损失函数、所述语义识别损失函数以及所述属性识别损失函数进行加权求和,得到总损失函数;
对所述生成损失值、所述第一语义特征损失值和所述第一属性特征损失值进行加权求和,得到总损失值;
基于所述总损失函数在所述生成器中反向传播所述总损失值,以确定所述生成器的梯度,根据所述梯度更新所述生成器的参数。
8.根据权利要求1所述的方法,其特征在于,在训练所述生成器之前,所述方法还包括:
通过所述生成器对第二待重建图像执行所述图像处理任务,以得到向第二标准图像拟合而生成的第二重建图像,所述第二标准图像与所述第二待重建图像均包括第二对象;
通过所述判别器对所述第二重建图像和所述第三标准图像分别进行分类处理,以得到判别损失值;
基于所述第二重建图像的语义特征与所述第二标准图像的语义特征确定第二语义特征损失值,并基于所述第二重建图像的属性特征与所述第二待重建图像的属性特征确定第二属性特征损失值;
融合所述判别损失值、所述第二语义特征损失值和所述第二属性特征损失值,以训练所述判别器。
9.根据权利要求8所述的方法,其特征在于,所述通过所述判别器对所述第二重建图像和所述第三标准图像分别进行分类处理,以得到判别损失值,包括:
通过所述判别器对所述第二重建图像进行分类处理,以得到所述第二重建图像属于标准图像类型的第二预测概率,并
通过所述判别器对所述第三标准图像进行分类处理,以得到所述第三标准图像属于所述标准图像类型的第三预测概率;
将所述第二预测概率与所述第三预测概率进行融合,并将融合结果作为所述判别损失值。
10.根据权利要求9所述的方法,其特征在于,所述判别损失值是通过所述生成器和所述判别器之间的第二对抗损失函数确定的;所述将所述第二预测概率与所述第三预测概率进行融合,并将融合结果作为所述判别损失值,包括:
将所述第二预测概率代入所述第二对抗损失函数,以通过所述第二对抗损失函数确定所述第二重建图像不属于所述标准图像类型的第二非标准概率,将所述第二非标准概率与所述第三预测概率基于指数算子或对数算子进行融合,将融合结果作为所述判别损失值。
11.根据权利要求1所述的方法,其特征在于,
当图像处理任务的类型为遮挡去除时,所述第一待重建图像包括脸部被遮挡的所述第一对象,所述第一标准图像包括脸部未被遮挡的所述第一对象,所述第一重建图像包括脸部被去除遮挡的所述第一对象;
当图像处理任务的类型为风格变换时,所述第一待重建图像包括第一风格背景,所述第一标准图像包括区别于所述第一风格背景的第二风格背景,所述第一重建图像包括用于替换所述第一风格背景的第二风格背景。
12.一种基于对抗生成网络的图像处理方法,其特征在于,所述对抗生成网络包括生成器和判别器;所述生成器是基于所述生成器与所述判别器之间的生成损失值、语义识别模型的语义特征损失值、属性识别模型的属性特征损失值进行融合并训练得到的;
所述方法包括:
通过训练好的所述生成器对第三待重建图像执行图像处理任务,以得到对应的第三重建图像。
13.根据权利要求12所述的方法,其特征在于,所述通过训练好的所述生成器对第三待重建图像执行图像处理任务,以得到对应的第三重建图像,包括:
当所述图像处理任务的类型为遮挡去除时,通过所述生成器对所述第三待重建图像进行卷积处理和池化处理,得到包括脸部被遮挡的第一对象的第三待重建图像的图像特征;
对所述融合特征进行预对所述图像特征进行上采样处理,得到上采样特征;
基于所述上采样特征进行融合处理,得到融合特征;
对所述融合特征进行预测处理,得到包括脸部被去除遮挡的所述第一对象的第三重建图像;
当所述图像处理任务的类型为风格变换时,通过所述生成器对所述第三待重建图像进行卷积处理和池化处理,得到包括第一风格背景的第三重建图像的图像特征;
对所述图像特征进行上采样处理,得到上采样特征;
基于所述上采样特征进行融合处理,得到融合特征;
对所述融合特征进行预测处理,得到基于第二风格背景替换所述第一风格背景后形成的第三重建图像。
14.一种用于图像处理的对抗生成网络的训练装置,其特征在于,所述训练装置包括:
第一图像处理模块,用于通过生成对抗网络中的生成器对第一待重建图像执行图像处理任务,以得到向第一标准图像拟合而生成的第一重建图像,所述第一标准图像与所述第一待重建图像均包括第一对象;
分类处理模块,用于通过所述生成对抗网络中的判别器对所述第一重建图像进行分类处理,以得到生成损失值;
确定模块,用于基于所述第一重建图像的语义特征与所述第一标准图像的语义特征确定第一语义特征损失值,并基于所述第一重建图像的属性特征与所述第一待重建图像的属性特征确定第一属性特征损失值;
训练模块,用于融合所述生成损失值、所述第一语义特征损失值和所述第一属性特征损失值,以训练所述生成器。
15.一种基于对抗生成网络的图像处理装置,其特征在于,
所述对抗生成网络包括生成器和判别器;所述生成器是基于所述生成器与所述判别器之间的生成损失值、语义识别模型的语义特征损失值、属性识别模型的属性特征损失值进行融合并训练得到的;
所述图像处理装置包括:
第二图像处理模块,用于通过训练好的所述生成器对第三待重建图像执行图像处理任务,以得到对应的第三重建图像。
16.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的用于图像处理的对抗生成网络的训练方法、或权利要求12至13任一项所述的基于对抗生成网络的图像处理方法。
17.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行如权利要求1至11任一项所述的用于图像处理的对抗生成网络的训练方法、或权利要求12至13任一项所述的基于对抗生成网络的图像处理方法。
CN202110064284.0A 2021-01-18 2021-01-18 对抗生成网络的训练方法及其图像处理方法、装置 Pending CN112766366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110064284.0A CN112766366A (zh) 2021-01-18 2021-01-18 对抗生成网络的训练方法及其图像处理方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110064284.0A CN112766366A (zh) 2021-01-18 2021-01-18 对抗生成网络的训练方法及其图像处理方法、装置

Publications (1)

Publication Number Publication Date
CN112766366A true CN112766366A (zh) 2021-05-07

Family

ID=75702839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110064284.0A Pending CN112766366A (zh) 2021-01-18 2021-01-18 对抗生成网络的训练方法及其图像处理方法、装置

Country Status (1)

Country Link
CN (1) CN112766366A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538395A (zh) * 2021-07-26 2021-10-22 四川大学华西医院 图像处理方法、装置、设备、可读存储介质
CN113592696A (zh) * 2021-08-12 2021-11-02 支付宝(杭州)信息技术有限公司 加密模型训练、图像加密和加密人脸图像识别方法及装置
CN113706663A (zh) * 2021-08-27 2021-11-26 脸萌有限公司 图像生成方法、装置、设备及存储介质
CN113807353A (zh) * 2021-09-29 2021-12-17 中国平安人寿保险股份有限公司 图像转换模型训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559287A (zh) * 2018-11-20 2019-04-02 北京工业大学 一种基于DenseNet生成对抗网络的语义图像修复方法
CN111127308A (zh) * 2019-12-08 2020-05-08 复旦大学 用于局部遮挡下单样本人脸识别的镜像特征重排修复方法
CN111476294A (zh) * 2020-04-07 2020-07-31 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及系统
CN112132172A (zh) * 2020-08-04 2020-12-25 绍兴埃瓦科技有限公司 基于图像处理的模型训练方法、装置、设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559287A (zh) * 2018-11-20 2019-04-02 北京工业大学 一种基于DenseNet生成对抗网络的语义图像修复方法
CN111127308A (zh) * 2019-12-08 2020-05-08 复旦大学 用于局部遮挡下单样本人脸识别的镜像特征重排修复方法
CN111476294A (zh) * 2020-04-07 2020-07-31 南昌航空大学 一种基于生成对抗网络的零样本图像识别方法及系统
CN112132172A (zh) * 2020-08-04 2020-12-25 绍兴埃瓦科技有限公司 基于图像处理的模型训练方法、装置、设备和介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538395A (zh) * 2021-07-26 2021-10-22 四川大学华西医院 图像处理方法、装置、设备、可读存储介质
CN113592696A (zh) * 2021-08-12 2021-11-02 支付宝(杭州)信息技术有限公司 加密模型训练、图像加密和加密人脸图像识别方法及装置
CN113706663A (zh) * 2021-08-27 2021-11-26 脸萌有限公司 图像生成方法、装置、设备及存储介质
WO2023027628A1 (zh) * 2021-08-27 2023-03-02 脸萌有限公司 图像生成方法、装置、设备及存储介质
CN113706663B (zh) * 2021-08-27 2024-02-02 脸萌有限公司 图像生成方法、装置、设备及存储介质
CN113807353A (zh) * 2021-09-29 2021-12-17 中国平安人寿保险股份有限公司 图像转换模型训练方法、装置、设备及存储介质
CN113807353B (zh) * 2021-09-29 2023-08-01 中国平安人寿保险股份有限公司 图像转换模型训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Liu et al. Describe what to change: A text-guided unsupervised image-to-image translation approach
CN112766366A (zh) 对抗生成网络的训练方法及其图像处理方法、装置
CN110555896B (zh) 一种图像生成方法、装置以及存储介质
KR102306658B1 (ko) 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치
CN115565238B (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
US11823490B2 (en) Non-linear latent to latent model for multi-attribute face editing
WO2022052530A1 (zh) 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN111368926B (zh) 图像筛选方法、装置和计算机可读存储介质
CN111339813A (zh) 人脸属性识别方法、装置、电子设备和存储介质
CN118115622B (zh) 图像生成模型的处理方法、装置、设备、存储介质及产品
CN113822790A (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
CN114373224B (zh) 基于自监督学习的模糊3d骨架动作识别方法及装置
CN116152938A (zh) 身份识别模型训练和电子资源转移方法、装置及设备
CN117079339B (zh) 动物虹膜识别方法、预测模型训练方法、电子设备及介质
Kakani et al. Segmentation-based ID preserving iris synthesis using generative adversarial networks
CN115631285B (zh) 基于统一驱动的人脸渲染方法、装置、设备及存储介质
JP7479507B2 (ja) 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム
CN110675312A (zh) 图像数据处理方法、装置、计算机设备以及存储介质
Damianou et al. A top-down approach for a synthetic autobiographical memory system
CN112990123B (zh) 图像处理方法、装置、计算机设备和介质
CN117034133A (zh) 一种数据处理方法、装置、设备和介质
CN115708135A (zh) 人脸识别模型的处理方法、人脸识别方法及装置
Chen et al. Masked face recognition using generative adversarial networks by restoring the face closed part
CN114612991A (zh) 攻击人脸图片的转换方法及装置、电子设备及存储介质
CN113205044A (zh) 一种基于表征对比预测学习的深度伪造视频检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination