CN115410056A - 图像处理方法、模型训练方法、装置和计算机设备 - Google Patents
图像处理方法、模型训练方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN115410056A CN115410056A CN202211005416.3A CN202211005416A CN115410056A CN 115410056 A CN115410056 A CN 115410056A CN 202211005416 A CN202211005416 A CN 202211005416A CN 115410056 A CN115410056 A CN 115410056A
- Authority
- CN
- China
- Prior art keywords
- biological object
- image
- attribute
- identity
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 24
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 26
- 208000032538 Depersonalisation Diseases 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 12
- 238000003062 neural network model Methods 0.000 description 11
- 230000006872 improvement Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 210000000554 iris Anatomy 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 210000003786 sclera Anatomy 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 206010010356 Congenital anomaly Diseases 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本说明书实施例公开了一种图像处理方法、模型训练方法、装置和计算机设备。所述方法包括:根据源图像获取身份特征和属性特征,所述源图像包含第一生物对象,所述身份特征用于表示第一生物对象的身份信息,所述属性特征用于表示第一生物对象的属性信息;根据目标图像获取上下文特征,所述目标图像包含第二生物对象,所述上下文特征用于表示第二生物对象的上下文信息;根据身份特征、属性特征和上下文特征,生成融合图像,所述融合图像包含融合生物对象,所述融合生物对象的身份信息和属性信息与第一生物对象相同,所述融合生物对象的上下文信息与第二生物对象相同。本说明书实施例可以提高融合图像和源图像在细节属性上的相似程度。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种图像处理方法、模型训练方法、装置和计算机设备。
背景技术
图像融合技术的应用场景非常广泛。通过图像融合技术,可以将源图像中生物对象的信息和目标图像中生物对象的信息进行融合,得到融合图像。例如,通过图像融合技术,可以将源图像中人脸的信息和目标图像中人脸的信息进行融合,得到换脸图像。
然而,目前的图像融合技术,融合图像中生物对象的细节属性与源图像中生物对象的细节属性无法保持一致。例如,换脸图像中胡子的颜色与源图像中胡子的颜色无法保持一致。
发明内容
本说明书实施例提供一种图像处理方法、模型训练方法、装置和计算机设备,以提高融合图像和源图像在细节属性上的相似程度。
本说明书实施例的第一方面,提供了一种图像处理方法,包括:
根据源图像获取身份特征和属性特征,所述源图像中包含第一生物对象,所述身份特征用于表示第一生物对象的身份信息,所述属性特征用于表示第一生物对象的属性信息;
根据目标图像获取上下文特征,所述目标图像中包含第二生物对象,所述上下文特征用于表示第二生物对象的上下文信息;
根据身份特征、属性特征和上下文特征,生成源图像和目标图像的融合图像,所述融合图像中包含第一生物对象和第二生物对象的融合生物对象,所述融合生物对象的身份信息和属性信息与第一生物对象相同,所述融合生物对象的上下文信息与第二生物对象相同。
本说明书实施例的第二方面,提供了一种模型训练方法,包括:
将源图像样本和目标图像样本输入对抗网络中的生成器,得到源图像样本和目标图像样本的融合图像样本,所述源图像样本中包含第一生物对象,所述目标图像样本中包含第二生物对象,所述融合图像样本中包含第一生物对象和第二生物对象的融合生物对象;
将源图像样本和融合图像样本输入对抗网络中的判别器,得到判别结果;
根据判别结果,利用损失函数优化对抗网络的模型参数,所述损失函数至少包括第一项,所述第一项用于约束融合生物对象与第一生物对象之间的属性信息偏差。
本说明书实施例的第三方面,提供了一种图像处理装置,包括:
第一获取单元,用于根据源图像获取身份特征和属性特征,所述源图像中包含第一生物对象,所述身份特征用于表示第一生物对象的身份信息,所述属性特征用于表示第一生物对象的属性信息;
第二获取单元,用于根据目标图像获取上下文特征,所述目标图像中包含第二生物对象,所述上下文特征用于表示第二生物对象的上下文信息;
生成单元,用于根据身份特征、属性特征和上下文特征,生成源图像和目标图像的融合图像,所述融合图像中包含第一生物对象和第二生物对象的融合生物对象,所述融合生物对象的身份信息和属性信息与第一生物对象相同,所述融合生物对象的上下文信息与第二生物对象相同。
本说明书实施例的第四方面,提供了一种模型训练装置,包括:
第一输入单元,用于将源图像样本和目标图像样本输入对抗网络中的生成器,得到源图像样本和目标图像样本的融合图像样本,所述源图像样本中包含第一生物对象,所述目标图像样本中包含第二生物对象,所述融合图像样本中包含第一生物对象和第二生物对象的融合生物对象;
第二输入单元,用于将源图像样本和融合图像样本输入对抗网络中的判别器,得到判别结果;
优化单元,用于根据判别结果,利用损失函数优化对抗网络的模型参数,所述损失函数至少包括第一项,所述第一项用于约束融合生物对象与第一生物对象之间的属性信息偏差。
本说明书实施例的第五方面,提供了一种计算机设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如第一方面或者第二方面所述方法的指令。
本说明书实施例提供的技术方案,可以根据源图像获取身份特征和属性特征;可以根据目标图像获取上下文特征;可以根据身份特征、属性特征和上下文特征,生成源图像和目标图像的融合图像。这样可以通过属性编辑的方式,将源图像中生物对象的细节属性迁移到融合图像的生物对象中,使融合图像中生物对象的细节属性与源图像中生物对象的细节属性保持一致,从而提高了融合图像和源图像在细节属性上的相似程度。另外,本说明书实施例提供的技术方案,对抗网络的损失函数中可以包括第一项,所述第一项用于约束第三生物对象与第一生物对象之间的属性信息偏差。从而通过所述损失函数训练得到的生成器,能够生成在细节属性上与源图像更加相似的融合图像。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中模型架构的结构示意图;
图2为本说明书实施例中图像处理方法的流程示意图;
图3为本说明书实施例中模型训练方法的流程示意图;
图4为本说明书实施例中对抗网络的训练过程示意图;
图5为本说明书实施例中图像处理装置的结构示意图;
图6为本说明书实施例中模型训练装置的结构示意图;
图7为本说明书实施例中计算机设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
请参阅图1,其示出了本说明书实施例涉及的用于对图像数据进行处理的模型架构。通过所述模型架构,可以将源图像和目标图像进行融合,得到融合图像。其中,所述源图像、所述目标图像和所述融合图像可以为生物特征图像。所述生物特征图像可以为人脸图像、虹膜图像、指纹图像、掌纹图像、牙齿咬痕图像等。具体地,所述源图像中可以包含第一生物对象,所述目标图像中可以包含第二生物对象,所述融合图像中可以包含第三生物对象。所述第三生物对象可以为第一生物对象和第二生物对象的融合生物对象。所述第一生物对象、所述第二生物对象和所述第三生物对象可以为人脸、虹膜、巩膜、指纹、掌纹、牙齿咬痕等。
在一些实施例中,所述模型架构可以包括分辨率增强模型和图像融合模型。所述分辨率增强模型用于对源图像和目标图像进行分辨率增强处理。所述分辨率增强模型可以基于超分辨率算法(Super-Resolution,SR)进行分辨率增强处理。所述分辨率增强模型可以包括神经网络模型。所述神经网络模型可以包括SRCNN模型、FSRCNN模型、ESPCN模型、编码器-解码器模型等。所述图像融合模型用于根据分辨率增强后的源图像和目标图像生成融合图像。
在实际应用中,所述模型架构中的图像融合模型往往是基于高分辨率图像设计实现的,在低分辨率图像上的性能表现不佳。通过所述分辨率增强模型,可以提高源图像和目标图像的分辨率,提高所述图像融合模型的性能表现,从而提高所述模型架构的融合效果。
在一些实施例中,所述图像融合模型可以包括身份识别模型。所述身份识别模型用于从分辨率增强后的源图像中提取身份特征(Identity)。所述身份识别模型可以包括神经网络模型、支持向量机模型等。所述神经网络模型可以包括卷积神经网络模型。所述卷积神经网络模型可以包括AlexNet模型、GoogLeNet模型等。所述身份特征可以为特征向量、特征矩阵或者特征图(Feture Map)。所述身份特征用于表示第一生物对象的身份信息。例如,所述源图像为人脸图像。所述身份识别模型为人脸识别模型。所述人脸识别模型可以从人脸图像中提取身份特征。所述身份特征可以为用于表示人脸身份的特征,例如人脸的结构特征等。
在一些实施例中,所述图像融合模型还可以包括属性识别模型。所述属性识别模型用于从分辨率增强后的源图像中提取属性特征。所述属性识别模型可以包括神经网络模型、支持向量机模型等。所述神经网络模型可以包括卷积神经网络模型。所述卷积神经网络模型可以包括AlexNet模型、GoogLeNet模型等。所述属性特征可以为特征向量、特征矩阵或者特征图。所述属性特征用于表示第一生物对象的属性信息。所述属性信息可以包括外貌、风格等。例如,所述源图像为人脸图像。所述属性特征包括以下至少之一:用于表示胡须信息的胡须特征、用于表示眼袋信息的眼袋特征、用于表示性别信息的性别特征、用于表示年龄信息的年龄特征。所述胡须信息包括胡须的颜色、形状等。所述眼袋信息包括眼袋的类型,例如先天型、脂肪型、松弛型等。所述性别信息用于表示性别。所述年龄信息用于表示年龄阶段。
在一些场景示例中,所述属性识别模型可以包括属性分类模型。所述属性分类模型用于对第一生物对象的一个或多个属性信息进行分类。所述属性特征可以包括针对所述一个或多个属性信息的分类结果。例如,源图像为人脸图像。所述属性分类模型用于对人脸的胡须信息、眼袋信息、性别信息、年龄信息等进行分类,得到分类结果。所述分类结果可以表示为矩阵a=[a1,a2,a3,a4]。所述a1可以表示为向量a1=[a11,a12,a13,a14]。所述a11用于表示胡须颜色为黑色的概率,所述a12用于表示胡须颜色为白色的概率,所述a13用于表示胡须颜色为灰色的概率,所述a14用于表示没有胡须的概率。所述a2可以表示为向量a2=[a21,a22,a23,a24]。所述a21用于表示眼袋类型为先天型的概率,所述a22用于表示眼袋类型为脂肪型的概率,所述a23用于表示眼袋类型为松弛型的概率,所述a24用于表示眼袋类型为混合型的概率。所述a3可以表示为向量a3=[a31,a31,a32,a32]。所述a31用于表示性别为男性的概率,所述a32用于表示性别为女性的概率。所述a4可以表示为向量a4=[a41,a42,a43,a44]。所述a41用于表示年龄段为儿童的概率,所述a42用于表示年龄段为少年的概率,所述a43用于表示年龄段为青年的概率,所述a44用于表示年龄段为老年的概率。
在一些实施例中,所述图像融合模型还可以包括上下文识别模型。所述上下文识别模型用于从分辨率增强后的目标图像中提取上下文特征。所述上下文识别模型可以包括神经网络模型、支持向量机模型等。所述神经网络模型可以包括卷积神经网络模型。所述卷积神经网络模型可以包括AlexNet模型、GoogLeNet模型、DenseNet模型等。所述上下文特征可以为特征向量、特征矩阵或者特征图。所述上下文特征用于表示第二生物对象的上下文信息。所述上下文特征可以包括以下至少之一:用于表示姿态信息的姿态特征、用于表示背景信息的背景特征。所述姿态信息可以包括生物对象的偏向角度。所述背景信息可以包括用于衬托生物对象的景物。例如,所述目标图像可以为人脸图像。所述上下文特征包括以下至少之一:用于表示人脸姿态的姿态特征、用于表示人脸背景的背景特征。所述人脸姿态可以包括人脸的偏向角度。所述人脸背景可以包括用于衬托人脸的景物,例如图像中非人脸区域的景物。
在一些实施例中,所述图像融合模型还可以包括特征融合模型。所述特征融合模型用于将多种特征进行融合(Fusion),以生成融合图像。具体地,将身份特征、属性特征和上下文特征进行融合,以生成融合图像。所述特征融合模型可以包括神经网络模型、MFEFF-SSD模型等。在一些场景示例中,所述特征融合模型可以包括顺次堆叠的多个结构相同的特征融合模块和输出模块。首个特征融合模块的输入包括身份特征、属性特征和上下文特征。其余特征融合模块的输入包括身份特征、属性特征、上下文特征和上一个特征融合模块的输出。最后一个特征融合模块的输出可以作为输出模块的输入。所述输出模块用于输出融合图像。
根据特征生成图像的具体技术原理,为本领域技术人员所公知,故在此不再详细描述。
在一些实施例中,考虑到直接级联分辨率增强模型和图像融合模型,有可能无法很好地将两个模型的信息进行融合利用。为了进一步提高融合效果,使第三生物对象的身份信息和属性信息与第一生物对象更加趋于一致,可以获取分辨率增强模型在对源图像进行分辨率增强处理过程中的中间特征。所述中间特征可以为第一生物对象的生物特征信息。所述中间特征可以用于生成分辨率增强后的源图像。如此,所述特征融合模型可以将身份特征、属性特征、上下文特征和中间特征进行融合,生成融合图像。
依赖于分辨率增强模型的架构的不同,所述中间特征也可以不同。例如,所述分辨率增强模型可以为编码器-解码器模型,所述中间特征可以包括编码器的输出。另举一例,所述分辨率增强模型可以为SRCNN模型,所述中间特征可以包括特定卷积层的输出。
在一些实施例中,所述源图像中可以包含第一生物对象,所述目标图像中可以包含第二生物对象,所述融合图像中可以包含第三生物对象。所述第三生物对象的身份信息和属性信息可以与第一生物对象相同。所述第三生物对象的上下文信息可以与第二生物对象相同。这样通过所述模型架构,可以将源图像中生物对象的细节属性迁移到融合图像的生物对象中,可以使融合图像中生物对象的细节属性与源图像中生物对象的细节属性保持一致,从而提高了所述融合图像和所述源图像在细节属性上的相似程度。
在一些实施例中,所述第一生物对象可以为受害者,所述源图像可以为受害者的生物特征图像。所述第二生物对象可以为攻击者,所述目标图像可以为攻击者的生物特征图像。所述融合图像中的生物对象和所述源图像中的生物对象在细节属性上更加相似,使得所述融合图像具有较强的攻击力。从而利用所述融合图像,可以对针对身份识别模型的攻击进行防御。例如,利用所述融合图像,可以对身份识别模型进行对抗训练,提高身份识别模型的鲁棒性。所述身份识别模型可以包括在刷脸支付、门禁识别等应用场景中用于识别身份的模型。
以下介绍本说明书实施例的一个场景示例。
换脸可以将人脸从源图像交换到目标图像,并保持目标图像中人脸的姿态和背景不变。在相关技术中,可以采用FSGAN、FaceShifter等换脸模型实现换脸。然而,一方面,上述换脸模型是基于高分辨率图像设计实现的,在低分辨率图像上的性能表现不佳。另一方面,上述换脸模型无法使人脸属性保持一致,造成换脸图像与源图像在细节属性上相似程度不高。例如,源图像中胡须的颜色为白色,目标图像中的人脸没有胡须,换脸图像中胡须的颜色为黑色。从而,换脸图像中胡须的颜色与源图像不同,造成换脸图像与源图像的相似程度不高。
在本场景示例中,可以将低分辨率源图像输入分辨率增强模型,得到高分辨率源图像;可以将低分辨率目标图像输入分辨率增强模型,得到高分辨率目标图像;可以将高分辨率源图像和高分辨率目标图像输入图像融合模型,得到高分辨率换脸图像。
所述低分辨率源图像、所述低分辨率目标图像和所述高分辨率换脸图像可以为人脸图像。所述低分辨率源图像中可以包含第一人脸。所述低分辨率目标图像中可以包含第二人脸。所述高分辨率换脸图像中可以包含第三人脸。所述第三人脸可以理解为所述第一人脸和所述第二人脸的融合人脸。所述第三人脸的身份信息和属性信息可以与所述第一人脸相同。所述第三人脸的上下文信息可以与所述第二人脸相同。
所述低分辨率例如可以为16×16像素,所述高分辨率例如可以为256×256像素。
通过所述模型架构,可以使高分辨率换脸图像中人脸的细节属性与低分辨率源图像中人脸的细节属性保持一致,从而提高了高分辨率换脸图像和低分辨率源图像在细节属性上的相似程度。并且,高分辨率换脸图像中人脸区域和非人脸区域的边界没有出现明显的异常纹理。使得根据肉眼无法分辨出所述高分辨率换脸图像是伪造的。
所述第一人脸可以为受害者,所述源图像可以为受害者的人脸图像。所述第二人脸可以为攻击者,所述目标图像可以为攻击者的人脸图像。所述高分辨率换脸图像中人脸的细节属性与低分辨率源图像中人脸的细节属性保持一致,使得所述高分辨率换脸图像具有较强的攻击力。利用所述高分辨率换脸图像,可以对针对人脸识别模型的攻击进行防御。例如,利用所述高分辨率换脸图像,可以对人脸识别模型进行对抗训练,提高人脸识别模型的鲁棒性。所述人脸识别模型可以包括在刷脸支付、门禁识别等应用场景中用于识别身份的模型。
在本场景示例中,所述图像融合模型可以包括身份识别模型、属性识别模型、上下文识别模型和特征融合模型。可以将高分辨率源图像输入身份识别模型,得到身份特征;可以将高分辨率源图像输入属性识别模型,得到属性特征。其中,所述属性特征用于表示第一人脸的属性信息。所述属性特征可以包括胡须特征、眼袋特征、性别特征和年龄特征。
可以将高分辨率目标图像输入上下文识别模型,得到上下文特征。其中,所述上下文特征可以包括姿态特征和背景特征。所述姿态特征用于表示第二人脸的姿态,例如第二人脸的偏向角度。所述背景特征用于表示第二人脸的背景,例如用于衬托第二人脸的景物。
可以将身份特征、属性特征、上下文特征和中间特征输入特征融合模型,得到高分辨率换脸图像。所述中间特征可以为分辨率增强模型在对低分辨率源图像进行分辨率增强处理过程中的中间特征。所述中间特征可以用于生成高分辨率源图像。
本说明书实施例提供一种图像处理方法。所述图像处理方法可以应用于计算机设备。所述计算机设备包括但不限于个人计算机、服务器、包含多个服务器的服务器集群等。
请参阅图2。所述图像处理方法可以包括以下步骤。
步骤S11:根据源图像获取身份特征和属性特征。
在一些实施例中,所述源图像中可以包含第一生物对象。所述身份特征可以用于表示第一生物对象的身份信息。所述属性特征可以用于表示第一生物对象的属性信息。在实际应用中,可以将源图像输入身份识别模型,得到身份特征;可以将源图像输入属性识别模型,得到属性特征。关于身份识别模型和属性识别模型可以参照前面的实施例,在此不再详细描述。
在一些实施例中,可以直接从源图像中提取身份特征和属性特征。或者,还可以对源图像进行分辨率增强处理;可以从分辨率增强后的源图像中提取身份特征和属性特征。具体地,可以基于超分辨率算法进行分辨率增强处理。在实际应用中,可以将源图像输入分辨率增强模型,得到分辨率增强后的源图像。从而有利于根据低分辨率源图像生成高分辨率融合图像。
步骤S13:根据目标图像获取上下文特征。
在一些实施例中,所述目标图像中可以包含第二生物对象。所述上下文特征用于表示第二生物对象的上下文信息。所述上下文特征可以包括以下至少之一:用于表示姿态信息的姿态特征、用于表示背景信息的背景特征。在实际应用中,可以将目标图像输入上下文识别模型,得到上下文特征。关于上下文识别模型可以参照前面的实施例,在此不再详细描述。
在一些实施例中,可以直接从目标图像中提取上下文特征。或者,还可以对目标图像进行分辨率增强处理;可以从分辨率增强后的目标图像中提取上下文特征。具体地,可以基于超分辨率算法进行分辨率增强处理。在实际应用中,可以将目标图像输入分辨率增强模型,得到分辨率增强后的目标图像。从而有利于根据低分辨率目标图像生成高分辨率融合图像。
步骤S15:根据身份特征、属性特征和上下文特征,生成源图像和目标图像的融合图像。
在一些实施例中,所述融合图像为源图像和目标图像融合后的图像。所述融合可以是将源图像中的信息和目标图像中的信息融合到融合图像。所述融合图像可以为生物特征图像。
所述融合图像中可以包含第三生物对象。所述第三生物对象可以为人脸、虹膜、巩膜、指纹、掌纹、牙齿咬痕等。所述第三生物对象可以为第一生物对象和第二生物对象的融合生物对象。所述融合可以是将第一生物对象的信息和第二生物对象的信息融合到第三生物对象。具体地,将第一生物对象的身份信息和属性信息迁移到第三生物对象,使得所述第三生物对象的身份信息和属性信息与第一生物对象相同。将第二生物对象的上下文信息迁移到第三生物对象,使得所述第三生物对象的上下文信息与第二生物对象相同。
在一些实施例中,所述身份特征用于使第三生物对象的身份信息与第一生物对象相同。所述属性特征用于使第三生物对象的属性信息与第一生物对象相同。所述上下文特征用于使第三生物对象的上下文信息与第二生物对象相同。可以将身份特征、属性特征和上下文特征进行融合,得到源图像和目标图像的融合图像。具体地,可以将身份特征、属性特征和上下文特征输入特征融合模型,得到源图像和目标图像的融合图像。在实际应用中,可以直接将身份特征、属性特征和上下文特征输入特征融合模型。或者,还可以对身份特征、属性特征和上下文特征进行增维处理;可以将增维处理后的身份特征、属性特征和上下文特征输入特征融合模型。所述增维处理用于将低维特征映射为高纬特征,例如将特征向量映射为特征图。
在一些实施例中,为了进一步提高融合效果,使第三生物对象的身份信息和属性信息与第一生物对象更加趋于一致,可以获取中间特征;可以根据身份特征、属性特征、上下文特征和中间特征,生成融合图像。其中,所述中间特征可以为在分辨率增强处理步骤中根据源图像提取的特征,用于生成分辨率增强后的源图像。
根据身份特征、属性特征、上下文特征和中间特征生成融合图像的具体过程,可以参照根据身份特征、属性特征和上下文特征生成融合图像的具体过程,在此不再详细描述。
本说明书实施例的图像处理方法,可以根据源图像获取身份特征和属性特征;可以根据目标图像获取上下文特征;可以根据身份特征、属性特征和上下文特征,生成源图像和目标图像的融合图像。这样可以通过属性编辑的方式,将源图像中生物对象的细节属性迁移到融合图像的生物对象中,使融合图像中生物对象的细节属性与源图像中生物对象的细节属性保持一致,从而提高了融合图像和源图像在细节属性上的相似程度。
本说明书实施例提供一种模型训练方法。所述模型训练方法可以应用于计算机设备。所述计算机设备包括但不限于个人计算机、服务器、包含多个服务器的服务器集群等。
请参阅图3和图4。所述模型训练方法可以包括以下步骤。
步骤S21:将源图像样本和目标图像样本输入对抗网络中的生成器,得到源图像样本和目标图像样本的融合图像样本。
在一些实施例中,所述源图像样本、所述目标图像样本和所述融合图像样本可以为生物特征图像。例如,所述源图像样本和所述目标图像样本可以为人脸图像,所述融合图像样本可以为换脸图像。具体地,所述源图像样本中可以包含第一生物对象,所述第一生物对象可以为人脸、虹膜、巩膜、指纹、掌纹、牙齿咬痕等。所述目标图像样本中可以包含第二生物对象,所述第二生物对象可以为人脸、虹膜、巩膜、指纹、掌纹、牙齿咬痕等。所述融合图像样本中可以包含第三生物对象,所述第三生物对象可以为人脸、虹膜、巩膜、指纹、掌纹、牙齿咬痕等。所述第三生物对象可以为第一生物对象和第二生物对象的融合生物对象。
在一些实施例中,所述对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型,可以包括生成器(Generative Model)和判别器(DiscriminativeModel)。所述生成器可以根据图1所示的模型架构获得。具体地,所述生成器可以为图1所示模型架构中的图像融合模型。或者,所述生成器还可以为图1所示的模型架构。所述生成器用于根据源图像样本和目标图像样本生成融合图像样本。所述判别器可以包括分类器,例如二分类器或者多分类器等。所述判别器可以为全连接神经网络、卷积神经网络模型、循环神经网络模型或长短期记忆网络模型等。所述判别器可以用于区分融合图像样本和源图像样本中的生物对象。例如,若融合图像样本中第三生物对象的身份信息和/或属性信息与源图像中的第一生物对象相同,所述判别器可以认为融合图像样本和源图像样本中的生物对象是同一生物对象。若融合图像样本中第三生物对象的身份信息和/或属性信息与源图像中的第一生物对象不同,所述判别器可以认为融合图像样本和源图像样本中的生物对象不是同一生物对象。
在一些实施例中,所述生成器可以包括身份识别模型、属性识别模型和上下文识别模型。如此,可以将源图像样本输入身份识别模型和属性识别模型,得到身份特征和属性特征;可以将目标图像样本输入上下文识别模型,得到上下文特征;可以将身份特征、属性特征和上下文特征输入特征融合模型,得到融合图像样本。其中,所述身份特征用于表示第一生物对象的身份信息。所述属性特征用于表示第一生物对象的属性信息。所述上下文特征用于表示第二生物对象的上下文信息。关于身份特征、属性特征、上下文特征,可以参照前面的描述。
在一些实施例中,所述生成器还可以包括分辨率增强模型。如此,可以将源图像样本输入分辨率增强模型,得到分辨率增强后的源图像样本;可以将分辨率增强后的源图像样本输入身份识别模型和属性识别模型,得到身份特征和属性特征;可以将目标图像输入分辨率增强模型,得到分辨率增强后的目标图像样本;可以将分辨率增强后的目标图像样本输入上下文识别模型,得到上下文特征。
在一些实施例中,为了进一步提高融合效果,使第三生物对象的身份信息和属性信息与第一生物对象更加趋于一致,还可以获取分辨率增强模型在对源图像样本进行分辨率增强处理过程中的中间特征。所述中间特征可以用于生成分辨率增强后的源图像样本。如此,可以将身份特征、属性特征、上下文特征和中间特征输入特征融合模型,得到融合图像样本。
在一些实施例中,可以采集一个或多个样本组。所述样本组中包括源图像样本和目标图像样本。可以将每个样本组中的源图像样本和目标图像样本输入生成器,得到融合图像样本。
步骤S23:将源图像样本和融合图像样本输入对抗网络中的判别器,得到判别结果。
在一些实施例中,可以将样本组中的源图像样本以及与该样本组相对应的融合图像样本输入判别器,得到判别结果。所述与样本组相对应的融合图像样本,可以为根据样本组中的源图像样本和目标图像样本所生成的融合图像样本。所述判别结果用于表示融合图像样本和源图像样本中的生物对象是否为同一生物对象。具体地,所述判别结果可以包括概率值。所述概率值用于表示融合图像样本和源图像样本中的生物对象为同一生物对象的概率。例如,所述概率值可以为区间[0,1]中的实数。或者,所述判别结果还可以包括标识。所述标识用于表示融合图像样本和源图像样本中的生物对象是否为同一生物对象。例如,所述判别结果可以为0或者1。0用于表示融合图像样本和源图像样本中的生物对象是同一生物对象,1用于表示融合图像样本和源图像样本中的生物对象不是同一生物对象。
步骤S25:根据判别结果,利用损失函数优化对抗网络的模型参数。
在一些实施例中,所述损失函数至少包括第一项。所述第一项用于约束第三生物对象与第一生物对象之间的属性信息偏差。具体地,所述第一项可以包括第一子项和/或第二子项。所述第一子项用于约束第三生物对象与第一生物对象之间的属性迁移损失。例如,所述第一子项可以表示为Lat=||p(Isource)-p(Iswapped)||。Isource表示源图像样本。Iswapped表示融合图像样本。p(Isource)表示在将源图像样本输入属性识别模型后,属性识别模型的输出。p(Iswapped)表示在将融合图像样本输入属性识别模型后,属性识别模型的输出。||||表示2范数。所述第二子项用于约束第三生物对象与第一生物对象之间的属性一致性损失。所述第二子项可以包括交叉熵损失函数、均方误差损失函数等。例如,所述第二子项可以为交叉熵损失函数xn表示在将第n个源图像样本输入属性识别模型后,属性识别模型的输出。yn表示第n个源图像样本的属性标签。所述属性标签用于表示源图像样本中第一生物对象的属性信息(例如属性的类别)。N表示源图像样本的数量。
当然,所述损失函数还可以包括以下至少之一:第二项、第三项、第四项。
所述第二项用于约束第三生物对象与第一生物对象之间的身份信息损失。例如,所述第二项可以表示为LCOS=1-cos(q(Isource),q(Iswapped))。Isource表示源图像样本。Iswapped表示融合图像样本。q(Isource)表示在将源图像样本输入身份识别模型后,身份识别模型的输出。q(Iswapped)表示在将融合图像样本输入身份识别模型后,身份识别模型的输出。cos表示余弦相似度。所述第三项用于约束融合图像样本与源图像样本之间的像素损失。例如,所述第三项可以表示为Lrec=||Isource-Iswapped||。Isource表示源图像样本。Iswapped表示融合图像样本。||||表示2范数。所述第四项用于约束对抗网络的损失。例如,所述第四项可以表示为x表示源图像样本,Pr表示各源图像样本构成的集合,Pg表示各融合图像样本构成的集合。D(x)表示判别结果。G(z)表示融合图像样本。z表示样本组。
在一些场景示例中,所述损失函数可以表示为第一项、第二项、第三项、第四项的加权和。例如,所述损失函数可以表示为L=γ1Lgan+γ2Lce+γ3Lat+γ4Lcos+γ5Lrec。γ1、γ2、γ3、γ4、γ5为权重系数。γ1、γ2、γ3、γ4、γ5可以为对抗网络的超参数。
值得说明的是,以上的公式(例如第一子项的计算公式、第二子项的计算公式、第二项的计算公式、第三项的计算公式、第四项的计算公式、损失函数的计算公式)仅为示例。在实际应用中并不限于此,还可以具有其它的变形或变化。
在一些实施例中,所述对抗网络的训练过程可以为生成器和判别器的博弈过程。所述生成器用于生成尽量与源图像样本相似的融合图像样本以欺骗判别器。所述判别器用于尽量区分源图像样本和融合图像样本中的生物对象。可以根据判别结果,利用损失函数计算损失信息;可以根据损失信息,优化对抗网络的模型参数。例如,采用反向传播算法优化对抗网络的模型参数。对抗网络的模型参数具体可以包括生成器的模型参数和判别器的模型参数。
可以交替优化对抗网络中生成器和判别器的模型参数。所述对抗网络的训练过程可以包括一次或多次迭代过程。每次迭代过程可以包括第一阶段和第二阶段。在第一阶段,可以保持生成器的模型参数不变,优化判别器的模型参数。具体地,可以将源图像样本和目标图像样本输入生成器,得到源图像样本和目标图像样本的融合图像样本;可以将融合图像样本和源图像样本输入判别器,得到判别结果;可以根据判别结果优化判别器的模型参数。在第二阶段,可以保持判别器的模型参数不变,优化生成器的模型参数。可以将源图像样本和目标图像样本输入生成器,得到源图像样本和目标图像样本的融合图像样本;可以将融合图像样本和源图像样本输入判别器,得到判别结果;可以根据判别结果优化生成器的模型参数。
迭代结束条件可以为:迭代次数达到预设次数。当然,迭代结束条件还可以为其它的形式。例如,判别器无法区分融合图像样本和源图像样本中的生物对象。
本说明书实施例的模型训练方法,对抗网络的损失函数中可以包括第一项,所述第一项用于约束第三生物对象与第一生物对象之间的属性信息偏差。从而通过所述损失函数训练得到的生成器,能够生成在细节属性上与源图像更加相似的融合图像。
请参阅图5。本说明书实施例还提供一种图像处理装置,具体包括以下单元。
第一获取单元31,用于根据源图像获取身份特征和属性特征,所述源图像中包含第一生物对象,所述身份特征用于表示第一生物对象的身份信息,所述属性特征用于表示第一生物对象的属性信息;
第二获取单元33,用于根据目标图像获取上下文特征,所述目标图像中包含第二生物对象,所述上下文特征用于表示第二生物对象的上下文信息;
生成单元35,用于根据身份特征、属性特征和上下文特征,生成源图像和目标图像的融合图像,所述融合图像中包含第三生物对象,所述第三生物对象的身份信息和属性信息与第一生物对象相同,所述第三生物对象的上下文信息与第二生物对象相同。
请参阅图6。本说明书实施例还提供一种模型训练装置,具体包括以下单元。
第一输入单元41,用于将源图像样本和目标图像样本输入对抗网络中的生成器,得到源图像样本和目标图像样本的融合图像样本,所述源图像样本中包含第一生物对象,所述目标图像样本中包含第二生物对象,所述融合图像样本中包含第三生物对象;
第二输入单元43,用于将源图像样本和融合图像样本输入对抗网络中的判别器,得到判别结果;
优化单元45,用于根据判别结果,利用损失函数优化对抗网络的模型参数,所述损失函数至少包括第一项,所述第一项用于约束第三生物对象与第一生物对象之间的属性信息偏差。
下面介绍本说明书计算机设备的一个实施例。图7是该实施例中计算机设备的硬件结构示意图。如图7所示,该计算机设备可以包括一个或多个(图中仅示出一个)处理器、存储器和传输模块。当然,本领域普通技术人员可以理解,图7所示的硬件结构仅为示意,其并不对上述计算机设备的硬件结构造成限定。在实际中该计算机设备还可以包括比图7所示更多或者更少的组件单元;或者,具有与图7所示不同的配置。
所述存储器可以包括高速随机存储器;或者,还可以包括非易失性存储器,例如一个或者多个磁性存储装置、闪存或者其他非易失性固态存储器。当然,所述存储器还可以包括远程设置的网络存储器。所述存储器可以用于存储应用软件的程序指令或模块,例如本说明书图2或图3所对应实施例的程序指令或模块。
所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以读取并执行所述存储器中的程序指令或模块。
所述传输模块可以用于经由网络进行数据传输,例如经由诸如互联网、企业内部网、局域网、移动通信网等网络进行数据传输。
本说明书还提供计算机存储介质的一个实施例。所述计算机存储介质包括但不限于随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)、存储卡(Memory Card)等等。所述计算机存储介质存储有计算机程序指令。在所述计算机程序指令被执行时实现:本说明书图2或图3所对应实施例的程序指令或模块。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例、计算机设备实施例、以及计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (15)
1.一种图像处理方法,包括:
根据源图像获取身份特征和属性特征,所述源图像中包含第一生物对象,所述身份特征用于表示第一生物对象的身份信息,所述属性特征用于表示第一生物对象的属性信息;
根据目标图像获取上下文特征,所述目标图像中包含第二生物对象,所述上下文特征用于表示第二生物对象的上下文信息;
根据身份特征、属性特征和上下文特征,生成源图像和目标图像的融合图像,所述融合图像中包含第一生物对象和第二生物对象的融合生物对象,所述融合生物对象的身份信息和属性信息与第一生物对象相同,所述融合生物对象的上下文信息与第二生物对象相同。
2.根据权利要求1所述的方法,所述根据源图像获取身份特征和属性特征,包括:
将源图像输入身份识别模型,得到身份特征;
将源图像输入属性识别模型,得到属性特征;
所述根据目标图像获取上下文特征,包括:
将目标图像输入上下文识别模型,得到上下文特征;
所述生成源图像和目标图像的融合图像,包括:
将身份特征、属性特征和上下文特征输入特征融合模型,得到融合图像。
3.根据权利要求1所述的方法,所述方法还包括:
对源图像和目标图像进行分辨率增强处理;
所述根据源图像获取身份特征和属性特征,包括:
根据分辨率增强后的源图像获取身份特征和属性特征;
所述根据目标图像获取上下文特征,包括:
根据分辨率增强后的目标图像获取上下文特征。
4.根据权利要求3所述的方法,所述生成源图像和目标图像的融合图像,包括:
根据身份特征、属性特征、上下文特征和中间特征,生成融合图像,所述中间特征为在分辨率增强处理步骤中根据源图像提取的特征,用于生成分辨率增强后的源图像。
5.根据权利要求3所述的方法,所述对源图像和目标图像进行分辨率增强处理,包括:
将源图像和目标图像输入分辨率增强模型,得到分辨率增强后的源图像和目标图像。
6.根据权利要求1所述的方法,所述上下文特征包括以下至少之一:用于表示姿态信息的姿态特征、用于表示背景信息的背景特征;
所述属性特征包括以下至少之一:用于表示胡须信息的胡须特征、用于表示眼袋信息的眼袋特征、用于表示性别信息的性别特征、用于表示年龄信息的年龄特征。
7.根据权利要求1所述的方法,所述源图像和所述目标图像为人脸图像,所述第一生物对象、所述第二生物对象和所述融合生物对象为人脸,所述融合图像为换脸图像。
8.一种模型训练方法,包括:
将源图像样本和目标图像样本输入对抗网络中的生成器,得到源图像样本和目标图像样本的融合图像样本,所述源图像样本中包含第一生物对象,所述目标图像样本中包含第二生物对象,所述融合图像样本中包含第一生物对象和第二生物对象的融合生物对象;
将源图像样本和融合图像样本输入对抗网络中的判别器,得到判别结果;
根据判别结果,利用损失函数优化对抗网络的模型参数,所述损失函数至少包括第一项,所述第一项用于约束融合生物对象与第一生物对象之间的属性信息偏差。
9.根据权利要求8所述的方法,所述生成器包括身份识别模型、属性识别模型和上下文识别模型;所述将源图像样本和目标图像样本输入对抗网络中的生成器,包括:
将源图像样本输入身份识别模型和属性识别模型,得到身份特征和属性特征,所述身份特征用于表示第一生物对象的身份信息,所述属性特征用于表示第一生物对象的属性信息;
将目标图像样本输入上下文识别模型,得到上下文特征,所述上下文特征用于表示第二生物对象的上下文信息;
将身份特征、属性特征和上下文特征输入特征融合模型,得到融合图像样本。
10.根据权利要求9所述的方法,所述生成器还包括分辨率增强模型;
所述将源图像样本输入身份识别模型和属性识别模型,包括:
将源图像样本输入分辨率增强模型,得到分辨率增强后的源图像样本,将分辨率增强后的源图像样本输入身份识别模型和属性识别模型,得到身份特征和属性特征;
所述将目标图像样本输入上下文识别模型,包括:
将目标图像输入分辨率增强模型,得到分辨率增强后的目标图像样本,将分辨率增强后的目标图像样本输入上下文识别模型,得到上下文特征。
11.根据权利要求8所述的方法,所述损失函数还包括以下至少之一:
第二项,用于约束融合生物对象与第一生物对象之间的身份信息损失;
第三项,用于约束融合图像样本与源图像样本之间的像素损失;
第四项,用于约束对抗网络的损失。
12.根据权利要求8所述的方法,所述源图像样本和所述目标图像样本为人脸图像,所述第一生物对象、所述第二生物对象和所述融合生物对象为人脸,所述融合图像样本为换脸图像。
13.一种图像处理装置,包括:
第一获取单元,用于根据源图像获取身份特征和属性特征,所述源图像中包含第一生物对象,所述身份特征用于表示第一生物对象的身份信息,所述属性特征用于表示第一生物对象的属性信息;
第二获取单元,用于根据目标图像获取上下文特征,所述目标图像中包含第二生物对象,所述上下文特征用于表示第二生物对象的上下文信息;
生成单元,用于根据身份特征、属性特征和上下文特征,生成源图像和目标图像的融合图像,所述融合图像中包含第一生物对象和第二生物对象的融合生物对象,所述融合生物对象的身份信息和属性信息与第一生物对象相同,所述融合生物对象的上下文信息与第二生物对象相同。
14.一种模型训练装置,包括:
第一输入单元,用于将源图像样本和目标图像样本输入对抗网络中的生成器,得到源图像样本和目标图像样本的融合图像样本,所述源图像样本中包含第一生物对象,所述目标图像样本中包含第二生物对象,所述融合图像样本中包含第一生物对象和第二生物对象的融合生物对象;
第二输入单元,用于将源图像样本和融合图像样本输入对抗网络中的判别器,得到判别结果;
优化单元,用于根据判别结果,利用损失函数优化对抗网络的模型参数,所述损失函数至少包括第一项,所述第一项用于约束融合生物对象与第一生物对象之间的属性信息偏差。
15.一种计算机设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行根据权利要求1-12中任一项所述方法的指令。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005416.3A CN115410056A (zh) | 2022-08-22 | 2022-08-22 | 图像处理方法、模型训练方法、装置和计算机设备 |
US18/453,881 US20240062531A1 (en) | 2022-08-22 | 2023-08-22 | Image processing methods and apparatuses, model training methods and apparatuses, and computer devices |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005416.3A CN115410056A (zh) | 2022-08-22 | 2022-08-22 | 图像处理方法、模型训练方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410056A true CN115410056A (zh) | 2022-11-29 |
Family
ID=84160638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211005416.3A Pending CN115410056A (zh) | 2022-08-22 | 2022-08-22 | 图像处理方法、模型训练方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240062531A1 (zh) |
CN (1) | CN115410056A (zh) |
-
2022
- 2022-08-22 CN CN202211005416.3A patent/CN115410056A/zh active Pending
-
2023
- 2023-08-22 US US18/453,881 patent/US20240062531A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240062531A1 (en) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shi et al. | Warpgan: Automatic caricature generation | |
Ming et al. | A survey on anti-spoofing methods for facial recognition with rgb cameras of generic consumer devices | |
Lai et al. | Deep recurrent regression for facial landmark detection | |
Vageeswaran et al. | Blur and illumination robust face recognition via set-theoretic characterization | |
JP6137916B2 (ja) | 信号処理装置、信号処理方法、及び、信号処理システム | |
An et al. | Person re-identification by multi-hypergraph fusion | |
US20230021661A1 (en) | Forgery detection of face image | |
Tuzel et al. | Global-local face upsampling network | |
Huo et al. | Heterogeneous face recognition by margin-based cross-modality metric learning | |
Almeida et al. | Detecting face presentation attacks in mobile devices with a patch-based CNN and a sensor-aware loss function | |
WO2020098257A1 (zh) | 一种图像分类方法、装置及计算机可读存储介质 | |
JP2009211178A (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
Islam et al. | A review of recent advances in 3D ear-and expression-invariant face biometrics | |
Parde et al. | Face and image representation in deep CNN features | |
Liu et al. | Deep Attribute Guided Representation for Heterogeneous Face Recognition. | |
JP5879188B2 (ja) | 顔表情解析装置および顔表情解析プログラム | |
CN111553838A (zh) | 模型参数的更新方法、装置、设备及存储介质 | |
Wang et al. | PalGAN: Image colorization with palette generative adversarial networks | |
CN116434033A (zh) | 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统 | |
Mignon et al. | Reconstructing faces from their signatures using RBF regression | |
Deng et al. | Attention-aware dual-stream network for multimodal face anti-spoofing | |
CN112348008A (zh) | 证件信息的识别方法、装置、终端设备及存储介质 | |
CN115410056A (zh) | 图像处理方法、模型训练方法、装置和计算机设备 | |
Feng et al. | Robust face recognition with deeply normalized depth images | |
JP7190987B2 (ja) | 情報処理システム、および情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |