CN111275057B - 图像处理方法、装置及设备 - Google Patents

图像处理方法、装置及设备 Download PDF

Info

Publication number
CN111275057B
CN111275057B CN202010090066.XA CN202010090066A CN111275057B CN 111275057 B CN111275057 B CN 111275057B CN 202010090066 A CN202010090066 A CN 202010090066A CN 111275057 B CN111275057 B CN 111275057B
Authority
CN
China
Prior art keywords
network
image
trained
training
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010090066.XA
Other languages
English (en)
Other versions
CN111275057A (zh
Inventor
王浩
李志锋
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010090066.XA priority Critical patent/CN111275057B/zh
Publication of CN111275057A publication Critical patent/CN111275057A/zh
Priority to PCT/CN2020/127435 priority patent/WO2021159781A1/zh
Priority to US17/675,352 priority patent/US20220172462A1/en
Application granted granted Critical
Publication of CN111275057B publication Critical patent/CN111275057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种图像处理方法、装置及设备,该方法包括:获取第一输入图像和第二输入图像;提取所述第一输入图像的内容特征;提取所述第二输入图像的属性特征;对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射,以得到目标图像特征;以及基于所述目标图像特征生成输出图像。本发明引入特征转换网络,并对整个图像处理系统进行分阶段训练,使得图像处理系统训练高效快捷、适用性广、在保持内容信息的同时生成与期望属性更相似的输出图像。

Description

图像处理方法、装置及设备
技术领域
本发明涉及图像处理技术,更具体地,涉及一种图像处理方法、装置及设备。
背景技术
人脸图像合成在现实世界中有许多应用,例如人脸的超分辨率、正面化、人脸图像编辑等等,其广泛应用于图像视频的处理与生成等领域,具有非常重要的工业价值。随着深度学习技术的发展以及深度生成网络的出现,现有技术利用深度生成模型,例如生成对抗网络(Generative Adversarial Network,GAN)和变分自编码器(Variational Auto-encoder,VAE)等等,在实现高真实度的人脸合成方面取得了巨大进展。现实应用场景中,在保持身份不变的条件下合成特定场景的人脸图像是具有较高挑战性的一个课题。然而,目前的人脸图像合成方法仅通过对身份人脸图像的身份特征和属性人脸图像的属性特征进行简单的组合拼接,在生成的人脸图像中无法充分地表达身份人脸图像的身份信息和属性人脸图像的属性信息,并且在训练过程中,所有网络参数都一同受到身份和属性的共同约束,在图像的编解码过程中可能会造成不真实的合成瑕疵。所以,需要一种训练高效快捷、适用性广、在保持人脸身份信息的同时生成与期望属性更相似的人脸图像的图像合成方法。
发明内容
本发明的实施例提供了一种图像处理方法,包括:获取第一输入图像和第二输入图像;提取所述第一输入图像的内容特征;提取所述第二输入图像的属性特征;对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射,以得到目标图像特征;以及基于所述目标图像特征生成输出图像。
根据本发明的实施例,其中,利用特征转换网络来对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射,以得到所述目标图像特征,其中,所述目标图像特征具有所述第一输入图像的内容特征和所述第二输入图像的属性特征。
根据本发明的实施例,其中,利用内容编码器网络来提取所述第一输入图像的内容特征;利用属性编码器网络来提取所述第二输入图像的属性特征;以及利用解码器网络来基于所述目标图像特征生成输出图像。
根据本发明的实施例,其中,所述内容编码器网络和所述属性编码器网络为卷积神经网络,所述解码器网络为反卷积神经网络,并且所述特征转换网络为多个全连接层构成的多层感知器。
根据本发明的实施例,其中,基于图像重建损失函数来对待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络进行预训练;以及基于联合损失函数来对所述待训练的特征转换网络进行联合训练。
根据本发明的实施例,其中,所述联合损失函数包括图像重建损失函数、内容损失函数以及生成对抗损失函数中的至少两项。
根据本发明的实施例,其中,所述图像重建损失函数为所述待训练的属性编码器网络的训练输入图像与所述待训练的解码器网络的训练输出图像之间的L2距离或L1距离。
根据本发明的实施例,其中,所述内容损失函数为所述待训练的内容编码器网络的训练输入图像的内容特征和所述待训练的解码器网络的训练输出图像的内容特征之间的L2距离或L1距离或余弦相似度。
根据本发明的实施例,其中,利用内容识别网络来提取所述待训练的内容编码器网络的训练输入图像的内容特征和所述待训练的解码器网络的训练输出图像的内容特征。
根据本发明的实施例,其中,所述生成对抗损失函数为所述待训练的属性编码器的训练输入图像的属性特征和所述待训练的解码器的训练输出图像的属性特征之间的L2距离或L1距离。
根据本发明的实施例,其中,利用判别网络来提取所述待训练的属性编码器的训练输入图像的属性特征和所述待训练的解码器的训练输出图像的属性特征。
本发明的实施例提供了一种图像处理装置,包括:输入模块,用于获取第一输入图像和第二输入图像;内容提取模块,用于提取所述第一输入图像的内容特征;属性提取模块,用于提取所述第二输入图像的属性特征;特征转换模块,用于对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射,以得到目标图像特征;以及输出模块,用于基于所述目标图像特征生成输出图像。
根据本发明的实施例,其中,所述特征转换模块包括特征转换网络,其中,利用所述特征转换网络来对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射,以得到所述目标图像特征,其中,所述目标图像特征具有所述第一输入图像的内容特征和所述第二输入图像的属性特征。
本发明的实施例提供了一种图像处理设备,包括:输入单元,用于获取输入图像;输出单元,用于输出输出图像;处理器;和存储器,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的任一方法。
本发明的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的任一方法。
本发明的实施例提供了一种图像处理方法、装置及设备,其引入特征转换网络,并对整个图像处理系统进行分阶段训练,使得图像处理系统训练高效快捷、适用性广、在保持内容信息的同时生成与期望属性更相似的输出图像。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些示例性实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的图像处理设备的应用场景的示意图。
图2示出了根据本发明实施例的图像处理方法的流程图。
图3示出了根据本发明实施例的图像处理系统的示意性结构图。
图4示出了根据本发明实施例的图像处理系统的示例训练方法的流程图。
图5示出了根据本发明实施例的图像处理装置的示意图。
图6示出了根据本发明实施例的图像处理设备的示意图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
在本说明书和附图中,具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示,且对这些步骤和元素的重复描述将被省略。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或排序。
本发明的实施例涉及人工智能的机器学习等技术,以下介绍与本发明有关的概念。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
下面,将结合附图对根据本发明的示例实施例进行描述。
图1示出了根据本发明实施例的图像处理设备的应用场景100的示意图。
如图1所示,在场景100中,用户期望对内容图像101和属性图像102进行图像合成。用户将第一输入图像101(或称为,内容图像101)和第二输入图像102(或称为,属性图像102)输入智能设备103,经过智能设备的合成转换处理,最终输出具有内容图像101的内容特征(例如,身份特征等)和属性图像102的属性特征(例如,姿态、光照、发型头饰、背景、风格等)的输出图像104。
智能设备103可以是具有图像处理功能的任何类型的智能设备,例如智能手机、智能电视、平板计算机、游戏控制台以及电子计算机等,或者可以是构成这些智能设备的一部分的软件或硬件模块。智能设备103可以具有内置或外接的摄像头(未示出),用于获取输入的内容图像101和属性图像102。智能设备103可以具有内置或外接的显示界面或者其他类型的输出接口(未示出),用于输出经过图像合成处理过后的输出图像104。智能设备103还可以具有远程或本地连接的存储器(未示出),用于存储输入的内容图像101和属性图像102、输出图像104以及系统运行所需的任何数据或指令。
内容图像101可以是具有内容特征的任何图像,例如,其可以是具有特定身份信息的人脸图像,也可以是卡通人物图像或者动物面部图像等。类似地,属性图像102可以是具有任何属性特征的图像,例如,其可以是具有微笑面容特征的图像、可以是具有明亮图像背景的图像、可以是具有皇冠或眼镜饰品的图像、或者可以是具有素描风格等特定风格的图像,等等。
内容图像101和属性图像102可以通过智能设备103内置或外接的摄像头实时获取,也可以经由局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、内联网、互联网、存储区域网(Storage Area Network,SAN)、个人区域网(Personal AreaNetwork,PAN)、城域网(Metropolitan Area Network,MAN)、无线局域网(Wireless LocalArea Network,WLAN)、虚拟专用网(Virtual Private Network,VPN)、蜂窝或其它移动通信网络、蓝牙、近场通信(Near-Field Communication,NFC)、超声波通信等各种通信网络实时获取。在另一实施例中,内容图像101和属性图像102也可以是预先存储在智能设备103可访问的存储器中的特定图像。
接下来,结合图2和图3来描述根据本发明实施例的一种示例性图像处理方法。
图2示出了根据本发明实施例的一种图像处理方法200的流程图。图3示出了根据本发明实施例的图像处理系统300的示意性结构图。
根据如图3所示的实施例,图像处理系统300可以包括内容编码器网络I、属性编码器网络A、特征转换网络T和解码器网络G,如图3中虚线框所示。内容编码器网络I、属性编码器网络A、特征转换网络T和解码器网络G可以经过特定的神经网络训练算法进行预先训练。
在图2中,首先,在步骤S201中,获取第一输入图像和第二输入图像。
例如,在如图3所示的实施例中,第一输入图像可以是内容图像xs,并且第二输入图像可以是属性图像xa。应当理解,这里使用的术语“第一”、“第二”仅用于区分描述,而不用于指示或暗示相对重要性或排序。如上所述,第一输入图像和第二输入图像可以经由智能设备103的摄像头实时获取、经由各种网络实时获取、从智能设备103可访问的存储器中获取、或者采用任何其它图像获取方式来获取。
在步骤S202中,提取第一输入图像的内容特征。
在一个实施例中,可以利用预先训练的内容编码器网络来提取第一输入图像的内容特征。例如,如图3所示,可以利用预先训练的内容编码器网络I来提取内容图像xs的特定维度(例如,1×512)的内容特征向量fI(xs)。内容特征向量fI(xs)可以包括内容图像xs的特定内容特征信息,例如,可以表征内容图像xs的身份信息。在一个实施例中,内容编码器网络I可以是一个卷积神经网络。在其他实施例中,内容编码器网络I还可以是任何其他类型的神经网络。内容编码器网络I的训练过程将在下文中详细描述。
在步骤S203中,提取第二输入图像的属性特征。
在一个实施例中,可以利用预先训练的属性编码器网络来提取第二输入图像的属性特征。例如,如图3所示,可以利用预先训练的属性编码器网络A来提取属性图像xa的特定维度(例如,1×512)的属性特征向量fA(xa)。属性特征向量fA(xa)可以包括属性图像xa的特定属性特征信息,例如,可以表征属性图像xa的姿态、光照、发型头饰、背景或风格等信息。在一个实施例中,属性编码器网络A可以是一个卷积神经网络。在其他实施例中,属性编码器网络A还可以是任何其他类型的神经网络。属性编码器网络A的训练过程将在下文中详细描述。
在步骤S204中,对提取出的第一输入图像的内容特征和第二输入图像的属性特征进行特征映射,以得到目标图像特征。
在一个实施例中,可以利用预先训练的特征转换网络来对提取出的第一输入图像的内容特征和第二输入图像的属性特征进行特征映射,以得到目标图像特征。例如,如图3所示,可以利用预先训练的特征转换网络T来对提取出的第一输入图像xs的内容特征向量fI(xs)和第二输入图像xa的属性特征向量fA(xa)进行特征映射,以得到目标图像特征向量fT。可以采用任何图像特征融合算法来对内容特征向量fI(xs)和属性特征向量fA(xa)进行特征融合和映射处理。应了解,根据本发明实施例的特征融合和映射处理与对内容特征向量fI(xs)和属性特征向量fA(xa)进行简单的特征拼接不同,根据本发明实施例的特征融合和映射能够充分地理解第一输入图像xs的内容特征和第二输入图像xa的属性特征,并充分表达目标图像特征。在一个实施例中,可以采用由多个全连接层构成的多层感知器来实现特征转换网络T。可以基于多个训练样本对特征转换网络T的参数进行训练,以使得经过特征转换网络T的特征融合和映射处理而得到的目标图像特征向量fT可以具有第一输入图像的内容特征信息和第二输入图像的属性特征信息。在下文中,将进一步对特征转换网络T的训练过程进行详细描述。在其他实施例中,特征转换网络T还可以是任何其他类型的神经网络。
最后,在步骤S205中,基于目标图像特征生成输出图像。
在一个实施例中,可以利用预先训练的解码器网络来基于目标图像特征生成输出图像。例如,如图3所示,可以利用预先训练的解码器网络G来基于目标图像特征向量fT生成输出图像x’。在一个实施例中,与内容编码器网络I和属性编码器网络A相对应地,解码器网络G可以是一个反卷积神经网络。在其他实施例中,解码器网络G还可以是任何其他类型的神经网络。解码器网络G的训练过程将在下文中详细描述。
下面,将结合图4对图3所示的内容编码器网络I、属性编码器网络A、特征转换网络T和解码器网络G的训练过程进行示例性描述。
图4示出了根据本发明实施例的图像处理系统300的示例训练方法400的流程图。
如图4所示,图像处理系统300的训练过程可以分为两个阶段进行。
在第一阶段,即,在步骤S401中,基于图像重建损失函数来对待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络进行预训练。
在下文中,分别用I0、A0、T0和G0来表示上述待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络,并且用S0来表示待训练的图像处理系统300。
具体地,在预训练阶段(即,第一阶段),可以利用包括多个内容图像样本的第一内容图像样本集S1和包括多个属性图像样本的第一属性图像样本集S2来对待训练的内容编码器网络I0、待训练的属性编码器网络A0、待训练的特征转换网络T0和待训练的解码器网络G0的参数进行预训练。例如,在每一次训练迭代中,可以分别从第一内容图像样本集S1选取内容图像样本Xs以及从第一属性图像样本集S2中选取属性图像样本Xa,分别将其输入到待训练的内容编码器网络I0和待训练的属性编码器网络A0中,然后,经过T0的特征转换以及G0的解码处理,生成训练输出图像X’。
在一个实施例中,可以使用图像重建损失函数来约束待训练的图像处理系统S0的预训练过程。具体地,图像重建损失函数可以是待训练的属性编码器网络A0的训练输入图像(即,属性图像样本)与待训练的解码器网络G0的训练输出图像之间的L2距离或L1距离。例如,当使用L2距离的形式时,图像重建损失函数LGR可以定义如下:
Figure BDA0002383386480000081
其中Xa为待训练的属性编码器网络A0的训练输入图像,X’为待训练的解码器网络G0的训练输出图像。
通过最小化图像重建损失函数LGR来预训练待训练的图像处理系统S0,可以使得经训练后得到的图像处理系统300生成的图像与属性图像在低层次像素级别尽可能接近,并具有与其一致的轮廓边缘、背景、光照等属性信息。
接下来,在第二阶段,即在步骤S402中,基于联合损失函数来对待训练的特征转换网络进行联合训练。
在联合训练阶段(即,第二阶段),可以首先固定经过预训练后的内容编码器网络I0、属性编码器网络A0和解码器网络G0的参数,然后利用包括多个内容图像样本的第二内容图像样本集S3和包括多个属性图像样本的第二属性图像样本集S4,基于联合损失函数来对待训练的特征转换网络T0进行联合训练。第二内容图像样本集S3可以与第一内容图像样本集S1相同或不同,并且第二属性图像样本集S4可以与第一属性图像样本集S2相同或不同。在一个实施例中,联合损失函数可以包括内容损失函数、生成对抗损失函数以及如上所述的图像重建损失函数中的至少两项。
在一个实施例中,如图3所示,在联合训练阶段,可以利用一个预先训练好的内容识别网络C来获取内容损失函数LGC。内容识别网络C可以是任何类型的内容识别网络,例如,其可以是任何人脸识别网络模型,诸如VGGFace模型、CosFace模型等。在一个实施例中,内容识别网络C可以基于大量带有参考识别结果的内容图像样本,并且使用交叉熵损失函数LC来进行预先训练。
可以利用预先训练好的内容识别网络C来分别提取待训练的内容编码器网络I0(在联合训练阶段,其参数已被固定)的训练输入图像Ys的内容特征fC(Ys)以及待训练的解码器网络G0的训练输出图像Y’的内容特征fC(Y’),并在联合训练过程中调整待训练的特征转换网络T0的参数,以使得二者的L2距离或L1距离最小或者余弦相似度最大。例如,当使用L2距离的形式时,内容损失函数LGC可以定义如下:
Figure BDA0002383386480000091
通过最小化内容损失函数LGC来对待训练的图像处理系统S0进行联合训练,可以使得经训练后得到的图像处理系统300生成的图像与内容图像在高层次内容语义上具有相似的内容特征(例如,身份特征)。
在一个实施例中,如图3所示,在联合训练阶段,可以利用一个待训练的判别网络D来与待训练的图像处理系统S0构成生成对抗网络(GAN)并进行联合的对抗训练。例如,在每次交替迭代训练中,可以使用包括待训练的图像处理系统S0或经预训练后的图像处理系统S0预先生成的多个输出图像的输出图像样本集S5(其中每个输出图像样本带有样本标注0,以表示其为“假”图像)和包括多个属性图像样本的第三属性图像样本集S6(其中每个属性图像样本带有样本标注1,以表示其为“真实”图像)对待训练的判别网络D进行训练。例如,可以首先固定待训练的图像处理系统S0的所有参数,而只更新判别网络D的参数,以使得“真实”图像和“假”图像能够尽可能地被正确区分,在此步骤中,可以使用如下所述的损失函数作为训练待训练的判别网络D的损失函数:
Figure BDA0002383386480000101
其中,D(za)为判别网络D对“真实”图像样本za的判别输出,D(z′)表示判别网络D对“假”图像样本z′的判别输出,
Figure BDA0002383386480000102
表示za服从概率分布/>
Figure BDA0002383386480000103
Figure BDA0002383386480000104
表示在概率分布/>
Figure BDA0002383386480000105
上的期望,z′~Pz′表示z′服从概率分布Pz′,并且/>
Figure BDA0002383386480000106
表示在概率分布Pz′上的期望。
在更新了待训练的判别网络D的参数之后,可以在此基础上固定待训练的判别网络D的参数,并只更新待训练的图像处理系统S0的参数,以使得“真实”图像和“假”图像尽可能地不能够被正确区分。在上述实施例中,由于在预训练阶段后内容编码器网络I0、属性编码器网络A0和解码器网络G0的参数已经固定,所以在此步骤中,可以只更新待训练的特征转换网络T0的参数。由此,两个步骤交替迭代进行,以实现对待训练的图像处理系统S0和待训练的判别网络D的对抗训练。可以使用任意一种可行的GAN训练损失函数来对待训练的图像处理系统S0进行训练。例如,在一个实施例中,可以使用判别网络D来提取待训练的属性编码器A0的训练输入图像ka的属性特征fD(ka)和待训练的解码器G0的训练输出图像k′的属性特征fD(k’),然后将二者之间的L2距离或L1距离作为训练图像处理系统S0的生成对抗损失函数。例如,当使用L2距离的形式时,生成对抗损失函数LGD可以定义如下:
Figure BDA0002383386480000107
其中fD(k)可以表示判别网络D的中间层特征。例如,在判别网络D包括一个或多个全连接层时,fD(k)可以是其最后一层全连接层的输入。
除上述定义的函数形式之外,生成对抗损失函数LGD还可以是已有的被证明有效的其他类型的生成对抗损失函数及策略,例如LSGAN、PatchGAN等。
由此,在一个实施例中,在上述的第二训练阶段中,可以使用包括如上所述的图像重建损失函数LGR、内容损失函数LGC、生成对抗损失函数LGD的联合损失函数来对对待训练的特征转换网络T0进行联合训练。即,联合损失函数L可以定义如下:
L=LGRGCLGCGDLGD (5)
其中,λGC和λGD是用于平衡对应损失项的超参数。
经过如图4所示的两个阶段的训练,系统在第一阶段使得生成的输出图像与输入的属性图像具有尽可能相同的背景纹理、轮廓边缘等细节,在第二阶段使得生成的输出图像能够保留与输入的内容图像相似的内容信息(例如,身份信息)。
图5示出了根据本发明实施例的图像处理装置500的示意图。
如图5所示,根据本发明实施例的图像处理装置500可以包括:输入模块501、内容提取模块502、属性提取模块503、特征转换模块504以及输出模块505。其中,输入模块501可以用于获取第一输入图像和第二输入图像;内容提取模块502可以用于提取所述第一输入图像的内容特征;属性提取模块503可以用于提取所述第二输入图像的属性特征;特征转换模块504可以用于对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射,以得到目标图像特征;并且输出模块505可以用于基于所述目标图像特征生成输出图像。
在一个实施例中,特征转换模块504包括特征转换网络,其中,利用特征转换网络来对提取出的第一输入图像的内容特征和第二输入图像的属性特征进行特征映射,以得到所述目标图像特征,其中,目标图像特征具有第一输入图像的内容特征和第二输入图像的属性特征。
图6示出了根据本发明实施例的图像处理设备600的示意图。
如图6所示,根据本发明实施例的图像处理设备600可以包括:输入单元601、输出单元602、处理器603以及存储器604。其可以通过总线605进行互联。
输入单元601可以是能够接收各种形式的输入图像的任何图像输入单元,例如图像采集单元或网络输入单元,其可以用于获取输入图像。
输出单元602可以是能够显示输出图像的任何类型的显示界面或者能够以其他方式输出输出图像的其他类型的输出接口。
处理器603可以根据存储在存储器604中的程序或代码执行各种动作和处理。具体地,处理器603可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各种方法、步骤、流程及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或者是ARM架构等。
存储器604存储有可执行指令代码,该指令代码在被处理器603执行时用于实现根据本发明实施例的资源转移方法。存储器604可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本发明还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,该计算机指令被处理器执行时实现根据本发明实施例的图像处理方法。类似地,本发明实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本发明的实施例提供了一种图像处理方法、装置及设备,其引入特征转换网络,并对整个图像处理系统进行分阶段训练,使得图像处理系统训练高效快捷、适用性广、在保持内容信息的同时生成与期望属性更相似的输出图像。
需要说明的是,附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
在上面详细描述的本发明的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本发明的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本发明的范围内。

Claims (12)

1.一种图像处理方法,包括:
获取第一输入图像和第二输入图像;
利用内容编码器网络提取所述第一输入图像的内容特征;
利用属性编码器网络提取所述第二输入图像的属性特征;
利用特征转换网络对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射,以得到目标图像特征;以及
利用解码器网络基于所述目标图像特征生成输出图像;
其中,对内容编码器网络、属性编码器网络、特征转换网络和解码器网络的训练过程包括以下两个阶段:
在预训练阶段,通过最小化图像重建损失函数来对待训练的图像处理系统进行预训练;其中,所述图像重建损失函数为所述待训练的属性编码器网络的训练输入图像与所述待训练的解码器网络的训练输出图像之间的L2距离或L1距离;所述待训练的图像处理系统包括待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络;以及
在联合训练阶段,固定经过预训练后的内容编码器网络、属性编码器网络和解码器网络的参数,并基于联合损失函数对由待训练的判别网络和经预训练的图像处理系统构成的生成对抗网络进行联合的对抗训练,以实现对经预训练的图形处理系统中的所述特征转换网络的联合训练;
其中,所述联合的对抗训练采用以下两个步骤交替迭代进行:
固定经预训练的图像处理系统的所有参数,对待训练的判别网络进行训练和参数更新;
固定待训练的判别网络的参数,对经预训练的图像处理系统进行训练并更新经预训练的图像处理系统中的所述特征转换网络的参数。
2.如权利要求1所述的方法,其中,所述目标图像特征具有所述第一输入图像的内容特征和所述第二输入图像的属性特征。
3.如权利要求2所述的方法,其中,
所述内容编码器网络和所述属性编码器网络为卷积神经网络,所述解码器网络为反卷积神经网络,并且所述特征转换网络为多个全连接层构成的多层感知器。
4.如权利要求2所述的方法,其中,所述联合损失函数包括图像重建损失函数、内容损失函数以及生成对抗损失函数中的至少两项。
5.如权利要求4所述的方法,其中,所述内容损失函数为所述待训练的内容编码器网络的训练输入图像的内容特征和所述待训练的解码器网络的训练输出图像的内容特征之间的L2距离或L1距离或余弦相似度。
6.如权利要求5所述的方法,其中,利用内容识别网络来提取所述待训练的内容编码器网络的训练输入图像的内容特征和所述待训练的解码器网络的训练输出图像的内容特征。
7.如权利要求4所述的方法,其中,所述生成对抗损失函数为所述待训练的属性编码器的训练输入图像的属性特征和所述待训练的解码器的训练输出图像的属性特征之间的L2距离或L1距离。
8.如权利要求7所述的方法,其中,利用判别网络来提取所述待训练的属性编码器的训练输入图像的属性特征和所述待训练的解码器的训练输出图像的属性特征。
9.一种图像处理装置,包括:
输入模块,用于获取第一输入图像和第二输入图像;
内容提取模块,用于利用内容编码器网络提取所述第一输入图像的内容特征;
属性提取模块,用于利用属性编码器网络提取所述第二输入图像的属性特征;
特征转换模块,用于利用特征转换网络对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射,以得到目标图像特征;以及
输出模块,用于利用解码器网络基于所述目标图像特征生成输出图像;
其中,对内容编码器网络、属性编码器网络、特征转换网络和解码器网络的训练过程包括以下两个阶段:
在预训练阶段,通过最小化图像重建损失函数来对待训练的图像处理系统进行预训练;其中,所述图像重建损失函数为所述待训练的属性编码器网络的训练输入图像与所述待训练的解码器网络的训练输出图像之间的L2距离或L1距离;所述待训练的图像处理系统包括待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络;以及
在联合训练阶段,固定经过预训练后的内容编码器网络、属性编码器网络和解码器网络的参数,并基于联合损失函数对由待训练的判别网络和经预训练的图像处理系统构成的生成对抗网络进行联合的对抗训练,以实现对经预训练的图形处理系统中的所述特征转换网络的联合训练;
其中,所述联合的对抗训练采用以下两个步骤交替迭代进行:
固定经预训练的图像处理系统的所有参数,对待训练的判别网络进行训练和参数更新;
固定待训练的判别网络的参数,对经预训练的图像处理系统进行训练并更新经预训练的图像处理系统中的所述特征转换网络的参数。
10.如权利要求9所述的装置,其中,所述特征转换模块包括特征转换网络,其中,
所述目标图像特征具有所述第一输入图像的内容特征和所述第二输入图像的属性特征。
11.一种图像处理设备,包括:
输入单元,用于获取输入图像;
输出单元,用于输出所生成的输出图像;
处理器;和
存储器,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如权利要求1-8中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如权利要求1-8中的任一项所述的方法。
CN202010090066.XA 2020-02-13 2020-02-13 图像处理方法、装置及设备 Active CN111275057B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010090066.XA CN111275057B (zh) 2020-02-13 2020-02-13 图像处理方法、装置及设备
PCT/CN2020/127435 WO2021159781A1 (zh) 2020-02-13 2020-11-09 图像处理方法、装置、设备及存储介质
US17/675,352 US20220172462A1 (en) 2020-02-13 2022-02-18 Image processing method, apparatus, and device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010090066.XA CN111275057B (zh) 2020-02-13 2020-02-13 图像处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111275057A CN111275057A (zh) 2020-06-12
CN111275057B true CN111275057B (zh) 2023-06-20

Family

ID=71002077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010090066.XA Active CN111275057B (zh) 2020-02-13 2020-02-13 图像处理方法、装置及设备

Country Status (3)

Country Link
US (1) US20220172462A1 (zh)
CN (1) CN111275057B (zh)
WO (1) WO2021159781A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275057B (zh) * 2020-02-13 2023-06-20 腾讯科技(深圳)有限公司 图像处理方法、装置及设备
CN111783603A (zh) * 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
CN112016480A (zh) * 2020-08-31 2020-12-01 中移(杭州)信息技术有限公司 人脸特征表示方法、系统、电子设备和存储介质
CN112330530B (zh) * 2020-10-21 2024-04-12 北京市商汤科技开发有限公司 图像处理方法、装置、设备及存储介质
CN113343876A (zh) * 2021-06-18 2021-09-03 上海梦象智能科技有限公司 基于对抗生成网络的家用设备电器指纹数据生成方法
CN116453194B (zh) * 2023-04-21 2024-04-12 无锡车联天下信息技术有限公司 一种人脸属性判别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995119A (en) * 1997-06-06 1999-11-30 At&T Corp. Method for generating photo-realistic animated characters
CN108537743A (zh) * 2018-03-13 2018-09-14 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
CN109409274A (zh) * 2018-10-18 2019-03-01 广州云从人工智能技术有限公司 一种基于人脸三维重建和人脸对齐的人脸图像变换方法
CN109635745A (zh) * 2018-12-13 2019-04-16 广东工业大学 一种基于生成对抗网络模型生成多角度人脸图像的方法
CN109711254A (zh) * 2018-11-23 2019-05-03 北京交通大学 基于对抗生成网络的图像处理方法和装置
CN109815928A (zh) * 2019-01-31 2019-05-28 中国电子进出口有限公司 一种基于对抗学习的人脸图像合成方法和装置
CN110415306A (zh) * 2018-04-27 2019-11-05 苹果公司 使用生成对抗网络的面部合成

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2313847A4 (en) * 2008-08-19 2015-12-09 Digimarc Corp METHODS AND SYSTEMS FOR PROCESSING CONTENT
US9613450B2 (en) * 2011-05-03 2017-04-04 Microsoft Technology Licensing, Llc Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
KR101385599B1 (ko) * 2012-09-26 2014-04-16 한국과학기술연구원 몽타주 추론 방법 및 장치
US10565757B2 (en) * 2017-06-09 2020-02-18 Adobe Inc. Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
US10753997B2 (en) * 2017-08-10 2020-08-25 Siemens Healthcare Gmbh Image standardization using generative adversarial networks
CN107766850B (zh) * 2017-11-30 2020-12-29 电子科技大学 基于结合人脸属性信息的人脸识别方法
CN110097606B (zh) * 2018-01-29 2023-07-07 微软技术许可有限责任公司 面部合成
CN108765261B (zh) * 2018-04-13 2022-07-05 北京市商汤科技开发有限公司 图像变换方法和装置、电子设备、计算机存储介质
CN108537238A (zh) * 2018-04-13 2018-09-14 崔植源 一种遥感影像分类与检索方法
US10657676B1 (en) * 2018-06-28 2020-05-19 Snap Inc. Encoding and decoding a stylized custom graphic
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
CN109559363B (zh) * 2018-11-23 2023-05-23 杭州网易智企科技有限公司 图像的风格化处理方法、装置、介质和电子设备
CN109598671A (zh) * 2018-11-29 2019-04-09 北京市商汤科技开发有限公司 图像生成方法、装置、设备及介质
CN109859096A (zh) * 2018-12-28 2019-06-07 北京达佳互联信息技术有限公司 图像风格迁移方法、装置、电子设备及存储介质
CN109902723A (zh) * 2019-01-31 2019-06-18 北京市商汤科技开发有限公司 图像处理方法及装置
US10832450B2 (en) * 2019-03-27 2020-11-10 GM Global Technology Operations LLC Semantic preserved style transfer
CN110427813B (zh) * 2019-06-24 2023-06-09 中国矿业大学 基于姿态指导行人图像生成的孪生生成式对抗网络的行人重识别方法
CN112233170A (zh) * 2019-06-27 2021-01-15 阿里巴巴集团控股有限公司 视觉定位和图像处理方法、设备及存储介质
US10614207B1 (en) * 2019-07-09 2020-04-07 Capital One Services, Llc Generating captcha images using variations of the same object
US10496809B1 (en) * 2019-07-09 2019-12-03 Capital One Services, Llc Generating a challenge-response for authentication using relations among objects
CN114450690A (zh) * 2019-11-25 2022-05-06 深圳市欢太科技有限公司 网络模型训练方法、图像属性识别方法、装置及电子设备
CN111145131B (zh) * 2019-11-28 2023-05-26 中国矿业大学 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法
CN111145311B (zh) * 2019-12-30 2021-11-26 中国科学院自动化研究所 高分辨率人脸图像的多属性编辑方法、系统、装置
CN111275057B (zh) * 2020-02-13 2023-06-20 腾讯科技(深圳)有限公司 图像处理方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995119A (en) * 1997-06-06 1999-11-30 At&T Corp. Method for generating photo-realistic animated characters
CN108537743A (zh) * 2018-03-13 2018-09-14 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
CN110415306A (zh) * 2018-04-27 2019-11-05 苹果公司 使用生成对抗网络的面部合成
CN109409274A (zh) * 2018-10-18 2019-03-01 广州云从人工智能技术有限公司 一种基于人脸三维重建和人脸对齐的人脸图像变换方法
CN109711254A (zh) * 2018-11-23 2019-05-03 北京交通大学 基于对抗生成网络的图像处理方法和装置
CN109635745A (zh) * 2018-12-13 2019-04-16 广东工业大学 一种基于生成对抗网络模型生成多角度人脸图像的方法
CN109815928A (zh) * 2019-01-31 2019-05-28 中国电子进出口有限公司 一种基于对抗学习的人脸图像合成方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Beyond Face Rotation:Global and local percetion GAN for Photorealistic and Identity preserving frontal view synthesis》;Rui Huang et al.;《https://arXiv:1704.04086v2.pdf》;全文 *
《基于生成对抗网络的多属性人脸生成及辅助识别研究》;万里鹏;《中国优秀硕士学位论文全文数据库信息科技辑》(第1期);全文 *
《基于生成式对抗网络的人脸识别开发》;张卫 等;《电子世界》;全文 *

Also Published As

Publication number Publication date
WO2021159781A1 (zh) 2021-08-19
US20220172462A1 (en) 2022-06-02
CN111275057A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111275057B (zh) 图像处理方法、装置及设备
US10685454B2 (en) Apparatus and method for generating synthetic training data for motion recognition
CN109492627B (zh) 一种基于全卷积网络的深度模型的场景文本擦除方法
KR102338372B1 (ko) 영상으로부터 객체를 분할하는 방법 및 장치
CN111667399A (zh) 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
JP7246811B2 (ja) 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器
CN113505768A (zh) 模型训练、人脸识别方法、电子设备及存储介质
CN112818860B (zh) 基于端到端多任务多尺度神经网络的实时三维人脸重建方法
CN112529904A (zh) 图像语义分割方法、装置、计算机可读存储介质和芯片
CN113592726A (zh) 高动态范围成像方法、装置、电子设备和存储介质
US20230153965A1 (en) Image processing method and related device
CN111652921A (zh) 一种单目深度预测模型的生成方法及单目深度预测方法
CN115018979A (zh) 图像重建方法、装置、电子设备、存储介质和程序产品
Wang et al. A coarse-to-fine approach for dynamic-to-static image translation
US11373352B1 (en) Motion transfer using machine-learning models
CN113538254A (zh) 图像恢复方法、装置、电子设备及计算机可读存储介质
CN112464924A (zh) 一种构建训练集的方法及装置
CN113822790B (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
WO2021248432A1 (en) Systems and methods for performing motion transfer using a learning model
CN113674383A (zh) 生成文本图像的方法及装置
US11769227B2 (en) Generating synthesized digital images utilizing a multi-resolution generator neural network
JP7479507B2 (ja) 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム
KR102436127B1 (ko) 인공신경망에 기반하여 주름을 검출하는 방법 및 장치
KR102593001B1 (ko) 딥러닝을 기반으로하는 사람 얼굴을 생성하는 컴퓨터 구현 학습 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024894

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant