CN113902921A - 图像处理方法、装置、设备及存储介质 - Google Patents
图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113902921A CN113902921A CN202111171389.2A CN202111171389A CN113902921A CN 113902921 A CN113902921 A CN 113902921A CN 202111171389 A CN202111171389 A CN 202111171389A CN 113902921 A CN113902921 A CN 113902921A
- Authority
- CN
- China
- Prior art keywords
- network
- transformation
- networks
- image
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 230000009466 transformation Effects 0.000 claims abstract description 320
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims description 56
- 238000010586 diagram Methods 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000001131 transforming effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 18
- 230000009467 reduction Effects 0.000 description 33
- 239000013598 vector Substances 0.000 description 31
- 230000004913 activation Effects 0.000 description 9
- 230000037308 hair color Effects 0.000 description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像处理方法、装置、设备及存储介质,属于互联网领域。本申请在对多个变换网络和多个判别网络进行训练时,共享解码网络和重建网络的训练数据,使得训练所得的变换网络在对多个特征变换时只需要经过一次解码和一次重建,使得特征数量越多时,图像处理的过程变得简洁流畅。
Description
本申请是申请日为2018年11月30日、申请号为201811457745.5、发明名称为“图像处理方法、装置、设备及存储介质”的分案申请。
技术领域
本申请涉及互联网领域,特别涉及一种图像处理方法、装置、设备及存储介质。
背景技术
目前,可以采用生成式对抗网络(generative adversarial networks,GAN)的深度学习模型实现图像处理,GAN中包括解码网络、变换网络、重建网络和判别网络,通过对各个网络的参数调整,从而根据输入图像,能够通过GAN得到进行了某个特征变换的输出图像。
在GAN中,欲实现对输入图像进行多个特征的变换处理时,通常为每个单一的特征训练一个GAN,再将训练好的多个GAN依次作用于输入图像,也即是,先基于解码网络对输入图像进行解码,再基于变换网络对输入图像进行变换,最后基于重建网络对输入图像进行重建,之后再进入下一个GAN中重复上述过程,直到得到对该输入图像进行了上述多个特征变换的输出图像。
然而,在上述过程中,当特征数量越多时,需要的训练数据也就多,训练多个GAN所耗费的时间就越长,进行了多次解码和多次重建,使得图像处理的过程繁琐冗长。
发明内容
本申请实施例提供了一种图像处理方法、装置、设备及存储介质,能够改善特征数量越多,所需的训练数据越多,使得图像处理过程繁琐的问题。该技术方案如下:
一方面,提供了一种图像处理方法,该方法包括:
构建初始化的对抗网络,所述对抗网络包括解码网络、多个变换网络、重建网络和多个判别网络;其中,在所述解码网络后并行接入所述多个变换网络,在所述多个变换网络后接入所述重建网络,在所述重建网络后并行接入所述多个判别网络,每个判别网络与一个变换网络相对应;
根据多个图像集,训练所述多个判别网络,根据所述多个判别网络的训练结果,迭代训练所述对抗网络;
其中,在对所述多个变换网络和所述多个判别网络进行训练时,共享所述解码网络和所述重建网络的训练数据。
一方面,提供了一种图像处理方法,该方法包括:
根据图像变换指令,基于原始图像,解码得到第一特征图;
基于与至少一个变换需求信息对应的多个变换网络,通过串联的所述多个变换网络对所述第一特征图依次进行图像变换处理,输出第二特征图,其中,所述多个变换网络中每个变换网络的输入和输出都互相适配;
基于所述第二特征图,重建得到目标图像。
在一种可能实施方式中,所述基于与至少一个变换需求信息对应的多个变换网络,通过串联的所述多个变换网络对所述第一特征图依次进行图像变换处理,输出第二特征图包括:
获取与至少一个变换需求信息对应的多个变换网络,每个变换网络用于进行图像变换处理;
对于每个变换网络,对上一个变换网络输出的特征图中与所述变换网络的变换需求信息所对应的特征进行变换,输出所述变换网络的特征图,所述多个变换网络中的最后一个变换网络输出所述第二特征图。
在一种可能实施方式中,所述对上一个变换网络输出的特征图中与所述变换网络的变换需求信息所对应的特征进行变换,输出所述变换网络的特征图包括:
根据所述变换网络对应的变换需求信息,确定条件张量,所述条件张量与所述变换网络对应的输入特征图的宽度和高度相同;
基于所述变换网络对应的条件张量,对上一个变换网络输出的特征图中所述变换网络对应的区域进行变换,输出所述变换网络的特征图。
在一种可能实施方式中,所述根据所述变换网络对应的变换需求信息,确定条件张量包括:
获取条件向量,所述条件向量为行向量或列向量;
将所述条件向量拓展到与所述输入特征图的宽度和高度相同,得到所述条件张量。
在一种可能实施方式中,所述基于所述变换网络对应的条件张量,对上一个变换网络输出的特征图中所述变换网络对应的区域进行变换,输出所述变换网络的特征图包括:
将所述条件张量与所述输入特征图在深度方向上相连,得到扩展张量;
将所述扩展张量依次输入多个卷积层,直到所述扩展张量的深度降维到与所述输入特征图的深度相同,输出降维张量;
根据所述降维张量获取掩膜,所述掩膜用于指示在所述输入特征图中所述变换需求信息所指示的区域;
根据所述降维张量、所述掩膜和所述输入特征图,获取所述变换网络的输出特征图。
在一种可能实施方式中,所述根据所述降维张量获取掩膜包括:
将所述降维张量输入所述变换网络的目标卷积层,对所述降维张量进行卷积处理;
将卷积处理后的张量输入激活函数,输出所述掩膜,所述激活函数用于对输入的张量进行非线性处理。
在一种可能实施方式中,所述根据所述降维张量、所述掩膜和所述输入特征图,获取所述变换网络的输出特征图包括:
将所述降维张量中与所述掩膜对应的区域保留,将所述降维张量中除了所述掩膜外的区域替换为所述输入特征图中的相应区域,得到所述输出特征图。
一方面,提供了一种图像处理装置,该装置包括:
构建模块,用于构建初始化的对抗网络,所述对抗网络包括解码网络、多个变换网络、重建网络和多个判别网络;其中,在所述解码网络后并行接入所述多个变换网络,在所述多个变换网络后接入所述重建网络,在所述重建网络后并行接入所述多个判别网络,每个判别网络与一个变换网络相对应;
训练模块,用于根据多个图像集,训练所述多个判别网络,根据所述多个判别网络的训练结果,迭代训练所述对抗网络;其中,在对所述多个变换网络和所述多个判别网络进行训练时,共享所述解码网络和所述重建网络的训练数据。
在一种可能实施方式中,所述训练模块用于:
对每个判别网络,输入与所述判别网络对应的图像集,根据所述判别网络的损失函数的数值,调整所述判别网络的参数;
将所述图像集中的原始图像输入所述对抗网络,根据所述解码网络、所述重建网络以及与所述判别网络对应的变换网络的损失函数的数值,调整所述解码网络、所述重建网络以及所述变换网络的参数;
重复执行上述调整所述判别网络的参数,以及调整所述解码网络、所述重建网络以及所述变换网络的参数的步骤,直到各个网络的损失函数的数值与理想值的差值小于预设值。
在一种可能实施方式中,所述解码网络、所述重建网络以及与所述判别网络对应的变换网络的损失函数,包括:
通过对比所述原始图像,以及所述原始图像经过解码网络和重建网络得到的图像,得到的子损失函数值。
在一种可能实施方式中,所述解码网络、所述重建网络以及与所述判别网络对应的变换网络的损失函数,包括:
通过对比所述原始图像经过所述每个变换网络得到的特征图,以及所述原始图像经过所述每个变换网络后再依次经过重建网络和解码网络得到的特征图,得到的子损失函数值。
在一种可能实施方式中,所述多个图像集中的每个图像集对应于一个特征类别,每个所述特征类别对应于一个判别网络。
在一种可能实施方式中,每个所述图像集包括真样本集和假样本集,所述真样本集是经过了所述图像集所对应的特征类别变换的图像,所述假样本集是经过了除了所述特征类别之外的其他特征类别变换的图像。
在一种可能实施方式中,通过对所述图像集对应的判别网络的训练,使得所述判别网络对所述真样本集输出1,对所述假样本集输出0。
在一种可能实施方式中,所述每个变换网络的输入为所述解码网络的输出,所述每个变换网络的输出为所述重建网络的输入。
在一种可能实施方式中,当训练完毕的所述对抗网络中的所述解码网络、所述多个变换网络中的至少一个、以及所述重建网络依次连接时,将原始图像输入所述依次连接的各个网络,变换得到目标图像。
一方面,提供了一种图像处理装置,该装置包括:
解码模块,用于根据图像变换指令,基于原始图像,解码得到第一特征图;
变换模块,用于基于与至少一个变换需求信息对应的多个变换网络,通过串联的所述多个变换网络对所述第一特征图依次进行图像变换处理,输出第二特征图,其中,所述多个变换网络中每个变换网络的输入和输出都互相适配;
重建模块,用于基于所述第二特征图,重建得到目标图像。
在一种可能实施方式中,所述变换模块用于:
获取与至少一个变换需求信息对应的多个变换网络,每个变换网络用于进行图像变换处理;
对于每个变换网络,对上一个变换网络输出的特征图中与所述变换网络的变换需求信息所对应的特征进行变换,输出所述变换网络的特征图,所述多个变换网络中的最后一个变换网络输出所述第二特征图。
在一种可能实施方式中,所述变换模块包括:
确定单元,用于根据所述变换网络对应的变换需求信息,确定条件张量,所述条件张量与所述变换网络对应的输入特征图的宽度和高度相同;
变换单元,用于基于所述变换网络对应的条件张量,对上一个变换网络输出的特征图中所述变换网络对应的区域进行变换,输出所述变换网络的特征图。
在一种可能实施方式中,所述确定单元还用于:
获取条件向量,所述条件向量为行向量或列向量;
将所述条件向量拓展到与所述输入特征图的宽度和高度相同,得到所述条件张量。
在一种可能实施方式中,所述变换单元包括:
相连子单元,用于将所述条件张量与所述输入特征图在深度方向上相连,得到扩展张量;
降维子单元,用于将所述扩展张量依次输入多个卷积层,直到所述扩展张量的深度降维到与所述输入特征图的深度相同,输出降维张量;
第一获取子单元,用于根据所述降维张量获取掩膜,所述掩膜用于指示在所述输入特征图中所述变换需求信息所指示的区域;
第二获取子单元,用于根据所述降维张量、所述掩膜和所述输入特征图,获取所述变换网络的输出特征图。
在一种可能实施方式中,所述第一获取子单元还用于:
将所述降维张量输入所述变换网络的目标卷积层,对所述降维张量进行卷积处理;
将卷积处理后的张量输入激活函数,输出所述掩膜,所述激活函数用于对输入的张量进行非线性处理。
在一种可能实施方式中,所述第二获取子单元还用于:
将所述降维张量中与所述掩膜对应的区域保留,将所述降维张量中除了所述掩膜外的区域替换为所述输入特征图中的相应区域,得到所述输出特征图。
在一种可能实施方式中,所述解码模块用于:
将所述原始图像输入解码网络,输出所述第一特征图,所述解码网络用于提取图像的特征;
所述重建模块用于:
将所述第二特征图输入重建网络,输出所述目标图像,所述重建网络用于对输入的特征图进行重建。
在一种可能实施方式中,所述多个变换网络中每个变换网络的输入和输出、所述解码网络的输出和所述重建网络的输入都互相适配。
一方面,提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令,该至少一条指令由该处理器加载并执行以实现如上述任一种可能实现方式的图像处理方法。
一方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行以实现如上述任一种可能实现方式的图像处理方法。
一方面,提供了一种计算机程序产品,该计算机程序产品包括至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现如上述任一种可能实现方式的图像处理方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
根据图像变换指令,将原始图像输入解码网络进行特征提取,再依次输入多个变换网络,实现对多个特征的变换,再输入重建网络进行重建为目标图像,使得特征数量越多时,也整体只需经过一次解码和一次重建,使得图像处理的过程变得简洁流畅。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理方法的实施环境示意图;
图2是本申请实施例提供的图像处理方法的流程图;
图3是本申请实施例提供的图像处理方法的示意图;
图4是本申请实施例提供的变换网络的结构示意图;
图5是本申请实施例提供的图像处理方法的流程图;
图6是本申请实施例提供的对抗网络的结构示意图;
图7是本申请实施例提供的图像处理装置的结构示意图;
图8是本申请实施例提供的图像处理装置的结构示意图;
图9是本申请实施例提供的计算机设备102的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种图像处理方法的实施环境示意图,参见图1,在该实施环境中,可以包括至少一个用户设备101和计算机设备102,其中,该至少一个用户设备101上可以安装有应用客户端,该应用客户端可以是任一能够进行图像处理的客户端,当用户设备101检测到图像变换指令的触发操作时,向计算机设备102发送携带原始图像的图像变换指令,使得计算机设备102根据该图像变换指令,对该原始图像进行多个特征变换的图像处理。
其中,该计算机设备102可以是能够提供图像处理服务的服务器,该服务器可以通过多个图像集训练GAN的处理能力,从而通过训练完毕的GAN实现图像处理,该计算机设备102可以维护有训练数据库,每当接收图像变换指令时,将该图像变换指令携带的原始图像存储至训练数据库中的图像集,以进行训练数据的维护和储备。
图2是本申请实施例提供的一种图像处理方法的流程图。参见图2,以该计算机设备102为提供图像处理服务的服务器为例进行说明,该实施例包括:
201、服务器根据图像变换指令,将原始图像输入解码网络,输出该原始图像的第一特征图,该解码网络用于提取图像的特征。
在一种可能实施方式中,该图像变换指令用于指示服务器对所携带的原始图像进行图像变换,例如,对原始图像进行五官形态的变换、头发颜色的变换等。该图像变换指令可以是由用户设备通过应用客户端所发送的图像变换指令,也可以是在训练时由服务器默认触发的图像变换指令,本申请实施例不对该图像变换指令的获取方式进行具体限定。
在一些实施例中,该图像变换指令可以携带待处理图像,服务器将该待处理图像作为该原始图像,其中,该原始图像可以具有多个可变换的特征,例如,该特征可以是头发、人脸五官以及配饰等等。
在一些实施例中,服务器也可以从本地存储的数据库中随机或按照预设规则获取该原始图像,本申请实施例不对该原始图像的获取方式进行具体限定;可选地,该预设规则可以是先获取像素高的原始图像,也可以是先获取人像等,本申请实施例不对该预设规则进行具体限定。
其中,该解码网络可以通过第一目标数量的卷积层来提取图像的特征,该第一目标数量可以是预设的,也可以是在对解码网络进行训练的过程中调整的,本申请实施例不对该第一目标数量的来源进行具体限定。
以该原始图像进入的第一个卷积层为例,假设原始图像的高度为H0,宽度为W0,深度为D0,其中,H0、W0和D0为正整数,该深度D0可以是该原始图像的通道数,例如,选取RGB通道时D0=3,分别为红、绿、蓝通道,对该第一个卷积层在初始化时至少预设下述超参数:卷积核尺寸F,卷积核个数K。其中,每个卷积核(filter)用于指示对原始图像的特征进行加权时的权重,每个卷积核可以是尺寸大小为F*F*D0的权值矩阵,各个卷积核的深度与原始图像的深度保持匹配,其中,F为小于H0和W0中的最小值的正整数,卷积核个数K为正整数,K用于指示该第一个卷积层所能够提取的特征数,也即是该第一个卷积层所输出的特征图的个数也为K。在GAN训练中,根据各个网络损失函数指示的偏差,从而调整各个卷积核的参数,当训练完成后即可得到各个卷积核的最终的矩阵取值。在一些实施例中,该原始图像也可以是单通道的,本申请实施例不对该原始图像的通道数进行限定。
可选地,为增加卷积运算的处理速度,在初始化时还可以指定步长S,以使得在进行卷积运算时,步长S可以为大于等于1,且小于等于H0和W0中的最小值的任一正整数;可选地,为更加准确的提取该原始图像的边缘信息,在初始化时还可以指定边界填充P,该边界填充P为大于等于0的整数,P用于指示在该原始图像外周的补零层数(zero padding),当没有指定步长S和边界填充P时,默认S=1,P=0。
基于上述参数,该第一个卷积层根据该K个卷积核,对该原始图像的各个通道以S为步幅进行卷积加权运算,从而可以得到K个第一层特征图(feature map),将该K个第一层特征图作为第二个卷积层的输入,也即是第二个卷积层的输入图像的深度为K,那么第二个卷积层中各个卷积核的深度也为K,依此类推,每一个卷积层的输出图像作为下一个卷积层的输入图像,直到经过了第一目标数量的卷积层的特征提取后,从而得到高度为H,宽度为W,深度为D的第一特征图,其中H、W和D为正整数,该第一特征图的深度D可以用于指示该解码网络所提取到的特征信息的个数。
在一种可能实施方式中,在预设超参数时,令步长S=1,边界填充P=(F-1)/2,可以使得该第一个卷积层输出的特征图与该原始图像的高度和宽度相同,从而该解码网络中的每个卷积层都设置为步长S=1,边界填充P=(F-1)/2,使得该解码网络输出的第一特征图的高度H=H0,W=W0。
202、服务器获取与至少一个变换需求信息对应的多个变换网络。
服务器可以根据至少一个变换需求信息,从已有的多个变换网络中,获取与至少一个变换需求信息对应的多个变换网络。其中,该至少一个变换需求信息可以是该图像变换指令所携带的信息,也可以是服务器默认设置的信息,还可以是与某种变换需求对应的至少一个变换需求信息,本申请实施例不对该至少一个变换需求信息的获取方式进行具体限定。
在上述对多个变换网络的获取过程中,服务器可以基于该至少一个变换需求信息,一次性从已有的多个变换网络中,获取与该至少一个变换需求信息对应的多个变换网络,而可选地,服务器还可以每处理一个变换需求信息,就获取与该变换需求信息对应的变换网络,本申请实施例不对获取该多个变换网络的方式进行具体限定。
在一些实施例中,当服务器一次性获取与该至少一个变换需求信息对应的多个变换网络后,服务器还可以将与该至少一个变换需求信息对应的多个变换网络进行排序,可选地,服务器可以根据变换需求信息的细节程度,对与该至少一个变换需求信息对应的多个变换网络进行排序,例如,先处理细节要求低的特征,本申请实施例不对与该至少一个变换需求对应的多个变换网络的排序规则进行具体限定,上述排序可以是指将一个变换网络的输出作为下一个变换网络的输入。
其中,每个变换需求信息用于指示基于一个特征类别进行变换的需求,每个变换需求信息可以对应于一个或多个变换网络,每个训练好的变换网络,可以用于根据相应的变换需求信息进行特征变换,例如,该变换需求信息Ci为将头发颜色变为绿色,则该特征类别为头发颜色,该变换网络Ti用于将输入特征图中的头发颜色变换为绿色。
图3是本申请实施例提供的图像处理方法的示意图,以所获取的变换网络数目为N为例,参见图3,原始图像经过经过N个变换网络后,得到了经过N个特征变换的目标图像,下述步骤203-209以获取的第i个变换网络为例,i为小于等于N的正整数,对第i个变换网络如何进行第i个特征变换进行说明,在进行图像处理过程中,对于每个变换网络都具有类似的特征变换过程,在此不作赘述,直到对全部的变换需求信息都实现了相应地特征变换,输出第二特征图,执行下述步骤211。
203、服务器获取第i个条件向量,该第i个条件向量为行向量或列向量。
图4是本申请实施例提供的变换网络的结构示意图,参见图4,在该第i个变换网络中可以包括n个卷积层和目标卷积层,其中n为正整数,该第i个条件向量用于指示对第i个特征类别的目标变换需求信息,该第i个条件向量可以是外界输入的参量,也可以是根据该目标变换需求信息生成的,且该第i个条件向量为非零向量,本申请实施例不对该第i个条件向量的获取方式进行限定。
基于上述示例,当该目标变换需求信息为将头发颜色变为绿色时,该条件向量的长度可以用于指示该GAN所能够实现头发颜色变换的色彩数量,例如,该GAN能实现5种色彩的头发颜色的变换,那么该条件向量的长度di=5,该条件向量的每一位可以用于指示一个色彩,如果第三位指示为绿色,则该条件向量的第三位数字置为1,其余所有值置为0,也即是,该条件向量为[0,0,1,0,0],本申请实施例不对该条件向量的长度进行具体限定。
204、服务器将该第i个条件向量拓展到与第i-1个变换网络输出的特征图的宽度Wi-1和高度Hi-1相同,得到第i个条件张量。
在一种可能实施方式中,可以先将该第i个条件向量在宽度方向上复制Wi-1行,从而拓展得到尺寸为di*Wi-1的二维矩阵,进而将该二维矩阵在高度方向上复制Hi-1列,从而拓展得到尺寸为di*Hi-1*Wi-1的三维张量,也即是该第i个条件张量,其中di、Hi-1和Wi-1为正整数。
可选地,还可以将该第i个条件向量先在高度方向上复制拓展,再将得到的二维矩阵在宽度方向上复制拓展,或,将第i个条件向量同时向宽度方向和高度方向复制拓展,在一些实施例中,还可以不通过条件向量的拓展,直接将外界输入的三维矩阵获取为条件张量,本申请实施例不对该第i个条件张量的获取方式进行限定。
205、服务器将第i个条件张量与该第i-1个变换网络输出的特征图在深度方向上相连,得到第i个扩展张量。
其中,由于该第i个条件张量的宽度与该第i-1个变换网络输出的特征图相同,且该第i个条件张量的高度也与该第i-1个变换网络输出的特征图相同,使得该条件张量与该第i-1个变换网络输出的特征图能够在深度方向上直接相连,假设该第i-1个变换网络输出的特征图的深度为Di-1,从而得到的该扩展张量的尺寸即为(Di-1+di)*Hi-1*Wi-1,其中Di-1为正整数。
206、服务器将该第i个扩展张量依次输入多个卷积层,直到该第i个扩展张量的深度降维到与该第i-1个变换网络输出的特征图的深度相同,输出第i个降维张量。
在上述步骤中,通过该第i个变换网络中的多个卷积层的作用,将该第i个扩展张量的深度从Di-1+di降低到Di-1,进而得到尺寸为Di-1*Hi-1*Wi-1的第i个降维张量,该多个卷积层的内部结构可以和上述步骤201中的解码网络中卷积层的结构类似,也即是每个卷积层中都包括卷积核,各个卷积层的超参数可以相同,也可以不同,在此不作赘述。
可选地,在变换网络中的各个卷积层之间,还可以引入残差块(residual block),例如,如果第j个卷积层的输入,也即是第j-1个卷积层的输出为xj,那么第j个卷积层的输出可以表示为fj(xj),在第j个卷积层和第j+1个卷积层之间引入第j个残差块,该第j个残差块可以表示为fj(xj)+xj,并以该第j个残差块作为第j+1个卷积层的输入,通过引入残差块,解决了神经网络的退化问题,使得第i个变换网络的卷积层越深,对图像处理的效果越好。
在一种可能实施方式中,该多个卷积层的数量可以为服务器所预设的超参数,也可以是在GAN的训练中调整的数值,本申请实施例不对该多个卷积层的数量的获取方式进行具体限定。
207、服务器将该第i个降维张量输入该第i个变换网络的目标卷积层,对该第i个降维张量进行卷积处理。
在一些实施例中,该目标卷积层的内部结构也和上述多个卷积层的结构类似,再次不做赘述。可选地,当对每个变换网络的多个卷积层和目标卷积层的参数进行预设,使得步长S=1,边界填充P=(F-1)/2时,能够使得第一特征图经过多个变换网络进行特征变换后,输出的第二特征图的高度和宽度与原始图像保持相等。
208、服务器将卷积处理后的张量输入激活函数,输出第i个掩膜,该激活函数用于对输入的张量进行非线性处理。
其中,该第i个掩膜用于指示在该第i-1个变换网络输出的特征图中该第i个变换需求信息所对应的变换区域,基于上述示例,该第i个掩膜用于指示该第i-1个变换网络输出的特征图中的表示头发的区域。
可选地,该第i个掩膜可以为尺寸Hi-1*Wi-1的二维矩阵,则可以将该第i个掩膜拓展至与该第i个降维张量的深度相同,以便于进行后续的变换处理,在一些实施例中,还可以直接通过对该目标卷积层的参数调整,从而直接获取拓展后的掩膜。
可选地,该激活函数可以是Sigmoid,可以是tanh,还可以是ReLU等,能够对该目标卷积层的输出进行非线性处理,从而提升GAN变换的细节表达能力,本申请实施例不对该激活函数的函数表达式进行具体限定。
209、服务器将该第i个降维张量中与该第i个掩膜对应的区域保留,将该第i个降维张量中除了该第i个掩膜外的区域,替换为该第i-1个变换网络输出的特征图中的相应区域,得到第i个变换网络输出的特征图。
在上述步骤中,假设该第i-1个变换网络输出的特征图表示为fi-1,该第i个降维张量表示为fi’,该第i个掩膜表示为gi,则该第i个变换网络输出的特征图可以表示为fi=gi*fi’+(1-gi)*fi-1,也即是,仅将第i-1个变换网络输出的特征图中与该第i个变换需求信息对应的区域进行特征变换。
210、服务器重复执行上述步骤203-209,直到每个变换需求信息都进行了相应变换,输出第二特征图。
上述步骤203-209示例了第i个变换网络进行第i个变换需求信息的方法,在203至209的步骤完成后,可以基于第i+1个变换网络来继续进行图像变换,通过各个变换网络的串行连接,将上一个变换网络的输出作为下一个变换网络的输入,直到与每个变换需求信息对应的变换网络进行了特征变换,最后一个变换网络输出的图像即为该第二特征图。
211、服务器将该第二特征图输入重建网络,输出目标图像,该重建网络用于将输入的特征图重建为二维图像。
在一种可能实施方式中,在重建网络中通过多个卷积层可以将该第二特征图重建为目标图像,该目标图像为经过了该至少一个变换需求信息的处理后的原始图像。
本申请实施例提供的方法,通过服务器根据图像变换指令,将原始图像输入解码网络进行特征提取,再依次输入多个变换网络,实现对多个特征的变换,再输入重建网络进行重建为目标图像,使得特征数量越多时,也整体只需经过一次解码和一次重建,使得图像处理的过程变得简洁流畅;进一步地,通过引入条件向量和掩膜,使得每个变换网络都能够无需判别网络参与,实现对相应变换需求信息的变换,精简了GAN的网络架构;进一步地,通过设置步长S和边界填充P为合适的数值,能够使得输出的第二特征图的高度和宽度与原始图像相同,避免了丢失细节信息。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图5是本申请实施例提供的图像处理方法的流程图。参见图5,该实施例包括:
501、服务器构建初始化的对抗网络,该对抗网络包括解码网络、多个变换网络、重建网络和多个判别网络。
可选地,图6是本申请实施例提供的对抗网络的结构示意图,参见图6,在构建初始化的对抗网络时,可以在该解码网络后并行接入多个变换网络,在该多个变换网络后接入该重建网络,在该重建网络后并行接入该多个判别网络,其中,每个判别网络与该多个变换网络中的变换网络一一对应。
在上述过程中,在该多个变换网络和多个判别网络进行训练时,由于连接了同一个解码网络和重建网络,所以能够实现在训练过程中共享解码网络和重建网络的训练数据,以缩短训练所需数据,优化对抗网络的资源配置。
可选地,在构建初始化的对抗网络时,还可以对各个网络的超参数进行预设,对不同的变换网络,可以设置为相同的初始化数值,也可以设置为不同的初始化数值,对不同的判别网络也是如此,在此不作赘述,本申请实施例不对该初始化过程中各个网络的超参数的初始化数值进行具体限定。
502、服务器将第i个图像集输入第i个判别网络,根据第i个判别网络的损失函数的数值,调整该第i个判别网络的参数。
可选地,该第i个判别网络为多个判别网络中的任一判别网络,在步骤502-504中,以该对抗网络中的一条分支的训练情况为例进行说明,也即是解码网络、第i个变换网络、重建网络和第i个判别网络所组成的分支,对于对抗网络中的任一分支,都有类似的训练步骤,且该对抗网络中每一条分支都共享了解码网络和重建网络的训练数据,在此不作赘述。
在一些实施例中,每个图像集可以对应于一个特征类别,每个特征类别可以对应于一个判别网络,每个图像集都可以包括真样本集和假样本集,以第一特征类别对应的图像集为例,真样本集可以是经过了该第一特征类别变换的图像,假样本集可以是经过了第二特征类别变换的图像,其中,该第二特征类别可以是可变换类别组中除了该第一特征类别之外的任一特征类别,通过对该判别网络的训练,使得对于该真样本集,判别网络可以输出1,对假样本集,判别网络可以输出0,从而实现判别功能。
在对GAN的训练中,该第i个判别网络可以用于对经过了该解码网络、第i个变换网络以及该重建网络处理后的输出结果进行判断,从而对各个网络的参数进行连动调整,以得到优化的GAN,当训练完毕后进行图像处理的过程中,可以无需使用多个判别网络。
可选地,对第i个判别网络而言,损失函数可以包括三类,第一类损失函数可以是该第i个判别网络Di,判别经过解码网络E、第i个变换网络Ti以及重建网络R的处理后所输出的图像是否为真的函数Ladv,i,该函数的形式可以表示为:
其中,y为真样本集内的图像,x为GAN网络生成的图像,当该GAN网络重建的图片越逼真时,使得该损失函数Ladv,i数值越小,也即是损失越小。
503、服务器根据解码网络、重建网络以及第i个变换网络的损失函数的数值,调整该解码网络、重建网络以及第i个变换网络的参数。
504、重复执行上述步骤502-503,直到各个网络的损失函数的数值与理想值的差值小于预设值。
可选地,该预设值是服务器默认的参数,也可以是人为设定的数值。上述步骤502-504通过该第i个图像集,先对第i个判别网络的参数进行调整,而由于对判别网络的参数调整后,会影响解码网络、重建网络和第i个变换网络的损失函数的数值,从而对上述网络进行参数调整,进而又影响了该第i个判别网络的损失函数的数值,使得重复执行连动调整参数的操作,实现对抗网络中一个分支的迭代训练,对于该对抗网络中的每一个分支,都可以执行步骤502-504所执行的操作,以实现对初始化网络的训练,从而得到能够进行多个特征变换的神经网络,以备后续的图像处理。
在一些实施例中,还可以对上述所有的损失函数加权求和,得到该对抗网络的损失函数LG:
其中,判别网络的第三类损失函数的权重为μcls,解码网络和多个变换网络的损失函数相加的数值所占的权重为μcyc。在一种可能实施方式中,当该对抗网络的损失函数LG的数值与理想值的差值小于预设值时,视为该对抗网络训练完毕,其中,各个损失函数的权重可以是服务器预设的数值。
505、当接收图像变换指令时,根据至少一个变换需求信息,获取与该至少一个变换需求信息对应的多个变换网络。
506、将原始图像依次输入解码网络、与该至少一个变换需求信息对应的多个变换网络和重建网络,输出目标图像。
在上述步骤505-506中,通过训练完毕的GAN,实现了对原始图像进行多个特征变换的图像处理,从而输出目标图像,可选的实施过程在上一个实施例中已经详述,再次不做赘述。
本申请实施例提供的方法,通过构建初始化的对抗网络,从而根据多个图像集,训练该多个判别网络,再根据该多个判别网络的训练结果,迭代训练该对抗网络,直到对该对抗网络训练完毕后,当接收图像变换指令时,将原始图像输入训练完毕的对抗网络,输出经过图像处理的目标图像,由于多个判别网络和多个变换网络共享了解码网络和重建网络的训练数据,使得缩短了进行多个特征变换的GAN所需的训练数据,从而缩短了训练GAN的时间;进一步地,通过对各个网络的损失函数的数值调整,能够指示获取更准确的对抗网络的参数,实现精准的特征变换;进一步地,当接收到图像变换指令时,选取与变换需求信息对应的变换网络,实现图像处理,优化了GAN在训练时以及使用时的网络架构和资源配置。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图7是本申请实施例提供的图像处理装置的结构示意图。参见图7,该装置包括:
解码模块701,用于根据图像变换指令,将原始图像输入解码网络,输出该原始图像的第一特征图,该解码网络用于提取图像的特征;
变换模块702,用于将该第一特征图依次输入与至少一个变换需求信息对应的多个变换网络,输出第二特征图,每个变换网络用于进行图像变换处理;
重建模块703,用于将该第二特征图输入重建网络,输出目标图像,该重建网络用于将输入的特征图重建为二维图像。
本申请实施例提供的装置,根据图像变换指令,将原始图像输入解码网络进行特征提取,再依次输入多个变换网络,实现对多个特征的变换,再输入重建网络进行重建为目标图像,使得特征数量越多时,也整体只需经过一次解码和一次重建,使得图像处理的过程变得简洁流畅。
在一种可能实施方式中,基于图7的装置组成,该变换模块702包括:
确定单元,用于对于每个变换网络,根据该变换网络对应的变换需求信息,确定条件张量,该条件张量与该变换网络对应的输入特征图的宽度和高度相同;
变换单元,用于基于该变换网络对应的条件张量,对上一个变换网络输出的特征图中该变换网络对应的区域进行变换,输出该变换网络的特征图。
在一种可能实施方式中,该确定单元还用于获取条件向量,该条件向量为行向量或列向量;
将该条件向量拓展到与该输入特征图的宽度和高度相同,得到该条件张量。
在一种可能实施方式中,基于图7的装置组成,该变换单元包括:
相连子单元,用于将该条件张量与该输入特征图在深度方向上相连,得到扩展张量;
降维子单元,用于将该扩展张量依次输入多个卷积层,直到该扩展张量的深度降维到与该输入特征图的深度相同,输出降维张量;
第一获取子单元,用于根据该降维张量获取掩膜,该掩膜用于指示在该输入特征图中该变换需求信息所指示的区域;
第二获取子单元,用于根据该降维张量、该掩膜和该输入特征图,获取该变换网络的输出特征图。
在一种可能实施方式中,基于图7的装置组成,该第一获取子单元还用于将该降维张量输入该变换网络的目标卷积层,对该降维张量进行卷积处理;
将卷积处理后的张量输入激活函数,输出该掩膜,该激活函数用于对输入的张量进行非线性处理。
在一种可能实施方式中,基于图7的装置组成,该第二获取子单元还用于将该降维张量中与该掩膜对应的区域保留,将该降维张量中除了该掩膜外的区域替换为该输入特征图中的相应区域,得到该输出特征图。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图8是本申请实施例提供的图像处理装置的结构示意图。参见图8,该装置包括:
构建模块801,用于构建初始化的对抗网络,该对抗网络包括解码网络、多个变换网络、重建网络和多个判别网络;
训练模块802,用于根据多个图像集,训练该多个判别网络,根据该多个判别网络的训练结果,迭代训练该对抗网络;
处理模块803,用于当接收图像变换指令时,将原始图像输入训练完毕的对抗网络,输出经过图像处理的目标图像。
本申请实施例提供的装置,通过构建初始化的对抗网络,从而根据多个图像集,训练该多个判别网络,再根据该多个判别网络的训练结果,迭代训练该对抗网络,直到对该对抗网络训练完毕后,当接收图像变换指令时,将原始图像输入训练完毕的对抗网络,输出经过图像处理的目标图像,由于多个判别网络和多个变换网络共享了解码网络和重建网络的训练数据,使得缩短了进行多个特征变换的GAN所需的训练数据,从而缩短了训练GAN的时间。
在一种可能实施方式中,该处理模块803还用于当接收该图像变换指令时,根据至少一个变换需求信息,获取与该至少一个变换需求信息对应的多个变换网络;
将该原始图像依次输入该解码网络、该与该至少一个变换需求信息对应的多个变换网络和该重建网络,输出该目标图像。
在一种可能实施方式中,该训练模块802还用于对每个判别网络,输入与该判别网络对应的图像集,根据该判别网络的损失函数的数值,调整该判别网络的参数;
根据该解码网络、该重建网络以及与该判别网络对应的变换网络的损失函数的数值,调整该解码网络、该重建网络以及该变换网络的参数;
重复执行上述调整该判别网络的参数,以及调整该解码网络、该重建网络以及该变换网络的参数的步骤,直到各个网络的损失函数的数值与理想值的差值小于预设值。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的图像处理装置在进行图像处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见图像处理方法实施例,这里不再赘述。
图9是本申请实施例提供的计算机设备102的结构示意图,该计算机设备102可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)901和一个或一个以上的存储器902,其中,该存储器902中存储有至少一条指令,该至少一条指令由该处理器901加载并执行以实现上述各个实施例提供的图像处理方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述各个实施例中的图像处理方法。例如,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现如上述各个实施例中的图像处理方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (20)
1.一种图像处理方法,其特征在于,所述方法包括:
构建初始化的对抗网络,所述对抗网络包括解码网络、多个变换网络、重建网络和多个判别网络;其中,在所述解码网络后并行接入所述多个变换网络,在所述多个变换网络后接入所述重建网络,在所述重建网络后并行接入所述多个判别网络,每个判别网络与一个变换网络相对应;
根据多个图像集,训练所述多个判别网络,根据所述多个判别网络的训练结果,迭代训练所述对抗网络;
其中,在对所述多个变换网络和所述多个判别网络进行训练时,共享所述解码网络和所述重建网络的训练数据。
2.根据权利要求1所述的方法,其特征在于,所述根据多个图像集,训练所述多个判别网络,根据所述多个判别网络的训练结果,迭代训练所述对抗网络包括:
对每个判别网络,输入与所述判别网络对应的图像集,根据所述判别网络的损失函数的数值,调整所述判别网络的参数;
将所述图像集中的原始图像输入所述对抗网络,根据所述解码网络、所述重建网络以及与所述判别网络对应的变换网络的损失函数的数值,调整所述解码网络、所述重建网络以及所述变换网络的参数;
重复执行上述调整所述判别网络的参数,以及调整所述解码网络、所述重建网络以及所述变换网络的参数的步骤,直到各个网络的损失函数的数值与理想值的差值小于预设值。
3.根据权利要求2所述的方法,其特征在于,所述解码网络、所述重建网络以及与所述判别网络对应的变换网络的损失函数,包括:
通过对比所述原始图像,以及所述原始图像经过解码网络和重建网络得到的图像,得到的子损失函数值。
4.根据权利要求2所述的方法,其特征在于,所述解码网络、所述重建网络以及与所述判别网络对应的变换网络的损失函数,包括:
通过对比所述原始图像经过所述每个变换网络得到的特征图,以及所述原始图像经过所述每个变换网络后再依次经过重建网络和解码网络得到的特征图,得到的子损失函数值。
5.根据权利要求1所述的方法,其特征在于,所述多个图像集中的每个图像集对应于一个特征类别,每个所述特征类别对应于一个判别网络。
6.根据权利要求5所述的方法,其特征在于,每个所述图像集包括真样本集和假样本集,所述真样本集是经过了所述图像集所对应的特征类别变换的图像,所述假样本集是经过了除了所述特征类别之外的其他特征类别变换的图像。
7.根据权利要求6所述的方法,其特征在于,通过对所述图像集对应的判别网络的训练,使得所述判别网络对所述真样本集输出1,对所述假样本集输出0。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述每个变换网络的输入为所述解码网络的输出,所述每个变换网络的输出为所述重建网络的输入。
9.根据权利要求1至7中任一项所述的方法,其特征在于,当训练完毕的所述对抗网络中的所述解码网络、所述多个变换网络中的至少一个、以及所述重建网络依次连接时,将原始图像输入所述依次连接的各个网络,变换得到目标图像。
10.一种图像处理方法,其特征在于,所述方法包括:
根据图像变换指令,基于原始图像,解码得到第一特征图;
基于与至少一个变换需求信息对应的多个变换网络,通过串联的所述多个变换网络对所述第一特征图依次进行图像变换处理,输出第二特征图,其中,所述多个变换网络中每个变换网络的输入和输出都互相适配;
基于所述第二特征图,重建得到目标图像。
11.根据权利要求10所述的方法,其特征在于,所述基于与至少一个变换需求信息对应的多个变换网络,通过串联的所述多个变换网络对所述第一特征图依次进行图像变换处理,输出第二特征图包括:
获取与至少一个变换需求信息对应的多个变换网络,每个变换网络用于进行图像变换处理;
对于每个变换网络,对上一个变换网络输出的特征图中与所述变换网络的变换需求信息所对应的特征进行变换,输出所述变换网络的特征图,所述多个变换网络中的最后一个变换网络输出所述第二特征图。
12.根据权利要求11所述的方法,其特征在于,所述对上一个变换网络输出的特征图中与所述变换网络的变换需求信息所对应的特征进行变换,输出所述变换网络的特征图包括:
根据所述变换网络对应的变换需求信息,确定条件张量,所述条件张量与所述变换网络对应的输入特征图的宽度和高度相同;
基于所述变换网络对应的条件张量,对上一个变换网络输出的特征图中所述变换网络对应的区域进行变换,输出所述变换网络的特征图。
13.根据权利要求10至12中任一项所述的方法,其特征在于,所述基于原始图像,解码得到第一特征图包括:
将所述原始图像输入解码网络,输出所述第一特征图,所述解码网络用于提取图像的特征;
所述基于所述第二特征图,重建得到目标图像包括:
将所述第二特征图输入重建网络,输出所述目标图像,所述重建网络用于对输入的特征图进行重建。
14.根据权利要求13所述的方法,其特征在于,所述多个变换网络中每个变换网络的输入和输出、所述解码网络的输出和所述重建网络的输入都互相适配。
15.根据权利要求13所述的方法,其特征在于,通过对抗网络中多个判别网络的训练结果,迭代训练得到所述多个变换网络;在所述对抗网络中,所述解码网络后并行接入所述多个变换网络,所述多个变换网络后接入所述重建网络,所述重建网络后并行接入所述多个判别网络;其中,在对所述多个变换网络和所述多个判别网络进行训练时,共享所述解码网络和所述重建网络的训练数据。
16.一种图像处理装置,其特征在于,所述装置包括:
构建模块,用于构建初始化的对抗网络,所述对抗网络包括解码网络、多个变换网络、重建网络和多个判别网络;其中,在所述解码网络后并行接入所述多个变换网络,在所述多个变换网络后接入所述重建网络,在所述重建网络后并行接入所述多个判别网络,每个判别网络与一个变换网络相对应;
训练模块,用于根据多个图像集,训练所述多个判别网络,根据所述多个判别网络的训练结果,迭代训练所述对抗网络;其中,在对所述多个变换网络和所述多个判别网络进行训练时,共享所述解码网络和所述重建网络的训练数据。
17.一种图像处理装置,其特征在于,所述装置包括:
解码模块,用于根据图像变换指令,基于原始图像,解码得到第一特征图;
变换模块,用于基于与至少一个变换需求信息对应的多个变换网络,通过串联的所述多个变换网络对所述第一特征图依次进行图像变换处理,输出第二特征图,其中,所述多个变换网络中每个变换网络的输入和输出都互相适配;
重建模块,用于基于所述第二特征图,重建得到目标图像。
18.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至9或权利要求10至15中任一项所述的图像处理方法。
19.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至9或权利要求10至15中任一项所述的图像处理方法。
20.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至9或权利要求10至15中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111171389.2A CN113902921B (zh) | 2018-11-30 | 2018-11-30 | 图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811457745.5A CN109361934B (zh) | 2018-11-30 | 2018-11-30 | 图像处理方法、装置、设备及存储介质 |
CN202111171389.2A CN113902921B (zh) | 2018-11-30 | 2018-11-30 | 图像处理方法、装置、设备及存储介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811457745.5A Division CN109361934B (zh) | 2018-11-30 | 2018-11-30 | 图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113902921A true CN113902921A (zh) | 2022-01-07 |
CN113902921B CN113902921B (zh) | 2022-11-25 |
Family
ID=65330739
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111171389.2A Active CN113902921B (zh) | 2018-11-30 | 2018-11-30 | 图像处理方法、装置、设备及存储介质 |
CN201811457745.5A Active CN109361934B (zh) | 2018-11-30 | 2018-11-30 | 图像处理方法、装置、设备及存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811457745.5A Active CN109361934B (zh) | 2018-11-30 | 2018-11-30 | 图像处理方法、装置、设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11798145B2 (zh) |
CN (2) | CN113902921B (zh) |
WO (1) | WO2020108336A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113902921B (zh) * | 2018-11-30 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN110458164A (zh) * | 2019-08-07 | 2019-11-15 | 深圳市商汤科技有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN110868598B (zh) * | 2019-10-17 | 2021-06-22 | 上海交通大学 | 基于对抗生成网络的视频内容替换方法及系统 |
CN111414852A (zh) * | 2020-03-19 | 2020-07-14 | 驭势科技(南京)有限公司 | 图像预测及车辆行为规划方法、装置和系统及存储介质 |
CN111666919B (zh) * | 2020-06-24 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种对象识别方法、装置、计算机设备和存储介质 |
US11972348B2 (en) * | 2020-10-30 | 2024-04-30 | Apple Inc. | Texture unit circuit in neural network processor |
CN112785687A (zh) * | 2021-01-25 | 2021-05-11 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备和可读存储介质 |
KR20220135372A (ko) * | 2021-03-30 | 2022-10-07 | 삼성전자주식회사 | 미디어 스트리밍을 제공하기 위한 장치 및 방법 |
CN113159295B (zh) * | 2021-04-27 | 2022-07-01 | 瀚博半导体(上海)有限公司 | 基于硬件加速器的张量处理方法和系统 |
US20230196087A1 (en) * | 2021-10-26 | 2023-06-22 | Tencent America LLC | Instance adaptive training with noise robust losses against noisy labels |
CN114993677B (zh) * | 2022-05-11 | 2023-05-02 | 山东大学 | 不平衡小样本数据的滚动轴承故障诊断方法及系统 |
CN117993048B (zh) * | 2023-12-27 | 2024-09-17 | 清华大学 | 基于扩散模型的建筑结构构件尺寸的设计方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101640803A (zh) * | 2009-09-04 | 2010-02-03 | 中国科学技术大学 | 一种用于多光谱图像的渐进的分布式编解码方法及装置 |
CN103905522A (zh) * | 2013-07-12 | 2014-07-02 | 吉首大学 | 基于云计算环境的图像身份对比检测识别方法 |
US20160180214A1 (en) * | 2014-12-19 | 2016-06-23 | Google Inc. | Sharp discrepancy learning |
CN106952239A (zh) * | 2017-03-28 | 2017-07-14 | 厦门幻世网络科技有限公司 | 图像生成方法和装置 |
CN107154023A (zh) * | 2017-05-17 | 2017-09-12 | 电子科技大学 | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 |
CN107330954A (zh) * | 2017-07-14 | 2017-11-07 | 深圳市唯特视科技有限公司 | 一种基于衰减网络通过滑动属性操纵图像的方法 |
CN108596267A (zh) * | 2018-05-03 | 2018-09-28 | Oppo广东移动通信有限公司 | 一种图像重建方法、终端设备及计算机可读存储介质 |
CN108765340A (zh) * | 2018-05-29 | 2018-11-06 | Oppo(重庆)智能科技有限公司 | 模糊图像处理方法、装置及终端设备 |
CN108898579A (zh) * | 2018-05-30 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 一种图像清晰度识别方法、装置和存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9589210B1 (en) * | 2015-08-26 | 2017-03-07 | Digitalglobe, Inc. | Broad area geospatial object detection using autogenerated deep learning models |
CN105872555B (zh) * | 2016-03-25 | 2019-01-15 | 中国人民武装警察部队工程大学 | 一种针对h.264视频运动矢量信息嵌入的隐写分析算法 |
CN106156781B (zh) * | 2016-07-12 | 2019-09-10 | 北京航空航天大学 | 排序卷积神经网络构建方法及其图像处理方法与装置 |
CN107103590B (zh) * | 2017-03-22 | 2019-10-18 | 华南理工大学 | 一种基于深度卷积对抗生成网络的图像反射去除方法 |
CN106951867B (zh) * | 2017-03-22 | 2019-08-23 | 成都擎天树科技有限公司 | 基于卷积神经网络的人脸识别方法、装置、系统及设备 |
CN107437077A (zh) * | 2017-08-04 | 2017-12-05 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的旋转面部表示学习的方法 |
CN107886491A (zh) * | 2017-11-27 | 2018-04-06 | 深圳市唯特视科技有限公司 | 一种基于像素最近邻的图像合成方法 |
CN107945282B (zh) * | 2017-12-05 | 2021-01-29 | 洛阳中科信息产业研究院(中科院计算技术研究所洛阳分所) | 基于对抗网络的快速多视角三维合成和展示方法及装置 |
CN108122249A (zh) * | 2017-12-20 | 2018-06-05 | 长沙全度影像科技有限公司 | 一种基于gan网络深度学习模型的光流估计方法 |
KR102421856B1 (ko) * | 2017-12-20 | 2022-07-18 | 삼성전자주식회사 | 영상의 상호작용 처리 방법 및 장치 |
CN110555821B (zh) * | 2018-01-26 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置和存储介质 |
CN108765261B (zh) * | 2018-04-13 | 2022-07-05 | 北京市商汤科技开发有限公司 | 图像变换方法和装置、电子设备、计算机存储介质 |
CN108564127B (zh) * | 2018-04-19 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备及存储介质 |
CN108596330B (zh) * | 2018-05-16 | 2022-03-15 | 中国人民解放军陆军工程大学 | 一种并行特征全卷积神经网络装置及其构建方法 |
CN113902921B (zh) * | 2018-11-30 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
-
2018
- 2018-11-30 CN CN202111171389.2A patent/CN113902921B/zh active Active
- 2018-11-30 CN CN201811457745.5A patent/CN109361934B/zh active Active
-
2019
- 2019-11-18 WO PCT/CN2019/119087 patent/WO2020108336A1/zh active Application Filing
-
2021
- 2021-03-03 US US17/191,611 patent/US11798145B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101640803A (zh) * | 2009-09-04 | 2010-02-03 | 中国科学技术大学 | 一种用于多光谱图像的渐进的分布式编解码方法及装置 |
CN103905522A (zh) * | 2013-07-12 | 2014-07-02 | 吉首大学 | 基于云计算环境的图像身份对比检测识别方法 |
US20160180214A1 (en) * | 2014-12-19 | 2016-06-23 | Google Inc. | Sharp discrepancy learning |
CN106952239A (zh) * | 2017-03-28 | 2017-07-14 | 厦门幻世网络科技有限公司 | 图像生成方法和装置 |
CN107154023A (zh) * | 2017-05-17 | 2017-09-12 | 电子科技大学 | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 |
CN107330954A (zh) * | 2017-07-14 | 2017-11-07 | 深圳市唯特视科技有限公司 | 一种基于衰减网络通过滑动属性操纵图像的方法 |
CN108596267A (zh) * | 2018-05-03 | 2018-09-28 | Oppo广东移动通信有限公司 | 一种图像重建方法、终端设备及计算机可读存储介质 |
CN108765340A (zh) * | 2018-05-29 | 2018-11-06 | Oppo(重庆)智能科技有限公司 | 模糊图像处理方法、装置及终端设备 |
CN108898579A (zh) * | 2018-05-30 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 一种图像清晰度识别方法、装置和存储介质 |
Non-Patent Citations (2)
Title |
---|
ZHOU WANG 等: "Image Quality Assessment: From Error Visibility to Structural Similarity", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
赵夫群 等: "一种改进的数字图像修复方法", 《信息技术》 * |
Also Published As
Publication number | Publication date |
---|---|
US20210192701A1 (en) | 2021-06-24 |
CN109361934A (zh) | 2019-02-19 |
CN113902921B (zh) | 2022-11-25 |
CN109361934B (zh) | 2021-10-08 |
WO2020108336A1 (zh) | 2020-06-04 |
US11798145B2 (en) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113902921B (zh) | 图像处理方法、装置、设备及存储介质 | |
EP3678059B1 (en) | Image processing method, image processing apparatus, and a neural network training method | |
Jo et al. | Sc-fegan: Face editing generative adversarial network with user's sketch and color | |
Zhang et al. | Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks | |
Ahn et al. | Image super-resolution via progressive cascading residual network | |
JP7246811B2 (ja) | 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器 | |
CN110097609B (zh) | 一种基于样本域的精细化绣花纹理迁移方法 | |
CN111767979A (zh) | 神经网络的训练方法、图像处理方法、图像处理装置 | |
US11514694B2 (en) | Teaching GAN (generative adversarial networks) to generate per-pixel annotation | |
JP2019056975A (ja) | 改良型敵対的生成ネットワーク実現プログラム、改良型敵対的生成ネットワーク実現装置及び学習済モデル生成方法 | |
CN110490247B (zh) | 图像处理模型生成方法、图像处理方法及装置、电子设备 | |
CN110517352B (zh) | 一种物体的三维重建方法、存储介质、终端及系统 | |
DE102021124769A1 (de) | Latente-variable generatives modell mit einem rauschkontrastgebenden prior | |
CN109345604A (zh) | 图片处理方法、计算机设备和存储介质 | |
Wei et al. | A-ESRGAN: Training real-world blind super-resolution with attention U-Net Discriminators | |
CN116168197A (zh) | 一种基于Transformer分割网络和正则化训练的图像分割方法 | |
Liu et al. | Decompose to manipulate: manipulable object synthesis in 3D medical images with structured image decomposition | |
Tan et al. | Rethinking spatially-adaptive normalization | |
DE102021124537A1 (de) | Energiebasierte variational autoencoder | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
US20220101145A1 (en) | Training energy-based variational autoencoders | |
CN115409694B (zh) | 语义引导的缺陷图像生成方法、装置、设备及存储介质 | |
EP4421750A1 (en) | Avatar control | |
CN115953296B (zh) | 一种基于transformer和卷积神经网络联合的人脸超分辨率重建方法和系统 | |
EP4446996A1 (en) | Learnable image transformation training methods and systems in graphics rendering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40065635 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |