CN107730474B - 图像处理方法、处理装置和处理设备 - Google Patents
图像处理方法、处理装置和处理设备 Download PDFInfo
- Publication number
- CN107730474B CN107730474B CN201711099988.1A CN201711099988A CN107730474B CN 107730474 B CN107730474 B CN 107730474B CN 201711099988 A CN201711099988 A CN 201711099988A CN 107730474 B CN107730474 B CN 107730474B
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- output
- training
- output image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 103
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 255
- 238000012549 training Methods 0.000 claims abstract description 120
- 238000006243 chemical reaction Methods 0.000 claims abstract description 76
- 230000006870 function Effects 0.000 claims description 68
- 238000005070 sampling Methods 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 23
- 230000000694 effects Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 239000011159 matrix material Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 241000283070 Equus zebra Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G06T5/70—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration by non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明实施例提供一种图像处理方法、处理装置和处理设备,利用生成神经网络结合拉普拉斯变换和图像风格特征实现图像转换,使得转换后的输出图像具有多样性并且保持与输入图像的一致性,系统简单,易于训练。所述图像处理方法,包括:获取包括N个通道的第一图像,N为大于等于1的正整数;利用生成神经网络对所述第一图像进行图像转换处理,以输出转换后的输出图像,其中,所述生成神经网络是基于拉普拉斯变换函数训练得到的。
Description
技术领域
本发明涉及图像处理,尤其涉及一种图像处理方法、处理装置和处理设备。
背景技术
利用深度神经网络进行图像处理和转换是随着深度学习技术的发展而新兴起来的技术。然而,现有技术中的图像处理和转换系统的结构复杂且难于训练,并且输出图像缺乏多样性。因此,需要一种实现图像转换的图像处理方法、装置和设备,其既能保证输出图像与输入图像之间具有一致性,又能保证不同输出图像之间具有多样性。
发明内容
本发明提供一种图像处理方法、处理装置和处理设备,利用生成神经网络结合拉普拉斯变换和图像风格特征实现图像转换,使得转换后的输出图像具有多样性并且保持与输入图像的一致性,系统简单,易于训练。
本发明实施例提供一种图像处理方法,包括:
获取包括N个通道的第一图像,N为大于等于1的正整数;
利用生成神经网络对所述第一图像进行图像转换处理,以输出转换后的输出图像,其中,所述生成神经网络是基于拉普拉斯变换函数训练得到的。
根据本发明实施例,所述利用生成神经网络对所述第一图像进行图像转换处理包括:利用生成神经网络基于包括所述第一图像和第一噪声图像的输入图像对所述第一图像进行图像转换处理。
根据本发明实施例,所述生成神经网络的输入包括第一噪声图像和第一图像的N个通道,所述第一噪声图像包括M个通道,M为大于等于1的正整数。
根据本发明实施例,所述生成神经网络包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块,其中:
所述下采样模块包括依次连接的卷积层、下采样层和实例标准化层;所述残差模块包括依次连接的卷积层和实例标准化层;所述上采样模块包括依次连接的上采样层、实例标准化层和卷积层,其中,所述上采样模块的个数与所述下采样模块的个数相等。
根据本发明实施例,所述输入图像作为第一训练图像,所述第一噪声图像作为第一训练噪声图像,所述输出图像作为第一输出图像,所述图像处理方法还包括:获取第二训练图像,其中所述第二训练图像包括第二训练噪声图像和第一图像的信息,其中,所述第二训练噪声图像与所述第一训练噪声图像不相同;利用所述生成神经网络对所述第二训练图像进行图像转换处理,输出第二输出图像;基于第一图像、第一输出图像和第二输出图像训练所述生成神经网络。
根据本发明实施例,训练所述生成神经网络包括:将所述第一输出图像输入至鉴别神经网络,用于输出所述第一输出图像是否具有转换特征的鉴别标签;利用第一损失计算单元根据所述第一图像、第一输出图像、第二输出图像和鉴别标签计算所述生成神经网络的损失值,优化所述生成神经网络的参数。
根据本发明实施例,所述第一损失计算单元包括分析网络、拉普拉斯变换器、第一损失计算器和优化器,并且所述利用第一损失计算单元计算所述生成神经网络的损失值包括:利用分析网络输出所述第一输出图像、第二输出图像的风格特征;利用拉普拉斯变换器获得第一图像、第一输出图像和第二输出图像的拉普拉斯变换图像;利用第一损失计算器根据分析网络提取的风格特征、拉普拉斯变换器输出的拉普拉斯变换结果和所述第一输出图像的鉴别标签按照第一损失函数计算所述生成神经网络的损失值;利用优化器根据所述生成神经网络的损失值优化所述生成神经网络的参数。
根据本发明实施例,所述第一损失函数包括拉普拉斯变换函数,并且计算所述生成神经网络的损失值包括:根据第一图像、第一输出图像和第二输出图像的拉普拉斯变换结果按照拉普拉斯变换函数计算生成神经网络的拉普拉斯变换损失值;所述第一损失函数还包括风格损失函数,并且计算所述生成神经网络的损失值包括:根据第一输出图像的风格特征和第二输出图像的风格特征按照风格损失函数计算所述生成神经网络的风格损失值。
本发明实施例还提供一种图像处理装置,包括:生成神经网络模块,用于对第一图像进行图像转换处理,以输出转换后的输出图像,其中:所述生成神经网络模块是基于拉普拉斯变换函数训练得到的;所述利用生成神经网络模块对所述第一图像进行图像转换处理包括:利用生成神经网络模块基于包括所述第一图像和噪声图像的输入图像对所述第一图像进行图像转换处理;所述生成神经网络模块的输入包括第一噪声图像和第一图像的N个通道,所述第一噪声图像包括M个通道,M为大于等于1的正整数。
根据本发明实施例,所述生成神经网络模块包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块,其中:所述下采样模块包括依次连接的卷积层、下采样层和实例标准化层;所述残差模块包括依次连接的卷积层和实例标准化层;所述上采样模块包括依次连接的上采样层、实例标准化层和卷积层,其中,所述上采样模块的个数与所述下采样模块的个数相等。
根据本发明实施例,训练神经网络模块,用于根据所述生成神经网络模块的输出图像来训练所述生成神经网络模块,其中,所述输入图像作为第一训练图像,所述第一噪声图像作为第一训练噪声图像,所述输出图像作为第一输出图像,所述生成神经网络模块还对第二训练图像进行图像转换处理,以输出转换后的第二输出图像,其中,所述第二训练图像包括第二训练噪声图像和第一图像的信息,所述第二训练噪声图像不同于所述第一训练噪声图像;所述训练神经网络模块基于第一图像、第一输出图像和第二输出图像训练所述生成神经网络模块。
根据本发明实施例,所述训练神经网络模块包括:鉴别神经网络模块,用于输出所述第一输出图像是否具有转换特征的鉴别标签;第一损失计算单元,用于根据所述第一图像、第一输出图像、第二输出图像和鉴别标签计算所述生成神经网络模块的损失值,优化所述生成神经网络模块的参数,其中所述第一损失计算单元包括:分析网络,用于输出所述第一输出图像、第二输出图像的风格特征;拉普拉斯变换器,用于获得第一图像、第一输出图像和第二输出图像的拉普拉斯变换图像;第一损失计算器,用于根据分析网络提取的风格特征、拉普拉斯变换器输出的拉普拉斯变换结果和所述第一输出图像的鉴别标签按照第一损失函数计算所述生成神经网络模块的损失值;以及优化器,用于根据所述生成神经网络模块的损失值优化所述生成神经网络模块的参数。
根据本发明实施例,所述第一损失函数包括风格损失函数,用于根据第一输出图像的风格特征和第二输出图像的风格特征计算所述生成神经网络模块的风格损失值;所述第一损失函数还包括拉普拉斯变换函数,用于根据第一图像、第一输出图像和第二输出图像的拉普拉斯变换结果计算生成神经网络模块的拉普拉斯变换损失值。
本发明实施例还提供一种图像处理设备,包括:一个或多个处理器;一个或多个存储器,其中所述存储器存储了计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时执行上述图像处理方法,或实现权利上述图像处理装置。
本发明实施例中,基于生成神经网络结合拉普拉斯变换和图像风格特征实现图像转换,其中输入图像包括第一图像和噪声图像,在由所述生成神经网络进行图像处理时,噪声图像生成图像细节信息,使得转换后的输出图像具有多样性并且保持与输入图像的一致性,系统简单,易于训练。利用风格损失函数训练生成神经网络,保证输出结果之间的多样性。利用拉普拉斯变换函数训练生成神经网络,保证转换后的输出图像与输入图像具有内容一致性,即转换后的图像既具有转换特征,又包括足够的原始图像信息,避免在图像处理过程中丢失大量的原图信息。
附图说明
图1示出了本发明实施例提供的图像处理方法的流程图;
图2示出了图1中所述图像处理方法中获取输入图像的示意图;
图3示出了图1中生成神经网络的结构示意图;
图4示出了图3中生成神经网络的具体结构图;
图5示出了图4中生成神经网络包括的MUX层的示意图;
图6示出了训练生成神经网络的流程图;
图7示出了训练生成神经网络的框图;
图8示出了分析网络的具体结构图;
图9示出了鉴别神经网络的具体结构图;
图10示出了训练鉴别神经网络的流程图;
图11示出了训练鉴别神经网络的框图;
图12示出了本发明实施例提供的图像处理装置的示意性框图;
图13示出了本发明实施例提供的图像处理设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种图像处理方法、处理装置和处理设备,用于实现图像转换,利用一组生成神经网络进行图像处理,所述生成神经网络的输入信息既包括待转换的图像还包括用于生成图像细节信息的噪声图像。当利用生成神经网络根据同一幅待转换的图像进行多次图像处理时,由于噪声图像不同而生成具有不同细节信息的转换图像,使得输出图像具有结果多样性。在此基础上,基于鉴别神经网络的鉴别标签、第一图像与输出图像之间的拉普拉斯变换结果训练所述生成神经网络,以保证转换图像与输入图像具有一致性,基于不同输出图像之间的风格特征损失训练所述生成神经网络,以保证输出的转换图像具有多样性,而无需另一套循环一致性对抗网络来训练生成神经网络,使得系统简单、训练速度快。
本发明实施例提供的图像处理方法的流程框图如图1所示,包括:步骤S110,获取包括N个通道的第一图像,N为大于等于1的正整数,在本发明实施例中,例如,N可以为3,所述第一图像可以包括第一颜色通道、第二颜色通道和第三颜色通道。本发明实施例中,所述第一图像包括RGB三通道。步骤S120,利用生成神经网络根据包括第一图像和第一噪声图像信息的输入图像对所述第一图像进行图像转换,处理输出转换后的输出图像。所述图像转换处理可以是将输入图像从效果A转换成具有效果B的输出图像,使得输出图像既包含输入图像中的特征,又具有效果B的特征,例如图像风格、场景、季节、效果或基于其他特征的图像转换,在步骤S130,输出经过图像转换处理的输出图像。
为使得图像转换结果具有多样性,该输入图像中包括用于生成图像细节信息的第一噪声图像,所述第一噪声图像包括M个通道,M为大于等于1的正整数,其中,第一噪声图像的各通道各不相同。例如,在本发明实施例中M为3,通过将第一噪声图像的3个通道分别添加至第一图像的RGB通道,获得输入图像。上述获取过程的示意图如图2所示,包括:获取具有RGB三通道的第一图像;获取第一噪声图像,在本发明实施例中,为噪声图像N1、噪声图像N2和噪声图像N3;将噪声图像N1、N2和N3分别添加至第一图像的3个通道中,生成包括3个通道的输入图像,其中,所述噪声图像N1、N2和N3中具有各不相同的随机噪声。所述随机噪声例如可以为高斯噪声。在本发明的其它实施例中,M也可以为1,用于直接与第一图像一起输入至所述生成神经网络,用于在图像转换处理过程中生成细节信息,此种情形在本说明书中不再赘述。
图3中示出了用于实现上述图像处理方法的生成神经网络的结构示意图。该生成神经网络包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块。生成神经网络的深度由所述下采样模块、残差模块、下采样模块的个数决定,根据具体的转换应用确定。此外,所述下采样模块和上采样模块的个数应相同,以保证输出图像与输入图像具有相同的图像尺寸。
所述下采样模块用于对输入图像和噪声图像进行卷积处理以提取图像特征,并减小特征图像的尺寸。所述残差模块在不改变特征图像尺寸的基础上通过卷积进一步处理下采样模块输出的特征图像。所述上采样模块用于对残差模块输出的所述特征图像进行放大和标准化处理,输出转换特征后的输出图像。该输出图像的转换特征由所述生成神经网络的参数决定,根据转换应用,通过使用训练图像对所述生成神经网络进行训练,优化所述参数,以实现转换目的,所述参数可以包括所述生成神经网络中卷积层的卷积核和偏置。所述图像转换应用可以是图像风格、季节、效果、场景等的转换,例如将一幅风景图像转换为具有梵高作品特征的图像、将一幅具有夏季特征的图像转换为具有冬季特征的图像、将棕色马的图像转换为斑马的特征等,甚至可以是将猫转换为狗。
图4示出了图3中的生成神经网络的具体结构图。下面,结合图3和图4具体描述根据本发明实施例的生成神经网络。如图4所示,下采样模块包括依次连接的卷积层、下采样层和实例标准化层。
在卷积层中,一个神经元只与部分相邻层的神经元连接,卷积层可以对输入的图像应用若干个卷积核,以提取多种类型的特征。每个卷积核可以提取一种类型的特征,在训练生成神经网络的过程中,卷积核通过学习达到合理的权值。对输入的图像应用一个卷积核之后得到的结果被称为特征图像,其数目与卷积核的数目相同。每个特征图像由一些矩形排列的神经元组成,同一特征图像的神经元共享权值,即卷积核。经过一层卷积层输出的特征图像经由下一层卷积层处理后可以得到新的特征图像。例如,输入的图像经过一层卷积层处理后可以得到其内容特征,所述内容特征经由下一层的卷积层处理后可以得到风格特征。
下采样层可以对图像进行下采样处理(例如,可以是池化层),可以在不改变特征图像数量的基础上减少特征图像的尺寸,进行特征压缩,提取主要特征。此外,下采样层其可以缩减特征图像的规模,以简化计算的复杂度,在一定程度上减小过拟合的现象。
实例标准化层用于对上一层级输出的特征图像进行标准化处理,本发明实施例中为根据每个特征图像的均值和方差进行标准化。假设选定特征图像(mini-batch)的个数为T,某卷积层输出的特征数量为C,每个特征图像均为H行W列的矩阵,特征图像表示为(T,C,W,H),则标准化公式如下:
其中xtijk为某卷积层输出的特征图像集合中的第t个特征块(patch)的第i个特征图像、第j列、第k行的值。ytijk表示xtijk经过实例标准化层处理得到的结果,ε为值很小的整数,以避免分母为0。
如图4所述,在残差模块中,既包括卷积层和实例标准化层,而且还包括跨层连接,使得残差模块具有两部分,一部分为具有卷积层和实例标准化层的处理部分,另一部分为对输入的图像不进行处理的跨层部分,该跨层连接将残差模块的输入直接叠加到所述处理部分的输出。在残差模块中引入跨层连接可以给生成神经网络带来更大的灵活性。当对生成神经网络的训练完成后,在系统的部署阶段,可以判断残差模块中处理部分与跨层部分对于图像处理结果的影响程度。根据该影响程度可以对生成神经网络的结构进行一定的裁剪,以提高网络的运行效率和处理速率。例如,若通过判断,跨层连接部分对于图像处理结果的影响远大于处理部分,则在利用该生成神经网络进行图像处理时可以只使用残差模块中的跨层部分,提高网络的处理效率。
如图4所示,上采样模块包括依次连接的上采样层、实例标准化层和卷积层,用于提取输入的图像的特征,并对特征图像进行标准化处理。
所述上采样层,例如,可以是MUX层,其可以对输入的若干图像进行像素交错重排处理,使得在图像数量不变的基础上,增加每个图像的尺寸。由此,MUX层通过不同图像间像素的排列组合,增加了每幅图像的像素数目。图5示出了使用2*2MUX层进行上采样的示意图。对于输入的4幅图像INPUT 4n、INPUT 4n+1、INPUT 4n+2和INPUT 4n+3,假设输入的图像的像素数目为a*b,经过2*2MUX层的像素重排处理后,输出4幅像素数目为2a*2b的图像OUTPUT 4n、OUTPUT 4n+1、OUTPUT 4n+2和OUTPUT 4n+3,增加了每幅图像的像素信息。
本发明实施例提供的图像处理方法中,输入图像中的RGB通道中包含各不相同的噪声,该噪声可以是例如高斯噪声的随机噪声,用于在图像转换过程中生成图像的细节信息。由于每次添加至第一图像的噪声图像各不相同,当利用同一组生成神经网络根据同一幅第一图像和不同噪声图像获取的输入图像进行多次图像处理时,可以得到具有细节差异的转换图像,丰富了转换图像中的细节信息,提供了更好的用户体验。该生成神经网络输出的转换图像具有N个通道,在本发明实施例中为RGB三通道。该生成神经网络经过不同的训练过程可以实现不同的图像处理,例如图像风格、场景、季节、效果或基于其他特征的图像转换。
图6示出了训练所述生成神经网络的流程图,图7示出了训练所述生成神经网络的框图。下面,结合图6和图7来具体地描述训练所述生成神经网络的过程。
如图6所示,在步骤S610,获取包含N个通道的第一图像I1。
在步骤S620,获取包含M个通道的第一训练噪声图像、以及包含M个通道的第二训练噪声图像,例如,在本发明实施例中,M为3。在本发明的其它实施例中,M也可以为1,用于直接与第一图像一起输入至所述生成神经网络,用于在图像转换处理过程中生成细节信息。在本发明实施例中,例如,所述第一图像I1具有3个通道,所述第一训练噪声图像具有3个通道,即噪声图像N1、噪声图像N2和噪声图像N3,所述第二训练噪声图像具有3个通道,即噪声图像N4、噪声图像N5和噪声图像N6,其中,所述噪声图像N4、N5和N6各不相同,且不同于所述噪声图像N1、N2和N3。
然后,在步骤S630,利用所述第一图像I1和第一训练噪声图像生成第一训练图像T1,利用所述第一图像I1和第二训练噪声图像生成第二训练图像T2。
在步骤S640,利用生成神经网络对所述第一训练图像T1进行图像转换处理,输出第一输出图像Ra,并利用所述生成神经网络对所述第二训练图像T2进行图像转换处理,输出第二输出图像Rb。
接下来,在步骤S650,基于第一图像I1、第一输出图像Ra和第二输出图像Rb训练所述生成神经网络。
由此可知,用于训练生成神经网络的第一训练图像T1和第二训练图像T2是根据同一幅第一图像I1结合不同的噪声图像得到的,其具有相同的图像特征,还具有用于生成图像细节的不同噪声。根据生成神经网络对于第一训练图像T1和第二训练图像T2的图像处理结果,按照损失函数训练所述生成神经网络,以优化其参数,所述参数包括生成神经网络中卷积层的卷积核和偏置。
该训练旨在根据生成神经网络的处理结果,优化该网络中的参数,使得其可以完成转换目标。步骤S650的所述生成神经网络的训练过程包括:将所述第一输出图像Ra输入至鉴别神经网络,用于输出所述第一输出图像Ra是否具有转换特征的鉴别标签;利用第一损失计算单元根据所述第一图像I1、第一输出图像Ra、第二输出图像Rb和鉴别标签计算所述生成神经网络的损失值,优化所述生成神经网络的参数。在本发明的实施例中,可以将第一输出图像Ra与第二输出图像Rb一起输入至鉴别神经网络,分别输出鉴别标签,一起用于训练所述生成神经网络。
如图7中所示,所述第一损失计算单元包括分析网络、拉普拉斯变换器、第一损失计算器和优化器。所述分析网络的具体结构如图8所示,其由若干个卷积层和池化层组成,用于提取输入的图像的特征。其中每一个卷积层的输出都是从输入的图像中提出的特征,池化层用于降低特征图像的分辨率并传递给下一个卷积层。经过每个卷积层后的特征图像都表征了输入图像在不同级别上的特征(如纹理、边缘、物体等)。在本发明实施例中,利用分析网络对第一输出图像Ra和第二输出图像Rb进行处理,提取其风格特征,并输入至第一损失计算器。
所述拉普拉斯变换器用于对获得的第一输出图像Ra和第二输出图像Rb进行拉普拉斯变换,利用输出图像经过拉普拉斯变换之后的差异,即拉普拉斯变换损失,衡量输出图像之间的差异。本发明实施例中,期望由第一图像I1获得的第一输出图像Ra和第二输出图像Rb之间具有更大的差异性,以保证输出图像之间的多样性,因此在训练生成神经网络过程中将拉普拉斯损失输入至第一损失计算器,以指导优化器优化生成神经网络的参数。
所述第一损失计算器,用于根据分析网络提取的风格特征、拉普拉斯变换器输出的拉普拉斯变换损失和所述第一输出图像Ra和第二输出图像Rb的鉴别标签按照第一损失函数计算所述生成神经网络的损失值。
第一损失计算器将计算得到的生成神经网络的总损失值输入到优化器,所述优化器根据损失值优化生成神经网络的卷积层中卷积核和偏置,以实现更接近图像转换目标的处理效果。
在分析网络中,每一个卷积层的输出都是输入图像的特征。假设某个具有Nl个卷积核的卷积层,其输出包含Nl个特征图像,假设每个特征图像的尺寸都是Ml(特征图像的宽x高)。这样l层的输出可以存储在矩阵中。表示第l层中第i个卷积核输出的特征图像中第j个位置的值。
在本发明实施例中,根据输出图像Ra和Rb之间的风格损失值来表征输出图像之间的差异。所述第一损失函数包括风格损失函数,用于根据第一输出图像Ra的风格特征和第二输出图像Rb的风格特征计算所述生成神经网络的风格损失值。
其中El表示所述风格损失函数,C2为一常数,用于对结果进行标准化处理。Nl表示分析网络中第l层中具有Nl个卷积核,则该卷积层的输出中包含Nl个特征图像。每个特征图像的尺寸都是Ml(特征图像的宽x高)。所述Gram矩阵Al和Gl定义为:
因此,若分析网络通过L个卷积层提取输入的图像的风格特征,则总风格损失函数表示为:
其中,wl为第l层风格损失占总风格损失的权重。
在本发明实施例中,风格特征可以通过分析网络中多个卷积层提取,也可通过一个卷积层提取,在此不作具体限制。
因此,两幅输出结果Ra和Rb的风格差异为:
其中C3为一常数,用于对结果进行标准化处理。
为了使输出结果之间的多样性更明显,即要求两个输出结果的风格损失应该越大越好,因此,风格损失表示为:
第一损失计算器根据分析网络输出的第一输出图像Ra和第二输出图像Rb的风格特征,按照上述总风格损失函数Lstyle计算输出图像之间的风格损失值,保证输出图像之间具有结果多样性。
在本发明实施例中,所述第一损失函数还包括拉普拉斯变换函数,用于根据第一图像I1、第一输出图像Ra和第二输出图像Rb的拉普拉斯变换结果计算生成神经网络的拉普拉斯变换损失值。
拉普拉斯变换的定义如下:
拉普拉斯滤波器是对上述公式的一种逼近,定义如下:
按照普拉斯损失函数公式,根据第一图像I1、第一输出图像Ra和第二输出图像Rb在分析网络中输出的特征图像,则可计算出经过生成神经网络处理的第一输出图像Ra和第二输出图像Rb相对于第一训练图像的拉普拉斯损失值值Llaplacian_a和Llaplacian_b。
通过计算所述生成神经网络的拉普拉斯损失值可以保证其输出的转换图像与输入图像保持一致性,使得输出图像在经过处理后在具有转换特征的基础上保留足够的原始信息。本发明实施例中利用生成神经网络结合输入图像和输出图像之间的拉普拉斯损失对生成神经网络进行训练,保证转换图像与输入图像具有一致性,使得系统简单,易于训练。
本发明实施例中,第一损失计算函数还包括生成器的损失函数:
L_G=Ex~Pdata(x)[logD(x)]+Ez~Pz(z)[1-logD(G(z))]
其中,Pdata为使得鉴别神经网络输出为1的图像集合。Pz为生成神经网络的输入图像集合。D为鉴别神经网络,G为生成神经网络。第一计算损失计算器根据L_G计算生成神经网络的对抗损失值。
本发明实施例中,第一损失计算函数还包括参数正则化损失函数LL1。在神经网络中,卷积核和偏置都是需要通过训练得到的参数。卷积核决定了对输入的图像进行怎样的处理,偏置则决定了该卷积核的输出是否输入到下一层。因此,在神经网络中,偏置可形象第比喻为“开关”,决定了该卷积核是“打开”还是“关闭”。针对不同的输入图像,网络打开或关闭不同的卷积核以达到不同的处理效果。
神经网络中所有卷积核绝对值的均值为:
其中,Cw为网络中卷积核的数量。神经网络中所有偏置绝对值的均值:
其中Cb为网络中偏置的数量。则参数正则化损失函数为:
其中ε为一个极小的正数,用于保证分母不为0。
本发明实施例中希望卷积层中的偏置与卷积核相比具有更大的绝对值,以使得更有效的发挥偏置的“开关”的作用。训练过程中,第一计算损失计算器根据LL1计算生成神经网络的参数正则化损失值。
综上所述,生成神经网络的总损失为:
Ltotal=αLLaplacian+βL_G+χLDVST+δR
其中,R为生成神经网络的标准化损失值,α、β、χ和δ分别为总损失中拉普拉斯变换损失值、对抗损失值、风格损失值和标准化损失值所占的权重,本发明实施例中采用上述参数正则化损失值表示标准化损失值,也可采用其他类型的正则化化损失。
在训练生成神经网络过程中使用的鉴别神经网络与所述生成神经网络构成一组对抗网络。其中,生成神经网络用于将输入的图像从效果A转换成具有效果B的输出图像,所述鉴别神经网络用于判断输出图像是否具有效果B的特征,并输出鉴别标签。例如,若判断输出图像具有效果B的特征则输出“1”,若判断输出图像不具有效果B的特征则输出“0”。通过训练,生成神经网络逐渐生成使得鉴别神经网络输出“1”的输出图像,鉴别神经网络逐渐可以更准确的判断输出图像是否具有转换特征,两者同步训练,互相对抗,以获得更优的参数。
所述鉴别神经网络利用若干个卷积层和池化层提取输入的图像的内容特征,并减少特征图像的尺寸,用于下一层卷积层进一步提取图像特征。再利用全连接层和激活层处理图像特征,最终输出作为输入图像是否具有转换特征的鉴别标签的标量值。所述全连接层具有和卷积神经网络相同的结构,只是用标量值替换了卷积核。所述激活层通常为RELU或者sigmoid函数。在本发明实施例中,鉴别神经网络的具体结构如图9所示,其中激活层为sigmoid函数,最终输出鉴别标签。
在对抗网络中,生成神经网络将输入的图像从效果A转换成具有效果B的输出图像,所述鉴别神经网络判断输出图像是否具有效果B的特征,并输出鉴别标签。例如,若判断输出图像具有效果B的特征则输出接近于“1”,若判断输出图像不具有效果B的特征则输出“0”。通过训练,生成神经网络逐渐生成使得鉴别神经网络输出“1”的输出图像,鉴别神经网络逐渐可以更准确的判断输出图像是否具有转换特征,两者同步训练,互相对抗,以获得更优的参数。
图10示出了训练所述鉴别神经网络的流程图,图11示出了训练所述鉴别神经网络的框图。下面,将结合图10和图11具体描述训练所述鉴别神经网络的过程。
如图10所示,在步骤S1010,获取包含N个通道的第一图像I1。
在步骤S1020,获取包含M个通道的第三训练噪声图像。应了解,本说明书中的第一训练噪声图像、第二训练噪声图像和第三训练噪声图像不具有顺序含义和区别含义,仅用于表示不同阶段的训练噪声图像。实际上,该第三训练噪声图像可以是如前所述的第一训练噪声图像。
然后,在步骤S1030,利用所述第一图像I1和第三训练噪声图像生成第三训练图像T3。在该第三训练噪声图像是如前所述的第一训练噪声图像的情况下,这里的第三训练图像T3与如前所述的第一训练图像T1相同。
在步骤S1040,利用生成神经网络根据所述第三训练图像T3生成输出图像,所述输出图像作为第一样本图像Ra。
接下来,在步骤S1050,从数据集获取第二样本图像Rc,该第二样本图像Rc包含转换特征,所述数据集为预先建立的包含转换特征的图像集合。
在步骤S1060,利用上述鉴别神经网络鉴别所述第一样本图像Ra和所述第二样本图像Rc是否具有转换特征,并输出鉴别标签。应了解,所述第二样本图像Rc天然带有“真”标签,而所述第一样本图像Ra天然带有“假”标签。
最后,在步骤S1070,利用第二损失计算单元根据鉴别标签训练所述鉴别神经网络。
如图11所示,所述第二损失计算单元包括:第二损失计算器和优化器。在所述图像处理方法中,利用利用第二损失计算单元训练所述鉴别神经网络包括:利用第二损失计算器根据所述第一样本图像的鉴别标签和所述第二样本图像的鉴别标签按照第二损失函数计算所述鉴别神经网络的损失值,其中所述第二损失函数包括鉴别神经网络损失函数;利用优化器根据所述鉴别神经网络的损失值优化所述鉴别神经网络的参数,所述参数包括所述鉴别神经网络中卷积层的卷积核和偏置。
所述第一样本图像Ra为利用生成神经网络从效果A转换为效果B得到的输出图像,相当于“假”样本。从数据集获取第二样本图像Rc为具有效果B的“真”样本。利用鉴别神经网络对所述Ra和Rc进行是否具有效果B的判断,输出鉴别标签。
所述第二损失计算函数包括鉴别神经网络损失函数:
L_D=-Ex~Pdata(x)[logD(x)]-Ez~Pz(z)[1-logD(G(z))]
其中,Pdata为使得鉴别神经网络输出为1的图像集合。Pz为生成神经网络的输入图像集合。D为鉴别神经网络,G为生成神经网络。所述鉴别神经网络由第二损失计算器按照L_D计算所述鉴别神经网络的损失值,并利用优化器根据损失值优化所述鉴别神经网络的参数。
本发明实施例提供的图像处理方法中,其在第一图像的RGB三通道中加入了不同的噪声图像,获得输入图像。在进行图像处理过程中,噪声图像可以生成图像细节信息,使得输出的转换图像之间具有多样性,即针对同一幅输入图像,由于引入噪声的不同,转换结果之间也存在差异。
经过训练的所述生成神经网络,具有优化后的参数,可以用于实现目标图像转换处理。此外,本发明中利用第一损失计算单元,结合风格特征和拉普拉斯变换损失训练所述生成神经网络,系统简化,易于训练。其中,利用风格损失函数保证由生成神经网络输出的转换图像间具有多样性。利用拉普拉斯损失函数保证输出的转换图像与输入图像具有一致性,即转换后的图像既具有转换特征,又包括足够的原始图像信息,避免在图像处理过程中丢失大量的原图信息。
本发明实施例还提供一种图像处理装置,其可以实现上述图像处理方法。所述图像处理装置的示意性框图如图12所示,包括生成神经网络模块1202,所述生成神经网络模块可以包括上述生成神经网络。本发明实施例提供的图像处理装置利用生成神经网络模块,对第一图像进行图像转换处理,以输出转换后的第一输出图像。此外,所述图像处理装置还可以包括:训练神经网络模块(未示出),用于根据所述生成神经网络模块的输出图像来训练所述生成神经网络模块。
为使得图像转换结果具有多样性,根据包括第一图像和第一噪声图像的输入图像对所述第一图像进行图像转换处理,第一噪声图像用于生成图像细节信息的噪声。
所述第一图像包括N个通道,N为大于等于1的正整数,在本发明实施例中,例如N可以为3,具体包括第一颜色通道,第二颜色通道和第三颜色通道,在本发明实施例中为RGB通道。所述第一噪声图像包括M个通道,M为大于等于1的正整数,其中,第一噪声图像的各通道各不相同。例如,在本发明实施例中M为3,通过将第一噪声图像的3个通道分别添加至第一图像的RGB通道,获得输入图像。上述获取过程的示意图如图2所示。
所述生成神经网络模块包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块。所述下采样模块包括依次连接的卷积层、下采样层和实例标准化层。所述残差模块包括依次连接的卷积层和实例标准化层。所述上采样模块包括依次连接的上采样层、实例标准化层和卷积层,并且所述上采样模块的个数与所述下采样模块的个数相等。
本发明实施例提供的图像处理装置还包括:训练神经网络模块,用于根据所述生成神经网络模块的输出图像来训练所述生成神经网络模块。
在本发明实施例中,例如,所述第一图像I1具有3个通道,所述第一训练噪声图像具有3个通道,即噪声图像N1、噪声图像N2和噪声图像N3,所述第二训练噪声图像具有3个通道,即噪声图像N4、噪声图像N5和噪声图像N6,其中,所述噪声图像N4、N5和N6各不相同,且不同于所述噪声图像N1、N2和N。
在本发明实施例中,所述生成神经网络模块对所述第一训练图像T1进行图像转换处理,输出第一输出图像Ra,并所述生成神经网络模块对所述第二训练图像T2进行图像转换处理,输出第二输出图像Rb。
在本发明实施例中,所述训练神经网络模块基于第一图像I1、第一输出图像Ra和第二输出图像Rb训练所述生成神经网络模块。
训练所述生成神经网络模块旨在根据生成神经网络模块的处理结果,优化该网络中的参数,使得其可以完成转换目标。所述训练神经网络模块包括:鉴别神经网络模块,用于输出所述第一输出图像Ra是否具有转换特征的鉴别标签;第一损失计算单元,用于根据所述第一图像I1、第一输出图像Ra、第二输出图像Rb和鉴别标签计算所述生成神经网络模块的损失值,优化所述生成神经网络模块的参数。其中所述第一损失计算单元包括:分析网络,用于输出所述第一输出图像、第二输出图像的风格特征;拉普拉斯变换器,用于获得第一图像、第一输出图像和第二输出图像的拉普拉斯变换图像;第一损失计算器,用于根据分析网络提取的风格特征、拉普拉斯变换器输出的拉普拉斯变换结果和所述第一输出图像的鉴别标签按照第一损失函数计算所述生成神经网络模块的损失值;以及优化器,用于根据所述生成神经网络模块的损失值优化所述生成神经网络模块的参数。
用于计算所述生成神经网络模块损失值的第一损失函数包括:风格损失函数,其根据第一输出图像Ra和第二输出图像Rb的风格特征差异计算所述生成神经网络模块的风格损失值。
用于计算所述生成神经网络模块损失值的第一损失函数还包括:拉普拉斯损失函数,其根据第一图像I1、第一输出图像Ra和第二输出图像Rb的拉普拉斯变换结果计算所述生成神经网络模块的拉普拉斯变换损失值。
上述鉴别神经网络模块用于鉴别由生成神经网络模块输出的输出图像是否具有转换特征,其可以包括上述鉴别神经网络。在本发明实施例提供的图像处理装置中,所述输入图像作为第三训练图像T3,所述输出图像作为第一样本图像Ra。所述图像处理装置还包括:从数据集获取第二样本图像Rc;利用上述鉴别神经网络模块鉴别所述第一样本图像Ra和所述第二样本图像Rb是否具有转换特征,输出鉴别标签;利用第二损失计算单元根据鉴别标签训练所述鉴别神经网络模块,优化其参数。该训练旨在使得所述鉴别神经网络模块输出更准确的鉴别标签。其中,所述第二损失计算单元包括:第二损失计算器,用于根据所述第一样本图像Ra的鉴别标签和所述第二样本图像Rc的鉴别标签按照第二损失函数计算所述鉴别神经网络模块的损失值,其中所述第二损失函数包括鉴别神经网络模块损失函数;优化器,用于根据所述鉴别神经网络模块的损失值优化所述鉴别神经网络模块的参数,所述参数包括所述鉴别神经网络模块中卷积层的卷积核和偏置。
经过训练的生成神经网络模块可以按照训练进行图像转换处理,以生成可以够使鉴别神经网络模块输出为“1”的输出图像,即鉴别神经网络模块判断所述输出图像具有转换特征。经过训练的鉴别神经网络模块可以按照训练更准确的判断由生成神经网络模块输出的输出图像是否具有转换特征。
本发明实施例提供的图像处理装置可以实现上述图像处理方法,其根据包括第一图像和第一图像的输入图像对所述第一图像进行图像转换处理。在进行图像处理过程中,噪声图像可以生成图像细节信息,使得输出的转换图像之间具有多样性,即针对同一幅输入图像,由于引入噪声的不同,转换结果之间也存在差异。
经过训练的生成神经网络模块,具有优化后的参数,可以用于实现目标图像转换处理。此外,本发明中利用第一损失计算单元,结合风格特征和拉普拉斯变换进行训练,系统简化,易于训练。其中,利用风格损失函数保证由生成神经网络输出的转换图像间具有多样性。利用拉普拉斯损失函数保证输出的转换图像与输入图像具有一致性,即转换后的图像既具有转换特征,又包括足够的原始图像信息,避免在图像处理过程中丢失大量的原图信息。
本发明实施例还提供了一种图像处理设备,其结构框图如图13所示,包括处理器1302和存储器1304。应当注意,图13中所示的图像处理设备的的结构只是示例性的,而非限制性的,根据实际应用需要,该图像处理装置还可以具有其他组件。
在本发明的实施例中,处理器1302和存储器1304之间可以直接或间接地互相通信。处理器1302和存储器1304等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本发明对网络的类型和功可以在此不作限制。
处理器1302可以控制图像处理装置中的其它组件以执行期望的功能。处理器1302可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器GPU等具有数据处理能力和/或程序执行能力的器件。中央处理器(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上,或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。由于GPU具有强大的图像处理能力。
存储器1304可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。
在存储器1304上可以存储一个或多个计算机可读代码或指令,处理器1302可以运行所述计算机指令,以实现上述图像处理方法。关于图像处理方法的处理过程的详细说明可以参考本发明实施例中提供的图像处理方法的相关描述,不再赘述。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如图像数据集以及应用程序使用和/或产生的各种数据(诸如训练数据)等。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种图像处理方法,包括:
获取包括N个通道的第一图像,N为大于等于1的正整数;
利用生成神经网络对所述第一图像进行图像转换处理,以输出转换后的输出图像,
其中,所述生成神经网络是基于拉普拉斯变换函数训练得到的,
其中,基于不同噪声图像来训练所述生成神经网络,并且基于利用不同噪声图像所生成的所述转换后的不同输出图像之间的差异来训练所述生成神经网络,其中,所述不同输出图像包括第一输出图像和第二输出图像;
其中,训练所述生成神经网络包括:
将所述第一输出图像输入至鉴别神经网络,用于输出所述第一输出图像是否具有转换特征的鉴别标签;
利用第一损失计算单元根据所述第一图像、第一输出图像、第二输出图像和鉴别标签计算所述生成神经网络的损失值,优化所述生成神经网络的参数;
其中,所述第一损失计算单元包括分析网络、拉普拉斯变换器、第一损失计算器和优化器,并且所述利用第一损失计算单元计算所述生成神经网络的损失值包括:
利用分析网络输出所述第一输出图像、第二输出图像的风格特征;
利用拉普拉斯变换器获得第一图像、第一输出图像和第二输出图像的拉普拉斯变换图像;
利用第一损失计算器根据分析网络提取的风格特征、拉普拉斯变换器输出的拉普拉斯变换结果和所述第一输出图像的鉴别标签按照第一损失函数计算所述生成神经网络的损失值;
利用优化器根据所述生成神经网络的损失值优化所述生成神经网络的参数;
其中,所述第一损失函数包括普拉斯变换函数和风格损失函数,并且计算所述生成神经网络的损失值包括:根据第一输出图像的风格特征和第二输出图像的风格特征按照风格损失函数计算所述生成神经网络的风格损失值。
2.根据权利要求1所述的图像处理方法,其中,所述利用生成神经网络对所述第一图像进行图像转换处理包括:
利用生成神经网络基于包括所述第一图像和第一噪声图像的输入图像对所述第一图像进行图像转换处理。
3.根据权利要求2所述的图像处理方法,其中,
所述生成神经网络的输入包括第一噪声图像和第一图像的N个通道,所述第一噪声图像包括M个通道,M为大于等于1的正整数。
4.根据权利要求1所述的图像处理方法,其中,所述生成神经网络包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块,其中:
所述下采样模块包括依次连接的卷积层、下采样层和实例标准化层;所述残差模块包括依次连接的卷积层和实例标准化层;所述上采样模块包括依次连接的上采样层、实例标准化层和卷积层,其中,所述上采样模块的个数与所述下采样模块的个数相等。
5.根据权利要求2所述的图像处理方法,其中,所述输入图像作为第一训练图像,所述第一噪声图像作为第一训练噪声图像,所述转换后的输出图像作为第一输出图像,所述图像处理方法还包括:
获取第二训练图像,其中所述第二训练图像包括第二训练噪声图像和第一图像的信息,其中,所述第二训练噪声图像与所述第一训练噪声图像不相同;
利用所述生成神经网络对所述第二训练图像进行图像转换处理,输出第二输出图像;
基于第一图像、第一输出图像和第二输出图像训练所述生成神经网络。
6.根据权利要求1所述的图像处理方法,其中,计算所述生成神经网络的损失值还包括:根据第一图像、第一输出图像和第二输出图像的拉普拉斯变换结果按照拉普拉斯变换函数计算生成神经网络的拉普拉斯变换损失值。
7.一种图像处理装置,包括:
生成神经网络模块,用于对第一图像进行图像转换处理,以输出转换后的输出图像,其中:
所述生成神经网络模块是基于拉普拉斯变换函数训练得到的;
生成神经网络模块对所述第一图像进行图像转换处理包括:
利用生成神经网络模块基于包括所述第一图像和第一噪声图像的输入图像对所述第一图像进行图像转换处理;
所述生成神经网络模块的输入包括第一噪声图像和第一图像的N个通道,所述第一噪声图像包括M个通道,M为大于等于1的正整数,
其中,基于不同噪声图像来训练所述生成神经网络,并且基于利用不同噪声图像所生成的所述转换后的不同输出图像之间的差异来训练所述生成神经网络,其中,所述不同输出图像包括第一输出图像和第二输出图像;
其中,训练所述生成神经网络包括:
将所述第一输出图像输入至鉴别神经网络,用于输出所述第一输出图像是否具有转换特征的鉴别标签;
利用第一损失计算单元根据所述第一图像、第一输出图像、第二输出图像和鉴别标签计算所述生成神经网络的损失值,优化所述生成神经网络的参数;
其中,所述第一损失计算单元包括:
分析网络,用于输出所述第一输出图像、第二输出图像的风格特征;
拉普拉斯变换器,用于获得第一图像、第一输出图像和第二输出图像的拉普拉斯变换图像;
第一损失计算器,用于根据分析网络提取的风格特征、拉普拉斯变换器输出的拉普拉斯变换结果和所述第一输出图像的鉴别标签按照第一损失函数计算所述生成神经网络模块的损失值;以及
优化器,用于根据所述生成神经网络模块的损失值优化所述生成神经网络模块的参数;
其中,所述第一损失函数还包括普拉斯变换函数和风格损失函数,并且计算所述生成神经网络模块的损失值包括:根据第一输出图像的风格特征和第二输出图像的风格特征按照风格损失函数计算所述生成神经网络模块的风格损失值。
8.根据权利要求7所述的图像处理装置,其中,所述生成神经网络模块包括一个或多个下采样模块、一个或多个残差模块和一个或多个上采样模块,其中:
所述下采样模块包括依次连接的卷积层、下采样层和实例标准化层;所述残差模块包括依次连接的卷积层和实例标准化层;所述上采样模块包括依次连接的上采样层、实例标准化层和卷积层,其中,所述上采样模块的个数与所述下采样模块的个数相等。
9.根据权利要求7所述的图像处理装置,还包括:
训练神经网络模块,用于根据所述生成神经网络模块的输出图像来训练所述生成神经网络模块,
其中,所述输入图像作为第一训练图像,所述第一噪声图像作为第一训练噪声图像,所述输出图像作为第一输出图像,
所述生成神经网络模块还对第二训练图像进行图像转换处理,以输出转换后的第二输出图像,其中,所述第二训练图像包括第二训练噪声图像和第一图像的信息,所述第二训练噪声图像不同于所述第一训练噪声图像;
所述训练神经网络模块基于第一图像、第一输出图像和第二输出图像训练所述生成神经网络模块。
10.根据权利要求7所述的图像处理装置,其中,
计算所述生成神经网络模块的损失值还包括:根据第一图像、第一输出图像和第二输出图像的拉普拉斯变换结果按照拉普拉斯变换函数计算生成神经网络模块的拉普拉斯变换损失值。
11.一种图像处理设备,包括:
一个或多个处理器;
一个或多个存储器,
其中所述存储器存储了计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时执行权利要求1-6中的任一项所述的图像处理方法,或实现权利要求7-10中的任一项所述的图像处理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711099988.1A CN107730474B (zh) | 2017-11-09 | 2017-11-09 | 图像处理方法、处理装置和处理设备 |
US15/921,961 US10706504B2 (en) | 2017-11-09 | 2018-03-15 | Image processing methods and image processing devices |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711099988.1A CN107730474B (zh) | 2017-11-09 | 2017-11-09 | 图像处理方法、处理装置和处理设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107730474A CN107730474A (zh) | 2018-02-23 |
CN107730474B true CN107730474B (zh) | 2022-02-22 |
Family
ID=61214203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711099988.1A Active CN107730474B (zh) | 2017-11-09 | 2017-11-09 | 图像处理方法、处理装置和处理设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10706504B2 (zh) |
CN (1) | CN107730474B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11132529B2 (en) * | 2016-11-16 | 2021-09-28 | Ventana Medical Systems, Inc. | Convolutional neural networks for locating objects of interest in images of biological samples |
EP3637272A4 (en) * | 2017-06-26 | 2020-09-02 | Shanghai Cambricon Information Technology Co., Ltd | DATA-SHARING SYSTEM AND RELATED DATA-SHARING PROCESS |
CN109522254B (zh) * | 2017-10-30 | 2022-04-12 | 上海寒武纪信息科技有限公司 | 运算装置及方法 |
CN108564127B (zh) * | 2018-04-19 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备及存储介质 |
CN110555808B (zh) * | 2018-05-31 | 2022-05-31 | 杭州海康威视数字技术股份有限公司 | 一种图像处理方法、装置、设备及机器可读存储介质 |
US10672174B2 (en) | 2018-06-28 | 2020-06-02 | Adobe Inc. | Determining image handle locations |
US10621764B2 (en) * | 2018-07-05 | 2020-04-14 | Adobe Inc. | Colorizing vector graphic objects |
US10949951B2 (en) * | 2018-08-23 | 2021-03-16 | General Electric Company | Patient-specific deep learning image denoising methods and systems |
CN110956575B (zh) * | 2018-09-26 | 2022-04-12 | 京东方科技集团股份有限公司 | 转变图像风格的方法和装置、卷积神经网络处理器 |
CN112823379A (zh) * | 2018-10-10 | 2021-05-18 | Oppo广东移动通信有限公司 | 用于训练机器学习模型的方法和装置、用于视频风格转移的装置 |
CN109766895A (zh) | 2019-01-03 | 2019-05-17 | 京东方科技集团股份有限公司 | 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法 |
JP2022525552A (ja) * | 2019-03-18 | 2022-05-17 | グーグル エルエルシー | 高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン |
CN111724309B (zh) * | 2019-03-19 | 2023-07-14 | 京东方科技集团股份有限公司 | 图像处理方法及装置、神经网络的训练方法、存储介质 |
JP7269778B2 (ja) * | 2019-04-04 | 2023-05-09 | 富士フイルムヘルスケア株式会社 | 超音波撮像装置、および、画像処理装置 |
US10489936B1 (en) * | 2019-04-29 | 2019-11-26 | Deep Render Ltd. | System and method for lossy image and video compression utilizing a metanetwork |
CN110139147B (zh) * | 2019-05-20 | 2021-11-19 | 深圳先进技术研究院 | 一种视频处理方法、系统、移动终端、服务器及存储介质 |
CN111275055B (zh) * | 2020-01-21 | 2023-06-06 | 北京市商汤科技开发有限公司 | 网络训练方法及装置、图像处理方法及装置 |
CN111489287B (zh) * | 2020-04-10 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 图像转换方法、装置、计算机设备和存储介质 |
US11436703B2 (en) * | 2020-06-12 | 2022-09-06 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptive artificial intelligence downscaling for upscaling during video telephone call |
CN112055249B (zh) * | 2020-09-17 | 2022-07-08 | 京东方科技集团股份有限公司 | 一种视频插帧方法及装置 |
CN112232485B (zh) * | 2020-10-15 | 2023-03-24 | 中科人工智能创新技术研究院(青岛)有限公司 | 漫画风格图像转换模型的训练方法、图像生成方法及装置 |
CN112767252B (zh) * | 2021-01-26 | 2022-08-02 | 电子科技大学 | 一种基于卷积神经网络的图像超分辨率重建方法 |
CN113744158A (zh) * | 2021-09-09 | 2021-12-03 | 讯飞智元信息科技有限公司 | 图像生成方法、装置、电子设备和存储介质 |
CN114463805B (zh) * | 2021-12-28 | 2022-11-15 | 北京瑞莱智慧科技有限公司 | 深度伪造检测方法、装置、存储介质及计算机设备 |
CN116703727B (zh) * | 2023-08-03 | 2024-01-02 | 芯动微电子科技(珠海)有限公司 | 一种神经网络中图像缩放优化方法与装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122826A (zh) * | 2017-05-08 | 2017-09-01 | 京东方科技集团股份有限公司 | 用于卷积神经网络的处理方法和系统、和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10198624B2 (en) * | 2016-02-18 | 2019-02-05 | Pinscreen, Inc. | Segmentation-guided real-time facial performance capture |
US11593632B2 (en) * | 2016-12-15 | 2023-02-28 | WaveOne Inc. | Deep learning based on image encoding and decoding |
CN106778928B (zh) * | 2016-12-21 | 2020-08-04 | 广州华多网络科技有限公司 | 图像处理方法及装置 |
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
CN107171932B (zh) * | 2017-04-27 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 一种图片风格转换方法、装置及系统 |
CN107277391B (zh) * | 2017-06-30 | 2020-06-23 | 北京奇虎科技有限公司 | 图像转换网络处理方法、服务器、计算设备及存储介质 |
CN107330852A (zh) * | 2017-07-03 | 2017-11-07 | 深圳市唯特视科技有限公司 | 一种基于实时零点图像操作网络的图像处理方法 |
-
2017
- 2017-11-09 CN CN201711099988.1A patent/CN107730474B/zh active Active
-
2018
- 2018-03-15 US US15/921,961 patent/US10706504B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122826A (zh) * | 2017-05-08 | 2017-09-01 | 京东方科技集团股份有限公司 | 用于卷积神经网络的处理方法和系统、和存储介质 |
Non-Patent Citations (2)
Title |
---|
Diversified Texture Synthesis with Feed-forward Networks;Yijun Li et al.;《arXiv》;20170305;摘要、第3节 * |
Laplacian-Steered Neural Style Transfer;Shaohua Li et al.;《arXiv》;20170731;第3节 * |
Also Published As
Publication number | Publication date |
---|---|
US20190139191A1 (en) | 2019-05-09 |
CN107730474A (zh) | 2018-02-23 |
US10706504B2 (en) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107730474B (zh) | 图像处理方法、处理装置和处理设备 | |
CN107767408B (zh) | 图像处理方法、处理装置和处理设备 | |
CN107767343B (zh) | 图像处理方法、处理装置和处理设备 | |
CN113011499B (zh) | 一种基于双注意力机制的高光谱遥感图像分类方法 | |
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
CN111582225B (zh) | 一种遥感图像场景分类方法及装置 | |
CN111192292A (zh) | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 | |
KR20200086581A (ko) | 뉴럴 네트워크 양자화를 위한 방법 및 장치 | |
CN109754357B (zh) | 图像处理方法、处理装置以及处理设备 | |
US20210182687A1 (en) | Apparatus and method with neural network implementation of domain adaptation | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN113298096B (zh) | 训练零样本分类模型的方法、系统、电子设备及存储介质 | |
Cui et al. | Dual-triple attention network for hyperspectral image classification using limited training samples | |
CN113435531A (zh) | 零样本图像分类方法、系统、电子设备及存储介质 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
KR20230013995A (ko) | 공정 시뮬레이션 모델 생성 방법 및 장치 | |
CN113674383A (zh) | 生成文本图像的方法及装置 | |
US20240144447A1 (en) | Saliency maps and concept formation intensity for diffusion models | |
CN116912268A (zh) | 一种皮肤病变图像分割方法、装置、设备及存储介质 | |
Yu-Dong et al. | Image Quality Predictor with Highly Efficient Fully Convolutional Neural Network | |
Westphal | Developing a Neural Network Model for Semantic Segmentation | |
KR20220117598A (ko) | 유전자 발현량 예측 방법 및 장치 | |
CN117635418A (zh) | 生成对抗网络的训练方法、双向图像风格转换方法和装置 | |
CN117935259A (zh) | 一种多模态遥感图像分割装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |