CN117218034A - 一种图像增强方法、装置、电子设备及存储介质 - Google Patents
一种图像增强方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117218034A CN117218034A CN202311301636.5A CN202311301636A CN117218034A CN 117218034 A CN117218034 A CN 117218034A CN 202311301636 A CN202311301636 A CN 202311301636A CN 117218034 A CN117218034 A CN 117218034A
- Authority
- CN
- China
- Prior art keywords
- noise vector
- image
- random noise
- module
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 173
- 238000013507 mapping Methods 0.000 claims abstract description 46
- 238000005070 sampling Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 21
- 238000003709 image segmentation Methods 0.000 claims description 18
- 230000002708 enhancing effect Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 18
- 238000010606 normalization Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 230000008485 antagonism Effects 0.000 description 5
- 239000003623 enhancer Substances 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000003211 malignant effect Effects 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 210000000481 breast Anatomy 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000010979 ruby Substances 0.000 description 2
- 229910001750 ruby Inorganic materials 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供一种图像增强方法、装置、电子设备及存储介质,该方法包括:获取预设的类别信息、第一随机噪声向量和第二随机噪声向量;使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码;使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,获得增强的生成图像。在上述方案的实现过程中,通过使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码,并使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,由于生成对抗网络能够学习到潜在的数据分布信息,从而有效地提高上采样的生成图像的质量。
Description
技术领域
本申请涉及图像处理和图像增强的技术领域,具体而言,涉及一种图像增强方法、装置、电子设备及存储介质。
背景技术
图像增强,是指将原来不清晰的图像变得清晰或者强调某些关注的特征,抑制非关注的特征,进而改善图像质量、丰富信息量,加强图像判读和识别效果的图像处理方法。
目前,为了增加神经网络模型的训练数据集,通常对原始图像进行图像增强的方式都是采用随机方式进行的,这些随机方式包括:翻转变换(flip)、缩放变换(zoom)、平移变换(shift)、尺度变换(scale)、对比度变换(contrast)、噪声(noise)添加和随机裁切等随机方式进行图像增强。然而,在具体的实施过程中发现,采用随机方式对原始图像进行图像增强生成的图像质量较差。
发明内容
本申请实施例的目的在于提供一种图像增强方法、装置、电子设备及存储介质,用于改善对原始图像进行图像增强生成的图像质量较差的问题。
本申请实施例提供了一种图像增强方法,包括:获取预设的类别信息、第一随机噪声向量和第二随机噪声向量;使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码;使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,获得增强的生成图像。在上述方案的实现过程中,通过使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码,并使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,由于生成对抗网络能够学习到潜在的数据分布信息,从而有效地提高上采样的生成图像的质量。
可选地,在本申请实施例中,使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,包括:对第一随机噪声向量进行归一化,获得归一化后的第一噪声向量;使用映射网络模块对类别信息和归一化后的第一噪声向量进行融合和解耦,获得隐藏空间编码。在上述方案的实现过程中,通过对第一随机噪声向量进行归一化,并使用映射网络模块对类别信息和归一化后的第一噪声向量进行融合和解耦,更好地模拟了真实世界的图像分布情况,有效地提高生成图像的质量。
可选地,在本申请实施例中,使用映射网络模块对类别信息和归一化后的第一噪声向量进行融合和解耦,包括:使用映射网络模块中的一个全连接层对类别信息和归一化后的第一噪声向量进行融合,获得融合后的特征向量;使用映射网络模块中的至少一个全连接层对融合后的特征向量进行解耦,获得隐藏空间编码。在上述方案的实现过程中,通过使用映射网络模块中的一个全连接层对类别信息和归一化后的第一噪声向量进行融合,并使用映射网络模块中的至少一个全连接层对融合后的特征向量进行解耦,更好地模拟了真实世界的图像分布情况,有效地提高生成图像的质量。
可选地,在本申请实施例中,使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,包括:对第二随机噪声向量进行归一化,获得归一化后的第二噪声向量;使用生成器模块中的上采样卷积层对隐藏空间编码和归一化后的第二随机噪声向量进行上采样增强,获得生成图像。在上述方案的实现过程中,通过对第二随机噪声向量进行归一化,并使用生成器模块中的上采样卷积层对隐藏空间编码和归一化后的第二随机噪声向量进行上采样增强,更好地模拟了真实世界的图像分布情况,有效地提高上采样的生成图像的质量。
可选地,在本申请实施例中,使用生成器模块中的上采样卷积层对隐藏空间编码和归一化后的第二随机噪声向量进行上采样增强,包括:将多个相同的隐藏空间编码和多个不同的第二随机噪声向量分别输入生成器模块中的多个上采样卷积层,以使多个上采样卷积层进行上采样增强;其中,隐藏空间编码的数量、第二随机噪声向量的数量与多个上采样卷积层的数量是相同的。在上述方案的实现过程中,通过将多个相同的隐藏空间编码和多个不同的第二随机噪声向量分别输入生成器模块中的多个上采样卷积层,从而使得生成对抗网络在生成图像时仅关注有意义图像区域,而非无意义的图像区域,更好地模拟了真实世界的图像分布情况,有效地提高生成图像的质量。
可选地,在本申请实施例中,在获得增强的生成图像之后,还包括:使用生成对抗网络的判别器模块对生成图像进行下采样,获得下采样特征图;使用生成对抗网络的全连接层和激活函数层对隐藏空间编码与下采样特征图进行处理,获得生成图像为真实图像的概率。在上述方案的实现过程中,通过使用生成对抗网络的判别器模块对生成图像进行下采样,并使用生成对抗网络的全连接层和激活函数层对隐藏空间编码与下采样特征图进行处理,从而更好地模拟了真实世界的图像分布情况,有效地提高了判别器模块确定图像是否是真实图像的概率。
可选地,在本申请实施例中,在获得增强的生成图像之后,还包括:使用生成图像对图像分类网络进行训练,获得图像分类模型。在上述方案的实现过程中,通过使用生成图像对图像分类网络进行训练,获得图像分类模型,从而改善了样本数据不均衡问题,有效地提高了图像分类模型对图像进行分类的鲁棒性能。
可选地,在本申请实施例中,在获得增强的生成图像之后,还包括:使用生成图像对图像分割网络进行训练,获得图像分割模型。在上述方案的实现过程中,通过使用生成图像对图像分割网络进行训练,获得图像分割模型,从而改善了样本数据不均衡问题,有效地提高了图像分割模型对图像进行分割的鲁棒性能。
本申请实施例还提供了一种图像增强装置,包括:噪声向量获取模块,用于获取预设的类别信息、第一随机噪声向量和第二随机噪声向量;空间编码获得模块,用于使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码;生成图像增强模块,用于使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,获得增强的生成图像。
可选地,在本申请实施例中,空间编码获得模块,包括:噪声向量获得子模块,用于对第一随机噪声向量进行归一化,获得归一化后的第一噪声向量;向量融合解耦子模块,用于使用映射网络模块对类别信息和归一化后的第一噪声向量进行融合和解耦,获得隐藏空间编码。
可选地,在本申请实施例中,向量融合解耦子模块,包括:特征向量获得单元,用于使用映射网络模块中的一个全连接层对类别信息和归一化后的第一噪声向量进行融合,获得融合后的特征向量;特征向量解耦单元,用于使用映射网络模块中的至少一个全连接层对融合后的特征向量进行解耦,获得隐藏空间编码。
可选地,在本申请实施例中,生成图像增强模块,包括:噪声向量归一化子模块,用于对第二随机噪声向量进行归一化,获得归一化后的第二噪声向量;向量上采样增强子模块,用于使用生成器模块中的上采样卷积层对隐藏空间编码和归一化后的第二随机噪声向量进行上采样增强,获得生成图像。
可选地,在本申请实施例中,向量上采样增强子模块,具体用于:将多个相同的隐藏空间编码和多个不同的第二随机噪声向量分别输入生成器模块中的多个上采样卷积层,以使多个上采样卷积层进行上采样增强;其中,隐藏空间编码的数量、第二随机噪声向量的数量与多个上采样卷积层的数量是相同的。
可选地,在本申请实施例中,图像增强装置,还包括:生成图像下采样模块,用于使用生成对抗网络的判别器模块对生成图像进行下采样,获得下采样特征图;下采样特征处理模块,用于使用生成对抗网络的全连接层和激活函数层对隐藏空间编码与下采样特征图进行处理,获得生成图像为真实图像的概率。
可选地,在本申请实施例中,图像增强装置,还包括:分类网络训练模块,用于使用生成图像对图像分类网络进行训练,获得图像分类模型。
可选地,在本申请实施例中,图像增强装置,还包括:分割网络训练模块,用于使用生成图像对图像分割网络进行训练,获得图像分割模型。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请实施例中的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的图像增强方法的流程示意图;
图2示出的本申请实施例提供的生成对抗网络在推理阶段中处理数据的流程示意图;
图3示出的本申请实施例提供的使用生成图像训练生成对抗网络的流程示意图;
图4示出的本申请实施例提供的生成对抗网络在训练阶段中处理数据的流程示意图;
图5示出的本申请实施例提供的图像增强装置的结构示意图;
图6示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请实施例中的附图仅起到说明和描述的目的,并不用于限定本申请实施例的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请实施例中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请实施例内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请实施例的一部分,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围,而是仅仅表示本申请实施例的选定实施例。
可以理解的是,本申请实施例中的“第一”“第二”用于区别类似的对象。本领域技术人员可以理解“第一”“第二”等字样并不对数量和执行次序进行限定,并且“第一”“第二”等字样也并不限定一定不同。在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组)。
在介绍本申请实施例提供的图像增强方法之前,先介绍本申请实施例中所涉及的一些概念:
生成对抗网络(Generative Adversarial Network,GAN),又被称为生成对抗式网络,是机器学习中的一种学习范式,通过让两个神经网络相互博弈的方式进行学习;生成对抗网络由一个生成器(generator)与一个鉴别器(discriminator)组成,生成器从潜在空间(latent space)中随机取样作为输入数据,生成器的输出结果需要尽量模仿训练集中的真实样本(例如真实图像)。
随机噪声向量(Random Noise Vector),是指随机生成的噪声值所构成的向量,可以是使用标准高斯函数生成的标准高斯分布的噪声向量。
需要说明的是,本申请实施例提供的图像增强方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
下面介绍该图像增强方法适用的应用场景,这里的应用场景包括但不限于:在样本图像(例如微生物图像、海底图像或者乳腺癌症等疾病超声图像)较难获取的模型训练领域中,可以使用该图像增强方法对图像分类模型的样本数据集中的图像数据进行增强,或者,使用该图像增强方法对图像分割模型的样本数据集中的图像数据进行增强等,可以有效地改善样本数据集中的图像数据数量有限的问题,也改善了采用随机方式对原始图像进行图像增强导致图像失真或者质量较差的问题。可以理解的是,由于上述图像增强方法中的生成对抗网络能够学习到潜在的数据分布信息,从而使得能够提高生成对抗网络增强的生成图像的质量。
请参见图1示出的本申请实施例提供的图像增强方法的流程示意图;本申请实施例提供了一种图像增强方法,包括:
步骤S110:获取预设的类别信息、第一随机噪声向量和第二随机噪声向量。
类别信息(Class Infomation),又被称为类别条件信息,是指预先设置的图像类别信息,即想要生成图像的所属类别信息,例如:微生物图像的类别信息包括:病毒细胞图像和细菌图像等,或者,海底图像的类别信息包括:海底植物和海底动物,又或者,肿瘤图像的类别信息包括:良性和恶性。
可以理解的是,上述的第一随机噪声向量可以是使用标准高斯函数生成的一个或者多个标准高斯分布向量,上述的第二随机噪声向量可以是使用标准高斯函数生成的至少一个标准高斯分布向量,第一随机噪声向量和第二随机噪声向量均用于增强获得生成图像。因为第一随机噪声向量和第二随机噪声向量是两种不相关的噪声向量,即两种独立的随机生成的噪声向量,这两种独立的随机噪声向量能够增加获得的生成图像的多样性和差异性,所以,使用两种独立的随机噪声向量增强的生成图像来训练模型,能够提高模型的性能效果。
步骤S120:使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码。
可以理解的是,上述的生成对抗网络(GAN)可以包括:映射网络(MappingNetwork)模块、生成器(Generator)模块和判别器(Discriminator)模块;上述的映射网络模块用于对类别信息和第一随机噪声向量进行融合和解耦,生成器模块用于对隐藏空间编码和第二随机噪声向量进行上采样增强,判别器模块用于确定输入图像为真实图像的概率,若输入图像是真实图像,那么判别器模块输出的概率理论上可以是100%,若输入图像是生成器生成的图像,那么判别器模块输出的概率理论上可以是0%。
步骤S130:使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,获得增强的生成图像。
可以理解的是,上述生成对抗网络中的映射网络模块和生成器模块可以在网络模型的推理阶段中使用,当然,映射网络模块和生成器模块也可以在网络模型的训练阶段中使用。然而,生成对抗网络中的判别器模块可以在网络模型的训练阶段中使用,可以不在网络模型的推理阶段中使用。
在上述方案的实现过程中,通过使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码,并使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,由于生成对抗网络能够学习到潜在的数据分布信息,更好地捕捉数据中的复杂关系和结构,更好地模拟了真实世界的图像分布情况,有效地提高上采样的生成图像的质量。
可选地,在使用生成对抗网络之前,还可以使用训练数据图像来对生成对抗网络进行训练,例如:使用样本数据集中的训练数据图像对生成对抗网络进行训练,其中,样本数据集中可以包括若干患者的良恶性结节乳腺超声图像作为训练数据图像,且每张良恶性结节乳腺超声图像都有与其对应的病理诊断结果作为训练标签。在使用训练数据来对生成对抗网络进行训练之后,还可以使用生成对抗网络产生的生成图像与训练数据图像进行特征空间距离比较,例如:计算生成对抗网络产生的生成图像与训练数据图像之间的特征空间距离,此处的特征空间距离可以是特征向量之间的余弦距离、欧氏距离(EuclideanDistance)、汉明距离(Hamming Distance)等等;若特征空间距离大于预设阈值,则确定该生成图像的质量较差,若特征空间距离小于或等于预设阈值,则确定该生成图像的质量较好。
请参见图2示出的本申请实施例提供的生成对抗网络在推理阶段中处理数据的流程示意图;在生成对抗网络中的映射网络模块可以包括多个全连接层(Fully ConnectedLayer),图中的“×N”就表示多个全连接层,例如:映射网络模块包括9个全连接层。同理地,在生成对抗网络中的生成器模块可以包括多个上采样卷积层(Upsampling ConvolutionalLayer),图中的“×N”就表示多个全连接层,例如:生成器模块包括8个上采样卷积层。
作为上述步骤S120的一种可选实施方式,使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦的实施方式可以包括:
步骤S121:对第一随机噪声向量进行归一化,获得归一化后的第一噪声向量。
步骤S122:使用映射网络模块对类别信息和归一化后的第一噪声向量进行融合和解耦,获得隐藏空间编码。
上述步骤S121至步骤S122的实施方式例如:使用预设编程语言编译或者解释的可执行程序对第一随机噪声向量进行归一化,使得输入的多个第一随机噪声向量均缩放到[0,1]之间,以便于输入多个第一随机噪声向量的规范化,获得归一化后的第一噪声向量;其中,可以使用的编程语言例如:C、C++、Java、BASIC、JavaScript、LISP、Shell、Perl、Ruby、Python和PHP等等。然后,获取上面的类别信息,将类别信息和归一化后的第一噪声向量输入到映射网络模块中,经过映射网络模块的多个全连接层进行融合和解耦处理,从而获得隐藏空间编码。
作为上述步骤S122的一种可选实施方式,使用映射网络模块对类别信息和归一化后的第一噪声向量进行融合和解耦的实施方式可以包括:
步骤S122a:使用映射网络模块中的一个全连接层对类别信息和归一化后的第一噪声向量进行融合,获得融合后的特征向量。
步骤S122b:使用映射网络模块中的至少一个全连接层对融合后的特征向量进行解耦,获得隐藏空间编码。
上述步骤S122a至步骤S122b的实施方式例如:假设上述的映射网络模块包括9个全连接层,那么可以先获取上面的类别信息,再使用第1个全连接层对类别信息和归一化后的第一噪声向量进行融合,获得融合后的特征向量。然后,将融合后的特征向量输入到映射网络模块的第2个全连接层至第9个全连接层(即剩余的8个全连接层)中,依次经过第2个全连接层至第9个全连接层对融合后的特征向量进行解耦处理,从而获得隐藏空间编码。
作为上述步骤S130的一种可选实施方式,使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强的实施方式可以包括:
步骤S131:对第二随机噪声向量进行归一化,获得归一化后的第二噪声向量。
上述步骤S131的实施方式例如:使用预设编程语言编译或者解释的可执行程序对第二随机噪声向量进行归一化,使得输入的多个第一随机噪声向量均缩放到[0,1]之间,以便于输入多个第二随机噪声向量的规范化,获得归一化后的第二噪声向量;其中,可以使用的编程语言例如:C、C++、Java、BASIC、JavaScript、LISP、Shell、Perl、Ruby、Python和PHP等等。
步骤S132:使用生成器模块中的上采样卷积层对隐藏空间编码和归一化后的第二随机噪声向量进行上采样增强,获得生成图像。
作为上述步骤S132的其中一种可选实施方式,上述的第二随机噪声向量可以是多个随机噪声向量(例如8个随机噪声向量),使用生成器模块中的上采样卷积层对隐藏空间编码和归一化后的第二随机噪声向量进行上采样增强的实施方式可以包括:
步骤S132a:将多个相同的隐藏空间编码和多个不同的第二随机噪声向量分别输入生成器模块中的多个上采样卷积层,以使多个上采样卷积层中的每个上采样卷积层根据一个隐藏空间编码和一个归一化后的第二随机噪声向量进行上采样增强。
上述步骤S131的实施方式例如:假设生成器模块包括8个上采样卷积层,可以将隐藏空间编码进行复制,从而获得8个相同的隐藏空间编码,还可以随机生成8个不同的第二随机噪声。然后,将8个相同的隐藏空间编码和8个不同的第二随机噪声向量分别输入生成器模块中的8个上采样卷积层,以使8个上采样卷积层中的每个上采样卷积层根据一个隐藏空间编码和一个归一化后的第二随机噪声向量进行上采样增强。
可以理解的是,上述的隐藏空间编码的数量、第二随机噪声向量的数量与多个上采样卷积层的数量是相同的,上述的第二随机噪声向量是指多个噪声向量,且第二随机噪声向量的数量可以与生成器模块中的多个上采样卷积层的数量是相同的。
上述步骤S132的另一种可选实施方式,上述的第二随机噪声向量也可以是一个随机噪声向量,使用生成器模块中的上采样卷积层对隐藏空间编码和归一化后的第二随机噪声向量进行上采样增强的实施方式可以包括:
上述步骤S132的另一种实施方式例如:假设生成器模块包括8个上采样卷积层,可以将一个隐藏空间编码和一个归一化后的第二随机噪声向量依次输入至8个上采样卷积层中,使得隐藏空间编码和归一化后的第二随机噪声向量进行叠加上采样,从而逐步地增加图像的像素分辨率,最终达到指定的图像分辨率时,即可获得上述的生成图像。
请参见图3示出的本申请实施例提供的使用生成图像训练生成对抗网络的流程示意图;作为上述图像增强方法的一种可选实施方式,在获得增强的生成图像之后,还可以预测生成图像是真实图像的概率,该实施方式可以包括:
步骤S210:获取预设的类别信息、第一随机噪声向量和第二随机噪声向量。
步骤S220:使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码。
步骤S230:使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,获得增强的生成图像。
其中,上述步骤S210至步骤S230的实施原理和实施方式与步骤S110至步骤S130的实施原理和实施方式是类似的,因此,这里不再说明其实施原理和实施方式,可以参考对步骤S110至步骤S130的描述。
请参见图4示出的本申请实施例提供的生成对抗网络在训练阶段中处理数据的流程示意图;在生成对抗网络中的判别器模块可以包括多个残差模块(ResBlock),例如:判别器模块包括7个残差模块或者8个残差模块,此处的残差模块可以具体采用ResNet分类网络等等。上述的生成对抗网络在训练阶段中,还可以包括全连接层和激活函数层(Sigmoid),此处的全连接层和激活函数层用于确定判别器输出的下采样特征图是真实图像的概率。
步骤S240:使用生成对抗网络的判别器模块对生成图像进行下采样,获得下采样特征图。
上述步骤S240的实施方式例如:假设上述生成对抗网络的判别器模块包括8个残差模块,可以使用判别器模块中的8个残差模块依次对生成图像或者样本数据集中的真实图像进行下采样(在生成对抗网络的训练过程中可以按一定的比例来分配下采样的图像,例如:40%的概率对生成图像进行下采样,60%的概率对真实图像进行下采样等等),此处的残差模块可以在空间维度下采样至128倍,同时增加特征通道数,从而获得下采样特征图。
步骤S250:使用生成对抗网络的全连接层和激活函数层对隐藏空间编码与下采样特征图进行处理,获得生成图像为真实图像的概率。
上述步骤S250的实施方式例如:使用生成对抗网络的全连接层对隐藏空间编码与下采样特征图进行全连接处理,获得全连接特征图,然后,使用激活函数层(例如Sigmoid函数层)对全连接特征图进行激活处理,获得生成图像为真实图像的概率。
可以理解的是,如果在生成对抗网络的训练过程中选用的是样本数据集中的真实图像来对生成对抗网络进行训练,那么可以使用生成对抗网络的判别器模块对真实图像进行下采样,获得下采样特征图。然后,使用生成对抗网络的全连接层和激活函数层对隐藏空间编码与下采样特征图进行处理,获得真实图像为真实图像的概率。
可选地,在生成对抗网络的训练过程中,还可以利用损失函数来计算上述生成对抗网络的损失值,并根据该损失值来训练生成对抗网络。上述生成器模块的损失函数可以包括两个部分:第一部分是在生成图像经过判别器输出的概率值之后,对该概率值取对数得到的主要损失部分,第二部分是根据生成图像和真实图像之间的欧式距离差距计算得到的梯度惩罚正则项。在生成对抗网络的训练过程中,还可以在每经过四组主要损失的梯度更新后,将上述的梯度惩罚正则项添加到损失值中,并对生成对抗网络进行一次梯度更新。同理地,上述的判别器模块的损失函数也可以包括两个部分:第一部分是生成图像经过判别器模块输出的概率值,可以取该概率值的对数后得到主要损失部分,第二部分是真实图像经过判别器模块输出的概率值,可以取该概率值的对数得到真实图像的logits值,同时将该logits值经过梯度求导后得到一个R1梯度惩罚正则项。可以在判别器模块每经过多次(例如16次)主要损失梯度更新后,将真实图像的logits值和R1梯度惩罚正则项进行叠加,获得叠加后的值,并利用叠加后的值对生成对抗网络进行一次梯度更新。
可选地,在使用生成对抗网络的判别器模块对生成图像进行下采样之前,还可以先对生成图像进行预处理,例如:对生成图像中无意义的部分区域图像(例如黑色边框或相关文字,以及不包括目标对象的区域)进行裁剪,从而获得具有意义的部分区域图像,以减小生成对抗网络处理或学习到图像中的无意义特征。又例如:将生成图像统一裁剪为符合需要训练的网络模型(例如生成对抗网络模型、图像分类模型或者图像分割模型等)的输入要求,从而提高了图像的规范性。又例如:使用图形变换、颜色变换、图像翻转或90度旋转等手段对生成图像进行预处理,以增加用于训练模型的生成图像数量,从而改善训练的模型过拟合的情况;或者,使用自适应增益控制数据增强的比例来对生成图像进行增强,以免数据泄露影响生成图像的可靠性。
作为上述图像增强方法的一种可选实施方式,在获得增强的生成图像之后,还可以包括:
步骤S260:使用生成图像对图像分类网络进行训练,获得图像分类模型。
在上述方案的实现过程中,通过使用生成对抗网络增强获得的生成图像来对图像分类网络进行训练,从而有效地增加了用于训练图像分类网络的样本图像分布情况,提高了图像分类网络的模型泛化性能。
作为上述图像增强方法的一种可选实施方式,在获得增强的生成图像之后,还可以包括:
步骤S270:使用生成图像对图像分割网络进行训练,获得图像分割模型。
在上述方案的实现过程中,通过使用生成对抗网络增强获得的生成图像来对图像分割网络进行训练,从而有效地增加了用于训练图像分割网络的样本图像分布情况,提高了图像分割网络的模型泛化性能。
可选地,在具体实践过程中,电子设备还可以使用上述的生成图像来对目标检测神经网络进行训练,获得目标检测模型。此处的目标检测神经网络包括但不限于:特征融合单点多盒检测器(Feature Fusion Single Shot multi-box Detector,FSSD)和YOLO等神经网络,以及RCNN、fast RCNN和faster RCNN系列的神经网络。
请参见图5示出的本申请实施例提供的图像增强装置的结构示意图;本申请实施例提供了一种图像增强装置300,包括:
噪声向量获取模块310,用于获取预设的类别信息、第一随机噪声向量和第二随机噪声向量。
空间编码获得模块320,用于使用生成对抗网络中的映射网络模块对类别信息和第一随机噪声向量进行融合和解耦,获得隐藏空间编码。
生成图像增强模块330,用于使用生成对抗网络的生成器模块对隐藏空间编码和第二随机噪声向量进行上采样增强,获得增强的生成图像。
可选地,在本申请实施例中,空间编码获得模块,包括:
噪声向量获得子模块,用于对第一随机噪声向量进行归一化,获得归一化后的第一噪声向量。
向量融合解耦子模块,用于使用映射网络模块对类别信息和归一化后的第一噪声向量进行融合和解耦,获得隐藏空间编码。
可选地,在本申请实施例中,向量融合解耦子模块,包括:
特征向量获得单元,用于使用映射网络模块中的一个全连接层对类别信息和归一化后的第一噪声向量进行融合,获得融合后的特征向量。
特征向量解耦单元,用于使用映射网络模块中的至少一个全连接层对融合后的特征向量进行解耦,获得隐藏空间编码。
可选地,在本申请实施例中,生成图像增强模块,包括:
噪声向量归一化子模块,用于对第二随机噪声向量进行归一化,获得归一化后的第二噪声向量。
向量上采样增强子模块,用于使用生成器模块中的上采样卷积层对隐藏空间编码和归一化后的第二随机噪声向量进行上采样增强,获得生成图像。
可选地,在本申请实施例中,向量上采样增强子模块,具体用于:将多个相同的隐藏空间编码和多个不同的第二随机噪声向量分别输入生成器模块中的多个上采样卷积层,以使多个上采样卷积层进行上采样增强;其中,隐藏空间编码的数量、第二随机噪声向量的数量与多个上采样卷积层的数量是相同的。
可选地,在本申请实施例中,图像增强装置,还包括:
生成图像下采样模块,用于使用生成对抗网络的判别器模块对生成图像进行下采样,获得下采样特征图。
下采样特征处理模块,用于使用生成对抗网络的全连接层和激活函数层对隐藏空间编码与下采样特征图进行处理,获得生成图像为真实图像的概率。
可选地,在本申请实施例中,图像增强装置,还包括:
分类网络训练模块,用于使用生成图像对图像分类网络进行训练,获得图像分类模型。
可选地,在本申请实施例中,图像增强装置,还包括:
分割网络训练模块,用于使用生成图像对图像分割网络进行训练,获得图像分割模型。
应理解的是,该装置与上述的图像增强方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图6示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种计算机可读存储介质430,该计算机可读存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。其中,计算机可读存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。此外,在本说明书的描述中,参考术语“一个实施例”“一些实施例”“示例”“具体示例”“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种图像增强方法,其特征在于,包括:
获取预设的类别信息、第一随机噪声向量和第二随机噪声向量;
使用生成对抗网络中的映射网络模块对所述类别信息和所述第一随机噪声向量进行融合和解耦,获得隐藏空间编码;
使用所述生成对抗网络的生成器模块对所述隐藏空间编码和所述第二随机噪声向量进行上采样增强,获得增强的生成图像。
2.根据权利要求1所述的方法,其特征在于,所述使用生成对抗网络中的映射网络模块对所述类别信息和所述第一随机噪声向量进行融合和解耦,包括:
对所述第一随机噪声向量进行归一化,获得归一化后的第一噪声向量;
使用所述映射网络模块对所述类别信息和所述归一化后的第一噪声向量进行融合和解耦,获得所述隐藏空间编码。
3.根据权利要求2所述的方法,其特征在于,所述使用所述映射网络模块对所述类别信息和所述归一化后的第一噪声向量进行融合和解耦,包括:
使用所述映射网络模块中的一个全连接层对所述类别信息和所述归一化后的第一噪声向量进行融合,获得融合后的特征向量;
使用所述映射网络模块中的至少一个全连接层对所述融合后的特征向量进行解耦,获得所述隐藏空间编码。
4.根据权利要求1所述的方法,其特征在于,所述使用所述生成对抗网络的生成器模块对所述隐藏空间编码和所述第二随机噪声向量进行上采样增强,包括:
对所述第二随机噪声向量进行归一化,获得归一化后的第二噪声向量;
使用所述生成器模块中的上采样卷积层对所述隐藏空间编码和所述归一化后的第二随机噪声向量进行上采样增强,获得所述生成图像。
5.根据权利要求4所述的方法,其特征在于,所述使用所述生成器模块中的上采样卷积层对所述隐藏空间编码和所述归一化后的第二随机噪声向量进行上采样增强,包括:
将多个相同的所述隐藏空间编码和多个不同的所述第二随机噪声向量分别输入所述生成器模块中的多个上采样卷积层,以使所述多个上采样卷积层进行上采样增强;其中,所述隐藏空间编码的数量、所述第二随机噪声向量的数量与所述多个上采样卷积层的数量是相同的。
6.根据权利要求1所述的方法,其特征在于,在所述获得增强的生成图像之后,还包括:
使用所述生成对抗网络的判别器模块对所述生成图像进行下采样,获得下采样特征图;
使用所述生成对抗网络的全连接层和激活函数层对所述隐藏空间编码与所述下采样特征图进行处理,获得所述生成图像为真实图像的概率。
7.根据权利要求1-5任一所述的方法,其特征在于,在所述获得增强的生成图像之后,还包括:
使用所述生成图像对图像分类网络进行训练,获得图像分类模型;
或者,使用所述生成图像对图像分割网络进行训练,获得图像分割模型。
8.一种图像增强装置,其特征在于,包括:
噪声向量获取模块,用于获取预设的类别信息、第一随机噪声向量和第二随机噪声向量;
空间编码获得模块,用于使用生成对抗网络中的映射网络模块对所述类别信息和所述第一随机噪声向量进行融合和解耦,获得隐藏空间编码;
生成图像增强模块,用于使用所述生成对抗网络的生成器模块对所述隐藏空间编码和所述第二随机噪声向量进行上采样增强,获得增强的生成图像。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311301636.5A CN117218034A (zh) | 2023-10-09 | 2023-10-09 | 一种图像增强方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311301636.5A CN117218034A (zh) | 2023-10-09 | 2023-10-09 | 一种图像增强方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117218034A true CN117218034A (zh) | 2023-12-12 |
Family
ID=89051144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311301636.5A Pending CN117218034A (zh) | 2023-10-09 | 2023-10-09 | 一种图像增强方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218034A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210232932A1 (en) * | 2020-06-08 | 2021-07-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating image, device and medium |
CN116109718A (zh) * | 2022-11-16 | 2023-05-12 | 武汉理工大学 | 基于条件生成对抗网络的logo生成方法、系统及电子设备 |
-
2023
- 2023-10-09 CN CN202311301636.5A patent/CN117218034A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210232932A1 (en) * | 2020-06-08 | 2021-07-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating image, device and medium |
CN116109718A (zh) * | 2022-11-16 | 2023-05-12 | 武汉理工大学 | 基于条件生成对抗网络的logo生成方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Unsupervised real-world super resolution with cycle generative adversarial network and domain discriminator | |
CN109360633B (zh) | 医疗影像处理方法及装置、处理设备及存储介质 | |
Mo et al. | Object-aware contrastive learning for debiased scene representation | |
CN109118504B (zh) | 一种基于神经网络的图像边缘检测方法、装置及其设备 | |
CN112418195B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN111476719A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN109815931B (zh) | 一种视频物体识别的方法、装置、设备以及存储介质 | |
CN111738270B (zh) | 模型生成方法、装置、设备和可读存储介质 | |
CN112686898A (zh) | 一种基于自监督学习的放疗靶区自动分割方法 | |
CN114332150A (zh) | 手写笔迹擦除方法、装置、设备及可读存储介质 | |
CN115512169B (zh) | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 | |
CN113362271A (zh) | 血管三维影像分割方法、装置、计算机设备和存储介质 | |
CN116152523A (zh) | 图像检测方法、装置、电子设备及可读存储介质 | |
CN110570375B (zh) | 一种图像处理方法、装置、电子设置以及存储介质 | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
Kang et al. | GuidedMixup: an efficient mixup strategy guided by saliency maps | |
CN116563303B (zh) | 一种场景可泛化的交互式辐射场分割方法 | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
CN114565953A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN116051984B (zh) | 一种基于Transformer的弱小目标检测方法 | |
CN117218034A (zh) | 一种图像增强方法、装置、电子设备及存储介质 | |
CN115311550A (zh) | 遥感影像语义变化检测方法、装置、电子设备及存储介质 | |
CN114119428A (zh) | 一种图像去模糊方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |