CN112435200A - 一种应用于目标检测的红外图像数据增强方法 - Google Patents
一种应用于目标检测的红外图像数据增强方法 Download PDFInfo
- Publication number
- CN112435200A CN112435200A CN202011411277.5A CN202011411277A CN112435200A CN 112435200 A CN112435200 A CN 112435200A CN 202011411277 A CN202011411277 A CN 202011411277A CN 112435200 A CN112435200 A CN 112435200A
- Authority
- CN
- China
- Prior art keywords
- image
- generator
- infrared image
- convolution
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000009826 distribution Methods 0.000 claims abstract description 14
- 230000004913 activation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000005286 illumination Methods 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种应用于目标检测的红外图像数据增强方法,该数据增强方法使用的红外图像生成器由生成器和鉴别器两部分组成,所述生成器基于输入的彩色图像生成相应的红外图像,鉴别器负责鉴别生成图像的数据分布是否与真实图像一致,以最小化两种图像数据分布的距离为目标对生成器进行优化,从而确保生成红外图像与输入的彩色图像具有相同的内容及物体位置;本发明利用图像转换生成所需图像,通过构建生成对抗网络作为红外图像生成器,将输入的彩色图像从彩色域转换至红外域,从而有效的解决红外图像数据量缺乏,不足以支撑训练检测器的问题。本发明便于训练基于红外图像的目标检测网络,以提高在光照条件不良的环境下目标的检出率。
Description
技术领域
本发明属于计算机视觉中的数据增强技术领域,主要涉及一种解决目标检测缺少图像数据样本的数据增强方法。
背景技术
基于可见光的图像受限于场景的光照条件,在光照条件不良的环境下成像质量不佳,有效信息严重缺失,致使目标检出困难。相较于可见光,红外成像不依赖于光照条件,抗干扰能力强,可以全天候不分昼夜地清楚成像,从而显著地增加在诸如夜晚、阴雨天等环境下的目标检出率。
近年来深度学习技术依靠强大的视觉信息处理能力,在目标检测领域表现优异。而然其优异的表现很大程度上依靠于大量的样本数据。在大部分情况下,红外图像获取较为困难,少量的红外图像不足以支撑目标检测网络的训练。同时因样本匮乏,常规的图像增强方法,如各种线性变化,颜色抖动等无法给训练样本在多样化层面上带来实质性的提升。相较之下,基于原始样本数据分布随机生成的图像能够扩大训练样本覆盖的场景,表现出更大的多样性,从而为检测网络的训练提供有力的支撑。
深度学习技术在计算机视觉领域的优异表现离不开大量训练数据的支持,相较于获取容易的彩色图像,在很多实际的项目中,红外图像作为训练样本存在数量不足以及获取困难的问题。
发明内容
针对上述问题,本发明的目的提供了一种应用于目标检测的红外图像数据增强方法。该方法利用图像转换生成所需图像,通过构建生成对抗网络作为红外图像生成器,将输入的彩色图像从彩色域转换至红外域,从而有效的解决红外图像数据量缺乏,不足以支撑训练检测器的问题。本发明便于训练基于红外图像的目标检测网络,以提高在光照条件不良的环境下目标的检出率。
第一方面,本项发明提供了一种应用于目标检测的红外图像数据增强方法,该数据增强方法使用的红外图像生成器由生成器和鉴别器两部分组成,其本质为一个生成对抗网络。生成器基于输入的彩色图像生成相应的红外图像,而鉴别器负责鉴别生成图像的数据分布是否与真实图像一致,以最小化两种图像数据分布的距离为目标对生成器进行优化,从而确保生成红外图像与输入的彩色图像具有相同的内容及物体位置。
其中生成器的任务是生成与输入的彩色图像内容一致的红外图像,生成器采用了经典的Encode-Decode网络结构。Encode-Decode 网络结构中间通过一个桥接器衔接Encode和Decode两部分,Encode 负责对彩色图像进行特征抽取,逐层得到分辨率逐渐变小的深层特征, Decode部分负责特征还原,将Encode部分获取特征逐层还原放大,最终输出和输入的彩色图像大小相同的红外图像。Encode部分和 Decode部分由相均由卷积模块组成,同时在Encode和Decode中输出相同尺寸特征图的卷积模块之间建立shutcut,将尺寸相同的特征图融合,令Decode部分每一个卷积模块的输入都融合了颜色信息和语义信息。
鉴别器的任务是基于生成图像的数据分布判断生成图像的“真假”,若生成图像判断为“真”,则生成图像数据分布与真实图像相近。因鉴别器的作用类似于一个二分类器,故使用一个轻量级的多层卷积神经网络作为实现。
作为可选的实现方式,生成器中Encode部分的卷积模块的内部结构可采用步长为1的卷积+批量正则化+Relu激活+最大池化的组合方式。
作为可选的实现方式,生成器中Encode部分的卷积模块的内部结构可采用步长为2的卷积+批量正则化+Relu激活的组合方式。
作为可选的实现方式,生成器中Decode部分除最后的卷积模块,其余卷积模块内部结构可采用步长为1的卷积+批量正则化+Relu激活+双线性/近邻插值的组合方式。
作为可选的实现方式,生成器中Decode部分除最后的卷积模块,其余卷积模块的内部结构可采用步长为2的转置卷积+批量正则化 +Relu/Leaky Relu激活的组合方式。
作为可选的实现方式,生成器中Decode部分最后的卷积模块内部结构可采用步长为1的卷积+sigmoid/tanh激活的组合方式。
作为可选的实现方式,生成器中的Encode部分和Decode部分的特征融合可采用相加或拼接的方式。
作为可选的实现方式,鉴别器可采用经典的分类网络如Resnet, Vgg,Inception等。
第二方面,本项发明提供了红外图像生成器的训练方法,训练方法步骤如下:
1)将成对彩色图像和红外图像调整尺寸并归一化至0~1区间;
2)将经过预处理后的彩色图像输入到生成器;
3)将对应真实的红外图像和生成器生成的红外图像输入到鉴别器;
4)根据鉴别器输出的分类结果计算误差及生成图像和真实图像之间距离;
5)根据上述误差的梯度,利用RMSprop优化器调整红外图像生成器的参数;
作为可选的实现方式,使用生成图像和真实图像之间的瓦瑟斯坦 (Wasserstein)距离作为需要优化的目标函数。
作为可选的实现方式,使用生成图像和真实图像之差的L1正则化表示两者之间的距离。
作为可选的实现方式,使用生成图像和真实图像之差的L2正则化表示两者之间的距离(欧氏距离)。
作为可选的实现方式,可以将生成器和鉴别器按1:k的间隔进行交叉训练。
附图说明
图1是红外图像生成器的总体结构。
图2是生成器的总体结构图。
图3是生成器一种实现方式的分层结构图。
图4是鉴别器一种实现方式的结构图。
图5是图4的OSA模块blockx3结构图。
图6是红外图像生成器单次训练的流程图。
具体实施方式
下面结合附图对本项发明的一种实现方式作进一步说明
本发明的目的在于提供一种应用于目标检测的红外图像数据增强方法。
图1是红外图像生成器的结构图,如图所示红外图像生成器有两个输入端,一端连接生成器,另一端连接鉴别器,其中鉴别器仅在鉴别阶段使用。在训练阶段,将预处理后的彩色图像输入到生成器,待生成器生成红外图像后与真实的红外图像成对输入到鉴别器判断“真假”,即计算两者数据分布的距离。正式使用阶段,仅需向生成器输入彩色图像,然后由生成器生成对应的红外图像。
图2是生成器的网络结构,其中Encode部分,Decode部分以及中间的桥接器均由卷积模块组成,各部分的卷积模块内部结构如图3 所示,Encode部分及桥接器的卷积模块均采用步长为1的卷积层+批量正则化+Relu激活生成特征图,使用最大池化对特征图进行下采样。 Decode部分的卷积模块均采用步长为1的卷积层+批量正则化+Leaky Relu激活生成特征图,使用双线性插值对特征图进行上采样。对于 Decode部分最后的卷积层输出的特征图通过sigmoid函数层将其收敛至0~1区间。
对于鉴别器,参考VovNet通过串联数个OSA模块以捕捉输入图像的高频信息。如图4所示,OSA模块中的每一个block的输出包含双向连接,一个连接到下一个block以获取具有更大感受野的特征,另一个连接聚合到OSA模块的最终输出中。如图5,由于所有block 的输出仅在最后聚合,故中间每个block的输入固定,从而极大地提高了GPU的计算效率。鉴别器的OSA模块通过由1x1的普通卷积和 3x3的深度可分离卷积组成的block来达成减少参数的同时最大化的保留特征表现力的目的。
生成对抗网络原始的目标函数通过KL和JS散度衡量生成和真实数据之间的相似度,其存在以下缺点,鉴别器训练的越好,生成器的梯度消失越严重,导致生成器的目标函数无法优化;若降低鉴别器的性能,又会导致生成器的梯度不稳定,目标函数难以收敛。因此在训练阶段(单次训练流程见图6),采用生成红外图像和真实红外图像的瓦瑟斯坦距离作为目标函数,瓦瑟斯坦距离相较于原始的目标函数能够避免数据高维度的影响,同时在生成和真实数据两个分布的支撑集不存在交集或者交集很小的情况下不会出现梯度消失的情况,瓦瑟斯坦距离表达式如下:
式中,Π(Pg,Pr)是生成数据和真实数据的联合分布集合, E(x,y)~γ[||x-y||]表示在联合分布下的生成数据和真实数据距离的均值。 inf表示距离均值的下界。
通过约束鉴别器参数的值域可以进一步将生成数据和真实数据的瓦瑟斯坦距离转换成以下形式:
同时为了进一步确保生成红外图像和真实红外图像在内容上的一致性,在生成器的目标函数中加入真实红外图像和生成红外图像之差的L1正则化项。由此得到鉴别器和生成器优化的目标函数如下:
上式LD和LG分别对应鉴别器和生成器的目标函数,||x-gw(x′)||1是真实红外图像与生成红外图像之差的L1范数。其中鉴别器需要最大化真实图像和生成图像之间的瓦瑟斯坦距离,故对LD取反并令其最小化。
在训练过程中,将一批成对的彩色图像和红外图像的尺寸调整至640x640并将其像素值从无符号的8位整型归一化至0~1之间的浮点型后将其输入到生成器中生成对应的红外图像。随后将生成的红外图像与真实的红外图像输入鉴别器,根据鉴别器的输出结果,求解对应目标函数的梯度并利用RMSprop优化器分别对鉴别器和生成器进行训练。
鉴别器和生成器的训练间隔为k次,训练鉴别器的过程中先将生成器的参数固定,通过LD的梯度调整鉴别器参数,鉴别器再经过k 次训练迭代后将鉴别器的参数固定,通过LG的梯度调整生成器参数。在训练过程中需要将鉴别器的参数强制约束在[-0.01,0.01]的区间内,以确保鉴别器满足利普希茨(Lipschitz)连续条件。
对于完成训练的红外图像生成器,仅需将生成器输出的特征图乘以255,即可将其还原成与输入彩色图像内容一致的高质量红外图像。
Claims (7)
1.一种应用于目标检测的红外图像数据增强方法,其特征在于,该数据增强方法使用的红外图像生成器由生成器和鉴别器两部分组成,所述生成器基于输入的彩色图像生成相应的红外图像,鉴别器负责鉴别生成图像的数据分布是否与真实图像一致,以最小化两种图像数据分布的距离为目标对生成器进行优化,从而确保生成红外图像与输入的彩色图像具有相同的内容及物体位置;
所述生成器的是生成与输入的彩色图像内容一致的红外图像,生成器采用Encode-Decode网络结构;Encode-Decode网络结构中间通过一个桥接器衔接Encode和Decode两部分,Encode负责对彩色图像进行特征抽取,逐层得到分辨率逐渐变小的深层特征,Decode部分负责特征还原,将Encode部分获取特征逐层还原放大,最终输出和输入的彩色图像大小相同的红外图像;Encode部分和Decode部分由相均由卷积模块组成,同时在Encode和Decode中输出相同尺寸特征图的卷积模块之间建立shutcut,将尺寸相同的特征图融合,令Decode部分每一个卷积模块的输入都融合了颜色信息和语义信息;
所述鉴别器的任务是基于生成图像的数据分布判断生成图像的真假,若生成图像判断为真,则生成图像数据分布与真实图像相近。
作为可选的实现方式,生成器中Encode部分的卷积模块的内部结构可采用步长为1的卷积+批量正则化+Relu激活+最大池化的组合方式。
2.根据权利要求1所述的一种应用于目标检测的红外图像数据增强方法,其特征在于,生成器中Encode部分的卷积模块的内部结构可采用步长为2的卷积+批量正则化+Relu激活的组合方式。
3.根据权利要求1所述的一种应用于目标检测的红外图像数据增强方法,其特征在于,生成器中Decode部分除最后的卷积模块,其余卷积模块内部结构可采用步长为1的卷积+批量正则化+Relu激活+双线性/近邻插值的组合方式。
4.根据权利要求1所述的一种应用于目标检测的红外图像数据增强方法,其特征在于,生成器中Decode部分除最后的卷积模块,其余卷积模块的内部结构可采用步长为2的转置卷积+批量正则化+Relu/Leaky Relu激活的组合方式。
5.根据权利要求1所述的一种应用于目标检测的红外图像数据增强方法,其特征在于,生成器中Decode部分最后的卷积模块内部结构可采用步长为1的卷积+sigmoid/tanh激活的组合方式。
6.根据权利要求1所述的一种应用于目标检测的红外图像数据增强方法,其特征在于,生成器中的Encode部分和Decode部分的特征融合可采用相加或拼接的方式。
7.一种应用于目标检测的红外图像数据增强的训练方法,其特征在于,该训练方法步骤如下:
(1)将成对彩色图像和红外图像调整尺寸并归一化至0~1区间;
(2)将经过预处理后的彩色图像输入到生成器;
(3)将对应真实的红外图像和生成器生成的红外图像输入到鉴别器;
(4)根据鉴别器输出的分类结果计算误差及生成图像和真实图像之间距离;
(5)根据上述误差的梯度,利用RMSprop优化器调整红外图像生成器的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011411277.5A CN112435200A (zh) | 2020-12-06 | 2020-12-06 | 一种应用于目标检测的红外图像数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011411277.5A CN112435200A (zh) | 2020-12-06 | 2020-12-06 | 一种应用于目标检测的红外图像数据增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112435200A true CN112435200A (zh) | 2021-03-02 |
Family
ID=74692002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011411277.5A Pending CN112435200A (zh) | 2020-12-06 | 2020-12-06 | 一种应用于目标检测的红外图像数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112435200A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565860A (zh) * | 2022-03-01 | 2022-05-31 | 安徽大学 | 一种多维度增强学习合成孔径雷达图像目标检测方法 |
-
2020
- 2020-12-06 CN CN202011411277.5A patent/CN112435200A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565860A (zh) * | 2022-03-01 | 2022-05-31 | 安徽大学 | 一种多维度增强学习合成孔径雷达图像目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112347859A (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN111179167A (zh) | 一种基于多阶段注意力增强网络的图像超分辨方法 | |
CN110163815A (zh) | 基于多阶段变分自编码器的低照度还原方法 | |
CN110363068B (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
CN112381716B (zh) | 一种基于生成式对抗网络的图像增强方法 | |
CN112651917A (zh) | 一种基于生成对抗网络的空间卫星低照度图像增强方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN116957931A (zh) | 一种基于神经辐射场的相机图像画质提升方法 | |
CN114463176B (zh) | 基于改进esrgan的图像超分辨重建方法 | |
CN116168067B (zh) | 基于深度学习的有监督多模态光场深度估计方法 | |
CN116486074A (zh) | 一种基于局部和全局上下文信息编码的医学图像分割方法 | |
CN113379606A (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN113724134A (zh) | 一种基于残差蒸馏网络的航拍图像盲超分辨率重建方法 | |
Shen et al. | Deeper super-resolution generative adversarial network with gradient penalty for sonar image enhancement | |
CN113052776A (zh) | 基于多尺度深度图像先验的无监督图像去雾方法 | |
CN115660979A (zh) | 一种基于注意力机制的双判别器图像修复方法 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN117408924A (zh) | 一种基于多重语义特征融合网络的低光照图像增强方法 | |
CN116664435A (zh) | 一种基于多尺度人脸解析图融入的人脸复原方法 | |
CN112184552B (zh) | 一种基于高频特征学习的子像素卷积图像超分辨方法 | |
CN112435200A (zh) | 一种应用于目标检测的红外图像数据增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |