CN115034984A - 图像增强模型的训练方法、图像增强方法、装置及设备 - Google Patents
图像增强模型的训练方法、图像增强方法、装置及设备 Download PDFInfo
- Publication number
- CN115034984A CN115034984A CN202210609855.9A CN202210609855A CN115034984A CN 115034984 A CN115034984 A CN 115034984A CN 202210609855 A CN202210609855 A CN 202210609855A CN 115034984 A CN115034984 A CN 115034984A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- illumination
- loss function
- reflection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000005286 illumination Methods 0.000 claims abstract description 93
- 230000002159 abnormal effect Effects 0.000 claims abstract description 36
- 230000002708 enhancing effect Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 96
- 238000000605 extraction Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 19
- 238000009499 grossing Methods 0.000 claims description 16
- 238000003384 imaging method Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 13
- 238000007667 floating Methods 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000005282 brightening Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 34
- 238000004364 calculation method Methods 0.000 description 9
- 230000002829 reductive effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 210000001525 retina Anatomy 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002207 retinal effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004456 color vision Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000021317 sensory perception Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本公开涉及一种图像增强模型的训练方法、图像增强方法、装置及设备。获取至少一组训练用图像,每组训练用图像包括照度异常图像和照度正常图像,每组图像的照度异常图像和照度正常图像对应于同一场景;以一组训练用图像作为一份样本,使用至少一组训练用图像,对图像增强模型进行训练,图像增强模型用于将输入图像分解为反射图像和照度图像,反射图像用于作为对输入图像进行增强后的图像。由此,利用模型强大的拟合能力可以将对图像进行分解得到的反射图像作为图像的增强后图像。
Description
技术领域
本公开涉及图像增强技术领域,特别是涉及一种图像增强模型的训练方法、图像增强方法、装置及设备。
背景技术
一张具有高成像质量的图像,应当曝光充足、对比度高、色彩精准且无多余噪声,基于图像的高层次任务例如目标检测、识别、分割等,同样要求成像系统能够清晰地反映出成像目标的细节。
然而在现实生活中,很多因素导致成像质量无法满足这些要求。例如,在夜晚的场景中,光照强度不足使得成像系统无法获得曝光充足的图像,无论是延长曝光时间、改变相机的模拟/数字增益、调节光圈大小,在提高图像亮度的同时,都可能使得图像中产生噪声明显、边缘模糊、伪影等现象;在户外背光的场景中,无法找到合适的相机参数,能够使得背景以及目标物体同时清晰地呈现在图像中,往往是背景曝光正常时目标欠曝,或目标曝光正常时背景过曝。由于图像不合适的曝光,隐藏了大量的图像细节,大大降低了图像质量且影响了人的感官感受,与此同时,一些基于图像的高层应用也将因此受到巨大的影响。例如辅助驾驶在夜晚的环境中,由于曝光不足,难以分辨出环境中的人或物体,大大降低了辅助驾驶的可靠性;医疗机器人在胃肠镜手术中,往往优先满足场景中心的正常曝光需求,由于光源位于靠近场景中心的位置,且光照强度受限,远端组织往往难以获得正常的曝光,医生将难以及时监视到远端的出血情况或情况变化,增大了手术的风险。
对于成像系统而言,使得成像结果无论是整体还是局部都具备良好的光照强度,清晰准确地反映出目标的细节,是至关重要的一环。对于过曝的区域,细节已经全部丢失,无法恢复,对于欠曝的区域,细节往往依然存在但是人眼难以分辨。即便拍摄时整体的曝光强度较弱,在进行图像增强后,细节依然能得到恢复,但暗处区域具有较低的信噪比。如何恢复整体欠曝或局部曝光不足的低照度图像中的细节,增强低照度图像的对比度并减少图像噪声,是一件复杂但重要的任务。
因此,需要一种行之有效的图像增强方案。
发明内容
本公开要解决的一个技术问题是提供一种行之有效的图像增强方案。
根据本公开的第一个方面,提供了一种图像增强模型的训练方法,包括:获取至少一组训练用图像,每组训练用图像包括照度异常图像和照度正常图像,每组图像的照度异常图像和照度正常图像对应于同一场景;以一组训练用图像作为一份样本,使用至少一组训练用图像,对图像增强模型进行训练,图像增强模型用于将输入图像分解为反射图像和照度图像,反射图像用于作为对输入图像进行增强后的图像。
可选地,对图像增强模型进行训的步骤包括:构造损失函数,以使损失函数减小为目标训练图像增强模型,损失函数包括下述损失函数中的一项或至少一项的组合:反射图差异损失函数,用于表征分解照度异常图像得到的反射图像和分解照度正常图像得到的反射图像之间的差异;重建损失函数,用于表征输入图像和图像增强模型针对上述输入图像进行分解得到的反射图像与照度图像进行像素点乘的结果之间的差异;照度图平滑损失函数,用于表征照度图像的平滑损失;感知损失函数,用于表征分解照度异常图像得到的反射图像和分解照度正常图像得到的反射图像之间的感知损失;以及噪声损失函数,用于表征反射图像中暗处区域的噪声损失。
可选地,反射图差异损失函数为
其中,Rabnormal为分解照度异常图像得到的反射图像,Rnormal为分解照度正常图像得到的反射图像,“‖ ‖1”表示1范数;
并且/或者,重建损失函数为
Lrecon=‖R*I-S‖1,
其中,R为反射图像,I为照度图像,S为输入图像,“*”表示点乘;
并且/或者,照度图平滑损失函数为
并且/或者,感知损失函数为
并且/或者,噪声损失函数为
其中,λ是用于控制边缘敏感度的系数,“‖ ‖2”表示2范数。
可选地,损失函数表示为
可选地,照度异常图像包括整体低照度图像和/或亮度调整图像,亮度调整图像由对亮度正常图像或整体低照度图像进行亮度调整得到,亮度调整包括区域提亮和区域变暗。
可选地,图像增强模型包括编码器和译码器,编码器用于对输入图像进行下采样,得到特征图,译码器用于对特征图进行上采样,得到反射图像和照度图像。
可选地,图像增强模型还包括特征提取模块,特征提取模块包括至少一层卷积层,特征提取模块用于对输入图像进行特征提取,并将特征提取结果作为编码器的输入,输入至编码器。
可选地,编码器包括第一卷积层和第一输出层,第一卷积层包括依次连接的卷积模块、跳跃连接模块以及下采样模块,第一输出层包括卷积模块和跳跃连接模块,译码器包括第二卷积层和第二输出层,第二卷积层包括依次连接的卷积模块、跳跃连接模块以及上采样模块,第二输出层包括卷积模块和跳跃连接模块。
可选地,跳跃连接模块包括依次连接的卷积模块、激活函数、卷积模块以及压缩奖惩网络模块(Squeeze-and-Excitation Blocks)。
可选地,训练过程中的所述图像增强模型利用浮点数表示,该方法还包括:在训练完成后,将所述图像增强模型转换为利用定点数表示。
根据本公开的第二个方面提供了一种图像增强方法,包括:将图像输入到图像增强模型,得到图像增强模型对图像进行分解得到的反射图像,反射图像即为对图像进行增强后的图像,其中,图像增强模型是使用上文第一个方面的方法训练得到的。
根据本公开的第三个方面提供了一种图像增强模型的训练装置,包括:获取模块,用于获取至少一组训练用图像,每组训练用图像包括照度异常图像和照度正常图像,每组图像的照度异常图像和照度正常图像对应于同一场景;训练模块,用于以一组训练用图像作为一份样本,使用至少一组训练用图像,对图像增强模型进行训练,图像增强模型用于将输入图像分解为反射图像和照度图像。
根据本公开的第四个方面提供了一种成像设备,包括:成像装置和处理器,处理器用于将成像装置拍摄得到的图像,输入到图像增强模型,得到图像增强模型对图像进行分解得到的反射图像,并将反射图像作为图像的增强后图像,其中,图像增强模型是使用上文第一个方面述及的方法训练得到的。
根据本公开的五个方面,提供了一种计算设备,包括:处理器和存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面述及的方法。
根据本公开的第六个方面,提供了一种计算机程序产品,包括可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面述及的方法。
根据本公开的第七个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面述及的方法。
由此,本公开通过训练基于视网膜理论的图像增强模型,使得该模型可以将输入图像分解为反射图像和照度图像,其中,分解得到的反射图像可以作为对图像进行增强后的照度均匀图像。
附图说明
通过结合附图对本公开示例性实施方式进行更详细地描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本公开一个实施例的图像增强模型的训练方法的示意性流程图。
图2示出了根据本公开一个实施例的图像增强模型的网络结构示意图。
图3示出了根据本公开一个实施例的跳跃连接模块的结构示意图。
图4示出了根据本公开一个实施例的图像增强模型的训练流程示意图。
图5示出了利用本公开的图像增强模型对多个图像进行增强后的效果示意图。
图6示出了根据本公开一个实施例的训练装置的结构示意图。
图7示出了根据本公开一个实施例的成像设备的结构示意图。
图8示出了根据本公开一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
传统的视网膜理论(Retinex-based Theory)一般用于颜色感知中。
视网膜理论认为观察到的图像S可以分解为反射图像R和照度图像I,反射图像R与照度图像I进行点乘的结果即为图像S。其中反射图像只取决于目标物体的本征特征(例如纹理、颜色等),这些特征不随着光照强度变化而变化,而照度图像反映的是物体受到的光照强度。
本公开提出一种基于视网膜理论的图像增强模型,该模型能够将输入图像分解为反射图像和照度图像。按照视网膜理论,反射图像只取决于目标物体的本征特征,对图像进行分解得到的反射图像的照度通常比较均匀,因此分解得到的反射图像可以作为对图像进行增强后的照度均匀图像。
本公开中的图像增强,主要是图像整体曝光不足或局部偏暗处的细节恢复。
图1示出了根据本公开一个实施例的图像增强模型的训练方法的示意性流程图。
参见图1,在步骤S110,获取至少一组训练用图像,每组训练用图像包括照度异常图像和照度正常图像,每组图像的照度异常图像和照度正常图像对应于同一场景。
照度正常图像是指曝光正常的图像,如可以是曝光充足、对比度高、色彩精准且无多余噪声的图像。照度正常图像可以是图像中所有区域的照度均正常的图像。
照度异常图像是指曝光异常的图像,如可以是过曝或低曝图像。照度异常图像中可以同时存在照度正常区域和照度异常区域,其中,照度异常区域可以是指照度过高的区域(即过曝区域),也可以是指低照度区域(即曝光不足区域)。
实际应用中需要增强的图像不局限于整体低照度图像。实际应用中需要增强的图像还可能是同时存在过曝区域和低照度区域的图像,或者是同时存在过曝区域和正常曝光域的图像,或者是同时存在过曝区域、正常曝光区域以及低照度区域的图像。
为了使模型能够对上述各种图像进行增强,训练用图像中的照度异常图像不应只包括整体低照度图像,还应包括上述其他类型的照度异常图像。考虑到上述其他类型的照度异常图像不容易收集,本公开提出了一种数据增强方式,可以对原始图像进行亮度调整(如局部曝光调整),以得到上述其他类型的照度异常图像。
因此,本公开中的照度异常图像可以包括整体低照度图像和/或亮度调整图像,优选可以是同时包括整体低照度图像和亮度调整图像。亮度调整图像是指对原始图像进行亮度调整所得到的图像。亮度调整图像可以是对亮度正常图像进行亮度调整得到,亮度调整可以包括区域提亮和区域变暗。
由此,对于不易收集的照度异常图像(如同时存在过曝、正常曝光以及低照度区域的图像),可以通过对亮度正常图像进行亮度调整的方式得到。例如,可以将亮度正常图像划分为多个图像区域,针对不同图像区域赋予不同的亮度调整系数,用于调整各个图像区域的亮度,如此即可得到不易收集的照度异常图像。
在步骤S120,以一组训练用图像作为一份样本,使用至少一组训练用图像,对图像增强模型进行训练,图像增强模型用于将输入图像分解为反射图像和照度图像。
图像增强模型的输入为一张图像,图像增强模型的输出为反射图像和照度图像。
根据视网膜理论,图像可以分解为反射图和照度图。本公开用于将图像增强模型分解得到的反射图像作为增强后的照度正常(如照度均匀)图像。换言之,在训练图像增强模型时,是以模型分解得到的反射图像的照度尽可能正常为目的之一进行训练的。通过不断训练,使得最终训练得到的图像增强模型,对任何输入图像(如低照度图像)进行分解得到的反射图像的照度都较为均匀,进而使得反射图像可以作为输入图像的增强后图像。
图像增强模型可以是具有强大拟合能力的卷积神经网络结构。
作为示例,图像增强模型可以采用Encoder-Decoder模型架构。即,图像增强模型主要可以包括编码器(Encoder)和译码器(Decoder)。译码器也可以称为解码器。编码器可以用于对输入图像进行下采样,得到(高级语义)特征图。译码器可以用于对编码器输出的(高级语义)特征图进行上采样,得到反射图像和照度图像。
编码器包括第一卷积层和第一输出层,第一卷积层包括依次连接的卷积模块、跳跃连接模块以及下采样模块,第一输出层包括卷积模块和跳跃连接模块。其中,第一卷积层的数量可以是一层或多层,如可以是两层。跳跃连接模块也可称为跳连模块。
译码器包括第二卷积层和第二输出层,第二卷积层包括依次连接的卷积模块、跳跃连接模块以及上采样层模块,第二输出层包括卷积模块和跳跃连接模块。其中,第二卷积层的数量可以是一层或多层,如可以是两层。
跳跃连接模块用于以拼接的方式将编码器和译码器中对应相同分辨率的特征图进行特征融合,以帮助译码器更好地恢复目标的细节。
图像增强模型还可以包括特征提取模块,特征提取模块可以包括至少一层卷积层。输入图像可以先经由特征提取模块进行特征提取,特征提取结果(图像特征)作为编码器的输入,输入至编码器。
图2示出了根据本公开一个实施例的图像增强模型的网络结构示意图。
如图2所示,图像增强模型可以采用类似U-Net的网络结构。
图像增强模型的第一层为用于提取图像特征的卷积层,如可以是3x3的卷积层。图像增强模型的剩余部分由编码器和译码器组成。编码器由三层卷积层、跳连模块和下采样层组成。译码器由三层卷积层、跳连模块与上采样层组成。
下采样层使用了步长为2的卷积模块。上采样使用反卷积进行图像放大,但反卷积的计算特性,导致生成的反射图中在平坦区域产生网格现象(checkboarder),因此上采样层可以直接使用双线性插值上采样加卷积层组成的结构。
图3出了根据本公开一个实施例的跳跃连接模块的结构示意图。
如图3所示,跳跃连接模块可以包括依次连接的卷积模块、激活函数、卷积模块以及压缩奖惩网络模块(Squeeze-and-Excitation Blocks,简称SE模块)。其中两个卷积模块均可以是1x1卷积。激活函数可以是ReLU(Rectified Linear Unit)激活函数。
SE模块的过程分为Squeeze(压缩)和Excitation(激发)两个步骤。其中Squeeze通过在Feature Map(特征图)上执行Global Average Pooling得到当前Feature Map的全局压缩特征向量,Excitation通过两层全连接得到Feature Map中每个通道的权值,并将加权后的Feature Map作为下一层网络的输入,也称为SE通道注意力机制。
SE模块利用了注意力机制,在计算上,使得网络根据不同输入特征给不同通道赋予不同的权重。SE模块能够以一种未知的方式(因为神经网络的具体原理机制还是黑匣子)对特征组进行权值奖惩,加强了所在位置的特征图组的表达能力。
在本公开的定性描述中,SE模块可以帮助网络给各个特征不同的注意力权重,使得模型更容易关注到低照度区域。
在执行步骤S120对图像增强模型进行训练时,可以构造损失函数,以使损失函数减小为目标训练图像增强模型。损失函数可以包括下述损失函数中的一项或至少一项的组合。作为优选实施例,损失函数可以是下述所有损失函数的组合(如线性组合)。
1、反射图差异损失函数
反射图差异损失用于约束反射图的恒常性,即照度异常图像(如低照度图像)和照度正常图像(正常曝光图像)应具有同样的反射图。
反射图差异损失函数用于表征照度异常图像的反射图像和照度正常图像的反射图像之间的差异。反射图差异损失函数可以表示为
以照度异常图像为整体低照度图像为例,反射图差异损失函数可以表示为
其中,Rlow为低照度图像的反射图像。
2、重建损失函数
重建损失基于假设每一个输入图像都可以被分解为相应的反射图和照度图的点乘积。
重建损失函数用于表征输入图像和图像增强模型针对输入图像进行分解得到的反射图像与照度图像进行像素点乘的结果之间的差异。
重建损失函数可以表示为
Lrecon=‖R*I-S‖1,
其中,Lrecon表示重建损失,S为输入图像,R为由模型对输入图像进行分解得到的反射图像,I为由模型对输入图像进行分解得到的照度图像,“*”表示点乘,“‖‖1”表示1范数,本式子中为矩阵R*I-S的列范数。
3、照度图平滑损失函数
照度图平滑损失一般可以使用总方差最小化损失,即TVLoss(Total VariationMinimization),TVLoss可以用以下公式表示
TVLoss用于最小化整幅图的梯度,然而直接使用TVLoss会使得在实际照度变化比较剧烈的地方,一般在图像中物体结构、位置、光照出现较大变化的地方,在生成的照度图中照度变化不足,因此在照度图中只有模糊的边缘,也由此导致在生成的反射图中产生黑边。为此,本公开提出,可以采用一种边缘敏感的照度平滑损失函数:
其中,λg是用于控制边缘敏感度的系数,表示照度图像中每个像素点在宽度方向和高度方向的梯度和,表示反射图像中每个像素点在宽度方向和高度方向的梯度和,“| |”表示绝对值。的存在,使得反射图中梯度变化比较剧烈的部分,能够放松对照度图平滑的约束,从而使得照度图拥有更显著的边缘。
另外,此式中并不限于使用反射图的梯度来约束照度图,使用其余图像边缘特征依然可以取得类似的效果,例如可以使用RGB三通道中的最大值形成的亮度特征图的梯度。
4、感知损失函数
感知损失函数用于表征照度异常图像的反射图像和照度正常图像的反射图像之间的感知损失。感知损失能够很好地提升生成图像的感官效果,对于边缘模糊、噪声、色彩变换都有一定的抑制作用。
感知损失函数可以表示如下:
其中,表示使用特征提取网络对输入的反射图像进行特征提取得到的特征结果,Rabnormal为分解照度异常图像得到的反射图像,Rnormal为分解照度正常图像得到的反射图像,“‖ ‖1”表示1范数,本式子中为矩阵的列范数。
特征提取网络可以采用经完整预训练的VGG16,可以利用VGG16对输入的反射图像进行前传进行特征提取,并据此计算感知损失函数。VGG具有强大的提取图像特征的能力,使用基于VCG的损失函数能让经过恢复的低照度图像,具备和正常曝光图像更多的相似特征。此时,φ可以表示针对输入使用VGG进行前传到16层得到的特征图结果。
5、噪声损失函数
在对图像进行整体、局部低照度区域增强后,由于暗处信噪比较低,照度图又具备平滑的特性,因此噪声集中在了反射图中,在原暗处区域更是明显,倘若增加去噪算法,例如BM3D或是用于降噪的神经网络,将大大增加算法的计算量和复杂度。
为此,本公开从损失函数的角度出发,构建一个用于约束反射图像中暗处区域的噪声的损失函数,使得在降噪的同时,可以降低算法的计算量和复杂度。
具体而言,本公开可以根据照度图的梯度变换于照度绝对值,适度地对反射图中原图的暗处区域进行平滑操作,并据此增加一个用于减少暗处噪声的损失函数,即噪声损失函数。噪声损失函数用于表征反射图像中暗处区域的噪声损失。
噪声损失函数可以表示为
其中,R为反射图像,I为照度图像,λ是用于控制边缘敏感度的系数,“‖ ‖2”表示2范数。噪声损失函数的计算公式的原理,可以定性理解为,根据照度图的梯度变换于照度绝对值,适度地对反射图中原图的暗处区域进行平滑操作,以减少暗处噪声。
为了提升模型效果,本公开可以基于上述各项损失(也即上述各项损失函数)构建总的损失函数。总的损失函数可以由上述各项损失组合而成,其中组合方式可以是线性组合,也可以是其他各种组合方式。
以线性组合为例,总的损失函数可以表示为
其中,αi(i=0,1,2,3,4)分别表示用于平衡重建损失、反射图差异损失、照度图平滑损失、感知损失与噪声损失的系数。
在构建好总的损失函数后,即可利用大量样本对图像增强模型进行训练,使得训练后的图像增强模型对图像进行分解得到的反射图像能够作为增强后图像。
图像增强模型可以基于PyTorch进行训练,并使用开源的数据集进行测试,训练过程中无论是前传还是反传都使用了32比特浮点数。在完成模型训练之后,为了将模型部署在嵌入式硬件平台上,本公开可以对图像增强模型进行了低比特定点化,图像增强模型的浮点数参数和特征值,都可采用16bit,12bit,8bit等定点数进行表示。由此,可以大大压缩参数所占内存大小,缓解计算平台的带宽与计算压力。
浮点数与定点数的转换关系可以用如下公式进行表示:
floatpoint=fixedpoint*2n,其中,n表示定点位置。
图4示出了根据本公开一个实施例的图像增强模型的训练流程示意图。
图4示出的神经网络模型也即本公开述及的图像增强模型。
如图4所示,在训练过程中使用了成对的训练数据,每个训练样本包含了整体低照度、正常照度的图像以及对正常照度的图像进行数据增强后的图像。其中,可以对正常照度的图像进行分块,每一块赋予不同的系数,用于调整每个区域的亮度,亮度的调整不仅包括区域变暗,同样包含区域的提亮。
可以将三张对应同一场景但照度不同的图像分别作为模型输入进行前传,在得到模型输出的结果后,进行损失函数的计算,再将损失进行反传,多次迭代进行训练。
在模型训练完成后的实际使用过程中,只需将图像输入图像增强模型中前传即可。
训练过程中的图像增强模型可以利用浮点数表示。
在训练完成后,可以将图像增强模型转换为利用定点数表示,以使得在实际使用过程中,可以降低计算平台的计算压力和带宽压力。
图5示出了利用本公开的图像增强模型对多个图像进行增强后的效果示意图。
如图5所示,对于整体欠曝或具有局部低照度区域的图像,利用本公开训练得到的模型可以在恢复出低照度暗区的细节的同时,保持曝光正常区域的细节、色彩,并且能够对局部过曝区域进行适当修正以提高人眼视觉感受。
本公开还提出了一种图像增强方法,该方法包括:将图像输入到图像增强模型,得到图像增强模型对图像进行分解得到的反射图像,反射图像即为对图像进行增强后的图像,其中,图像增强模型可以是使用上文结合图1所示的方法训练得到的。
当使用的图像增强模型为利用浮点数表示的模型时,本公开还可以将图像增强模型中利用浮点数表示的模型参数转换为定点数表示,使用转换后的图像增强模型对图像进行增强,即可以将待进行增强的图像输入到转换后的利用定点数表示的图像增强模型。
对于训练过程,使用成对的训练数据,包含了一对整体低照度和正常照度的图像,对正常照度的图像进行数据增强,对图像进行分块,每一块赋予不同的系数,用于调整每个区域的亮度,亮度的调整不仅包括区域变暗,同样包含区域的提亮。之后将三张图作为输入进行前传,在得到结果后,进行损失函数的计算,再将损失进行反传,多次迭代进行训练。
综上,本公开基于视网膜理论,利用卷积神经网络强大的拟合能力,将图像分解为反射图和照度图,由于反射图只与目标物体的固有属性有关,因此具备恒常性,在不同实际光照强度下都具有相同的值,具有合适的曝光强度和均匀的照度。
本公开使用了一种神经网络模型结构,基于注意力机制,能够很好地感知整体亮度以及局部暗处区域,在反射图中恢复暗处细节。
本公开还使用了一种数据增强方式,在没有正常曝光与局部过暗、正常、过曝同时存在的图像对存在的情况下,拟合了局部过暗和过曝的情况,使得模型在实际应用场景中有更好的鲁棒性。
本公开还使用了一系列损失函数,根据反射图的梯度对照度图进行平滑,放宽了照度图在目标边缘处的梯度大小限制;根据照度图的梯度,对原图中较暗区域,在反射图中进行了平滑,抑制了暗处的噪声;使用感知损失函数,使得反射图中拥有更多正常曝光图的特征,提升了感官表现。
本公开在使用训练好的模型时,可以对32比特的浮点数模型进行低比特定点化,如此可以极大降低计算平台的计算和带宽压力。
本公开的图像增强模型的训练方法还可以实现为一种训练装置。图6示出了根据本公开一个实施例的训练装置的结构示意图。训练装置的功能单元可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图6所描述的功能单元可以组合起来或者划分成子单元,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能单元的任何可能的组合、或者划分、或者更进一步的限定。
下面就训练装置可以具有的功能单元以及各功能单元可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图6,训练装置600包括获取模块610和训练模块620。
获取模块610用于获取至少一组训练用图像,每组训练用图像包括照度异常图像和照度正常图像,每组图像的照度异常图像和照度正常图像对应于同一场景;
训练模块620用于以一组训练用图像作为一份样本,使用至少一组训练用图像,对图像增强模型进行训练,图像增强模型用于将输入图像分解为反射图像和照度图像。
关于图像增强模型的结构可以参见上文相关描述。
训练模块620可以构建损失函数,以使损失函数减小为目标训练图像增强模型。
损失函数可以包括但不限于反射图差异损失函数、重建损失函数、照度图平滑损失函数、感知损失函数以及噪声损失函数中的一项或至少一项的组合。
本公开还可以实现为一种成像设备。图7示出了根据本公开一个实施例的成像设备的结构示意图。如图7所示,成像设备700可以包括成像装置710和处理器720。
处理器720用于将成像装置710拍摄得到的图像,输入到图像增强模型,得到图像增强模型对图像进行分解得到的反射图像,并将反射图像作为图像的增强后图像。其中,图像增强模型是使用本公开上文结合图所示的方法训练得到的。关于图像增强模型的结构可以参见上文相关描述。
图8示出了根据本公开一实施例可用于实现上述图像增强模型的训练方法或图像增强方法的计算设备的结构示意图。
参见图8,计算设备800包括存储器810和处理器820。
处理器820可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器820可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器810可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁盘或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器810可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器810可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器810上存储有可执行代码,当可执行代码被处理器820处理时,可以使处理器820执行上文述及的图像增强模型的训练方法或图像增强方法。
上文中已经参考附图详细描述了根据本公开的图像增强模型的训练方法、图像增强方法、装置及设备。
此外,根据本公开的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本公开的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本公开的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (16)
1.一种图像增强模型的训练方法,包括:
获取至少一组训练用图像,每组训练用图像包括照度异常图像和照度正常图像,每组图像的照度异常图像和照度正常图像对应于同一场景;
以一组训练用图像作为一份样本,使用所述至少一组训练用图像,对所述图像增强模型进行训练,所述图像增强模型用于将输入图像分解为反射图像和照度图像,所述反射图像用于作为对所述输入图像进行增强后的图像。
2.根据权利要求1所述的方法,其中,对所述图像增强模型进行训练的步骤包括:构造损失函数,以使所述损失函数减小为目标训练所述图像增强模型,
所述损失函数包括下述损失函数中的一项或至少一项的组合:
反射图差异损失函数,用于表征分解所述照度异常图像得到的反射图像和分解所述照度正常图像得到的反射图像之间的差异;
重建损失函数,用于表征所述输入图像和所述图像增强模型针对上述输入图像进行分解得到的所述反射图像与所述照度图像进行像素点乘的结果之间的差异;
照度图平滑损失函数,用于表征所述照度图像的平滑损失;
感知损失函数,用于表征分解所述照度异常图像得到的反射图像和分解所述照度正常图像得到的反射图像之间的感知损失;以及
噪声损失函数,用于表征所述反射图像中暗处区域的噪声损失。
3.根据权利要求2所述的方法,其中,
所述反射图差异损失函数为
其中,Rabnormal为分解照度异常图像得到的反射图像,Rnormal为分解照度正常图像得到的反射图像,“|| ||1”表示1范数;
并且/或者,所述重建损失函数为
Lrecon=||R*I-S||1,
其中,R为所述反射图像,I为所述照度图像,S为输入图像,“*”表示点乘;
并且/或者,所述照度图平滑损失函数为
并且/或者,所述感知损失函数为
并且/或者,所述噪声损失函数为
其中,λ是用于控制边缘敏感度的系数,“|| ||2”表示2范数。
5.根据权利要求1所述的方法,其中,
所述照度异常图像包括整体低照度图像和/或亮度调整图像,所述亮度调整图像由对所述亮度正常图像进行亮度调整得到,所述亮度调整包括区域提亮和区域变暗。
6.根据权利要求1所述的方法,其中,
所述图像增强模型包括编码器和译码器,
所述编码器用于对输入图像进行下采样,得到特征图,
所述译码器用于对所述特征图进行上采样,得到反射图像和照度图像。
7.根据权利要求6所述的方法,其中,
所述图像增强模型还包括特征提取模块,所述特征提取模块包括至少一层卷积层,
所述特征提取模块用于对输入图像进行特征提取,并将特征提取结果作为所述编码器的输入,输入至所述编码器。
8.根据权利要求6所述的方法,其中,
所述编码器包括第一卷积层和第一输出层,所述第一卷积层包括依次连接的卷积模块、跳跃连接模块以及下采样模块,所述第一输出层包括卷积模块和跳跃连接模块,并且/或者
所述译码器包括第二卷积层和第二输出层,所述第二卷积层包括依次连接的卷积模块、跳跃连接模块以及上采样层模块,所述第二输出层包括卷积模块和跳跃连接模块。
9.根据权利要求8所述的方法,其中,
所述跳跃连接模块包括依次连接的卷积模块、激活函数、卷积模块以及压缩奖惩网络模块(Squeeze-and-Excitation Blocks)。
10.根据权利要求1至9中任何一项所述的方法,其中,训练过程中的所述图像增强模型利用浮点数表示,该方法还包括:
在训练完成后,将所述图像增强模型转换为利用定点数表示。
11.一种图像增强方法,包括:
将图像输入到图像增强模型,得到所述图像增强模型对所述图像进行分解得到的反射图像,所述反射图像即为对所述图像进行增强后的图像,其中,所述图像增强模型是使用权利要求1至10中任何一项所述的方法训练得到的。
12.一种图像增强模型的训练装置,包括:
获取模块,用于获取至少一组训练用图像,每组训练用图像包括照度异常图像和照度正常图像,每组图像的照度异常图像和照度正常图像对应于同一场景;
训练模块,用于以一组训练用图像作为一份样本,使用所述至少一组训练用图像,对所述图像增强模型进行训练,所述图像增强模型用于将输入图像分解为反射图像和照度图像。
13.一种成像设备,包括:成像装置和处理器,
所述处理器用于将所述成像装置拍摄得到的图像,输入到图像增强模型,得到所述图像增强模型对所述图像进行分解得到的反射图像,并将所述反射图像作为所述图像的增强后图像,其中,所述图像增强模型是使用权利要求1至10中任何一项所述的方法训练得到的。
14.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至11中任何一项所述的方法。
15.一种计算机程序产品,包括可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至11中任何一项所述的方法。
16.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至11中任何一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210609855.9A CN115034984A (zh) | 2022-05-31 | 2022-05-31 | 图像增强模型的训练方法、图像增强方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210609855.9A CN115034984A (zh) | 2022-05-31 | 2022-05-31 | 图像增强模型的训练方法、图像增强方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115034984A true CN115034984A (zh) | 2022-09-09 |
Family
ID=83122437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210609855.9A Pending CN115034984A (zh) | 2022-05-31 | 2022-05-31 | 图像增强模型的训练方法、图像增强方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034984A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152123A (zh) * | 2023-04-21 | 2023-05-23 | 荣耀终端有限公司 | 图像处理方法、电子设备及可读存储介质 |
-
2022
- 2022-05-31 CN CN202210609855.9A patent/CN115034984A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152123A (zh) * | 2023-04-21 | 2023-05-23 | 荣耀终端有限公司 | 图像处理方法、电子设备及可读存储介质 |
CN116152123B (zh) * | 2023-04-21 | 2023-09-19 | 荣耀终端有限公司 | 图像处理方法、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | Learning a deep single image contrast enhancer from multi-exposure images | |
CN111968044B (zh) | 基于Retinex和深度学习的低照度图像增强方法 | |
CN109447907B (zh) | 一种基于全卷积神经网络的单图像增强方法 | |
CN110619593B (zh) | 一种基于动态场景的双曝光视频成像系统 | |
CN113454981A (zh) | 用于基于卷积神经网络的多个图像帧的多曝光融合及用于对多个图像帧去模糊的技术 | |
JP4772612B2 (ja) | エンハンスド出力画像を生成する方法及びシステム | |
CN113170030A (zh) | 使用神经网络对摄影曝光不足进行校正 | |
JP2007035028A (ja) | 高ダイナミックレンジ画像を生成する方法及び高ダイナミックレンジ出力画像を生成するシステム | |
Liu et al. | Survey of natural image enhancement techniques: Classification, evaluation, challenges, and perspectives | |
CN113450290B (zh) | 基于图像修补技术的低照度图像增强方法及系统 | |
US20210217151A1 (en) | Neural network trained system for producing low dynamic range images from wide dynamic range images | |
Ke et al. | Perceptual multi-exposure image fusion with overall image quality index and local saturation | |
CN115170915A (zh) | 一种基于端到端注意力网络的红外与可见光图像融合方法 | |
CN111372006A (zh) | 一种面向移动端的高动态范围成像方法及系统 | |
CN111242860A (zh) | 超级夜景图像的生成方法、装置、电子设备及存储介质 | |
Singh et al. | Weighted least squares based detail enhanced exposure fusion | |
CN113632134A (zh) | 使用预组合去噪的高动态范围图像生成 | |
Rasheed et al. | LSR: Lightening super-resolution deep network for low-light image enhancement | |
Liu et al. | Learning noise-decoupled affine models for extreme low-light image enhancement | |
CN112927162A (zh) | 一种面向低照度图像的增强方法及系统 | |
WO2012173571A1 (en) | A method and system for fusing images | |
CN115034984A (zh) | 图像增强模型的训练方法、图像增强方法、装置及设备 | |
US7248745B1 (en) | Differential image adjustments | |
Kakarala et al. | A method for fusing a pair of images in the JPEG domain | |
EP4222688A1 (en) | Permutation invariant high dynamic range imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |