CN116012232A - 图像处理方法、装置及存储介质、电子设备 - Google Patents
图像处理方法、装置及存储介质、电子设备 Download PDFInfo
- Publication number
- CN116012232A CN116012232A CN202111210502.3A CN202111210502A CN116012232A CN 116012232 A CN116012232 A CN 116012232A CN 202111210502 A CN202111210502 A CN 202111210502A CN 116012232 A CN116012232 A CN 116012232A
- Authority
- CN
- China
- Prior art keywords
- image
- shadow
- map
- output
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000001308 synthesis method Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 5
- 238000005530 etching Methods 0.000 claims description 4
- 230000003628 erosive effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 19
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000007797 corrosion Effects 0.000 description 3
- 238000005260 corrosion Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像处理方法、装置及存储介质、电子设备。其中,该图像处理方法,包括:获取包含阴影区域的待处理图像;将待处理图像输入至经过训练的神经网络,获得去阴影图像;其中,神经网络包含两级级联的第一级网络和第二级网络,第一级网络接收待处理图像并输出阴影区域掩模图,第二级网络同时接收待处理图像和阴影区域掩模图,并输出去阴影图像。本发明可以解决现有技术中容易在消除阴影区域的同时对图像背景层产生副作用且对硬件平台要求高的技术问题。
Description
技术领域
本发明涉及图像处理技术,具体而言,涉及一种图像处理方法、装置及存储介质、电子设备。
背景技术
当人们用手机拍摄文档时,经常会由于手和手机对光线的遮挡以及环境中其它物体对光线的遮挡而在文档上留下阴影,从而影响拍摄出来的图像的视觉体验,通过计算机视觉处理技术对拍摄后的图像进行处理,消除阴影,恢复出阴影背后的文字和图画内容可以有效提高图像的质量,因此,文档阴影消除是一项有重要意义的技术,能够较大地提高摄制的图像的质量,具有广阔的市场前景。
有效地消除阴影层的同时不对背景层产生显著的副作用,同时有较快的运行速度和可以接受的硬件配置要求,是阴影消除方法应用在手机上的基本需求和主要的挑战,当前的阴影消除方法要么无法将阴影去除干净,要么会损失背景层的信息,要么运行速度慢,均不利于普通用户的使用。
现有的一种阴影消除方法使用包含三个模块的神经网络,分别是全局定位模块、外观建模模块和语义建模模块。全局定位模块负责对阴影区域进行检测,获取阴影区域的位置特征;外观建模模块用于学习非阴影区域的特征,使得网络的输出与标注数据(GroundTruth,GT)在非阴影区域保持一致;语义建模模块用于恢复阴影背后的原始内容。但是该方法并非直接输出消除阴影后的背景图,而是阴影图与背景图的比值,需要进一步用阴影图与网络输出逐像素相除以得到背景图,从而引入了更大的计算量,同时除法可能因为被0除的问题,影响计算稳定性。
因此,有必要提出一种图像处理技术,能够在有效消除阴影的同时不对背景层产生显著的副作用,同时有较快的运行速度和可以接受的硬件配置要求。
发明内容
本发明实施例提供了一种图像处理方法、装置及存储介质、电子设备,以至少解决现有技术中容易在消除阴影区域的同时对图像背景层产生副作用且对硬件平台要求高的技术问题。
根据本发明实施例的一个方面,提供了一种图像处理方法,包括:获取包含阴影区域的待处理图像;将待处理图像输入至经过训练的神经网络,获得去阴影图像;其中,神经网络包含两级级联的第一级网络和第二级网络,第一级网络接收待处理图像并输出阴影区域掩模图,第二级网络同时接收待处理图像和阴影区域掩模图,并输出去阴影图像。
可选地,第一级网络包括:第一特征提取模块,包含第一编码器,用于逐层提取待处理图像的特征,获得第一组特征数据;阴影区域估计模块,与第一特征提取模块的输出连接,包含第一解码器,用于基于第一组特征数据估计阴影区域并输出阴影区域掩模图。
可选地,第二级网络包括:第二特征提取模块,包含第二编码器,与第一级网络的输出连接,在接收待处理图像的同时接收第一级网络输出的阴影区域掩模图,用于获得第二组特征数据;结果图输出模块,与第二特征提取模块的输出相连,包含第二解码器,用于基于第二组特征数据输出去阴影图像。
可选地,第一解码器或第二解码器各层的输出通过跨层连接与第一编码器或第二编码器对应层的输出沿着通道轴进行拼接,在第一解码器或第二解码器以及第一编码器或第二编码器的跨层连接上添加多尺度金字塔池化模块,多尺度金字塔池化模块将不同尺度的特征进行融合。
可选地,在获取包含阴影区域的待处理图像之后,图像处理方法还包括:采用图像金字塔算法对待处理图像进行降采样,并且在降采样的同时保存各级图层的梯度信息形成拉普拉斯金字塔;将尺寸最小的图层送入经过训练的神经网络,获得输出图像;使用拉普拉斯金字塔对输出图像进行低分辨率到高分辨率的重建,获得去阴影图像。
可选地,上述图像处理方法,还包括:构建初始神经网络;使用样本数据对初始神经网络进行训练,获得经过训练的神经网络,其中,样本数据包括实拍图和合成阴影图,合成阴影图使用图像合成方法用纯阴影图和无阴影图合成。
可选地,使用图像合成方法用纯阴影图和无阴影图合成上述合成阴影图包括:获取纯阴影图;获取无阴影图;基于纯阴影图和无阴影图,获得合成阴影图。
可选地,使用图像合成方法用纯阴影图和无阴影图合成上述合成阴影图还包括:对纯阴影图进行变换,基于经过变换的纯阴影图与无阴影图,获得合成阴影图,其中,所述经过变换的纯阴影图中非阴影区域的像素值统一设置为一个固定数值a,阴影区域的像素值则为0ˉa之间的数值,a为正整数。
可选地,初始神经网络还包括对样本数据进行类别判断的模块,当判断出输入初始神经网络的样本数据为实拍图时,标注数据为实景采集的去阴影图像,根据初始神经网络输出的去阴影图像和作为标注数据的去阴影图像之间的差异调整第二级网络内部的参数;当判断出输入初始神经网络的样本数据为合成阴影图时,标注数据包括实景采集的无阴影图像和纯阴影图,根据阴影区域掩模图和纯阴影图之间的差异调整第一级网络内部的参数,根据初始神经网络输出的去阴影图像和无阴影图像之间的差异调整第二级网络内部的参数。
可选地,使用样本数据对初始神经网络进行训练时,损失函数包含以下至少一项:像素损失、特征损失、结构相似性损失、对抗损失、阴影边缘损失、阴影亮度损失。
可选地,像素损失包含像素截断损失,当初始神经网络的输出图像和标签图像中对应的两个像素的绝对差值大于给定阈值时,计算两个像素的损失;当初始神经网络的输出图像和标签图像中对应的两个像素的绝对差值不大于给定阈值时,忽略两个像素的差异。
可选地,阴影亮度损失,使得神经网络输出的去阴影图中与阴影区域对应的区域的亮度与输入的待处理图像中的阴影区域的亮度差值大于0,用于提升去阴影图像中与阴影区域对应的区域的亮度。
可选地,当损失函数包括阴影边缘损失时,上述图像处理方法包括:对阴影区域掩模图做膨胀处理,获得膨胀图;对阴影区域掩模图做腐蚀处理,获得腐蚀图;获取膨胀图和腐蚀图的差集作为阴影和非阴影的边界区域,并使用TVLoss进行平滑
根据本发明实施例的另一方面,还提供了一种图像处理装置,包括:图像采集单元,用于获取包含阴影区域的待处理图像;处理单元,用于接收待处理图像,并使用经过训练的神经网络对待处理图像进行处理,获得去阴影图像;其中,神经网络包含两级级联的第一级网络和第二级网络,第一级网络接收待处理图像并输出阴影区域掩模图,第二级网络同时接收待处理图像和阴影区域掩模图,并输出去阴影图像。
可选地,第一级网络包括:第一特征提取模块,包含第一编码器,用于逐层提取待处理图像的特征,获得第一组特征数据;阴影区域估计模块,与第一特征提取模块的输出连接,包含第一解码器,用于基于第一组特征数据估计阴影区域并输出阴影区域掩模图。
可选地,第二级网络包括:第二特征提取模块,包含第二编码器,与第一级网络的输出连接,在接收待处理图像的同时接收第一级网络输出的阴影区域掩模图,用于获得第二组特征数据;结果图输出模块,与第二特征提取模块的输出相连,包含第二解码器,用于基于第二组特征数据输出去阴影图像。
根据本发明实施例的另一方面,还提供了一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的图像处理方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的图像处理方法。
本发明提出一种速度快、效果好的可适用于手机等移动终端的阴影消除方法,抓住阴影这一物理现象的特点,合成具有强烈真实感的训练素材,同时结合多种不同的损失函数和有效的网络结构与模块进行训练,实现效果较好的阴影消除,针对手机等移动终端拍摄的图像分辨率高的特点,本发明采用了降采样技术和网络剪枝技术,在高分辨率的图上依然能达到很快的处理速度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的图像处理方法的流程图;
图2是根据本发明实施例的一种可选的神经网络的结构图;
图3是根据本发明实施例的一种可选的训练神经网络的流程图;
图4是根据本发明实施例的一种可选的图像合成方法的流程图;
图5(a)和图5(b)是采用本发明实施例的图像处理方法实现去阴影的效果对比图;
图6是根据本发明实施例的一种可选的图像处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的顺序在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面说明本发明实施例的一种可选的图像处理方法的流程图。需要说明的是,在附图流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
参考图1,是根据本发明实施例的一种可选的图像处理方法的流程图。如图1所示,该图像处理方法包括如下步骤:
S100,获取包含阴影区域的待处理图像;
S102,将待处理图像输入至经过训练的神经网络,获得去阴影图像;其中,神经网络包含两级级联的第一级网络和第二级网络,第一级网络接收待处理图像并输出阴影区域掩模图,第二级网络同时接收待处理图像和阴影区域掩模图,并输出去阴影图像。
通过上述图像处理方法,可以得到准确的阴影区域边界,并且获得的去阴影图像能够在阴影和非阴影之间平滑过渡。
在一种可选的实施例中,如图2所示,神经网络包含两级级联的第一级网络20和第二级网络22,第一级网络包括第一特征提取模块200和阴影区域估计模块202,第二级网络包括第二特征提取模块204和结果图输出模块206。其中,第一特征提取模块200,包含第一编码器,用于逐层提取待处理图像的特征,获得第一组特征数据;阴影区域估计模块202,与第一特征提取模块200的输出连接,包含第一解码器,用于基于第一组特征数据估计阴影区域并输出阴影区域掩模图;第二特征提取模块204,包含第二编码器,与第一级网络的输出连接,在接收待处理图像的同时接收第一级网络输出的阴影区域掩模图,用于获得第二组特征数据;结果图输出模块206,与第二特征提取模块204的输出相连,包含第二解码器,用于基于第二组特征数据输出去阴影图像。通过两阶段级联神经网络,可以增强阴影的去除效果。在一种可选的实施例中,第一级网络和第二级网络除了输入的通道数不同外,具有相同的结构,例如,可以基于经典分割网络UNet构建。
两个编码器各层的输出通过跨层连接分别与两个解码器对应层的输出沿着通道轴进行拼接。在编码器和解码器的跨层连接上添加多尺度金字塔池化模块。多尺度金字塔池化模块包括多个不同核尺寸的池化层、卷积层和插值上采样层,首先通过池化层提取不同尺度的特征,然后通过卷积层提取低级和/或高级特征,再通过插值上采样层将编码器和解码器对应层的输出调整成相同的尺寸,最后沿着通道轴拼合成一个特征。由于阴影的影响程度和面积在不同的图像中有很大的差异,因此,阴影区域的判定既要参考局部的纹理特征,也要考虑到全局的语义信息。多尺度金字塔池化模块将不同尺度的特征进行了融合,增强了网络的泛化性,使得网络在不同面积和程度的阴影图上都能取得较好的效果。
为了提高模型在设备上的运行速度,可以对模型进行剪枝,将编码器中的卷积层替换为分组卷积,每个卷积核只对一个通道进行卷积,从而减少模型的运算量,提高处理速度。
为了更好地抑制协方差漂移,增强网络对数据的拟合能力,在编码器和解码器的卷积层后添加实例正则化层对特征进行正则化,从而提高阴影的去除效果。
当待处理图像的图像分辨率较高或数据量较大的时候,将待处理图像直接送入经过训练的神经网络会导致显存溢出或者导致处理时间过长影响用户体验,为了解决这个问题,可采用常规的插值缩放算法,但容易导致图像信息的损失,使得生成的图像无法完美地放大成原图。
考虑到阴影区域通常没有显著的梯度信息这一特点,在一个可选的实施例中,可以采用图像金字塔算法先对待处理图像进行降采样,并且在降采样的同时保存各级图层的梯度信息形成拉普拉斯金字塔,然后将金字塔尺寸最小的图层送入经过训练的神经网络,获得输出图像;最后,使用拉普拉斯金字塔对输出图像进行重建,由于阴影区域的梯度信息很弱,因此,重建过程即使会将待处理图像的一些梯度信息复原,但也不会对去阴影效果产生影响。利用降采样时保存的各级图层的梯度信息进行图像重建,从而实现在不影响图像分辨率的前提下消除阴影。通过引入降采样和图像重建,一方面使得图像处理的速度得到了保证,另一方面不会影响图像处理前后的质量,有利于在手机端等算力不高的装置中处理高分辨率图像。
如图3所示,为了获得经过训练的神经网络,该图像处理方法还包括:
S300:构建初始神经网络;
S302:使用样本数据对初始神经网络进行训练,获得经过训练的神经网络,其中,样本数据包括实拍图和合成阴影图,合成阴影图由纯阴影图和无阴影图合成。
由于用户常拍摄的图像中阴影种类非常丰富,从阴影的边缘来区分,包括光源离背景距离较近时拍摄出的清晰锐利的阴影边缘,以及光源离背景距离较远时拍摄出的模糊的、过渡平缓的阴影边缘;除此以外,当光源呈现不同的颜色时(例如偏红黄色的暖色光和偏蓝的冷色光和日光),阴影也会出现不同的颜色。因此,考虑到这些特点,用于训练初始神经网络的样本数据在整个图像处理方法中起着至关重要的作用,样本数据的获取主要有两种方法:实景采集和图像合成。
在采用实景采集的方法中,采集人员按照场景类别(例如,不同的光照场景,暖光、冷光、日光等)选择对应的光线环境和拍摄对象,将手机或相机等拍摄装置用三脚架固定,调整合适的光照方向和焦距,使用手掌、手机或其它常见物体作为遮挡物进行遮光,在拍摄对象上形成阴影并进行拍摄得到阴影图,然后撤去遮挡物再次拍摄得到无阴影的背景图,这样就得到成对的样本数据。
但是,实景采集通常难以保证样本数据具有较高的质量,一方面由于遮挡产生的光线变化,背景图和阴影图在非阴影区域会产生亮度和色彩的差异,同时阴影图难以和背景图完全对齐;另一方面由于光线变化或者焦点变化,阴影图和背景图中会产生噪声,这些都会对网络的训练产生较大的影响。
对此,可以使用图像合成方法生成逼真的合成阴影图用于神经网络的训练。
在一个可选的实施例中,图像合成方法包括:
S400:获取纯阴影图;
在一种可选的实施例中,数据采集人员在预设光线环境下,在桌面上平铺一张白纸,使用手掌、手机或其它常见物体进行遮光,在白纸上留下纯阴影图S,其中,纯阴影图S的全部或部分区域为阴影区域;
由于在获取纯阴影图时,白纸上的非阴影区域可能不会显示为纯白色,导致非阴影区域与阴影区域的边界不够明显。因此,在另一种可选的实施例中,还可以对纯阴影图进行变换,例如,S'=min(a,S/mean(S)*a),其中,a为正整数。通过上述变换,可以将经过变换的纯阴影图中非阴影区域的像素值统一设置为一个固定数值a(例如255),阴影区域的像素值则为0ˉa之间的数值,使得纯阴影图中非阴影区域与阴影区域之间具有较为清晰的边界。
S402:获取无阴影图;
在一种可选的实施例中,数据采集人员在上述相同光线环境下拍摄各类拍摄对象的无阴影图B;
S404:基于纯阴影图和无阴影图,获得合成阴影图;
在一种可选的实施例中,将纯阴影图S(或经过变换的纯阴影图S')与无阴影图B逐像素相乘,得到合成阴影图。
这种图像合成方法考虑到阴影对光线的削弱作用,可以较好的处理边缘过渡平缓的阴影,具有较强的真实感。
由于样本数据为包含实拍图和合成阴影图的混合数据,初始神经网络还包括对样本数据进行类别判断的模块,当判断出输入初始神经网络的样本数据为实拍图时,标注数据(Ground Truth,GT)为实景采集的去阴影图像,由于实拍图的阴影区域掩模图不可调整,因此,可以根据初始神经网络输出的去阴影图像和作为标注数据GT的去阴影图像之间的差异调整第二级网络内部22的参数;当判断出输入初始神经网络的样本数据为合成阴影图时,标注数据(Ground Truth,GT)包括实景采集的无阴影图像和纯阴影图,根据阴影区域掩模图和纯阴影图之间的差异调整第一级网络20内部的参数,根据初始神经网络输出的去阴影图像和作为标注数据的无阴影图之间的差异调整第二级网络22内部的参数。通过使用混合数据作为样本数据进行训练,对于过渡平缓的阴影而言,能够获取其准确的掩膜,保证掩膜分割的质量,提高阴影消除的效果。
在一个可选的实施例中,样本数据的获取方法还可以包括对已经获取的样本数据进行随机翻转、旋转、色温调节、通道交换、添加随机噪声等一项或多项处理,使得样本数据更为丰富,增加网络的鲁棒性。
在一个可选的实施例中,在对初始神经网络进行监督训练时,损失函数包含以下至少一项:像素损失、特征损失、结构相似性损失和对抗损失。
像素损失函数是从图像的像素层面衡量两图相似性的函数,主要有图像像素值损失和梯度损失。在本实施例中,主要指初始神经网络的输出图像和标签图像对比的像素值均方误差和两图梯度的L1范数误差的加权和。像素损失从像素层面监督训练过程,使初始神经网络的输出图像和标签图像的每个像素的像素值尽量接近。为了引导初始神经网络将注意力集中在阴影层和背景层在阴影区域的差异性而非全图的噪声,在一个可选的实施例中,可以引入像素截断损失,对像素损失进行截断,即当两个像素的绝对差值大于给定阈值时,才计算两个像素的损失,否则忽略两个像素的差异。添加像素截断损失后,能够引导网络关注阴影区域,抑制图像的噪声,不仅去阴影的效果有所增强,同时网络的收敛速度也大大加快。
特征损失主要指初始神经网络的输入图像和标签图像对应特征的L1范数误差的加权和。在一种可选的实施例中,采用在ImageNet数据集上预训练的VGG19网络作为特征提取器,将初始神经网络的输出图像和标签图像分别送入该特征提取器,获取VGG19各层的特征然后计算输入图像和标签图像对应特征的L1范数误差并加权求和。VGG19各层的特征对图像的细节和噪声不敏感,具有较好的语义特性,因此即使输入图像和输出图像存在噪声或者不对齐等缺陷,特征损失依然能够准确地生成有效的阴影区域的差异,弥补了像素损失对噪声敏感的不足,具有很好的稳定性。
结构相似性损失函数是根据图像的全局特征衡量两图相似性的函数。在本实施例中,主要指初始神经网络的输出图像和标签图像在全局上的亮度与对比度差异,添加该损失函数可以有效抑制网络输出的偏色,提高图像的整体质量。
对抗损失主要是指判别器的输出结果和输出图像的真实类别的损失值。在训练的后期,初始神经网络的输出图像与标签图像的差异变得较小时,像素损失、特征损失、结构相似性损失的效果会逐渐变小,网络收敛变慢。此时同步训练一个判别器网络用于辅助网络的训练。首先将初始神经网络的输出图像和标签图像送入判别器,判别器对输出图像是否是标签图像进行判定,根据判别器的输出结果和输出图像的真实类别计算损失并更新判别器参数;随后将判别器对输出图像的判别结果作为输出图像的真实程度的损失,用该损失更新判别器的参数。当判别器无法区分初始神经网络的输出图像和标签图像时,表明训练结束。对抗损失可以有效消除网络处理引起的图像副作用(例如,阴影与非阴影区域颜色不一致的问题,阴影残留问题等),提高网络输出图像的真实程度。
阈值截断损失。由于光照的影响,实景采集的成对数据在非阴影区域也可能出现轻微的亮度差异和颜色变化,而这些差异是用户可以接受的,无需处理。因此在训练过程中,为了防止网络的注意力集中在这些全局的微小差异上,该方法引入阈值截断损失,即仅当网络的输出和GT之间的差异大于给定阈值时才将该差异汇总计入总体损失计算参数的梯度,否则认为损失是0。该损失函数容忍了网络的输出与GT之间存在的微小差异,将网络学习的重心转移到差异较大的区域,从而有效提高了网络对较为明显的阴影的消除能力。
阴影边缘损失。首先,对阴影区域掩模图做膨胀处理,获得膨胀图;其次,对阴影区域掩模图做腐蚀处理,获得腐蚀图;然后,获取膨胀图和腐蚀图的差集作为获得阴影和非阴影的边界区域,并使用TVLoss进行平滑,可以有效的过渡阴影和非阴影区域。
阴影亮度损失,使得神经网络输出的去阴影图中与阴影区域对应的区域的亮度与输入的待处理图像中的阴影区域的亮度差值大于0,用于提升去阴影图像中与阴影区域对应的区域的亮度。
在一个可选的实施例中,初始神经网络的背景层输出模块使用上述所有损失的加权和作为总损失,同时采用Wassertein生成对抗网络作为对抗损失。
该网络结构提取了输入图像的全局特征和局部特征,提高阴影的消除程度,同时保护非阴影区域不出现副作用。
图5(a)和图5(b)是采用本发明实施例的图像处理方法实现的处理效果对比图,其中,图5(a)是包含阴影的待处理图像,图5(b)是经过图像处理方法处理后的去阴影图像,由两幅图对比可以看出,本发明提供的图像处理方法,能够在有效消除阴影的同时不对背景层产生显著的副作用。
本发明实施例采用的神经网络结构和损失函数也可以应用在去除阴影、去雨去雾等应用场景中,主要用于处理手机等移动终端拍摄的高分辨率图像,但是同样适用于PC端或其他嵌入式设备中处理各种分辨率的图像。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的图像处理方法。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的图像处理方法。
根据本发明实施例的另一方面,还提供了一种图像处理装置。参考图6,是根据本发明实施例的一种可选的图像处理装置的结构框图。如图6所示,图像处理装置60包括图像采集单元600、处理单元602。
下面对图像处理装置60包含的各个单元进行具体描述。
图像采集单元600,用于获取包含阴影区域的待处理图像。
处理单元602,用于接收待处理图像,并使用经过训练的神经网络对待处理图像进行处理,获得去阴影图像,其中,神经网络包含两级级联的第一级网络和第二级网络,待处理图像和第一级网络的输出图像同时输入至第二级网络。
在一种可选的实施例中,神经网络的结构如图2所示及本文相关描述,在此不再展开赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (18)
1.一种图像处理方法,包括:
获取包含阴影区域的待处理图像;
将所述待处理图像输入至经过训练的神经网络,获得去阴影图像;其中,所述神经网络包含两级级联的第一级网络和第二级网络,所述第一级网络接收所述待处理图像并输出阴影区域掩模图,所述第二级网络同时接收所述待处理图像和所述阴影区域掩模图,并输出所述去阴影图像。
2.根据权利要求1所述的图像处理方法,其特征在于,所述第一级网络包括:
第一特征提取模块,包含第一编码器,用于逐层提取所述待处理图像的特征,获得第一组特征数据;
阴影区域估计模块,与所述第一特征提取模块的输出连接,包含第一解码器,用于基于所述第一组特征数据估计阴影区域并输出阴影区域掩模图。
3.根据权利要求1所述的图像处理方法,其特征在于,所述第二级网络包括:
第二特征提取模块,包含第二编码器,与所述第一级网络的输出连接,在接收待处理图像的同时接收所述第一级网络输出的阴影区域掩模图,用于获得第二组特征数据;
结果图输出模块,与所述第二特征提取模块的输出相连,包含第二解码器,用于基于所述第二组特征数据输出所述去阴影图像。
4.根据权利要求2或3所述的图像处理方法,其特征在于,所述第一解码器或所述第二解码器各层的输出通过跨层连接与所述第一编码器或所述第二编码器对应层的输出沿着通道轴进行拼接,在所述第一解码器或所述第二解码器以及所述第一编码器或所述第二编码器的跨层连接上添加多尺度金字塔池化模块,所述多尺度金字塔池化模块将不同尺度的特征进行融合。
5.根据权利要求1所述的图像处理方法,其特征在于,在获取包含阴影区域的待处理图像之后,所述图像处理方法还包括:
采用图像金字塔算法对所述待处理图像进行降采样,并且在降采样的同时保存各级图层的梯度信息形成拉普拉斯金字塔;
将尺寸最小的图层送入经过训练的神经网络,获得输出图像;
使用拉普拉斯金字塔对所述输出图像进行低分辨率到高分辨率的重建,获得所述去阴影图像。
6.根据权利要求1所述的图像处理方法,还包括:
构建初始神经网络;
使用样本数据对所述初始神经网络进行训练,获得所述经过训练的神经网络,其中,所述样本数据包括实拍图和合成阴影图,所述合成阴影图使用图像合成方法用纯阴影图和无阴影图合成。
7.根据权利要求1所述的图像处理方法,其特征在于,使用图像合成方法用纯阴影图和无阴影图合成所述合成阴影图包括:
获取纯阴影图;
获取无阴影图;
基于所述纯阴影图和所述无阴影图,获得所述合成阴影图。
8.根据权利要求7所述的图像处理方法,其特征在于,使用图像合成方法用纯阴影图和无阴影图合成所述合成阴影图还包括:对所述纯阴影图进行变换,基于经过变换的纯阴影图与所述无阴影图,获得所述合成阴影图,其中,所述经过变换的纯阴影图中非阴影区域的像素值统一设置为一个固定数值a,阴影区域的像素值则为0ˉa之间的数值,a为正整数。
9.根据权利要求7所述的图像处理方法,其特征在于,所述初始神经网络还包括对样本数据进行类别判断的模块,当判断出输入所述初始神经网络的样本数据为实拍图时,标注数据为实景采集的去阴影图像,根据所述初始神经网络输出的所述去阴影图像和作为所述标注数据的所述去阴影图像之间的差异调整所述第二级网络内部的参数;当判断出输入所述初始神经网络的样本数据为合成阴影图时,所述标注数据包括实景采集的所述无阴影图像和所述纯阴影图,根据所述阴影区域掩模图和所述纯阴影图之间的差异调整第一级网络内部的参数,根据所述初始神经网络输出的去阴影图像和所述无阴影图像之间的差异调整第二级网络内部的参数。
10.根据权利要求6所述的图像处理方法,其特征在于,使用样本数据对所述初始神经网络进行训练时,损失函数包含以下至少一项:像素损失、特征损失、结构相似性损失、对抗损失、阴影边缘损失、阴影亮度损失。
11.根据权利要求10所述的图像处理方法,其特征在于,所述像素损失包含像素截断损失,当所述初始神经网络的输出图像和标签图像中对应的两个像素的绝对差值大于给定阈值时,计算所述两个像素的损失;当所述初始神经网络的输出图像和所述标签图像中对应的两个像素的绝对差值不大于所述给定阈值时,忽略所述两个像素的差异。
12.根据权利要求10所述的图像处理方法,其特征在于,所述阴影亮度损失,使得所述神经网络输出的所述去阴影图中与所述阴影区域对应的区域的亮度与输入的所述待处理图像中的所述阴影区域的亮度差值大于0,用于提升所述去阴影图像中与所述阴影区域对应的区域的亮度。
13.根据权利要求10所述的图像处理方法,其特征在于,当所述损失函数包括所述阴影边缘损失时,所述图像处理方法包括:对所述阴影区域掩模图做膨胀处理,获得膨胀图;对所述阴影区域掩模图做腐蚀处理,获得腐蚀图;获取所述膨胀图和所述腐蚀图的差集作为阴影和非阴影的边界区域,并使用TVLoss进行平滑。
14.一种图像处理装置,包括:
图像采集单元,用于获取包含阴影区域的待处理图像;
处理单元,用于接收待处理图像,并使用经过训练的神经网络对待处理图像进行处理,获得去阴影图像;其中,所述神经网络包含两级级联的第一级网络和第二级网络,所述第一级网络接收所述待处理图像并输出阴影区域掩模图,所述第二级网络同时接收所述待处理图像和所述阴影区域掩模图,并输出所述去阴影图像。
15.根据权利要求14所述的图像处理装置,其特征在于,所述第一级网络包括:
第一特征提取模块,包含第一编码器,用于逐层提取所述待处理图像的特征,获得第一组特征数据;
阴影区域估计模块,与所述第一特征提取模块的输出连接,包含第一解码器,用于基于所述第一组特征数据估计阴影区域并输出阴影区域掩模图。
16.根据权利要求14所述的图像处理装置,其特征在于,所述第二级网络包括:
第二特征提取模块,包含第二编码器,与所述第一级网络的输出连接,在接收待处理图像的同时接收所述第一级网络输出的阴影区域掩模图,用于获得第二组特征数据;
结果图输出模块,与所述第二特征提取模块的输出相连,包含第二解码器,用于基于所述第二组特征数据输出去阴影图像。
17.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至13中任意一项所述的图像处理方法。
18.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至13中任意一项所述的图像处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111210502.3A CN116012232A (zh) | 2021-10-18 | 2021-10-18 | 图像处理方法、装置及存储介质、电子设备 |
PCT/CN2022/125573 WO2023066173A1 (zh) | 2021-10-18 | 2022-10-17 | 图像处理方法、装置及存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111210502.3A CN116012232A (zh) | 2021-10-18 | 2021-10-18 | 图像处理方法、装置及存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116012232A true CN116012232A (zh) | 2023-04-25 |
Family
ID=86019717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111210502.3A Pending CN116012232A (zh) | 2021-10-18 | 2021-10-18 | 图像处理方法、装置及存储介质、电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116012232A (zh) |
WO (1) | WO2023066173A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575976A (zh) * | 2024-01-12 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 图像阴影的处理方法、装置、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310276B (zh) * | 2023-05-24 | 2023-08-08 | 泉州装备制造研究所 | 目标检测方法、装置、电子设备及存储介质 |
CN117726550B (zh) * | 2024-02-18 | 2024-04-30 | 成都信息工程大学 | 一种多尺度门控注意力遥感图像去雾方法和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10026004B2 (en) * | 2016-07-08 | 2018-07-17 | Conduent Business Services, Llc | Shadow detection and removal in license plate images |
CN111626951B (zh) * | 2020-05-20 | 2023-04-18 | 武汉科技大学 | 一种基于内容感知信息的图像阴影消除方法 |
CN112819720B (zh) * | 2021-02-02 | 2023-10-03 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN112991329A (zh) * | 2021-04-16 | 2021-06-18 | 浙江指云信息技术有限公司 | 一种基于gan的图像阴影检测和消除方法 |
CN113222845A (zh) * | 2021-05-17 | 2021-08-06 | 东南大学 | 基于卷积神经网络的肖像外部阴影去除方法 |
-
2021
- 2021-10-18 CN CN202111210502.3A patent/CN116012232A/zh active Pending
-
2022
- 2022-10-17 WO PCT/CN2022/125573 patent/WO2023066173A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575976A (zh) * | 2024-01-12 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 图像阴影的处理方法、装置、设备及存储介质 |
CN117575976B (zh) * | 2024-01-12 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 图像阴影的处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023066173A1 (zh) | 2023-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wan et al. | CoRRN: Cooperative reflection removal network | |
WO2022110638A1 (zh) | 人像修复方法、装置、电子设备、存储介质和程序产品 | |
CN116012232A (zh) | 图像处理方法、装置及存储介质、电子设备 | |
US10528820B2 (en) | Colour look-up table for background segmentation of sport video | |
US11651477B2 (en) | Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks | |
Park et al. | Single image haze removal with WLS-based edge-preserving smoothing filter | |
US11393100B2 (en) | Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network | |
CN111626951B (zh) | 一种基于内容感知信息的图像阴影消除方法 | |
CN110276831B (zh) | 三维模型的建构方法和装置、设备、计算机可读存储介质 | |
CN109829925B (zh) | 一种在抠图任务中提取干净前景的方法及模型训练方法 | |
KR102628115B1 (ko) | 영상 처리 방법, 장치, 기록 매체 및 전자 장치 | |
CN114627269A (zh) | 一种基于深度学习目标检测的虚拟现实安防监控平台 | |
Wang et al. | Single Underwater Image Enhancement Based on $ L_ {P} $-Norm Decomposition | |
Zhang et al. | A GPU-accelerated real-time single image de-hazing method using pixel-level optimal de-hazing criterion | |
CN110580696A (zh) | 一种细节保持的多曝光图像快速融合方法 | |
CN112614149A (zh) | 基于实例分割的语义合成方法 | |
US20220398704A1 (en) | Intelligent Portrait Photography Enhancement System | |
CN113674230B (zh) | 一种室内逆光人脸关键点的检测方法及装置 | |
Yao et al. | A multi-expose fusion image dehazing based on scene depth information | |
KR20140138046A (ko) | 픽처를 처리하기 위한 방법 및 디바이스 | |
Hsu et al. | A hybrid algorithm with artifact detection mechanism for region filling after object removal from a digital photograph | |
CN113724153A (zh) | 一种基于机器学习的图像多余人物消除方法 | |
Wang et al. | A encoder-decoder deblurring network combined with high-frequency a priori | |
Pawar et al. | A comparative study of effective way to modify different object in image and video using different inpainting methods | |
Jeong et al. | Photo quality enhancement by relocating subjects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |