CN115810112A - 图像处理方法、装置及存储介质、电子设备 - Google Patents
图像处理方法、装置及存储介质、电子设备 Download PDFInfo
- Publication number
- CN115810112A CN115810112A CN202111076848.9A CN202111076848A CN115810112A CN 115810112 A CN115810112 A CN 115810112A CN 202111076848 A CN202111076848 A CN 202111076848A CN 115810112 A CN115810112 A CN 115810112A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- processing method
- image processing
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 62
- 230000000694 effects Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000001308 synthesis method Methods 0.000 claims description 7
- 230000000903 blocking effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Geometry (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种图像处理方法、装置及存储介质、电子设备。其中,该图像处理方法,包括:获取包含第一区域的待处理图像;将所述待处理图像输入至经过训练的神经网络,获得去除所述第一区域的结果图,其中,所述神经网络包含双分支网络。本发明可以解决现有技术中容易在消除干扰区域的同时对图像背景层产生副作用且对硬件平台要求高的技术问题。
Description
技术领域
本发明涉及图像处理技术,具体而言,涉及一种图像处理方法、装置及存储介质、电子设备。
背景技术
摄影获得的图像含有反光、阴影、水渍、遮挡物等干扰区域是一种常见的现象,这些干扰区域通常会对图像的美观程度和质量产生负面影响。
现有的一种基于凸优化的快速单帧反光消除算法(Fast Single ImageReflection Suppression via Convex Optimization)是一种基于先验知识的通过求解凸优化问题进行反光消除的方法,通过“反光图是背景层和反光层的线性叠加”这一先验得到待求解的凸函数,然后通过凸优化方法求解最优解,将最优解作为反光消除的结果返回。但该算法忽视了实际场景中反光的复杂性和多样性,只在简单的反光情形下有一定的效果,当处理反光复杂、纹理多样的场景时,不仅反光无法准确消除,同时会错误地消除其他非反光区域的纹理。此外,该算法需要进行复杂度很高的余弦变换和余弦反变换,耗时非常长,在普通的移动设备上的可用性较差。
现有的另一种基于深度学习的反光消除方法,通过输入反光图样本,用背景图样本作为监督,训练卷积神经网络,同时通过多样的损失函数对训练过程进行监督,从而得到一个反光消除的网络模型,使用该网络模型对反光图进行处理,可以得到去反光后的结果。但该算法采用的网络模型十分庞大,包含了复杂的VGG19预训练头和13个残差网络块,推理速度非常慢,同时对设备的性能要求非常高,无法在手机上部署。此外,该算法在训练时,仅用背景图作为监督,忽略了反光层的成分,因此无法充分地让网络学习到反光层的特征,效果不佳。
因此,有必要提出一种图像处理技术,能够在有效消除反光、阴影、水渍、遮挡物等干扰区域的同时不对背景层产生显著的副作用,同时有较快的运行速度和可以接受的硬件配置要求。
发明内容
本发明实施例提供了一种图像处理方法、装置及存储介质、电子设备,以至少解决现有技术中容易在消除干扰区域的同时对图像背景层产生副作用且对硬件平台要求高的技术问题。
根据本发明实施例的一个方面,提供了一种图像处理方法,包括:获取包含第一区域的待处理图像;将所述待处理图像输入至经过训练的神经网络,获得去除所述第一区域的结果图,其中,所述神经网络包含双分支网络。
可选地,所述神经网络包括:特征提取模块,包含编码器,用于逐层提取所述待处理图像的特征,获得特征数据;第一图像输出模块,与所述特征提取模块的输出连接,包含第一解码器,用于基于所述特征数据输出第一图像;第二图像输出模块,与所述特征提取模块的输出连接,包含第二解码器,用于基于所述特征数据输出第二图像;结果图输出模块,与所述第一图像输出模块和/或所述第二图像输出模块连接,用于根据所述第一图像和/或所述第二图像输出去除所述第一区域的结果图。
可选地,所述第一区域为以下至少一种类型:反光区域、阴影区域、水渍区域、遮挡区域。
可选地,所述第一图像为背景图,所述第二图像为以下至少一种类型:反光图、阴影图、水渍图、遮挡图。
可选地,所述第一解码器和所述第二解码器各层的输出通过跨层连接与所述编码器对应层的输出沿着通道轴进行拼接,在所述编码器和所述第一解码器、所述第二解码器的跨层连接上添加多尺度金字塔池化模块,多尺度金字塔池化模块将不同尺度的特征进行融合。
可选地,在所述编码器和所述第一解码器、所述第二解码器的跨层连接上添加多尺度特征选择模块,所述多尺度特征选择模块动态地选择和调整每一种尺度的特征及比例。
可选地,所述编码器中的卷积层为分组卷积。
可选地,所述神经网络中的卷积算子为门控卷积。
可选地,在获取包含第一区域的待处理图像之后,所述图像处理方法还包括:采用图像金字塔算法对所述待处理图像进行降采样,并且在降采样的同时保存各级图层的梯度信息形成拉普拉斯金字塔;将尺寸最小的图层送入经过训练的神经网络,获得输出图像;使用拉普拉斯金字塔对所述输出图像进行低分辨率到高分辨率的重建,获得去除所述第一区域的结果图。
可选地,上述图像处理方法还包括:构建初始神经网络;使用样本数据对所述初始神经网络进行训练,获得所述经过训练的神经网络,其中,所述样本数据包括第一样本图像和使用图像合成方法获得的第二样本图像。
可选地,使用图像合成方法获得第二样本图像包括:获取原始图像和参考图像;确定所述原始图像上的第一区域;生成一张与所述原始图像相同尺寸的掩模图像,并对与所述第一区域对应的第二区域的边界进行羽化处理,获得模糊效果的掩模图像;对所述参考图像进行高斯模糊,获得模糊效果的参考图像;根据所述原始图像、所述模糊效果的掩模图像和所述模糊效果的参考图像,合成所述第二样本图像。
可选地,根据所述原始图像、所述模糊效果的掩模图像和所述模糊效果的参考图像,合成所述第二样本图像包括:对所述模糊效果的掩模图像进行归一化,获得归一化的掩模图像;在与所述第一区域对应的所述第二区域中,将所述归一化的掩模图像中的像素与所述模糊效果的参考图像进行逐元素相乘,得到中间图像;将所述原始图像和所述中间图像进行线性叠加,合成所述第二样本图像。
可选地,使用样本数据对所述初始神经网络进行训练时,损失函数包含以下至少一项:像素损失、特征损失、结构相似性损失和对抗损失。
可选地,所述像素损失包含像素截断损失,当所述初始神经网络的输出图像和标签图像中对应的两个像素的绝对差值大于给定阈值时,计算所述两个像素的损失;当所述初始神经网络的输出图像和所述标签图像中对应的两个像素的绝对差值不大于所述给定阈值时,忽略所述两个像素的差异。
可选地,上述图像处理方法,使用VGG19网络作为初始神经网络的特征提取器,用于计算所述特征损失。
根据本发明实施例的另一个方面,提供了一种图像处理装置,包括:图像采集单元,用于获取包含第一区域的待处理图像;处理单元,用于接收待处理图像,并使用经过训练的神经网络对待处理图像进行处理,获得去除第一区域的结果图,其中,所述神经网络包含双分支网络。
可选地,所述神经网络包括:特征提取模块,包含编码器,用于逐层提取所述待处理图像的特征,获得特征数据;第一图像输出模块,与所述特征提取模块的输出连接,包含第一解码器,用于基于所述特征数据输出第一图像;第二图像输出模块,与所述特征提取模块的输出连接,包含第二解码器,用于基于所述特征数据输出第二图像;结果图输出模块,与所述第一图像输出模块和/或所述第二图像输出模块连接,用于根据所述第一图像和/或所述第二图像输出去除所述第一区域的结果图。
可选地,所述第一解码器和所述第二解码器各层的输出通过跨层连接与所述编码器对应层的输出沿着通道轴进行拼接,在所述编码器和所述第一解码器、所述第二解码器的跨层连接上添加多尺度金字塔池化模块,所述多尺度金字塔池化模块将不同尺度的特征进行融合。
根据本发明实施例的另一方面,还提供了一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的图像处理方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的图像处理方法。
本发明提出一种速度快、效果好的图像处理方法,能够抓住反光区域、阴影区域、水渍区域、遮挡区域等干扰区域的特点,通过合成具有强烈真实感的样本图像作为训练素材,同时结合多种不同的损失函数和有效的网络结构进行训练,能够较好地消除干扰区域,提高图像的质量和美观程度,并且通过采用降采样和网络剪枝等技术,处理高分辨率图像时能够具有较快的处理速度,能够适用于手机等算力不高的智能终端。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的图像处理方法的流程图;
图2是根据本发明实施例的一种可选的神经网络的结构图;
图3是根据本发明实施例的一种可选的训练神经网络的流程图;
图4是根据本发明实施例的一种可选的图像合成方法的流程图;
图5(a)和图5(b)是采用本发明实施例的图像处理方法实现的去除反光的效果对比图;
图6(a)和图6(b)是采用本发明实施例的图像处理方法实现的去除阴影的效果对比图;
图7是根据本发明实施例的一种可选的图像处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的顺序在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面说明本发明实施例的一种可选的图像处理方法的流程图。需要说明的是,在附图流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
参考图1,是根据本发明实施例的一种可选的图像处理方法的流程图。如图1所示,该图像处理方法包括如下步骤:
S100,获取包含第一区域的待处理图像;
S102,将待处理图像输入至经过训练的神经网络,获得去除第一区域的结果图,其中,所述神经网络包含双分支网络。
在一种可选的实施例中,第一区域可以为反光区域、阴影区域、水渍区域等等。
在一种可选的实施例中,如图2所示,神经网络为双分支网络,包括特征提取模块,第一图像输出模块,第二图像输出模块以及结果图输出模块。
特征提取模块,包含编码器,用于逐层提取待处理图像的特征,获得特征数据;
第一图像输出模块,与特征提取模块的输出连接,包含第一解码器,用于基于特征数据输出第一图像;
第二图像输出模块,与特征提取模块的输出连接,包含第二解码器,用于基于特征数据输出第二图像;
结果图输出模块,与第一图像输出模块和/或第二图像输出模块连接,用于根据第一图像和/或第二图像输出去除第一区域的结果图。
其中,第一图像为背景图,第二图像为反光图、阴影图、水渍图、遮挡图等。
在去除图像上的反光、阴影、水渍等应用场景中,结果图输出模块可以直接丢弃第二图像输出模块输出的第二图像,而直接将第一图像输出模块输出的第一图像作为去除反光、阴影、水渍、遮挡等干扰因素的结果图,经过处理的结果图可以用于提高后续其它图像处理的精度,例如图像分割、识别、分类等。
第一图像输出模块和第二图像输出模块构成共同以特征提取模块输出的特征数据为输入的二分支结构,通过对第一图像输出模块和第二图像输出模块两个分支同时进行监督训练,相比单输出的网络结构,本实施例中的神经网络能够更好地学习到第一图像和第二图像的差异性,更准确地提取第一区域,获得去除第一区域的结果图。
第一解码器和第二解码器各层的输出通过跨层连接与编码器对应层的输出沿着通道轴进行拼接。在编码器和第一解码器、第二解码器的跨层连接上添加多尺度金字塔池化模块。多尺度金字塔池化模块包括多个不同核尺寸的池化层、卷积层和插值上采样层,首先通过池化层提取不同尺度的特征,然后通过卷积层提取低级和/或高级特征,再通过插值上采样层将编码器和第一解码器、第二解码器对应层的输出调整成相同的尺寸,最后沿着通道轴拼合成一个特征。由于第一区域对图像的影响程度和面积在不同的图像中有很大的差异,因此,第一区域的判定既要参考局部的纹理特征,也要考虑到全局的语义信息。多尺度金字塔池化模块将不同尺度的特征进行了融合,增强了网络的泛化性,使得网络在处理具有不同面积和程度的第一区域的图像上都能取得较好的效果。
在另一种可选的实施例中,在编码器和第一解码器、第二解码器的跨层连接上还添加了多尺度特征选择模块,多尺度特征选择模块能够动态地选择和调整每一种尺度的特征及其比例,进一步提升模型对不同反光面积的适应能力。多尺度特征学习模块由4个并联的不同扩张系数的卷积层和一个特征融合层组成,卷积层的扩张系数依次加倍,相当于感受野依次扩大2倍、4倍和8倍,沿着通道轴将4种不同感受野的特征合并,再通过特征融合层动态调整每组特征的选择权重。通过带参数可学习的方式动态融合与选择不同尺度的特征,模型对不同面积和程度反光图的处理效果得到进一步强化提升。
为了提高模型在设备上的运行速度,可以对模型进行剪枝,将编码器中的卷积层替换为分组卷积,每个卷积核只对一个通道进行卷积,从而减少模型的运算量,提高处理速度。
为了提高模型的泛化能力和去反光效果,将卷积算子改为门控卷积(Gatedconv)。普通卷积会将输入的每个像素都当作有效输入,对于反光场景并不适用。反光层和背景层的像素需要加以区分,并在卷积计算时使用不同的特征选择权重。Gated conv对每个特征层的每个位置提供了一种可在线学习的,动态的特征选择机制,通过学习的机制区分反光层和背景层,并根据反光强度的不同,动态的调整反光层和背景层的特征选择权重。通过对反光层和背景层的动态学习与特征选择,模型能更好的区分反光层和背景层,并适应不同的反光强度,去反光的效果和泛化能力得到进一步提升。
当待处理图像的图像分辨率较高或数据量较大的时候,将待处理图像直接送入经过训练的神经网络会导致显存溢出或者导致处理时间过长影响用户体验,为了解决这个问题,可采用常规的插值缩放算法,但容易导致图像信息的损失,使得生成的图像无法完美地放大成原图。
考虑到第一区域通常没有显著的梯度信息这一特点,在一个可选的实施例中,可以采用图像金字塔算法先对待处理图像进行降采样,并且在降采样的同时保存各级图层的梯度信息形成拉普拉斯金字塔,然后将尺寸最小的图层送入经过训练的神经网络,获得输出图像;最后,使用拉普拉斯金字塔对输出图像进行低分辨率到高分辨率的重建,获得去除所述第一区域的结果图。由于第一区域的梯度信息很弱,因此,重建过程即使会将待处理图像的一些梯度信息复原,但也不会对去除第一区域的效果产生影响。利用降采样时保存的各级图层的梯度信息进行图像重建,从而实现在不影响图像分辨率的前提下消除反光。通过引入降采样和图像重建,一方面使得图像处理的速度得到了保证,另一方面不会影响图像处理前后的质量,有利于在手机端等算力不高的装置中处理高分辨率图像。
如图3所示,为了获得经过训练的神经网络,该图像处理方法还包括:
S300:构建初始神经网络;
S302:使用样本数据对初始神经网络进行训练,获得经过训练的神经网络,其中,样本数据包括第一样本图像和使用图像合成方法获得的第二样本图像。
在一种可选的实施例中,第一样本图像为背景样本图,第二样本图像为反光样本图、阴影样本图、水渍样本图、遮挡物样本图等。
用于训练初始神经网络的样本数据在整个图像处理方法中起着至关重要的作用,样本数据的获取主要有两种方法:实景采集和图像合成。
例如,针对待处理图像为包含反光区域的图像,用于训练初始神经网络的样本数据包括背景样本图和反光样本图。
在采用实景采集的方法中,采集人员选择有良好光源的室外或者室内环境,选择合适的反光角度,将手机或相机用三脚架固定,将一块透明玻璃置于镜头前,调整合适的角度营造反光后,进行拍照获得反光样本图;随后撤去玻璃,再次拍照,获得对应的背景样本图。
但是,实景采集通常难以保证样本数据具有较高的质量,一方面由于场景中行人、车辆等物体的移动,以及玻璃的光线折射等原因,反光样本图难以和背景样本图完全对齐,另一方面由于光线变化或者相机的焦点变化,反光样本图和背景样本图中会产生噪声,这些都会对网络的训练产生较大的影响。
对此,可以使用图像合成方法生成更加逼真的反光样本图。
如图4所示,在一个可选的实施例中,采用图像合成第二样本图像的方法包括:
S400:获取原始图像和参考图像;
原始图像和参考图像可以是通过摄像装置获取的任意两张图像,也可以是数据集中的任意两张图像,不要求原始图像和参考图像具有对应性。
S402:确定原始图像上的第一区域;
在一个可选的实施例中,确定原始图像上的第一区域包括:在原始图像上随机选取若干个点并连接成一个连通区域,将该连通区域作为第一区域;
S404:生成一张与原始图像相同尺寸的掩模图像,并对掩模图像中与第一区域对应的第二区域的边界进行羽化处理,获得模糊效果的掩模图像;
在一个可选的实施例中,掩模图像中与第一区域对应的区域中的像素值为255,其它区域的像素值为0。对与第一区域对应的区域的边界进行羽化处理的方法可以是高斯模糊等方法。
S406:对参考图像进行高斯模糊,获得模糊效果的参考图像;
S408:根据原始图像、模糊效果的掩模图像和模糊效果的参考图像,合成第二样本图像。
在一个可选的实施例中,根据原始图像、模糊效果的掩模图像和模糊效果的参考图像,合成第二样本图像包括:
对模糊效果的掩模图像进行归一化,获得归一化的掩模图像;
在与第一区域对应的第二区域中,将所述归一化的掩模图像中的像素与模糊效果的参考图像进行逐元素相乘,得到中间图像;
将原始图像和中间图像线性叠加,合成第二样本图像。
通过上述步骤S400-S408合成的第二样本图像,由于考虑到了第一区域的特点,即第一区域可能并非是占据整个第二样本图像的,而是仅仅占据第二样本图像的某个区域,使用这种合成的第二样本图像作为样本数据,可以引导网络识别第一区域和第一区域以外的区域,消除网络由于误识而在第一区域以外的区域上产生副作用;随机生成的连通区域及其边界羽化的操作使得第一区域的边界变得随机和模糊,提高了网络对第一区域的识别能力。
在一个可选的实施例中,样本数据的获取方法还可以包括对已经获取的样本数据进行随机翻转、旋转、通道交换、添加随机噪声等一项或多项处理,使得样本数据更为丰富,增加网络的鲁棒性。
在一个可选的实施例中,在使用样本数据对初始神经网络进行训练时,损失函数包含以下至少一项:像素损失、特征损失、结构相似性损失和对抗损失。
像素损失函数是从图像的像素层面衡量两图相似性的函数,主要有图像像素值损失和梯度损失。在本实施例中,主要指初始神经网络的输出图像和标签图像对比的像素值均方误差和两图梯度的L1范数误差的加权和。像素损失从像素层面监督训练过程,使初始神经网络的输出图像和标签图像的每个像素的像素值尽量接近。为了引导初始神经网络将注意力集中在第一样本图像和第二样本图像在第一区域的差异性而非全图的噪声,在一个可选的实施例中,可以引入像素截断损失,对像素损失进行截断,即当输出图像和标签图像中对应的两个像素的绝对差值大于给定阈值时,才计算两个像素的损失,否则忽略两个像素的差异。添加像素截断损失后,能够引导网络关注第一区域,抑制图像的噪声,不仅去除第一区域的效果有所增强,同时网络的收敛速度也大大加快。
特征损失函数是根据图像的语义特征衡量两图相似性的函数,常用的方法是将图像送入预训练好的网络并提取不同层次的特征,对特征计算相似性。在本实施例中,特征损失主要指初始神经网络的输入图像和标签图像对应特征的L1范数误差的加权和。在一种可选的实施例中,采用在ImageNet数据集上预训练的VGG19网络作为特征提取器,将初始神经网络的输出图像和标签图像分别送入该特征提取器,获取VGG19网络各层的特征,然后计算输入图像和标签图像对应特征的L1范数误差并加权求和。VGG19网络各层的特征对图像的细节和噪声不敏感,具有较好的语义特性,因此即使输入图像和输出图像存在噪声或者不对齐等缺陷,特征损失依然能够准确地生成有效的反光区域的差异,弥补了像素损失对噪声敏感的不足,具有很好的稳定性。
结构相似性损失函数是根据图像的全局特征衡量两图相似性的函数。在本实施例中,主要指初始神经网络的输出图像和标签图像在全局上的亮度与对比度差异,添加该损失函数可以有效抑制网络输出的偏色,提高图像的整体质量。
对抗损失主要是指判别器的输出结果和输出图像的真实类别的损失值。在训练的后期,初始神经网络的输出图像与标签图像的差异变得较小时,像素损失、特征损失、结构相似性损失的效果会逐渐变小,网络收敛变慢。此时同步训练一个判别器网络用于辅助网络的训练。首先将初始神经网络的输出图像和标签图像送入判别器,判别器对输出图像是否是标签图像进行判定,根据判别器的输出结果和输出图像的真实类别计算对抗损失并更新判别器参数。当判别器无法区分初始神经网络的输出图像和标签图像时,表明训练结束。对抗损失可以有效消除网络处理引起的图像副作用,提高网络输出图像的真实程度。
在一个可选的实施例中,初始神经网络的第一图像输出模块使用上述像素损失、特征损失和结构相似性损失的加权和的加权和作为总损失,同时采用Wassertein生成对抗网络作为对抗损失;初始神经网络的的第二图像输出模块以输入图像的灰度图和标签图像的灰度图的差值作为标签图像,使用像素损失作为总损失。
综上,本发明实施例采用的神经网络结构和损失函数可以应用在去除反光、去除阴影、去雨、去雾、去除栅栏等应用场景中,主要用于处理手机拍摄的高分辨率图像,但是同样适用于PC端或其他嵌入式设备中处理各种分辨率的图像。
图5(a)和图5(b)是采用本发明实施例的图像处理方法实现的去除反光的效果对比图,其中,图5(a)是包含反光区域的待处理图像,图5(b)是经过图像处理方法处理后的去反光图像,由两幅图对比可以看出,本发明提供的图像处理方法,能够在有效消除反光区域的同时不对背景图产生显著的副作用。
图6(a)和图6(b)是采用本发明实施例的图像处理方法实现的去除阴影的效果对比图,其中,图5(a)是包含阴影区域的待处理图像,图5(b)是经过图像处理方法处理后的去阴影图像,由两幅图对比可以看出,本发明提供的图像处理方法,能够在有效消除阴影区域的同时不对背景图产生显著的副作用。
虽然图5(a)、图5(b)和图6(a)、图6(b)给出的是使用本发明实施例提供的图像处理方法对报刊书籍进行反光去除的效果。但是,本领域技术人员可知,通过对训练数据的替换,同样可以实现较佳的去阴影、去除水渍(例如,去雨、去雾)、去除遮挡物(例如,去栅栏)等干扰因素的效果。在智能驾驶领域中,能够及时处理车载摄像头获取的图像,获得清晰的去除干扰因素的高质量图像,为辅助驾驶功能提供保障。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的图像处理方法。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的图像处理方法。
根据本发明实施例的另一方面,还提供了一种图像处理装置。参考图7,是根据本发明实施例的一种可选的图像处理装置的结构框图。如图7所示,图像处理装置70包括图像采集单元700、处理单元702。
下面对图像处理装置70包含的各个单元进行具体描述。
图像采集单元700,用于获取包含第一区域的待处理图像。
处理单元702,用于接收待处理图像,并使用经过训练的神经网络对待处理图像进行处理,获得去除第一区域的结果图,其中,所述神经网络包含双分支网络。
在一种可选的实施例中,第一区域可以为反光区域、阴影区域、水渍区域、遮挡物等等。
在一种可选的实施例中,神经网络的结构如图2所示及本文相关描述,在此不再展开赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (20)
1.一种图像处理方法,包括:
获取包含第一区域的待处理图像;
将所述待处理图像输入至经过训练的神经网络,获得去除所述第一区域的结果图,其中,所述神经网络包含双分支网络。
2.根据权利要求1所述的图像处理方法,其特征在于,所述神经网络包括:
特征提取模块,包含编码器,用于逐层提取所述待处理图像的特征,获得特征数据;
第一图像输出模块,与所述特征提取模块的输出连接,包含第一解码器,用于基于所述特征数据输出第一图像;
第二图像输出模块,与所述特征提取模块的输出连接,包含第二解码器,用于基于所述特征数据输出第二图像;
结果图输出模块,与所述第一图像输出模块和/或所述第二图像输出模块连接,用于根据所述第一图像和/或所述第二图像输出去除所述第一区域的结果图。
3.根据权利要求1所述的图像处理方法,其特征在于,所述第一区域为以下至少一种类型:反光区域、阴影区域、水渍区域、遮挡区域。
4.根据权利要求2所述的图像处理方法,其特征在于,所述第一图像为背景图,所述第二图像为以下至少一种类型:反光图、阴影图、水渍图、遮挡图。
5.根据权利要求2所述的图像处理方法,其特征在于,所述第一解码器和所述第二解码器各层的输出通过跨层连接与所述编码器对应层的输出沿着通道轴进行拼接,在所述编码器和所述第一解码器、所述第二解码器的跨层连接上添加多尺度金字塔池化模块,所述多尺度金字塔池化模块将不同尺度的特征进行融合。
6.根据权利要求5所述的图像处理方法,其特征在于,在所述编码器和所述第一解码器、所述第二解码器的跨层连接上添加多尺度特征选择模块,所述多尺度特征选择模块动态地选择和调整每一种尺度的特征及比例。
7.根据权利要求2所述的图像处理方法,其特征在于,所述编码器中的卷积层为分组卷积。
8.根据权利要求1所述的图像处理方法,其特征在于,所述神经网络中的卷积算子为门控卷积。
9.根据权利要求1所述的图像处理方法,其特征在于,在获取包含第一区域的待处理图像之后,所述图像处理方法还包括:
采用图像金字塔算法对所述待处理图像进行降采样,并且在降采样的同时保存各级图层的梯度信息形成拉普拉斯金字塔;
将尺寸最小的图层送入经过训练的神经网络,获得输出图像;
使用拉普拉斯金字塔对所述输出图像进行低分辨率到高分辨率的重建,获得去除所述第一区域的结果图。
10.根据权利要求1所述的图像处理方法,还包括:
构建初始神经网络;
使用样本数据对所述初始神经网络进行训练,获得所述经过训练的神经网络,其中,所述样本数据包括第一样本图像和使用图像合成方法获得的第二样本图像。
11.根据权利要求10所述的图像处理方法,其特征在于,使用图像合成方法获得第二样本图像包括:
获取原始图像和参考图像;
确定所述原始图像上的第一区域;
生成一张与所述原始图像相同尺寸的掩模图像,并对与所述第一区域对应的第二区域的边界进行羽化处理,获得模糊效果的掩模图像;
对所述参考图像进行高斯模糊,获得模糊效果的参考图像;
根据所述原始图像、所述模糊效果的掩模图像和所述模糊效果的参考图像,合成所述第二样本图像。
12.根据权利要求11所述的图像处理方法,其特征在于,根据所述原始图像、所述模糊效果的掩模图像和所述模糊效果的参考图像,合成所述第二样本图像包括:
对所述模糊效果的掩模图像进行归一化,获得归一化的掩模图像;
在与所述第一区域对应的所述第二区域中,将所述归一化的掩模图像中的像素与所述模糊效果的参考图像进行逐元素相乘,得到中间图像;
将所述原始图像和所述中间图像进行线性叠加,合成所述第二样本图像。
13.根据权利要求11所述的图像处理方法,其特征在于,使用样本数据对所述初始神经网络进行训练时,损失函数包含以下至少一项:像素损失、特征损失、结构相似性损失和对抗损失。
14.根据权利要求13所述的图像处理方法,其特征在于,所述像素损失包含像素截断损失,当所述初始神经网络的输出图像和标签图像中对应的两个像素的绝对差值大于给定阈值时,计算所述两个像素的损失;当所述初始神经网络的输出图像和所述标签图像中对应的两个像素的绝对差值不大于所述给定阈值时,忽略所述两个像素的差异。
15.根据权利要求13所述的图像处理方法,其特征在于,使用VGG19网络作为初始神经网络的特征提取器,用于计算所述特征损失。
16.一种图像处理装置,包括:
图像采集单元,用于获取包含第一区域的待处理图像;
处理单元,用于接收待处理图像,并使用经过训练的神经网络对待处理图像进行处理,获得去除第一区域的结果图,其中,所述神经网络包含双分支网络。
17.根据权利要求16所述的图像处理装置,其特征在于,所述神经网络包括:
特征提取模块,包含编码器,用于逐层提取所述待处理图像的特征,获得特征数据;
第一图像输出模块,与所述特征提取模块的输出连接,包含第一解码器,用于基于所述特征数据输出第一图像;
第二图像输出模块,与所述特征提取模块的输出连接,包含第二解码器,用于基于所述特征数据输出第二图像;
结果图输出模块,与所述第一图像输出模块和/或所述第二图像输出模块连接,用于根据所述第一图像和/或所述第二图像输出去除所述第一区域的结果图。
18.根据权利要求17所述的图像处理方法,其特征在于,所述第一解码器和所述第二解码器各层的输出通过跨层连接与所述编码器对应层的输出沿着通道轴进行拼接,在所述编码器和所述第一解码器、所述第二解码器的跨层连接上添加多尺度金字塔池化模块,所述多尺度金字塔池化模块将不同尺度的特征进行融合。
19.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至15中任意一项所述的图像处理方法。
20.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至15中任意一项所述的图像处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076848.9A CN115810112A (zh) | 2021-09-14 | 2021-09-14 | 图像处理方法、装置及存储介质、电子设备 |
KR1020220103291A KR102628115B1 (ko) | 2021-09-14 | 2022-08-18 | 영상 처리 방법, 장치, 기록 매체 및 전자 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076848.9A CN115810112A (zh) | 2021-09-14 | 2021-09-14 | 图像处理方法、装置及存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115810112A true CN115810112A (zh) | 2023-03-17 |
Family
ID=85481594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111076848.9A Pending CN115810112A (zh) | 2021-09-14 | 2021-09-14 | 图像处理方法、装置及存储介质、电子设备 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102628115B1 (zh) |
CN (1) | CN115810112A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863343B (zh) * | 2023-09-04 | 2024-01-23 | 中国地质大学(武汉) | 一种深度学习模型、海底底质解译方法、装置及介质 |
CN117333382A (zh) * | 2023-09-07 | 2024-01-02 | 广东奥普特科技股份有限公司 | 反光擦除网络的训练及其反光擦除方法、装置和设备 |
-
2021
- 2021-09-14 CN CN202111076848.9A patent/CN115810112A/zh active Pending
-
2022
- 2022-08-18 KR KR1020220103291A patent/KR102628115B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20230039520A (ko) | 2023-03-21 |
KR102628115B1 (ko) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Ultra-high-definition image dehazing via multi-guided bilateral learning | |
CN112233038B (zh) | 基于多尺度融合及边缘增强的真实图像去噪方法 | |
CN101422035B (zh) | 光源推定装置、光源推定系统与光源推定方法以及图像高分辨率化装置与图像高分辨率化方法 | |
CN110675336A (zh) | 一种低照度图像增强方法及装置 | |
KR102628115B1 (ko) | 영상 처리 방법, 장치, 기록 매체 및 전자 장치 | |
CN111079764B (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN112529776B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN111612717A (zh) | 一种基于对抗网络的水面图像去反光修复方法和装置 | |
Moghimi et al. | Real-time underwater image resolution enhancement using super-resolution with deep convolutional neural networks | |
CN116012232A (zh) | 图像处理方法、装置及存储介质、电子设备 | |
CN114004766A (zh) | 一种水下图像增强方法、系统和设备 | |
Singh et al. | Visibility enhancement and dehazing: Research contribution challenges and direction | |
Zhang et al. | Enhanced visual perception for underwater images based on multistage generative adversarial network | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN117078574A (zh) | 一种图像去雨方法及装置 | |
Liu et al. | Dual UNet low-light image enhancement network based on attention mechanism | |
CN116363027A (zh) | 一种利用红外图去除屏下rgb图像彩虹状眩光方法、设备及存储介质 | |
CN114862695A (zh) | 一种基于场景深度的单图像去雨雾方法、设备及存储介质 | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 | |
Anitha et al. | GEVE: A generative adversarial network for extremely dark image/video enhancement | |
Wei et al. | Dehazing algorithm for unmanned surface vessel based on GAN-U-Net++ network | |
Deivalakshmi et al. | Single Image Dehazing Using Multipath Networks Based on Chain of U-Nets | |
CN117876470B (zh) | 一种透明光学透镜激光条中心线提取方法及系统 | |
Zhang et al. | Research on Single Object Detection Technology Based on Infrared Multi-spectrum Fusion | |
CN116664420A (zh) | 一种低光条件去反射方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |