CN115131252B - 基于二次编解码结构的金属物体表面高光去除方法 - Google Patents
基于二次编解码结构的金属物体表面高光去除方法 Download PDFInfo
- Publication number
- CN115131252B CN115131252B CN202211064191.9A CN202211064191A CN115131252B CN 115131252 B CN115131252 B CN 115131252B CN 202211064191 A CN202211064191 A CN 202211064191A CN 115131252 B CN115131252 B CN 115131252B
- Authority
- CN
- China
- Prior art keywords
- highlight
- detection
- removal
- layer
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000002184 metal Substances 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 174
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 61
- 230000004913 activation Effects 0.000 claims description 51
- 238000010606 normalization Methods 0.000 claims description 43
- 238000010586 diagram Methods 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/92—Dynamic range modification of images or parts thereof based on global image properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于二次编解码结构的金属物体表面高光去除方法,包括如下步骤:S1、采集原图像建立训练集,并根据数据集中含有高光的原图像,获得高光区域与非高光区域的像素分类训练集;S2、构建高光检测网络,将高光图像输入到高光检测网络,结合兴趣区域掩码输出高光检测的分类结果;S3、根据分类结果,计算损失并更新高光检测网络;S4、构建高光去除网络,输出高光去除结果;S5、根据无高光真值和S4的输出,计算损失并更新高光去除网络。该方法在保证物体颜色一致性与不失真的前提下,去除金属物体表面的高光构成一个适用性广的高光去除网络架构。
Description
技术领域
本发明涉及镜面高光移除技术领域,具体指一种基于二次编解码结构的金属物体表面高光去除方法。
背景技术
在工业环境中,使用计算机视觉的方法的对金属物体的测量、重建等工作受到了表面高光的影响,会产生错误的结果。而且由于金属物体之间的差异性和环境的复杂性,各种各样的高光的去除是一个难题。
镜面反射高光效果是相机图像中的一种严重干扰。来自表面的光反射可分为两大类:漫反射和镜面反射。漫反射分量是由光线穿透表面、经历多次反射和折射并在表面重新出现而产生的。另一方面,镜面反射成分是一种表面现象。入射在表面上的光线被反射,使得反射角等于入射角。在图像中,物体表面的漫反射能很好的表现物体本身的形状颜色等信息,而镜面反射表现为亮点,即饱和度高的高光像素。
大多数算法用于计算机视觉、计算机图形学和图像处理的众多任务,如立体匹配、光一致性、分割、识别和跟踪,都是在完美朗伯曲面(完美漫反射)假设下工作的,没有考虑非朗伯表面造成的镜面高光。镜面高光的存在会造成细节和颜色信息的损失。细节和颜色在高光区域完全被冲淡,使得后期阶段的缺陷检测、物体测量等步骤很难正常进行。例如工业场景中在检测维护时,往往需要对目标进行补光,此时金属表面容易产生高光区域,对检测造成一定干扰,导致算法在应用中产生错误的结果。
金属物体表面的高光的呈现受到多方面因素的影响。一方面受到金属物体的材质、表面形状的影响,另一方面和光源的性质、颜色、照射角度等因素相关。使得高光可能出现在物体的任何位置,且形状多变,这些都会影响最终呈现效果,给高光去除工作增加不可控变量。而且在实际的检修场景下,光源、物体、背景等因素的构成往往较复杂,给高光去除的工作又增添了许多难度。
发明内容
本发明是为了克服工业金属零件因为镜面高光的存在而影响其他算法效果的技术问题,针对现有技术的不足,本发明提出了一种基于二次编解码结构的金属物体表面高光去除方法,在保证物体颜色一致性与不失真的前提下,去除金属物体表面的高光构成一个适用性广的高光去除网络架构。
为了解决上述技术问题,本发明的技术方案为:
一种基于二次编码解码结构的金属物体表面高光去除方法,包括如下步骤:
S1、采集原图像建立训练集,并根据数据集中含有高光的原图像,获得高光区域与非高光区域的像素分类训练集;
S2、构建高光检测网络,将高光图像输入到高光检测网络,通过检测编码器中多个编码模块与检测解码器中多个解码模块,结合兴趣区域掩码输出高光检测的分类结果,所述分类结果包括将原图像分为非高光区域和高光区域两个类别,即高光掩码;
S3、根据S2中得到原图像的分类结果,计算损失并更新高光检测网络;
S4、构建高光去除网络,并将含有高光的原图像和高光检测网络输出的高光掩码输入到高光去除网络,通过去除编码器中多个编码模块与去除解码器中多个解码模块,输出高光去除结果;
S5、根据无高光真值和S4的输出,计算损失并更新高光去除网络。
作为优选,所述像素分类训练集的构建方法为:含有高光的图像以像素为单位分为两部分,分别为高光区域和非高光区域,并将分类结果图像用黑白两种颜色表示,白色表示高光区域,黑色表示非高光区域。
作为优选,所述高光检测网络由检测编码器和检测解码器组成,检测编码器包括五个检测编码模块,检测解码器包括五个检测解码模块,
第一个所述检测编码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层;
第二至四个所述检测编码模块结构相同,其组成依次为池化层、卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层;
第五个所述检测编码模块组成依次为池化层、卷积层、批量归一化层、Relu激活函数层;
第一个所述检测解码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、双线性插值层;
第二至四个所述检测解码模块结构相同,其组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层、双线性插值层;
第五个所述检测解码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层、卷积层。
作为优选,所述步骤S2具体包括如下子步骤:
S2-1、将像素分类训练集中含有高光的图像输入到高光检测网络中,依次经过五个检测编码模块,
通过第一个检测编码模块的第一个卷积层将输入图变为维度64的特征图,其他层不改变维度和大小,得到长宽不变,通道数为64的特征图;
将通道数为64的特征图输入到第二个检测编码模块,通过第二个检测编码模块的池化层将通道数为64的特征图的长宽减半,第二个检测编码模块的第一个卷积层将长宽减半后的特征图的通道数增加一倍,其他层不改变通道数和长宽,最终得到通道数翻倍、长宽为原图一半的特征图;
通道数翻倍、长宽为原图一半的特征图输入到第三个检测编码模块,第三、四个检测编码模块操作同第二个检测编码模块相同;
通过第五个检测编码模块的池化层将特征图的长宽减半,其他层不改变通道数和长宽,最终得到通道数为512、长宽为原图十六分之一的特征图;
S2-2、由步骤S2-1得到的通道数为512、长宽为原图十六分之一的特征图,依次经过五个检测解码模块,
通过第一个检测解码模块的双线性插值层将通道数为512、长宽为原图十六分之一的特征图的长宽变为原来的两倍,其他层不改变通道数和长宽,最后将第一个检测解码模块的输出与第四个检测编码模块的输出作通道维度上的拼接,变为通道数为1024的特征图,输入到第二个检测解码模块;
通过第二个检测解码模块的第一个卷积层将输入的特征图的通道数减半,双线性插值层将长宽变为原来的两倍,最后将此模块的输出与第三个检测编码模块的输出作通道维度上的拼接,输入到第三个检测解码模块;
第三、四个检测解码模块与第二个检测解码模块操作相同,第三个检测解码模块的拼接操作对象是第二个检测编码模块的输出;第四个检测解码模块的拼接操作对象是第一个检测编码模块的输出;
第五个检测解码模块的第一个卷积层将输入的特征图通道数减半,最后一个卷积层将特征图的通道数变为2,分别对应高光区域和非高光区域的分类结果;
S2-3、根据兴趣区域掩码,将检测解码器的输出做筛选处理,输出最终的分类结果,即高光掩码,所述兴趣区域掩码为实际需要检测的区域,它将原图分为两部分,需要检测高光的区域,不需要检测高光的区域。
作为优选,所述步骤S3包括如下子步骤:
S3-1、将高光检测网络输出的分类结果与真实的分类结果计算交叉熵损失,具体如下:
其中p(x)是真实分布,q(x)是预测分布,在此表示输出的高光像素分类结果分布与真实的像素分类结果分布。
S3-2、再将高光检测网络输出的分类结果与真实的分类结果计算戴斯相似性系数,具体如下:
S3-3、根据S3-1、S3-2的损失函数计算出输出分类结果与真值之间的损失并使用反向传播算法更新高光检测网络各层的参数。
作为优选,所述高光去除网络由去除编码器和去除解码器组成,去除编码器包括八个高光去除编码模块,去除解码器包括九个高光去除解码模块,
第一个所述高光去除编码模块组成依次为部分卷积层、Relu激活函数层,第二至第八个所述高光去除编码模块结构相同,其组成依次为部分卷积层、批量归一化层、Relu激活函数层;
第一个所述高光去除解码模块组成为最邻近上采样层;
第二至八个高光去除解码模块组成依次为部分卷积层、批量归一化层、LeakyRelu激活函数层和最邻近上采样层;
第九个所述高光去除解码模块组成为部分卷积层。
作为优选,所述步骤S4包括如下子步骤:
S4-1、将含有高光的原图像和高光掩码输入到高光去除网络,依次通过各个高光去除编码模块,输入图经过第一个高光去除编码模块变为长宽为原来的一半,通道数为64的特征图,并输入到第下一个高光去除编码模块;
通过第二至四个高光去除编码模块依次将通道数为64的特征图的通道数翻倍,长宽缩减一半;
通过第五至八个高光去除编码模块依次将第四个高光去除编码模块输出的特征图长宽缩减一半,通道数不变,最终输出通道数为512、长宽为原来二百五十六分之一的特征图;
S4-2、由步骤S4-1得到通道数为512、长宽为原来二百五十六分之一的特征图依次经过九个高光去除解码模块,通过第一个高光去除解码模块将特征图的长宽变为两倍,通道数不变,将第一个高光去除解码模块的输出与第七个高光去除编码模块的输出在通道维度上做拼接,得到通道数翻倍的特征图,输入到下一个解码模块;
通过第二个高光去除解码模块将通道数翻倍的特征图通道数减半,长宽翻倍,并与第六个高光去除编码模块的输出在通道维度上做拼接,输入到下一个解码模块;
通过第三、四、五个高光去除解码模块与第二个解码模块操作相同,分别与第五个、第四个、第三个高光去除编码模块的输出拼接;
通过第六个高光去除解码模块将特征图通道数变为256,长宽翻倍,与第二个高光去除编码模块输出做拼接,输入到下一个解码模块;
通过第七个高光去除解码模块将特征图通道数减半,长宽翻倍,与第一个高光去除编码模块的输出在通道维度上做拼接,输入到下一个解码模块;
第八个高光去除解码模块与第七个高光去除解码模块操作相同,其拼接对象为原图像;
最终经过第九个高光去除解码模块,输出通道数为3的结果图;
S4-3、最终输出高光去除的结果。
作为优选,所述步骤S5包括如下子步骤:
S5-1、将高光去除网络生成的图片,结合高光掩码,将高光去除网络生成的图片的非高光区域替换为原图的非高光区域,如下:
S5-2、在S5-1的基础上,损失函数如下:
其中的来源是感知损失,为的所有通道的元素,其个数为,将输入到ImageNet预先训练的VGG(Visual Geometry Group Network)-16网络,得到不同阶段的特征图,即为第p层的激活映射,
S5-3、根据S5-2的损失函数计算出真值与高光去除网络的输出图之间的损失并使用反向传播算法更新高光去除网络各层的参数。
本发明具有以下的特点和有益效果:
1、结合反射模型中镜面反射和漫反射的由于不同的反射性质形成的对图像不同的表现,使用编码-解码的像素级分类网络实现金属物体表面高光区域的准确检测;
2、本发明所设计二次编码-解码高光去除网络架构,其适用性广,基本上能够实现所有金属物体表面高光的去除作业;
3、使用了部分卷积和多类损失函数,在保证高光去除后物体颜色一致性与不失真。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的的方法流程图;
图2是本发明的总体的网络结构示意图。
图3是本发明的高光检测网络的结构示意图。
图4是本发明的高光去除网络的结构示意图。
图5是应用本发明实施例的高光去除效果对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
本发明提供了一种基于二次编码解码结构的金属物体表面高光去除方法,如图1所示,包括如下步骤:
S1、采集原图像建立训练集,并根据数据集中含有高光的原图像,获得高光区域与非高光区域的像素分类训练集。
具体的,所述像素分类训练集的构建方法为:含有高光的图像以像素为单位分为两部分,分别为高光区域和非高光区域,并将分类结果图像用黑白两种颜色表示,白色表示高光区域,黑色表示非高光区域。
S2、构建高光检测网络,将高光图像输入到高光检测网络,通过检测编码器中多个编码模块与检测解码器中多个解码模块,结合兴趣区域掩码输出高光检测的分类结果,所述分类结果包括将原图像分为非高光区域和高光区域两个类别,即高光掩码。
具体的,如图2所示,所述高光检测网络由检测编码器和检测解码器组成,所述高光去除网络由去除编码器和去除解码器组成。
进一步的,如图3所示,检测编码器包括五个检测编码模块,检测解码器包括五个检测解码模块。
其中,第一个所述检测编码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层;
第二至四个所述检测编码模块结构相同,其组成依次为池化层、卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层;
第五个所述检测编码模块组成依次为池化层、卷积层、批量归一化层、Relu激活函数层;
第一个所述检测解码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、双线性插值层;
第二至四个所述检测解码模块结构相同,其组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层、双线性插值层;
第五个所述检测解码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层、卷积层。
所述步骤S2中,通过高光检测网络实现下述步骤:
S2-1、将像素分类训练集中含有高光的图像输入到高光检测网络中,依次经过五个检测编码模块,
通过第一个检测编码模块的第一个卷积层将输入图变为维度64的特征图,其他层不改变维度和大小,得到长宽不变,通道数为64的特征图;
将通道数为64的特征图输入到第二个检测编码模块,通过第二个检测编码模块的池化层将通道数为64的特征图的长宽减半,第二个检测编码模块的第一个卷积层将长宽减半后的特征图的通道数增加一倍,其他层不改变通道数和长宽,最终得到通道数翻倍、长宽为原图一半的特征图;
通道数翻倍、长宽为原图一半的特征图输入到第三个检测编码模块,第三、四个检测编码模块操作同第二个检测编码模块相同;
通过第五个检测编码模块的池化层将特征图的长宽减半,其他层不改变通道数和长宽,最终得到通道数为512、长宽为原图十六分之一的特征图;
S2-2、由步骤S2-1得到的通道数为512、长宽为原图十六分之一的特征图,依次经过五个检测解码模块,
通过第一个检测解码模块的双线性插值层将通道数为512、长宽为原图十六分之一的特征图的长宽变为原来的两倍,其他层不改变通道数和长宽,最后将第一个检测解码模块的输出与第四个检测编码模块的输出作通道维度上的拼接,变为通道数为1024的特征图,输入到第二个检测解码模块;
通过第二个检测解码模块的第一个卷积层将输入的特征图的通道数减半,双线性插值层将长宽变为原来的两倍,最后将此模块的输出与第三个检测编码模块的输出作通道维度上的拼接,输入到第三个检测解码模块;
第四、四个检测解码模块与第二个检测解码模块操作相同,第三个检测解码模块的拼接操作对象是第二个检测编码模块的输出;第四个检测解码模块的拼接操作对象是第一个检测编码模块的输出;
第五个检测解码模块的第一个卷积层将输入的特征图通道数减半,最后一个卷积层将特征图的通道数变为2,分别对应高光区域和非高光区域的分类结果;
S2-3、根据兴趣区域掩码,将检测解码器的输出做筛选处理,输出最终的分类结果,即高光掩码,所述兴趣区域掩码为实际需要检测的区域,它将原图分为两部分,需要检测高光的区域,不需要检测高光的区域。
需要说明的是,上述检测编码模块和检测解码模块中所提及批量归一化层、Relu激活函数层、批量归一化层、双线性插值层均为常规技术手段。
其中,批量归一化层包含了归一化算法,归一化算法是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。本实施例中主要用于对卷积层提取的特征图进行归一化操作。
相同Relu激活函数层包含了Relu激活函数,其中Relu激活函数“全名RectifiedLinear Unit”,意思是修正线性单元。Relu激活函数用于神经网络的激活。
ReLU函数其实是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。
ReLU的优点:ReLu具有稀疏性,可以使稀疏后的模型能够更好地挖掘相关特征,拟合训练数据;在x>0区域上,不会出现梯度饱和、梯度消失的问题;计算复杂度低,不需要进行指数运算,只要一个阈值就可以得到激活值。
双线性插值层包含了双线性插值算法,双线性插值算法又称为双线性内插。在数学上,双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值。双线性插值作为数值分析中的一种插值算法,广泛应用在信号处理,数字图像和视频处理等方面。本实施例中,通过双线性插值层将完成处理的特征图进行线性插值扩展。
因此,本实施例中不再对上述常规算法进行具体的描述和说明。
S3、根据S2中得到原图像的分类结果,计算损失并更新高光检测网络。
具体的,包括如下子步骤:
S3-1、将高光检测网络输出的分类结果与真实的分类结果计算交叉熵损失,具体如下:
其中p(x)是真实分布,q(x)是预测分布,在此表示输出的高光像素分类结果分布与真实的像素分类结果分布。
S3-2、再将高光检测网络输出的分类结果与真实的分类结果计算戴斯相似性系数,具体如下:
S3-3、根据S3-1、S3-2的损失函数计算出输出分类结果与真值之间的损失并使用反向传播算法更新高光检测网络各层的参数。
需要说明的是,反向传播算法,简称BP算法,适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系:一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射,这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合,因此具有很强的函数复现能力。这是BP算法得以应用的基础。
S4、构建高光去除网络,并将含有高光的原图像和高光检测网络输出的高光掩码输入到高光去除网络,通过去除编码器中多个编码模块与去除解码器中多个解码模块,输出高光去除结果。
具体的,如图4所示,去除编码器包括八个高光去除编码模块,去除解码器包括九个高光去除解码模块。
其中,第一个所述高光去除编码模块组成依次为部分卷积层、Relu激活函数层,第二至第八个所述高光去除编码模块结构相同,其组成依次为部分卷积层、批量归一化层、Relu激活函数层;
第一个所述高光去除解码模块组成为最邻近上采样层;
第二至八个高光去除解码模块组成依次为部分卷积层、批量归一化层、LeakyRelu激活函数层和最邻近上采样层;
第九个所述高光去除解码模块组成为部分卷积层。
需要说明的是,上述所提及批量归一化层、Relu激活函数层、最邻近上采样层均为常规技术手段。
可以理解的,通过批量归一化层对提取的特征图进行归一化处理,通过Relu激活函数层激活整个神经网络,通过最邻近上采样层对相邻的输出进行上采样。
通过上述高光去除网络实现一下步骤:
S4-1、将含有高光的原图像和高光掩码输入到高光去除网络,依次通过各个高光去除编码模块,输入图经过第一个高光去除编码模块变为长宽为原来的一半,通道数为64的特征图,并输入到第下一个高光去除编码模块;
通过第二至四个高光去除编码模块依次将通道数为64的特征图的通道数翻倍,长宽缩减一半;
通过第五至八个高光去除编码模块依次将第四个高光去除编码模块输出的特征图长宽缩减一半,通道数不变,最终输出通道数为512、长宽为原来二百五十六分之一的特征图;
S4-2、由步骤S4-1得到通道数为512、长宽为原来二百五十六分之一的特征图依次经过九个高光去除解码模块,通过第一个高光去除解码模块将特征图的长宽变为两倍,通道数不变,将第一个高光去除解码模块的输出与第七个高光去除编码模块的输出在通道维度上做拼接,得到通道数翻倍的特征图,输入到下一个解码模块;
通过第二个高光去除解码模块将通道数翻倍的特征图通道数减半,长宽翻倍,并与第六个高光去除编码模块的输出在通道维度上做拼接,输入到下一个解码模块;
通过第三、四、五个高光去除解码模块与第二个解码模块操作相同,分别与第五个、第四个、第三个高光去除编码模块的输出拼接;
通过第六个高光去除解码模块将特征图通道数变为256,长宽翻倍,与第二个高光去除编码模块输出做拼接,输入到下一个解码模块;
通过第七个高光去除解码模块将特征图通道数减半,长宽翻倍,与第一个高光去除编码模块的输出在通道维度上做拼接,输入到下一个解码模块;
第八个高光去除解码模块与第七个高光去除解码模块操作相同,其拼接对象为原图像;
最终经过第九个高光去除解码模块,输出通道数为3的结果图;
S4-3、最终输出高光去除的结果。
S5、根据无高光真值和S4的输出,计算损失并更新高光去除网络。
具体的,包括如下子步骤:
S5-1、将高光去除网络生成的图片,结合高光掩码,将高光去除网络生成的图片的非高光区域替换为原图的非高光区域,如下:
S5-2、在S5-1的基础上,损失函数如下:
其中的来源是感知损失,为的所有通道的元素,其个数为,将输入到ImageNet预先训练的VGG(Visual Geometry Group Network)-16网络,得到不同阶段的特征图,即为第p层的激活映射,
S5-3、根据S5-2的损失函数计算出真值与高光去除网络的输出图之间的损失并使用反向传播算法更新高光去除网络各层的参数。
如图5所示,本发明通过上述技术方案,能够很好的实现去除高光效果,并且输出图像,不存在失真现象。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (7)
1.一种基于二次编码解码结构的金属物体表面高光去除方法,其特征在于,包括如下步骤:
S1、采集原图像建立训练集,并根据数据集中含有高光的原图像,获得高光区域与非高光区域的像素分类训练集;
S2、构建高光检测网络,将高光图像输入到高光检测网络,通过检测编码器中多个编码模块与检测解码器中多个解码模块,结合兴趣区域掩码输出高光检测的分类结果,所述分类结果包括将原图像分为非高光区域和高光区域两个类别,即高光掩码,所述高光检测网络由检测编码器和检测解码器组成,检测编码器包括五个检测编码模块,检测解码器包括五个检测解码模块;
具体实现方法如下:
S2-1、将像素分类训练集中含有高光的图像输入到高光检测网络中,依次经过五个检测编码模块,得到通道数为512、长宽为原图十六分之一的特征图;
S2-2、由步骤S2-1得到的通道数为512、长宽为原图十六分之一的特征图,依次经过五个检测解码模块,
S2-3、根据兴趣区域掩码,将检测解码器的输出做筛选处理,输出最终的分类结果,即高光掩码,所述兴趣区域掩码为实际需要检测的区域,它将原图分为两部分,需要检测高光的区域,不需要检测高光的区域;
S3、根据S2中得到原图像的分类结果,计算损失并更新高光检测网络;
S4、构建高光去除网络,并将含有高光的原图像和高光检测网络输出的高光掩码输入到高光去除网络,通过去除编码器中多个编码模块与去除解码器中多个解码模块,输出高光去除结果,所述高光去除网络由去除编码器和去除解码器组成,去除编码器包括八个高光去除编码模块,去除解码器包括九个高光去除解码模块;
具体实现方法如下:
S4-1、将含有高光的原图像和高光掩码输入到高光去除网络,依次通过各个高光去除编码模块,输入图经过第一个高光去除编码模块变为长宽为原来的一半,通道数为64的特征图,并输入到第下一个高光去除编码模块;
通过第二至四个高光去除编码模块依次将通道数为64的特征图的通道数翻倍,长宽缩减一半;
通过第五至八个高光去除编码模块依次将第四个高光去除编码模块输出的特征图长宽缩减一半,通道数不变,最终输出通道数为512、长宽为原来二百五十六分之一的特征图;
S4-2、由步骤S4-1得到通道数为512、长宽为原来二百五十六分之一的特征图依次经过九个高光去除解码模块,通过第一个高光去除解码模块将特征图的长宽变为两倍,通道数不变,将第一个高光去除解码模块的输出与第七个高光去除编码模块的输出在通道维度上做拼接,得到通道数翻倍的特征图,输入到下一个解码模块;
通过第二个高光去除解码模块将通道数翻倍的特征图通道数减半,长宽翻倍,并与第六个高光去除编码模块的输出在通道维度上做拼接,输入到下一个解码模块;
通过第三、四、五个高光去除解码模块与第二个解码模块操作相同,分别与第五个、第四个、第三个高光去除编码模块的输出拼接;
通过第六个高光去除解码模块将特征图通道数变为256,长宽翻倍,与第二个高光去除编码模块输出做拼接,输入到下一个解码模块;
通过第七个高光去除解码模块将特征图通道数减半,长宽翻倍,与第一个高光去除编码模块的输出在通道维度上做拼接,输入到下一个解码模块;
第八个高光去除解码模块与第七个高光去除解码模块操作相同,其拼接对象为原图像;
最终经过第九个高光去除解码模块,输出通道数为3的结果图;
S4-3、最终输出高光去除的结果;
S5、根据无高光真值和S4的输出,计算损失并更新高光去除网络。
2.根据权利要求1所述的基于二次编码解码结构的金属物体表面高光去除方法,其特征在于,所述像素分类训练集的构建方法为:含有高光的图像以像素为单位分为两部分,分别为高光区域和非高光区域,并将分类结果图像用黑白两种颜色表示,白色表示高光区域,黑色表示非高光区域。
3.根据权利要求1所述的基于二次编码解码结构的金属物体表面高光去除方法,其特征在于,
第一个所述检测编码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层;
第二至四个所述检测编码模块结构相同,其组成依次为池化层、卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层;
第五个所述检测编码模块组成依次为池化层、卷积层、批量归一化层、Relu激活函数层;
第一个所述检测解码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、双线性插值层;
第二至四个所述检测解码模块结构相同,其组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层、双线性插值层;
第五个所述检测解码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层、卷积层。
4.根据权利要求3所述的基于二次编码解码结构的金属物体表面高光去除方法,其特征在于,所述步骤S2-1中五个检测编码模块的实现方法如下:
将像素分类训练集中含有高光的图像输入到高光检测网络中,依次经过五个检测编码模块,
通过第一个检测编码模块的第一个卷积层将输入图变为维度64的特征图,其他层不改变维度和大小,得到长宽不变,通道数为64的特征图;
将通道数为64的特征图输入到第二个检测编码模块,通过第二个检测编码模块的池化层将通道数为64的特征图的长宽减半,第二个检测编码模块的第一个卷积层将长宽减半后的特征图的通道数增加一倍,其他层不改变通道数和长宽,最终得到通道数翻倍、长宽为原图一半的特征图;
通道数翻倍、长宽为原图一半的特征图输入到第三个检测编码模块,第三、四个检测编码模块操作同第二个检测编码模块相同;
通过第五个检测编码模块的池化层将特征图的长宽减半,其他层不改变通道数和长宽,最终得到通道数为512、长宽为原图十六分之一的特征图;
所述步骤S2-2中五个检测解码模块的实现方法如下:
通过第一个检测解码模块的双线性插值层将通道数为512、长宽为原图十六分之一的特征图的长宽变为原来的两倍,其他层不改变通道数和长宽,最后将第一个检测解码模块的输出与第四个检测编码模块的输出作通道维度上的拼接,变为通道数为1024的特征图,输入到第二个检测解码模块;
通过第二个检测解码模块的第一个卷积层将输入的特征图的通道数减半,双线性插值层将长宽变为原来的两倍,最后将此模块的输出与第三个检测编码模块的输出作通道维度上的拼接,输入到第三个检测解码模块;
第四个检测解码模块与第二个检测解码模块操作相同,第三个检测解码模块的拼接操作对象是第二个检测编码模块的输出;第四个检测解码模块的拼接操作对象是第一个检测编码模块的输出;
第五个检测解码模块的第一个卷积层将输入的特征图通道数减半,最后一个卷积层将特征图的通道数变为2,分别对应高光区域和非高光区域的分类结果。
5.根据权利要求1所述的基于二次编码解码结构的金属物体表面高光去除方法,其特征在于,所述步骤S3包括如下子步骤:
S3-1、将高光检测网络输出的分类结果与真实的分类结果计算交叉熵损失,具体如下:
其中p(x)是真实分布,q(x)是预测分布,在此表示输出的高光像素分类结果分布与真实的像素分类结果分布;
S3-2、再将高光检测网络输出的分类结果与真实的分类结果计算戴斯相似性系数,具体如下:
S3-3、根据S3-1、S3-2的损失函数计算出输出分类结果与真值之间的损失并使用反向传播算法更新高光检测网络各层的参数。
6.根据权利要求1所述的基于二次编码解码结构的金属物体表面高光去除方法,其特征在于,
第一个所述高光去除编码模块组成依次为部分卷积层、Relu激活函数层,第二至第八个所述高光去除编码模块结构相同,其组成依次为部分卷积层、批量归一化层、Relu激活函数层;
第一个所述高光去除解码模块组成为最邻近上采样层;
第二至八个高光去除解码模块组成依次为部分卷积层、批量归一化层、Leaky Relu激活函数层和最邻近上采样层;
第九个所述高光去除解码模块组成为部分卷积层。
7.根据权利要求1所述的基于二次编码解码结构的金属物体表面高光去除方法,其特征在于,所述步骤S5包括如下子步骤:
S5-1、将高光去除网络生成的图片,结合高光掩码,将高光去除网络生成的图片的非高光区域替换为原图的非高光区域,如下:
S5-2、在S5-1的基础上,损失函数如下:
其中的来源是感知损失,为的所有通道的元素,其个数为,将,,输入到ImageNet预先训练的VGG(Visual Geometry Group Network)-16网络,得到不同阶段的特征图,即为第p层的激活映射,
S5-3、根据S5-2的损失函数计算出真值与高光去除网络的输出图之间的损失并使用反向传播算法更新高光去除网络各层的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211064191.9A CN115131252B (zh) | 2022-09-01 | 2022-09-01 | 基于二次编解码结构的金属物体表面高光去除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211064191.9A CN115131252B (zh) | 2022-09-01 | 2022-09-01 | 基于二次编解码结构的金属物体表面高光去除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115131252A CN115131252A (zh) | 2022-09-30 |
CN115131252B true CN115131252B (zh) | 2022-11-29 |
Family
ID=83387457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211064191.9A Active CN115131252B (zh) | 2022-09-01 | 2022-09-01 | 基于二次编解码结构的金属物体表面高光去除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131252B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808039A (zh) * | 2021-09-09 | 2021-12-17 | 中山大学 | 基于高斯过程映射的迁移学习去雾方法与系统 |
CN114549387A (zh) * | 2022-03-03 | 2022-05-27 | 重庆邮电大学 | 一种基于伪标签的人脸图像高光去除方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311520B (zh) * | 2020-03-12 | 2023-07-18 | Oppo广东移动通信有限公司 | 图像处理方法、装置、终端及存储介质 |
CN111932431B (zh) * | 2020-07-07 | 2023-07-18 | 华中科技大学 | 基于水印分解模型的可见水印去除方法和电子设备 |
CN112287978B (zh) * | 2020-10-07 | 2022-04-15 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN112508800A (zh) * | 2020-10-20 | 2021-03-16 | 杭州电子科技大学 | 一种基于注意力机制的单张灰度图像的金属零件表面高光去除方法 |
-
2022
- 2022-09-01 CN CN202211064191.9A patent/CN115131252B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808039A (zh) * | 2021-09-09 | 2021-12-17 | 中山大学 | 基于高斯过程映射的迁移学习去雾方法与系统 |
CN114549387A (zh) * | 2022-03-03 | 2022-05-27 | 重庆邮电大学 | 一种基于伪标签的人脸图像高光去除方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115131252A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115049936B (zh) | 一种面向高分遥感影像的边界增强型语义分割方法 | |
CN109712145B (zh) | 一种图像抠图方法及系统 | |
CN109377445B (zh) | 模型训练方法、替换图像背景的方法、装置和电子系统 | |
CN111898439A (zh) | 基于深度学习的交通场景联合目标检测和语义分割方法 | |
CN111951284B (zh) | 一种基于深度学习的光学遥感卫星图像精细化云检测方法 | |
Zhou et al. | FSAD-Net: Feedback spatial attention dehazing network | |
Liu et al. | A super resolution algorithm based on attention mechanism and srgan network | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
CN114782734A (zh) | 一种阀冷系统管道渗漏视觉检测方法及计算机与存储介质 | |
Li et al. | An improved pix2pix model based on Gabor filter for robust color image rendering | |
CN111563577B (zh) | 基于Unet的跳跃层分频和多尺度鉴别的本征图像分解方法 | |
CN113409355A (zh) | 一种基于fpga的运动目标识别系统及方法 | |
CN115170427A (zh) | 基于弱监督学习的图像镜面高光去除方法 | |
CN117197624A (zh) | 一种基于注意力机制的红外-可见光图像融合方法 | |
CN114359102A (zh) | 一种基于注意力机制与边缘引导的图像深度修复取证方法 | |
CN108764287B (zh) | 基于深度学习和分组卷积的目标检测方法及系统 | |
CN115131252B (zh) | 基于二次编解码结构的金属物体表面高光去除方法 | |
CN117408924A (zh) | 一种基于多重语义特征融合网络的低光照图像增强方法 | |
CN117456376A (zh) | 一种基于深度学习的遥感卫星影像目标检测方法 | |
CN117409244A (zh) | 一种SCKConv多尺度特征融合增强的低照度小目标检测方法 | |
CN113283429B (zh) | 基于深度卷积神经网络的液位式表计读数方法 | |
CN112233193A (zh) | 一种基于多光谱图像处理的变电设备故障诊断方法 | |
CN116310324A (zh) | 一种基于语义分割的金字塔跨层融合解码器 | |
CN115861922A (zh) | 一种稀疏烟火检测方法、装置、计算机设备及存储介质 | |
CN113450313B (zh) | 一种基于区域对比学习的图像显著性可视化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |