CN115131252B

CN115131252B - 基于二次编解码结构的金属物体表面高光去除方法

Info

Publication number: CN115131252B
Application number: CN202211064191.9A
Authority: CN
Inventors: 宋颖; 彭伟民; 其他发明人请求不公开姓名
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-11-29
Anticipated expiration: 2042-09-01
Also published as: CN115131252A

Abstract

本发明公开了一种基于二次编解码结构的金属物体表面高光去除方法，包括如下步骤：S1、采集原图像建立训练集，并根据数据集中含有高光的原图像，获得高光区域与非高光区域的像素分类训练集；S2、构建高光检测网络，将高光图像输入到高光检测网络，结合兴趣区域掩码输出高光检测的分类结果；S3、根据分类结果，计算损失并更新高光检测网络；S4、构建高光去除网络，输出高光去除结果；S5、根据无高光真值和S4的输出，计算损失并更新高光去除网络。该方法在保证物体颜色一致性与不失真的前提下，去除金属物体表面的高光构成一个适用性广的高光去除网络架构。

Description

基于二次编解码结构的金属物体表面高光去除方法

技术领域

本发明涉及镜面高光移除技术领域，具体指一种基于二次编解码结构的金属物体表面高光去除方法。

背景技术

在工业环境中，使用计算机视觉的方法的对金属物体的测量、重建等工作受到了表面高光的影响，会产生错误的结果。而且由于金属物体之间的差异性和环境的复杂性，各种各样的高光的去除是一个难题。

镜面反射高光效果是相机图像中的一种严重干扰。来自表面的光反射可分为两大类：漫反射和镜面反射。漫反射分量是由光线穿透表面、经历多次反射和折射并在表面重新出现而产生的。另一方面，镜面反射成分是一种表面现象。入射在表面上的光线被反射，使得反射角等于入射角。在图像中，物体表面的漫反射能很好的表现物体本身的形状颜色等信息，而镜面反射表现为亮点，即饱和度高的高光像素。

大多数算法用于计算机视觉、计算机图形学和图像处理的众多任务，如立体匹配、光一致性、分割、识别和跟踪，都是在完美朗伯曲面(完美漫反射)假设下工作的，没有考虑非朗伯表面造成的镜面高光。镜面高光的存在会造成细节和颜色信息的损失。细节和颜色在高光区域完全被冲淡，使得后期阶段的缺陷检测、物体测量等步骤很难正常进行。例如工业场景中在检测维护时，往往需要对目标进行补光，此时金属表面容易产生高光区域，对检测造成一定干扰，导致算法在应用中产生错误的结果。

金属物体表面的高光的呈现受到多方面因素的影响。一方面受到金属物体的材质、表面形状的影响，另一方面和光源的性质、颜色、照射角度等因素相关。使得高光可能出现在物体的任何位置，且形状多变，这些都会影响最终呈现效果，给高光去除工作增加不可控变量。而且在实际的检修场景下，光源、物体、背景等因素的构成往往较复杂，给高光去除的工作又增添了许多难度。

发明内容

本发明是为了克服工业金属零件因为镜面高光的存在而影响其他算法效果的技术问题，针对现有技术的不足，本发明提出了一种基于二次编解码结构的金属物体表面高光去除方法，在保证物体颜色一致性与不失真的前提下，去除金属物体表面的高光构成一个适用性广的高光去除网络架构。

为了解决上述技术问题，本发明的技术方案为：

一种基于二次编码解码结构的金属物体表面高光去除方法，包括如下步骤：

S1、采集原图像建立训练集，并根据数据集中含有高光的原图像，获得高光区域与非高光区域的像素分类训练集；

S2、构建高光检测网络，将高光图像输入到高光检测网络，通过检测编码器中多个编码模块与检测解码器中多个解码模块，结合兴趣区域掩码输出高光检测的分类结果，所述分类结果包括将原图像分为非高光区域和高光区域两个类别，即高光掩码；

S3、根据S2中得到原图像的分类结果，计算损失并更新高光检测网络；

S4、构建高光去除网络，并将含有高光的原图像和高光检测网络输出的高光掩码输入到高光去除网络，通过去除编码器中多个编码模块与去除解码器中多个解码模块，输出高光去除结果；

S5、根据无高光真值和S4的输出，计算损失并更新高光去除网络。

作为优选，所述像素分类训练集的构建方法为：含有高光的图像以像素为单位分为两部分，分别为高光区域和非高光区域，并将分类结果图像用黑白两种颜色表示，白色表示高光区域，黑色表示非高光区域。

作为优选，所述高光检测网络由检测编码器和检测解码器组成，检测编码器包括五个检测编码模块，检测解码器包括五个检测解码模块，

第一个所述检测编码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层；

第二至四个所述检测编码模块结构相同，其组成依次为池化层、卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层；

第五个所述检测编码模块组成依次为池化层、卷积层、批量归一化层、Relu激活函数层；

第一个所述检测解码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、双线性插值层；

第二至四个所述检测解码模块结构相同，其组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层、双线性插值层；

第五个所述检测解码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层、卷积层。

作为优选，所述步骤S2具体包括如下子步骤：

S2-1、将像素分类训练集中含有高光的图像输入到高光检测网络中，依次经过五个检测编码模块，

通过第一个检测编码模块的第一个卷积层将输入图变为维度64的特征图，其他层不改变维度和大小，得到长宽不变，通道数为64的特征图；

将通道数为64的特征图输入到第二个检测编码模块，通过第二个检测编码模块的池化层将通道数为64的特征图的长宽减半，第二个检测编码模块的第一个卷积层将长宽减半后的特征图的通道数增加一倍，其他层不改变通道数和长宽，最终得到通道数翻倍、长宽为原图一半的特征图；

通道数翻倍、长宽为原图一半的特征图输入到第三个检测编码模块，第三、四个检测编码模块操作同第二个检测编码模块相同；

通过第五个检测编码模块的池化层将特征图的长宽减半，其他层不改变通道数和长宽，最终得到通道数为512、长宽为原图十六分之一的特征图；

S2-2、由步骤S2-1得到的通道数为512、长宽为原图十六分之一的特征图，依次经过五个检测解码模块，

通过第一个检测解码模块的双线性插值层将通道数为512、长宽为原图十六分之一的特征图的长宽变为原来的两倍，其他层不改变通道数和长宽，最后将第一个检测解码模块的输出与第四个检测编码模块的输出作通道维度上的拼接，变为通道数为1024的特征图，输入到第二个检测解码模块；

通过第二个检测解码模块的第一个卷积层将输入的特征图的通道数减半，双线性插值层将长宽变为原来的两倍，最后将此模块的输出与第三个检测编码模块的输出作通道维度上的拼接，输入到第三个检测解码模块；

第三、四个检测解码模块与第二个检测解码模块操作相同，第三个检测解码模块的拼接操作对象是第二个检测编码模块的输出；第四个检测解码模块的拼接操作对象是第一个检测编码模块的输出；

第五个检测解码模块的第一个卷积层将输入的特征图通道数减半，最后一个卷积层将特征图的通道数变为2，分别对应高光区域和非高光区域的分类结果；

S2-3、根据兴趣区域掩码，将检测解码器的输出做筛选处理，输出最终的分类结果，即高光掩码，所述兴趣区域掩码为实际需要检测的区域，它将原图分为两部分，需要检测高光的区域，不需要检测高光的区域。

作为优选，所述步骤S3包括如下子步骤：

S3-1、将高光检测网络输出的分类结果与真实的分类结果计算交叉熵损失，具体如下：

其中p(x)是真实分布，q(x)是预测分布，在此表示输出的高光像素分类结果分布与真实的像素分类结果分布。

S3-2、再将高光检测网络输出的分类结果与真实的分类结果计算戴斯相似性系数，具体如下：

其中

为高光检测网络输出的预测高光，

为真实高光，

其中

为高光检测网络输出的预测非高光，

为真实非高光；

S3-3、根据S3-1、S3-2的损失函数计算出输出分类结果与真值之间的损失并使用反向传播算法更新高光检测网络各层的参数。

作为优选，所述高光去除网络由去除编码器和去除解码器组成，去除编码器包括八个高光去除编码模块，去除解码器包括九个高光去除解码模块，

第一个所述高光去除编码模块组成依次为部分卷积层、Relu激活函数层，第二至第八个所述高光去除编码模块结构相同，其组成依次为部分卷积层、批量归一化层、Relu激活函数层；

第一个所述高光去除解码模块组成为最邻近上采样层；

第二至八个高光去除解码模块组成依次为部分卷积层、批量归一化层、LeakyRelu激活函数层和最邻近上采样层；

第九个所述高光去除解码模块组成为部分卷积层。

作为优选，所述步骤S4包括如下子步骤：

S4-1、将含有高光的原图像和高光掩码输入到高光去除网络，依次通过各个高光去除编码模块，输入图经过第一个高光去除编码模块变为长宽为原来的一半，通道数为64的特征图，并输入到第下一个高光去除编码模块；

通过第二至四个高光去除编码模块依次将通道数为64的特征图的通道数翻倍，长宽缩减一半；

通过第五至八个高光去除编码模块依次将第四个高光去除编码模块输出的特征图长宽缩减一半，通道数不变，最终输出通道数为512、长宽为原来二百五十六分之一的特征图；

S4-2、由步骤S4-1得到通道数为512、长宽为原来二百五十六分之一的特征图依次经过九个高光去除解码模块，通过第一个高光去除解码模块将特征图的长宽变为两倍，通道数不变，将第一个高光去除解码模块的输出与第七个高光去除编码模块的输出在通道维度上做拼接，得到通道数翻倍的特征图，输入到下一个解码模块；

通过第二个高光去除解码模块将通道数翻倍的特征图通道数减半，长宽翻倍，并与第六个高光去除编码模块的输出在通道维度上做拼接，输入到下一个解码模块；

通过第三、四、五个高光去除解码模块与第二个解码模块操作相同，分别与第五个、第四个、第三个高光去除编码模块的输出拼接；

通过第六个高光去除解码模块将特征图通道数变为256，长宽翻倍，与第二个高光去除编码模块输出做拼接，输入到下一个解码模块；

通过第七个高光去除解码模块将特征图通道数减半，长宽翻倍，与第一个高光去除编码模块的输出在通道维度上做拼接，输入到下一个解码模块；

第八个高光去除解码模块与第七个高光去除解码模块操作相同，其拼接对象为原图像；

最终经过第九个高光去除解码模块，输出通道数为3的结果图；

S4-3、最终输出高光去除的结果。

作为优选，所述步骤S5包括如下子步骤：

S5-1、将高光去除网络生成的图片，结合高光掩码，将高光去除网络生成的图片的非高光区域替换为原图的非高光区域，如下：

其中

为高光去除网络的输出，

为高光区域和非高光区域的像素分类矩阵，由0，1组成，0表示高光区域像素，1表示非高光区域像素，

为原图，

表示将高光去除网络生成的图片的非高光区域替换为原图的非高光区域；

S5-2、在S5-1的基础上，损失函数如下：

其中

为真值，

为真值图片所有通道的元素，其个数为

，

为超参数，

其中

的来源是感知损失，

为

的所有通道的元素，其个数为

，将

输入到ImageNet预先训练的VGG(Visual Geometry Group Network)-16网络，得到不同阶段的特征图，即

为第p层的激活映射，

其中

的来源是的风格损失，包括对每个特征映射执行了自相关Gram矩阵计算，其中

分别对应第p层特征图的通道数，高度，宽度，

其中

的来源是R上的平滑惩罚，其中R是空洞区域1像素膨胀的区域，

为

的所有通道的元素，其个数为H×W×C；

S5-3、根据S5-2的损失函数计算出真值与高光去除网络的输出图之间的损失并使用反向传播算法更新高光去除网络各层的参数。

本发明具有以下的特点和有益效果：

1、结合反射模型中镜面反射和漫反射的由于不同的反射性质形成的对图像不同的表现，使用编码-解码的像素级分类网络实现金属物体表面高光区域的准确检测；

2、本发明所设计二次编码-解码高光去除网络架构，其适用性广，基本上能够实现所有金属物体表面高光的去除作业；

3、使用了部分卷积和多类损失函数，在保证高光去除后物体颜色一致性与不失真。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的的方法流程图；

图2是本发明的总体的网络结构示意图。

图3是本发明的高光检测网络的结构示意图。

图4是本发明的高光去除网络的结构示意图。

图5是应用本发明实施例的高光去除效果对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

本发明提供了一种基于二次编码解码结构的金属物体表面高光去除方法，如图1所示，包括如下步骤：

S1、采集原图像建立训练集，并根据数据集中含有高光的原图像，获得高光区域与非高光区域的像素分类训练集。

具体的，所述像素分类训练集的构建方法为：含有高光的图像以像素为单位分为两部分，分别为高光区域和非高光区域，并将分类结果图像用黑白两种颜色表示，白色表示高光区域，黑色表示非高光区域。

S2、构建高光检测网络，将高光图像输入到高光检测网络，通过检测编码器中多个编码模块与检测解码器中多个解码模块，结合兴趣区域掩码输出高光检测的分类结果，所述分类结果包括将原图像分为非高光区域和高光区域两个类别，即高光掩码。

具体的，如图2所示，所述高光检测网络由检测编码器和检测解码器组成，所述高光去除网络由去除编码器和去除解码器组成。

进一步的，如图3所示，检测编码器包括五个检测编码模块，检测解码器包括五个检测解码模块。

其中，第一个所述检测编码模块的组成依次为卷积层、批量归一化层、Relu激活函数层、卷积层、批量归一化层、Relu激活函数层；

所述步骤S2中，通过高光检测网络实现下述步骤：

第四、四个检测解码模块与第二个检测解码模块操作相同，第三个检测解码模块的拼接操作对象是第二个检测编码模块的输出；第四个检测解码模块的拼接操作对象是第一个检测编码模块的输出；

需要说明的是，上述检测编码模块和检测解码模块中所提及批量归一化层、Relu激活函数层、批量归一化层、双线性插值层均为常规技术手段。

其中，批量归一化层包含了归一化算法，归一化算法是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。在多种计算中都经常用到这种方法。本实施例中主要用于对卷积层提取的特征图进行归一化操作。

相同Relu激活函数层包含了Relu激活函数，其中Relu激活函数“全名RectifiedLinear Unit”，意思是修正线性单元。Relu激活函数用于神经网络的激活。

ReLU函数其实是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被成为单侧抑制。

ReLU的优点：ReLu具有稀疏性，可以使稀疏后的模型能够更好地挖掘相关特征，拟合训练数据；在x>0区域上，不会出现梯度饱和、梯度消失的问题；计算复杂度低，不需要进行指数运算，只要一个阈值就可以得到激活值。

双线性插值层包含了双线性插值算法，双线性插值算法又称为双线性内插。在数学上，双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。双线性插值作为数值分析中的一种插值算法，广泛应用在信号处理，数字图像和视频处理等方面。本实施例中，通过双线性插值层将完成处理的特征图进行线性插值扩展。

因此，本实施例中不再对上述常规算法进行具体的描述和说明。

S3、根据S2中得到原图像的分类结果，计算损失并更新高光检测网络。

具体的，包括如下子步骤：

其中

为高光检测网络输出的预测高光，

为真实高光，

其中

为高光检测网络输出的预测非高光，

为真实非高光；

需要说明的是，反向传播算法，简称BP算法，适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合，因此具有很强的函数复现能力。这是BP算法得以应用的基础。

S4、构建高光去除网络，并将含有高光的原图像和高光检测网络输出的高光掩码输入到高光去除网络，通过去除编码器中多个编码模块与去除解码器中多个解码模块，输出高光去除结果。

具体的，如图4所示，去除编码器包括八个高光去除编码模块，去除解码器包括九个高光去除解码模块。

其中，第一个所述高光去除编码模块组成依次为部分卷积层、Relu激活函数层，第二至第八个所述高光去除编码模块结构相同，其组成依次为部分卷积层、批量归一化层、Relu激活函数层；

第一个所述高光去除解码模块组成为最邻近上采样层；

第九个所述高光去除解码模块组成为部分卷积层。

需要说明的是，上述所提及批量归一化层、Relu激活函数层、最邻近上采样层均为常规技术手段。

可以理解的，通过批量归一化层对提取的特征图进行归一化处理，通过Relu激活函数层激活整个神经网络，通过最邻近上采样层对相邻的输出进行上采样。

通过上述高光去除网络实现一下步骤：

S4-3、最终输出高光去除的结果。

具体的，包括如下子步骤：

其中

为高光去除网络的输出，

为原图，

S5-2、在S5-1的基础上，损失函数如下：

其中

为真值，

为真值图片所有通道的元素，其个数为

，

为超参数，

其中

的来源是感知损失，

为

的所有通道的元素，其个数为

，将

为第p层的激活映射，

其中

的来源是类似于感知损失的风格损失，包括对每个特征映射执行了自相关Gram矩阵计算，其中

分别对应第p层特征图的通道数，高度，宽度，

其中

为

的所有通道的元素，其个数为H×W×C；

如图5所示，本发明通过上述技术方案，能够很好的实现去除高光效果，并且输出图像，不存在失真现象。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于二次编码解码结构的金属物体表面高光去除方法，其特征在于，包括如下步骤：

S2、构建高光检测网络，将高光图像输入到高光检测网络，通过检测编码器中多个编码模块与检测解码器中多个解码模块，结合兴趣区域掩码输出高光检测的分类结果，所述分类结果包括将原图像分为非高光区域和高光区域两个类别，即高光掩码，所述高光检测网络由检测编码器和检测解码器组成，检测编码器包括五个检测编码模块，检测解码器包括五个检测解码模块；

具体实现方法如下：

S2-1、将像素分类训练集中含有高光的图像输入到高光检测网络中，依次经过五个检测编码模块，得到通道数为512、长宽为原图十六分之一的特征图；

S2-3、根据兴趣区域掩码，将检测解码器的输出做筛选处理，输出最终的分类结果，即高光掩码，所述兴趣区域掩码为实际需要检测的区域，它将原图分为两部分，需要检测高光的区域，不需要检测高光的区域；

S4、构建高光去除网络，并将含有高光的原图像和高光检测网络输出的高光掩码输入到高光去除网络，通过去除编码器中多个编码模块与去除解码器中多个解码模块，输出高光去除结果，所述高光去除网络由去除编码器和去除解码器组成，去除编码器包括八个高光去除编码模块，去除解码器包括九个高光去除解码模块；

具体实现方法如下：

S4-3、最终输出高光去除的结果；

2.根据权利要求1所述的基于二次编码解码结构的金属物体表面高光去除方法，其特征在于，所述像素分类训练集的构建方法为：含有高光的图像以像素为单位分为两部分，分别为高光区域和非高光区域，并将分类结果图像用黑白两种颜色表示，白色表示高光区域，黑色表示非高光区域。

3.根据权利要求1所述的基于二次编码解码结构的金属物体表面高光去除方法，其特征在于，

4.根据权利要求3所述的基于二次编码解码结构的金属物体表面高光去除方法，其特征在于，所述步骤S2-1中五个检测编码模块的实现方法如下：

将像素分类训练集中含有高光的图像输入到高光检测网络中，依次经过五个检测编码模块，

所述步骤S2-2中五个检测解码模块的实现方法如下：

第四个检测解码模块与第二个检测解码模块操作相同，第三个检测解码模块的拼接操作对象是第二个检测编码模块的输出；第四个检测解码模块的拼接操作对象是第一个检测编码模块的输出；