CN113139470B

CN113139470B - 一种基于Transformer的玻璃识别方法

Info

Publication number: CN113139470B
Application number: CN202110446441.4A
Authority: CN
Inventors: 徐向荣; 朱佐君; 刘雪飞; 江杨林
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2023-05-23
Anticipated expiration: 2041-04-25
Also published as: CN113139470A

Abstract

本发明公开了一种基于Transformer的玻璃识别方法，属于图像识别技术领域，本发明方法包括：采集玻璃图像，根据玻璃图像制作训练集和验证集；之后根据Transformer网络构建深度学习网络模型；然后利用训练集对深度学习网络模型进行训练，再利用验证集对训练后的深度学习网络模型进行验证得到验证值；根据验证值计算得到平均精确度值MAP，再根据MAP判断是否保存深度学习网络模型；若判断保存深度学习网络模型，利用保存的深度学习网络模型识别玻璃。本发明的目的在于克服现有技术中，机器人识别玻璃精度低，进而导致机器人会撞上障碍玻璃的不足，本发明可以有效地识别出玻璃的位置区域，且提高了检测精度，进而可以避免机器人撞上障碍玻璃，具有较高的实用性。

Description

一种基于Transformer的玻璃识别方法

技术领域

本发明属于图像识别技术领域，更具体地说，涉及一种基于Transformer的玻璃识别方法。

背景技术

机器人在复杂场景中需要依赖传感器来感知周边环境，常见的有激光传感器，单双目相机以及各种深度相机等，但这些传感器可以让机器人轻易感知到一些纹理清晰的物品，但就随处可见的玻璃制品而言，玻璃区域内的内容通常与玻璃后面的内容相似，识别它并非易事。如果我们机器人的传感器不能准确识别出这些玻璃，那么将导致机器人在最初的SLAM过程中就酿成大错。

研究者们最初用激光测距仪，基于激光束的反射特性设计算法来满足机器人对玻璃墙的探测，但不能让机器人感知其语义信息。有研究者提出一种不仅使用彩色图像而且使用激光反射强度图像的透明物体视觉检测方法，但仅仅局限于短距离的识别。随着深度学习的发展，视觉检测应用越来越广泛。经典的实例分割算法Mask-RCNN只能透过玻璃识别出其后面的物体。同时RGB-D相机只能测出玻璃背后物体的深度信息，深度预测方法如深度估计算法如MegaDepth同样也是仅仅预测到错误的玻璃后的物体深度。现存的方法在玻璃检测方面都存在很大的误差，很不利于机器人技术的发展。

发明内容

1.要解决的问题

本发明的目的在于克服现有技术中，机器人识别玻璃精度低，进而导致机器人会撞上障碍玻璃的不足，提出一种基于Transformer的玻璃识别方法，可以有效地识别出玻璃的位置区域，且提高了检测精度，进而可以避免机器人撞上障碍玻璃，具有较高的实用性。

2.技术方案

为了解决上述问题，本发明所采用的技术方案如下：

本发明的一种基于Transformer的玻璃识别方法，包括：采集玻璃图像，根据玻璃图像制作训练集和验证集；然后根据Transformer网络构建深度学习网络模型；之后利用训练集对深度学习网络模型进行训练，再利用验证集对训练后的深度学习网络模型进行验证得到验证值；根据验证值计算得到平均精确度值MAP，再根据MAP判断是否保存深度学习网络模型；若判断不保存深度学习网络模型，则利用训练集继续对深度学习网络模型进行训练；若判断保存深度学习网络模型，则保存深度学习网络模型并利用保存的深度学习网络模型识别玻璃。

作为本发明更进一步地改进，构建深度学习网络模型的具体步骤如下：

采用CNN网络对玻璃图像进行特征提取得到特征图，再利用1×1的卷积将特征图的维度由2048降至512；设置扩张残差块对512维度的特征图进行扩张卷积处理得到扩张后的特征图；之后根据Transformer网络结构构建编码层和解码层，该编码层对展平后的扩张后的特征图进行位置编码，解码层对编码后的特征图进行解码；而后设置两个多层感知网络，将解码后的特征图输入至两个多层感知网络进行分类处理和边界框的回归处理得到目标检测图和S个玻璃区域的边界框；然后设置多头注意力层，先对目标检测图和S个玻璃区域的边界框进行编码，再将编码后的目标检测图和S个玻璃区域的边界框输入至多头注意力层获得注意力特征图，其中，S为目标检测图中玻璃区域数目；再设置掩膜分割卷积头得到深度学习网络模型，其中，掩膜分割卷积头对注意力特征图进行处理得到玻璃实例分割图。

作为本发明更进一步地改进，对深度学习网络模型进行训练的具体过程为：先设置权重初始化、超参数以及优化器，而后将训练集中的玻璃图像输入至深度学习网络模型进行训练。

作为本发明更进一步地改进，根据验证值判断是否保存深度学习网络模型的具体过程为：设定阈值为90％，若MAP≥90％，则保存深度学习网络模型；若MAP＜90％，则不保存深度学习网络模型。

作为本发明更进一步地改进，利用Res2Net对玻璃图像进行细粒度特征提取得到特征图。

作为本发明更进一步地改进，对512维度的特征图进行扩张卷积处理的具体过程为：

将512维度的特征图输入扩张残差块，先利用扩张残差块的1×1的卷积将特征图的维度降低到128，再将128维度的特征图在维度上划分为4块特征图，每块特征图的维度为32；

利用3×3的卷积将4块特征图进行融合并通过1×1卷积得到512维度的扩张后的特征图。

作为本发明更进一步地改进，掩膜分割卷积头对注意力特征图进行处理的具体过程为：

对注意力特征图进行上采样得到大小为

的特征图，同时利用CNN网络对输入的玻璃图像提取得到大小为/>

的高分辨率特征图，再对高分辨率特征图进行复制处理得到/>

的特征图；其中，H为特征图的高度，W为特征图的宽度，M为多头注意力层中的头数；

将大小为

的特征图和/>

的特征图进行拼接得到

的特征图；

利用BN激活函数和RELU激活函数对

的特征图进行处理，再将处理后的特征图经过1×1的卷积处理获得大小为/>

的特征图；

利用argmax对

的特征图进行语义分割得到玻璃实例分割图。/>

作为本发明更进一步地改进，深度学习网络模型训练的损失函数

为：

其中，n_cl代表玻璃图像中的像素类别数目，n_ij代表像素中属于第i类预测为第j类的数目，n_ii代表像素中属于第i类预测为第i类的数目，c_i'代表玻璃图像中第i类像素的真实总数目；y_i表示真实值，

表示预测值，/>

表示指示函数，c_i为第i类标签，/>

表示第i类标签为背景，b_i表示真值边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量，

表示预测边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量，/>

表示第i类标签边界框内玻璃分类的概率。

作为本发明更进一步地改进，验证值包括TP、FP、FN和TN，

其中，TP为被深度学习网络模型识别正确且认为是正样本的样本；FP为被深度学习网络模型识别正确且认为是负样本的样本；FN为被深度学习网络模型识别错误且认为是正样本的样本；TN为被深度学习网络模型识别错误且认为是负样本的样本。

作为本发明更进一步地改进，4块特征图分别为X₁，X₂，X₃和X₄，X₁经过3×3的卷积得到Y₁，而后将Y₁融入X₂并将Y₁和X₂融合后的特征图进行3×3的卷积得到Y₂，再将Y₂融入X₃并将Y₂和X₃融合后的特征图进行3×3的卷积得到Y₃；之后将Y₃融入X₄并将Y₃和X₄融合后的特征图进行3×3的卷积得到Y₄；之后将Y₁，Y₂，Y₃和Y₄进行拼接，再将拼接后的特征图进行1×1的卷积得到扩张后的特征图。

3.有益效果

相比于现有技术，本发明的有益效果为：

本发明的一种基于Transformer的玻璃识别方法，通过构建络的深度学习网络模型，基于Transformer的自注意力机制具有良好的全局信息感知性能，从而可以有效实现现实复杂场景中的透明玻璃识别，满足各种实际场景的玻璃识别，进而可以避免机器人发生碰撞，具有良好的泛化性能和较好的鲁棒性。

附图说明

图1为本发明方法的流程示意图；

图2为本发明的深度学习网络模型结构示意图；

图3为本发明的扩张残差块的结构示意图；

图4为本发明的掩膜分割卷积头的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；而且，各个实施例之间不是相对独立的，根据需要可以相互组合，从而达到更优的效果。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

结合图1所示，本发明的一种基于Transformer的玻璃识别方法，通过基于Transformer的深度学习网络模型识别玻璃，可以有效地提高识别玻璃的准确度，能够在现实各种场景中识别出玻璃区域，进而可以避免机器人撞上障碍玻璃，具有较高的实用性。本发明一种基于Transformer的玻璃识别方法具体步骤如下：

(1)采集玻璃图像

步骤S100：采集玻璃图像，值得说明的是，本发明采集的是各个场景下的玻璃图像，且本发明不限于特定方式采集图像，例如可以通过拍照或者网络获取不同场景下的玻璃图像。

(2)制作训练集和验证集

步骤S200：根据玻璃图像制作训练集和验证集，具体地，对采集的每张玻璃图像进行标注，具体标注玻璃图像中玻璃的位置和形状，本实施例中通过Labelme工具进行玻璃图像的标注。而后将标注的玻璃图像分为训练集和验证集，训练集的玻璃图像数量占玻璃图像总数量的80％，验证集的玻璃图像数量占玻璃图像总数量剩余的20％。

(3)构建深度学习网络模型

结合图2所示，步骤S300：根据Transformer网络构建深度学习网络模型，具体地，本发明构建深度学习网络模型的具体步骤如下：

步骤S310：采用CNN网络对玻璃图像进行特征提取得到特征图，再利用1×1的卷积将特征图的维度由2048降至512；值得说明的是，输入的玻璃图像大小为H×W×3，其中，H表示输入的玻璃图像的高度，W表示输入的玻璃图像的宽度，3表示输入的玻璃图像的维度。此外，本发明利用Res2Net对玻璃图像进行细粒度特征提取得到特征图，提取得到的特征图大小为

步骤S320：设置扩张残差块对512维度的特征图进行扩张卷积处理得到扩张后的特征图；值得说明的是，通过对特征图进行扩张卷积处理，从而可以获得具有更大的感受野的特征图，从而可以满足多变的现实情况，具有较好的鲁棒性。结合图3所示，本发明对512维度的特征图进行扩张卷积处理的具体过程为：

步骤S321：将512维度的特征图输入扩张残差块，先利用扩张残差块的1×1的卷积将特征图的维度从512降低到128，此时特征图的大小为

步骤S322：将128维度的特征图在维度上划分为4块特征图，划分得到的每块特征图的维度为32，即每张特征图的大小为

本实施例中得到的4块特征图分别为X₁，X₂，X₃和X₄。

步骤S323：利用3×3的卷积将4块特征图进行融合并通过1×1卷积得到512维度的扩张后的特征图。具体地融合过程为：X₁经过3×3的卷积得到Y₁，而后将Y₁以add的方式融入X₂并将Y₁和X₂融合后的特征图进行3×3的卷积得到Y₂，再将Y₂以add的方式融入X₃并将Y₂和X₃融合后的特征图进行3×3的卷积得到Y₃；之后将Y₃以add的方式融入X₄并将Y₃和X₄融合后的特征图进行3×3的卷积得到Y₄；之后将Y₁，Y₂，Y₃和Y₄以concat的方式进行拼接，再将拼接后的特征图进行1×1的卷积得到扩张后的特征图，该扩张后的特征图大小为

步骤S324：根据Transformer网络结构构建编码层和解码层，具体地，编码层和解码层分别包括六个结构相同的块，该块采用Transformer网络结构，且解码层以N个512维度可学习向量作为查询输入，其中，N指的是玻璃的类别数量。该编码层对展平后的扩张后的特征图进行位置编码，解码层对编码后的特征图进行解码；。

步骤S325：设置两个多层感知网络，将解码后的特征图输入至两个多层感知网络进行分类处理和边界框的回归处理得到目标检测图和S个玻璃区域的边界框；具体地，将解码后的特征图同时输入至两个多层感知网络，其中一个多层感知网络对解码后的特征图进行分类处理，另一个多层感知网络对解码后的特征图进行边界框的回归处理得到S个玻璃区域的边界框，根据分类处理结果和S个玻璃区域的边界框得到目标检测图。本发明的多层感知网络包括3层隐含层，隐含层的激活函数为Sigmoid激活函数。

步骤S326：设置多头注意力层，先对目标检测图和S个玻璃区域的边界框进行编码，再将编码后的目标检测图与S个玻璃区域的边界框输入至多头注意力层获得注意力特征图，注意力特征图的大小为

其中，S为目标检测图中玻璃区域数目。

步骤S327：设置掩膜分割卷积头得到深度学习网络模型，其中，掩膜分割卷积头对注意力特征图进行处理得到玻璃实例分割图。具体地，结合图4所示，先对注意力特征图进行上采样得到大小为

的高分辨率特征图，其中，该输入的玻璃图像为目标检测图。之后对高分辨率特征图进行复制处理得到/>

的特征图；其中，H为特征图的高度，W为特征图的宽度，M为多头注意力层中的头数。之后将大小为/>

的特征图和/>

的特征图以concat的方式进行拼接得到/>

的特征图。

进一步地，利用BN激活函数和RELU激活函数对

的特征图；最后利用argmax对/>

的特征图进行语义分割得到玻璃实例分割图。

值得说明的是，通过上述步骤即可构建得到深度学习网络模型，从而可以有效机器人现实复杂场景中的透明玻璃识别，如玻璃墙、玻璃门、玻璃窗等等，并且具有良好的鲁棒性。

步骤S400：利用训练集对深度学习网络模型进行训练，值得说明的是，对深度学习网络模型进行训练的具体过程为：先设置权重初始化、超参数和优化器，具体地，本发明中设置权重初始化方式为高斯分布，且优化器采用Adam，本实施例采用反向梯度传播法进行权重更新。

进一步地，本发明中深度学习网络模型训练的损失函数

为：

其中，

为像素分割掩膜损失函数，/>

为真实值和指数σ预测之间的成对匹配的损失函数，其中，n_cl代表玻璃图像中的像素类别数目，n_ij代表像素中属于第i类预测为第j类的数目，n_ii代表像素中属于第i类预测为第i类的数目，c′_i代表玻璃图像中第i类像素的真实总数目；y_i表示真实值，/>

表示预测值，/>

表示指示函数，c_i为第i类标签，/>

表示第i类标签为背景，b_i表示真值边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量，/>

表示第i类标签边界框内玻璃分类的概率。

步骤S500：利用验证集对训练后的深度学习网络模型进行验证得到验证值，并根据验证值计算得到平均精确度值MAP，具体地，验证值包括TP、FP、FN和TN，

/>

其中，P为精准率，R为召回率；TP为被深度学习网络模型识别正确且认为是正样本的样本；FP为被深度学习网络模型识别正确且认为是负样本的样本；FN为被深度学习网络模型识别错误且认为是正样本的样本；TN为被深度学习网络模型识别错误且认为是负样本的样本。

步骤S500：根据MAP判断是否保存深度学习网络模型；具体地，本发明中设定阈值为90％，若MAP≥90％，则保存深度学习网络模型；若MAP＜90％，则不保存深度学习网络模型。进一步地，若判断不保存深度学习网络模型，则利用训练集继续对深度学习网络模型进行训练；若判断保存深度学习网络模型，则保存深度学习网络模型并利用保存的深度学习网络模型识别玻璃，值得说明的是，利用保存的深度学习网络模型对待检测的玻璃图像进行检测，从而可以获得玻璃的位置区域、玻璃类型以及置信度。

在上文中结合具体的示例性实施例详细描述了本发明。但是，应当理解，可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的，而不是限制性的，如果存在任何这样的修改和变型，那么它们都将落入在此描述的本发明的范围内。此外，背景技术旨在为了说明本技术的研发现状和意义，并不旨在限制本发明或本申请和本发明的应用领域。