CN113139470A - 一种基于Transformer的玻璃识别方法 - Google Patents

一种基于Transformer的玻璃识别方法 Download PDF

Info

Publication number
CN113139470A
CN113139470A CN202110446441.4A CN202110446441A CN113139470A CN 113139470 A CN113139470 A CN 113139470A CN 202110446441 A CN202110446441 A CN 202110446441A CN 113139470 A CN113139470 A CN 113139470A
Authority
CN
China
Prior art keywords
glass
deep learning
network model
learning network
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110446441.4A
Other languages
English (en)
Other versions
CN113139470B (zh
Inventor
徐向荣
朱佐君
刘雪飞
江杨林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN202110446441.4A priority Critical patent/CN113139470B/zh
Publication of CN113139470A publication Critical patent/CN113139470A/zh
Application granted granted Critical
Publication of CN113139470B publication Critical patent/CN113139470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明公开了一种基于Transformer的玻璃识别方法,属于图像识别技术领域,本发明方法包括:采集玻璃图像,根据玻璃图像制作训练集和验证集;之后根据Transformer网络构建深度学习网络模型;然后利用训练集对深度学习网络模型进行训练,再利用验证集对训练后的深度学习网络模型进行验证得到验证值;根据验证值计算得到平均精确度值MAP,再根据MAP判断是否保存深度学习网络模型;若判断保存深度学习网络模型,利用保存的深度学习网络模型识别玻璃。本发明的目的在于克服现有技术中,机器人识别玻璃精度低,进而导致机器人会撞上障碍玻璃的不足,本发明可以有效地识别出玻璃的位置区域,且提高了检测精度,进而可以避免机器人撞上障碍玻璃,具有较高的实用性。

Description

一种基于Transformer的玻璃识别方法
技术领域
本发明属于图像识别技术领域,更具体地说,涉及一种基于Transformer的玻璃识别方法。
背景技术
机器人在复杂场景中需要依赖传感器来感知周边环境,常见的有激光传感器,单双目相机以及各种深度相机等,但这些传感器可以让机器人轻易感知到一些纹理清晰的物品,但就随处可见的玻璃制品而言,玻璃区域内的内容通常与玻璃后面的内容相似,识别它并非易事。如果我们机器人的传感器不能准确识别出这些玻璃,那么将导致机器人在最初的SLAM过程中就酿成大错。
研究者们最初用激光测距仪,基于激光束的反射特性设计算法来满足机器人对玻璃墙的探测,但不能让机器人感知其语义信息。有研究者提出一种不仅使用彩色图像而且使用激光反射强度图像的透明物体视觉检测方法,但仅仅局限于短距离的识别。随着深度学习的发展,视觉检测应用越来越广泛。经典的实例分割算法Mask-RCNN只能透过玻璃识别出其后面的物体。同时RGB-D相机只能测出玻璃背后物体的深度信息,深度预测方法如深度估计算法如MegaDepth同样也是仅仅预测到错误的玻璃后的物体深度。现存的方法在玻璃检测方面都存在很大的误差,很不利于机器人技术的发展。
发明内容
1.要解决的问题
本发明的目的在于克服现有技术中,机器人识别玻璃精度低,进而导致机器人会撞上障碍玻璃的不足,提出一种基于Transformer的玻璃识别方法,可以有效地识别出玻璃的位置区域,且提高了检测精度,进而可以避免机器人撞上障碍玻璃,具有较高的实用性。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种基于Transformer的玻璃识别方法,包括:采集玻璃图像,根据玻璃图像制作训练集和验证集;然后根据Transformer网络构建深度学习网络模型;之后利用训练集对深度学习网络模型进行训练,再利用验证集对训练后的深度学习网络模型进行验证得到验证值;根据验证值计算得到平均精确度值MAP,再根据MAP判断是否保存深度学习网络模型;若判断不保存深度学习网络模型,则利用训练集继续对深度学习网络模型进行训练;若判断保存深度学习网络模型,则保存深度学习网络模型并利用保存的深度学习网络模型识别玻璃。
作为本发明更进一步地改进,构建深度学习网络模型的具体步骤如下:
采用CNN网络对玻璃图像进行特征提取得到特征图,再利用1×1的卷积将特征图的维度由2048降至512;设置扩张残差块对512维度的特征图进行扩张卷积处理得到扩张后的特征图;之后根据Transformer网络结构构建编码层和解码层,该编码层对展平后的扩张后的特征图进行位置编码,解码层对编码后的特征图进行解码;而后设置两个多层感知网络,将解码后的特征图输入至两个多层感知网络进行分类处理和边界框的回归处理得到目标检测图和S个玻璃区域的边界框;然后设置多头注意力层,先对目标检测图和S个玻璃区域的边界框进行编码,再将编码后的目标检测图和S个玻璃区域的边界框输入至多头注意力层获得注意力特征图,其中,S为目标检测图中玻璃区域数目;再设置掩膜分割卷积头得到深度学习网络模型,其中,掩膜分割卷积头对注意力特征图进行处理得到玻璃实例分割图。
作为本发明更进一步地改进,对深度学习网络模型进行训练的具体过程为:先设置权重初始化、超参数以及优化器,而后将训练集中的玻璃图像输入至深度学习网络模型进行训练。
作为本发明更进一步地改进,根据验证值判断是否保存深度学习网络模型的具体过程为:设定阈值为90%,若MAP≥90%,则保存深度学习网络模型;若MAP<90%,则不保存深度学习网络模型。
作为本发明更进一步地改进,利用Res2Net对玻璃图像进行细粒度特征提取得到特征图。
作为本发明更进一步地改进,对512维度的特征图进行扩张卷积处理的具体过程为:
将512维度的特征图输入扩张残差块,先利用扩张残差块的1×1的卷积将特征图的维度降低到128,再将128维度的特征图在维度上划分为4块特征图,每块特征图的维度为32;
利用3×3的卷积将4块特征图进行融合并通过1×1卷积得到512维度的扩张后的特征图。
作为本发明更进一步地改进,掩膜分割卷积头对注意力特征图进行处理的具体过程为:
对注意力特征图进行上采样得到大小为
Figure BDA0003037087280000021
的特征图,同时利用CNN网络对输入的玻璃图像提取得到大小为
Figure BDA0003037087280000022
的高分辨率特征图,再对高分辨率特征图进行复制处理得到
Figure BDA0003037087280000023
的特征图;其中,H为特征图的高度,W为特征图的宽度,M为多头注意力层中的头数;
将大小为
Figure BDA0003037087280000024
的特征图和
Figure BDA0003037087280000025
的特征图进行拼接得到
Figure BDA0003037087280000026
的特征图;
利用BN激活函数和RELU激活函数对
Figure BDA0003037087280000027
的特征图进行处理,再将处理后的特征图经过1×1的卷积处理获得大小为
Figure BDA0003037087280000028
的特征图;
利用argmax对
Figure BDA0003037087280000031
的特征图进行语义分割得到玻璃实例分割图。
作为本发明更进一步地改进,深度学习网络模型训练的损失函数
Figure BDA0003037087280000032
为:
Figure BDA0003037087280000033
Figure BDA0003037087280000034
Figure BDA0003037087280000035
Figure BDA0003037087280000036
Figure BDA0003037087280000037
其中,ncl代表玻璃图像中的像素类别数目,nij代表像素中属于第i类预测为第j类的数目,nii代表像素中属于第i类预测为第i类的数目,ci'代表玻璃图像中第i类像素的真实总数目;yi表示真实值,
Figure BDA0003037087280000038
表示预测值,
Figure BDA0003037087280000039
表示指示函数,ci为第i类标签,
Figure BDA00030370872800000310
表示第i类标签为背景,bi表示真值边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量,
Figure BDA00030370872800000311
表示预测边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量,
Figure BDA00030370872800000312
表示第i类标签边界框内玻璃分类的概率。
作为本发明更进一步地改进,验证值包括TP、FP、FN和TN,
Figure BDA00030370872800000313
Figure BDA00030370872800000314
Figure BDA00030370872800000315
其中,TP为被深度学习网络模型识别正确且认为是正样本的样本;FP为被深度学习网络模型识别正确且认为是负样本的样本;FN为被深度学习网络模型识别错误且认为是正样本的样本;TN为被深度学习网络模型识别错误且认为是负样本的样本。
作为本发明更进一步地改进,4块特征图分别为X1,X2,X3和X4,X1经过3×3的卷积得到Y1,而后将Y1融入X2并将Y1和X2融合后的特征图进行3×3的卷积得到Y2,再将Y2融入X3并将Y2和X3融合后的特征图进行3×3的卷积得到Y3;之后将Y3融入X4并将Y3和X4融合后的特征图进行3×3的卷积得到Y4;之后将Y1,Y2,Y3和Y4进行拼接,再将拼接后的特征图进行1×1的卷积得到扩张后的特征图。
3.有益效果
相比于现有技术,本发明的有益效果为:
本发明的一种基于Transformer的玻璃识别方法,通过构建络的深度学习网络模型,基于Transformer的自注意力机制具有良好的全局信息感知性能,从而可以有效实现现实复杂场景中的透明玻璃识别,满足各种实际场景的玻璃识别,进而可以避免机器人发生碰撞,具有良好的泛化性能和较好的鲁棒性。
附图说明
图1为本发明方法的流程示意图;
图2为本发明的深度学习网络模型结构示意图;
图3为本发明的扩张残差块的结构示意图;
图4为本发明的掩膜分割卷积头的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例;而且,各个实施例之间不是相对独立的,根据需要可以相互组合,从而达到更优的效果。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。
实施例1
结合图1所示,本发明的一种基于Transformer的玻璃识别方法,通过基于Transformer的深度学习网络模型识别玻璃,可以有效地提高识别玻璃的准确度,能够在现实各种场景中识别出玻璃区域,进而可以避免机器人撞上障碍玻璃,具有较高的实用性。本发明一种基于Transformer的玻璃识别方法具体步骤如下:
(1)采集玻璃图像
步骤S100:采集玻璃图像,值得说明的是,本发明采集的是各个场景下的玻璃图像,且本发明不限于特定方式采集图像,例如可以通过拍照或者网络获取不同场景下的玻璃图像。
(2)制作训练集和验证集
步骤S200:根据玻璃图像制作训练集和验证集,具体地,对采集的每张玻璃图像进行标注,具体标注玻璃图像中玻璃的位置和形状,本实施例中通过Labelme工具进行玻璃图像的标注。而后将标注的玻璃图像分为训练集和验证集,训练集的玻璃图像数量占玻璃图像总数量的80%,验证集的玻璃图像数量占玻璃图像总数量剩余的20%。
(3)构建深度学习网络模型
结合图2所示,步骤S300:根据Transformer网络构建深度学习网络模型,具体地,本发明构建深度学习网络模型的具体步骤如下:
步骤S310:采用CNN网络对玻璃图像进行特征提取得到特征图,再利用1×1的卷积将特征图的维度由2048降至512;值得说明的是,输入的玻璃图像大小为H×W×3,其中,H表示输入的玻璃图像的高度,W表示输入的玻璃图像的宽度,3表示输入的玻璃图像的维度。此外,本发明利用Res2Net对玻璃图像进行细粒度特征提取得到特征图,提取得到的特征图大小为
Figure BDA0003037087280000051
步骤S320:设置扩张残差块对512维度的特征图进行扩张卷积处理得到扩张后的特征图;值得说明的是,通过对特征图进行扩张卷积处理,从而可以获得具有更大的感受野的特征图,从而可以满足多变的现实情况,具有较好的鲁棒性。结合图3所示,本发明对512维度的特征图进行扩张卷积处理的具体过程为:
步骤S321:将512维度的特征图输入扩张残差块,先利用扩张残差块的1×1的卷积将特征图的维度从512降低到128,此时特征图的大小为
Figure BDA0003037087280000052
步骤S322:将128维度的特征图在维度上划分为4块特征图,划分得到的每块特征图的维度为32,即每张特征图的大小为
Figure BDA0003037087280000053
本实施例中得到的4块特征图分别为X1,X2,X3和X4
步骤S323:利用3×3的卷积将4块特征图进行融合并通过1×1卷积得到512维度的扩张后的特征图。具体地融合过程为:X1经过3×3的卷积得到Y1,而后将Y1以add的方式融入X2并将Y1和X2融合后的特征图进行3×3的卷积得到Y2,再将Y2以add的方式融入X3并将Y2和X3融合后的特征图进行3×3的卷积得到Y3;之后将Y3以add的方式融入X4并将Y3和X4融合后的特征图进行3×3的卷积得到Y4;之后将Y1,Y2,Y3和Y4以concat的方式进行拼接,再将拼接后的特征图进行1×1的卷积得到扩张后的特征图,该扩张后的特征图大小为
Figure BDA0003037087280000054
步骤S324:根据Transformer网络结构构建编码层和解码层,具体地,编码层和解码层分别包括六个结构相同的块,该块采用Transformer网络结构,且解码层以N个512维度可学习向量作为查询输入,其中,N指的是玻璃的类别数量。该编码层对展平后的扩张后的特征图进行位置编码,解码层对编码后的特征图进行解码;。
步骤S325:设置两个多层感知网络,将解码后的特征图输入至两个多层感知网络进行分类处理和边界框的回归处理得到目标检测图和S个玻璃区域的边界框;具体地,将解码后的特征图同时输入至两个多层感知网络,其中一个多层感知网络对解码后的特征图进行分类处理,另一个多层感知网络对解码后的特征图进行边界框的回归处理得到S个玻璃区域的边界框,根据分类处理结果和S个玻璃区域的边界框得到目标检测图。本发明的多层感知网络包括3层隐含层,隐含层的激活函数为Sigmoid激活函数。
步骤S326:设置多头注意力层,先对目标检测图和S个玻璃区域的边界框进行编码,再将编码后的目标检测图与S个玻璃区域的边界框输入至多头注意力层获得注意力特征图,注意力特征图的大小为
Figure BDA0003037087280000061
其中,S为目标检测图中玻璃区域数目。
步骤S327:设置掩膜分割卷积头得到深度学习网络模型,其中,掩膜分割卷积头对注意力特征图进行处理得到玻璃实例分割图。具体地,结合图4所示,先对注意力特征图进行上采样得到大小为
Figure BDA0003037087280000062
的特征图,同时利用CNN网络对输入的玻璃图像提取得到大小为
Figure BDA0003037087280000063
的高分辨率特征图,其中,该输入的玻璃图像为目标检测图。之后对高分辨率特征图进行复制处理得到
Figure BDA0003037087280000064
的特征图;其中,H为特征图的高度,W为特征图的宽度,M为多头注意力层中的头数。之后将大小为
Figure BDA0003037087280000065
的特征图和
Figure BDA0003037087280000066
的特征图以concat的方式进行拼接得到
Figure BDA0003037087280000067
的特征图。
进一步地,利用BN激活函数和RELU激活函数对
Figure BDA0003037087280000068
的特征图进行处理,再将处理后的特征图经过1×1的卷积处理获得大小为
Figure BDA0003037087280000069
的特征图;最后利用argmax对
Figure BDA00030370872800000610
的特征图进行语义分割得到玻璃实例分割图。
值得说明的是,通过上述步骤即可构建得到深度学习网络模型,从而可以有效机器人现实复杂场景中的透明玻璃识别,如玻璃墙、玻璃门、玻璃窗等等,并且具有良好的鲁棒性。
步骤S400:利用训练集对深度学习网络模型进行训练,值得说明的是,对深度学习网络模型进行训练的具体过程为:先设置权重初始化、超参数和优化器,具体地,本发明中设置权重初始化方式为高斯分布,且优化器采用Adam,本实施例采用反向梯度传播法进行权重更新。
进一步地,本发明中深度学习网络模型训练的损失函数
Figure BDA00030370872800000611
为:
Figure BDA00030370872800000612
Figure BDA0003037087280000071
Figure BDA0003037087280000072
Figure BDA0003037087280000073
Figure BDA0003037087280000074
其中,
Figure BDA0003037087280000075
为像素分割掩膜损失函数,
Figure BDA0003037087280000076
为真实值和指数σ预测之间的成对匹配的损失函数,其中,ncl代表玻璃图像中的像素类别数目,nij代表像素中属于第i类预测为第j类的数目,nii代表像素中属于第i类预测为第i类的数目,c′i代表玻璃图像中第i类像素的真实总数目;yi表示真实值,
Figure BDA0003037087280000077
表示预测值,
Figure BDA0003037087280000078
表示指示函数,ci为第i类标签,
Figure BDA0003037087280000079
表示第i类标签为背景,bi表示真值边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量,
Figure BDA00030370872800000710
表示预测边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量,
Figure BDA00030370872800000711
表示第i类标签边界框内玻璃分类的概率。
步骤S500:利用验证集对训练后的深度学习网络模型进行验证得到验证值,并根据验证值计算得到平均精确度值MAP,具体地,验证值包括TP、FP、FN和TN,
Figure BDA00030370872800000712
Figure BDA00030370872800000713
Figure BDA00030370872800000714
其中,P为精准率,R为召回率;TP为被深度学习网络模型识别正确且认为是正样本的样本;FP为被深度学习网络模型识别正确且认为是负样本的样本;FN为被深度学习网络模型识别错误且认为是正样本的样本;TN为被深度学习网络模型识别错误且认为是负样本的样本。
步骤S500:根据MAP判断是否保存深度学习网络模型;具体地,本发明中设定阈值为90%,若MAP≥90%,则保存深度学习网络模型;若MAP<90%,则不保存深度学习网络模型。进一步地,若判断不保存深度学习网络模型,则利用训练集继续对深度学习网络模型进行训练;若判断保存深度学习网络模型,则保存深度学习网络模型并利用保存的深度学习网络模型识别玻璃,值得说明的是,利用保存的深度学习网络模型对待检测的玻璃图像进行检测,从而可以获得玻璃的位置区域、玻璃类型以及置信度。
本发明的一种基于Transformer的玻璃识别方法,通过构建络的深度学习网络模型,基于Transformer的自注意力机制具有良好的全局信息感知性能,从而可以有效实现现实复杂场景中的透明玻璃识别,满足各种实际场景的玻璃识别,进而可以避免机器人发生碰撞,具有良好的泛化性能和较好的鲁棒性。
在上文中结合具体的示例性实施例详细描述了本发明。但是,应当理解,可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的,而不是限制性的,如果存在任何这样的修改和变型,那么它们都将落入在此描述的本发明的范围内。此外,背景技术旨在为了说明本技术的研发现状和意义,并不旨在限制本发明或本申请和本发明的应用领域。

Claims (10)

1.一种基于Transformer的玻璃识别方法,其特征在于,包括:
采集玻璃图像,根据玻璃图像制作训练集和验证集;
根据Transformer网络构建深度学习网络模型;
利用训练集对深度学习网络模型进行训练,再利用验证集对训练后的深度学习网络模型进行验证得到验证值;
根据验证值计算得到平均精确度值MAP,再根据MAP判断是否保存深度学习网络模型;若判断不保存深度学习网络模型,则利用训练集继续对深度学习网络模型进行训练;若判断保存深度学习网络模型,则保存深度学习网络模型并利用保存的深度学习网络模型识别玻璃。
2.根据权利要求1所述的一种基于Transformer的玻璃识别方法,其特征在于,构建深度学习网络模型的具体步骤如下:
采用CNN网络对玻璃图像进行特征提取得到特征图,再利用1×1的卷积将特征图的维度由2048降至512;
设置扩张残差块对512维度的特征图进行扩张卷积处理得到扩张后的特征图;
根据Transformer网络结构构建编码层和解码层,该编码层对展平后的扩张后的特征图进行位置编码,解码层对编码后的特征图进行解码;
设置两个多层感知网络,将解码后的特征图输入至两个多层感知网络进行分类处理和边界框的回归处理得到目标检测图和S个玻璃区域的边界框;
设置多头注意力层,先对目标检测图和S个玻璃区域的边界框进行编码,再将编码后的目标检测图和S个玻璃区域的边界框输入至多头注意力层获得注意力特征图,其中,S为目标检测图中玻璃区域数目;
再设置掩膜分割卷积头得到深度学习网络模型,其中,掩膜分割卷积头对注意力特征图进行处理得到玻璃实例分割图。
3.根据权利要求1所述的一种基于Transformer的玻璃识别方法,其特征在于,对深度学习网络模型进行训练的具体过程为:先设置权重初始化和优化器,而后将训练集中的玻璃图像输入至深度学习网络模型进行训练。
4.根据权利要求1所述的一种基于Transformer的玻璃识别方法,其特征在于,根据验证值判断是否保存深度学习网络模型的具体过程为:设定阈值为90%,若MAP≥90%,则保存深度学习网络模型;若MAP<90%,则不保存深度学习网络模型。
5.根据权利要求2所述的一种基于Transformer的玻璃识别方法,其特征在于,利用Res2Net对玻璃图像进行细粒度特征提取得到特征图。
6.根据权利要求2所述的一种基于Transformer的玻璃识别方法,其特征在于,对512维度的特征图进行扩张卷积处理的具体过程为:
将512维度的特征图输入扩张残差块,先利用扩张残差块的1×1的卷积将特征图的维度降低到128,再将128维度的特征图在维度上划分为4块特征图,每块特征图的维度为32;
利用3×3的卷积将4块特征图进行融合并通过1×1卷积得到512维度的扩张后的特征图。
7.根据权利要求2所述的一种基于Transformer的玻璃识别方法,其特征在于,掩膜分割卷积头对注意力特征图进行处理的具体过程为:
对注意力特征图进行上采样得到大小为
Figure FDA0003037087270000021
的特征图,同时利用CNN网络对输入的玻璃图像提取得到大小为
Figure FDA0003037087270000022
的高分辨率特征图,再对高分辨率特征图进行复制处理得到
Figure FDA0003037087270000023
的特征图;其中,H为特征图的高度,W为特征图的宽度,M为多头注意力层中的头数;
将大小为
Figure FDA0003037087270000024
的特征图和
Figure FDA0003037087270000025
的特征图进行拼接得到
Figure FDA0003037087270000026
的特征图;
利用BN激活函数和RELU激活函数对
Figure FDA0003037087270000027
的特征图进行处理,再将处理后的特征图经过1×1的卷积处理获得大小为
Figure FDA0003037087270000028
的特征图;
利用argmax对
Figure FDA0003037087270000029
的特征图进行语义分割得到玻璃实例分割图。
8.根据权利要求3所述的一种基于Transformer的玻璃识别方法,其特征在于,深度学习网络模型训练的损失函数
Figure FDA00030370872700000210
为:
Figure FDA00030370872700000211
Figure FDA00030370872700000212
Figure FDA00030370872700000213
Figure FDA00030370872700000214
Figure FDA00030370872700000215
其中,ncl代表玻璃图像中的像素类别数目,nij代表像素中属于第i类预测为第j类的数目,nii代表像素中属于第i类预测为第i类的数目,c′i代表玻璃图像中第i类像素的真实总数目;yi表示真实值,
Figure FDA00030370872700000216
表示预测值,
Figure FDA00030370872700000217
表示指示函数,ci为第i类标签,
Figure FDA00030370872700000218
表示第i类标签为背景,bi表示真值边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量,
Figure FDA0003037087270000031
表示预测边界框中心坐标及其相对于玻璃图像大小的高度和宽度的向量,
Figure FDA0003037087270000032
表示第i类标签边界框内玻璃分类的概率。
9.根据权利要求4所述的一种基于Transformer的玻璃识别方法,其特征在于,验证值包括TP、FP、FN和TN,
Figure FDA0003037087270000033
Figure FDA0003037087270000034
Figure FDA0003037087270000035
其中,TP为被深度学习网络模型识别正确且认为是正样本的样本;FP为被深度学习网络模型识别正确且认为是负样本的样本;FN为被深度学习网络模型识别错误且认为是正样本的样本;TN为被深度学习网络模型识别错误且认为是负样本的样本。
10.根据权利要求6所述的一种基于Transformer的玻璃识别方法,其特征在于,4块特征图分别为X1,X2,X3和X4,X1经过3×3的卷积得到Y1,而后将Y1融入X2并将Y1和X2融合后的特征图进行3×3的卷积得到Y2,再将Y2融入X3并将Y2和X3融合后的特征图进行3×3的卷积得到Y3;之后将Y3融入X4并将Y3和X4融合后的特征图进行3×3的卷积得到Y4
将Y1,Y2,Y3和Y4进行拼接,再将拼接后的特征图进行1×1的卷积得到扩张后的特征图。
CN202110446441.4A 2021-04-25 2021-04-25 一种基于Transformer的玻璃识别方法 Active CN113139470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110446441.4A CN113139470B (zh) 2021-04-25 2021-04-25 一种基于Transformer的玻璃识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110446441.4A CN113139470B (zh) 2021-04-25 2021-04-25 一种基于Transformer的玻璃识别方法

Publications (2)

Publication Number Publication Date
CN113139470A true CN113139470A (zh) 2021-07-20
CN113139470B CN113139470B (zh) 2023-05-23

Family

ID=76811914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110446441.4A Active CN113139470B (zh) 2021-04-25 2021-04-25 一种基于Transformer的玻璃识别方法

Country Status (1)

Country Link
CN (1) CN113139470B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673420A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于全局特征感知的目标检测方法及系统
CN113723208A (zh) * 2021-08-05 2021-11-30 北京大学 基于规范等变转换算子神经网络的三维物体形状分类方法
CN113837154A (zh) * 2021-11-25 2021-12-24 之江实验室 一种基于多任务辅助的开放集过滤系统及方法
CN114511798A (zh) * 2021-12-10 2022-05-17 安徽大学 基于transformer的驾驶员分心检测方法及装置
CN114677604A (zh) * 2022-04-20 2022-06-28 电子科技大学 一种基于机器视觉的窗户状态检测方法
CN116485729A (zh) * 2023-04-03 2023-07-25 兰州大学 基于transformer的多级桥梁缺陷检测方法
CN117011711A (zh) * 2023-08-07 2023-11-07 长安大学 一种海绵城市绿色基础设施多类别识别与分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271856A (zh) * 2018-08-03 2019-01-25 西安电子科技大学 基于扩张残差卷积的光学遥感图像目标检测方法
CN109902677A (zh) * 2019-01-30 2019-06-18 深圳北斗通信科技有限公司 一种基于深度学习的车辆检测方法
CN110276316A (zh) * 2019-06-26 2019-09-24 电子科技大学 一种基于深度学习的人体关键点检测方法
CN111598951A (zh) * 2020-05-18 2020-08-28 清华大学 一种识别空间目标的方法、装置和存储介质
CN111914842A (zh) * 2020-08-10 2020-11-10 深圳市视美泰技术股份有限公司 车牌信息的识别方法、装置、计算机设备及存储介质
CN112149619A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
US20210064901A1 (en) * 2019-08-29 2021-03-04 PXL Vision AG Facial liveness detection with a mobile device
CN112489050A (zh) * 2020-12-13 2021-03-12 成都易书桥科技有限公司 一种基于特征迁移的半监督实例分割算法
CN112531903A (zh) * 2020-12-10 2021-03-19 国家电网有限公司 基于机器人和vr眼镜用于变电站故障诊断的系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271856A (zh) * 2018-08-03 2019-01-25 西安电子科技大学 基于扩张残差卷积的光学遥感图像目标检测方法
CN109902677A (zh) * 2019-01-30 2019-06-18 深圳北斗通信科技有限公司 一种基于深度学习的车辆检测方法
CN110276316A (zh) * 2019-06-26 2019-09-24 电子科技大学 一种基于深度学习的人体关键点检测方法
US20210064901A1 (en) * 2019-08-29 2021-03-04 PXL Vision AG Facial liveness detection with a mobile device
CN111598951A (zh) * 2020-05-18 2020-08-28 清华大学 一种识别空间目标的方法、装置和存储介质
CN111914842A (zh) * 2020-08-10 2020-11-10 深圳市视美泰技术股份有限公司 车牌信息的识别方法、装置、计算机设备及存储介质
CN112149619A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN112531903A (zh) * 2020-12-10 2021-03-19 国家电网有限公司 基于机器人和vr眼镜用于变电站故障诊断的系统及方法
CN112489050A (zh) * 2020-12-13 2021-03-12 成都易书桥科技有限公司 一种基于特征迁移的半监督实例分割算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ENZE XIE 等: "Segmenting Transparent Object in the Wild with Transformer", 《ARXIV:2101.08461V3》 *
NICOLAS CARION 等: "End-to-End Object Detection with Transformers", 《ECCV 2020》 *
QIANG CHEN 等: "You Only Look One-level Feature", 《CVPR 2021》 *
王宇 等: "深度残差神经网络高分辨率遥感图像建筑物分割", 《遥感技术与应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723208A (zh) * 2021-08-05 2021-11-30 北京大学 基于规范等变转换算子神经网络的三维物体形状分类方法
CN113723208B (zh) * 2021-08-05 2023-10-20 北京大学 基于规范等变转换算子神经网络的三维物体形状分类方法
CN113673420A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于全局特征感知的目标检测方法及系统
CN113673420B (zh) * 2021-08-19 2022-02-15 清华大学 一种基于全局特征感知的目标检测方法及系统
CN113837154A (zh) * 2021-11-25 2021-12-24 之江实验室 一种基于多任务辅助的开放集过滤系统及方法
CN114511798A (zh) * 2021-12-10 2022-05-17 安徽大学 基于transformer的驾驶员分心检测方法及装置
CN114511798B (zh) * 2021-12-10 2024-04-26 安徽大学 基于transformer的驾驶员分心检测方法及装置
CN114677604A (zh) * 2022-04-20 2022-06-28 电子科技大学 一种基于机器视觉的窗户状态检测方法
CN114677604B (zh) * 2022-04-20 2023-04-07 电子科技大学 一种基于机器视觉的窗户状态检测方法
CN116485729A (zh) * 2023-04-03 2023-07-25 兰州大学 基于transformer的多级桥梁缺陷检测方法
CN116485729B (zh) * 2023-04-03 2024-01-12 兰州大学 基于transformer的多级桥梁缺陷检测方法
CN117011711A (zh) * 2023-08-07 2023-11-07 长安大学 一种海绵城市绿色基础设施多类别识别与分类方法

Also Published As

Publication number Publication date
CN113139470B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN113139470B (zh) 一种基于Transformer的玻璃识别方法
CN110147763B (zh) 基于卷积神经网络的视频语义分割方法
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN108960184B (zh) 一种基于异构部件深度神经网络的行人再识别方法
Dai et al. Residential building facade segmentation in the urban environment
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
CN115372958A (zh) 一种基于毫米波雷达和单目视觉融合的目标检测和跟踪方法
CN113361464B (zh) 一种基于多粒度特征分割的车辆重识别方法
CN112365586B (zh) 3d人脸建模与立体判断方法及嵌入式平台的双目3d人脸建模与立体判断方法
WO2021243947A1 (zh) 对象再识别方法及装置、终端和存储介质
CN111274980A (zh) 基于yolov3和非对称卷积的小尺寸交通标志识别方法
CN112508985A (zh) 一种基于语义分割的slam回环检测改进方法
CN115375781A (zh) 一种数据处理方法及其装置
CN114067292A (zh) 用于智能驾驶的图像处理方法和装置
CN112613392A (zh) 基于语义分割的车道线检测方法、装置、系统及存储介质
Duran et al. Vehicle-to-vehicle distance estimation using artificial neural network and a toe-in-style stereo camera
CN110751005B (zh) 融合深度感知特征和核极限学习机的行人检测方法
CN113781563B (zh) 一种基于深度学习的移动机器人回环检测方法
CN113298037B (zh) 一种基于胶囊网络的车辆重识别方法
TWI619099B (zh) Intelligent multifunctional driving assisted driving recording method and system
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
CN113128441A (zh) 一种属性和状态引导的结构嵌入车辆重识别系统和方法
Dong et al. Intelligent pixel-level pavement marking detection using 2D laser pavement images
CN112580424B (zh) 一种复杂车路环境的偏振特征多尺度池化分类算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant