CN114170174B - 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 - Google Patents

基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 Download PDF

Info

Publication number
CN114170174B
CN114170174B CN202111457411.XA CN202111457411A CN114170174B CN 114170174 B CN114170174 B CN 114170174B CN 202111457411 A CN202111457411 A CN 202111457411A CN 114170174 B CN114170174 B CN 114170174B
Authority
CN
China
Prior art keywords
rgb
module
information
image
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111457411.XA
Other languages
English (en)
Other versions
CN114170174A (zh
Inventor
温馨
何彧
张胜男
单菊然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang University of Technology
Original Assignee
Shenyang University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang University of Technology filed Critical Shenyang University of Technology
Priority to CN202111457411.XA priority Critical patent/CN114170174B/zh
Publication of CN114170174A publication Critical patent/CN114170174A/zh
Application granted granted Critical
Publication of CN114170174B publication Critical patent/CN114170174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及基于RGB‑D图像的CLANet钢轨表面缺陷检测系统及方法,系统包括:特征提取模块,跨模态信息融合模块,缺陷定位与分割模块;方法为,特征提取模块对输入的RGB图像和深度图像分别提取其多级特征,得到RGB‑D特征信息;跨模态信息融合模块的空间细化分支模块SRB将RGB‑D特征信息分散到四个维度上,得到fn RGB和fn Depth;跨模态信息融合模块果进行跨模态融合,得到fi;融合结果传入双流解码器DSD,得到显著性缺陷预测图;计算协作学习注意力网络CLANet的损失值。本发明更好的实现两个模态的特征融合和跨模态融合,从而进一步提高图像的检测效果,以提高钢轨表面的准确率。

Description

基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
技术领域
本发明涉及钢轨表面缺陷检测技术领域和图像检测技术领域,具体涉及一种基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法。
技术背景
近年来,由于视觉注意力机制和深度学习的飞速发展,显著性目标检测渐渐成为了计算机视觉领域的一个非常热门的研究方向。显著性检测是计算机视觉中极其重要的一种任务,它是依靠深度学习算法来模拟人的视觉特点,实现特定目标的检测。人的视觉注意力机制则是依靠人的先验性知识,有选择性的获取显著性目标,即感兴趣的目标。显著性检测在目标识别,图像视频压缩,图像检索,图像重定向等方向有着重要的应用价值。现代神经网络雏形在1998年形成,网络中加入了Back Propagation(BP)算法,学习过程由信息的正向传播与误差的反向传播两个过程组成。
随着图像数据获取设备的发展,Kinect等深度相机受到关注,目标的深度信息获取变得越来越方便。显著性检测也由简单的采取RGB图像转变为采用RGB 和深度(Depth)图像完成检测任务。2017年第一个将卷积神经网络应用在RGB-D 图像显著性检测中的模型被提出,但是该模型仅仅用网络的浅层信息进行显著性预测,没有充分利用深层的信息。随后许多RGB-D图像的显著性检测模型被提出,也取得了一定的积极成果。相较于采用传统算法进行显著性检测,采用深度学习算法完成显著性检测,在检测效果上要更加具有优势。
铁路运输是现代综合交通运输体系的主要方式之一,高速钢轨缺陷检测对列车安全高效运行意义重大。钢轨在长期的使用后或者在生产过程中可能存在表面裂纹,结疤,剥离掉块等缺陷,及时发现这些缺陷可以有效避免经济损失。
目前显著性检测的研究目标都聚焦在自然场景中的目标识别,如室内的摆设物品,公路上的车辆,花园中的植物等目标。显著性检测应用到工业上的检测任务是具有挑战性的。钢轨缺陷检测不同于在自然场景中对目标进行检测,具有更大的难度。高速钢轨的缺陷区域与钢轨背景之间的色彩对比差异小,单纯依靠 RGB图像无法有效的区分出缺陷区域。其次钢轨缺陷的形状和纹理与自然场景中的目标,与汽车,行人和桌椅等相比更加复杂,检测难度大。
以往的RGB-D图像显著性检测工作虽然也涉及到了信息融合问题的研究,但是往往将深度图像信息作为一种补充信息,并没有侧重将RGB图像与深度图像多模态信息的相互关注,不能充分深度图像信息在显著性检测中的作用。此外显著性检测还应当同时关注边缘等细节信息和位置信息。
人工目视法,电涡流检测法,磁粉法和超声波检测法是目前钢轨缺陷检测的常见方法,这些方法在检测精度和效率上都要低于机器视觉方法,图像处理技术没有得到广泛的应用。
发明内容
发明目的:本发明提出一种基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法,其目的是更好的实现两个模态的特征融合和跨模态融合,从而进一步提高图像的检测效果,以提高钢轨表面的准确率。
本发明所采取的技术方案如下:
基于RGB-D图像的CLANet钢轨表面缺陷检测系统,包括:特征提取模块,跨模态信息融合模块,缺陷定位与分割模块;
特征提取模块对输入的RGB图像和深度图像分别提取各自的多级特征信息;
跨模态信息融合模块对特征提取模块提取的RGB图像特征信息与Depth图像特征信息充分交叉融合;
缺陷定位与分割模块用于对上述跨模态信息融合模块得到的每一层的全局信息,进行解码和缺陷定位分割操作,最后得到显著性缺陷预测图和损失。
上述跨模态信息融合模块包含空间细化分支模块SRB和多模态注意力模块 MAB,其中多模态注意力模块MAB包含多组跨模态相互作用模块CMIM;空间细化分支模块SRB,用于在不添加参数的情况下增加网络的接受域,它将RGB-D 信息分散到四个维度,分别获得不同的局部和全局信息;跨模态相互作用模块 CMIM用于将空间细化分支模块SRB生成的RBG-D特征图,采用反馈-负反馈方式完成信息融合。
缺陷定位与分割模块中的双流解码器DSD进行解码操作,DSD包括两部分:低级-高级信息融合LH-IF和高级-低级信息融合HL-IF,低级-高级信息融合 LH-IF将丰富的特征信息从高分辨率传输到低分辨率;高级-低级信息融合HL-IF 用于对低级-高级信息融合LH-IF的输出结果进行解码操作,从而完成最终检查任务。
一种基于RGB-D图像的CLANet钢轨表面缺陷检测系统的方法,
步骤1:特征提取模块对输入的RGB图像和深度图像分别提取其多级特征,并将深度图像采取灰度映射的方式由单通道转变为三通道,得到RGB-D特征信息;
步骤2:跨模态信息融合模块的空间细化分支模块SRB将步骤1所有层级的RGB-D特征信息分散到四个维度上,得到fn RGB和fn Depth
步骤3:跨模态信息融合模块的多模态注意力模块MAB以及MAB内部的跨模态相互作用模块CMIM将步骤2的每一层的结果进行跨模态融合,得到fi
步骤4:将经历过步骤3处理每一层的融合结果,传入双流解码器DSD,进行解码、缺陷定位和分割操作,最后得到显著性缺陷预测图;
步骤5:计算协作学习注意力网络CLANet的损失值。其由两部分组成,其中包括一个网络最终预测结果损失可以训练整个网络的参数,另一个是LH-IF 最深层的输出结果损失可以用来监督RGB和Depth特征的融合情况。
进一步的,步骤2中空间细化分支模块SRB具体操作如下:
其中RGB图像特征和Depth图像特征的尺寸被定义为fi RGB, fi Depth分别表示网络第i层的特征,i=1,2,3,4,5,6。/>分别表示 RGB图像和深度图像的分支特征,通道数变为原来的1/4,j=1,2,3,4,表示不同膨胀率下的特征,Dilconv是膨胀卷积层,Wi,j是卷积层参数, dj={1,2,3,4}={1,3,5,7}为膨胀系数。
进一步的,步骤3中跨模态相互作用模块CMIM运行如下程序:
3.1以步骤2中空间细化分支模块SRB中得到的任一层级的第n组结果:fn RGB和fn Depth,作为本模块的输入,首先在RGB图像特征图的宽度和高度方向进行一维全局平均池化得到zh、zw
3.2 zh、zw分别沿两个空间方向聚集特征,并沿另一个空间方向保存精确的位置信息,将zh、zw进行拼接;
3.3在zh、zw进行拼接的卷积层中引入了2的缩减率,得到RGB图片特征
3.4将得到的在宽度和高度上采用核大小为1×1的卷积运算进行分离;
3.5将RGB图像中的颜色信息融合到Depth图像中,操作为其中/>是步骤3.4利用卷积对RGB图像特征分离后的结果。
3.6将得到的新的Depth图像信息进行步骤3.1至3.5的操作,得到/>
3.7利用与输入的原始RGB图像特征进行跨模态融合,得到最终输出结果为/>
式中是将已经融合了RGB图像特征的Depth图像信息,进行 CMIM操作后得到的结果。
进一步的,步骤3.1中,一维全局平均池化操作为:
其中m表示输入图像的通道索引值,W、H表示RGB特征的宽度和高度像素值大小,大小分别为/>
进一步的,zh、zw进行拼接,具体操作如下:
zhw=Concat(zh,zw),zhw=BN(Conv(zhw))×σ(BN(Conv(zhw)))
Conv是卷积核大小为1×1的卷积层,σ表示Relu激活函数,BN表示BatchNormalization(批标准化)。
进一步的,卷积运算为,
其中Sp表示分裂操作,为sigmoid激活函数,Conv是卷积核大小为1×1的卷积层。
进一步的,步骤5中两中损失的计算公式为:
l=lf(Pf,G)+α×lRGB(Pm,G)+α×lDepth(Pm,G)
其中Pf表示网络最终预测结果, Pm表示LH-IF最深层的输出结果,P代表预测值,G表示真实值,l表示损失函数,α是权重系数,其中k={f,RGB,Depth},网络的动量参数设为0.99,学习率设为lr=10^(-9),权重衰减为0.0005。
与现有技术相比,本发明具有如下优势:
本发明针对无轨缺陷检测问题,提出了一种神经网络CLANet。它具有非接触检测的特点,可以实现可靠的检测结果。CLANet在网络的宽度和深度方面都进行了提升,可以实现更好的检测结果
本发明提出的多模态注意模块MAB用于突出钢轨表面的缺陷部位。结合空间细化分支模SRB实现RGB信息和深度信息的交叉融合。
本发明提出了一种双流解码器DSD。双流解码器DSD包括两部分:低级- 高级信息融合LH-IF,高级-低级信息融合HL-IF。针对以往解码器结构只是从深层向浅层进行信息传递的问题,此种解码器实现深层与浅层信息的交互。可以在丰富语义信息的同时,获取目标的细节信息,使得检测结果与真实值更加接近,并且避免信息的稀释导致检测结果区域不完整的问题。
附图说明
图1为本发明基于RGB-D图像的CLANet钢轨表面缺陷检测系统的结构示意图;
图2为本发明的多模态注意力模块MAB的结构示意图;
图3为本发明的双流解码器DSD的结构示意图;
图4为本发明的PR曲线的比较结果示意图;
图5为本发明提出的三种MAB模块变体形式的结构示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更加全面的描述。附图所展示的是本申请较为优质的实施方式,但是本申请的实现方式不仅仅局限于附图中所展示的实施方式。提供这些实施方式的目的是,帮助理解本申请的公开内容。
本发明将钢轨表面缺陷作为钢轨表面的一种显著性目标,将基于深度学习的RGB-D图像显著性检测算法应用到钢轨缺陷检测中,提出一种采用全新的注意力机制和网络结构的RGB-D图像显著性检测算法,实现高速钢轨表面缺陷检测。
图1是本发明的基于RGB-D图像的CLANet钢轨表面缺陷检测系统的结构示意图,所述的基于RGB-D图像的CLANet钢轨表面缺陷检测系统包括特征提取模块,跨模态信息融合模块和缺陷定位与分割模块。
所述特征提取模块用于对输入的RGB图像和深度图像分别提取各自的多级特征信息,并将深度图像采取灰度映射的方式由单通道转变为三通道。
具体实施时,在特征提取模块中采用典型的ResNet-101来完成RGB-D图像的特征提取工作。将深度图像采取灰度映射的方式由单通道转变为三通道,从而便于与RGB图像进行批量及连接。特征提取块由RD-FE(i)来进行表示,其中 i=1,2,3,4,5,6是提取块的索引。输入的RGB图像和深度图像大小为320×320×3。
参考图1和2,所述跨模态信息融合模块,也就是利用图中的MAB部分,将RGB图像特征信息与Depth图像特征信息充分交叉融合。跨模态信息融合模块包含空间细化分支模块SRB和多模态注意力模块MAB,其中多模态注意力模块MAB又包含多组跨模态相互作用模块CMIM;空间细化分支模块SRB,用于在不添加参数的情况下增加网络的接受域,它将RGB-D信息分散到四个维度,分别获得不同的局部和全局信息;跨模态相互作用模块CMIM用于将空间细化分支模块SRB生成的RBG-D特征图,采用反馈-负反馈方式完成信息融合。
继续参考图1和3,所述缺陷定位与分割模块利用本发明设计的双流解码器 DSD,进行解码和缺陷定位分割操作,得到显著性缺陷预测图和全局损失。图中所示的双流解码器包含两部分:低级-高级信息融合LH-IF,高级-低级信息融合 HL-IF。此模块的输入是多模态注意力模块MAB的跨模态信息融合的结果,跨模态融合的结果先经过低级-高级信息融合LH-IF,然后再将处理后的结果经过高级-低级信息融合HL-IF并进行解码,最终得到损失和预测结果,将其和缺陷标注图像进行比较并进行下采样处理,将处理后的结果再结合最高层的解码模块信息,从而得到损失。
基于上述基于RGB-D图像的CLANet钢轨表面缺陷检测系统,本发明实施例还提供了一种基于RGB-D图像的CLANet检测钢轨表面缺陷方法,所述基于 RGB-D图像的CLANet检测钢轨表面缺陷方法(CLANet)包括:
步骤1:对输入的RGB图像和深度图像分别提取其多级特征,并将深度图像采取灰度映射的方式由单通道转变为三通道,得到RGB-D特征信息;
假定其网络的输入为{IRGB,ID},其中IRGB为RGB图像,ID为深度图像。输入的RGB图像和深度图像大小为320×320×3。采用典型的ResNet-101来完成 RGB图像和深度图像的特征提取工作,将深度图像采取灰度映射的方式由单通道转变为三通道,从而便于与RGB图像进行批量及连接。特征提取块由RD-FE(i)来进行表示,其中i=1,2,3,4,5,6是提取块的索引。
步骤2:将步骤1的结果输入跨模态信息融合模块进行空间细化分支模块 SRB处理,将所有层级的RGB-D特征信息分散到四个维度上,分别表示不同的局部和全局信息,有利于后续的跨模态融合。
将RGB图像特征和深度图像特征的尺寸被定义为fi RGB,fi Depth分别表示网络第i层的特征,i=1,2,3,4,5,6。空间细化分支具体操作如下:
其中表示RGB图像和深度图像的分支特征,通道数变为原来的 1/4,j=1,2,3,4,表示不同膨胀率下的特征。Dilconv是膨胀卷积层,Wi,j是卷积层参数。dj={1,2,3,4}={1,3,5,7}为膨胀系数。通过上述操作便将输入的每一层的RGB-D特征信息分散到四个维度上。
步骤3:将步骤2的每一层的结果输入到多模态注意力模块MAB,利用本模块内部的跨模态相互作用模块CMIM进行跨模态融合,得到一个融合了深度图像特征fn Depth的RGB图像特征最后对每一层得到的4个/>进行拼接,再对拼接后的结果进行CMIM模块操作,便得到了任一层RGB-D图像特征充分融合后的最终结果fi
步骤3.1:参考图2,以上述空间细化分支模块SRB中得到的任一层级的第 n组结果:fn RGB和fn Depth,作为本模块的输入。首先在RGB图像特征图的宽度和高度方向进行一维全局平均池化:即图2中的X-GAP与Y-GAP操作。
其中m表示输入图像的通道索引值,W、H表示RGB特征的宽度和高度像素值大小,大小分别为/>
其次zh、zw分别沿两个空间方向聚集特征,并沿另一个空间方向保存精确的位置信息。卷积层的输出应考虑每个信道的依赖性,并自适应地调整每个信道的特征响应值。具体操作如下:将上一步得到的两个空间方向的聚集特征zh、zw,进行拼接即:zhw=Concat(zh,zw),然后经过图2中的CRB处理即: zhw=BN(Conv(zhw))×σ(BN(Conv(zhw))),其中Conv是卷积核大小为1×1的卷积层,σ表示Relu激活函数,BN表示Batch Normalization(批标准化)。为了降低计算量,在卷积层中引入了2的缩减率,得到RGB图片特征
随后将得到的特征图在宽度和高度上进行分离得到为了将 RGB图像的最终结果反馈给深度图像,通道数应保持一致,采用核大小为1×1 的卷积运算,也就是图2中的CS操作即:/> 其中Sp表示分裂操作,/>为sigmoid激活函数,Conv是卷积核大小为1×1的卷积层。接下来将RGB图像中的颜色信息融合到Depth图像中,即如下操作
最后将得到的新的Depth图像信息也进行上述跨模态相互作用模块 CMIM操作,得到/>然后利用上述结果与输入的原始RGB图像特征/>进行跨模态融合:
于是得到了充分融合了RGB-D图像特征的特征信息
步骤3.2:利用上述步骤3.1的操作将每一层的4对RBG-D图像特征信息进行跨模态信息融合,就会得到4个充分融合了RGB-D图像特征的特征信息即最后对得到的/>进行拼接,然后再将拼接后的结果重复CMIM模块的操作,于是变得到了任一层RGB-D图像信息充分融合后的最终结果fi。具体操作如下:
其中Concat表示拼接操作。
步骤4:将经历过步骤3处理的每一层的融合结果,传入双流解码器DSD,进行解码。
参考图3,双流解码器DSD包括两部分:低级-高级信息融合LH-IF,高级- 低级信息融合HL-IF。(1)低级-高级信息融合:DSD使用下采样流将丰富的特征信息从高分辨率传输到低分辨率。主干网络提取到的特征先经过下采样块,也就是图3中的D,通过这个下采样块来调整特征图的大小,而不改变通道的数量。如图3所示,低级-高级信息融合的每一层的输出,都拼接了其前面所有层的下采样块。(2)高级-低级信息融合:由于低级-高级信息融合的每一层的输出结果,都是在通道方向上进行了拼接操作,所以先利用,卷积核大小为1×1,步长1,填充参数为0的卷积层也就是图3中的C块,将通道数压缩至统一大小k,k=64。这样一方面可以减小计算开销,另一方面便于特征解码。因为第j层的输入不仅与第j+1层的输出有关,还高于j层的所有层的输出相关,这样可以避免检查结果不完整,所以如图3中所示,高级-低级信息融合的最终输出结果,是融合了所有的高层解码信息。
步骤5:计算协作学习注意力网络(CLANet)的损失值。
CLANet的损失函数由两部分组成,其中包括一个网络最终预测结果损失可以训练整个网络的参数,另一个是LH-IF最深层的输出结果损失可以用来监督 RGB和Depth特征的融合情况。损失函数采用典型的交叉熵损失函数,可以衡量网络预测结果与真实值的相似性。 l=lf(Pf,G)+α×lRGB(Pm,G)+α×lDepth(Pm,G),
其中Pf表示网络最终预测结果, Pm表示LH-IF最深层的输出结果,P代表预测值,G表示真实值,l表示损失函数,α是权重系数,其中k={f,RGB,Depth}。网络的动量参数设为0.99,学习率设为lr=10^(-9),权重衰减为0.0005。
为了验证本发明系统及方法的显著性检测性能,将本发明提出的CLANet方法与9种前沿性方法进行比较,其中BBS,CONET,S2MA,HAI是4种采取深度学习的方法,ACSD,CDCP,DCMC,DF,DMRA是5种基于手工特征的方法。采用了五个被广泛应用在RGB-D显著性检测中的指标来评价检测结果, CLANet在这五个指标上均表现出显著的提高,体现了本发明提出的CLANet性能的优越性。
五个评价指标分别是S-measure(Sα),max-imumF-measure(F_β^max),maximumweighted/>Mean Absolute Error(MAE)。S-measure 是一种结构相似度系数,可以比较预测结果与ground truth(标记数据)之间的区域和目标相似程度。F-measure又称为F-score,是Precision(P)和Recall(R)加权调和平均,可以更加全面的评估网络性能。E-measure考虑了图像局部像素级和图像全局的差异性,评估检测结果。Weighted F-measure是将F-measure扩展到非二进制,进行显著性目标的位置度量。MAE是将预测结果与ground truth二值化后计算二者之间的误差。
通过与前沿方法进行比较可以发现,采用深度学习的策略要优于手工特征策略。CLANet在五个评价指标上均达到了最好的效果。HAI为2021年最新的研究成果,我们的网络与它相比实现了平均10.0%的提升。CLANet与表现最佳的 BBS比较,提升了2.4%,Sα提升了0.7%,/>提升了0.4%,/>提升了0.1%, MAE降低了0.004。如下表所示:
方法性能的定量比较评估表
PR曲线是以precision和recall这两个为变量而做出的曲线,其中recall为横坐标,precision为纵坐标,代表的是精准率与召回率的关系。一个网络的的PR曲线如果能完全包住另一个网络的PR曲线,则可断言前者的性能优于后者。于是绘制了PR曲线与前沿的方法进行对比,可以看出CLANet表现更加优秀。PR 曲线图参考图4。
此外为了验证提出的模型有效性,还进行了消融实验。
针对消融实验,设置了不同的融合模式。其中,MAB-Ⅰ是CLANet网络采用的最终融合策略。MAB-Ⅱ对RGB特征和深度特征自聚焦后进行信息融合。 MAB-Ⅲ是一种对RGB信息和Depth信息分别采取注意力机制的融合策略。内部结构可参考图5。经过数据实验,可得下表:
消融实验的定量评估结果表
其中Baseline代表基准模型,其采用求和运算进行多模态信息融合。由表可见,MAB-Ⅰ模型对比基准模型、MAB-Ⅱ模型和MAB-Ⅲ模型在表中五个参数上,均有不同程度的提升,这充分验证了本发明提出的CLANet模型的有效性。
应当理解的是,本领域技术人员在本发明技术构思的启发下,在不脱离本发明内容的基础上,可以根据上述说明做出各种改进或变换,但这仍落在本发明的保护范围之内。

Claims (7)

1.一种基于RGB-D图像的CLANet钢轨表面缺陷检测系统,其特征在于:包括:
特征提取模块,跨模态信息融合模块,缺陷定位与分割模块;
特征提取模块对输入的RGB图像和深度图像分别提取各自的多级特征信息;
跨模态信息融合模块对特征提取模块提取的RGB图像特征信息与Depth图像特征信息充分交叉融合;
缺陷定位与分割模块用于对上述跨模态信息融合模块得到的每一层的全局信息,进行解码和缺陷定位分割操作,最后得到显著性缺陷预测图和损失;
所述跨模态信息融合模块包含空间细化分支模块和多模态注意力模块,其中多模态注意力模块包含多组跨模态相互作用模块;空间细化分支模块,用于在不添加参数的情况下增加网络的接受域,它将RGB-D信息分散到四个维度,分别获得不同的局部和全局信息;跨模态相互作用模块用于将空间细化分支模块生成的RBG-D特征图,采用反馈-负反馈方式完成信息融合;
所述空间细化分支模块具体操作如下:
其中RGB图像特征和Depth图像特征的尺寸被定义为fi RGB,fi Depth分别表示网络第i层的特征,i=1,2,3,4,5,6,/>分别表示RGB图像和深度图像的分支特征,通道数变为原来的1/4,j=1,2,3,4,表示不同膨胀率下的特征,Dilconv是膨胀卷积层,Wi,j是卷积层参数,dj={1,2,3,4}={1,3,5,7}为膨胀系数;
所述跨模态相互作用模块运行如下程序:
3.1以空间细化分支模块中得到的任一层级的第n组结果:fn RGB和fn Depth,作为本模块的输入,首先在RGB图像特征图的宽度和高度方向进行一维全局平均池化得到zh、zw
3.2 zh、zw分别沿两个空间方向聚集特征,并沿另一个空间方向保存精确的位置信息,将zh、zw进行拼接;
3.3在zh、zw进行拼接的卷积层中引入了2的缩减率,得到RGB图片特征
3.4将得到的在宽度和高度上采用核大小为1×1的卷积运算进行分离;
3.5将RGB图像中的颜色信息融合到Depth图像中,操作为 其中/>是步骤3.4利用卷积对RGB图像特征分离后的结果;
3.6将得到的新的Depth图像信息进行步骤3.1至3.5的操作,得到/>
3.7利用与输入的原始RGB图像特征进行跨模态融合,得到最终输出结果为/>
式中是将已经融合了RGB图像特征的Depth图像信息,进行跨模态相互作用模块操作后得到的结果。
2.根据权利要求1所述的基于RGB-D图像的CLANet钢轨表面缺陷检测系统,其特征在于,缺陷定位与分割模块中的双流解码器进行解码操作,DSD包括两部分:低级-高级信息融合和高级-低级信息融合,低级-高级信息融合将丰富的特征信息从高分辨率传输到低分辨率;高级-低级信息融合用于对低级-高级信息融合的输出结果进行解码操作,从而完成最终检查任务。
3.一种如权利要求1所述的基于RGB-D图像的CLANet钢轨表面缺陷检测系统的方法,其特征在于,
步骤1:特征提取模块对输入的RGB图像和深度图像分别提取其多级特征,并将深度图像采取灰度映射的方式由单通道转变为三通道,得到RGB-D特征信息;
步骤2:跨模态信息融合模块的空间细化分支模块将步骤1所有层级的RGB-D特征信息分散到四个维度上,得到fn RGB和fn Depth
所述空间细化分支模块具体操作如下:
其中RGB图像特征和Depth图像特征的尺寸被定义为fi RGB,fi Depth分别表示网络第i层的特征,i=1,2,3,4,5,6,/>分别表示RGB图像和深度图像的分支特征,通道数变为原来的1/4,j=1,2,3,4,表示不同膨胀率下的特征,Dilconv是膨胀卷积层,Wi,j是卷积层参数,dj={1,2,3,4}={1,3,5,7}为膨胀系数;
步骤3:跨模态信息融合模块的多模态注意力模块以及MAB内部的跨模态相互作用模块将步骤2的每一层的结果进行跨模态融合,得到fi
所述跨模态相互作用模块运行如下程序:
3.1以步骤2中空间细化分支模块中得到的任一层级的第n组结果:fn RGB和fn Depth,作为本模块的输入,首先在RGB图像特征图的宽度和高度方向进行一维全局平均池化得到zh、zw
3.2zh、zw分别沿两个空间方向聚集特征,并沿另一个空间方向保存精确的位置信息,将zh、zw进行拼接;
3.3在zh、zw进行拼接的卷积层中引入了2的缩减率,得到RGB图片特征
3.4将得到的在宽度和高度上采用核大小为1×1的卷积运算进行分离;
3.5将RGB图像中的颜色信息融合到Depth图像中,操作为 其中/>是步骤3.4利用卷积对RGB图像特征分离后的结果;
3.6将得到的新的Depth图像信息进行步骤3.1至3.5的操作,得到/>
3.7利用与输入的原始RGB图像特征进行跨模态融合,得到最终输出结果为/>
式中是将已经融合了RGB图像特征的Depth图像信息,进行跨模态相互作用模块操作后得到的结果;
步骤4:将经历过步骤3处理每一层的融合结果,传入双流解码器,进行解码、缺陷定位和分割操作,最后得到显著性缺陷预测图;
步骤5:计算协作学习注意力网络的损失值。
4.根据权利要求3所述的基于RGB-D图像的CLANet钢轨表面缺陷检测系统的方法,其特征在于,步骤3.1中,一维全局平均池化操作为:
其中m表示输入图像的通道索引值,W、H表示RGB特征的宽度和高度像素值大小,大小分别为/>
5.根据权利要求3所述的基于RGB-D图像的CLANet钢轨表面缺陷检测系统的方法,其特征在于,zh、zw进行拼接,具体操作如下:
Conv是卷积核大小为1×1的卷积层,σ表示Relu激活函数,BN表示BatchNormalization批量归一化。
6.根据权利要求3所述的基于RGB-D图像的CLANet钢轨表面缺陷检测系统的方法,其特征在于,卷积运算为,
其中SP表示分裂操作,为sigmoid激活函数,Conv是卷积核大小为1×1的卷积层。
7.根据权利要求3所述的基于RGB-D图像的CLANet钢轨表面缺陷检测系统的方法,其特征在于,步骤5中两中损失的计算公式为:
l=lf(Pf,G)+α×lRGB(Pm,G)+α×lDepth(Pm,G)
其中Pf表示网络最终预测结果,Pm表示LH-IF最深层的输出结果,P代表预测值,G表示真实值,l表示损失函数,α是权重系数,其中k={f,RGB,Depth},网络的动量参数设为0.99,学习率设为lr=10^(-9),权重衰减为0.0005。
CN202111457411.XA 2021-12-02 2021-12-02 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法 Active CN114170174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111457411.XA CN114170174B (zh) 2021-12-02 2021-12-02 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111457411.XA CN114170174B (zh) 2021-12-02 2021-12-02 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法

Publications (2)

Publication Number Publication Date
CN114170174A CN114170174A (zh) 2022-03-11
CN114170174B true CN114170174B (zh) 2024-01-23

Family

ID=80482315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111457411.XA Active CN114170174B (zh) 2021-12-02 2021-12-02 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法

Country Status (1)

Country Link
CN (1) CN114170174B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663436A (zh) * 2022-05-25 2022-06-24 南京航空航天大学 一种基于深度学习的跨尺度缺陷检测方法
CN115359019B (zh) * 2022-08-25 2023-07-11 杭州电子科技大学 基于交互式特征和级联特征的钢铁表面缺陷检测方法
CN116485728B (zh) * 2023-04-03 2024-07-26 东北石油大学 抽油杆表面缺陷检测方法及装置、电子设备和存储介质
CN116448769B (zh) * 2023-05-10 2024-06-11 南京林业大学 一种多模态信息融合的板材缺陷检测系统及其检测方法
CN116645371B (zh) * 2023-07-27 2023-10-17 中铁十二局集团铁路养护工程有限公司 一种基于特征搜索的钢轨表面缺陷检测方法及系统
CN116664586B (zh) * 2023-08-02 2023-10-03 长沙韶光芯材科技有限公司 一种基于多模态特征融合的玻璃缺陷检测方法及系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345911A (zh) * 2018-04-16 2018-07-31 东北大学 基于卷积神经网络多级特征的钢板表面缺陷检测方法
CN109064462A (zh) * 2018-08-06 2018-12-21 长沙理工大学 一种基于深度学习的钢轨表面缺陷检测方法
WO2019104767A1 (zh) * 2017-11-28 2019-06-06 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法
KR20200068083A (ko) * 2018-11-27 2020-06-15 전남대학교산학협력단 심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치
CN111340814A (zh) * 2020-03-03 2020-06-26 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111402209A (zh) * 2020-03-03 2020-07-10 广州中国科学院先进技术研究所 一种基于U-Net的高速铁路钢轨损伤检测方法
CN111627012A (zh) * 2020-05-28 2020-09-04 华北电力大学(保定) 一种基于特征融合的深度神经网络表面缺陷检测方法
CN111931787A (zh) * 2020-07-22 2020-11-13 杭州电子科技大学 一种基于特征聚合的rgbd显著性检测方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN112465790A (zh) * 2020-12-03 2021-03-09 天津大学 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN113076947A (zh) * 2021-03-26 2021-07-06 东北大学 一种交叉引导融合的rgb-t图像显著性检测系统
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113112464A (zh) * 2021-03-31 2021-07-13 四川大学 基于跨模态交流编码器的rgbd显著性物体检测方法及系统
CN113362307A (zh) * 2021-06-07 2021-09-07 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113379707A (zh) * 2021-06-11 2021-09-10 大连理工大学 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法
CN113392727A (zh) * 2021-05-27 2021-09-14 杭州电子科技大学 一种基于动态特征选择的rgb-d显著目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10282639B2 (en) * 2016-11-29 2019-05-07 Sap Se Object detection in image data using depth segmentation

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019104767A1 (zh) * 2017-11-28 2019-06-06 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法
CN108345911A (zh) * 2018-04-16 2018-07-31 东北大学 基于卷积神经网络多级特征的钢板表面缺陷检测方法
CN109064462A (zh) * 2018-08-06 2018-12-21 长沙理工大学 一种基于深度学习的钢轨表面缺陷检测方法
KR20200068083A (ko) * 2018-11-27 2020-06-15 전남대학교산학협력단 심층 합성곱 신경망을 이용하여 rgb-d 이미지로부터 손 구성요소 및 손가락 끝을 추적하기 위한 방법 및 장치
WO2021088300A1 (zh) * 2019-11-09 2021-05-14 北京工业大学 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN111340814A (zh) * 2020-03-03 2020-06-26 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111402209A (zh) * 2020-03-03 2020-07-10 广州中国科学院先进技术研究所 一种基于U-Net的高速铁路钢轨损伤检测方法
CN111627012A (zh) * 2020-05-28 2020-09-04 华北电力大学(保定) 一种基于特征融合的深度神经网络表面缺陷检测方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN111931787A (zh) * 2020-07-22 2020-11-13 杭州电子科技大学 一种基于特征聚合的rgbd显著性检测方法
CN112465790A (zh) * 2020-12-03 2021-03-09 天津大学 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法
CN113076947A (zh) * 2021-03-26 2021-07-06 东北大学 一种交叉引导融合的rgb-t图像显著性检测系统
CN113112464A (zh) * 2021-03-31 2021-07-13 四川大学 基于跨模态交流编码器的rgbd显著性物体检测方法及系统
CN113076957A (zh) * 2021-04-21 2021-07-06 河南大学 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113392727A (zh) * 2021-05-27 2021-09-14 杭州电子科技大学 一种基于动态特征选择的rgb-d显著目标检测方法
CN113362307A (zh) * 2021-06-07 2021-09-07 哈尔滨理工大学 一种rgb-d图像显著性检测方法
CN113379707A (zh) * 2021-06-11 2021-09-10 大连理工大学 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ASIF-Net: Attention Steered Interweave Fusion Network for RGB-D Salient Object Detection;Chongyi Li等;《IEEE Transactions on Cybernetics》;第51卷(第1期);88-100 *
RGB-D Co-attention Network for Semantic Segmentation;Hao Zhou等;《Proceedings of the Asian Conference on Computer Vision (ACCV)》;1-18 *
基于卷积神经网络和RGB-D图像的智能机器人场景识别技术;王子羽;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2021年卷(第7期);I138-477 *
基于特征融合的RGB-T图像显著性目标检测;肖同林;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2021年卷(第5期);I138-1066 *

Also Published As

Publication number Publication date
CN114170174A (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN114170174B (zh) 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN110147797B (zh) 一种基于生成式对抗网络的草图补全与识别方法和装置
CN109886225B (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN108960141B (zh) 基于增强型深度卷积神经网络的行人再识别方法
CN110930342A (zh) 一种基于彩色图引导的深度图超分辨率重建网络构建方法
CN111127538A (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN112233129A (zh) 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN111368734B (zh) 一种基于正常表情辅助的微表情识别方法
JP2020038666A (ja) 自律走行状況で障害物検出のための学習用データセットの生成方法及びこれを利用したコンピューティング装置、学習方法及び学習装置
CN113706545A (zh) 一种基于双分支神经判别降维的半监督图像分割方法
CN112785526A (zh) 一种用于图形处理的三维点云修复方法
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN112183240A (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN118097150B (zh) 一种小样本伪装目标分割方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
Zhu et al. Scene text image super-resolution through multi-scale interaction of structural and semantic priors
Özyurt et al. A new method for classification of images using convolutional neural network based on Dwt-Svd perceptual hash function
CN116109952A (zh) 基于多任务学习网络的无人机视觉场景理解方法
Fan et al. PT-ResNet: Perspective transformation-based residual network for semantic road image segmentation
CN114241288A (zh) 一种选择性边缘信息引导的遥感目标显著性检测方法
CN112733934A (zh) 复杂环境下的多模态特征融合道路场景语义分割方法
Kim et al. Infrared image colorization network using variational autoencoder
CN118247492B (zh) 目标检测方法、装置、计算机设备及可读存储介质
Song et al. E-MobileViT: A Lightweight Model for Traffic Sign Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant