CN116385794B - 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置 - Google Patents

基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置 Download PDF

Info

Publication number
CN116385794B
CN116385794B CN202310386316.8A CN202310386316A CN116385794B CN 116385794 B CN116385794 B CN 116385794B CN 202310386316 A CN202310386316 A CN 202310386316A CN 116385794 B CN116385794 B CN 116385794B
Authority
CN
China
Prior art keywords
distillation
defect
knowledge
attention
mutual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310386316.8A
Other languages
English (en)
Other versions
CN116385794A (zh
Inventor
毛莺池
万旭
王毅
陈琨
丁玉江
简树明
戚荣志
王子成
赵盛杰
熊成龙
张润
沈凤群
刘锦
聂兵兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202310386316.8A priority Critical patent/CN116385794B/zh
Publication of CN116385794A publication Critical patent/CN116385794A/zh
Application granted granted Critical
Publication of CN116385794B publication Critical patent/CN116385794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)

Abstract

本发明公开一种基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置,设计了一个互蒸馏缺陷图像分类模型,采用互蒸馏训练策略提取缺陷图像分类模型中间层的注意力转移矩阵作为增益知识,实现高精度、高效率的缺陷分类工作。该模型首先根据相邻层注意力图的变化,得到基于过程驱动的注意力流转移的知识矩阵。然后将基于过程驱动的注意力流转移的知识矩阵在互蒸馏缺陷图像分类模型层间双向传递,最后结合结果驱动的知识,实现在线互蒸馏。本发明针对现有图像分类模型忽略中间层信息,无法充分有效利用中间层特征知识的问题,设计了互蒸馏缺陷图像分类模型,提高缺陷图像的分类效率和准确率。

Description

基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置
技术领域
本发明涉及一种基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置,属于工程缺陷图像分类技术领域。
背景技术
水库大坝作为我国工程体系的重要组成部分,具有防洪、供水、蓄电、灌溉、生态等综合功能,是调控水资源时空分布、优化水资源配置、防治水害、以及保护生态环境等重要工程措施之一,是江河防洪体系不可替代的重要组成部分。大坝缺陷的及时和准确识别是保障大坝安全运行的前提,确保水库大坝的安全就是确保人民群众的生命财产安全。水库大坝的安全保障工作中,定期巡检和安全监测是其重要环节。目前的现状是,传统的大坝缺陷检测方法存在诸多不便,已经无法适应现阶段智慧水利的发展需求。
现有大坝混凝土表面缺陷检测任务主要依靠人工搭建观测平台并操作观测仪器,主观性强、效率低下、干扰因素多、人工成本高。并且由于观测仪器距离坝体较远,难以获得高精度的坝体影像,无法清楚识别坝体上的裂缝和缺陷。而采用传统高空悬垂作业的方式开展坝面检查,周期长、效率低、准确性差、费用高、距离坝面远、安全风险大。
互蒸馏在模型间双向传递知识,解决了传统知识蒸馏中知识单向传递造成信息浪费的问题。但现有的工程缺陷图像分类工作中,互蒸馏方法忽略了中间层信息的优势作用,没有有效提取并利用中间层特征信息,存在特征提取不充分、不稳定的问题,使得学习目标单一化和片面化,导致模型分类准确率和效率较低。
发明内容
发明目的:针对现有工程缺陷图像分类工作中,缺陷图像分类模型没有充分利用稳定的中间层特征知识导致工程缺陷图像分类准确率和效率低的问题,本发明提供了一种基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置,充分利用模型中间层信息,获得更加稳定的过程驱动的知识,提高图像分类性能,辅助大坝立体巡检缺陷检测,提高大坝工程缺陷图像分类的精度。
同时使用机器人巡检,则解决传统人工执行缺陷检测分类任务的局限性,如主观性强、效率低下、干扰因素多、人工成本高、周期长、准确性差、费用高、距离坝面远、安全风险大等的缺陷。
技术方案:一种基于注意力流转移互蒸馏的机器人巡检缺陷分类方法,包括如下步骤:
步骤1)获取大坝立体巡检过程中得到的缺陷图像,从缺陷图像中采集混凝土表面不同类型的缺陷图像,进行图像预处理,结合大坝缺陷库知识对缺陷图像进行分类标注,构建缺陷分类专用数据集;
步骤2)将ResNet-32作为基准网络,利用软注意力机制,将缺陷分类专用数据集中的三维特征图在特征维度上压平,获取图像的特征权值分布,形成二维注意力图,然后对网络模型不同层的注意力图向下采样将相邻层生成的注意力图进行尺寸匹配,计算得到基于过程驱动的注意力流转移的知识矩阵,利用奇异值分解将知识矩阵的奇异值个数对齐,作为互蒸馏缺陷图像分类模型中基于注意力流转移知识构建部分,获取注意力流转移知识;
步骤3)将步骤2)中得到的知识矩阵在互蒸馏缺陷图像分类模型层间双向传递,作为互蒸馏缺陷图像分类模型中注意力流转移知识传递部分,得到基于过程驱动的知识,与结果驱动的知识蒸馏下的损失协同工作,实现在线知识互蒸馏;
步骤4)将步骤2)中的基于注意力流转移知识构建部分与步骤3)中的注意力流转移知识传递部分结合,构建互蒸馏缺陷图像分类模型;
步骤5)将构建的缺陷分类专用数据集中的缺陷图像数据输入到构建的互蒸馏缺陷图像分类模型,训练互蒸馏缺陷图像分类模型,并进行精度测试;
步骤6)
将训练好的互蒸馏缺陷图像分类模型迁移到巡检机器人设备上,基于巡检机器人系统实时采集大坝混凝土表面缺陷图像,将图像数据输入互蒸馏缺陷图像分类模型,实现在线缺陷图像分类。
其中,步骤1)的缺陷分类专用数据集构建包括以下过程:
1-1)从网络以及实地拍摄所得的资料中采集大坝混凝土表面不同类型的缺陷图像,并将缺陷图像进行分类标注。
1-2)对分类后的缺陷图像进行筛选,选取符合清晰度要求的缺陷图像,图像格式统一设置为jpg格式,不要求图像像素以及摄像距离,得到缺陷图像数据集。
1-3)采用随机分配的方式将缺陷图像数据集划分为支持集、查询集以及测试集。
其中,步骤2)中将ResNet-32作为基准网络,利用软注意力机制,将缺陷分类专用数据集中的三维特征图在特征维度上压平,获取图像的特征权值分布,形成二维注意力图,对网络模型不同层的注意力图向下采样将相邻层生成的注意力图进行尺寸匹配,计算得到基于过程驱动的注意力流转移的知识矩阵,利用奇异值分解将知识矩阵的奇异值个数对齐,作为互蒸馏缺陷图像分类模型中基于注意力流转移知识构建部分,获取注意力流转移知识。具体包含以下步骤:
2-1)采用残差网络ResNet-32作为基准网络,将单个缺陷图像输入,在经过每个ResBlock卷积操作后,生成三维特征图,利用软注意力机制,将三维特征图在通道上压平,获取图像的特征权值分布,得到单个图像输入在经过每个ResBlock处理后输出的二维注意力图,具体如下:
其中,为神经网络第i层及其对应的激活张量,Hi×Wi代表张量的高度和宽度,Ci代表张量的个数,即卷积核的个数。基于激活张量的映射函数将上述三维激活张量/>作为输入,输出一个二维空间注意力图,即三维激活张量在空间维度上压缩为一个平坦的二维向量。获取二维注意力图的过程为:隐含的假设是一个神经元激活的绝对值可以表示激活的重要性,为了得到张量A中元素在通道维度C上的绝对值统计量,使用通道C的绝对值的p次幂之和,具体如下:
其中,Ai=A(i,:,:),最大值、幂和绝对值运算是按照元素计算的,Ai是三维空间矩阵的第i个平面。
2-2)网络模型不同层次输出的注意力图尺寸不统一,利用向下采样将原始注意力图上的s*s窗口变为一个像素,使得相邻层生成的注意力图进行对齐,具体如下:
F'=subSampled(F)
其中,原始注意力图F的尺寸为H*W,向下采样后的图F'的尺寸变为(H/s)*(W/s)。
2-3)通过相邻层次注意力图的变化,即前面的结果看作问题,后面的结果看作答案,根据X代表一个未知量,在这里表示知识矩阵AFT,计算得到基于过程驱动的注意力流转移的知识矩阵AFT,具体如下:
G(x,W)=Fi+1*(subSampled(Fi))-1
其中,AFT矩阵表示基于过程驱动的注意力流转移的知识矩阵,x代表输入图像,W代表网络模型的权重,/>表示第i层输出的注意力图,/>表示i+1层输出的注意力图。
2-4)利用奇异值分解将基于过程驱动的注意力流转移的知识矩阵AFT进行奇异值分解,选取前k个奇异值,使矩阵的奇异值个数对齐,得到注意力流转移知识,为了获取关键特征,得到最大的信息量,k的取值具体如下:
其中,和/>分别表示不同条件下初始化的网络模型Θ1和Θ2对应层得到的基于过程驱动的注意力流转移的知识矩阵。
其中,步骤3)中的将得到的知识矩阵在互蒸馏缺陷图像分类模型层间双向传递,作为互蒸馏缺陷图像分类模型中注意力流转移知识传递部分,得到基于过程驱动的知识,与结果驱动的知识蒸馏下的损失协同工作,实现在线知识互蒸馏。具体包含以下步骤:
3-1)最小化互蒸馏缺陷图像分类模型间对应中间层的注意力流转移知识矩阵的欧拉距离,将注意力流转移知识在互蒸馏缺陷图像分类模型层间双向传递,互相学习,得到注意力流转移的蒸馏损失LAFT,具体如下:
其中,λi表示第i层对知识流损失的权重,n表示模型中AFT矩阵的个数。
3-2)将真实标签作为传统监督,修正模型的训练方向,得到来自真实标签的损失LGT,具体如下:
其中,是模型参数,ypredict是输入x的softmax层的输出,y是x的真实标签。
3-3)为了提高Θ1在测试实例上的一般化性能,使用Θ1的同伴模型Θ2及其后验概率p2提供训练经验,通过KL散度量化两个网络模型的预测p1和p2的匹配,得到模型间的KL散度损失LKL,具体如下:
其中,xi表示第i个样本,N表示样本数目,M表示类别数目。
3-4)将来自真实标签的交叉熵损失LGT和KL散度量化的预测误差LKL结合,得到互蒸馏缺陷图像分类模型总体结果驱动的蒸馏损失LRES,具体如下:
其中,α、β为超参数。
3-5)互蒸馏工程缺陷图像分类模型的总损失LKD由注意力流转移的蒸馏损失LAFT和结果驱动的蒸馏损失LRES组成,具体如下:
LKD=LAFT+LRES
互蒸馏缺陷图像分类模型包含基于注意力流转移知识构建部分和注意力流转移知识传递部分,充分了利用中间层特征知识,以获得更加稳定的过程驱动的知识。其中基于注意力流转移知识构建部分对样本图像的不同层进行学习得到特征图,通过特征权值分布获取注意力图,使用向下采样将相邻层生成的不同尺寸注意力图进行对齐,使其可以进行注意力流转移知识矩阵的计算,再利用奇异值分解将注意力流转移知识矩阵进行奇异值个数对齐,得到注意力流转移知识;注意力流转移知识传递部分将知识矩阵在模型层间双向传递,得到基于过程驱动的知识,最后结合结果驱动的知识,实现在线知识互蒸馏。解决中间特征信息提取不充分、不稳定的问题,提高图像分类的效率和准确率。
步骤5)将构建的缺陷分类专用数据集(缺陷分类专用数据集分为支持集,查询集以及测试集)中的缺陷图像数据输入到构建的互蒸馏缺陷图像分类模型,训练互蒸馏缺陷图像分类模型,并进行精度测试,具体为:
在互蒸馏缺陷图像分类模型训练过程,使用带有动量的随机梯度下降SGD进行参数学习和更新操作,初始学习率设置为0.1,动量设置为0.9,权重衰减为5e-4,batch size设置为64,Epoch设置为100,由于单次实验具有随机性,采用5次独立实验的平均分类错误率(Top-1和Top-5)作为评判依据。选用整个模型的损失函数LKD作为计算网络训练误差的损失函数,并将测试集中的缺陷图像数据输入到模型中,不断调整模型的参数,当模型的损失函数值最小时,完成模型的训练。
步骤6)将训练好的互蒸馏缺陷图像分类模型迁移到巡检机器人设备上,基于巡检机器人系统实时采集大坝混凝土表面缺陷图像,实现在线缺陷图像分类。所述巡检机器人系统包括:
6-1)数据采集模块,通过搭载在巡检机器人上双目相机,对拍摄范围内大坝的缺陷图像进行采集、存储;
6-2)图像识别模块,接收巡检机器人实时拍摄的缺陷图像,利用构建的互蒸馏缺陷图像分类模型进行实时分析缺陷图像的种类信息;
6-3)数据传输模块,将图像识别模块拍摄的图像信息和其分类信息进行传输;
6-4)巡检系统,接受巡检机器人拍摄的缺陷图像和缺陷图像识别后的分类信息,然后制定巡检路线;
6-5)控制系统,接收巡检系统发出的指令,控制巡检机器人对需要识别的区域进行拍照、识别、传输。
一种基于注意力流转移互蒸馏的机器人巡检缺陷分类装置,包括如下内容:
构建缺陷分类专用数据集模块,获取大坝立体巡检过程中得到的缺陷图像,采集混凝土表面不同类型的缺陷图像,进行图像预处理,结合大坝缺陷库知识对缺陷图像进行标注,构建缺陷分类专用数据集;
基于注意力流转移知识构建模块,将ResNet-32作为基准网络,利用软注意力机制,将三维特征图在特征维度上压平,获取图像的特征权值分布,形成二维注意力图,对网络模型不同层的注意力图向下采样将相邻层生成的注意力图进行尺寸匹配,计算得到基于过程驱动的注意力流转移的知识矩阵,利用奇异值分解将知识矩阵的奇异值个数对齐,作为互蒸馏缺陷图像分类模型中基于注意力流转移知识构建部分,获取注意力流转移知识;
注意力流转移知识传递模块,将基于注意力流转移知识构建模块中得到的知识矩阵在互蒸馏缺陷图像分类模型层间双向传递,作为互蒸馏缺陷图像分类模型中注意力流转移知识传递部分,得到基于过程驱动的知识,与结果驱动的知识蒸馏下的损失协同工作,实现在线知识互蒸馏;
构建互蒸馏缺陷图像分类模型模块,将基于注意力流转移知识构建模块中的基于注意力流转移知识构建部分与注意力流转移知识传递模块中的注意力流转移知识传递部分结合,构建互蒸馏缺陷图像分类模型;
互蒸馏缺陷图像分类模型训练模块,将构建的缺陷分类专用数据集中的缺陷图像数据输入到构建的互蒸馏缺陷图像分类模型,训练互蒸馏缺陷图像分类模型,并进行精度测试;
应用设备,加载训练好的互蒸馏缺陷图像分类模型,应用设备实时采集大坝混凝土表面缺陷图像,输入互蒸馏缺陷图像分类模型实现在线缺陷图像分类。
所述应用设备为巡检机器人系统,所述巡检机器人加载训练好的互蒸馏缺陷图像分类模型,巡检机器人实时采集缺陷图像,实现在线图像分类。
所述巡检机器人系统包括:
数据采集模块,双目相机通过云台搭载在巡检机器人上,相机对拍摄范围内大坝的缺陷图像进行采集,临时存储;
图像识别模块,接收巡检机器人实时拍摄的缺陷图像,利用构建的互蒸馏缺陷图像分类模型进行实时分析缺陷图像的种类信息;
数据传输模块,将图像识别模块拍摄的图像信息和其分类信息进行传输;
巡检系统,接受巡检机器人拍摄的缺陷图像和缺陷图像识别后的分类信息,然后制定巡检路线;
控制系统,接收巡检系统发出的指令,控制巡检机器人对需要识别的区域进行拍照、识别、传输。
装置模块的实现过程与方法相同。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于注意力流转移互蒸馏的机器人巡检缺陷分类方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于注意力流转移互蒸馏的机器人巡检缺陷分类方法的计算机程序。
有益效果:与现有技术相比,本发明针对现有技术图像分类过程中,模型未利用中间层特征信息以及特征提取不充分、不稳定的问题设计了互蒸馏缺陷图像分类模型,充分利用中间层信息,获得更加稳定的中间层特征知识,解决了上述问题,能够提高缺陷图像分类模型分类准确率和效率。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的基于注意力流转移互蒸馏的总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,一种基于注意力流转移互蒸馏的机器人巡检缺陷分类方法,其具体实施过程包括:
步骤1:通过拍摄照片、利用缺陷数据库、和网络搜索等不同手段采集大坝混凝土表面的缺陷图像,主要选取裂缝、渗水、冲坑、滑坡、崩塌、混凝土破损、沉陷、变形8类缺陷图像,将采集到的大坝混凝土表面的缺陷图像作为样本数据,对于样本数据集进行逐一筛选,将模糊、对焦不清晰的缺陷图像进行剔除,将图像格式统一设置为jpg格式,不要求图像像素以及摄像距离,针对上述8个类别,对缺陷图像进行分类标注,得到缺陷图像数据集;采用随机分配的方式将8类缺陷图像集划分为3个没有重叠的类子集,3类缺陷图像数据集作为支持集,2类缺陷图像数据集作为查询集,3类缺陷图像数据集作为测试集。
步骤2:构建基于注意力流转移知识。
具体地,步骤2包括:
采用残差网络ResNet-32作为基准网络,将步骤1中的支持集中的单个缺陷图像输入,在经过每个ResBlock卷积操作后,生成三维特征图,利用软注意力机制,将三维特征图在通道上压平,获取图像的特征权值分布,得到二维注意力图,该机制通过映射函数进行操作,其中/>为神经网络第i层及其对应的激活张量,Hi×Wi代表张量的高度和宽度,Ci代表张量的个数,即卷积核的个数。激活张量的绝对值可以表示激活的重要性,张量A中元素在通道维度C上的绝对值统计量,使用通道C的绝对值的p次幂之和,通过注意力映射函数/>进行操作,其中Ai=A(i,:,:)。网络模型不同层次输出的注意力图尺寸不统一,利用向下采样F'=subSampled(F),使得相邻层生成的注意力图对齐,其中,F表示原始注意力图,F'表示向下采样后的注意力图。通过相邻层次注意力图的变化,计算得到基于过程驱动的注意力流转移知识矩阵G(x,W)=Fi+1*(subSampled(Fi))-1,其中,/>表示基于过程驱动的注意力流转移的知识矩阵,x代表输入图像,W代表网络模型的权重,/>表示第i层输出的注意力图,/>表示i+1层输出的注意力图。将注意力流转移知识矩阵进行奇异值分解,选取前k个奇异值,k的取值为/>使矩阵的奇异值个数对齐,得到注意力流转移知识,其中,和/>分别表示不同条件下初始化的网络模型Θ1和Θ2对应层得到的注意力流转移知识矩阵。
步骤3:传递注意力流转移知识,在互蒸馏缺陷图像分类模型层间双向传递得到的知识矩阵,得到基于过程驱动的知识,与结果驱动的知识蒸馏下的损失协同工作,实现在线知识互蒸馏。
具体地,步骤3包括:
将注意力流转移知识在互蒸馏缺陷图像分类模型层间双向传递,互相学习,注意力流转移蒸馏损失LAFT通过函数计算得到,其中λi表示第i层对知识流损失的权重,n表示模型中注意力流转移知识矩阵的个数。除了注意力流转移知识监督外,还需要真实标签作为传统监督,修正模型的训练方向,真实标签损失LGT通过函数/>计算得到,其中/>是模型参数,ypredict是输入x的softmax层的输出,y是x的真实标签。为了提高网络模型Θ1在测试实例上的一般化性能,使用Θ1的同伴模型Θ2及其后验概率p2提供训练经验,通过KL散度量化两个网络模型的预测p1和p2的匹配,模型间的KL散度损失LKL通过函数计算得到,其中N表示样本数目,M表示类别数目。模型总体结果驱动的蒸馏损失LRES通过函数/>计算得到,其中α、β为超参数。整个模型的总损失LKD通过函数LKD=LAFT+LRES计算得到。
步骤4:将步骤2中构建的知识矩阵作为注意力流转移知识在步骤3中进行传递,构建互蒸馏缺陷图像分类模型。互蒸馏缺陷图像分类模型包含基于注意力流转移知识构建部分和注意力流转移知识传递部分。其中步骤2属于基于注意力流转移知识构建部分,步骤3属于注意力流转移知识传递部分。基于注意力流转移知识构建部分对样本图像的不同层进行学习得到特征图,通过特征权值分布获取注意力图,根据相邻层注意力图的变化获得注意力流转移知识矩阵,再利用奇异值分解将注意力流转移知识矩阵进行奇异值个数对齐,得到注意力流转移知识;注意力流转移知识传递部分将过程驱动的注意力流转移知识矩阵在模型间双向传递,最后结合结果驱动的知识,实现最优的在线互蒸馏方法,解决忽略中间层特征信息和特征提取不充分、不稳定的问题,提高缺陷图像分类准确率和效率。
步骤5:将构建的缺陷分类专用数据集中的缺陷图像数据输入到构建的互蒸馏缺陷图像分类模型,训练互蒸馏缺陷图像分类模型,并进行精度测试,具体为:
在网络和模型训练过程,使用带有动量的随机梯度下降SGD进行参数学习和更新操作,初始学习率设置为0.1,动量设置为0.9,权重衰减为5e-4,batch size设置为64,Epoch设置为100,由于单次实验具有随机性,采用5次独立实验的平均分类错误率(Top-1和Top-5)作为评判依据。选用整个模型的损失函数LKD作为计算网络训练误差的损失函数,并将测试集中的缺陷图像数据输入到模型中,根据分类准确率不断调整模型的参数,训练整个网络直到收敛,得到最终互蒸馏缺陷图像分类模型。
步骤6:将训练好的互蒸馏缺陷图像分类模型迁移到巡检机器人设备上,基于巡检机器人系统实时采集缺陷图像,实现在线缺陷图像分类,具体为:
巡检系统和巡检机器人控制系统建立控制连接;
巡检系统的指令输入模块输入对应巡检机器人的控制指令;
巡检机器人控制系统接收到巡检系统的指令触发相应的功能,控制巡检机器人移动;
巡检机器人移动过程中,过云台搭载在巡检机器人上的双目相机对拍摄范围内的缺陷图像进行采集,将采集到的缺陷图像传输至控制系统;
控制系统将采集的缺陷图像输入至互蒸馏缺陷图像分类模型,互蒸馏缺陷图像分类模型输出缺陷图像分类结果,将分类结果和原始图像传输至巡检系统;
巡检系统的数据处理模型接收分类结果信息,进行解析并在用户界面呈现出来。
一种基于注意力流转移互蒸馏的机器人巡检缺陷分类装置,包括如下内容:
构建缺陷分类专用数据集模块,获取大坝立体巡检过程中的常见缺陷图像,采集混凝土表面不同类型的缺陷图像,进行图像预处理,结合大坝缺陷库知识对缺陷图像进行标注,构建缺陷分类专用数据集;
基于注意力流转移知识构建模块,将ResNet-32作为基准网络,利用软注意力机制,将三维特征图在特征维度上压平,获取图像的特征权值分布,形成二维注意力图,对网络模型不同层的注意力图向下采样将相邻层生成的注意力图进行尺寸匹配,计算得到基于过程驱动的注意力流转移的知识矩阵,利用奇异值分解将知识矩阵的奇异值个数对齐,作为互蒸馏缺陷图像分类模型中基于注意力流转移知识构建部分,获取注意力流转移知识;
注意力流转移知识传递模块,将基于注意力流转移知识构建模块中得到的知识矩阵在互蒸馏缺陷图像分类模型层间双向传递,作为互蒸馏缺陷图像分类模型中注意力流转移知识传递部分,得到基于过程驱动的知识,与结果驱动的知识蒸馏下的损失协同工作,实现在线知识互蒸馏;
构建互蒸馏缺陷图像分类模型模块,将基于注意力流转移知识构建模块中的基于注意力流转移知识构建部分与注意力流转移知识传递模块中的注意力流转移知识传递部分结合,构建互蒸馏缺陷图像分类模型;
互蒸馏缺陷图像分类模型训练模块,将构建的缺陷分类专用数据集中的缺陷图像数据输入到构建的互蒸馏缺陷图像分类模型,训练互蒸馏缺陷图像分类模型,并进行精度测试;
巡检机器人系统,巡检机器人加载训练好的互蒸馏缺陷图像分类模型,巡检机器人实时采集缺陷图像,实现在线缺陷图像分类。
巡检机器人系统还包括:
数据采集模块,双目相机通过云台搭载在巡检机器人上,相机对拍摄范围内的缺陷图像进行采集,临时存储;
图像识别模块,接收巡检机器人实时拍摄的缺陷图像,利用构建的互蒸馏缺陷图像分类模型进行实时分析缺陷图像的种类信息;
数据传输模块,将图像识别模块拍摄的图像信息和其分类信息进行传输;
巡检系统,接受巡检机器人拍摄的缺陷图像和缺陷图像识别后的分类信息,然后制定巡检路线;
控制系统,接收巡检系统发出的指令,控制巡检机器人对需要识别的区域进行拍照、识别、传输。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于注意力流转移互蒸馏的机器人巡检缺陷分类方法各步骤或基于注意力流转移互蒸馏的机器人巡检缺陷分类装置各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (7)

1.一种基于注意力流转移互蒸馏的机器人巡检缺陷分类方法,其特征在于,包括如下步骤:
步骤1)获取大坝立体巡检过程中得到的缺陷图像,从缺陷图像中采集混凝土表面不同类型的缺陷图像,进行图像预处理,结合大坝缺陷库知识对缺陷图像进行分类标注,构建缺陷分类专用数据集;
步骤2)基于基准网络,利用软注意力机制,将缺陷分类专用数据集中的三维特征图在特征维度上压平,获取图像的特征权值分布,形成二维注意力图,对网络模型不同层的注意力图向下采样将相邻层生成的注意力图进行尺寸匹配,计算得到基于过程驱动的注意力流转移的知识矩阵,利用奇异值分解将知识矩阵的奇异值个数对齐,作为互蒸馏缺陷图像分类模型中基于注意力流转移知识构建部分,获取注意力流转移知识;
步骤3)将步骤2)中得到的知识矩阵在互蒸馏缺陷图像分类模型层间双向传递,作为互蒸馏缺陷图像分类模型中注意力流转移知识传递部分,得到基于过程驱动的知识,与结果驱动的知识蒸馏下的损失协同工作,实现在线知识互蒸馏;
步骤4)将步骤2)中的基于注意力流转移知识构建部分与步骤3)中的注意力流转移知识传递部分结合,构建互蒸馏缺陷图像分类模型;
步骤5)将构建的缺陷分类专用数据集中的缺陷图像数据输入到构建的互蒸馏缺陷图像分类模型,训练互蒸馏缺陷图像分类模型,并进行精度测试;
步骤6)采集大坝巡检图像,利用训练好的互蒸馏缺陷图像分类模型,实现缺陷图像分类;将训练好的互蒸馏缺陷图像分类模型迁移到巡检机器人设备上,基于巡检机器人系统实时采集大坝混凝土表面缺陷图像,将图像数据输入互蒸馏缺陷图像分类模型,实现在线缺陷图像分类;
所述步骤3),具体包含以下步骤:
3-1)最小化互蒸馏缺陷图像分类模型间对应中间层的注意力流转移知识矩阵的欧拉距离,将注意力流转移知识在互蒸馏缺陷图像分类模型层间双向传递,互相学习,得到注意力流转移的蒸馏损失LAFT
3-2)将真实标签作为传统监督,修正模型的训练方向,得到来自真实标签的损失LGT
3-3)使用模型的后验概率提供训练经验,通过KL散度量化网络模型的预测误差,得到模型间的KL散度损失LKL
3-4)将来自真实标签的交叉熵损失LGT和KL散度量化的预测误差LKL结合,得到互蒸馏缺陷图像分类模型总体结果驱动的蒸馏损失LRES
3-5)互蒸馏工程缺陷图像分类模型的总损失LKD由注意力流转移的蒸馏损失LAFT和结果驱动的蒸馏损失LRES组成。
2.根据权利要求1所述的基于注意力流转移互蒸馏的机器人巡检缺陷分类方法,其特征在于,所述步骤1)的缺陷分类专用数据集构建包括以下过程:
1-1)从网络以及实地拍摄所得的资料中采集大坝混凝土表面不同类型的缺陷图像,并将缺陷图像进行分类标注;
1-2)对分类后的缺陷图像进行筛选,选取符合清晰度要求的缺陷图像,统一设置图像格式,得到缺陷图像数据集;
1-3)采用随机分配的方式将缺陷图像数据集划分为支持集、查询集以及测试集。
3.根据权利要求1所述的基于注意力流转移互蒸馏的机器人巡检缺陷分类方法,其特征在于,所述步骤2)具体包含以下步骤:
2-1)采用残差网络ResNet-32作为基准网络,将单个缺陷图像输入,在经过每个ResBlock卷积操作后,生成三维特征图,利用软注意力机制,将三维特征图在通道上压平,获取图像的特征权值分布,得到单个图像输入在经过每个ResBlock处理后输出的二维注意力图;
2-2)网络模型不同层次输出的注意力图尺寸不统一,利用向下采样将相邻层生成的注意力图进行对齐;
2-3)计算相邻层次注意力图,得到基于过程驱动的注意力流转移的知识矩阵;
2-4)利用奇异值分解将基于过程驱动的注意力流转移的知识矩阵进行奇异值个数对齐,得到注意力流转移知识。
4.根据权利要求1所述的基于注意力流转移互蒸馏的机器人巡检缺陷分类方法,其特征在于,将训练好的互蒸馏缺陷图像分类模型迁移到巡检机器人设备上,基于巡检机器人系统实时采集大坝混凝土表面缺陷图像,实现在线缺陷图像分类;所述巡检机器人系统包括:
6-1)数据采集模块,通过搭载在巡检机器人上双目相机,对拍摄范围内大坝的缺陷图像进行采集、存储;
6-2)图像识别模块,接收巡检机器人实时拍摄的缺陷图像,利用构建的互蒸馏缺陷图像分类模型进行实时分析缺陷图像的种类信息;
6-3)数据传输模块,将图像识别模块拍摄的图像信息和其分类信息进行传输;
6-4)巡检系统,接受巡检机器人拍摄的缺陷图像和缺陷图像识别后的分类信息,然后制定巡检路线;
6-5)控制系统,接收巡检系统发出的指令,控制巡检机器人对需要识别的区域进行拍照、识别、传输。
5.一种基于注意力流转移互蒸馏的机器人巡检缺陷分类装置,其特征在于,包括如下内容:
构建缺陷分类专用数据集模块,获取大坝立体巡检过程中得到的缺陷图像,采集混凝土表面不同类型的缺陷图像,进行图像预处理,结合大坝缺陷库知识对缺陷图像进行标注,构建缺陷分类专用数据集;
基于注意力流转移知识构建模块,利用软注意力机制,将三维特征图在特征维度上压平,获取图像的特征权值分布,形成二维注意力图,对网络模型不同层的注意力图向下采样将相邻层生成的注意力图进行尺寸匹配,计算得到基于过程驱动的注意力流转移的知识矩阵,利用奇异值分解将知识矩阵的奇异值个数对齐,作为互蒸馏缺陷图像分类模型中基于注意力流转移知识构建部分,获取注意力流转移知识;
注意力流转移知识传递模块,将基于注意力流转移知识构建模块中得到的知识矩阵在互蒸馏缺陷图像分类模型层间双向传递,作为互蒸馏缺陷图像分类模型中注意力流转移知识传递部分,得到基于过程驱动的知识,与结果驱动的知识蒸馏下的损失协同工作,实现在线知识互蒸馏;
构建互蒸馏缺陷图像分类模型模块,将基于注意力流转移知识构建模块中的基于注意力流转移知识构建部分与注意力流转移知识传递模块中的注意力流转移知识传递部分结合,构建互蒸馏缺陷图像分类模型;
互蒸馏缺陷图像分类模型训练模块,将构建的缺陷分类专用数据集中的缺陷图像数据输入到构建的互蒸馏缺陷图像分类模型,训练互蒸馏缺陷图像分类模型,并进行精度测试;将训练好的互蒸馏缺陷图像分类模型迁移到巡检机器人设备上,基于巡检机器人系统实时采集大坝混凝土表面缺陷图像,将图像数据输入互蒸馏缺陷图像分类模型,实现在线缺陷图像分类;
所述注意力流转移知识传递模块,通过以下步骤实现:
3-1)最小化互蒸馏缺陷图像分类模型间对应中间层的注意力流转移知识矩阵的欧拉距离,将注意力流转移知识在互蒸馏缺陷图像分类模型层间双向传递,互相学习,得到注意力流转移的蒸馏损失LAFT
3-2)将真实标签作为传统监督,修正模型的训练方向,得到来自真实标签的损失LGT
3-3)使用模型的后验概率提供训练经验,通过KL散度量化网络模型的预测误差,得到模型间的KL散度损失LKL
3-4)将来自真实标签的交叉熵损失LGT和KL散度量化的预测误差LKL结合,得到互蒸馏缺陷图像分类模型总体结果驱动的蒸馏损失LRES
3-5)互蒸馏工程缺陷图像分类模型的总损失LKD由注意力流转移的蒸馏损失LAFT和结果驱动的蒸馏损失LRES组成。
6.一种计算机设备,其特征在于,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-4任意一项所述的基于注意力流转移互蒸馏的机器人巡检缺陷分类方法。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有执行如权利要求1-4任意一项所述的基于注意力流转移互蒸馏的机器人巡检缺陷分类方法的计算机程序。
CN202310386316.8A 2023-04-11 2023-04-11 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置 Active CN116385794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310386316.8A CN116385794B (zh) 2023-04-11 2023-04-11 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310386316.8A CN116385794B (zh) 2023-04-11 2023-04-11 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置

Publications (2)

Publication Number Publication Date
CN116385794A CN116385794A (zh) 2023-07-04
CN116385794B true CN116385794B (zh) 2024-04-05

Family

ID=86969179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310386316.8A Active CN116385794B (zh) 2023-04-11 2023-04-11 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置

Country Status (1)

Country Link
CN (1) CN116385794B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489334A (zh) * 2020-04-02 2020-08-04 暖屋信息科技(苏州)有限公司 一种基于卷积注意力神经网络的缺陷工件图像识别方法
CN112784999A (zh) * 2021-01-28 2021-05-11 开放智能机器(上海)有限公司 基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备
CN112801209A (zh) * 2021-02-26 2021-05-14 同济大学 基于双特长教师模型知识融合的图像分类方法及存储介质
CN113947590A (zh) * 2021-10-26 2022-01-18 四川大学 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法
KR20220096099A (ko) * 2020-12-30 2022-07-07 성균관대학교산학협력단 지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치
CN114913150A (zh) * 2022-05-11 2022-08-16 河海大学 一种混凝土大坝缺陷时序图像智能识别方法
CN114972952A (zh) * 2022-05-29 2022-08-30 重庆科技学院 一种基于模型轻量化的工业零部件缺陷识别方法
CN115393671A (zh) * 2022-08-25 2022-11-25 河海大学 基于多教师知识蒸馏和归一化注意力的岩石类别预测方法
WO2022252348A1 (zh) * 2021-06-01 2022-12-08 浙江工商大学 基于旋转目标和改进注意力机制的薄膜划痕瑕疵检测方法
CN115457006A (zh) * 2022-09-23 2022-12-09 华能澜沧江水电股份有限公司 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置
CN115496213A (zh) * 2022-08-23 2022-12-20 华中科技大学 一种基于结构特征知识的知识蒸馏方法及系统
CN115631396A (zh) * 2022-10-24 2023-01-20 北京建筑大学 一种基于知识蒸馏的YOLOv5目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3076424A1 (en) * 2019-03-22 2020-09-22 Royal Bank Of Canada System and method for knowledge distillation between neural networks

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489334A (zh) * 2020-04-02 2020-08-04 暖屋信息科技(苏州)有限公司 一种基于卷积注意力神经网络的缺陷工件图像识别方法
KR20220096099A (ko) * 2020-12-30 2022-07-07 성균관대학교산학협력단 지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치
CN112784999A (zh) * 2021-01-28 2021-05-11 开放智能机器(上海)有限公司 基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备
CN112801209A (zh) * 2021-02-26 2021-05-14 同济大学 基于双特长教师模型知识融合的图像分类方法及存储介质
WO2022252348A1 (zh) * 2021-06-01 2022-12-08 浙江工商大学 基于旋转目标和改进注意力机制的薄膜划痕瑕疵检测方法
CN113947590A (zh) * 2021-10-26 2022-01-18 四川大学 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法
CN114913150A (zh) * 2022-05-11 2022-08-16 河海大学 一种混凝土大坝缺陷时序图像智能识别方法
CN114972952A (zh) * 2022-05-29 2022-08-30 重庆科技学院 一种基于模型轻量化的工业零部件缺陷识别方法
CN115496213A (zh) * 2022-08-23 2022-12-20 华中科技大学 一种基于结构特征知识的知识蒸馏方法及系统
CN115393671A (zh) * 2022-08-25 2022-11-25 河海大学 基于多教师知识蒸馏和归一化注意力的岩石类别预测方法
CN115457006A (zh) * 2022-09-23 2022-12-09 华能澜沧江水电股份有限公司 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置
CN115631396A (zh) * 2022-10-24 2023-01-20 北京建筑大学 一种基于知识蒸馏的YOLOv5目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Defect Detection Model for Industrial Products Based on Attention and Knowledge Distillation;Zhang ZeKai et al.;《Computational Intelligence and Neuroscience》;20221010;第2022卷;1-18 *
基于回顾蒸馏学习的无监督工业品缺陷检测方法;成科扬 等;《南京大学学报(自然科学)》;20221130;第58卷(第06期);1030-1040 *
基于迁移学习的坝面表观缺陷智能检测方法研究;陈波 等;《水利水电技术》;20200430;第51卷(第04期);106-112 *

Also Published As

Publication number Publication date
CN116385794A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN115457006B (zh) 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置
WO2020244134A1 (zh) 一种基于多任务特征共享神经网络的智能故障诊断方法
CN110580496A (zh) 一种基于熵最小化的深度迁移学习系统及方法
CN101236608B (zh) 基于图片几何结构的人脸检测方法
CN105825511A (zh) 一种基于深度学习的图片背景清晰度检测方法
CN111339818B (zh) 一种人脸多属性识别系统
CN110238840B (zh) 一种基于视觉的机械臂自主抓取方法
CN110533086A (zh) 图像数据半自动标注方法
CN105550709A (zh) 一种遥感影像输电线路走廊森林区域提取方法
CN111062423B (zh) 基于自适应特征融合的点云图神经网络的点云分类方法
CN115147488B (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
CN114283325B (zh) 一种基于知识蒸馏的水下目标识别方法
CN115511220A (zh) 基于跨模态注意力机制的超短期太阳辐射预测方法及系统
CN113434699A (zh) Bert模型的预训练方法、计算机装置和存储介质
CN107038410A (zh) 一种基于深度堆叠网络的杂草图像识别方法
CN116611478A (zh) 一种基于深度阈值生成对抗网络的工业过程数据增强方法
CN112580798A (zh) 基于多输入多输出ResNet的设备智能预警方法
KR102200496B1 (ko) 딥러닝을 이용한 이미지 인식 방법 및 서버
CN118447297A (zh) 一种基于知识蒸馏的轻量化农作物病害识别方法
CN113392724B (zh) 基于多任务学习的遥感场景分类方法
CN117993282A (zh) 一种面向智能制造故障诊断的域适应性信息瓶颈联邦学习方法
CN116385794B (zh) 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置
CN117315477A (zh) 一种基于深度学习的古建筑识别方法
CN116524341A (zh) 一种基于量化蒸馏的水下目标识别方法
CN114943277A (zh) 一种综合能源系统运行工况识别与运行性能预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant