CN117496426A - 基于互学习的预制梁工序识别方法及装置 - Google Patents
基于互学习的预制梁工序识别方法及装置 Download PDFInfo
- Publication number
- CN117496426A CN117496426A CN202311345482.XA CN202311345482A CN117496426A CN 117496426 A CN117496426 A CN 117496426A CN 202311345482 A CN202311345482 A CN 202311345482A CN 117496426 A CN117496426 A CN 117496426A
- Authority
- CN
- China
- Prior art keywords
- network
- random
- precast beam
- model
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 153
- 230000003068 static effect Effects 0.000 claims abstract description 66
- 230000008569 process Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000002452 interceptive effect Effects 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 33
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical group C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 claims description 20
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 229910000831 Steel Inorganic materials 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 239000010959 steel Substances 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000007789 sealing Methods 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract 1
- 238000005286 illumination Methods 0.000 description 6
- 238000007792 addition Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供基于互学习的预制梁工序识别方法及装置,能够在预制梁场复杂环境下进行预制梁工序的高精度识别。方法包括:步骤1,构建基于真实场景的预制梁工序数据集,并进行标注,用于训练模型;步骤2,建立静态数据增强网络;步骤3,建立动态语义增强网络;步骤4,构建双分支的互学习框架模型,第一分支为静态数据增强网络,第二分支为动态语义增强网络,在两个分支中引入交互损失函数并提出正样本对齐策略以便计算,与原损失函数加权相加得到最终的损失函数,从而取得每个网络模型的最佳权重;步骤5,将静态数据增强网络仅作为优化参数的辅助工具,使用最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型。
Description
技术领域
本发明属于人工智能、计算机视觉技术领域,具体涉及基于互学习的预制梁工序识别方法及装置。
背景技术
预制梁工序识别是指利用计算机视觉和机器学习技术,自动化地识别和检测预制梁生产过程中的各个工序,帮助管理人员准确检测和记录工序的执行情况,从而确保工序的规范性和质量控制。目前,大多数预制梁场主要采用人工巡查的方式来对梁体的所处工序进行记录并检查预制梁的质量,以确保工序的准确性和规范性,这种方法效率低且容易出错。
尽管预制梁在建筑领域中得到广泛应用,然而到目前为止,预制梁工序识别在视觉领域尚处于研究的初始阶段,相关公开研究工作较少,技术还不够成熟,有待进一步的探究。在数据处理上,张云翔等人[1]提出一种数据增强训练方法,以数据集样本数据是否增加为依据,将数据增强方法分为静态数据增强方法和动态数据增强方法并用于单模型训练,旨在提高图像增强训练的工作效率。田莎莎等人[2]在YOLO模型中加入了多层次细粒度PAFPN结构,将特征图进行特征融合,通过注意力机制进行权重稀疏惩罚,获得通道增强特征图,改善行人检测效果。但上述方法应用任务的主体特征相似,关注点主要集中在改进模型的检测性能,本发明应用场景下工序之间T梁的形态差别有大有小,通过精心设计的动静结合的互学习框架,使得模型能够同时提高分类和检测性能。在工程应用上,王波等人[3]通过YOLOv3目标检测模型,实现了对存梁台座上存梁种类及数量的快速准确识别,降低存梁管理成本。张大庆等人[4]基于YOLO系列网络构建了多分类目标检测模型,通过多通道特征拼接,实现了台座的定位和状态识别,适用于不同尺度的目标检测。
然而,上述方法在对台座的识别过程中,未充分考虑环境光照复杂性和噪声干扰随机性问题,例如,光照条件可能在不同时间、天气和地点发生显著变化,引起图像亮度、对比度和色彩的变化,这种复杂性使得数据集中的图像在亮度、对比度和颜色方面表现出多样性;此外,存在各种随机性噪声源,镜头污渍和尘埃、运动模糊、物体遮挡和遮光,这些干扰因素的出现是随机的,在图像中引入不确定的视觉干扰,使物体边缘模糊、细节丢失或者出现虚假特征,阻碍对目标的观察和识别。这些都将导致视觉内容理解出现偏差和不完整,模型缺乏足够的鲁棒性,因而难以维持高精度的性能。
此外,目前没有公开可直接使用的预制梁或梁场数据集。由于梁场所处位置偏远且工序多样,不同角度和视角的覆盖及工人操作的实时性等因素进一步加大了数据采集困难的挑战。由于预制梁工序的多样性和复杂性,确保获取具有代表性的数据集并进行准确标注也是一个复杂的任务。而基于真实场景的数据集通常包含多种环境条件、光照变化等多样性因素,造成的噪声和干扰会将模型的注意力从关键特征转移到不相关的信息上,导致模型性能下降。
综上所述,目前在预制梁场景的目标检测方法仍处于不够成熟的阶段,面临着一系列尚未解决的问题。要提高复杂环境下目标检测的准确性和可靠性,进而实现高精度识别,仍然是一个重要的挑战。
引用文献:
[1]张云翔,饶竹一.一种图像增强训练方法及其系统、计算机可读存储介质[P].广东省:CN110795623B,2022-10-14.
[2]田莎莎,谢勇,汪红等.行人检测方法、装置、设备及存储介质[P].湖北省:CN115131819A,2022-09-30.
[3]王波,阮小丽,赵训刚等.一种基于图像识别技术的存梁台座识别方法及系统[P].湖北省:CN111860131A,2020-10-30.
[4]张大庆,李秀秀,韦明嵩等.基于深度学习的预制梁场台座状态识别装置及其识别方法[P].江苏省:CN114022825A,2022-02-08.
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种基于互学习的预制梁工序识别方法及装置,能够有效地提高在预制梁场复杂环境下(复杂环境光照和随机噪声干扰情况下)目标检测的准确性和可靠性,实现预制梁工序的高精度识别。
本发明为了实现上述目的,采用了以下方案:
<方法>
本发明提供了一种基于互学习的预制梁工序识别方法,包括以下步骤:
步骤1、构建一个基于真实场景的预制梁工序数据集,通过远程监控在不同时间和不同天气状况下采集现场图像,使用图像标注工具(例如,labelme)对台座位置及其工序类别进行标注,用于训练模型;这里场景是采用实际的预制梁现场摄像头视角,对台座及其上预制梁进行检测并对其所处工序进行分类。一个摄像头与其视野范围中的台座数量可能为一对一、一对多的关系,工序之间T梁的形态差别有大有小,因此预制梁工序识别任务本质上是一个基于目标检测的分类任务,且分类难度较高。
步骤2、建立静态数据增强网络:静态地对原始数据集进行扩增,将扩增之后的数据集作为静态数据增强网络分支的输入,再对经过数据读取阶段后得到的mosaic图像进行数据增强技术并对特征图计算平均,静态数据增强网络分支采用单阶段目标检测网络;
步骤3、建立动态语义增强网络:选取任意YOLO系列目标检测网络作为基线模型,在网络中采用线上的三重随机的数据增强方法,随机应用概率下应用随机次数及随机大小比例的随机擦除方法,在骨干网络中引入基于归一化的注意力机制NAM;
步骤4、构建一个双分支的互学习框架模型,第一分支为步骤2的静态数据增强网络,第二分支为步骤3的动态语义增强网络,在两个分支中引入交互损失函数并采用正样本对齐策略进行计算,与原网络的损失函数加权相加后得到最终的损失函数,从而取得每个网络模型的最佳权重;
步骤5、将静态数据增强网络仅作为优化参数的辅助工具,使用互学习策略优化后动态语义增强网络的最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型。
优选地,本发明提供的基于互学习的预制梁工序识别方法,在步骤2中,对原始数据集采用3种数据扩增方法,包括随机水平翻转、随机垂直翻转、中心裁剪,对经过数据读取阶段后得到的mosaic图像进行随机亮度转换、添加高斯噪声这2种数据增强技术。
优选地,本发明提供的基于互学习的预制梁工序识别方法,步骤3包括如下子步骤:
步骤3.1,随机擦除方法在mosaic数据增强方法的基础上进行,即对扩增数据进行再增强;三重随机的随机擦除:实施随机次数的随机擦除,是否擦除及擦除的次数由模型生成的0到1的随机数确定;实施随机擦除的概率为0.5,在此条件下,次数为4、3、2、1的概率分别为0.1、0.2、0.3、0.4;三重随机的随机擦除方法模拟了真实场景中梁场作业人员对前景的遮挡;
步骤3.2,将基于归一化的NAM注意力模块放置在动态语义增强网络分支的特征提取网络Backbone的后部,在通道和空间两个维度上使局部特征更加突出,并在不引入过多计算复杂度的情况下,有效增强网络的特征提取能力。
优选地,本发明提供的基于互学习的预制梁工序识别方法中,在步骤4中,设计动静结合的互学习框架:采用步骤2中静态数据增强网络分支对原始数据集进行扩增,每个轮次接收相同的图片,学习静态的、多样的特征;将步骤3中动态语义增强网络分支的随机擦除嵌入为网络数据预处理的一部分,每个轮次重新对原图片进行三重随机的随机擦除,同时充分利用基于归一化的NAM注意力模块的权重调节能力,动态地调整网络的学习侧重点;两网络分支通过互学习策略进行约束和交互。
为保证本发明的实时性,静态数据增强网络在本发明中被设计为训练过程中的辅助工具,其主要作用是辅助动态语义增强网络训练,优化其参数。最终使用互学习策略优化后动态语义增强网络的最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型。
优选地,本发明提供的基于互学习的预制梁工序识别方法,在步骤4中,将互学习思想应用于目标检测模型中,由于目标检测中一个真实值可能对应多个预测值,提出正样本对齐策略,从两个分支网络的预测输出中提取类别信息后,通过控制每个真实值对应的预测值数量,实现两模型输出的预测边界框数量及表征分布的双重对齐,使两网络分支的预测信息能够通过互学习框架中的交互损失函数相互约束,从而进行交互损失函数的计算,实现目标检测模型的互学习策略。
优选地,本发明提供的基于互学习的预制梁工序识别方法,在步骤4中,正样本对齐策略不仅仅限于将其中一个网络的正样本锚框索引映射到另一个网络,还可以使用NMS策略等标签分配方法;只需满足两网络对同一个真实值的预测边界框的个数和表征分布相同。
优选地,本发明提供的基于互学习的预制梁工序识别方法,在步骤1中,采集时间为每天9:00、12:00、15:00、18:00、21:00,天气状况包括晴天、阴天、雨天等,涉及的预制梁工序包括空闲台座、模板拼接、钢筋绑扎、混凝土浇筑、混凝土养护、模板拆除_洒水养护、梁体养生、铺设钢绞线、预应力张拉、封锚压浆10个类别。其中,空闲台座类别中的样本实际上来自于不同的工序,彼此特征上可能存在更大的差异,相似度较低,而与其他类别中样本属于相同的工序,在特征空间上却更加接近,相似度较高,本发明通过动静结合的双网络分支的互学习策略解决了该问题。
<装置>
进一步,本发明还提供了一种自动实现上述<方法>的基于互学习的预制梁工序识别装置,其特征在于,包括:
数据集构建部,构建一个基于真实场景的预制梁工序数据集,通过远程监控在不同时间和不同天气状况下采集现场图像,使用图像标注工具对台座位置及其工序类别进行标注,用于训练模型;
静态网络建立部,建立静态数据增强网络:静态地对原始数据集进行扩增,将扩增之后的数据集作为静态数据增强网络分支的输入,再对经过数据读取阶段后得到的mosaic图像进行数据增强技术并对特征图计算平均,静态数据增强网络分支采用单阶段目标检测网络;
动态网络建立部,建立动态语义增强网络:选取任意YOLO系列目标检测网络作为基线模型,在网络中采用线上的三重随机的数据增强方法,随机应用概率下应用随机次数及随机大小比例的随机擦除方法,在骨干网络中引入基于归一化的注意力机制NAM;
模型构建部,构建一个双分支的互学习框架模型,第一分支为静态数据增强网络,第二分支为动态语义增强网络,在两个分支中引入交互损失函数并采用正样本对齐策略进行计算,该损失函数与原网络的损失函数加权相加后得到最终的损失函数,从而取得每个网络模型的最佳权重;
识别部,将静态数据增强网络仅作为优化参数的辅助工具,使用互学习策略优化后动态语义增强网络的最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型,进行预制梁工序识别;
控制部,与数据集构建部、静态网络建立部、动态网络建立部、模型构建部、识别部均通信相连,控制它们的运行。
优选地,本发明提供的基于互学习的预制梁工序识别装置,还可以包括:输入显示部,与控制部通信相连,让用户输入操作指令,并根据操作指令对相应部的输入、输出和中间处理数据以文字、表格、图形、静态或动态模型方式进行显示。
优选地,本发明提供的基于互学习的预制梁工序识别装置,在模型构建部中,设计动静结合的互学习框架:静态数据增强网络分支对原始数据集进行扩增,每个轮次接收相同的图片,学习静态的、多样的特征;动态语义增强网络分支的随机擦除为嵌入在网络中的数据预处理的一部分,每个轮次重新对原图片进行三重随机的随机擦除,同时充分利用基于归一化的NAM注意力模块的权重调节能力,动态地调整网络的学习侧重点;两网络分支通过互学习策略进行约束和交互。
发明的作用与效果
本发明所提供的基于互学习的预制梁工序识别方法及装置,充分考虑真实场景中环境变化和随机性噪声源等复杂情况,采集现场图像并构建数据集,然后在目标检测模型上构建动静结合的深度互学习框架,建立两个学习能力侧重不同的网络分支,建立静态数据增强网络分支,通过多重的、静态的数据增强技术来学习复杂多样的样本特征;建立动态语义增强网络分支,运用三重随机的数据增强方法,通过骨干网络中引入的基于归一化的注意力机制的权重调整能力,动态地调整网络的学习侧重点;两个网络分支通过交互损失函数相互学习,优化参数;静态数据增强网络仅作为优化参数的辅助工具,使用互学习策略优化后动态语义增强网络的最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型进行预制梁工序识别;通过前述技术切实降低了真实场景中环境光照复杂性和噪声干扰随机性对模型性能的影响,有效提升了预制梁工序识别模型对不同数据和环境的适应性、特征提取能力、泛化能力,以及在预制梁场复杂环境下目标检测的准确性和可靠性,实现了预制梁工序的高精度识别。本发明为工序自动化、实时监控提供了新的研究范式,并提出了具有泛化能力的基于检测的预制梁工序识别算法,有利于实现单屏多目标的高效、准确检测与识别。
附图说明
图1为本发明实施例涉及的基于互学习的预制梁工序识别方法的流程图;
图2为本发明实施例涉及的网络模型图。
具体实施方式
以下结合附图对本发明涉及的基于互学习的预制梁工序识别方法及装置进行详细地说明。
<实施例一>
如图1所示,本实施例所提供的基于互学习的预制梁工序识别方法包括以下步骤:
步骤1:构建一个基于真实场景的预制梁数据集。
通过远程监控采集现场图像,采集时间为每天9:00、12:00、15:00、18:00、21:00左右,包含不同的天气状况(晴天、阴天、雨天等),使用labelme对台座位置及其工序类别进行标注,数据集图像分辨率为1920×1080,共含2373张图像,训练集和测试集随机划分为8:2,数量分别为1899和474,包括空闲台座、模板拼接、钢筋绑扎、混凝土浇筑、混凝土养护、模板拆除_洒水养护、梁体养生、铺设钢绞线、预应力张拉、封锚压浆10个类别。
其中,空闲台座是各个工序中的初始状态亦即结束状态,因此它与其对应工序存在一定的相似信息,而空闲台座样本间可能存在较大的差异,本发明通过动静结合网络与互学习策略解决了该问题。
步骤2:建立静态数据增强网络,本实施例采用YOLOv7网络。对原始数据集采用3种数据增强方法,包括随机水平翻转、随机垂直翻转、中心裁剪,将扩增之后的数据集作为静态数据增强网络分支的输入,对经过数据读取阶段后得到的mosaic图像进行2种数据增强技术并计算平均,包括随机亮度转换、添加高斯噪声,上述两种数据增强技术尤其模拟了时间、天气等因素造成的不利光线条件造成干扰的情况。
步骤3:建立动态语义增强网络,选取任意YOLO系列目标检测网络作为基线模型,处理过程为:在网络中采用线上的三重随机的数据增强方法,即随机应用概率下应用随机次数及随机大小比例的随机擦除方法,在骨干网络中引入基于归一化的注意力机制NAM。
步骤3的具体实现包括以下子步骤:
步骤3.1:在原始分支网络模型的输入端中,本实施例对mosaic增强后的图像随机概率地采用随机次数的随机擦除技术,在图像内随机选择位置,并在这些位置填充随机大小和随机长宽比的矩形区域。
应用随机擦除的概率为0.5,在此基础上,应用次数为4、3、2、1的概率分别为0.1、0.2、0.3、0.4。随机擦除模块沿用其初始参数,填充区域的面积在整张图片中的占比设置为0.02-0.2,擦除块中的填充数值设置为lmageNet的像素归一化均值[0.4914,0.4822,0.4465];
步骤3.2:三重随机的随机擦除方法模拟了真实场景中梁场作业人员对前景的遮挡,为了降低上述随机噪声干扰对模型性能的影响,引入基于归一化的注意力模块NAM,提高模型在通道和空间上局部特征的提取能力。
本发明将NAM的通道和空间注意力模块按照卷积注意力模块CBAM的集成方式集成后的注意力机制,添加到特征提取网络Backbone的后部,能够在不引入过多计算复杂度的情况下,有效地增强网络的特征提取能力;
步骤4:如图2所示,构建一个双分支的互学习框架模型,第一分支为步骤2的静态数据增强网络Θ1,第二分支为步骤3的动态语义增强网络Θ2,在两个分支中引入交互损失函数,该损失函数与原网络中约束检测精度和分类准确度的损失函数加权相加后得到最终的损失函数,从而取得每个模型最佳权重。
设计动静结合的互学习框架:步骤2中静态数据增强网络分支对原始数据集进行扩增,每个轮次接收相同的图片,学习静态的、多样的特征;而步骤3中动态语义增强网络分支的随机擦除为嵌入在网络中的数据预处理的一部分,每个轮次重新对原图片进行三重随机的随机擦除,同时充分利用NAM注意力模块的权重调节能力,动态地调整网络的学习侧重点;两网络分支通过互学习策略进行约束和交互。两网络分支均为目标检测模型,但可以不是完全相同的模型。
本发明将互学习思想应用于目标检测模型中,由于目标检测中一个真实值可能对应多个预测值,提出正样本对齐策略,从两个分支网络的预测输出中提取类别信息后,通过控制每个真实值对应的预测值数量,实现两模型输出的预测边界框数量及表征分布的双重对齐,从而进行交互损失函数的计算。
本实施例选取训练数据多样性更高的静态数据增强网络的预测锚框索引作为参考坐标,将其映射到动态语义增强网络中,实现正样本对齐,从而进行交互损失函数KL散度损失的计算。
对网络Θ1中的样本xi,其预测为类别m的概率可计算为:
式中,zm为网络Θ1中softmax层的输出,M为类别数。
从网络Θ1的预测概率分布p1到网络Θ2的预测概率分布p2的KL散度计算公式如下:
同样的,从网络Θ2的预测概率分布p2到网络Θ1的预测概率分布p1的KL散度计算公式为:
式中,N为每个类别的样本数。
最后每个网络最终的损失函数分别为:
式中,LC表示原网络中约束检测精度和分类准确度的损失函数,本实施例中α与β均取1。
网络训练至与/>损失函数均收敛,保存最佳权重。
步骤5:将静态数据增强网络仅作为优化参数的辅助工具,使用互学习策略优化后动态语义增强网络的最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型。
本发明在训练时采用互学习策略,使两网络分支各有所长又相互学习;为保证算法的实时性,取其一支作为最终的推理模型。
在方法评价上,采用精确率(Precision)、均值平均精度(Mean AvaragePrecision,MAP)作为模型的评价指标。精确率表示真正的正类占预测为正类的样本的百分比。mAP综合考虑模型在多个类别上的检测准确性,并对不同类别的平均精度AP进行平均计算,即所有图片的具体某一类的Precision-Recall曲线(横轴为召回率,纵轴为精确率)下的面积的平均值,作为一个全局性能指标。
式中,TP表示真正类,即样本的真实分类为正类且模型将其划分为正类的实施例;FP为假正类,即样本的真实分类为负类但模型将其错误划分为正类的实施例;FN为假负类,即样本的真实分类为正类,但模型将其错误划分为负类的样本;AP为平均精度;n为类别。
经验证,本发明方法有效提高了梁场复杂环境条件下工序识别的准确率,精确率和均值平均精度达到了97.0%和97.9%。表明本发明在复杂场景下取得了显著的改进效果,为预制梁工序识别问题提供了一种有效且可靠的解决方案。
应用场景:本发明可以在光线不足、画质受损、有遮挡等环境光照复杂和存在随机噪声干扰的情况下很好地检测到预制梁台座并对其工序进行识别。本发明具有实时性,可以在很短的时间内将识别结果写入系统,利于场内外信息化协同化管理,为全过程管理数字化的闭环提供必要支撑。
<实施例二>
进一步,本实施例二提供能够自动实现上述方法的基于互学习的预制梁工序识别装置,该装置包括数据集构建部、静态网络建立部、动态网络建立部、模型构建部、识别部、输入显示部以及控制部。
数据集构建部能够执行上文步骤1所描述的内容,构建一个基于真实场景的预制梁工序数据集,通过远程监控在不同时间和不同天气状况下采集现场图像,使用图像标注工具对台座位置及其工序类别进行标注,用于训练模型。
静态网络建立部能够执行上文步骤2所描述的内容,建立静态数据增强网络。
动态网络建立部能够执行上文步骤3所描述的内容,建立动态语义增强网络。
模型构建部能够执行上文步骤4所描述的内容,构建一个双分支的互学习框架模型。
识别部能够执行上文步骤5所描述的内容,将静态数据增强网络仅作为优化参数的辅助工具,使用互学习策略优化后动态语义增强网络的最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型,进行预制梁工序识别。
输入显示部用于让用户输入操作指令,并根据操作指令对相应部的输入、输出和中间处理数据以文字、表格、图形、静态或动态模型方式进行显示。
控制部与数据集构建部、静态网络建立部、动态网络建立部、模型构建部、识别部、输入显示部均通信相连,控制它们的运行。
以上实施例仅仅是对本发明技术方案所做的举例说明。本发明所涉及的基于互学习的预制梁工序识别方法及装置并不仅仅限定于在以上实施例中所描述的内容,而是以权利要求所限定的范围为准。本发明所属领域技术人员在该实施例的基础上所做的任何修改或补充或等效替换,都在本发明的权利要求所要求保护的范围内。
Claims (10)
1.基于互学习的预制梁工序识别方法,其特征在于,包括以下步骤:
步骤1,构建一个基于真实场景的预制梁工序数据集,通过远程监控在不同时间和不同天气状况下采集现场图像,使用图像标注工具对台座位置及其工序类别进行标注,用于训练模型;
步骤2,建立静态数据增强网络:静态地对原始数据集进行扩增,将扩增之后的数据集作为静态数据增强网络分支的输入,再对经过数据读取阶段后得到的mosaic图像进行数据增强技术并对特征图计算平均,静态数据增强网络分支采用单阶段目标检测网络;
步骤3,建立动态语义增强网络:选取任意YOLO系列目标检测网络作为基线模型,在网络中采用线上的三重随机的数据增强方法,随机应用概率下应用随机次数及随机大小比例的随机擦除方法,在骨干网络中引入基于归一化的注意力机制NAM;
步骤4,构建一个双分支的互学习框架模型,第一分支为步骤2的静态数据增强网络,第二分支为步骤3的动态语义增强网络,在两个分支中引入交互损失函数并采用正样本对齐策略进行计算,与原网络的损失函数加权相加后得到最终的损失函数,从而取得每个网络模型的最佳权重;
步骤5,将静态数据增强网络仅作为优化参数的辅助工具,使用互学习策略优化后动态语义增强网络的最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型。
2.根据权利要求1所述的基于互学习的预制梁工序识别方法,其特征在于:
其中,在步骤2中,对原始数据集采用3种数据扩增方法,包括随机水平翻转、随机垂直翻转、中心裁剪,对经过数据读取阶段后得到的mosaic图像进行随机亮度转换、添加高斯噪声这2种数据增强技术。
3.根据权利要求1所述的基于互学习的预制梁工序识别方法,其特征在于:
其中,步骤3包括如下子步骤:
步骤3.1,随机擦除方法在mosaic数据增强方法的基础上进行;三重随机的随机擦除:实施随机次数的随机擦除,是否擦除及擦除的次数由模型生成的0到1的随机数确定;实施随机擦除的概率为0.5,在此条件下,次数为4、3、2、1的概率分别为0.1、0.2、0.3、0.4;
步骤3.2,将基于归一化的NAM注意力模块放置在动态语义增强网络分支的特征提取网络Backbone的后部,在通道和空间两个维度上使局部特征更加突出。
4.根据权利要求1所述的基于互学习的预制梁工序识别方法,其特征在于:
其中,在步骤4中,设计动静结合的互学习框架:采用步骤2中静态数据增强网络分支对原始数据集进行扩增,每个轮次接收相同的图片,学习静态的、多样的特征;将步骤3中动态语义增强网络分支的随机擦除嵌入为网络数据预处理的一部分,每个轮次重新对原图片进行三重随机的随机擦除,同时充分利用基于归一化的NAM注意力模块的权重调节能力,动态地调整网络的学习侧重点;两网络分支通过互学习策略进行约束和交互。
5.根据权利要求1所述的基于互学习的预制梁工序识别方法,其特征在于:
其中,在步骤4中,将互学习思想应用于目标检测模型中,提出正样本对齐策略,从两个分支网络的预测输出中提取类别信息后,通过控制每个真实值对应的预测值数量,实现两模型输出的预测边界框数量及表征分布的双重对齐,从而进行交互损失函数的计算。
6.根据权利要求1所述的基于互学习的预制梁工序识别方法,其特征在于:
其中,在步骤4中,正样本对齐策略为:将其中一个网络的正样本锚框索引映射到另一个网络,或者使用标签分配方法;只需满足两网络对同一个真实值的预测边界框的个数和表征分布相同。
7.根据权利要求1所述的基于互学习的预制梁工序识别方法,其特征在于:
其中,在步骤1中,采集时间为每天9:00、12:00、15:00、18:00、21:00,天气状况包括晴天、阴天、雨天,涉及的预制梁工序包括空闲台座、模板拼接、钢筋绑扎、混凝土浇筑、混凝土养护、模板拆除_洒水养护、梁体养生、铺设钢绞线、预应力张拉、封锚压浆10个类别。
8.基于互学习的预制梁工序识别装置,其特征在于,包括:
数据集构建部,构建一个基于真实场景的预制梁工序数据集,通过远程监控在不同时间和不同天气状况下采集现场图像,使用图像标注工具对台座位置及其工序类别进行标注,用于训练模型;
静态网络建立部,建立静态数据增强网络:静态地对原始数据集进行扩增,将扩增之后的数据集作为静态数据增强网络分支的输入,再对经过数据读取阶段后得到的mosaic图像进行数据增强技术并对特征图计算平均,静态数据增强网络分支采用单阶段目标检测网络;
动态网络建立部,建立动态语义增强网络:选取任意YOLO系列目标检测网络作为基线模型,在网络中采用线上的三重随机的数据增强方法,随机应用概率下应用随机次数及随机大小比例的随机擦除方法,在骨干网络中引入基于归一化的注意力机制NAM;
模型构建部,构建一个双分支的互学习框架模型,第一分支为静态数据增强网络,第二分支为动态语义增强网络,在两个分支中引入交互损失函数并采用正样本对齐策略进行计算,该损失函数与原网络的损失函数加权相加后得到最终的损失函数,从而取得每个网络模型的最佳权重;
识别部,将静态数据增强网络仅作为优化参数的辅助工具,使用互学习策略优化后动态语义增强网络的最佳权重,并将去除随机擦除模块后的动态语义增强网络作为预制梁工序识别的推理模型,进行预制梁工序识别;
控制部,与数据集构建部、静态网络建立部、动态网络建立部、模型构建部、识别部均通信相连,控制它们的运行。
9.根据权利要求8所述的基于互学习的预制梁工序识别装置,其特征在于,还包括:
输入显示部,与控制部通信相连,让用户输入操作指令,并根据操作指令对相应部的输入、输出和中间处理数据以文字、表格、图形、静态或动态模型方式进行显示。
10.根据权利要求8所述的基于互学习的预制梁工序识别装置,其特征在于:
其中,在模型构建部中,设计动静结合的互学习框架:静态数据增强网络分支对原始数据集进行扩增,每个轮次接收相同的图片,学习静态的、多样的特征;动态语义增强网络分支的随机擦除为嵌入在网络中的数据预处理的一部分,每个轮次重新对原图片进行三重随机的随机擦除,同时充分利用基于归一化的NAM注意力模块的权重调节能力,动态地调整网络的学习侧重点;两网络分支通过互学习策略进行约束和交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345482.XA CN117496426A (zh) | 2023-10-18 | 2023-10-18 | 基于互学习的预制梁工序识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345482.XA CN117496426A (zh) | 2023-10-18 | 2023-10-18 | 基于互学习的预制梁工序识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117496426A true CN117496426A (zh) | 2024-02-02 |
Family
ID=89683836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311345482.XA Pending CN117496426A (zh) | 2023-10-18 | 2023-10-18 | 基于互学习的预制梁工序识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496426A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726821A (zh) * | 2024-02-05 | 2024-03-19 | 武汉理工大学 | 一种面向医疗视频中区域遮挡的医护行为识别方法 |
-
2023
- 2023-10-18 CN CN202311345482.XA patent/CN117496426A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726821A (zh) * | 2024-02-05 | 2024-03-19 | 武汉理工大学 | 一种面向医疗视频中区域遮挡的医护行为识别方法 |
CN117726821B (zh) * | 2024-02-05 | 2024-05-10 | 武汉理工大学 | 一种面向医疗视频中区域遮挡的医护行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059694B (zh) | 电力行业复杂场景下的文字数据的智能识别方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN113436169B (zh) | 一种基于半监督语义分割的工业设备表面裂纹检测方法及系统 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN109409327B (zh) | 基于端到端深度神经网络的rru模块物件位姿检测方法 | |
CN115205264A (zh) | 一种基于改进YOLOv4的高分辨率遥感船舶检测方法 | |
CN112949507A (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN116579616B (zh) | 一种基于深度学习的风险识别方法 | |
CN117496426A (zh) | 基于互学习的预制梁工序识别方法及装置 | |
CN113435407B (zh) | 一种输电系统的小目标识别方法及装置 | |
CN111160432A (zh) | 一种面板生产制造缺陷的自动分类方法及系统 | |
CN115131747A (zh) | 基于知识蒸馏的输电通道工程车辆目标检测方法及系统 | |
CN114241332A (zh) | 一种基于深度学习的固废场识别方法、装置以及存储介质 | |
CN114283137A (zh) | 基于多尺度特征图推理网络的光伏组件热斑缺陷检测方法 | |
CN115439753A (zh) | 一种基于dem的陡峭河岸识别方法及系统 | |
CN116823793A (zh) | 设备缺陷检测方法、装置、电子设备和可读存储介质 | |
CN116994068A (zh) | 一种基于知识蒸馏的目标检测方法及装置 | |
CN117197530A (zh) | 一种基于改进YOLOv8模型及余弦退火学习率衰减法的绝缘子缺陷识别方法 | |
CN116630743A (zh) | 基于深度学习的天气图像识别方法、装置、设备及介质 | |
CN110826478A (zh) | 一种基于对抗网络的航拍违建识别方法 | |
CN114092410B (zh) | 一种基于多尺度卷积神经网络的手机表面缺陷精准识别方法 | |
CN116363532A (zh) | 基于注意力机制和重参数化的无人机图像交通目标检测方法 | |
CN110163081A (zh) | 基于ssd的实时区域入侵检测方法、系统及存储介质 | |
CN115223114A (zh) | 一种基于双向融合特征金字塔的端到端车辆姿态估计方法 | |
CN114743072A (zh) | 一种短期时间序列预测模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |