CN112215308A - 一种吊装物体单阶检测方法、装置、电子设备及存储介质 - Google Patents
一种吊装物体单阶检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112215308A CN112215308A CN202011456486.1A CN202011456486A CN112215308A CN 112215308 A CN112215308 A CN 112215308A CN 202011456486 A CN202011456486 A CN 202011456486A CN 112215308 A CN112215308 A CN 112215308A
- Authority
- CN
- China
- Prior art keywords
- detection model
- loss
- hoisted object
- neural network
- rotation angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 206010037180 Psychiatric symptoms Diseases 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 abstract 1
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 206010008909 Chronic Hepatitis Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种吊装物体单阶检测方法、装置、电子设备及存储介质,该方法包括:获取吊装物体图像,作为训练集;对训练集进行特征提取,获得目标坐标及旋转角度;使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。本发明实现方法简单,可移植性强,能够实现对监控摄像头拍摄的厂区、工地等作业场所中吊装物体的精准检测。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种吊装物体单阶检测方法、装置、电子设备及存储介质。
背景技术
在厂区和工地等作业场所中,设备搬运吊装是一项危险系数比较大的工作,因此在吊装作业中,要求各工作人员必须严格遵守安全操作规则,与吊装物体保持安全距离。但采用人工监管的方式耗时费力且难度较大,这导致由于施工人员不遵守安全规则而引发的安全事故时有发生。针对这个问题,采用智能化的手段来识别吊装物体与施工人员是否保持安全距离具有极大的必要性。其中,精确的定位吊装物体与施工人员是这项技术的关键。
近些年来,深度学习飞速发展,基于深度卷积神经网络的目标检测方法被应用于解决吊装物体检测定位的问题。这类方法检测出来的吊装物体目标框都是与坐标轴平行的矩形框。但在实际施工环境下,存在着场景复杂多变、目标旋转、目标形状不确定等极具挑战性的问题,若仍将与坐标轴平行的矩形框作为最终目标框,就与真实物体形状存在较大偏差,使得检测定位难以取得较高的准确率。并且,采用与坐标轴平行的矩形框还会对非极大值抑制(NMS)结果产生影响,进一步降低检测准确率。
发明内容
本发明实施例的目的是提供一种吊装物体单阶检测方法、装置、电子设备及存储介质,以解决现有检测准确率低的问题。
为了达到上述目的,本发明实施例所采用的技术方案如下:
第一方面,本发明实施例提供一种吊装物体单阶检测方法,包括:
获取吊装物体图像,作为训练集;
对训练集进行特征提取,获得目标坐标及旋转角度;
使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;具体包括:选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型,其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分;
使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
进一步地,获取吊装物体图像,具体包括:
采集吊装物体的视频,选取符合条件的图像,对图像中吊装物体进行标注,得到训练集,其中所述标注的信息是吊装物体的四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)。
进一步地,对训练集进行特征提取,获得目标坐标及旋转角度,具体包括:
将四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)转换为(x,y,w,h,θ),其中(x,y)表示目标框的几何中心,(w,h)为目标框的长边和短边,θ是旋转的角度。
进一步地,修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分,具体包括:
(5.1)修改YOLOv3 深度卷积神经网络中Anchor;
设计锚点R-Achor替换YOLO架构中的Anchor,R-Achor由(w,h,θ)三要素组成;YOLO架构中的Anchor是用k-means方法获得的聚类中心;R-Achor增加旋转尺度,为每个尺寸配置6个角度;
(5.2)修改YOLOv3 深度卷积神经网络中YOLO层的张量输出深度;
每个YOLO层的 3个尺度,6个角度的输出张量深度为3×6×(5+1+N),其中N为类别个数;
(5.3)修改YOLOv3 深度卷积神经网络中YOLO层输出;
YOLO层输出Bounding box的计算公式为:
其中,是bounding box的中心点坐标;是bounding box的宽、高和旋
转角度;是YOLO层输出张量中代表bounding box中心点坐标的分量;是
YOLO层输出张量中代表bounding box宽、高和旋转角度的分量;是特征图中grid
cell的坐标;sigmoid函数;是预设的R-Anchor映射到特征图中的
宽、高和旋转角度;
(5.4)修改YOLOv3 深度卷积神经网络中交并比计算;
交并比IOU计算公式为:
(5.5)修改YOLOv3 深度卷积神经网络中损失计算;
损失函数包含目标框损失、置信度损失和目标类别损失三部分;
进一步地,使用训练集对修改后的检测模型进行训练,获得训练好的检测模型,具体包括:
将所述训练集、目标坐标及旋转角度输入修改后的检测模型进行训练,预设训练次数;当达到预设训练次数或者网络模型收敛时,结束训练,得到训练好的检测模型。
第二方面,本发明实施例还提供一种吊装物体单阶检测装置,包括:
获取模块,用于获取吊装物体图像,作为训练集;
训练集预处理模块,用于对训练集进行特征提取,获得目标坐标及旋转角度;
搭建检测网络模块,用于使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;具体包括:选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型,其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分;
训练模块,用于使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
检测模块,用于使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
第三方面,本发明实施例还提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
第四方面,本发明实施例还提供一种计算机可读的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
根据以上技术方案,本发明的有益效果如下:
1. 本发明对训练集进行特征提取,获得目标坐标及旋转角度避免了人为手工设计特征;
2. 本发明使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型,设计了一种基于任意方向检测框的单阶段检测网络架构,与传统的基于水平框的检测框架相比,检测速度相当,保持了单阶段检测网络检测速度快的优势;
3. 本发明使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型,设计的R-Anchor更符合吊装物体的包络特征,可以更好地修正吊装物体区域,检测效果优于传统的水平框检测网络。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的一种吊装物体单阶检测方法的流程图;
图2为本发明实施例中坐标变换图;
图3为本发明实施例中旋转目标框图;
图4为本发明实施例中吊装物体旋转检测的示意图;
图5为本发明实施例提供的一种吊装物体单阶检测装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
图1为本发明实施例提供的一种吊装物体单阶检测方法的流程图;本实施例提供的一种吊装物体单阶检测方法,包括以下步骤:
步骤S101,获取吊装物体图像,作为训练集;
具体地,采集厂区和工地等作业场所中视频作为训练集素材,选取符合条件的图像,对图像中吊装物体进行标注得到训练集,其中所述标注的信息是吊装物体的四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4),如图2左侧所示。
采集厂区和工地等作业场所中视频作为训练集素材的原因是厂区和工地等作业场所中经常会吊装物体,有效数据比较集中,筛掉不含吊装物体的无效图片,获得有效图片进行标注;采用四个角点的标注信息的原因是:获得最贴合吊装物体包络的矩形。
步骤S102,对训练集进行特征提取,获得目标坐标及旋转角度;
具体地,将标注信息的四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)转换为(x,y,w,h,θ),如图2所示,
其中(x,y)表示目标框的几何中心,(w,h)为目标框的长边和短边,θ是旋转的角度。
变换坐标的原因是:1)真实框和预测框的相对角度更好计算:2)计算损失时的值会更少,方便模型训练;3)图像更容易进行扩充。
步骤S103,使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;
具体地,因为YOLOv3是目前深度卷积神经网络检测架构中精度与速度权衡最优的模型,本实施例选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型;按旋转框方式更新模型是本发明的核心;其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分,具体过程如下:
(5.1)修改YOLOv3 深度卷积神经网络中Anchor;
因为原YOLOv3架构中的Anchor不包含角度信息,与ground truth的IOU较低;本发明设计锚点R-Achor替换YOLOv3架构中的Anchor,R-Achor由(w,h,θ)三要素组成;结合方向收敛速度和计算效率选用了6个方向,分别是(-30,0,30,60,90,120);通过θ+k*180将θ的范围控制在[-30,120];
YOLOv3在3个不同尺度上进行3种Anchor预测。Anchor是用k-means方法获得目标框,然后均分给3个YOLO层,即每个YOLO层3个不同尺度;9个聚类结果为:(10,13);(16,30);(33,23);(30,61);(62,45);(59,119);(116,90);(156,198);(373,326);由于YOLOv3架构中的Anchor的长宽尺度基本包含了绝大部分物体的尺寸,本实施R-Achor延用Anchor的长宽尺寸;
结合上述的旋转角度和长宽尺寸,特征图上每个点将生成18个Bounding box,包含6个方向,3个尺度,基本包含了绝大部分物体的尺寸和旋转角度;实际使用中,R-Achor可按不同需求进行配置。
(5.2)修改YOLOv3 深度卷积神经网络中YOLO层的张量输出深度;
本发明为每个YOLO层设计了18个R-Achor,即特征图上每个点将生成18个Bounding
box,对应到YOLO层输出张量深度为3×6×(5+1+N),其中N为类别个数;3×6表示在特征图
上每个点处的对应的Bounding box数量;每个Bounding box包含的信息:1)每个框的位置
(5个参数,包括中心点坐标,框的宽、高和旋转角度;2)目标的置信度(1个
参数);3)N个类别的置信度(N个参数);这样设计的YOLO层张量信息与输出一一对应。
(5.3)修改YOLOv3 深度卷积神经网络中YOLO层输出;
YOLO层的输出张量并不是最后结果,想要得到预测框,还需要进行转换计算;本发明YOLO层输出Bounding box的计算公式为:
其中,是bounding box的中心点坐标;是bounding box的宽、高和旋
转角度;是YOLO层输出张量中代表bounding box中心点坐标的分量;是
YOLO层输出张量中代表bounding box宽、高和旋转角度的分量;是特征图中grid
cell的坐标;是预设的R-Anchor映射到特征图中的宽高和旋转角度;保持了YOLOv3的计算方式,sigmoid函数使输出区间限定
在0~1之间;为了实现简单,本发明中直接将与相加获得;这样,便得到了Bounding
box的全部信息。
(5.4)修改YOLOv3 深度卷积神经网络中交并比计算;
交并比IOU计算公式为:
本发明使用的是带有角度的旋转框,基于轴向候选框的IOU计算方法在本发明中不再适用,所以需要修改为基于旋转框的IOU计算方法;两个旋转矩形的IOU计算比轴向矩形复杂,因为它们可以以多种不同的方式相交;图3是两个旋转矩形相交的典型例子;如何求出重叠部分的面积是IOU计算的关键步骤;以下是两个旋转目标框的IOU计算的伪代码:
输入:两个目标框四个角的坐标
输出:IOU
3)确定重叠区域的顶点;
4)将上一步得到的多边形顶点按逆时针方向排序;
采用本发明的基于旋转框的IOU计算方法,能够更加准确的评价出检测模型产生的Bounding box与标注框的交叠率。
(5.5)修改YOLOv3 深度卷积神经网络中损失计算;
损失函数是用来衡量预测与实际数据的差距程度的,它是一个非负实函数;损失函数越小,模型的鲁棒性就越好;本发明中损失函数由目标框损失、置信度损失和目标类别损失三部分组成;其中目标框损失因为是旋转目标框,所以包含中心点损失,宽高损失,旋转角度损失三部分;
其中代表损失函数,代表目标框损失,采用GIOU损失计算方式,代表旋转
角度损失,采用smooth L1损失计算方式;代表置信度损失,代表目标类别置信度损
失,均采用二进制交叉熵损失计算方式;代表各损失的权重因子,分别设置为3.54,
64.3,37.4。
步骤S104,使用所述目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
将所述目标坐标及旋转角度输入修改后的检测模型进行训练,预设训练次数;当达到预设训练次数或者网络模型收敛时,结束训练,得到训练好的检测模型。
步骤S105,使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
输入测试视频图像,通过训练好的检测模型推理得到旋转角度的吊装物体的检测结果如图4所示,相对于水平框来说,带旋转角度的目标框更符合吊装物体的包络特征。
实施例2:
图5为本发明实施例提供的一种吊装物体单阶检测装置的框图,该装置可以执行任意本发明任意实施例所提供的一种吊装物体单阶检测方法,具备执行该方法相应的功能模块和有益效果。如图5所示,该装置包括:
获取模块901,用于获取吊装物体图像,作为训练集;
训练集预处理模块902,用于对训练集进行特征提取,获得目标坐标及旋转角度;
搭建检测网络模块903,用于使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;
训练模块904,用于使用所述目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
检测模块905,用于使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
实施例3:
本实施例提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如实施例1所述的方法。
实施例4:
本实施例提供一种计算机可读的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例1所述的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的设备实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种吊装物体单阶检测方法,其特征在于,包括:
获取吊装物体图像,作为训练集;
对训练集进行特征提取,获得目标坐标及旋转角度;
使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;具体包括:选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型,其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分;
使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
2.根据权利要求1所述的一种吊装物体单阶检测方法,其特征在于:获取吊装物体图像,具体包括:
采集吊装物体的视频,选取符合条件的图像,对图像中吊装物体进行标注,得到训练集,其中所述标注的信息是吊装物体的四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)。
3.根据权利要求1所述的一种吊装物体单阶检测方法,其特征在于:对训练集进行特征提取,获得目标坐标及旋转角度,具体包括:
将四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)转换为(x,y,w,h,θ),其中(x,y)表示目标框的几何中心,(w,h)为目标框的长边和短边,θ是旋转的角度。
4.根据权利要求1所述的一种吊装物体单阶检测方法,其特征在于:修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分,具体包括:
(5.1)修改YOLOv3 深度卷积神经网络中Anchor;
设计锚点R-Achor替换YOLO架构中的Anchor,R-Achor由(w,h,θ)三要素组成;YOLO架构中的Anchor是用k-means方法获得的聚类中心;R-Achor增加旋转尺度,为每个尺寸配置6个角度;
(5.2)修改YOLOv3 深度卷积神经网络中YOLO层的张量输出深度;
每个YOLO层的 3个尺度,6个角度的输出张量深度为3×6×(5+1+N),其中N为类别个数;
(5.3)修改YOLOv3 深度卷积神经网络中YOLO层输出;
YOLO层输出Bounding box的计算公式为:
其中,是bounding box的中心点坐标;是bounding box的宽、高和旋
转角度;是YOLO层输出张量中代表bounding box中心点坐标的分量;是
YOLO层输出张量中代表bounding box宽、高和旋转角度的分量;是特征图中grid
cell的坐标;sigmoid函数;是预设的R-Anchor映射到特征图中的
宽、高和旋转角度;
(5.4)修改YOLOv3 深度卷积神经网络中交并比计算;
交并比IOU计算公式为:
(5.5)修改YOLOv3 深度卷积神经网络中损失计算;
损失函数包含目标框损失、置信度损失和目标类别损失三部分;
5.根据权利要求1所述的一种吊装物体单阶检测方法,其特征在于:使用训练集对修改后的检测模型进行训练,获得训练好的检测模型,具体包括:
将所述训练集、目标坐标及旋转角度输入修改后的检测模型进行训练,预设训练次数;当达到预设训练次数或者网络模型收敛时,结束训练,得到训练好的检测模型。
6.一种吊装物体单阶检测装置,其特征在于,包括:
获取模块,用于获取吊装物体图像,作为训练集;
训练集预处理模块,用于对训练集进行特征提取,获得目标坐标及旋转角度;
搭建检测网络模块,用于使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;具体包括:选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型,其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分;
训练模块,用于使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
检测模块,用于使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5任一项所述的方法。
8.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011456486.1A CN112215308B (zh) | 2020-12-13 | 2020-12-13 | 一种吊装物体单阶检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011456486.1A CN112215308B (zh) | 2020-12-13 | 2020-12-13 | 一种吊装物体单阶检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215308A true CN112215308A (zh) | 2021-01-12 |
CN112215308B CN112215308B (zh) | 2021-03-30 |
Family
ID=74067968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011456486.1A Active CN112215308B (zh) | 2020-12-13 | 2020-12-13 | 一种吊装物体单阶检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215308B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468993A (zh) * | 2021-06-21 | 2021-10-01 | 天津大学 | 一种基于深度学习的遥感图像目标检测方法 |
CN113591810A (zh) * | 2021-09-28 | 2021-11-02 | 湖南大学 | 基于边界紧约束网络的车辆目标位姿检测方法、装置及存储介质 |
CN114611666A (zh) * | 2022-03-08 | 2022-06-10 | 安谋科技(中国)有限公司 | 一种nms函数的量化方法、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7613663B1 (en) * | 2002-09-30 | 2009-11-03 | Michael Lamport Commons | Intelligent control with hierarchal stacked neural networks |
CN109977943A (zh) * | 2019-02-14 | 2019-07-05 | 平安科技(深圳)有限公司 | 一种基于yolo的图像目标识别方法、系统和存储介质 |
CN110223302A (zh) * | 2019-05-08 | 2019-09-10 | 华中科技大学 | 一种基于旋转区域提取的舰船多目标检测方法 |
CN110766726A (zh) * | 2019-10-17 | 2020-02-07 | 重庆大学 | 复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法 |
CN111753682A (zh) * | 2020-06-11 | 2020-10-09 | 中建地下空间有限公司 | 一种基于目标检测算法的吊装区域动态监控方法 |
-
2020
- 2020-12-13 CN CN202011456486.1A patent/CN112215308B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7613663B1 (en) * | 2002-09-30 | 2009-11-03 | Michael Lamport Commons | Intelligent control with hierarchal stacked neural networks |
CN109977943A (zh) * | 2019-02-14 | 2019-07-05 | 平安科技(深圳)有限公司 | 一种基于yolo的图像目标识别方法、系统和存储介质 |
CN110223302A (zh) * | 2019-05-08 | 2019-09-10 | 华中科技大学 | 一种基于旋转区域提取的舰船多目标检测方法 |
CN110766726A (zh) * | 2019-10-17 | 2020-02-07 | 重庆大学 | 复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法 |
CN111753682A (zh) * | 2020-06-11 | 2020-10-09 | 中建地下空间有限公司 | 一种基于目标检测算法的吊装区域动态监控方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468993A (zh) * | 2021-06-21 | 2021-10-01 | 天津大学 | 一种基于深度学习的遥感图像目标检测方法 |
CN113468993B (zh) * | 2021-06-21 | 2022-08-26 | 天津大学 | 一种基于深度学习的遥感图像目标检测方法 |
CN113591810A (zh) * | 2021-09-28 | 2021-11-02 | 湖南大学 | 基于边界紧约束网络的车辆目标位姿检测方法、装置及存储介质 |
CN114611666A (zh) * | 2022-03-08 | 2022-06-10 | 安谋科技(中国)有限公司 | 一种nms函数的量化方法、电子设备及介质 |
CN114611666B (zh) * | 2022-03-08 | 2024-05-31 | 安谋科技(中国)有限公司 | 一种nms函数的量化方法、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112215308B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215308B (zh) | 一种吊装物体单阶检测方法、装置、电子设备及存储介质 | |
CN108764048B (zh) | 人脸关键点检测方法及装置 | |
CN111665842B (zh) | 一种基于语义信息融合的室内slam建图方法及系统 | |
CN114782626B (zh) | 基于激光与视觉融合的变电站场景建图及定位优化方法 | |
CN112489099B (zh) | 点云配准方法、装置、存储介质及电子设备 | |
CN114332385A (zh) | 一种基于三维虚拟地理场景的单目相机目标检测与空间定位方法 | |
WO2023109664A1 (zh) | 监测方法和相关产品 | |
CN112509126B (zh) | 三维物体检测的方法、装置、设备及存储介质 | |
CN118154603B (zh) | 基于级联多层特征融合网络的显示屏缺陷检测方法及系统 | |
CN112991459A (zh) | 一种相机标定方法、装置、设备以及存储介质 | |
CN115719436A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN117173791A (zh) | 一种基于动作识别的配网施工人员违规检测方法及系统 | |
CN114565842A (zh) | 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统 | |
CN114549780B (zh) | 一种基于点云数据的大型复杂构件智能化检测方法 | |
CN112102342A (zh) | 平面轮廓识别方法、装置、计算机设备和存储介质 | |
CN116844124A (zh) | 三维目标检测框标注方法、装置、电子设备和存储介质 | |
US20210304411A1 (en) | Map construction method, apparatus, storage medium and electronic device | |
CN113723389A (zh) | 一种支柱式绝缘子定位方法及装置 | |
CN115902977A (zh) | 基于视觉和gps的变电站机器人双重定位方法及系统 | |
CN115982824A (zh) | 施工现场工人空间管理方法、装置、电子设备及存储介质 | |
CN116091709A (zh) | 建筑物的三维重建方法、装置、电子设备和存储介质 | |
CN114549825A (zh) | 目标检测方法、装置、电子设备与存储介质 | |
CN111028264B (zh) | 一种旋转鲁棒的三维物体检测优化方法及装置 | |
CN113554882A (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN115731256A (zh) | 一种顶点坐标的检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |