CN112215308B - 一种吊装物体单阶检测方法、装置、电子设备及存储介质 - Google Patents

一种吊装物体单阶检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112215308B
CN112215308B CN202011456486.1A CN202011456486A CN112215308B CN 112215308 B CN112215308 B CN 112215308B CN 202011456486 A CN202011456486 A CN 202011456486A CN 112215308 B CN112215308 B CN 112215308B
Authority
CN
China
Prior art keywords
loss
anchor
yolo
neural network
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011456486.1A
Other languages
English (en)
Other versions
CN112215308A (zh
Inventor
徐芬
黎晨阳
张逸
张文广
王军
徐晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202011456486.1A priority Critical patent/CN112215308B/zh
Publication of CN112215308A publication Critical patent/CN112215308A/zh
Application granted granted Critical
Publication of CN112215308B publication Critical patent/CN112215308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种吊装物体单阶检测方法、装置、电子设备及存储介质,该方法包括:获取吊装物体图像,作为训练集;对训练集进行特征提取,获得目标坐标及旋转角度;使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。本发明实现方法简单,可移植性强,能够实现对监控摄像头拍摄的厂区、工地等作业场所中吊装物体的精准检测。

Description

一种吊装物体单阶检测方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机视觉领域,尤其涉及一种吊装物体单阶检测方法、装置、电子设备及存储介质。
背景技术
在厂区和工地等作业场所中,设备搬运吊装是一项危险系数比较大的工作,因此在吊装作业中,要求各工作人员必须严格遵守安全操作规则,与吊装物体保持安全距离。但采用人工监管的方式耗时费力且难度较大,这导致由于施工人员不遵守安全规则而引发的安全事故时有发生。针对这个问题,采用智能化的手段来识别吊装物体与施工人员是否保持安全距离具有极大的必要性。其中,精确的定位吊装物体与施工人员是这项技术的关键。
近些年来,深度学习飞速发展,基于深度卷积神经网络的目标检测方法被应用于解决吊装物体检测定位的问题。这类方法检测出来的吊装物体目标框都是与坐标轴平行的矩形框。但在实际施工环境下,存在着场景复杂多变、目标旋转、目标形状不确定等极具挑战性的问题,若仍将与坐标轴平行的矩形框作为最终目标框,就与真实物体形状存在较大偏差,使得检测定位难以取得较高的准确率。并且,采用与坐标轴平行的矩形框还会对非极大值抑制(NMS)结果产生影响,进一步降低检测准确率。
发明内容
本发明实施例的目的是提供一种吊装物体单阶检测方法、装置、电子设备及存储介质,以解决现有检测准确率低的问题。
为了达到上述目的,本发明实施例所采用的技术方案如下:
第一方面,本发明实施例提供一种吊装物体单阶检测方法,包括:
获取吊装物体图像,作为训练集;
对训练集进行特征提取,获得目标坐标及旋转角度;
使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;具体包括:选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型,其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分;
使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
进一步地,获取吊装物体图像,具体包括:
采集吊装物体的视频,选取符合条件的图像,对图像中吊装物体进行标注,得到训练集,其中所述标注的信息是吊装物体的四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)。
进一步地,对训练集进行特征提取,获得目标坐标及旋转角度,具体包括:
将四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)转换为(x,y,w,h,θ),其中(x,y)表示目标框的几何中心,(w,h)为目标框的长边和短边,θ是旋转的角度。
进一步地,修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分,具体包括:
(5.1)修改YOLOv3 深度卷积神经网络中Anchor;
设计锚点R-Anchor替换YOLO架构中的Anchor,R-Anchor由(w,h,θ)三要素组成;YOLO架构中的Anchor是用k-means方法获得的聚类中心;R-Anchor增加旋转尺度,为每个尺寸配置6个角度;
(5.2)修改YOLOv3 深度卷积神经网络中YOLO层的张量输出深度;
每个YOLO层的 3个尺度,6个角度的输出张量深度为3×6×(5+1+N),其中N为类别个数;
(5.3)修改YOLOv3 深度卷积神经网络中YOLO层输出;
YOLO层输出Bounding box的计算公式为:
Figure 100002_DEST_PATH_IMAGE001
Figure 100002_DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
Figure 100002_DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE005
其中,
Figure 100002_DEST_PATH_IMAGE006
是bounding box的中心点坐标;
Figure 100002_DEST_PATH_IMAGE007
是bounding box的宽、高 和旋转角度;
Figure 100002_DEST_PATH_IMAGE008
是YOLO层输出张量中代表bounding box中心点坐标的分量;
Figure 100002_DEST_PATH_IMAGE009
是YOLO层输出张量中代表bounding box宽、高和旋转角度的分量;
Figure 100002_DEST_PATH_IMAGE010
是特征图中grid cell的坐标;sigmoid函数
Figure 100002_DEST_PATH_IMAGE011
Figure 100002_DEST_PATH_IMAGE012
是预设的R-Anchor映射到特征图中的 宽、高和旋转角度;
(5.4)修改YOLOv3 深度卷积神经网络中交并比计算;
交并比IOU计算公式为:
Figure 100002_DEST_PATH_IMAGE013
其中
Figure 100002_DEST_PATH_IMAGE014
Figure 100002_DEST_PATH_IMAGE015
分别是两个目标框的位置坐标,∩和∪表示两个目标框的交集 和并集中所包含的像素量;
(5.5)修改YOLOv3 深度卷积神经网络中损失计算;
损失函数包含目标框损失、置信度损失和目标类别损失三部分;
Figure 100002_DEST_PATH_IMAGE016
其中
Figure 100002_DEST_PATH_IMAGE017
代表损失函数,
Figure 100002_DEST_PATH_IMAGE018
代表目标框损失,采用GIOU损失计算方式,
Figure 100002_DEST_PATH_IMAGE019
代表 旋转角度损失,采用smooth L1损失计算方式;
Figure 100002_DEST_PATH_IMAGE020
代表置信度损失,
Figure 100002_DEST_PATH_IMAGE021
代表目标类别置信 度损失;
Figure 100002_DEST_PATH_IMAGE022
代表各损失的权重因子。
进一步地,使用训练集对修改后的检测模型进行训练,获得训练好的检测模型,具体包括:
将所述训练集、目标坐标及旋转角度输入修改后的检测模型进行训练,预设训练次数;当达到预设训练次数或者网络模型收敛时,结束训练,得到训练好的检测模型。
第二方面,本发明实施例还提供一种吊装物体单阶检测装置,包括:
获取模块,用于获取吊装物体图像,作为训练集;
训练集预处理模块,用于对训练集进行特征提取,获得目标坐标及旋转角度;
搭建检测网络模块,用于使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;具体包括:选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型,其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分;
训练模块,用于使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
检测模块,用于使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
第三方面,本发明实施例还提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
第四方面,本发明实施例还提供一种计算机可读的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
根据以上技术方案,本发明的有益效果如下:
1. 本发明对训练集进行特征提取,获得目标坐标及旋转角度避免了人为手工设计特征;
2. 本发明使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型,设计了一种基于任意方向检测框的单阶段检测网络架构,与传统的基于水平框的检测框架相比,检测速度相当,保持了单阶段检测网络检测速度快的优势;
3. 本发明使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型,设计的R-Anchor更符合吊装物体的包络特征,可以更好地修正吊装物体区域,检测效果优于传统的水平框检测网络。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的一种吊装物体单阶检测方法的流程图;
图2为本发明实施例中坐标变换图;
图3为本发明实施例中旋转目标框图;
图4为本发明实施例中吊装物体旋转检测的示意图;
图5为本发明实施例提供的一种吊装物体单阶检测装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
图1为本发明实施例提供的一种吊装物体单阶检测方法的流程图;本实施例提供的一种吊装物体单阶检测方法,包括以下步骤:
步骤S101,获取吊装物体图像,作为训练集;
具体地,采集厂区和工地等作业场所中视频作为训练集素材,选取符合条件的图像,对图像中吊装物体进行标注得到训练集,其中所述标注的信息是吊装物体的四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4),如图2左侧所示。
采集厂区和工地等作业场所中视频作为训练集素材的原因是厂区和工地等作业场所中经常会吊装物体,有效数据比较集中,筛掉不含吊装物体的无效图片,获得有效图片进行标注;采用四个角点的标注信息的原因是:获得最贴合吊装物体包络的矩形。
步骤S102,对训练集进行特征提取,获得目标坐标及旋转角度;
具体地,将标注信息的四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)转换为(x,y,w,h,θ),如图2所示,
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
其中(x,y)表示目标框的几何中心,(w,h)为目标框的长边和短边,θ是旋转的角度。
变换坐标的原因是:1)真实框和预测框的相对角度更好计算:2)计算损时的值会更少,方便模型训练;3)图像更容易进行扩充。
步骤S103,使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;
具体地,因为YOLOv3是目前深度卷积神经网络检测架构中精度与速度权衡最优的模型,本实施例选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型;按旋转框方式更新模型是本发明的核心;其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分,具体过程如下:
(5.1)修改YOLOv3 深度卷积神经网络中Anchor;
因为原YOLOv3架构中的Anchor不包含角度信息,与ground truth的IOU较低;本发明设计锚点R-Anchor替换YOLOv3架构中的Anchor,R-Anchor由(w,h,θ)三要素组成;结合方向收敛速度和计算效率选用了6个方向,分别是(-30,0,30,60,90,120);通过θ+k*180将θ的范围控制在[-30,120];
YOLOv3在3个不同尺度上进行3种Anchor预测。Anchor是用k-means方法获得目标框,然后均分给3个YOLO层,即每个YOLO层3个不同尺度;9个聚类结果为:(10,13);(16,30);(33,23);(30,61);(62,45);(59,119);(116,90);(156,198);(373,326);由于YOLOv3架构中的Anchor的长宽尺度基本包含了绝大部分物体的尺寸,本实施R-Anchor延用Anchor的长宽尺寸;
结合上述的旋转角度和长宽尺寸,特征图上每个点将生成18个Bounding box,包含6个方向,3个尺度,基本包含了绝大部分物体的尺寸和旋转角度;实际使用中,R-Anchor可按不同需求进行配置。
(5.2)修改YOLOv3 深度卷积神经网络中YOLO层的张量输出深度;
本发明为每个YOLO层设计了18个R-Anchor,即特征图上每个点将生成18个 Bounding box,对应到YOLO层输出张量深度为3×6×(5+1+N),其中N为类别个数;3×6表示 在特征图上每个点处的对应的Bounding box数量;每个Bounding box包含的信息:1)每个 框的位置(5个参数,包括中心点坐标
Figure 572247DEST_PATH_IMAGE008
,框的宽、高和旋转角度
Figure 551704DEST_PATH_IMAGE009
;2)目标的置 信度(1个参数);3)N个类别的置信度(N个参数);这样设计的YOLO层张量信息与输出一一对 应。
(5.3)修改YOLOv3 深度卷积神经网络中YOLO层输出;
YOLO层的输出张量并不是最后结果,想要得到预测框,还需要进行转换计算;本发明YOLO层输出Bounding box的计算公式为:
Figure 174184DEST_PATH_IMAGE001
Figure 303814DEST_PATH_IMAGE002
Figure 914924DEST_PATH_IMAGE003
Figure 81594DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE029
是bounding box的中心点坐标;
Figure 722529DEST_PATH_IMAGE007
是bounding box的宽、高 和旋转角度;
Figure 390271DEST_PATH_IMAGE008
是YOLO层输出张量中代表bounding box中心点坐标的分量;
Figure 918204DEST_PATH_IMAGE009
是YOLO层输出张量中代表bounding box宽、高和旋转角度的分量;
Figure 724617DEST_PATH_IMAGE010
是特征图中grid cell的坐标;
Figure 947788DEST_PATH_IMAGE012
是预设的R-Anchor映射到特征图中的宽高和旋转角度;
Figure DEST_PATH_IMAGE030
保持了YOLOv3的计算方式,sigmoid函数
Figure 324281DEST_PATH_IMAGE011
使
Figure 582087DEST_PATH_IMAGE008
输出区间限 定在0~1之间;为了实现简单,本发明中
Figure DEST_PATH_IMAGE031
直接将
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
相加获得;这样,便得到了 Bounding box的全部信息。
(5.4)修改YOLOv3 深度卷积神经网络中交并比计算;
交并比IOU计算公式为:
Figure 684035DEST_PATH_IMAGE013
其中
Figure 237245DEST_PATH_IMAGE014
Figure 371423DEST_PATH_IMAGE015
分别是两个目标框的位置坐标,∩和∪表示两个目标框的交集 和并集中所包含的像素量;
本发明使用的是带有角度的旋转框,基于轴向候选框的IOU计算方法在本发明中不再适用,所以需要修改为基于旋转框的IOU计算方法;两个旋转矩形的IOU计算比轴向矩形复杂,因为它们可以以多种不同的方式相交;图3是两个旋转矩形相交的典型例子;如何求出重叠部分的面积是IOU计算的关键步骤;以下是两个旋转目标框的IOU计算的伪代码:
输入:两个目标框四个角的坐标
输出:IOU
1)计算框1的面积:
Figure DEST_PATH_IMAGE034
2)计算框2的面积:
Figure DEST_PATH_IMAGE035
3)确定重叠区域的顶点;
4)将上一步得到的多边形顶点按逆时针方向排序;
5)计算两个旋转矩形框相交部分的面积
Figure DEST_PATH_IMAGE036
6)计算IOU,
Figure DEST_PATH_IMAGE037
采用本发明的基于旋转框的IOU计算方法,能够更加准确的评价出检测模型产生的Bounding box与标注框的交叠率。
(5.5)修改YOLOv3 深度卷积神经网络中损失计算;
损失函数是用来衡量预测与实际数据的差距程度的,它是一个非负实函数;损失函数越小,模型的鲁棒性就越好;本发明中损失函数由目标框损失、置信度损失和目标类别损失三部分组成;其中目标框损失因为是旋转目标框,所以包含中心点损失,宽高损失,旋转角度损失三部分;
Figure DEST_PATH_IMAGE038
其中
Figure 264161DEST_PATH_IMAGE017
代表损失函数,
Figure 412377DEST_PATH_IMAGE018
代表目标框损失,采用GIOU损失计算方式,
Figure 938036DEST_PATH_IMAGE019
代表 旋转角度损失,采用smooth L1损失计算方式;
Figure DEST_PATH_IMAGE039
代表置信度损失,
Figure 797277DEST_PATH_IMAGE021
代表目标类别置信 度损失,均采用二进制交叉熵损失计算方式;
Figure 154309DEST_PATH_IMAGE022
代表各损失的权重因子,分别设置为 3.54,64.3,37.4。
步骤S104,使用所述目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
将所述目标坐标及旋转角度输入修改后的检测模型进行训练,预设训练次数;当达到预设训练次数或者网络模型收敛时,结束训练,得到训练好的检测模型。
步骤S105,使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
输入测试视频图像,通过训练好的检测模型推理得到旋转角度的吊装物体的检测结果如图4所示,相对于水平框来说,带旋转角度的目标框更符合吊装物体的包络特征。
实施例2:
图5为本发明实施例提供的一种吊装物体单阶检测装置的框图,该装置可以执行任意本发明任意实施例所提供的一种吊装物体单阶检测方法,具备执行该方法相应的功能模块和有益效果。如图5所示,该装置包括:
获取模块901,用于获取吊装物体图像,作为训练集;
训练集预处理模块902,用于对训练集进行特征提取,获得目标坐标及旋转角度;
搭建检测网络模块903,用于使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;
训练模块904,用于使用所述目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
检测模块905,用于使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果。
实施例3:
本实施例提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如实施例1所述的方法。
实施例4:
本实施例提供一种计算机可读的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例1所述的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的设备实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种吊装物体单阶检测方法,其特征在于,包括:
获取吊装物体图像,作为训练集;
对训练集进行特征提取,获得目标坐标及旋转角度;
使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;具体包括:选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型,其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分;
使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果;
其中,修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分,具体包括:
(5.1)修改YOLOv3 深度卷积神经网络中Anchor;
设计锚点R-Anchor替换YOLO架构中的Anchor,R-Anchor由(w,h,θ)三要素组成;YOLO架构中的Anchor是用k-means方法获得的聚类中心;R-Anchor增加旋转尺度,为每个尺寸配置6个角度;
(5.2)修改YOLOv3 深度卷积神经网络中YOLO层的张量输出深度;
每个YOLO层的 3个尺度,6个角度的输出张量深度为3×6×(5+1+N),其中N为类别个数;
(5.3)修改YOLOv3 深度卷积神经网络中YOLO层输出;
YOLO层输出Bounding box的计算公式为:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
其中,
Figure DEST_PATH_IMAGE006
是bounding box的中心点坐标;
Figure DEST_PATH_IMAGE007
是bounding box的宽、高和旋 转角度;
Figure DEST_PATH_IMAGE008
是YOLO层输出张量中代表bounding box中心点坐标的分量;
Figure DEST_PATH_IMAGE009
是 YOLO层输出张量中代表bounding box宽、高和旋转角度的分量;
Figure DEST_PATH_IMAGE010
是特征图中grid cell的坐标;sigmoid函数
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
是预设的R-Anchor映射到特征图中的 宽、高和旋转角度;
(5.4)修改YOLOv3 深度卷积神经网络中交并比计算;
交并比IOU计算公式为:
Figure DEST_PATH_IMAGE013
其中
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
分别是两个目标框的位置坐标,∩和∪表示两个目标框的交集和并 集中所包含的像素量;
(5.5)修改YOLOv3 深度卷积神经网络中损失计算;
损失函数包含目标框损失、置信度损失和目标类别损失三部分;
Figure DEST_PATH_IMAGE016
其中
Figure DEST_PATH_IMAGE017
代表损失函数,
Figure DEST_PATH_IMAGE018
代表目标框损失,采用GIOU损失计算方式,
Figure DEST_PATH_IMAGE019
代表旋转 角度损失,采用smooth L1损失计算方式;
Figure DEST_PATH_IMAGE020
代表置信度损失,
Figure DEST_PATH_IMAGE021
代表目标类别置信度损 失;
Figure DEST_PATH_IMAGE022
代表各损失的权重因子。
2.根据权利要求1所述的一种吊装物体单阶检测方法,其特征在于:获取吊装物体图像,具体包括:
采集吊装物体的视频,选取符合条件的图像,对图像中吊装物体进行标注,得到训练集,其中所述标注的信息是吊装物体的四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)。
3.根据权利要求1所述的一种吊装物体单阶检测方法,其特征在于:对训练集进行特征提取,获得目标坐标及旋转角度,具体包括:
将四个角点坐标(x1,y1,x2,y2,x3,y3,x4,y4)转换为(x,y,w,h,θ),其中(x,y)表示目标框的几何中心,(w,h)为目标框的长边和短边,θ是旋转的角度。
4.根据权利要求1所述的一种吊装物体单阶检测方法,其特征在于:使用训练集对修改后的检测模型进行训练,获得训练好的检测模型,具体包括:
将所述训练集、目标坐标及旋转角度输入修改后的检测模型进行训练,预设训练次数;当达到预设训练次数或者网络模型收敛时,结束训练,得到训练好的检测模型。
5.一种吊装物体单阶检测装置,其特征在于,包括:
获取模块,用于获取吊装物体图像,作为训练集;
训练集预处理模块,用于对训练集进行特征提取,获得目标坐标及旋转角度;
搭建检测网络模块,用于使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构,并按旋转框方式修改检测模型;具体包括:选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构,按旋转框方式修改检测模型,其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分;
训练模块,用于使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练,获得训练好的检测模型;
检测模块,用于使用训练好的检测模型对待检测的图像进行检测,获得图像中带旋转角度的吊装物体的检测结果;
其中,修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分,具体包括:
(5.1)修改YOLOv3 深度卷积神经网络中Anchor;
设计锚点R-Anchor替换YOLO架构中的Anchor,R-Anchor由(w,h,θ)三要素组成;YOLO架构中的Anchor是用k-means方法获得的聚类中心;R-Anchor增加旋转尺度,为每个尺寸配置6个角度;
(5.2)修改YOLOv3 深度卷积神经网络中YOLO层的张量输出深度;
每个YOLO层的 3个尺度,6个角度的输出张量深度为3×6×(5+1+N),其中N为类别个数;
(5.3)修改YOLOv3 深度卷积神经网络中YOLO层输出;
YOLO层输出Bounding box的计算公式为:
Figure 90603DEST_PATH_IMAGE001
Figure 555214DEST_PATH_IMAGE002
Figure 803792DEST_PATH_IMAGE003
Figure 792477DEST_PATH_IMAGE004
Figure 918434DEST_PATH_IMAGE005
其中,
Figure 475317DEST_PATH_IMAGE006
是bounding box的中心点坐标;
Figure 539088DEST_PATH_IMAGE007
是bounding box的宽、高和旋 转角度;
Figure 347775DEST_PATH_IMAGE008
是YOLO层输出张量中代表bounding box中心点坐标的分量;
Figure 485495DEST_PATH_IMAGE009
是 YOLO层输出张量中代表bounding box宽、高和旋转角度的分量;
Figure 72334DEST_PATH_IMAGE010
是特征图中grid cell的坐标;sigmoid函数
Figure 138248DEST_PATH_IMAGE011
Figure 344102DEST_PATH_IMAGE012
是预设的R-Anchor映射到特征图中的 宽、高和旋转角度;
(5.4)修改YOLOv3 深度卷积神经网络中交并比计算;
交并比IOU计算公式为:
Figure 460962DEST_PATH_IMAGE013
其中
Figure 703856DEST_PATH_IMAGE014
Figure 414323DEST_PATH_IMAGE015
分别是两个目标框的位置坐标,∩和∪表示两个目标框的交集和并 集中所包含的像素量;
(5.5)修改YOLOv3 深度卷积神经网络中损失计算;
损失函数包含目标框损失、置信度损失和目标类别损失三部分;
Figure 282922DEST_PATH_IMAGE016
其中
Figure 972398DEST_PATH_IMAGE017
代表损失函数,
Figure 369881DEST_PATH_IMAGE018
代表目标框损失,采用GIOU损失计算方式,
Figure 567644DEST_PATH_IMAGE019
代表旋转 角度损失,采用smooth L1损失计算方式;
Figure 990667DEST_PATH_IMAGE020
代表置信度损失,
Figure 957486DEST_PATH_IMAGE021
代表目标类别置信度损 失;
Figure 588187DEST_PATH_IMAGE022
代表各损失的权重因子。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一项所述的方法。
7.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN202011456486.1A 2020-12-13 2020-12-13 一种吊装物体单阶检测方法、装置、电子设备及存储介质 Active CN112215308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011456486.1A CN112215308B (zh) 2020-12-13 2020-12-13 一种吊装物体单阶检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011456486.1A CN112215308B (zh) 2020-12-13 2020-12-13 一种吊装物体单阶检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112215308A CN112215308A (zh) 2021-01-12
CN112215308B true CN112215308B (zh) 2021-03-30

Family

ID=74067968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011456486.1A Active CN112215308B (zh) 2020-12-13 2020-12-13 一种吊装物体单阶检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112215308B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468993B (zh) * 2021-06-21 2022-08-26 天津大学 一种基于深度学习的遥感图像目标检测方法
CN113591810B (zh) * 2021-09-28 2021-12-07 湖南大学 基于边界紧约束网络的车辆目标位姿检测方法、装置及存储介质
CN114611666B (zh) * 2022-03-08 2024-05-31 安谋科技(中国)有限公司 一种nms函数的量化方法、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613663B1 (en) * 2002-09-30 2009-11-03 Michael Lamport Commons Intelligent control with hierarchal stacked neural networks
CN109977943A (zh) * 2019-02-14 2019-07-05 平安科技(深圳)有限公司 一种基于yolo的图像目标识别方法、系统和存储介质
CN110766726A (zh) * 2019-10-17 2020-02-07 重庆大学 复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法
CN111753682A (zh) * 2020-06-11 2020-10-09 中建地下空间有限公司 一种基于目标检测算法的吊装区域动态监控方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223302B (zh) * 2019-05-08 2021-11-19 华中科技大学 一种基于旋转区域提取的舰船多目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613663B1 (en) * 2002-09-30 2009-11-03 Michael Lamport Commons Intelligent control with hierarchal stacked neural networks
CN109977943A (zh) * 2019-02-14 2019-07-05 平安科技(深圳)有限公司 一种基于yolo的图像目标识别方法、系统和存储介质
CN110766726A (zh) * 2019-10-17 2020-02-07 重庆大学 复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法
CN111753682A (zh) * 2020-06-11 2020-10-09 中建地下空间有限公司 一种基于目标检测算法的吊装区域动态监控方法

Also Published As

Publication number Publication date
CN112215308A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN112215308B (zh) 一种吊装物体单阶检测方法、装置、电子设备及存储介质
CN108764048B (zh) 人脸关键点检测方法及装置
CN109544677B (zh) 基于深度图像关键帧的室内场景主结构重建方法及系统
CN111665842B (zh) 一种基于语义信息融合的室内slam建图方法及系统
Kamari et al. AI-based risk assessment for construction site disaster preparedness through deep learning-based digital twinning
CN114782626B (zh) 基于激光与视觉融合的变电站场景建图及定位优化方法
CN113052109A (zh) 一种3d目标检测系统及其3d目标检测方法
Zhou et al. Image-based onsite object recognition for automatic crane lifting tasks
CN112489099B (zh) 点云配准方法、装置、存储介质及电子设备
CN114332385A (zh) 一种基于三维虚拟地理场景的单目相机目标检测与空间定位方法
CN111583381B (zh) 游戏资源图的渲染方法、装置及电子设备
US20220004740A1 (en) Apparatus and Method For Three-Dimensional Object Recognition
WO2023109664A1 (zh) 监测方法和相关产品
CN112991459A (zh) 一种相机标定方法、装置、设备以及存储介质
CN112102342A (zh) 平面轮廓识别方法、装置、计算机设备和存储介质
EP3825804A1 (en) Map construction method, apparatus, storage medium and electronic device
CN113269147B (zh) 基于空间和形状的三维检测方法、系统、存储及处理装置
CN113723389A (zh) 一种支柱式绝缘子定位方法及装置
CN116844124A (zh) 三维目标检测框标注方法、装置、电子设备和存储介质
CN114549780B (zh) 一种基于点云数据的大型复杂构件智能化检测方法
CN116091709A (zh) 建筑物的三维重建方法、装置、电子设备和存储介质
CN115902977A (zh) 基于视觉和gps的变电站机器人双重定位方法及系统
CN115982824A (zh) 施工现场工人空间管理方法、装置、电子设备及存储介质
CN114549825A (zh) 目标检测方法、装置、电子设备与存储介质
CN113554882A (zh) 用于输出信息的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant