CN112215308A

CN112215308A - 一种吊装物体单阶检测方法、装置、电子设备及存储介质

Info

Publication number: CN112215308A
Application number: CN202011456486.1A
Authority: CN
Inventors: 徐芬; 黎晨阳; 张逸; 张文广; 王军; 徐晓刚
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-12-13
Filing date: 2020-12-13
Publication date: 2021-01-12
Anticipated expiration: 2040-12-13
Also published as: CN112215308B

Abstract

本发明公开了一种吊装物体单阶检测方法、装置、电子设备及存储介质，该方法包括：获取吊装物体图像，作为训练集；对训练集进行特征提取，获得目标坐标及旋转角度；使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构，并按旋转框方式修改检测模型；使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练，获得训练好的检测模型；使用训练好的检测模型对待检测的图像进行检测，获得图像中带旋转角度的吊装物体的检测结果。本发明实现方法简单，可移植性强，能够实现对监控摄像头拍摄的厂区、工地等作业场所中吊装物体的精准检测。

Description

一种吊装物体单阶检测方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种吊装物体单阶检测方法、装置、电子设备及存储介质。

背景技术

在厂区和工地等作业场所中，设备搬运吊装是一项危险系数比较大的工作，因此在吊装作业中，要求各工作人员必须严格遵守安全操作规则，与吊装物体保持安全距离。但采用人工监管的方式耗时费力且难度较大，这导致由于施工人员不遵守安全规则而引发的安全事故时有发生。针对这个问题，采用智能化的手段来识别吊装物体与施工人员是否保持安全距离具有极大的必要性。其中，精确的定位吊装物体与施工人员是这项技术的关键。

近些年来，深度学习飞速发展，基于深度卷积神经网络的目标检测方法被应用于解决吊装物体检测定位的问题。这类方法检测出来的吊装物体目标框都是与坐标轴平行的矩形框。但在实际施工环境下，存在着场景复杂多变、目标旋转、目标形状不确定等极具挑战性的问题，若仍将与坐标轴平行的矩形框作为最终目标框，就与真实物体形状存在较大偏差，使得检测定位难以取得较高的准确率。并且，采用与坐标轴平行的矩形框还会对非极大值抑制（NMS）结果产生影响，进一步降低检测准确率。

发明内容

本发明实施例的目的是提供一种吊装物体单阶检测方法、装置、电子设备及存储介质，以解决现有检测准确率低的问题。

为了达到上述目的，本发明实施例所采用的技术方案如下：

第一方面，本发明实施例提供一种吊装物体单阶检测方法，包括：

获取吊装物体图像，作为训练集；

对训练集进行特征提取，获得目标坐标及旋转角度；

使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构，并按旋转框方式修改检测模型；具体包括：选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构，按旋转框方式修改检测模型，其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分；

使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练，获得训练好的检测模型；

使用训练好的检测模型对待检测的图像进行检测，获得图像中带旋转角度的吊装物体的检测结果。

进一步地，获取吊装物体图像，具体包括：

采集吊装物体的视频，选取符合条件的图像，对图像中吊装物体进行标注，得到训练集，其中所述标注的信息是吊装物体的四个角点坐标（x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄）。

进一步地，对训练集进行特征提取，获得目标坐标及旋转角度，具体包括：

将四个角点坐标（x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄）转换为（x,y,w,h,θ），其中（x,y）表示目标框的几何中心，（w,h）为目标框的长边和短边，θ是旋转的角度。

进一步地，修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分，具体包括：

（5.1）修改YOLOv3 深度卷积神经网络中Anchor；

设计锚点R-Achor替换YOLO架构中的Anchor，R-Achor由（w,h,θ）三要素组成；YOLO架构中的Anchor是用k-means方法获得的聚类中心；R-Achor增加旋转尺度，为每个尺寸配置6个角度；

（5.2）修改YOLOv3 深度卷积神经网络中YOLO层的张量输出深度；

每个YOLO层的 3个尺度，6个角度的输出张量深度为3×6×(5+1+N)，其中N为类别个数；

（5.3）修改YOLOv3 深度卷积神经网络中YOLO层输出；

YOLO层输出Bounding box的计算公式为：

其中，

是bounding box的中心点坐标；

是bounding box的宽、高和旋转角度；

是YOLO层输出张量中代表bounding box中心点坐标的分量；

是 YOLO层输出张量中代表bounding box宽、高和旋转角度的分量；

是特征图中grid cell的坐标；sigmoid函数

；

是预设的R-Anchor映射到特征图中的宽、高和旋转角度；

（5.4）修改YOLOv3 深度卷积神经网络中交并比计算；

交并比IOU计算公式为：

其中

与

分别是两个目标框的位置坐标，∩和∪表示两个目标框的交集和并集中所包含的像素量；

（5.5）修改YOLOv3 深度卷积神经网络中损失计算；

损失函数包含目标框损失、置信度损失和目标类别损失三部分；

其中

代表损失函数，

代表目标框损失,采用GIOU损失计算方式，

代表旋转角度损失，采用smooth L1损失计算方式；

代表置信度损失，

代表目标类别置信度损失；

代表各损失的权重因子。

进一步地，使用训练集对修改后的检测模型进行训练，获得训练好的检测模型，具体包括：

将所述训练集、目标坐标及旋转角度输入修改后的检测模型进行训练，预设训练次数；当达到预设训练次数或者网络模型收敛时，结束训练，得到训练好的检测模型。

第二方面，本发明实施例还提供一种吊装物体单阶检测装置，包括：

获取模块，用于获取吊装物体图像，作为训练集；

训练集预处理模块，用于对训练集进行特征提取，获得目标坐标及旋转角度；

搭建检测网络模块，用于使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构，并按旋转框方式修改检测模型；具体包括：选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构，按旋转框方式修改检测模型，其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分；

训练模块，用于使用所述训练集、目标坐标及旋转角度对修改后的检测模型进行训练，获得训练好的检测模型；

检测模块，用于使用训练好的检测模型对待检测的图像进行检测，获得图像中带旋转角度的吊装物体的检测结果。

第三方面，本发明实施例还提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

第四方面，本发明实施例还提供一种计算机可读的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法。

根据以上技术方案，本发明的有益效果如下：

1. 本发明对训练集进行特征提取，获得目标坐标及旋转角度避免了人为手工设计特征；

2. 本发明使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构，并按旋转框方式修改检测模型，设计了一种基于任意方向检测框的单阶段检测网络架构，与传统的基于水平框的检测框架相比，检测速度相当，保持了单阶段检测网络检测速度快的优势；

3. 本发明使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构，并按旋转框方式修改检测模型，设计的R-Anchor更符合吊装物体的包络特征，可以更好地修正吊装物体区域，检测效果优于传统的水平框检测网络。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供的一种吊装物体单阶检测方法的流程图；

图2为本发明实施例中坐标变换图；

图3为本发明实施例中旋转目标框图；

图4为本发明实施例中吊装物体旋转检测的示意图；

图5为本发明实施例提供的一种吊装物体单阶检测装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1：

图1为本发明实施例提供的一种吊装物体单阶检测方法的流程图；本实施例提供的一种吊装物体单阶检测方法，包括以下步骤：

步骤S101，获取吊装物体图像，作为训练集；

具体地，采集厂区和工地等作业场所中视频作为训练集素材，选取符合条件的图像，对图像中吊装物体进行标注得到训练集，其中所述标注的信息是吊装物体的四个角点坐标（x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄），如图2左侧所示。

采集厂区和工地等作业场所中视频作为训练集素材的原因是厂区和工地等作业场所中经常会吊装物体，有效数据比较集中，筛掉不含吊装物体的无效图片，获得有效图片进行标注；采用四个角点的标注信息的原因是：获得最贴合吊装物体包络的矩形。

步骤S102，对训练集进行特征提取，获得目标坐标及旋转角度；

具体地，将标注信息的四个角点坐标（x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄）转换为（x,y,w,h,θ），如图2所示，

其中（x,y）表示目标框的几何中心，（w,h）为目标框的长边和短边，θ是旋转的角度。

变换坐标的原因是：1）真实框和预测框的相对角度更好计算：2）计算损失时的值会更少，方便模型训练；3）图像更容易进行扩充。

步骤S103，使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构，并按旋转框方式修改检测模型；

具体地，因为YOLOv3是目前深度卷积神经网络检测架构中精度与速度权衡最优的模型，本实施例选择 YOLOv3 深度卷积神经网络作为吊装物体检测的基线网络架构，按旋转框方式修改检测模型；按旋转框方式更新模型是本发明的核心；其中主要修改YOLOv3 深度卷积神经网络中Anchor、YOLO层的张量输出深度、YOLO层输出、交并比计算和损失计算五个部分，具体过程如下：

（5.1）修改YOLOv3 深度卷积神经网络中Anchor；

因为原YOLOv3架构中的Anchor不包含角度信息，与ground truth的IOU较低；本发明设计锚点R-Achor替换YOLOv3架构中的Anchor，R-Achor由（w,h,θ）三要素组成；结合方向收敛速度和计算效率选用了6个方向，分别是（-30，0，30，60，90，120）；通过θ+k*180将θ的范围控制在[-30,120]；

YOLOv3在3个不同尺度上进行3种Anchor预测。Anchor是用k-means方法获得目标框，然后均分给3个YOLO层，即每个YOLO层3个不同尺度；9个聚类结果为：(10，13)；(16，30)；(33，23)；(30，61)；(62，45)；(59，119)；(116，90)；(156，198)；(373，326)；由于YOLOv3架构中的Anchor的长宽尺度基本包含了绝大部分物体的尺寸，本实施R-Achor延用Anchor的长宽尺寸；

结合上述的旋转角度和长宽尺寸，特征图上每个点将生成18个Bounding box，包含6个方向，3个尺度，基本包含了绝大部分物体的尺寸和旋转角度；实际使用中，R-Achor可按不同需求进行配置。

本发明为每个YOLO层设计了18个R-Achor，即特征图上每个点将生成18个Bounding box，对应到YOLO层输出张量深度为3×6×(5+1+N)，其中N为类别个数；3×6表示在特征图上每个点处的对应的Bounding box数量；每个Bounding box包含的信息：1）每个框的位置（5个参数，包括中心点坐标

，框的宽、高和旋转角度

；2）目标的置信度（1个参数）；3）N个类别的置信度（N个参数）；这样设计的YOLO层张量信息与输出一一对应。

（5.3）修改YOLOv3 深度卷积神经网络中YOLO层输出；

YOLO层的输出张量并不是最后结果，想要得到预测框，还需要进行转换计算；本发明YOLO层输出Bounding box的计算公式为：

其中，

是bounding box的中心点坐标；

是bounding box的宽、高和旋转角度；

是YOLO层输出张量中代表bounding box中心点坐标的分量；

是特征图中grid cell的坐标；

是预设的R-Anchor映射到特征图中的宽高和旋转角度；

保持了YOLOv3的计算方式，sigmoid函数

使

输出区间限定在0~1之间；为了实现简单，本发明中

直接将

与

相加获得；这样，便得到了Bounding box的全部信息。

（5.4）修改YOLOv3 深度卷积神经网络中交并比计算；

交并比IOU计算公式为：

其中

与

本发明使用的是带有角度的旋转框，基于轴向候选框的IOU计算方法在本发明中不再适用，所以需要修改为基于旋转框的IOU计算方法；两个旋转矩形的IOU计算比轴向矩形复杂，因为它们可以以多种不同的方式相交；图3是两个旋转矩形相交的典型例子；如何求出重叠部分的面积是IOU计算的关键步骤；以下是两个旋转目标框的IOU计算的伪代码：

输入：两个目标框四个角的坐标

输出：IOU

1）计算框1的面积：

；

2）计算框2的面积：

；

3）确定重叠区域的顶点；

4）将上一步得到的多边形顶点按逆时针方向排序；

5）计算两个旋转矩形框相交部分的面积

；

6）计算IOU，

；

采用本发明的基于旋转框的IOU计算方法，能够更加准确的评价出检测模型产生的Bounding box与标注框的交叠率。

（5.5）修改YOLOv3 深度卷积神经网络中损失计算；

损失函数是用来衡量预测与实际数据的差距程度的，它是一个非负实函数；损失函数越小，模型的鲁棒性就越好；本发明中损失函数由目标框损失、置信度损失和目标类别损失三部分组成；其中目标框损失因为是旋转目标框，所以包含中心点损失，宽高损失，旋转角度损失三部分；

其中

代表损失函数，

代表目标框损失,采用GIOU损失计算方式，

代表旋转角度损失，采用smooth L1损失计算方式；

代表置信度损失，

代表目标类别置信度损失，均采用二进制交叉熵损失计算方式；

代表各损失的权重因子，分别设置为3.54， 64.3，37.4。

步骤S104，使用所述目标坐标及旋转角度对修改后的检测模型进行训练，获得训练好的检测模型；

将所述目标坐标及旋转角度输入修改后的检测模型进行训练，预设训练次数；当达到预设训练次数或者网络模型收敛时，结束训练，得到训练好的检测模型。

步骤S105，使用训练好的检测模型对待检测的图像进行检测，获得图像中带旋转角度的吊装物体的检测结果。

输入测试视频图像，通过训练好的检测模型推理得到旋转角度的吊装物体的检测结果如图4所示，相对于水平框来说，带旋转角度的目标框更符合吊装物体的包络特征。

实施例2：

图5为本发明实施例提供的一种吊装物体单阶检测装置的框图，该装置可以执行任意本发明任意实施例所提供的一种吊装物体单阶检测方法，具备执行该方法相应的功能模块和有益效果。如图5所示，该装置包括：

获取模块901，用于获取吊装物体图像，作为训练集；

训练集预处理模块902，用于对训练集进行特征提取，获得目标坐标及旋转角度；

搭建检测网络模块903，用于使用基于深度卷积神经网络的检测模型作为吊装物体检测的基线网络架构，并按旋转框方式修改检测模型；

训练模块904，用于使用所述目标坐标及旋转角度对修改后的检测模型进行训练，获得训练好的检测模型；

检测模块905，用于使用训练好的检测模型对待检测的图像进行检测，获得图像中带旋转角度的吊装物体的检测结果。

实施例3：

本实施例提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如实施例1所述的方法。

实施例4：

本实施例提供一种计算机可读的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例1所述的方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的设备实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。