CN113673478A

CN113673478A - 基于深度全景拼接的港口大型设备检测与识别方法

Info

Publication number: CN113673478A
Application number: CN202111028990.6A
Authority: CN
Inventors: 江磊
Original assignee: Fuzhou Ivisionic Technology Co ltd
Current assignee: Fuzhou Ivisionic Technology Co ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-19
Anticipated expiration: 2041-09-02
Also published as: CN113673478B

Abstract

本发明提出一种基于深度全景拼接的港口大型设备检测与识别方法，通过获取港口园区内多个路杆摄像头对同一设备在不同角度下拍摄的局部图像；将多个局部图像堆叠输入至深度全景拼接网络生成全景图像数据集；对新数据集的类别及位置信息进行特征编码并输入至目标检测与识别训练网络；将训练后的目标检测与识别模型用于港口园区内大型设备的预测。本发明有效的利用了局部和全局图像中的目标信息，能够实现对大型设备的精准预测，从而提升港口园区的作业效率。

Description

基于深度全景拼接的港口大型设备检测与识别方法

技术领域

本发明涉及计算机视觉、港口管理技术领域，尤其涉及一种基于深度全景拼接的港口大型设备检测与识别方法。

背景技术

港口是重要的交通运输基础设施，是实现外向型经济的窗口。当前，港口规模的大型化成为必然趋势。随着“智慧港口”这一概念的出现，港口智能化成为港口发展的大方向，智能监管、智能服务、自动装卸成为其主要的呈现形式，并为现代化物流业提供高安全、高效率和高品质的服务。

港口运输及装卸设备的智能化管理实现了对港口运输要素的全面感知，同时促进了新一代信息技术与港口运输核心业务的深度融合。随着港口规模的不断扩大，一般通过引进超大型运输及装卸设备来提高港口的作业效率。但在普通的单一拍摄视角下难以获取龙门吊等这类大型设备的全景图像，有关的智能设备无法对其进行有效的检测与识别，从而影响新型智慧港口的建设。

目前，深度学习方法在计算机视觉领域中得到广泛应用，并在图像拼接和目标检测领域上取得了重大的进展。但关于大型设备检测与识别的研究成果仍然较少，尤其缺乏利用多个局部图像信息来获取目标全局信息的这项研究。

发明内容

为了克服现有技术当中存在的缺陷和不足，本发明提出了一种新型的基于深度全景拼接的港口大型设备检测与识别方法。提出了一种新颖的基于深度学习方法，可以将多个路杆摄像头在不同角度下对同一设备获取的局部图像拼接为全景图像构建新的数据集，再将该数据集送入基于深度学习的检测器网络进行训练，从而实现港口园区内大型设备的精准检测与识别，并可将该方法应用于其它场景下的超大尺度物体。

其通过获取港口园区内多个路杆摄像头对同一设备在不同角度下拍摄的局部图像；将多个局部图像堆叠输入至深度全景拼接网络生成全景图像数据集；对新数据集的类别及位置信息进行特征编码并输入至目标检测与识别训练网络；将训练后的目标检测与识别模型用于港口园区内大型设备的预测。本发明有效的利用了局部和全局图像中的目标信息，能够实现对大型设备的精准预测，从而提升港口园区的作业效率。

其具体采用以下技术方案：

一种基于深度全景拼接的港口大型设备检测与识别方法，其特征在于：采用大型设备的全景拼接图像生成网络和检测识别网络进行检测和识别；

所述大型设备的全景拼接图像生成网络和检测识别网络的构建过程包括以下步骤：

步骤S1：获取N个路杆摄像头在不同角度下对大型设备拍摄到的局部图像I₁,I₂,…,I_N作为图像集；

步骤S2：对所述图像集进行整理分类制作数据集，并创建真实的全景拼接图像p以及相应的图像掩膜M；

步骤S3：构建用于生成大型设备全景拼接图像的深度神经网络；

步骤S4：将原始的局部图像I₁,I₂,…,I_N的堆叠矩阵输入到步骤S3构造的网络中进行训练并预测，得到全景拼接图像P'；

步骤S5：提取全景拼接图像P'中目标的位置及类别信息，进行特征编码；

步骤S6：构建用于检测识别大型设备的深度神经网络；

步骤S7：将拼接后的全景图像P'与标签一并输入至S6构造的网络中进行训练并保存训练模型；

将待预测图像输入至训练后的模型进行预测，得到大型设备相应的检测与识别结果。

进一步地，步骤S1所使用的图像集来源于多个路杆摄像头对港口园区内大型设备不同角度采集的局部图像。

进一步地，步骤S2通过联合N个不同角度的图像创建真实的全景拼接图像P以及相应的图像掩膜M，经处理后的数据集用于训练生成大型设备全景拼接图像的深度神经网络。

进一步地，步骤S3具体包括以下步骤：

步骤S31：预测图像之间的几何变换关系并生成全景拼接图像掩膜M'，以真实的全景拼接图像掩膜M为优化目标，利用卷积神经网络构造编码器-解码器；

步骤S32：构造损失函数，由真实与预测的图像掩膜间的像素差值平方和来确定，经生成器训练优化后，得到预测的全景拼接图像掩膜M'；

步骤S33：生成预测的全景拼接图像,构建形如U-Net结构的神经网络编码器-解码器；

步骤S34：从像素和语义层面构造全景图像拼接的损失函数用于训练网络，并将局部图像I₁,I₂,…,I_N与预测图像掩膜M'的堆叠矩阵输入步骤S33构造的网络中，得到预测的大型设备全景拼接图像P'。

进一步地，步骤S31具体为：构建的编码器-解码器采用VGG16作为标准网络用于直接预测相似的局部图像间的几何关系；该网络共有11个卷积层，其中编码器部分有5层，解码器部分有6层；第1至10层的卷积层采用带泄露修正线性单元LeakyRelu作为激活函数；第11层采用Sigmoid作为激活函数；

步骤S32具体为：采用真实图像掩膜M和预测的图像掩膜M'之间的像素差值平方和作为损失函数，如下所示：

L_M-pixel＝(M_pixel-M'_pixel)²

其中，M_pixel表示真实图像掩膜的像素，M'_pixel表示预测图像掩膜的像素；

步骤S33具体为：构建的编码器-解码器采用VGG16作为标准网络，包含11个卷积层以及5个上采样操作；除最后一层采用Sigmoid作为激活函数以外，其余卷积层均采用修正线性单元Relu作为激活函数；

步骤S34具体为：采用包含像素损失函数以及语义感知损失函数作为全景图像拼接的修正损失；像素损失侧重预测图像与真实图像间的像素级差异，如下所示：

L_P-pixel＝|P_pixel-P’_pixel|

其中，P_pixel表示真实全景拼接图像的像素，P'_pixel表示预测全景拼接图像的像素；语义感知损失的定义如下所示：

L_perceptual＝|Net_P-Net_P'|

其中，Net采用VGG16作为标准网络，Net_P表示真实图像的高层语义信息，Net_P'表示预测图像的高层语义信息。

进一步地，步骤S6具体包括以下步骤：

步骤S61：构建目标检测与识别网络对全景拼接图像P'数据集进行训练；

步骤S62:构造该网络相应的损失函数，使之能够正确的对目标位置及类别信息进行回归与分类。

进一步地，步骤S61具体为：检测与识别网络为基于Yolov3的改进网络，包含53个卷积层，并且根据龙门吊设备的尺寸特点仅保留52×52的尺度特征图来进行预测；

步骤S62具体为：所述损失函数，包括位置损失、置信度损失以及类别损失三个部分，如下所示：

L_total＝L_box+L_obj+L_cls

其中λ_coord，λ_noobj，λ_class，λ_obj分别表示对应的平衡权重值，由参数搜索方法确定；S²表示网格尺寸：52×52；B表示目标真实框；w_i，h_i表示目标真实框的宽，高；x_i，y_i表示目标真实框的中心坐标；c_i表示当前类别的置信度；p_i表示分类概率；

表示如果在i、j处的box有目标，其值为1，否则为0；

表示如果i，j处的box没有目标值为1，否则为0。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的基于深度全景拼接的港口大型设备检测与识别方法的步骤。

一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述的基于深度全景拼接的港口大型设备检测与识别方法的步骤。

本发明及其优选方案具有以下有益效果：

1、新颖地将多个路杆摄像头在不同角度下获取的大型设备局部图像拼接为全景图像，为实现大型设备的精准检测与识别提供了基础；

2、构建了港口园区内大型设备的全景拼接图像数据集。该数据集解决了对于龙门吊等大型设备难以通过一张局部图像近距离获得大型设备的全局信息的问题，这对于其检测和识别研究提供了条件；

3、将生成的新数据集送入基于深度学习的检测器网络进行训练，从而实现了港口园区内大型设备的精准检测与识别；

4、也可以应用于其它场景下的超大尺度物体。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1为本发明实施例的结构流程图。

图2为本发明实施例中步骤S1中多个路杆摄像头在不同角度下对龙门吊设备拍摄到的局部图像示例图。

图3为本发明实施例中步骤S3中构建的生成龙门吊设备全景拼接图像的网络模型结构图。

图4为本发明实施例中步骤S6中构建的目标检测与识别的网络模型结构图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，并配合附图，作详细说明如下：

本发明使用深度学习方法对不同角度下获取的龙门吊等大型设备局部图像进行全景图像拼接从而构建新的数据集，该数据集融合了目标设备的局部信息，有效提升了局部信息的利用率；再将该数据集送入基于深度学习的检测器网络进行训练，利用全局与局部信息共同优化该网络，极大地提高了龙门吊等大型设备检测与识别的准确性。

如图1-图4所示，本实施例提供的基于深度全景拼接的港口大型设备检测与识别方法包括以下步骤：

步骤S1：获取N个路杆摄像头在不同角度下对龙门吊设备拍摄到的局部图像I₁,I₂,…,I_N；

步骤S2：对图像集进行整理分类制作数据集，并创建真实的全景拼接图像P以及相应的图像掩膜M。

步骤S3：构建用于生成龙门吊设备全景拼接图像的深度神经网络，具体如下：

步骤S31：第一阶段用于预测图像之间的几何变换关系并生成全景拼接图像掩膜M'，以真实的全景拼接图像掩膜M为优化目标，利用卷积神经网络构造编码器-解码器；

在本实施例中，步骤S31具体包括以下步骤：

步骤S311：该编码器-解码器采用VGG16作为标准网络用于直接预测相似的局部图像间的几何关系。该网络共有11个卷积层，其中编码器部分有5层，解码器部分有6层。第1至10层的卷积层采用带泄露修正线性单元(LeakyRelu)作为激活函数，即：

其中，a_i是(1，∞)区间内的固定参数；由于图像掩膜的像素值为0或1，第11层采用Sigmoid作为激活函数，即：

在本实施例中，步骤S32具体包括以下步骤：

步骤S321：本阶段采用真实图像掩膜M和预测的图像掩膜M'之间的像素差值平方和作为损失函数，如下所示：

L_M-pixel＝(M_pixel-M'_pixel)²

其中，M_pixel表示真实图像掩膜的像素，M'_pixel表示预测图像掩膜的像素。

步骤S32：构造上述网络的损失函数，由真实与预测的图像掩膜间的像素差值平方和来确定，经检测器训练优化后，得到预测的全景拼接图像掩膜M'；

步骤S33：第二阶段用于生成预测的全景拼接图像,构建形如U-Net结构的神经网络编码器-解码器；

在本实施例中，步骤S33具体包括以下步骤：

步骤S331：该编码器-解码器采用VGG16作为标准网络，包含11个卷积层以及5个上采样操作。除最后一层采用Sigmoid作为激活函数以外，其余卷积层均采用修正线性单元(Relu)作为激活函数，即：

f(x)＝max(0,x)

步骤S34：从像素和语义层面构造全景图像拼接的损失函数用于训练网络，并将局部图像I₁,I₂,…,I_N与预测图像掩膜M'的堆叠矩阵输入S33构造的网络中，得到预测的大型设备全景拼接图像P'；

在本实施例中，步骤S34具体包括以下步骤：

步骤S341：本阶段采用包含像素损失函数以及语义感知损失函数作为全景图像拼接的修正损失。像素损失侧重预测图像与真实图像间的像素级差异，如下所示：

L_P-pixel＝|P_pixel-P’_pixel|

其中，P_pixel表示真实全景拼接图像的像素，P'_pixel表示预测全景拼接图像的像素。语义感知损失则更加关注网络对生成图像预测的高层语义信息，定义如下所示：

L_perceptual＝|Net_P-Net_P'|

步骤S4：将原始的局部图像I₁,I₂,…,I_N的堆叠矩阵输入到步骤S3构造的网络中，得到预测的全景拼接图像P'；

步骤S5：提取全景拼接图像P'中目标的位置及类别信息，进行特征编码。

步骤S6：构建用于检测识别大型设备的深度神经网络，具体如下：

步骤S61：构建目标检测与识别网络对龙门吊设备的全景拼接图像数据集进行训练；

在本实施例中，步骤S61具体包括以下步骤：

步骤S611：检测与识别网络为基于Yolov3的改进网络，包含53个卷积层，并且根据龙门吊设备的尺寸特点仅保留52×52的尺度特征图来进行预测；

步骤S62：构造该网络相应的损失函数，使之能够正确的对目标位置及类别信息进行回归与分类；

在本实施例中，步骤S62具体包括以下步骤：

步骤S621：构造该网络的损失函数，包括位置损失、置信度损失以及类别损失三个部分，如下所示：

L_total＝L_box+L_obj+L_cls

表示如果在i、j处的box有目标，其值为1，否则为0；

表示如果i，j处的box没有目标值为1，否则为0。

步骤S8：将待预测图像输入至训练后的模型进行预测，得到大型设备相应的检测与识别结果。

本实施例提供的算法模型可以代码化的形式存储在计算机可读取存储介质中，并以计算机程序的方式进行实现，并通过计算机硬件输入计算所需的基本参数信息，并输出计算结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于深度全景拼接的港口大型设备检测与识别方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于深度全景拼接的港口大型设备检测与识别方法，其特征在于：采用大型设备的全景拼接图像生成网络和检测识别网络进行检测和识别；

步骤S1：获取N个路杆摄像头在不同角度下对大型设备拍摄到的局部图像I₁，I₂，…，I_N作为图像集；

步骤S4：将原始的局部图像I₁，I₂，…，I_N的堆叠矩阵输入到步骤S3构造的网络中进行训练并预测，得到全景拼接图像P′；

步骤S5：提取全景拼接图像P′中目标的位置及类别信息，进行特征编码；

步骤S6：构建用于检测识别大型设备的深度神经网络；

步骤S7：将拼接后的全景图像P′与标签一并输入至S6构造的网络中进行训练并保存训练模型；

2.根据权利要求1基于深度全景拼接的港口大型设备检测与识别方法，其特征在于：步骤S1所使用的图像集来源于多个路杆摄像头对港口园区内大型设备不同角度采集的局部图像。

3.根据权利要求1基于深度全景拼接的港口大型设备检测与识别方法，其特征在于：步骤S2通过联合N个不同角度的图像创建真实的全景拼接图像P以及相应的图像掩膜M，经处理后的数据集用于训练生成大型设备全景拼接图像的深度神经网络。

4.根据权利要求1基于深度全景拼接的港口大型设备检测与识别方法，其特征在于：步骤S3具体包括以下步骤：

步骤S31：预测图像之间的几何变换关系并生成全景拼接图像掩膜M′，以真实的全景拼接图像掩膜M为优化目标，利用卷积神经网络构造编码器-解码器；

步骤S32：构造损失函数，由真实与预测的图像掩膜间的像素差值平方和来确定，经生成器训练优化后，得到预测的全景拼接图像掩膜M′；

步骤S33：生成预测的全景拼接图像，构建形如U-Net结构的神经网络编码器-解码器；

步骤S34：从像素和语义层面构造全景图像拼接的损失函数用于训练网络，并将局部图像I₁，I₂，…，I_N与预测图像掩膜M′的堆叠矩阵输入步骤S33构造的网络中，得到预测的大型设备全景拼接图像P′。

5.根据权利要求4基于深度全景拼接的港口大型设备检测与识别方法，其特征在于：

步骤S31具体为：构建的编码器-解码器采用VGG16作为标准网络用于直接预测相似的局部图像间的几何关系；该网络共有11个卷积层，其中编码器部分有5层，解码器部分有6层；第1至10层的卷积层采用带泄露修正线性单元Leaky Relu作为激活函数；第11层采用Sigmoid作为激活函数；

步骤S32具体为：采用真实图像掩膜M和预测的图像掩膜M′之间的像素差值平方和作为损失函数，如下所示：

L_M-pixel＝(M_pixel-M′_pixel)²

其中，M_pixel表示真实图像掩膜的像素，M′_pixel表示预测图像掩膜的像素；

步骤S34具体为：采用包含像素损失函数以及语义感知损失函数作为全景图像拼接的修正损失；像素损失侧重预测图像与真实图像间的像素级差异，如下所不：

L_P-pixel＝|P_pixel-P′_pixel|

其中，P_pixel表示真实全景拼接图像的像素，P′_pixel表示预测全景拼接图像的像素；语义感知损失的定义如下所示：

L_perceptual＝|Net_P-Net_P′|

其中，Net采用VGG16作为标准网络，Net_P表示真实图像的高层语义信息，Net_P′表示预测图像的高层语义信息。

6.根据权利要求1基于深度全景拼接的港口大型设备检测与识别方法，其特征在于：步骤S6具体包括以下步骤：

步骤S61：构建目标检测与识别网络对全景拼接图像P′数据集进行训练；

步骤S62：构造该网络相应的损失函数，使之能够正确的对目标位置及类别信息进行回归与分类。

7.根据权利要求6基于深度全景拼接的港口大型设备检测与识别方法，其特征在于：

步骤S61具体为：检测与识别网络为基于Yolo v3的改进网络，包含53个卷积层，并且根据龙门吊设备的尺寸特点仅保留52×52的尺度特征图来进行预测；

L_total＝L_box+L_obj+L_cls

表示如果在i、j处的box有目标，其值为1，否则为0；

表示如果i，j处的box没有目标值为1，否则为0。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7其中任一所述的基于深度全景拼接的港口大型设备检测与识别方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7其中任一所述的基于深度全景拼接的港口大型设备检测与识别方法的步骤。