CN110163271A

CN110163271A - 一种基于球面投影网格和球面卷积的全景影像目标检测方法

Info

Publication number: CN110163271A
Application number: CN201910394472.2A
Authority: CN
Inventors: 季顺平; 余大文
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-08-23
Anticipated expiration: 2039-05-13
Also published as: CN110163271B

Abstract

本发明涉及一种基于球面投影网格和球面卷积的全景影像目标检测方法。利用已有的全景影像以及目标标注文件构建样本库，对基于球面投影格网和球面卷积的神经元网络进行训练，学习全景影像上感兴趣目标的特征。利用训练好的网络模型对新的全景影像进行目标检测，实现全景影像上感兴趣目标的自动识别和边界框定位。利用球面投影格网的方法，将区域建议网络得到的候选框特征图投影到预先设置好分辨率的球面格网上，然后使用球面卷积提取旋转不变特征，再进行最后的分类，可以得到全景影像上感兴趣目标更好的检测结果。本发明具有如下优点：鲁棒性强，更适合全景影像上的目标检测任务；对于全景影像上变形大的物体，具有更高的识别准确率。

Description

一种基于球面投影网格和球面卷积的全景影像目标检测方法

技术领域

本发明涉及一种基于球面投影网格和球面卷积的全景影像目标检测方法，可用于街景影像中感兴趣目标的自动定位与识别，城市监管、车辆检测、无人驾驶等领域。

背景技术

影像目标检测是计算机视觉和摄影测量中的一个基本任务，它在自动驾驶、城市监管、变化检测、行人跟踪、车牌识别、虚拟现实和人机交互等方面都具有极为重要的作用。到目前，关于目标检测的方法也有了较多的研究。早期的目标检测方法主要是基于滑动窗口的策略，使用设计好尺寸的窗口遍历整张图像来寻找目标。这类方法通常效率较低，并且无法达到很高的精度。深度学习中的卷积神经元网络在图像分类、目标检测、语义分割等基础任务中都展现出了强大的性能。因此，近年来基于卷积神经元网络的目标检测方法成为主流。许多基于卷积神经元网络的目标检测方法，如Faster R-CNN、Yolo和SSD等，在影像的目标检测问题上提出了许多新的思路，也取得了很好的效果。但是这些方法都是为平面影像所设计，在球面影像的目标检测任务中并不适用。同时，全景相机一次成像即可获得360°场景，在街景识别、自动驾驶、机器人等使用场景中都展现出了较大的优势，研究适用于全景影像的相应算法也变得越来越重要。和普通平面相机所拍摄的影像不同，将球面展开的过程不可避免地会引入较大误差，全景影像上的目标通常具有更大的变形，检测的难度也更大。因此，根据全景影像的特点，设计一种适用于全景影像的目标检测网络，提高全景影像上感兴趣目标的自动精确定位和识别至关重要。

发明内容

本发明针对现有目标检测方法应用于全景球面影像的不足，提出了一种用于全景影像目标检测任务的卷积神经元网络架构，能够精确地在全景影像上定位出目标的边界框并识别出目标所属的类别。

实现本发明目的采用的技术方案是：步骤1，构建基于球面投影格网和球面卷积的神经元网络(Grid-based Spherical CNN,GS-CNN)。该网络用于学习全景影像上感兴趣目标的特征；步骤2，利用全景影像数据和目标标注文件构建样本库；在样本库上训练网络模型。利用训练好的网络模型对新的全景影像进行预测，可实现全景影像上感兴趣目标的精确定位与识别。

进一步的，步骤1所述基于球面投影格网和球面卷积的神经元网络包括特征检测(features extraction)、区域建议网络(Region Proposal Network,RPN)、球面格网投影(spherical grid projection)、分类和边框回归(classification and bounding boxregression)，共4个部分。特征检测部分由13个卷积层(convolution layer)和4个最大池化层(max pooling layer)组成；区域建议网络部分由3个卷积层(convolution layer)和1个softmax函数构成；球面格网投影部分将候选目标的特征图投影到完整球面格网的对应位置；分类部分由2个球面卷积(spherical convolution)、3个全连接层(fully connectedlayer)和softmax函数组成，边框回归部分包含3个全连接层。

进一步的，所述的特征检测部分包含5层由卷积(convoluton)、修正线性单元(Rectified Linear Unit,ReLU)，最大池化(max pooling)所组成的堆叠结构。前两层的结构是：2组连续堆叠的卷积+修正线性单元，最大池化。中间两层的结构是：3组连续堆叠的卷积+修正线性单元，最大池化。最后一层的结构是：3组连续堆叠的卷积+修正线性单元。这一部分使用的卷积核大小均为3×3，卷积步长均为1，最大池化的步长为2×2。经过最大池化后，输出特征图(feature map)的高度与宽度均变为该层输入的二分之一。经过4个最大池化后，特征检测部分输出特征图的边长变为原始影像的1/16。

进一步的，所述的区域建议网络部分先经过一个3×3的卷积(convolution)和修正线性单元(ReLU)，然后分成2个分支。区域建议网络部分的边框回归分支进行一个1×1的卷积，输出每个点所对应的9个候选框的坐标；区域建议网络部分的分类分支进行一个1×1的卷积，然后使用一个softmax函数输出每个候选框属于目标或者背景的概率。

进一步的，所述的球面格网投影部分依据区域建议网络部分给出的候选框，从特征检测部分输出的特征图中提取出只包含目标的部分，并将其重采样成7×7大小。再依据目标在原始影像中的位置，将这些目标特征图重新投影到预先设置好分辨率的球面格网上。保持目标7×7的大小不变，近似地恢复其在球面上的位置。

进一步的，再利用一个分类和边框回归操作得到最后的结果；这一部分的分类分支将包含目标特征图的球面格网输入球面卷积中以提取旋转不变特征。球面卷积部分由S2卷积(S2convolution)、修正线性单元(ReLU)、SO(3)卷积(SO(3)convolution)和修正线性单元组成，后面再连接三个全连接层(fully connected layer)和一个softmax函数，得到每个候选框最后的分类结果。S2卷积和SO(3)卷积的卷积核分别包含24个采样点和72个采样点。边框回归部分则在只包含每个目标的特征图后面直接连接三个全连接层(fullyconnected layer)，然后输出更精确的目标边界框坐标。

进一步的，步骤2的具体实现包括如下子步骤，

步骤2.1，全景影像重投影：将从ladybug全景相机或者其他全景相机获得的全景图像重新投影到Driscoll-Healy方形格网上，获得方形全景影像，作为基于球面投影格网和球面卷积的神经元网络训练和测试的输入数据；

步骤2.2，影像重采样；设置Driscoll-Healy方形格网的分辨率，将步骤2.1中得到的影像重新采样成合适的大小；

步骤2.3，标注全景影像上感兴趣目标的边界框坐标和类别，作为训练的标签数据；对于每张全景影像，需要将这张影像上的所有感兴趣的目标全部标注出来，并制作成后缀名为xml的VOC(PASCAL Visual Object Classes)格式的标准标注文件；

步骤2.4，训练神经元网络，将标注好的全景影像数据作为神经元网络的训练数据，迭代训练神经元网络直到模型收敛，然后将待检测的新全景影像输入训练好的网络模型，得到检测结果，网络输出每个检测到的目标的边界框坐标和这些目标所属的类别。

本发明具有如下优点：1)不需要复杂的手工设计特征的过程，通过简单的、端到端的可训练模型，完成全景影像上感兴趣目标的自动定位和识别。2)可复用性强，可以在附加数据上继续进行模型的训练，可以用于连续在线学习，可持续不断迭代优化。3)具有可扩展性，训练好的神经元网络模型经过调整，可应用于其他用途，如基于全景影像的变化检测，基于全景影像的目标分类、基于全景影像的图像检索等。4)鲁棒性强，对于全景影像上变形较大的物体也可以取得很好的检测结果。

附图说明

图1是本发明的样本库构建流程图。

图2是本发明的基于球面投影格网和球面卷积的神经网络结构示意图。

图3是ladybug全景相机获得的原始全景影像以及对应的重投影的Driscoll-Healy方形全景影像。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步的具体说明。

本发明提供的一种基于球面投影格网和球面卷积的神经元网络的全景影像目标检测方法，包括如下步骤：

步骤1，构建基于球面投影格网和球面卷积的神经元网络(Grid-based SphericalCNN,GS-CNN)。该网络用于学习全景影像上感兴趣目标的特征；本发明所提出的基于球面投影格网和球面卷积的神经元网络包括特征检测(features extraction)、区域建议网络(Region Proposal Network)、球面格网投影(spherical grid projection)、分类和边框回归(classification and bounding box regression)，共4个部分。

特征检测部分由13个卷积层(convolution layer)和4个最大池化层(maxpooling layer)组成；区域建议网络由3个卷积层(convolution layer)和1个softmax函数构成；球面格网投影部分将候选目标的特征图投影到完整球面格网的对应位置；分类部分由2个球面卷积(spherical convolution)、3个全连接层(fully connected layer)和softmax函数组成，边框回归部分包含3个全连接层(fully connected layer)。

特征检测部分包含5层由卷积(convolution)、修正线性单元(Rectified LinearUnit,ReLU)，最大池化(max pooling)所组成的堆叠结构。前两层的结构是：2组连续堆叠的卷积+修正线性单元，最大池化。中间两层的结构是：3组连续堆叠的卷积+修正线性单元，最大池化。最后一层的结构是：3组连续堆叠的卷积+修正线性单元。这一部分使用的卷积核大小均为3×3，卷积步长均为1，最大池化的步长为2×2。经过每个最大池化层后，输出特征图(feature map)的高度与宽度均变为该层输入的二分之一。经过4次最大池化操作后，特征检测部分输出特征图的边长变为原始影像的1/16。

区域建议网络部分先进行一个3×3的卷积(convolution)和修正线性单元(ReLU)，然后分成2个分支。这一部分的边框回归分支进行一个1×1的卷积，输出每个点所对应的9个候选框的影像坐标；分类分支进行一个1×1的卷积，然后使用一个softmax函数输出每个候选框属于目标或者背景的概率。

球面格网投影部分依据区域建议网络给出的候选框从特征检测部分输出的特征图中取出只包含目标的部分，并将其重采样成7×7大小。然后依据目标在原始影像中的位置，将这些目标重新投影到预先设置好分辨率的球面格网上。保持目标7×7的大小不变，近似地恢复其在球面上的位置。

最后的分类和边框回归部分用于得到更加准确的结果。这一部分的分类分支将包含目标特征图的球面格网输入球面卷积中以提取旋转不变特征。球面卷积部分包含S2卷积(S2convolution)、修正线性单元(ReLU)、SO(3)卷积(SO(3)convolution)和修正线性单元。后面再接三个全连接层(fully connected layer)和一个softmax函数得到每个候选框对应的最后分类分数。S2卷积和SO(3)卷积的卷积核分别包含24个采样点和72个采样点。边框回归部分则在只包含单个目标的特征图后面再连接三个全连接层，然后输出更精确的目标边界框坐标。

步骤2，利用全景影像数据和目标标注文件构建样本库；在样本库上训练网络模型。利用训练好的网络模型对新的全景影像进行预测，可实现全景影像上感兴趣目标的精确定位与识别。包括以下子步骤；

步骤2.1，全景影像重投影。将从ladybug全景相机或者其他全景相机获得的全景图像重新投影到Driscoll-Healy方形格网上，作为基于球面投影格网和球面卷积的神经元网络训练和测试的输入影像；

步骤2.2，影像重采样。可以设置Driscoll-Healy方形格网的分辨率，将步骤2.1中得到的影像重新采样。感兴趣的目标尺寸较小，可以设置较大的Driscoll-Healy方形格网分辨率，保证小目标的检测精度；感兴趣的目标尺寸较大可以设置较小的Driscoll-Healy方形格网分辨率，在保证精度的同时提高网络的训练和测试速度，减轻显存压力。

步骤2.3，制作标签数据。标注全景影像上的感兴趣目标的边界框坐标和类别，作为训练的标签数据；对于每张全景影像，需要将这张影像上的所有感兴趣的目标全部标注出来，并制作成后缀名为xml的VOC(PASCAL Visual Object Classes)格式的标准标注文件。

步骤2.4，训练基于球面投影格网的卷积神经元网络。将标注好的全景影像数据作为网络模型的训练数据，迭代训练网络直到模型收敛，然后将待检测的新全景影像输入训练好的网络模型，得到检测结果,网络输出每个检测到的目标的边界框坐标和这些目标所属的类别。

实施例：

首先按照本发明方法构建基于球面投影格网和球面卷积的神经元网络(Grid-based Spherical CNN,GS-CNN)。然后获取训练样本数据，附图1展示了构建训练样本库的流程。附图2是由ladybug全景相机所获取的某地街道场景的全景影像，影像上感兴趣的目标主要包含4类：路灯、人行横道、路面警示线、车辆。将原始全景影像重投影为Driscoll-Healy方形格网影像，同时结合计算机显存、感兴趣的目标大小将这些全景影像重采样为大小合适的分辨率(600×600像素)。然后人工将影像上的这4类目标全部标注出来，包括目标的边界框和类别信息。

获得训练样本后，对基于球面投影格网和球面卷积的神经元网络进行迭代训练，直到模型收敛得到最优参数。模型训练完成后，将待检测的新全景影像重投影并采样成与训练影像同样分辨率的Driscoll-Healy方形全景影像，利用训练好的模型对这些全景影像进行目标检测，即可得到影像上感兴趣目标的位置和类别。

我们选择200张600×600像素的带有标签的全景影像进行基于球面投影格网和球面卷积的神经元网络的训练。然后对400张同样大小的全景影像进行目标检测，并与现有的Faster R-CNN、直接基于球面卷积分类的目标检测网络(SCNN)、Faster R-CNN+(在最后的分类分支中将球面卷积替换成普通的平面卷积，其他的网络结构与本发明所提出的方法相同，通过控制变量来验证本发明的创新性与有效性)进行比较。从表1中可以看出，本发明方法的效果优于其它几种神经网络方法。通过实验表明，对于全景影像上变形较大的目标，检测的难度较大。许多其他方法没有检测出的目标，而本发明所提出的方法仍然可以得到很好的检测结果。对于全景影像上变形较大的目标，与已有的方法对比，本发明的方法具有更好的鲁棒性并能够得到更加准确的检测结果。因此，本发明的方法具有较好的工程实用价值。

表1本发明方法与其它神经网络方法目标检测精度比较

表2为对训练数据进行旋转增强得到的测试结果。训练数据中的每张影像被旋转8次，每次旋转45度，原始影像与旋转后的影像一起作为训练数据输入网络模型进行训练。从多类平均精度均值(mean Average Precision,mAP)可以看出，本发明方法的总体精度优于其他方法。

表2对训练数据进行旋转增强后的本发明方法与其它神经网络方法检测结果精度对比

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于球面投影网格和球面卷积的全景影像目标检测方法，其特征在于，包括如下步骤：

步骤1，构建基于球面投影格网和球面卷积的神经元网络(Grid-based SphericalCNN,GS-CNN)，该神经元网络用于学习全景影像上感兴趣目标的特征；

所述神经元网络包括特征检测(features extraction)、区域建议网络(RegionProposal Network,RPN)、球面格网投影(spherical grid projection)、分类和边框回归(classification and bounding box regression)，共4个部分；

步骤2，利用全景影像数据和目标标注文件构建样本库，在样本库上训练神经元网络，利用训练好的网络模型对新的全景影像进行预测，实现全景影像上感兴趣目标的精确定位与识别。

2.根据权利要求1所述的一种基于球面投影网格和球面卷积的全景影像目标检测方法，其特征在于：所述的特征检测部分包含5层由卷积(convoluton)、修正线性单元(Rectified Linear Unit,ReLU)，最大池化(max pooling)所组成的堆叠结构；其中前两层的结构是：2组连续堆叠的卷积+修正线性单元，最大池化；中间两层的结构是：3组连续堆叠的卷积+修正线性单元，最大池化；最后一层的结构是：3组连续堆叠的卷积+修正线性单元。

3.根据权利要求1所述的一种基于球面投影网格和球面卷积的全景影像目标检测方法，其特征在于：所述的区域建议网络部分先经过一个3×3的卷积(convolution)和修正线性单元(ReLU)，然后分成2个分支，其中一个分支进行一个1×1的卷积，输出每个点所对应的若干个候选框的坐标；另一个分支进行一个1×1的卷积，然后使用一个softmax函数输出每个候选框属于目标或者背景的概率。

4.根据权利要求1所述的一种基于球面投影网格和球面卷积的全景影像目标检测方法，其特征在于：所述的球面格网投影部分依据区域建议网络部分给出的候选框，从特征检测部分输出的特征图中提取出只包含目标的部分，并将其重采样成m×m大小；再依据目标在原始影像中的位置，将这些目标特征图重新投影到预先设置好分辨率的球面格网上，保持目标m×m的大小不变，近似地恢复其在球面上的位置。

5.根据权利要求1所述的一种基于球面投影网格和球面卷积的全景影像目标检测方法，其特征在于：分类和边框回归部分的分类分支将包含目标特征图的球面格网输入球面卷积中以提取旋转不变特征，所述球面卷积部分由S2卷积(S2 convolution)、修正线性单元(ReLU)、SO(3)卷积(SO(3)convolution)和修正线性单元组成，后面再连接三个全连接层(fully connected layer)和一个softmax函数，得到每个候选框最后的分类结果；边框回归分支则在只包含每个目标的特征图后面直接连接三个全连接层(fully connectedlayer)，然后输出更精确的目标边界框坐标。

6.根据权利要求1所述的一种基于球面投影网格和球面卷积的全景影像目标检测方法，其特征在于：步骤2的具体实现包括如下子步骤，

步骤2.1，全景影像重投影，将从ladybug全景相机或者其他全景相机获得的全景图像重新投影到Driscoll-Healy方形格网上，获得方形全景影像，作为基于球面投影格网和球面卷积的神经元网络训练和测试的输入数据；

步骤2.3，标注全景影像上感兴趣目标的边界框坐标和类别，作为训练的标签数据；对于每张全景影像，将这张影像上的所有感兴趣的目标全部标注出来，并制作成后缀名为xml的VOC(PASCAL Visual Object Classes)格式的标准标注文件；