CN110163207B

CN110163207B - 一种基于Mask-RCNN船舶目标定位方法及存储设备

Info

Publication number: CN110163207B
Application number: CN201910419035.1A
Authority: CN
Inventors: 林少丹
Original assignee: Fujian Chuanzheng Communications College
Current assignee: Fujian Chuanzheng Communications College
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2022-03-11
Anticipated expiration: 2039-05-20
Also published as: CN110163207A

Abstract

本发明涉及船舶图像识别技术领域，特别涉及一种基于Mask‑RCNN船舶目标定位方法及存储设备。所述一种基于Mask‑RCNN船舶目标定位方法，包括如下步骤：获取船舶图片数据集；提取所述船舶图片数据集中的特征区域；采用RPN对所述特征区域进行处理；对经过RPN处理后的特征区域采用ROI_Align进一步处理；将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络。双路采样的使用，使得在通道数保持不变的前提下，图像的特征信息量增多了，描述图像的维度没有增加，只是每一维的信息量增加，提升了掩膜生成的准确性。

Description

一种基于Mask-RCNN船舶目标定位方法及存储设备

技术领域

本发明涉及船舶图像识别技术领域，特别涉及一种基于Mask-RCNN船舶目标定位方法及存储设备。

背景技术

随着社会经济的发展，海洋经济发展空间进一步扩展，对海洋船舶开展监测与识别的任务愈发重要。针对我国海域面积广阔、船舶停泊分散、监管执法难度较大的问题，提高船舶监测的信息化与智能化水平更有着重要的意义，近年来，在模式识别这个研究领域中，船舶图像识别一直是研究人员关注的重点之一，但同时由于船舶图像的复杂、多变、动态，也是该领域的难点之一。

G.K.Yüksel等(2016)利用分割(Segmentation)方法和人工神经网络(ArtificialNeural Network)，提供了一种从三维船模轮廓图像中提取船舶特征和识别船舶的解决方案；K.Rainey等(2016)提出采用卷积神经网络(CNN)进行船舶识别任务，对卫星船舶图像的实验表明其识别结果较好；王文秀等(2018)运用深度CNN网络(改进的AlexNet)对较为模糊的红外船舶图像进行特征提取和检测，取得了较好的检测性能。Ma,Xiaofeng等提出了基于注意力机制，通过添加一个fcn分支到检测网络去提取环境特征；Yu Zhang等提出了调整建议区域网络(rpn)锚的大小和nms的阈值等参数的方法，使得在多目标场景下图像掩膜提取确信度有一定的提高。

然而，这些模型在应用于真实复杂情境中的船舶图像识别时，仍然存在精度、质量与准确率上的问题，与实际应用的较理想化要求存在差距。故如何更准确地识别船舶图像，定位船舶目标成了亟需解决的问题。

发明内容

为此，需要提供一种基于Mask-RCNN船舶目标定位方法，用以解决现有技术中船舶图像识别准确度低的问题。具体技术方案如下：

一种基于Mask-RCNN船舶目标定位方法，包括如下步骤：获取船舶图片数据集；提取所述船舶图片数据集中的特征区域；采用RPN对所述特征区域进行处理；对经过RPN处理后的特征区域采用ROI_Align进一步处理；将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络。

进一步的，所述“提取所述船舶图片数据集中的特征区域”，还包括步骤：采用Resnet50/101主干网络对所述船舶图片数据集进行分类提取多个特征区域。

进一步的，所述“采用RPN对所述特征区域进行处理”，还包括步骤：根据L1和L2范数相结合的损失函数及softnms的锚框选择机制计算船舶图片数据集特征区域所在位置。

进一步的，所述“并通过双路上采样的方法构建掩膜生成网络”，还包括步骤：对每个ROI区域，经过三次卷积和池化，并构成双路上采样；把双路激活合并成一路，并乘上一个共享权重，构建掩膜生成网络。

为解决上述技术问题，还提供了一种存储设备，具体技术方案如下：

一种存储设备，其中存储有指令集，所述指令集用于执行：获取船舶图片数据集；提取所述船舶图片数据集中的特征区域；采用RPN对所述特征区域进行处理；对经过RPN处理后的特征区域采用ROI_Align进一步处理；将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络。

进一步的，所述指令集还用于执行：所述“采用RPN对所述特征区域进行处理”，还包括步骤：根据L1和L2范数相结合的损失函数及softnms的锚框选择机制计算船舶图片数据集特征区域所在位置。

进一步的，所述指令集还用于执行：所述“并通过双路上采样的方法构建掩膜生成网络”，还包括步骤：对每个ROI区域，经过三次卷积和池化，并构成双路上采样；把双路激活合并成一路，并乘上一个共享权重，构建掩膜生成网络。

本发明的有益效果是：通过采用RPN对所述特征区域进行处理；对经过RPN处理后的特征区域采用ROI_Align进一步处理；将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络。双路采样的使用，使得在通道数保持不变的前提下，图像的特征信息量增多了，描述图像的维度没有增加，只是每一维的信息量增加，提升了掩膜生成的准确性。

附图说明

图1为具体实施方式所述一种基于Mask-RCNN船舶目标定位方法的流程图；

图2为具体实施方式所述基于Mask-RCNN船舶目标定位方法的示意图；

图3为具体实施方式所述RPN结构示意图；

图4为具体实施方式所述九个锚点示意图；

图5为具体实施方式所述生成的顶层锚；

图6为具体实施方式所述生成的ROI；

图7为具体实施方式所述掩膜生成结构示意图；

图8为具体实施方式所述掩膜生成过程示意图；

图9为具体实施方式所述共享权重生成示意图；

图10为具体实施方式所述远洋货轮检测示意图；

图11为具体实施方式所述近岸渔船检测示意图；

图12为具体实施方式所述大型军舰检测示意图；

图13为具体实施方式所述存储设备的模块示意图。

附图标记说明：

1300、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

首先对本实施方式中的一些名词做以下解释说明：

ROI(region of interest)：感兴趣区域。

图像掩膜：用选定的图像、图形或物体，对处理的图像(全部或局部)进行遮挡，来控制图像处理的区域或处理过程。用于覆盖的特定图像或物体称为掩模或模板。光学图像处理中,掩模可以是胶片、滤光片等。数字图像处理中,掩模为二维矩阵数组,有时也用多值图像。数字图像处理中,图像掩模主要用于：①提取感兴趣区,用预先制作的感兴趣区掩模与待处理图像相乘,得到感兴趣区图像,感兴趣区内图像值保持不变,而区外图像值都为0。②屏蔽作用,用掩模对图像上某些区域作屏蔽,使其不参加处理或不参加处理参数的计算,或仅对屏蔽区作处理或统计。③结构特征提取,用相似性变量或图像匹配方法检测和提取图像中与掩模相似的结构特征。④特殊形状图像的制作。

锚框：目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法：它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)。

RPN(Region-Proposal Network)：Mask-RCNN的一个核心网络。

请参阅图1至图12，在本实施方式中，一种基于Mask-RCNN船舶目标定位方法的具体实施如下：

步骤S101：获取船舶图片数据集。

步骤S102：提取所述船舶图片数据集中的特征区域。

步骤S103：采用RPN对所述特征区域进行处理。

步骤S104：对经过RPN处理后的特征区域采用ROI_Align进一步处理。

步骤S105：将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络。

请参阅图2，步骤S101具体可采用如下方式：对采集的船舶图片数据集统一生成512*512大小，调用labme对图像中的船舶目标所在的区域进行标注。

标注好后，执行步骤S102，其中步骤S102具体可采用如下方式：运用Resnet50/101主干网络对数据集图片进行分类提取多个特征区域。

提取好特征区域后，执行步骤S103，其中步骤S102具体可采用如下方式：根据L1和L2范数相结合的损失函数及softnms的锚框选择机制计算船舶图片数据集特征区域所在位置。具体可如下：将所述特征区域与RPN网络对接，在RPN网络中实现锚框的生成，以及采用了softnms对锚框的筛选，剔除负样本，留下正样本区域(即ROI)。

对经过步骤S103中RPN处理后的特征区域再进一步采用ROI_Align进行处理，为生成掩膜提供所需的ROI输入。

经过PRN和ROI_Align双重处理后，通过双路上采样的方法构建掩膜生成网络。具体可如下：对每个ROI区域，经过三次卷积和池化，并构成双路上采样；把双路激活合并成一路，并乘上一个共享权重，构建掩膜生成网络。

通过采用RPN对所述特征区域进行处理；对经过RPN处理后的特征区域采用ROI_Align进一步处理；将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络。双路采样的使用，使得在通道数保持不变的前提下，图像的特征信息量增多了，描述图像的维度没有增加，只是每一维的信息量增加，提升了掩膜生成的准确性。

以下对上述涉及到的技术要点具体展开说明：

请参阅图3，本实方式中，所采用的RPN(Region-Proposal Network)是Mask-RCNN的一个核心网络，它是实现FPN特征层选择，实现ROI_Align的重要前导步骤。RPN网络是全卷积网络(FCN，fully-convolutional network)，可以针对生成检测建议框的任务进行端到端地训练，这样能够同时预测出目标的边界和分数，只需在卷积层上额外再增加了2个卷积层(全卷积层cls-Layer和reg-Layer)，reg-Layer用于预测特征区域的中心锚点对应的特征区域的坐标x，y和宽高w，h，cls-Layer用于判定该特征区域是前景还是背景，采用滑窗的处理方式可以保证reg-layer和cls-layer关联了全部特征空间。

在RPN网络输入端加了一个3*3*512*512的卷积层，这样就会得到11*11*512的输出，11*11的表示为特征区域大小，在原图中设定若干个11*11大黑框，每个大黑框里面设置了9个小颜色框，每个位置都有3*3＝9个锚，锚点位于3*3的滑窗的中心处，对于一个滑窗我们可以同时预测多个特征区域，假定有k个特征区域(即k个引用框)，每一个引用框可以通过尺寸、比例及滑窗中的锚点的唯一性确定，锚点可以理解为一个锚框或一个引用框。假设定义k＝9，即(128²,256²,512²)3种尺度和(1:1,1:2,2:1)3种比例，确定出当前滑窗位置对应的9个引用框。对于一幅W*H的特征图，对应W*H*k个锚点，所有的锚点都具有尺度不变性，如图4所示。这样就会产生11*11*9个不同位置的尺度比例的框，足以定位出所有目标物体。假设原图中有一个目标物体，通过平移黑框，就能定位目标物体到框中，并与目标的形状尺度较为接近。

在本实施方式中，设定计算Loss规则如下：

(1)计算Loss前必须先设置Anchors的正、负样本标定规则，假设Anchor对应的预测框(reference box)与GT(ground truth)的重叠度(IoU)＞0.7，则标记为正样本；假设Anchor对应的预测框(reference box)与GT(ground truth)的重叠度(IoU)＜0.3，则标记为负样本；余下的样本既不属于正样本也属于负样本，则不参与最终训练。

(2)训练RPN的损失函数包含计算回归损失和分类损失(即使用softmax loss)。

本实施方式中采用L₁范数与L₂范数相结合的梯度方式，主要是针对当预测框与ground truth差别过大时，梯度值不至于过大；当预测框与ground truth差别很小时，梯度值也能够足够小。当输入x小于1的部分使用L₁范数(公式1)，使梯度更平滑且求导方便，当输入x大于1的部分使用L₂范数(公式2)，有效的避免梯度爆炸，同时减少离群值的出现。

将检测框定位的损失函数设定为L_loc，预测平移缩放参数设定为t^u，真实平移缩放参数设定为v，通过比较两个参数的差别来评估检测框定位的损失率。如公式3：

通过公式1，2，3得出RPN的损失率(公式4)，其中p_i是预测的第i个锚是一个目标物体的概率，发现目标时p_i为1，否则p_i为0。t_i是预测RPN的包围框(t_x，t_y，t_w，t_h)4个坐标参数，t_i是对应于正锚点的GT(Ground Truth)坐标。L_cls是二分类(目标/非目标)的损失函数，L_reg是预测边界框和GT(Ground Truth)框的

损失函数。在这里L_reg即是L_cls，RPN的总损失率归一化由N_cls、N_reg和λ(平衡权重)合并得到，本发明将λ被设置为10，N_cls设为512，N_reg设为2500，这样设置可以使RPN的两部分loss值保持平衡，最后RPN通过训练获得一系列特征区域。

经过RPN处理所得到特征区域再由ROI_Align处理，为生成掩膜提供所需的ROI输入。ROI_Align由FastRcnn的ROI_Pooling改进而来，ROI_Align取消了量化操作，对于量化中产生的坐标为浮点数的像素，利用双线性插值计算其像素值，这样做的解决了由于使用池化后丢失一些特征点信息的问题。此外，我们通过实验发现，ROI_Align对拥有大量大目标的数据集中的提升效果比较明显。但是，在远距离小目标数量更多的数据集中表现并不理想，主要由于远距离小目标受非线性问题的影响更大(比如，同样是0.1个像素点的偏差，对于较大的目标而言显得微不足道，但是对于小目标，误差的影响就要高很多)。由于上述原因，在图5所示生成的顶层锚中，锚点无法定位远景中的小船目标。

为了解决上述定位小目标的问题，我们使RPN共生成261888个锚点，设定特征图像尺度为(32,64,128,256,512)，比例为[0.5,1,2]，MaskR-CNN中主干网络resnet生成的五个不同尺度的特征图输入到RPN网络，分别生成RoI。RPN网络通过五个不同尺度的特征图生成若干个Anchor-boxes，生成锚点数请见表1。

表1五种尺度特征图生成锚点数

Anchors in Level	Anchor-boxes	Shape of feature-maps
			Level 1	196608	[256,256]
Level 2	49152	[128,128]
			Level 3	12288	[64,64]
Level 4	3072	[32,32]
			Level 5	768	[16,16]

在本实施方式中，通过软非最大值抑制(soft-NMS)操作后保留将近共1000个ROI(1000为可更改参数)，由于步长(stride)的不同，分开分别对[Level 1,Level 2,Level 3,Level 4,Level 5]五个不同尺度的Feature-map对应的stride进行ROI_Align操作，经过此操作后产生的ROI，通过上述下采样结合soft-NMS的方式生成的ROI，解决了ROI_Align中对无法定位小目标的问题，通过以上方法，即生成的ROI包含了图中所有目标船支(如图6)，为后续的mask的生成提供了准确的输入源。

在本实施方式中，在训练过程中，我们将真实的掩膜缩小为14x14来计算损失函数，在推断过程中，我们将预测的掩膜放大为ROI边框的尺寸以给出最终的掩码结果，每个目标有一个掩膜。掩膜生成过程如图7。

掩膜的生成主要是在ROI_Align之后加入一系列的卷积操作，作用是将ROI_Align的输出维度扩大，这样在预测掩膜时会更加精确，运行参数请见表1。这个过程是通过ROI_Align生成的众多大小相同的输入ROI Feature-Map，每个融合特征层的输出通道都是256，用14*14大小的划分得到14*14*256的输出，图4中单向掩膜生成的输出是通过四层卷积操作，每一层由一个卷积层、归一化层，激活函数组成，最后接连接一个反卷积层得到掩膜。

在原始模型中生成的掩膜不能根据目标窗口动态给定，在进行小型船体检测时，掩膜生成分支进行实例分割时存在分割不精准或者将微小干扰物也掩膜出来等问题，针对这些问题，我们提出了改进的掩膜生成结构。

本实施方式中对原有掩膜分支进行了改进。对于每个ROI区域x，经过三次卷积和池化，此时有

其中

为权重向量，b_1j，b_2j，b_3j为偏置量。本发明采用随机梯度下降算法来最小化期望风险。其成本函数如下

因此SGD的参数更新的规则为

此时再对输出结果x′，x″进行上采样还原得到新的x′，x″，即

x′＝upsampling(x′)，x″＝upsampling(x″) (7)

其中upsampling()为上采样函数。再经过一次卷积和池化过程后，通过激活函数线性整流(relu)函数得到输出结果f₁(x)，f₂(x)，具体如下

其中

为第三次卷积的权重，b_j为偏置量，relu为激活函数。最后对f₁(x)和f₂(x)进行合并后乘上由TimeDistributed层操作得到的共享权重λ，最终得出分割结果f(x)，即

f(x)＝mask(f₁(1)+f₂(2))·λ (9)

如图8所示，改进的掩膜生成过程主要是为了让每个ROI的掩膜分割的效果更好，池化层1和3相连，池化层3由池化层1卷积得来，且连接池化层2，池化层1和3分别连着上采样层，这样就构成了双路上采样，最后把双路激活并合并成为一路后乘上一个共享权重λ，从而生成掩膜。双路采样的使用，在通道数保持不变的前提下，图像的特征信息量增多了，描述图像的维度没有增加，只是每一维的信息量增加，这显然是对最终的掩膜生成是有益的。

在本实施方式中的共享权重λ是ongoing通过TimeDistributed层操作得到，将TimeDistributed层把掩膜生成的分支处理，应用到一个具体的向量上，并对每一个向量进行了一个操作且不增加最终的输出向量。TimeDistributed层在每个时间片上分别进行上采样、卷积、归一化、池化等操作，通过一系列操作，最后得到一个结果即为共享权重。共享权重生成如图9所示。

改进掩膜生成过程中，通过TimeDistributed_Layer1、TimeDistributed_Layer2、TimeDistributed_Layer3，三层通过不同时间片的操作分别定义为f₁(x)，f₂(x)，f₃(x)分别生成输出权重为P₁、P₂、P₃，输出权重值分别为其对应输入权重的两倍，如公式8。

公式7中所需的共享权重λ，具体表示为logP_t(f_t(x))如公式9所示。

logP_t(f_t(x))＝∑logP_t(f_t(x)|f₁(x)，f₂(x)，f₃(x)，...，f_n(x)) (9)

请参阅图10至图12，在本实施方式中分别对三种不同船型进行检测，分别使用远洋货轮、近岸渔船、大型军舰进行检测。其中图a为大小为512×512的原始图像，图b为9种由深到浅不同颜色的锚框设置，图c为提取最顶层的锚框，图d为对图像边缘进行剪切后余下的锚框，图e为提取的ROI，图f为对目标图像生成的掩膜(mask)。图a至f效果图反映出本发明网络模型中rpn-box的设置、提取roi及生成mask的过程效果。

在原有模型中生成的掩膜不能根据目标窗口动态给定，在进行远距离船体检测时，掩膜生成分支进行实例分割时存在分割不精准或者将微小干扰物也掩膜出来等问题。而在本实施方式中，对于每个ROI区域x，经过三次卷积和池化，并构成了双路上采样，最后把双路激活合并成为一路后再乘上一个共享权重λ，从而生成掩膜。双路采样的使用，在通道数保持不变的前提下，图像的特征信息量增多了，描述图像的维度没有增加，只是每一维的信息量增加，提升了掩膜生成的准确性。

进一步的，现有技术中对远距离小目标数量更多的数据集的目标定位框的生成处理表现并不理想，主要由于远距离小目标受非线性问题的影响更大(比如，同样是0.1个像素点的偏差，对于较大的目标而言显得微不足道，但是对于小目标，误差的影响就要高很多)。

本实施方式采用L₁范数与L₂范数相结合的梯度方式，主要是针对当预测框与ground truth差别过大时，梯度值不至于过大；当预测框与ground truth差别很小时，梯度值也能够足够小。当输入x小于1的部分使用L₁范数，使梯度更平滑且求导方便，当输入x大于1的部分使用L₂范数，有效的避免梯度爆炸，同时减少离群值的出现。采用L1和L2范数相结合的损失函数及softnms的锚框选择机制，准确计算特征区域所在位置，精确定位出船舶目标位置

进一步的，经过RPN处理所得到特征区域再由ROI_Align处理，为生成掩膜提供所需的ROI输入。ROI_Align由FastRcnn的ROI_Pooling改进而来，原有使用ROI_Pooling使得图像边缘像素丢失。改进使用ROI_Align，取消了量化操作，对于量化中产生的坐标为浮点数的像素，利用双线性插值计算其像素值，这样做的解决了由于使用池化后丢失一些特征点信息的问题。

请参阅图13，在本实施方式中，一种存储设备1300的具体实施方式如下：

一种存储设备1300，其中存储有指令集，所述指令集用于执行：获取船舶图片数据集；提取所述船舶图片数据集中的特征区域；采用RPN对所述特征区域进行处理；对经过RPN处理后的特征区域采用ROI_Align进一步处理；将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络。

通过执行存储设备1300上的指令集执行如下指令：采用RPN对所述特征区域进行处理；对经过RPN处理后的特征区域采用ROI_Align进一步处理；将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络。双路采样的使用，使得在通道数保持不变的前提下，图像的特征信息量增多了，描述图像的维度没有增加，只是每一维的信息量增加，提升了掩膜生成的准确性。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于Mask-RCNN船舶目标定位方法，其特征在于，包括如下步骤：

获取船舶图片数据集；

提取所述船舶图片数据集中的特征区域；

采用RPN对所述特征区域进行处理；

对经过RPN处理后的特征区域采用ROI_Align进一步处理；

将经过ROI_Align进一步处理后的特征区域作为ROI输入，并通过双路上采样的方法构建掩膜生成网络；

所述“并通过双路上采样的方法构建掩膜生成网络”，还包括步骤：

对每个ROI区域，经过三次卷积和池化，并构成双路上采样，其中池化层1与池化层3相连，池化层3由池化层1卷积得来，且池化层3连接池化层2，池化层1和3分别连接着上采样层，就构成了双路上采样；

把双路激活合并成一路，并乘上一个共享权重，构建掩膜生成网络；

其中共享权重是ongoing通过TimeDistributed层操作得到，将TimeDistributed层把掩膜生成的分支处理，应用到一个具体的向量上，并对每一个向量进行了一个操作且不增加最终的输出向量，TimeDistributed层在每个时间片上分别进行一系列预设操作，得到一个结果即为共享权重。

2.根据权利要求1所述的一种基于Mask-RCNN船舶目标定位方法，其特征在于，所述“提取所述船舶图片数据集中的特征区域”，还包括步骤：

采用Resnet50/101主干网络对所述船舶图片数据集进行分类提取多个特征区域。

3.根据权利要求1所述的一种基于Mask-RCNN船舶目标定位方法，其特征在于，所述“采用RPN对所述特征区域进行处理”，还包括步骤：

根据L1和L2范数相结合的损失函数及softnms的锚框选择机制计算船舶图片数据集特征区域所在位置。

4.一种存储设备，其中存储有指令集，其特征在于，所述指令集用于执行：

获取船舶图片数据集；

提取所述船舶图片数据集中的特征区域；

采用RPN对所述特征区域进行处理；

对经过RPN处理后的特征区域采用ROI_Align进一步处理；

5.根据权利要求4所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“提取所述船舶图片数据集中的特征区域”，还包括步骤：

6.根据权利要求4所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“采用RPN对所述特征区域进行处理”，还包括步骤：