CN111368769B

CN111368769B - 基于改进锚点框生成模型的船舶多目标检测方法

Info

Publication number: CN111368769B
Application number: CN202010163534.1A
Authority: CN
Inventors: 周慧; 严凤龙; 王万里
Original assignee: Dalian Neusoft University of Information
Current assignee: Dalian Neusoft University of Information
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2024-03-12
Anticipated expiration: 2040-03-10
Also published as: CN111368769A

Abstract

本发明提供一种基于改进锚点框生成模型的船舶多目标检测方法，包括：获取SAR船舶图像；构建低复杂度网络架构，并将图像放入低复杂度网络中，生成特征映射空间；采用基于形状相似度的聚类方法生成初始锚点框；以生成的初始锚点框为基础，采用滑窗机制在低复杂度特征空间中生成新的候选框，对候选框进行回归训练，用于船舶多目标检测。本发明解决了因网络复杂、候选框质量差造成的算法效率和检测质量低的问题，具有较好的准确性。由于采用低复杂度网络架构进行检测，因此从统计分析角度而言，数据采集量越大，也即检测次数越多，检测的效果越好。

Description

基于改进锚点框生成模型的船舶多目标检测方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于改进锚点框生成模型的船舶多目标检测方法。

背景技术

SAR图像中多为多目标多尺度船舶，准确检测不同尺度的目标也是计算机视觉中的基本挑战。目前，许多目标检测模型依赖于主干卷积神经网络，在图像分类任务上预先训练，以便提取输入图像的特征图，利用最后一层特征向量进行目标定位和分类。但最后一层卷积层不足以处理规模多样的边界框，同时通常还会丢失底层的定位信息。同时，SAR图像中船舶目标检测还关注近海港口、岛屿等复杂场景下提高多目标船舶检测的准确率，因此主要采用准确率更高的目标检测模型。Two-stage方法通过图像的分类损失和边界框的回归损失构建多任务损失函数实现目标检测。在训练网络时主要训练两个部分，第一步是训练RPN网络，通过卷积神经网络对图片进行特征提取，映射出特征图(feature map)，此卷积神经网络称为主干网络，典型的主干网络包括VGGNet、ResNet等；再通过RPN网络产生候选区域，同时也会完成图片背景和目标这两种类型的分类。第二步是训练目标区域检测的网络，即对候选区域的位置进行定位和修正，获取选中候选区域中的目标在特征图(featuremap)上映射的区域，经过全连接层，得到对应的特征向量，并通过分类和回归两个分支分别实现对目标的定位和类别判定。基于候选框的目标检测模型都是只采用顶层特征做预测，如SPP net，Fast RCNN，Faster RCNN等。基于卷积神经网络提取的特征图，低层的特征语义信息比较少，但是定位信息较多，目标位置准确，更有利于检测小物体；高层的特征语义信息比较丰富，但是目标位置比较粗略。将语义信息充分的高层特征映射到分辨率较大、细节信息充分的底层特征，并将各层特征融合用于提升小目标的检测效果。目前的检测模型主干网络多数是VGG、ResNet等结构较为复杂，参数量大，影响算法效率，同时容易产生过拟合问题。无论是哪种Two-stage类的检测网络上，检测出不同尺寸的船舶目标与基于Anchorboxes产生的候选框质量有直接关系。因此优化锚点框生成机制有利于提升SAR图像中多目标船舶检测的准确率。

发明内容

本发明提供一种基于改进锚点框生成模型的船舶多目标检测方法，其特征在于，包括：

获取SAR船舶图像；

构建低复杂度网络架构，并将图像放入低复杂度网络中，生成特征映射空间；

采用基于形状相似度的聚类方法生成初始锚点框；

以生成的初始锚点框为基础，采用滑窗机制在低复杂度特征空间中生成新的候选框，对候选框进行回归训练，用于船舶多目标检测。

进一步地，所述构建低复杂度网络架构，包括：

构建由五层卷积层和五层池化层构成的低复杂度的主干网络架构；

利用卷积和下采样将SAR船舶图像映射到低复杂度特征空间，得到特征映射图；

进一步地，所述采用基于形状相似度的聚类方法生成初始锚点框，包括：

获取船舶目标真实边框的形状；

计算不同的真实边框之间的形状距离；

利用kmeans算法根据真实边框以及不同的真实边框的形状距离生成初始锚点框；

进一步地，采用滑窗机制在低复杂度特征空间中生成新的候选框，包括：

在低复杂度特征映射图进行滑窗操作得到候选框；

通过非极大值抑制找到交并比最大的候选框并进行回归训练；

通过分类损失函数和定位目标框的回归损失函数生成新的候选框；

进一步地，所述构建低复杂度网络架构，包括：

所述利用卷积和下采样将SAR船舶图像映射到低复杂度特征空间，得到特征映射图，其特征在于，

由船舶图像到特征映射图的过程可表示为：

C5[7,7,512]＝max_pooling(C4[4,14,512]×kernel[[3,3,5122],512])

P1[112,112,256]＝UpSampling(C2)+(C1[112,112,64]×kernel[[1,1,64],256])

其中，Img表示输入的SAR船舶图像，{C1,C2,C3,C4,C5}表示网络结构对应的五层卷积，maxpooling表示池化层，kernel表示卷积核的大小，UpSampling表示上采样，{P1,P2,P3,P4,P5}为生成的特征映射图，[*]表示的是各层输入的尺寸，分别对应长，宽，高。

所述计算不同边框之间的形状距离，其特征在于：

形状距离可表示为：

其中，GT＝(x_g,y_g,w_g,h_g)表示4维的真实边框，分别是x轴坐标，y轴坐标，宽度，高度，I，j表示不同边框的标号，K表示真实边框的个数。

所述利用kmeans算法根据真实边框以及不同边框的形状距离生成初始锚点框，其特征在于：

1)随机选择k个GroundTruth，GT_k＝(x_g,y_g,w_g,h_g)为初始簇类中心。

2)然后通过计算其他所有样本与k个簇类中心的形状距离d_形状距离(GT_i,GT_j)，根据最近距离确定每个样本的簇标签。

3)所有样本得到簇标签后，根据向量均值更新簇中心(x’_g,y’_g,w’_g,h’_g)。

4)重新进行第2)和第3)步，直到簇类中心不发生变化。则该k个簇类中心即为对应的新的锚点框A＝(x_a,y_a,w_a,h_a)。

所述通过分类损失函数和定位目标框的回归损失函数生成新的候选框，其特征在于：

损失函数可表示为:

其中L_cls(p_i,u_i)是分类损失函数，L_cls(p_i,u_i)＝-logp_iu_i，每个候选框的概率分布p_i＝(p₀,p₁,...p_k),k为舰船目标类型，u_i为候选框的预测概率，如果计算候选框为正标签，则u_i＝1，如果为负标签，则u_i＝0。Ncls表示分类损失函数的权重值，Nreg表示回归损失函数的权重值。λ为正则化参数用于合理确定多任务损失函数中各任务的权重，通过训练，可以优化损失函数。f(u_i)为指示函数，如果[u_i≥1]，则计算，否则不计算。L_reg(v_i,v_i ^*)是定位目标框损失函数。

每个候选框的概率分布可表示为：

其中和/>是最后一个FC层的第i个和第j个输出值。K表示卷积核的个数。

定位目标框损失函数可表示为：

L_reg(v_i,v_i ^*)是定位目标框损失函数，其中smooth_L1(x)为L1范数的光滑函数。v_i和v_i ^*分别由预测框(x,y,w,h)，聚类锚点框(x_a,y_a,w_a,h_a)和真实框(x_g,y_g,w_g,h_g)计算得到,Vx,Vy,Vw,Vh分别表示v_i ^*的x轴坐标，y轴坐标，宽，高，v_i ^*同理可得，v_i和v_i ^*即为最终的检测结果。

本发明解决了因网络复杂、候选框质量差造成的算法效率和检测质量低的问题，提升SAR图像中多目标船舶检测的准确率。并且由于采用低复杂度网络架构进行检测，因此从统计分析角度而言，数据采集量越大，也即检测次数越多，检测的效果越好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于改进锚点框生成模型的船舶多目标检测方法流程示意图；

图2为本发明为本发明一种基于改进锚点框生成模型的船舶多目标检测方法的详细流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

获取SAR船舶图像；

构建低复杂度网络架构；

采用基于形状相似度的聚类方法生成初始锚点框；

采用滑窗机制在低复杂度特征空间中生成新的候选框，候选框标记的即为检测到的目标。

所述构建低复杂度网络架构，其特征在于，包括：

所述采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，包括：

获取船舶目标真实边框的形状；

计算不同边框之间的形状距离；

利用kmeans算法根据真实边框以及不同边框的形状距离生成初始锚点框；

所述采用滑窗机制在低复杂度特征空间中生成新的候选框，其特征在于，包括：

在低复杂度特征映射图进行滑窗操作得到候选框；

具体来说，如图2所示，首先搭建低复杂度主干网络中形成{C1,C2,C3,C4,C5}层，再通过自顶向下的路径进行上采样，{C1,C2,C3,C4,C5}与上采样结果横向连接，形成新的特征映射{P1,P2,P3,P4,P5}；然后采用形状相似度聚类算法生成不同尺度的锚点框；新生成的锚点框在特征映射图上滑动，得到大量的候选框，对候选框进行回归训练，实现船舶目标检测。

更具体的，所述构建低复杂度网络架构，其特征在于，所述利用卷积和下采样将SAR船舶图像映射到低复杂度特征空间，得到特征映射图，包括：

由船舶图像到特征映射图的过程可表示为：

P1[112,112,256]＝UpSampling(C2)+(C1[112,112,64]×kernel[[1,1,64],256])

更具体的，所述采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，所述计算不同边框之间的形状距离，包括：

形状距离可表示为：

其中，GT＝(x_g,y_g,w_g,h_g)表示4维的真实边框，分别是x轴坐标，y轴坐标，宽度，高度。I，j表示不同边框的标号。K表示真实边框的个数。

更具体的，所述采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，所述利用kmeans算法根据真实边框以及不同边框的形状距离生成初始锚点框，包括：

更具体的，所述采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，所述通过分类损失函数和定位目标框的回归损失函数生成新的候选框，包括：

损失函数可表示为:

每个候选框的概率分布可表示为：

定位目标框损失函数可表示为：

L_reg(v_i,v_i ^*)是定位目标框损失函数，其中smooth_L1(x)为L1范数的光滑函数。v_i和v_i ^*分别由预测框(x,y,w,h)，聚类锚点框(x_a,y_a,w_a,h_a)和GroundTruth(x_g,y_g,w_g,h_g)计算得到,Vx,Vy,Vw,Vh分别表示v_i ^*的x轴坐标，y轴坐标，宽，高，v_i ^*同理可得。

更具体的，构建低复杂度的主干网络架构；

具体来说，原始SAR图像为224pixels*224pixels，构建低复杂度的主干网络架构。首先通过卷积核以扫描窗的方式对图像做卷积，每一层都包括多个核，并且有许多层产生相同大小的输出映射，将大小相同的输出映射定义为同一阶段。假设为第l-1层经过第i个卷积核对应的输出通道，卷积后采用分段线性函数ReLu(rectified linearunits)作为激励函数，得到输出矩阵/>

则为l层经过第j个卷积核对应的输出通道。其中，其中/>是l-1层到l层的第j个卷积核，/>为对应的偏移量。第l-1层有d个输出通道，可假设l-1层的特征矩阵为m₁×n₁×d，经过k个大小为3×3的卷积核，则l层的输出矩阵为m₂×n₂×k，其中，

m₂＝(m₁-3+2*padding)/stride+1

n₂＝(n₁-3+2*padding)/stride+1

零填充参数padding可设为1，保证每一层产生大小相同的输出映射。每一层的输出作为特征映射参考集。

池化层提供了一种平移不变的形式进行下采样，采用最大池化(max-pooling)能更好的保留感知野之间的互信息特性，池化层步长设为2，池化窗口大小为2*2，池化层的下采样操作形成了特征映射层。

将图像Img放入低复杂度主干网络中，形成{C1,C2,C3,C4,C5}层计算如下，

C5[7,7,512]＝max_pooling(C4[4,14,512]×kernel[[3,3,512],512])

kernel为待训练的卷积核。再通过自顶向下的路径进行上采样，{C1,C2,C3,C4,C5}经过1*1的卷积核(通道数为256)与上采样结果(UpSampling)横向连接，形成新的特征映射{P1,P2,P3,P4,P5}，

P1[112,112,256]＝UpSampling(C2)+(C1[112,112,64]×kernel[[1,1,64],256])

P1-P5最后又做了一次3*3的卷积，消除上采样带来的混叠效应。

采用基于形状相似度的聚类方法生成初始锚点框。

SAR图像中船舶目标存在尺度差异性，采用锚点框(Anchorboxes)在上述生成的每个特征层级上划窗操作，并均生成候选框。Anchor boxes的形状和大小是一组超参数，在实际SAR图像中目标的大小变化较多，采用基于形状相似距离衡量的K-means聚类算法来计算初始锚点框。

首先计算船舶目标真实边框(Ground truth)的形状，每一个Ground Truth都是4维向量GT＝(x_g,y_g,w_g,h_g)。然后计算目标边框之间形状差异。

根据上述三个距离计算形状距离为，

接着采用kmeans算法，基于Ground Truth，即GT＝(x_g,y_g,w_g,h_g)聚类出新的Anchor boxes初始框。

1)随机选择k个Ground Truth，GT_k＝(x_g,y_g,w_g,h_g)为初始簇类中心。

采用滑窗机制在低复杂度特征空间中生成新的候选框，

具体来说，新的锚点框A在生成的特征映射图{P1,P2,P3,P4,P5}的每一层进行划窗操作，得到大量的候选框R(x,y,w,h)，通过非极大值抑制找到交并比最大的候选框并进行回归训练。

(3)最后通过分类损失函数和定位目标框的回归损失函数实现船舶目标检测。利用全连接层全局感受视野，使用k个1×1×512的卷积核进行连接，经过三个全连接层，最后一个全连接层FC对应到Soft-max层，将最大值转化为概率，输出值p_i为，

其中和/>是最后一个FC层的第i个和第j个输出值。

多任务损失函数包括分类损失和由聚类锚点框带来的定位目标框回归损失，则损失函数定义为：

其中L_cls(p_i,u_i)是分类损失函数，L_cls(p_i,u_i)＝-logp_iu_i，每个候选框的概率分布p_i＝(p₀,p₁,...p_k),k为舰船目标类型，u_i为候选框的预测概率，如果计算候选框为正标签，则u_i＝1，如果为负标签，则u_i＝0。

λ正则化参数用于合理确定多任务损失函数中各任务的权重，通过训练，可以优化损失函数。f(u_i)为指示函数，如果[u_i≥1]，则计算，否则不计算。

L_reg(v_i,v_i ^*)是定位目标框损失函数，其中smooth_L1(x)为L1范数的光滑函数。v_i和v_i ^*分别由预测框(x,y,w,h)，聚类锚点框(x_a,y_a,w_a,h_a)和GroundTruth(x_g,y_g,w_g,h_g)计算，v_i和v_i ^*即为最终的检测结果。

本发明解决了因网络复杂、候选框质量差造成的算法效率和检测质量低的问题，具有较好的准确性。由于采用低复杂度网络架构进行检测，因此从统计分析角度而言，数据采集量越大，也即检测次数越多，检测的效果越好。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于改进锚点框生成模型的船舶多目标检测方法，其特征在于，包括：

获取SAR船舶图像；

构建低复杂度网络架构，并将所述船舶图像放入低复杂度网络中，生成特征映射空间；

采用基于形状相似度的聚类方法生成初始锚点框；

以生成的初始锚点框为基础，采用滑窗机制在低复杂度特征空间中生成新的候选框，对候选框进行回归训练，所述候选框用于船舶多目标检测；

采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，包括：

获取船舶目标真实边框的形状；

计算不同的真实边框之间的形状距离；

利用kmeans算法根据真实边框的形状以及不同的真实边框的形状距离生成初始锚点框；

所述计算不同边框之间的形状距离，包括：

形状距离可表示为：

其中，GT＝(x_g,y_g,w_g,h_g)表示4维的真实边框，分别是x轴坐标，y轴坐标，宽度，高度，I，j表示不同边框的标号，表示真实边框的个数；所述构建低复杂度网络架构，其特征在于，包括：

利用主干网络架构将SAR船舶图像映射到低复杂度特征空间，得到特征映射图；所述采用滑窗机制在低复杂度特征空间中生成新的候选框，包括：

在低复杂度特征映射图进行滑窗操作得到候选框；

通过分类损失函数和定位目标框的回归损失函数生成新的候选框；利用卷积和下采样将SAR船舶图像映射到低复杂度特征空间，得到特征映射图，包括：

由船舶图像到特征映射图的过程可表示为：

C1[112,112,64]＝max_pooling(Img[224,224,3]×kernel[[3,3,3],64])

C2[56,56,128]＝max_pooling(C1[112,112,64]×kernel[[3,3,64],128])

C3[28,28,256]＝max_pooling(C2[56,56,128]×kernel[[3,3,128],256])

C4[14,14,512]＝max_pooling(C3[28,28,256]×kernel[[3,3,512],512])

C5[7,7,512]＝max_pooling(C4[4,14,512]×kernel[[3,3,512],512])

P5[7,7,256]＝C5[7,7,512]×kernel[[1,1,512],256]

P4[14,14,256]＝UpSampling(C5)+(C4[14,14,512]×kernel[[1,1,512],256])

P3[28,28,256]＝UpSampling(C4)+(C3[28,28,256]×kernel[[1,1,256],256])

P2[56,56,256]＝UpSampling(C3)+(C2[56,56,128]×kernel[[1,1,128],256])

P1[112,112,256]＝UpSampling(C2)+(C1[112,112,64]×kernel[[1,1,64],256])

2.根据权利要求1所述的方法，所述采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，所述利用kmeans算法根据真实边框以及不同边框的形状距离生成初始锚点框，包括：

随机选择k个Ground Truth，GT_k＝(x_g,y_g,w_g,h_g)为初始簇类中心，通过计算其他所有样本与k个簇类中心的形状距离d_形状距离(GT_i,GT_j)，根据最近距离确定每个样本的簇标签，所有样本得到簇标签，根据向量均值更新簇中心(x’_g,y’_g,w’_g,h’_g)，直到簇类中心不发生变化，则该k个簇类中心即为对应的新的锚点框A＝(x_a,y_a,w_a,h_a)。

3.根据权利要求1所述的方法，所述采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，所述通过分类损失函数和定位目标框的回归损失函数生成新的候选框，包括：

损失函数可表示为:

其中，L_cls(p_i,u_i)是分类损失函数，L_cls(p_i,u_i)＝-log p_iu_i，每个候选框的概率分布p_i＝(p₀,p₁,...p_k),k为舰船目标类型，u_i为候选框的预测概率，如果计算候选框为正标签，则u_i＝1，如果为负标签，则u_i＝0，Ncls表示分类损失函数的权重值，Nreg表示回归损失函数的权重值，λ为正则化参数用于合理确定多任务损失函数中各任务的权重，通过训练，可以优化损失函数，f(u_i)为指示函数，如果[u_i≥1]，则计算，否则不计算，L_reg(v_i,v_i ^*)是定位目标框损失函数。

4.根据权利要求3所述的方法，所述采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，所述通过分类损失函数和定位目标框的回归损失函数生成新的候选框，包括：

每个候选框的概率分布可表示为：

其中和/>是最后一个FC层的第i个和第j个输出值，K表示卷积核的个数。

5.根据权利要求3所述的方法，所述采用基于形状相似度的聚类方法生成初始锚点框，其特征在于，所述通过分类损失函数和定位目标框的回归损失函数生成新的候选框，包括：

定位目标框损失函数可表示为：

L_reg(v_i,v_i ^*)＝smooth_L1(v_i-v_i ^*)

L_reg(v_i,v_i ^*)是定位目标框损失函数，其中smooth_L1(x)为L1范数的光滑函数，v_i和v_i ^*分别由预测框(x,y,w,h)，聚类锚点框(x_a,y_a,w_a,h_a)和真实框(x_g,y_g,w_g,h_g)计算得到,Vx,Vy,Vw,Vh分别表示v_i ^*的x轴坐标，y轴坐标，宽，高，v_i ^*同理可得。