CN112417961B

CN112417961B - 一种基于场景先验知识的海面目标检测方法

Info

Publication number: CN112417961B
Application number: CN202011122034.XA
Authority: CN
Inventors: 骆祥峰; 郭银赛; 陈雪
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2023-02-10
Anticipated expiration: 2040-10-20
Also published as: CN112417961A

Abstract

本发明公开了一种基于场景先验知识的海面目标检测方法，首先输入高分辨率相机获取的图片；再从Faster‑RCNN的骨干特征网络中提取整张图片的特征图；然后在特征图上获取目标类别注意力权重矩阵；再经过区域定位网络得到特征图的候选区域特征F_H；然后在整张图像的目标候选区域中增加场景先验知识Fz；再在目标候选区域上进行分类及回归，获得分类器权重矩阵；然后进行场景类别关联度计算，得到场景类别关联矩阵R；再得到融合场景先验知识与场景关联的候选区域特征，并对其进行分类及回归，得到检测目标的类别及位置。与传统的方法相比，该专利利用场景先验知识，更容易检测出海面的弱小目标，降低视觉观测的不确定性，提高海面目标检测的准确率。

Description

一种基于场景先验知识的海面目标检测方法

技术领域

本发明涉及一种海面目标检测方法，具体是涉及了专家知识及场景知识等，级联融合目标类别注意力权重，目标类别关联特征及场景先验知识的特征，是一种基于场景先验知识的海面目标检测方法。

背景技术

目前应用最广的海面目标检测方法是单纯的基于深度神经网络的特征提取及检测，包括 One-stage和Two-stage模型。One-stage模型根据神经网络直接预测及回归目标类型及位置，Two-stage模型根据预先定义的区域，筛选出候选的区域，然后再根据神经网络预测及回归目标类型及位置。

但是仅仅使用基于深度神经网络的特征提取及检测时，存在以下不足：

1.基于深度神经网络的目标特征提取时，不能充分利用低维度信息：颜色，纹理，形状等，导致获取的目标特征不完善。

2.基于深度神经网络的目标特征提取时，目标与目标直接的关联性无法提取，易导致目标检测的不确定性。

发明内容

为了解决现有技术问题，本发明的目的在于针对基于深度神经网络的海面目标特征提取的不足，提供一种基于场景先验知识的海面目标检测方法，该计算方法以专家知识及场景知识等为先验知识，级联融合候选区域特征，目标类别关联特征及专家知识定义的特征，提高海面目标检测的准确度。

为了达到上述的目的，本发明的构思如下：

首先获得图片特征图的目标注意力权重，然后通过分类器获得目标分类器权重矩阵，即场景类别特征分布；再者利用海洋目标关系获得场景类别关联矩阵，最终级联融合候选区域特征，场景类别特征分布，目标类别关联特征及场景先验知识的特征，以实现海面目标检测。

根据上述发明构思，本发明采用如下技术方案：

一种基于场景先验知识的海面目标检测方法，具体步骤如下：

(1)输入高分辨率相机获取的图片；

(2)从Faster-RCNN的骨干特征网络中提取整张图片的特征图；

(3)在特征图上获取目标类别注意力权重矩阵；

(4)经过区域定位网络得到特征图的候选区域特征F_H；

(5)根据坐标转换将候选区域映射到整张图像的目标候选区域中，并增加场景先验知识 Fz；

(6)在目标候选区域上进行分类及回归，获得分类器权重矩阵，即场景类别特征分布；

(7)根据海面目标类别关系进行场景类别关联度计算，得到场景类别关联矩阵R；

(8)级联目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，得到融合场景先验知识与场景关联的候选区域特征，并对其进行分类及回归，得到检测目标的类别及位置。

优选地，所述步骤(3)中的在特征图上获取目标类别注意力权重矩阵，其目标类别注意力权重矩阵计算式如下：

α＝softmax(H×W_c×D^T)

其中，H是整张图片的特征图；W_c是维度变换操作矩阵，DT代表场景类别特征分布转置。优选所述场景先验知识为低维视觉特征；颜色、纹理和形状，将其加入到候选区域的特征中，这样可以将人工定义的场景低维视觉特征与深度学习得到的特征相融合，以增强检测模型的鲁棒性。

优选地，所述步骤(5)中在候选区域中增加场景先验知识，其场景先验知识Fz为低维视觉特征：颜色、纹理和形状。根据坐标转换将候选区域映射到整张图像的目标候选区域中，并增加场景先验知识Fz为低维视觉特征、颜色、纹理和形状。

优选地，所述步骤(7)场景类别关联矩阵计算公式为：

R＝rA_ij+βL_ij

其中，R代表场景类别关联矩阵；r、β分别代表检测任务中视觉外观属性关联度与目标类别间位置关联度的重要程度；A_ij代表类别i与j的视觉外观属性关联度；L_ij代表目标类别间位置关联度。

优选地，所述步骤(8)中的目标类别关联特征计算公式如下：

F_r＝P×(α*R×D)×E

其中，F_r代表海面目标类别关联特征矩阵，维度为N×M，N代表候选区域个数，M代表特征维度；P代表候选区域的分类概率分布矩阵，维度为N×C，C为场景类别个数；α代表整张图片的特征图计算得到的类别注意力权重矩阵，维度为1×C；R代表场景类别关联矩阵，维度为C×C；D代表场景类别特征分布矩阵，维度为C×K，K代表区域候选特征的特征维度；E代表维度变换矩阵，维度为K*M，此处α与R做的*运算是类别通道上的对位相乘。

优选地，所述步骤(8)中级联目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，即使用Concat函数Concat＝F_H∪F_r∪F_Z拼接目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，然后采用目标类别分类器及回归器获得目标的类别概率向量p及位置(x，y，w，h)其中x，y代表矩形框得中心坐标，w，h代表矩形框的宽和高。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明方法将场景先验知识(低维视觉特征)颜色、纹理和形状加入到候选区域的特征中，这样可以将人工定义的场景低维视觉特征与深度学习得到的特征相融合，以增强检测模型的鲁棒性；

2.本发明方法增加目标类别注意力机制，以增强与场景有关目标的特征，排除无关目标及背景，以提高模型的准确性；

3.本发明方法引入目标之间的关联程度，以减少视觉观测的不确定性，进一步提升海面多尺度目标检测的准确率及目标分类的置信度；

4.本发明方法简单易行，成本低，适合推广使用。

附图说明

图1为本发明基于场景先验知识的海面目标检测方法的流程图。

图2为本发明方法使用高分辨率相机采集的一张相片。

图3为利用本发明方法获取的检测结果照片。

具体实施方式

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，参见图1，一种基于场景先验知识的海面目标检测方法，具体步骤如下：

(1)输入高分辨率相机获取的图片；

(2)从Faster-RCNN的骨干特征网络中提取整张图片的特征图；

(3)在特征图上获取目标类别注意力权重矩阵；

(4)经过区域定位网络得到特征图的候选区域特征F_H；

本实施例方法以专家知识及场景知识等为先验知识，级联融合候选区域特征，目标类别关联特征及专家知识定义的特征，提高海面目标检测的准确度。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，参见图1，所述步骤(3)中的在特征图上获取目标类别注意力权重矩阵，其目标类别注意力权重矩阵计算式如下：

α＝softmax(H×W_c×D^T)

其中，H是整张图片的特征图；W_c是维度变换操作矩阵，DT代表场景类别特征分布转置。

在本实施例中，所述步骤(5)中在候选区域中增加场景先验知识，其场景先验知识Fz为低维视觉特征：颜色、纹理和形状。

在本实施例中，所述步骤(7)场景类别关联矩阵计算公式为：

R＝rA_ij+βL_ij

在本实施例中，所述步骤(8)中的目标类别关联特征计算公式如下：

F_r＝P×(α*R×D)×E

在本实施例中，所述步骤(8)中级联目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，即使用Concat函数Concat＝F_H∪F_r∪F_Z拼接目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，然后采用目标类别分类器及回归器获得目标的类别概率向量p及位置(x，y，w，h)其中x，y代表矩形框得中心坐标，w，h代表矩形框的宽和高。

本实施例方法将具有低维视觉特征的场景先验知识的颜色、纹理和形状加入到候选区域的特征中，这样可以将人工定义的场景低维视觉特征与深度学习得到的特征相融合，以增强检测模型的鲁棒性；本实施例方法增加目标类别注意力机制，以增强与场景有关目标的特征，排除无关目标及背景，以提高模型的准确性。

实施例三：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，参见图1，数据训练集为实际采集的801张图片，测试集为实际采集的 204张图片，采用本发明提出的基于场景先验知识的海面目标检测方法，按照如下步骤实施：

(1)输入高分辨率相机获取的图片如图2；

(2)从Faster-RCNN的骨干特征网络中提取整张图片的特征图；

(3)在整张图片特征图上获取目标类别注意力权重，其目标类别注意力权重计算式如下：

α＝softmax(H×W_c×D^T)

其中，H是整张图片的特征图；W_c是维度变换操作矩阵，D^T代表场景类别特征分布转置。

(4)经过区域定位网络得到特征图的候选区域特征F_H；

(6)在特征图的目标候选区域上进行分类及回归，获得分类器权重矩阵，即场景类别特征分布；

(7)根据海面目标类别关系进行场景类别关联度计算，得到场景类别关联矩阵R；其计算公式如下：

R＝rA_ij+βL_ij

其中，R代表场景目标类别关联矩阵；r、β分别代表检测任务中视觉外观属性关联度与目标类别间位置关联度的重要程度；A_ij代表类别i与j的视觉外观属性关联度；L_ij代表目标类别间位置关联度。

(8)级联目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，得到融合场景先验知识与场景关联的候选区域特征，即使用Concat函数Concat＝F_H∪F_r∪F_Z拼接目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，然后采用目标类别分类器及回归器获得目标的类别概率向量p及位置坐标(x，y，w，h)，其中x，y代表矩形框得中心坐标，w， h代表矩形框的宽和高，如图3所示。

其中目标类别关联特征F_r，其计算式如下：

F_r＝P×(α*R×D)×E

其中，F_r代表海面目标类别关联特征，矩阵维度为N×M，N代表候选区域个数，M代表特征维度；P代表候选区域的分类概率分布，矩阵维度为N×C，C为场景类别个数；α代表整张图片的特征图计算得到的类别注意力，矩阵维度为1×C；R代表场景类别关联矩阵，矩阵维度为C×C；D代表场景类别特征分布，矩阵维度为C×K，K代表区域候选特征的特征维度；E代表维度变换矩阵，矩阵维度为K*M。此处α与R做的*运算是类别通道上的对位相乘。

采用表1海面目标检测准确率对比实验。对比方法包括基于区域定位网络的Faster-RCNN，结合特征金字塔FPN的Faster-RCNN+FPN，采用ResNet+FPN+2xFCN子网络构成的Retina+FPN，其中1x代表Simpledet框架中数据集循环6轮，IoU表示预测框与真实框相似性。上述网络的主干网络都采用101层的深度残差网络Restnet101。IoU从0.50到 0.95及数据集循环1x到2x分布中，可以看出仅仅基于神经网络的模型Faster-RCNN， Faster-RCNN+FPN，Retina+FPN的检测准确率低于本发明提出的基于场景先验知识的海面目标检测方法。

表1.海面目标检测准确率对比实验

模型	IoU＝0.50	IoU＝0.75	IoU＝0.95
				Faster-RCNN(1x)	0.835	0.431	0.441
Faster-RCNN(2x)	0.872	0.552	0.520
				Faster-RCNN+FPN(1x)	0.907	0.549	0.517
Faster-RCNN+FPN(2x)	0.917	0.618	0.568
				Retina+FPN(1x)	0.872	0.482	0.482
Retina+FPN(2x)	0.890	0.587	0.536
				实施例三方法	0.958	0.800	0.687

本实施例基于场景先验知识的海面目标检测方法，输入高分辨率相机获取的图片；然后从Faster-RCNN的骨干特征网络中提取整张图片的特征图；然后在特征图上获取目标类别注意力权重矩阵；然后经过区域定位网络得到特征图的候选区域特征F_H；再根据坐标转换将候选区域映射到整张图像的目标候选区域中，并增加场景先验知识Fz；任何在目标候选区域上进行分类及回归，获得分类器权重矩阵，即场景类别特征分布；再根据海面目标类别关系进行场景类别关联度计算，得到场景类别关联矩阵R；采用级联目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，得到融合场景先验知识与场景关联的候选区域特征，并对其进行分类及回归，得到检测目标的类别及位置。与传统的方法相比，本实施例方法利用场景先验知识，更容易检测出海面的弱小目标，降低视觉观测的不确定性，提高海面目标检测的准确率。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于场景先验知识的海面目标检测方法，其特征在于，具体步骤如下：

(1)输入高分辨率相机获取的图片；

(2)从Faster-RCNN的骨干特征网络中提取整张图片的特征图；

(3)在特征图上获取目标类别注意力权重矩阵；

(4)经过区域定位网络得到特征图的候选区域特征F_H；

(5)根据坐标转换将候选区域映射到整张图像的目标候选区域中，并增加场景先验知识Fz；

(8)级联目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，得到融合场景先验知识与场景关联的候选区域特征，并对其进行分类及回归，得到检测目标的类别及位置；

所述步骤(8)中的目标类别关联特征计算公式如下：

F_r＝P×(α*R×D)×E

2.按权利要求1所述的基于场景先验知识的海面目标检测方法，其特征在于：所述步骤(3)中的在特征图上获取目标类别注意力权重矩阵，其目标类别注意力权重矩阵计算式如下：

α＝softmax(H×W_c×D^T)

3.按权利要求1所述的基于场景先验知识的海面目标检测方法，其特征在于：所述步骤(5)中在候选区域中增加场景先验知识，其场景先验知识Fz为低维视觉特征：颜色、纹理和形状。

4.按权利要求1所述的基于场景先验知识的海面目标检测方法，其特征在于：所述步骤(7)场景类别关联矩阵计算公式为：

R＝rA_ij+βL_ij

5.按权利要求1所述的基于场景先验知识的海面目标检测方法，其特征在于：所述步骤(8)中级联目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，即使用Concat函数Concat＝F_H∪F_r∪F_Z拼接目标类别关联特征F_r，场景先验知识的特征F_Z及候选区域特征F_H，然后采用目标类别分类器及回归器获得目标的类别概率向量p及位置(x,y,w,h)，其中x，y代表矩形框的中心坐标，w，h代表矩形框的宽和高。