CN115457360A

CN115457360A - 一种基于双注意力机制多源融合的水上目标检测方法

Info

Publication number: CN115457360A
Application number: CN202211132614.6A
Authority: CN
Inventors: 张卫东; 仓乃梦; 陆锦辉; 熊明磊; 史颂华; 何伟; 苗建明; 王元慧
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2022-09-17
Filing date: 2022-09-17
Publication date: 2022-12-09

Abstract

本发明涉及一种多源传感器信息融合的目标检测方法，具体涉及一种基于双注意力机制多源融合的水上目标检测方法，包括：构建雷达图像生成模型和特征提取模型，并生成2D注意力矩阵；构建视觉图像特征提取模型，得到视觉特征图；将所述2D注意力矩阵沿视觉特征图所有通道重新加权，生成融合特征图；将所述融合特征图输入目标检测网络FasterRCNN。本发明可以充分利用雷达和视觉传感器互补的信息，提升网络的精度和目标检测的准确度；有效解决水上目标在图像中权重降低以及微小目标检测性能低的问题。

Description

一种基于双注意力机制多源融合的水上目标检测方法

技术领域

本发明涉及一种多源传感器信息融合的目标检测方法，尤其涉及一种基于双注意力机制多源融合的水上目标检测方法。

背景技术

对于自动驾驶来讲，可靠的感知周围环境非常重要。目前自动驾驶领域通常采用激光雷达、毫米波雷达和视觉等传感器实现对环境的感知。这几种传感器各有优缺点，单独使用存在很大限制，在复杂干扰环境下可能无法提供障碍物的准确信息。如果将其中的两种或者多种的信息进行融合，不但能够提高感知可靠性，而且可以弥补不同传感器的短板。雷达传感器可以提供精准的速度和位置等信息；视觉传感器可以在保留目标的外观信息的前提下，弥补雷达传感器横向分辨率低的缺陷。视觉传感器和激光雷达在复杂的水上条件和天气情况下会大大降低环境感知能力，降低了检测算法的性能。然而，毫米波雷达对于复杂水上环境和天气情况有更高的适应性；

在水上自动驾驶领域中，对水面上的目标检测利用深度神经网络来提取雷达图像和视觉图像特征已屡见不鲜，但在实际应用中却难以实现。主要存在以下问题：1)水面上的目标在强烈光反射下可能导致图像曝光过度，使视觉图像中目标不清晰，权重降低；2)激光雷达与毫米波雷达存在差异，无法将现有激光雷达算法直接应用在毫米波雷达上；3)小目标检测准确性低。

发明内容

有鉴于此，本发明的目的在于提出一种基于双注意力机制多源融合的水上目标检测方法，以解决上述问题的全部或之一。

基于上述目的，本发明提供了一种基于双注意力机制多源融合的水上目标检测方法，包括如下步骤：

构建雷达图像生成模型和特征提取模型，并生成2D注意力矩阵；

构建视觉图像特征提取模型，得到视觉特征图；

将所述2D注意力矩阵沿视觉特征图所有通道重新加权，生成融合特征图；

将所述融合特征图输入目标检测网络FasterRCNN。

可选的，所述的构建雷达图像生成模型具体为：

获取雷达和视觉传感器训练数据，再把雷达点云映射到前置摄像头坐标系；

将雷达点云的深度，纵向速度和横向速度转化不同R、G、B通道的真实像素值；

以雷达点云转换为前置摄像头坐标点为圆心，按照一定的渲染规则渲染一个实心圆，得到雷达的训练图像；

通过构建雷达图像特征提取模型来对上述雷达的训练图像进行特征提取并生成对应的特征图。

可选的，渲染得到的所述实心圆的半径为7，所述的渲染规则为：若两个雷达点存在重叠区域，深度较小的应占据更多区域。

可选的，所述的构建雷达图像特征提取模型具体为：

引入ResNet-50的前两个卷积块BasicStem和Block1，前者用于处理输入的雷达图像；后者用于输出特征雷达图像。

可选的，Block1仅引入1个残差块，来改善检测模型的随机梯度下降更新速度。

可选的，所述的生成2D注意力矩阵的具体步骤为：

使用4组具有不同感受野的卷积层来提取空间注意力矩阵，将雷达图像的特征图编码为空间域注意力权重矩阵；并将雷达特征图中的通道数减少到1。

可选的，所述的构建视觉图像特征提取模型，得到视觉特征图，具体包括以下步骤：

步骤1，对原始视觉图像进行尺寸缩放，并将缩放后的图输入VGG16特征提取网络；

步骤2，使用VGG16的卷积模块1提取图像特征；

步骤3，在特征提取网络VGG16每个卷积模块后引入SENet结构；

步骤4，重复5次步骤2和步骤3，最终得到第5层SENet结构输出的视觉特征图。

可选地，将所述2D注意力矩阵沿视觉特征图所有通道重新加权，生成融合特征图，包括：

采用克罗内克积矩阵运算的加权方法，将空间注意力矩阵加权到基于SENet的VGG16特征提取网络得到的新特征图。

可选的，所述将所述融合特征图输入目标检测网络FasterRCNN，包括如下步骤：

步骤1，将融合特征图输入到ROI池化层；

步骤2，将步骤1得到的特征图连续输入到两个全连接层；

步骤3，将全连接层后的结果传递到softmax分类器和边界回归层，得到分类结果以及回归后的边界框。

本发明的有益效果：本发明通过在雷达特征提取分支上引入空间域注意力机制，将雷达的特征图编码为2D注意力矩阵；在视觉图像特征提取分支上引入基于通道域注意力机制，通过SENet结构改进视觉图像特征提取网络的性能，并获取新特征图；将上述的2D注意力矩阵加权到的视觉图像特征提取网络提取的特征，并将加权融合后的特征传递到目标检测网络FasterRCNN进行回归和分类。本发明可以充分利用雷达和视觉传感器互补的信息，提升网络的精度和目标检测的准确度；有效解决水上目标在图像中权重降低以及微小目标检测性能低的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体融合检测框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，一种基于双注意力机制多源融合的水上目标检测方法，包括：

构建视觉图像特征提取模型，得到视觉特征图；

将所述融合特征图输入目标检测网络FasterRCNN。

雷达点云反映的是雷达周围环境的物理状态，但原始的雷达点云数据是无法输入特征提取的卷积神经网络的，因此需要构建雷达生成模型将原始环境物理状态转换为雷达图像。

构建雷达图像生成模型具体步骤为：

以雷达点云转换为前置摄像头坐标点为圆心，按照一定的渲染规则渲染一个半径为7的实心圆，得到雷达的训练图像，若两个雷达点存在重叠区域，深度较小的应占据更多区域；

构建雷达图像特征提取模型具体为：

引入ResNet-50的前两个卷积块BasicStem和Block1，前者用于处理输入的雷达图像；后者用于输出特征雷达图像，其中，卷积块Block1仅引入1个残差块，来改善检测模型的随机梯度下降更新速度。

由于毫米波雷达点云非常稀疏，和适用于图像特征提取的ResNet-50不同，过多的残差块反而会影响整个检测模型的更新。

一般来说，若在视觉传感器图像区域有对应的雷达点云，则目标也很有可能出现，将雷达特征图编码为2D注意力矩阵并加权到视觉图像特征，可以有效提高视觉传感器特征信息表达能力，并有效增强了水上场景微小目标以及存在曝光现象的图像的信息流。

生成2D注意力矩阵的具体步骤为：

使用4组卷积层来提取空间注意力矩阵，4组卷积层分别为Conv1×1，Conv3×3，Conv5×5，Conv7×7，内核大小分别为1×1×256×1，3×3×256×1，5×5×256×1，7×7×256×1，步长均设为(1,1),并分别填充[0,0]，[1,1]，[2,2]，[3,3]。以此将雷达图像的特征图编码为空间域注意力权重矩阵，利用该注意力权重矩阵增强视觉传感器的信息流；并将雷达特征图中的通道数减少到1。

针对视觉特征提取网络，为获取全局感受野，并增强特征表达能力，在视觉特征提取网络VGG16中引入SENet结构，使得特征提取网络不被局部感受野限制，有效提升了网络的识别性能。

构建视觉图像特征提取模型，得到视觉特征图，具体包括以下步骤：

步骤1，对原始视觉图像进行尺寸缩放，限制图像边长长边不超过1000，短边不超过600，并将缩放后的图输入VGG16特征提取网络；

步骤2，使用VGG16的卷积模块1提取图像特征；

步骤3，在特征提取网络VGG16每个卷积模块后引入SENet结构，即在通道域内进行特征压缩，获得表达目标能力更强的特征图，特征提取网络也更加轻量化；

为整合雷达数据和视觉传感器数据，将上述雷达特征提取分支得到的空间注意力矩阵沿视觉特征提取的特征图的所有通道重新加权融合。

采用的加权方法为克罗内克积矩阵运算，将空间注意力矩阵加权到基于SENet的VGG16特征提取网络得到的新特征图，可以加强受曝光影响的目标和微小目标的表达能力，提高水上目标检测网络的性能。

将所述融合特征图输入目标检测网络FasterRCNN，具体步骤包括：

步骤1，将融合特征图输入到ROI池化层；

步骤2，将步骤1得到的特征图连续输入到两个全连接层；

步骤3，将全连接层后的结果传递到softmax分类器和边界回归层，得到分类结果以及回归后的边界框。目标分类采用的损失是交叉熵损失，对边界框回归则采用平滑L1损失。

本发明在雷达特征提取分支上引入空间域注意力机制，将雷达的特征图编码为2D注意力矩阵；在视觉图像特征提取分支上引入基于通道域注意力机制，通过SENet结构改进视觉图像特征提取网络的性能，并获取新特征图；将上述的2D注意力矩阵加权到的视觉图像特征提取网络提取的特征，并将加权融合后的特征传递到目标检测网络FasterRCNN进行回归和分类。本发明可以充分利用雷达和视觉传感器互补的信息，提升网络的精度和目标检测的准确度；有效解决水上目标在图像中权重降低以及微小目标检测性能低的问题。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双注意力机制多源融合的水上目标检测方法，其特征在于，包括如下步骤：

构建视觉图像特征提取模型，得到视觉特征图；

将所述融合特征图输入目标检测网络FasterRCNN。

2.根据权利要求1所述的基于双注意力机制多源融合的水上目标检测方法，其特征在于，所述的构建雷达图像生成模型具体为：

3.根据权利要求2所述的基于双注意力机制多源融合的水上目标检测方法，其特征在于，渲染得到的所述实心圆的半径为7，所述的渲染规则为：若两个雷达点存在重叠区域，深度较小的应占据更多区域。

4.根据权利要求1所述的基于双注意力机制多源融合的水上目标检测方法，其特征在于，所述的构建雷达图像特征提取模型具体为：

5.根据权利要求2所述的基于双注意力机制多源融合的水上目标检测方法，其特征在于，Block1仅引入1个残差块，来改善检测模型的随机梯度下降更新速度。

6.根据权利要求1所述的基于双注意力机制多源融合的水上目标检测方法，其特征在于，所述的生成2D注意力矩阵的具体为：

7.根据权利要求1所述的基于双注意力机制多源融合的水上目标检测方法，其特征在于，所述的构建视觉图像特征提取模型，得到视觉特征图，具体包括以下步骤：

步骤2，使用VGG16的卷积模块1提取图像特征；

步骤3，在特征提取网络VGG16每个卷积模块后引入SENet结构；

8.根据权利要求1所述的基于双注意力机制多源融合的水上目标检测方法，其特征在于，将所述2D注意力矩阵沿视觉特征图所有通道重新加权，生成融合特征图，包括：

9.根据权利要求1所述的基于双注意力机制多源融合的水上目标检测方法，其特征在于，所述将所述融合特征图输入目标检测网络FasterRCNN，包括如下步骤：

步骤1，将融合特征图输入到ROI池化层；

步骤2，将步骤1得到的特征图连续输入到两个全连接层；