CN114359838A

CN114359838A - 一种基于高斯交叉注意力网络的跨模态行人检测方法

Info

Publication number: CN114359838A
Application number: CN202210039817.4A
Authority: CN
Inventors: 许廷发; 彭沛然; 李佳男; 穆峰
Original assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Current assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-15

Abstract

本发明提供一种基于高斯交叉注意力网络的跨模态行人检测方法，包括：S1，获取多源行人图像；S2，对多源行人图像进行数据预处理得到多源行人图像训练集；S3，对多源行人图像进行人工标注得到真值行人位置边界框坐标；S4，构建基于高斯交叉注意力的检测网络；S5，利用多源行人图像训练集训练基于高斯交叉注意力的检测网络，得到训练好的基于高斯交叉注意力的检测网络；S6，利用训练好的基于高斯交叉注意力的检测网络进行行人检测。本发明采用基于高斯交叉注意力的检测网络提取多源行人图像的深层显著特征并融合，直接获得表示行人位置的边界框坐标，在网络训练和实用中更为便捷灵活，节省计算资源和降低时间消耗。

Description

一种基于高斯交叉注意力网络的跨模态行人检测方法

技术领域

本发明涉及行人检测技术领域，具体而言，涉及一种基于高斯交叉注意力网络的跨模态行人检测方法。

背景技术

行人检测是一个重要的研究领域，广泛应用于无人驾驶、监控和机器人领域。近年来，依靠检测算法的发展，安全保障得到了提高。行人检测任务在检测可见图像和视频方面取得了很好的效果。然而，在可视图像中仍然存在一些挑战，如低分辨率、遮挡、功率对比度和恶劣的光照条件限制了行人检测的准确性。

热成像消除了可见光图像在光线不足、天气恶劣等条件下的局限性。热成像相机是基于红外辐射探测物体，而人与周围环境之间存在显著的热差异，因此可以很容易地识别出行人。然而，在白天，由于背景信息与热图像中行人的温度相似，很难区分人与干扰物体。由此得出热图像更适合夜间，而可见光图像更适合白天进行行人检测的结论。

现有的多源行人图像检测方法中，基于CNN的融合策略通过学习局部特征增强了图像中行人特征的表达，但它们缺乏从图像中提取远程依赖的能力，这会导致一些可能对行人检测有用的基本全局上下文的丢失。因此，将局部特征与远程依赖密度相结合，可以增加全局上下文信息，从而有助于增强多源图像的显著特征融合，从而进一步提高检测的准确性。端到端神经网络能将特征提取和视觉任务相融合，在网络训练和实用中更为便捷灵活，将其应用到多源行人图像检测中具有重要意义和价值。

发明内容

本发明旨在提供一种基于高斯交叉注意力网络的跨模态行人检测方法，以解决上述现有的多源行人图像检测方法存在的问题。

本发明提供的一种基于高斯交叉注意力网络的跨模态行人检测方法，包括如下步骤：

S1，获取多源行人图像；

S2，对步骤S1获取的多源行人图像进行数据预处理，得到多源行人图像训练集；

S3，对步骤S1获取的多源行人图像进行人工标注，得到真值行人位置边界框坐标；

S4，构建基于高斯交叉注意力的检测网络；

S5，利用步骤S2得到的多源行人图像训练集对步骤S4构建的基于高斯交叉注意力的检测网络进行训练，训练过程中采用损失函数计算基于高斯交叉注意力的检测网络输出的预测行人位置边界框坐标与步骤S3得到的真值行人位置边界框坐标之间的差异，并通过反向传播算法优化检测网络的参数，从而得到训练好的基于高斯交叉注意力的检测网络；

S6，利用训练好的基于高斯交叉注意力的检测网络进行行人检测。

在一些实施例中，所述多源行人图像包括可见光行人图像和红外光行人图像。

在一些实施例中，步骤S2中对步骤S1获取的多源行人图像进行数据预处理的方法为：

将多源行人图像通过计算整体数据的均值和方差进行归一化处理，得到多源行人图像训练集。

在一些实施例中，步骤S4中构建的基于高斯交叉注意力的检测网络包括：特征提取网络、基于交叉注意力的特征融合网络、以及预测网络；

所述特征提取网络为一系列卷积神经网络，用于从可见光行人图像和红外光行人图像中分别提取可见光特征和红外光特征；

所述基于交叉注意力的特征融合网络包括自注意力机制模块、可学习高斯注意力模块和交叉注意力融合模块；所述自注意力机制模块通过一个1×1卷积层对红外特征图降维得到索引特征图Q；所述可学习高斯注意力模块通过一个1×1卷积层对可见光特征图降维并通过一个可学习高斯注意力层对可见光背景特征进行滤波得到键值特征图K；通过参数运算层计算索引特征图Q和键值特征图K的相似度并通过Softmax函数得到包含显著特征权重分布的注意力热图；所述交叉注意力融合模块使用一个1×1卷积层对可见光特征图降维得到内容特征图V，并将内容特征图V与注意力热图进行聚合后再与可见光特征图相加得到融合特征图；

所述预测网络包括分别由多个卷积层、全连接层和softmax层组成的目标分类分支和边界框回归分支，用于根据融合特征图得到预测行人位置边界框坐标。

在一些实施例中，所述损失函数为smooth L₁损失函数。

在一些实施例中，步骤S5中基于高斯交叉注意力的检测网络进行训练时采用的优化算法为随机梯度下降优化算法。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明采用基于高斯交叉注意力的检测网络提取多源行人图像的深层显著特征并融合，直接获得表示行人位置的边界框坐标，在网络训练和实用中更为便捷灵活，节省计算资源和降低时间消耗。

2、本发明构建的基于高斯交叉注意力的检测网络，融合了特征提取网络、基于交叉注意力的特征融合网络、以及预测网络，充分提取多源行人图像的深层显著特征并融合，提升了特征的鲁棒性，能够获得性能更强的检测模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于高斯交叉注意力网络的跨模态行人检测方法的原理图。

图2为本发明实施例的基于高斯交叉注意力的检测网络的结构图。

图3为本发明实施例的基于交叉注意力的特征融合网络的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例提出一种基于高斯交叉注意力网络的跨模态行人检测方法，包括如下步骤：

S1，获取多源行人图像；本实施例中，所述多源行人图像包括可见光行人图像X₀∈N^800×600×3和红外光行人图像X₁∈N^800×600×3；其中，800、600代表图像尺寸，3代表维数(也即输入图像通道数)，该数值仅是本实施例的示例，不应以此限定。

S2，对步骤S1获取的多源行人图像进行数据预处理，得到多源行人图像训练集；所述数据预处理的方法为：

将多源行人图像通过计算整体数据的均值和方差进行归一化处理，得到多源行人图像训练集，包括数据预处理后的可见光行人图像X’₀∈R^800×600×3和数据预处理后的红外光行人图像X’₁∈R^800×600×3。

另外，在进行归一化处理前还可以对多源行人图像进行数据增强，例如对多源行人图像以50％的概率水平翻转和小角度旋转。

S3，对步骤S1获取的多源行人图像进行人工标注，得到真值行人位置边界框坐标(x₁,y₁,x₂,y₂)；

S4，构建基于高斯交叉注意力的检测网络；如图2所示，本实施例中，构建的基于高斯交叉注意力的检测网络包括：特征提取网络、基于交叉注意力的特征融合网络、以及预测网络；

所述基于交叉注意力的特征融合网络包括自注意力机制模块、可学习高斯注意力模块和交叉注意力融合模块；如图3所示，所述自注意力机制模块通过一个1×1卷积层对红外特征图降维得到索引特征图Q；所述可学习高斯注意力模块通过一个1×1卷积层对可见光特征图降维并通过一个可学习高斯注意力层对可见光背景特征进行滤波得到键值特征图K；通过参数运算层计算索引特征图Q和键值特征图K的相似度并通过Softmax函数得到包含显著特征权重分布的注意力热图；所述交叉注意力融合模块使用一个1×1卷积层对可见光特征图降维得到内容特征图V，并将内容特征图V与注意力热图进行聚合后再与可见光特征图相加得到融合特征图F∈R^32×25×2048，以融合红外光特征图和可见光特征图中目标显著的深度特征；

所述预测网络包括分别由多个卷积层、全连接层和softmax层组成的目标分类分支和边界框回归分支，用于根据融合特征图得到预测行人位置边界框坐标(x’₁,y’₁,y’₂,y’₂)。

S5，利用步骤S2得到的多源行人图像训练集对步骤S4构建的基于高斯交叉注意力的检测网络进行训练，训练过程中采用损失函数计算基于高斯交叉注意力的检测网络输出的预测行人位置边界框坐标(x’₁,y’₁,y’₂,y’₂)与步骤S3得到的真值行人位置边界框坐标(x₁,y₁,x₂,y₂)之间的差异，并通过反向传播算法优化检测网络的参数，从而得到训练好的基于高斯交叉注意力的检测网络；本实施例中，训练参数可以设置为：一共训练12个epoch，批规模设置为16，初始学习率为0.0015，在第8和第11个epoch学习率的衰减系数为0.1，训练时采用的优化算法为随机梯度下降优化算法(SGD算法)。

S6，利用训练好的基于高斯交叉注意力的检测网络进行行人检测。同样地，获取待检测多源行人图像，对待检测多源行人图像进行与步骤S2相同的数据预处理后输入训练好的基于高斯交叉注意力的检测网络进行行人检测。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高斯交叉注意力网络的跨模态行人检测方法，其特征在于，包括如下步骤：

S1，获取多源行人图像；

S4，构建基于高斯交叉注意力的检测网络；

2.根据权利要求1所述的基于高斯交叉注意力网络的跨模态行人检测方法，其特征在于，所述多源行人图像包括可见光行人图像和红外光行人图像。

3.根据权利要求2所述的基于高斯交叉注意力网络的跨模态行人检测方法，其特征在于，步骤S2中对步骤S1获取的多源行人图像进行数据预处理的方法为：

4.根据权利要求1所述的基于高斯交叉注意力网络的跨模态行人检测方法，其特征在于，步骤S4中构建的基于高斯交叉注意力的检测网络包括：特征提取网络、基于交叉注意力的特征融合网络、以及预测网络；

5.根据权利要求1所述的基于高斯交叉注意力网络的跨模态行人检测方法，其特征在于，所述损失函数为smooth L₁损失函数。

6.根据权利要求1所述的基于高斯交叉注意力网络的跨模态行人检测方法，其特征在于，步骤S5中基于高斯交叉注意力的检测网络进行训练时采用的优化算法为随机梯度下降优化算法。