CN114419568A

CN114419568A - 一种基于特征融合的多视角行人检测方法

Info

Publication number: CN114419568A
Application number: CN202210052371.9A
Authority: CN
Inventors: 刘宇红; 韩春燕; 任涛
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-29

Abstract

本发明提供一种基于特征融合的多视角行人检测方法，涉及图像处理技术领域，在轻量级网络Resnet18的基础上引入了双分支特征融合结构，进一步细化特征的提取，融合采用直接相加的方式，融合过程中通道数不变，同时引入关键点的思想，用中心点代替正采样点，无需生成大量的候选框，因此也不会有后续的非极大值抑制操作，使模型更加灵活，减少了参数量，加快了模型的运行速度，并且避免了锚框机制给模型带来的负面影响，最后用特征投影的多视图聚合方法，将得到的特征图聚合在一起，使最后生成的鸟瞰图能够聚合多相机行人信息。

Description

一种基于特征融合的多视角行人检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于特征融合的多视角行人检测方法。

背景技术

无论是对于高级驾驶辅助系统(ADAS，Advanced Driving Assistance System)还是自动驾驶，行人检测一直是无法回避的问题。在车辆运行过程中，如果能够精准的检测到每个行人所在的位置，自动驾驶领域的安全将会得到很大的保证。因此过去20年里，行人检测一直是自动驾驶领域的研究热点。相比于前方车辆而言，行人的可移动性使其更难预测。在行人检测的任务中，遮挡一直是被重点关注的问题，比如在十字路口下，行人可能会被来往车辆或是其他的行人遮挡，导致很难预测到所有行人所在的位置，这对安全驾驶造成了很大的困扰。遮挡问题作为行人检测任务的难点，特别是在特定的场景如十字路口下对精度和速度有着更高的要求。近两年针对行人检测问题，很多人都提出了自己的解决方法。现有的行人检测器已经在标准的非遮挡行人上取得了令人满意的结果，但它们在重度遮挡行人上的表现还远远不能令人满意。为了处理遮挡问题，通过一个网络同时进行行人检测和遮挡估计，让网络并行两个分支，分别输出两个回归框，一个是完整的行人框，另一个是行人的可见部分。训练时，结合遮挡程度来定义高质量的正样本可以为训练带来帮助。

将注意转移到多视角方法。基于多相机的检测方法理论上几乎可以完美的解决遮挡问题。多视角检测包含多个方位的信息，每个方位的目标信息由不同的相机提供。多视角模型主要是对三维物体不同视角的图像分别进行特征提取，然后根据整合的全局特征进行物体的分类识别，这种方式能够得到高级全局特征和细节信息。通过2D图片的渲染来生成一个3D图片分类器，对三维物体不同视角的图像分别进行特征提取，然后根据整合的全局特征进行物体的分类识别，这种方式能够得到高级全局特征和细节信息。目前，聚合空间邻域的信息除了3D重建，还有条件随机场或平均随机场推理的方法，Hou等人发现大卷积核与接收场较大的卷积层结合能有更好的效果。

单视角检测算法虽然发展很快，但永远无法突破单相机检测的局限，即使模型在并不严重的遮挡问题下有很好的表现，但在实际场景中，并不能保证行人间总是轻度遮挡，在遮挡范围较大时，上述方法同样会产生漏检，误检的现象。同时单相机检测模型为了表现更好，往往包含了大量冗余的计算，对遮挡问题解决的并不完美，因此在行人检测问题上还有很大的提升空间。

多视角检测算法多涉及到3D重建，利用3D重建聚合多视角信息。但重建过程占用了大量的时间，匹配操作也占用了大量的内存和时间资源，实际使用时限制较多，所以如何利用多视角信息而不占用太多时间成为了我们主要考虑的问题。

发明内容

针对现有技术的不足，本发明采用多视角目标检测解决行人间的遮挡问题，采用卷积神经网络CNN模型和大卷积核的空间聚集方法，同时利用特征投影和通道级联聚集多相机信息，提出一种基于特征融合的多视角行人检测方法。

本发明提出的一种基于特征融合的多视角行人检测方法，包括：

步骤1：从多角度采集行人的图像数据作为样本集；

步骤2：构建集成特征融合和关键点检测的神经网络模型，并利用样本集对神经网络进行训练；

步骤3：对实时采集的图像数据利用训练后的神经网络模型进行行人位置的检测。

所述步骤1包括：

步骤1.1：采集N个视角的图像数据，设置N个相机采集一段时间内经过某一路口的行人图像数据；

步骤1.2：将同一时刻采集的N张图像作为一组样本数据。

所述步骤2包括：

步骤2.1：构建双分支的特征融合结构进行N个视角图像的特征提取；

步骤2.2：利用透视变换将特征融合结构输出的特征图进行角度的转换，得到同一角度下的N张特征图；

步骤2.3：通过特征投影将N张特征图进行拼接，拼接后的特征图通过一个1*1卷积层输出，得到每组样本数据对应的一张鸟瞰图；

步骤2.4：构建回归分支，将经过步骤2.1处理后的特征图作为回归分支的输入，利用卷积神经网络得到目标的中心点；

步骤2.5：根据样本集对双分支的特征融合结构以及回归分支利用反向传播进行训练。

所述步骤2.1中双分支的特征融合结构包括两个分支，第一个分支为ResNet网络，第二个分支包括四个子网络，每一个子网络包括一个3x3的卷积层、一个1x1的卷积层、一个自适应平均池化层和一个激活层。

所述步骤2.2包括：

步骤2.2.1：通过逐点变换实现三维位置坐标和二维图像像素坐标之间的转换，公式如下：

其中，(x,y,z)为三维位置坐标，(u,v)为二维图像像素坐标，s为真值比例因子，P_θ为3×4透视变换矩阵，A为3×3内参矩阵，[R|t]为3×4旋转-平移矩阵，R表示旋转，t表示平移；

步骤2.2.2：以地平面为参考系，令z＝0，将所有三维位置坐标逐点变换为：

其中，P_θ,0表示消掉了第三列的透视变换矩阵。

所述步骤2.4中所述回归分支包括一个1*1的卷积层将特征图的通道数调整为64，一个激活层增强网络表达能力，一个1*1卷积网络调整通道数由64为1，通过回归分支得到的一个特征图携带着每一个目标的中心位置坐标信息。

所述步骤2.5包括：

步骤2.5.1：计算每个热力图峰值点的损失值loss；

步骤2.5.2：计算鸟瞰图上每个目标位置的损失值loss；

步骤2.5.3：将步骤2.5.1和步骤2.5.2得到的损失值loss求和并进行反向传播调整参数，当评价指标MODA值的变化率小于设定阈值时训练结束。

本发明的有益效果是：

本发明提出了一种基于特征融合的多视角行人检测方法，采用CNN模型和大卷积核的空间聚集方法，同时采用特征投影和通道级联聚集多相机信息。为了更好的拟合数据特征提出了双分支的特征融合模型并采用关键点代替候选框的方法，避开了锚框在多相机透视变换过程中变形带来的不必要的精度损失，也使模型的效率更高。

附图说明

图1为本发明中基于特征融合的多视角行人检测方法流程图；

图2为本发明中双分支的特征融合结构图；

图3为本发明中集成特征融合和关键点检测的神经网络模型结构图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。

如图1所示，一种基于特征融合的多视角行人检测方法，包括：

步骤1：从多角度采集行人的图像数据作为样本集；包括：

步骤1.2：将同一时刻采集的N张图像作为一组样本数据；

将N个视角中每个目标对应的像素坐标(左上，右下)转换为对应的地图坐标；并确定相机的内外参数。

步骤2：如图3所示，构建集成特征融合和关键点检测的神经网络模型，并利用样本集对神经网络进行训练；包括：

步骤2.1：构建双分支的特征融合结构进行N个视角图像的特征提取；如图2所示，所述双分支的特征融合结构包括两个分支，第一个分支为ResNet网络(采用轻量级网络Resnet18作为backbone)，ResNet结构分为Layer1、Layer2、Layer3、Layer4、每一层Layer又由两个BottleNeck结构组成，第二个分支包括四个子网络(分别记为Block1、Block2、Block3、Block4)，每一个子网络由一个3x3的卷积层，一个1x1的卷积层，一个自适应平均池化层和一个激活层组成；将每组样本数据同时传入两个分支，之后将数据经过第一个分支的每一个Layer得到的特征与经过第二个分支的每一个block得到的特征进行融合；具体是指，将数据经过Layer1，Layer2，Layer3，Layer4得到的特征分别视为F1，F2，F3，F4，将数据经过第二个分支的Block1得到的特征视为P1，将F1与P1融合后的结果视为R1；R1经过Block2得到的特征为P2，P2与F2融合后的结果视为R2；R2经过Block3得到的特征为P3，P3与F3融合后的结果视为R3；R3经过Block4得到的特征为P4，P4与F4融合后的结果视为R4。R4就是进行特征融合后的特征图。同理，针对样本集中的每组样本数据同时传入特征融合结构的两个分支，进行特征融合后得到各个视角的特征图。

在多视图聚合中采用无锚机制来缓解锚框回归不准确的影响，由于特征映射投影方法会受到不准确锚框的影响。通过目标中心点来表示目标，然后在中心点位置回归出目标属性，此时目标检测问题就变成了一个标准的关键点估计问题。我们将图像传入全卷积网络，得到一个热力图，热力图峰值点即中心点，每个特征图的峰值点位置预测了目标的宽高信息。每个目标仅仅有一个正的锚点，因此不会用到非极大值抑制(Non-MaximumSuppression，NMS)等后处理操作。因为中心点总是比其他点包含更多的全局信息，更易于模型拟合，因此采用中心点作为真值。

采用特征融合方法，保存模型浅层信息。采用用3*3尺寸的卷积核来提取特征，采用1*1尺寸的卷积来调整通道数并消除不同特征相互融合的混叠性。采用双分支结构，将数据分别传入对应的分支进行处理。如图2所示，将ResNet网络作为第一个分支，模型的第二个分支由一个3x3的卷积层和一个1x1的卷积层组成，经过自适应平均池化和激活层后进行融合。两个分支的结构能够更好的提取特征，让模型有更好的表现。采用膨胀卷积保持参数个数不变的情况下增大卷积核的感受野，在一定程度上也提高了模型的性能，两个分支的结构能够更好的提取特征，让模型有更好的表现。之后通过简单地使用全局平均池生成信道统计信息来嵌入全局信息。

融合公式如下：

F＝(d_[b,c,h,w]+m_[b,c,h,w])/2

其中，d为分支一输出的特征图，m为分支二输出的特征图，b、c、h、w分别表示它们的一起训练的图片数batch、通道数channel、高height、宽weight。图片经过ResNet网络降采样后通常保存着高级语义信息，但低阶特征得不到保存会使模型不能完美的学习。如何尽可能保存更多的数据信息是所有人都关注的问题，对此我们提出的双分支结构相对来讲损失更少的数据信息。模型在ResNet每一层后面都加上一个3*3的卷积层用来提取特征并进行保存，确保整个网络能够保留尽可能多的原始信息，将数据信息的作用利用到最大。因为该输出特征图与模型最后一层得到的特征图通道数不同，因此双分支结构输出的特征图要经过额外的1x1卷积调整通道。

采用关键点检测，将每个行人视作一个关键点回归，关键点在极大程度上利用了物体的内部特征，感知物体内部的信息，减少了大量的误检样本FP，即误检框。彻底抛弃了锚框机制，不生成预选框，也不用额外耗费资源去计算预选框和真实框的交并比IOU。也无需产生一系列位置坐标用于坐标回归和分类预测，减少了生成锚框并对其进行编解码处理的过程时间。中心点能帮模型快速定位到目标所在位置，模型计算步骤简单，而且处理时无需放大图片的分辨率，因此能极大减少模型运行时间。

通过透视变换，将投影后的拼接特征转移到同一个坐标系中，得到鸟瞰图。把空间坐标系中的三维物体或对象转变为二维图像表示的过程称为投影变换。平行投影的视点(投影中心)与投影平面之间的距离为无穷大，而对透视投影(变换)，此距离是有限的。透视投影具有透视缩小效应的特点，即三维物体或对象透视投影的大小与形体到视点(投影中心)的距离成反比。离投影中心近的线段透视投影大，而离投影中心远的线段透视投影小。该效应所产生的视觉效果与人的视觉系统类似。与平行投影相比，透视投影的深度感更强，看上去更真实，但透视投影图不能真实地反映物体的精确尺寸和形状。但我们只需要知道目标在俯视图中的具体位置，并且可以利用相机的外参把该部分loss降到最小。经过透视变换的图片会失去一些重要特征，因此模型通过卷积提取特征后，再利用特征图进行透视变换操作，3D位置(x,y,z)和2D图像像素坐标(u,v)之间的转换是通过逐点转换完成的。

路口一共有N个相机采集图像，每张图像经过双分支特征融合网络后，分别经过两层卷积提取特征。一层卷积得到回归的中心点，另一层卷积得到目标的对应鸟瞰图中的信息。对这两个结果分别计算loss相加后得到最后的loss进行反向传播，训练结束后得到最后的鸟瞰图。

步骤2.2：利用透视变换将特征融合结构输出的特征图进行角度的转换，得到同一角度下的N张特征图；包括：

步骤2.2.1：通过逐点变换完成3D位置(x,y,z)和2D图像像素坐标(u,v)之间的转换。公式如下：

其中，s为真值比例因子，P_θ为3×4透视变换矩阵，A为3×3内参矩阵，[R|t]为3×4旋转-平移矩阵，即外参矩阵，R表示旋转，t表示平移；

步骤2.2.2：为了确定图像像素的精确3D位置，我们采用地平面为参考系，并设地平面坐标z＝0。对于这个地平面上的所有3D位置(x,y,0)，逐点变换可以写成

P_θ,0表示消掉了第三列的透视变换矩阵；

步骤2.4：构建回归分支，将经过步骤2.1.3处理后的特征图作为回归分支的输入，利用卷积神经网络得到目标的中心点；所述回归分支包括一个1*1的卷积层将特征图的通道数调整为64，一个激活层增强网络表达能力，一个1*1卷积网络调整通道数由64为1，最后通过回归分支得到的特征图携带着每一个目标的中心位置坐标信息。

步骤2.5：根据样本集对双分支的特征融合结构以及归回分支利用反向传播进行训练；包括：

步骤2.5.1：计算每个热力图峰值点的损失值loss；

步骤2.5.2：计算鸟瞰图上每个目标位置的损失值loss；

步骤2.5.3：将步骤2.5.1和步骤2.5.2得到的损失值loss求和并进行反向传播去调整参数，当评价指标MODA值的变化率小于设定阈值时训练结束。

步骤3：对实时采集的图像数据利用训练后的神经网络模型进行行人位置的检测。实际检测时，将相机采集到的实时图像传进训练后的神经网络模型，利用双分支的特征融合结构对每个角度的图片进行处理，将处理好的特征图利用相机的内外参经过透视变换使其变为一个角度的特征图，再利用特征投影并经过一个1*1的卷积层得到带有各个目标位置信息的鸟瞰图，根据鸟瞰图进行行人位置的检测。

本发明在轻量级网络Resnet18的基础上引入了双分支特征融合结构，进一步细化特征的提取。融合采用直接相加的方式，融合过程中通道数不变。同时引入关键点的思想，用中心点代替正采样点，无需生成大量的候选框，因此也不会有后续的非极大值抑制操作，使模型更加灵活，减少了参数量，加快了模型的运行速度，并且避免了锚框机制给模型带来的负面影响。双分支多层卷积融合模块，利用膨胀卷积扩张感受野，对特征进行了进一步的提取和利用，并根据关键点进行预测，由于关键点携带大量的位置信息，对于定位目标有很好的帮助，因此与双分支卷积融合结构结合起来有更好的表现。最后用特征投影的多视图聚合方法，将得到的特征图聚合在一起，使最后生成的鸟瞰图能够聚合多相机行人信息。与现有技术相比，本发明提出的技术方案中提出的双分支特征融合结构比backbone更具竞争力。利用关键点检测使模型计算更简单，与多层卷积融合模块结合后有更好的表现。整个模型端到端学习，为了证明本方法的有效性，在标准的Wildtrack数据集和MultiviewX仿真数据集上进行验证，结果表明精度和速度相对于现有技术有显著提高。本发明方法实现简单、限速有效，达到了应用的要求。

Claims

1.一种基于特征融合的多视角行人检测方法，其特征在于，包括：

步骤1：从多角度采集行人的图像数据作为样本集；

2.根据权利要求1所述的一种基于特征融合的多视角行人检测方法，其特征在于，所述步骤1包括：

步骤1.2：将同一时刻采集的N张图像作为一组样本数据。

3.根据权利要求1所述的一种基于特征融合的多视角行人检测方法，其特征在于，所述步骤2包括：

4.根据权利要求3所述的一种基于特征融合的多视角行人检测方法，其特征在于，所述步骤2.1中双分支的特征融合结构包括两个分支，第一个分支为ResNet网络，第二个分支包括四个子网络，每一个子网络包括一个3x3的卷积层、一个1x1的卷积层、一个自适应平均池化层和一个激活层。

5.根据权利要求3所述的一种基于特征融合的多视角行人检测方法，其特征在于，所述步骤2.2包括：

其中，P_θ,0表示消掉了第三列的透视变换矩阵。

6.根据权利要求3所述的一种基于特征融合的多视角行人检测方法，其特征在于，所述步骤2.4中所述回归分支包括一个1*1的卷积层将特征图的通道数调整为64，一个激活层增强网络表达能力，一个1*1卷积网络调整通道数由64为1，通过回归分支得到的一个特征图携带着每一个目标的中心位置坐标信息。

7.根据权利要求3所述的一种基于特征融合的多视角行人检测方法，其特征在于，所述步骤2.5包括：

步骤2.5.1：计算每个热力图峰值点的损失值loss；

步骤2.5.2：计算鸟瞰图上每个目标位置的损失值loss；