CN116597419B

CN116597419B - 一种基于参数化互近邻的车辆限高场景识别方法

Info

Publication number: CN116597419B
Application number: CN202310577465.2A
Authority: CN
Inventors: 李科; 宋梓源; 陈征; 周勇; 王闻箫; 林彬彬
Original assignee: Ningbo Fulang Technology Co ltd
Current assignee: Ningbo Fulang Technology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2024-02-02
Anticipated expiration: 2043-05-22
Also published as: CN116597419A

Abstract

本发明公开了一种基于参数化互近邻的车辆限高场景识别方法，包括：(1)准备训练图像数据集，划分为若干任务，每个任务包含支持集和查询集；(2)构建限高识别模型，包含特征提取模块、空间余弦相似度计算模块和互近邻计算模块；特征提取模块用于提取图像像素特征；空间余弦相似度计算模块用于计算查询图像和支持集图像的局部特征之间的余弦相似度；互近邻计算模块用于根据查询图像和支持集图像的互近邻概率矩阵；(3)使用损失函数对限高识别模型进行训练；(4)输入待查询的图像，计算其与支持集各个类别的互近邻相似度得分，从而判定该查询图像的具体类别。本发明只需要很少的计算资源就可以对现实中数据量较少的限高场景进行识别。

Description

一种基于参数化互近邻的车辆限高场景识别方法

技术领域

本发明属于无人驾驶系统的图像感知识别领域，尤其是涉及一种基于参数化互近邻的车辆限高场景识别方法。

背景技术

近年来，随着深度学习技术的不断进步，人工智能迎来了一个全新的高速发展时期。得益于各种涌现的先进技术，人工智能中的计算机视觉、自然语言处理等领域都在各自的方向上取得了极具突破性的进展。在现在的人类社会中，已经可以随处看见人工智能技术的应用场景。应用在无人驾驶系统中的目标检测、路径规划等卓越的技术，为无人驾驶车辆的安全运行提供了保障。

无人驾驶的感知系统是通过提取输入系统的实时图像的特征来判断车辆周围的环境信息，比如识别障碍物。在这一过程中，深度学习领域的神经网络系统技术发挥了很大的作用。深度神经网络系统是通过复杂的模型架构和很多轮次的训练来拟合训练数据，从而使得系统模型学习并记住了这些数据的特征，在后续的实际应用中表现出很好的效果。虽然当前一些先进的深度神经网络系统在图像分类、目标检测等视觉领域中取得了突出的成就，但是训练出一个优秀的系统模型在很大程度上需要一个包含了丰富种类、样本数量充足的大规模有标签数据集，这一点在真实场景中很难被满足。

大型车辆在行驶过程中偶尔会遇到一些限高的行驶场景，比如限高杆、桥洞、隧道等。在这些场景中，驾驶员需要时刻注意并且判断自己驾驶的车辆能否安全通过。由于车速过快和驾驶员的反应不足等原因，车辆需要借助无人驾驶系统来实时分析车辆是否处于限高场景中。但是相比于车辆识别、车道线识别等无人驾驶场景，限高场景的识别面临了限高图像样本较少的困境。一方面，在城市道路中，限高杆和限高桥洞比较少，因此能够获取的此类限高场景图像样本的难度较大，系统无法从极少量的限高场景图像中学习到足够的网络模型参数。另一方面，一些乡镇道路上虽然设置了限高杆，但是却没有设置具体的限高标识。这两方面的因素给传统的借助视觉图像的无人驾驶系统带来了困扰。

目前主流的目标检测工作主要分为双阶段目标检测和单阶段目标检测。双阶段目标检测的主要步骤是先利用网络模型计算出待检测物体在图像上的大致位置，随后在此基础上利用另外一个网络得到更为精确的物体位置、大小和类别。例如，Ross Girshick等人在2014年国际计算机视觉与模式识别会议(The Conference on Computer Vision andPattern Recognition)收录的文章《Rich feature hierarchies for accurate objectdetection and semantic segmentation》提出的R-CNN的网络模型首先在待检测图像上利用第一阶段的网络筛选出数个区域，随后利用二阶段的网络对这几个区域进行单独的计算和分类，并在此过程中逐渐优化各个区域的边界，使得边界值逐渐趋近真实的物体在图像上的位置，最终得到得到图像上物体的具体类别和位置。

双阶段目标检测由于需要对图想进行两次的计算，耗费了大量的计算资源，因此，近年来目标检测领域的优秀成果主要集中在单阶段目标检测领域。单阶段目标检测就是只需要一次的计算便可以直接得到图片上物体的精确位置和物体的类别，不再需要选取待定区域。例如，Wei Liu等人在2016年欧洲计算机视觉国际会议(European Conference onComputer Vision)收录的文章《SSD:Single Shot MultiBox Detector》提出的单阶段目标检测网络模型SSD首先利用神经网络对图像进行特征提取，随后抽取特征提取过程的中间结果特征图，并对中间结果特征图上的每个特征点计算该点所代表的原图范围内是否含有物体、物体的种类。Chien-Yao Wang等人在2023年国际计算机视觉与模式识别会议(TheConference on Computer Vision and Pattern Recognition)收录的文章《YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time objectdetectors》提出的YOLOv7利用了金字塔网络结构和叠加的上下采样实现了多尺度的特征提取，并且引入了模型结构重参化和动态标签分配增强了网络的学习能力。与其它单阶段目标检测工作类似，YOLOv7这样的一次流程便完成了双阶段目标检测工作的全部任务，是当前目标检测领域内较为先进的工作。

虽然以上先进工作在目标检测领域取得了很好的成果，但是当这些工作具体落实到限高场景识别任务中时，它们的效果并不好。一方面是因为这些工作需要大量的图像样本来进行优化，但是现实中限高场景的图像数据样本较少。另一方面则是在限高场景识别中，系统只需要判断无人驾驶车辆是否进入限高环境，这些工作在关注待检测物体类别的同时还关注了物体的位置，会进行大量无意义的计算。

发明内容

本发明提供了一种基于参数化互近邻的车辆限高场景识别方法，只需要很少的计算资源就可以对现实中数据量较少的限高场景进行识别。

一种基于参数化互近邻的车辆限高场景识别方法，包括：

(1)准备训练用的图像数据集，将数据集随机采样为若干个任务子集；每个任务子集中包含N个类别的限高场景，每个场景K张图片，将N×K张图片组成支持集，并抽取其中一张作为查询图像；

(2)构建限高识别模型，所述的限高识别模型包含特征提取模块、空间余弦相似度计算模块和互近邻计算模块；

其中，所述的特征提取模块用于提取图像像素特征，把每个任务子集中的支持集图像和查询图像输入到特征提取模块进行特征提取计算，得到局部特征矩阵；

所述的空间余弦相似度计算模块用于计算查询图像的局部特征和支持集图像的局部特征之间的余弦相似度矩阵；

所述的互近邻计算模块用于根据查询图像和支持集各个类别之间余弦相似度计算互近邻概率矩阵；

(3)使用损失函数对限高识别模型进行训练；

(4)训练完毕后，输入待查询的图像，计算其与支持集各个类别的互近邻相似度得分，并根据得分高低判定该查询图像的具体类别；如果当前车辆所处环境被判定为限高场景，则播报语音告警信息。

步骤(2)中，特征提取模块的工作过程如下：

将查询图像输入特征提取模块，得到特征矩阵θ∈R^C×H×W，将θ转化为查询图像的局部特征集合q＝{q₁，...，q_M}；其中，M＝H×W表示一张图像的局部特征块的数量，q_i表示查询图像的第i个局部特征向量，C、H、W分别为特征矩阵θ的通道数、高度、宽度；

将支持集图像输入特征提取模块，将所有来自同一类别c的共K张支持图像的局部特征矩阵取平均，得到类别c的平均局部特征矩阵进一步将其转化为类别c的局部特征集合/>其中，θ_c，k为第c类第k张限高场景图像的特征矩阵，表示类别c的第i个局部特征向量。

空间余弦相似度计算模块的工作过程如下：

首先构建支持集中所有类的局部特征集合S：

其中，s^c是类别c的局部特征集合，对于每一个查询图像的局部特征向量q_i∈q和每一个支持集的局部特征向量s_j∈S；计算它们的空间余弦相似度矩阵Φ∈R^M×NM，公式如下：

互近邻计算模块的工作过程如下：

(I)对于查询图像的任一局部特征向量q_i∈q，找到它在集合S中的最近局部特征向量s_j：

s_j＝NN_S(q_i)

其中，NN_S(q)表示在集合S中关于局部特征向量q_i的最近邻函数；采用参数化的方法寻找最近邻向量，具体操作为：

在步骤(3)得到的空间余弦相似度矩阵Φ中，计算每个q_i∈q，它的最近邻为s_j∈S的概率，公式为：

式中，γ表示表示控制概率分布尖锐程度的温度参数。

(II)对于一个支持集的局部特征向量s_j∈S，找到它在集合q中的最近局部特征向量q_i：

q_i＝NN_q(s_j)

其中，NN_q(s_j)表示在集合q中关于局部特征向量s_j的最近邻函数；具体操作为：

在步骤(3)得到的空间余弦相似度矩阵Φ中，计算每个s_j∈S，它的最近邻为q_i∈q的概率，公式为：

式中，β表示表示控制概率分布尖锐程度的温度参数。

(III)如果q_i×NN_q(s_j)、s_j＝NN_S(q_i)同时满足，则q_i与s_j为互近邻对。

具体操作为：

将步骤(I)和(II)中得到的概率矩阵Q与D点乘得到互近邻概率矩阵V，公式如下：

V＝Q*D

V_ij作为两个局部特征q_i和s_j之间为互近邻对的概率，对应的值越接近1，它们之间互为互近邻对的可能性越高。

步骤(3)中，损失函数为：

式中，α＝0.5，是一个提前定义好的间隔超参数，若正样本和负样本在对比损失中的距离大于这个间隔则忽略这个小样本任务，认为模型已经具备足够区分正负样本的能力。Max(a,b)函数是选出逗号前后a,b两个表达式中的较大者，这里是为了让最终的损失函数L大于0。

与现有技术相比，本发明具有以下有益效果：

1、本发明提供了一种非常直观简便的方法对现实中数据量较少的限高场景进行识别，实现时只需要少量的计算资源，易于使用。

2、本发明提出的车辆限高场景识别方法中，模型易于训练，将局部特征的比较引入了图像特征对比，专注于对图像样本识别是否为限高场景，摒弃了传统目标检测的位置计算。

附图说明

图1为本发明中车辆限高场景识别系统的整体模块架构图；

图2为本发明一种基于参数化互近邻的车辆限高场景识别方法的实现流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，本发明的车辆限高场景识别系统主要分为数据接口模块、特征提取模块、空间余弦相似度计算模块、参数化互近邻计算模块、训练参数更新模块和分类输出模块。

数据接口模块的作用是准备数据并将图像数据裁剪成同一尺寸、抽样成任务。

特征提取模块的作用是将数据像素点的信息转换为高维空间的信息矩阵。

空间余弦相似度计算模块的作用是计算待查询图像的局部特征和支持集类别局部特征的空间余弦相似度。

互近邻计算模块是利用余弦相似度寻找待查询图像的局部特征和支持集类别图像局部特征的互近邻矩阵。

训练模块只在训练阶段作用，它接收参数化互近邻计算模块输出的互近邻矩阵，利用损失函数来更新特征提取模块的参数。

分类输出模块的作用是接收参数化互近邻计算模块输出的互近邻矩阵，分别计算带检测图像与每个类别的互近邻矩阵的和，如果此结果大于1，则判定带检测图像的类别为此结果对应的限高场景类别，否则判断带检测图像为非限高场景图像。

告警模块的作用是根据判定结果播报语音信息提醒司机。

如图2所示，一种基于参数化互近邻的车辆限高场景识别方法，包括如下步骤：

步骤1，在数据接口模块，从外部输入的图像首先会被裁剪成84×84大小，在训练阶段，此模块还会将数据集中的图片采样成一个个任务。现实场景中主要的限高场景有限高杆、桥洞、隧道，其中限高杆上通常可见的限高标识为2.2m、2.5m、2.8m、4.5m或者无限高标识，桥洞和隧道通常无限高标识。因此本实施例为限高场景设定了7个类，包括限高杆的5个限高类别和一个桥洞场景类别和一个隧道场景类别。

训练阶段本实施例针对这7类在数据集中每个类抽取10张图片作为支持集图片，再额外抽取任意1张待检测图片作为查询集图片组成一个包含71张图片的任务输入到后续的系统模块中。而训练结束后的检测阶段，在数据接口模块只负责接收处理待检测图片。

步骤2，在特征提取模块中，将限高场景的查询图像输入到特征提取模块中借助内嵌的神经网络，得到特征矩阵θ∈R^C×H×W，将θ转化为图像的局部特征的集合表示q＝{q₁，...，q_M}，其中M＝H×W表示一张图像的局部特征块的数量，q_i表示其中一个局部特征向量。C、H、W分别为特征图θ的通道数、高度、宽度，具体数值分别为640、5、5，因此M为25。

使用同一个特征提取模块提取来自第c类第k张限高场景支持图像输入的特征θ_c，k，将所有来自同一类c的共10张支持图像的局部特征矩阵使用取平均得到类的平均局部特征矩阵图将其转化为类c的局部特征集合/>

步骤3，余弦距离计算模块中，构建支持图像集中所有类的局部特征集合S：

其中，N是一个限高识别任务中所有类的数量，本发明中为7。对于每一个局部查询特征向量q_i∈q和每一个局部支持特征向量s_j∈S，计算它们的空间余弦相似度矩阵Φ∈R²⁵ ^×175：

步骤4，互近邻计算模块的具体过程为：

(4-1)对于查询图像的任一局部特征描述符q_i∈q，找到它在集合S中的最近局部特征向量s_j：

s_j＝NN_S(q_i)

其中，NN_S(q)表示在集合S中关于向量q的最近邻函数，本专利采用参数化的方法寻找最近邻向量，具体操作为：

(4-2)对于一个支持集局部向量s_j∈S，找到它在集合q中的最近局部特征向量。具体操作为：

其中γ和β是两个控制着概率分布的尖锐程度的温度参数，分别为1.0和0.5。

(4-3)如果q_i＝NN_q(s_j)、s_j＝NN_S(q_i)同时满足，则q_i与s_j为互近邻对，本发明采用参数化的方法寻找集合q与集合S中所有的互近邻对。具体的方式为：

将(4-1)和(4-2)中得到的概率矩阵Q与D点乘得到互近邻概率矩阵V，公式如下：

V＝Q*D

余弦相似度矩阵Φ经过参数化概率近似后的矩阵值的大小为0到1。由互近邻的定义可知，q_i和s_j互为互近邻对的可能性可以近似视为Q_ij和D_ij的乘积(或者与它们乘积呈正相关)，记为V＝Q*D。我们用V_ij作为两个局部特征q_i和s_j之间为互近邻对的概率，对应的值越接近1，它们之间互为互近邻对的可能性越高。

步骤5，训练模块中，得到步骤4的互近邻概率矩阵后，使用损失函数进行计算，损失函数为：

得到损失函数以后再依据损失函数来更新系统特征提取模块的参数，重复这一过程不断训练；

步骤6，分类模块中，利用步骤4得到的互近邻概率矩阵C后，我们在其上以类别为分界分区域求和，每个类别区域内的求和结果就代表了查询图片与该类别的互近邻对数目的期望，我们使用最大的期望对应的类别作为我们的小样本分类预测类c^*，计算公式为：

如果计算出待检测图片与每一个类别的结果都小于1，那么近似待检测图片与任意类别都没有局部互近邻对，所以判定待检测图片为非限高场景。

如果当前车辆所处环境被判定为限高场景，告警模块将会播报语音告警信息。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于参数化互近邻的车辆限高场景识别方法，其特征在于，包括：

所述的互近邻计算模块用于根据查询图像和支持集各个类别之间余弦相似度计算互近邻概率矩阵；互近邻计算模块的工作过程如下：

(Ⅰ)对于查询图像的任一局部特征向量q_i∈q，找到它在集合S中的最近局部特征向量s_j：

s_j＝NN_S(q_i)

其中，NN_S(q)表示在集合S中关于局部特征向量q_i的最近邻函数；计算每个q_i∈q，它的最近邻为s_j∈S的概率，公式为：

式中，γ表示控制概率分布尖锐程度的温度参数；

(Ⅱ)对于一个支持集的局部特征向量s_j∈S，找到它在集合q中的最近局部特征向量q_i：

q_i＝NN_q(s_j)

其中，NN_q(s_j)表示在集合q中关于局部特征向量s_j的最近邻函数；计算每个s_j∈S，它的最近邻为q_i∈q的概率，公式为：

式中，β表示控制概率分布尖锐程度的温度参数；

(III)如果q_i＝NN_q(s_j)、s_j＝NN_S(q_i)同时满足，则q_i与s_j为互近邻对；具体操作为：

将步骤(Ⅰ)和(Ⅱ)中得到的概率矩阵Q与D点乘得到互近邻概率矩阵V，公式如下：

V＝Q*D

V_ij作为两个局部特征q_i和s_j之间为互近邻对的概率，对应的值越接近1，它们之间互为互近邻对的可能性越高；

(3)使用损失函数对限高识别模型进行训练；损失函数为：

式中，α＝0.5，是一个提前定义好的间隔超参数；(4)训练完毕后，输入待查询的图像，计算其与支持集各个类别的互近邻相似度得分，并根据得分高低判定该查询图像的具体类别；如果当前车辆所处环境被判定为限高场景，则播报语音告警信息。

2.根据权利要求1所述的基于参数化互近邻的车辆限高场景识别方法，其特征在于，步骤(2)中，特征提取模块的工作过程如下：

将查询图像输入特征提取模块，得到特征矩阵θ∈R^C×H×W，将θ转化为查询图像的局部特征集合q＝{q₁,...,q_M}；其中，M＝H×W表示一张图像的局部特征块的数量，q_i表示查询图像的第i个局部特征向量，C、H、W分别为特征矩阵θ的通道数、高度、宽度；

将支持集图像输入特征提取模块，将所有来自同一类别c的共K张支持图像的局部特征矩阵取平均，得到类别c的平均局部特征矩阵进一步将其转化为类别c的局部特征集合/>其中，θ_c,k为第c类第k张限高场景图像的特征矩阵，s_i ^c表示类别c的第i个局部特征向量。

3.根据权利要求1所述的基于参数化互近邻的车辆限高场景识别方法，其特征在于，步骤(2)中，空间余弦相似度计算模块的工作过程如下：

首先构建支持集中所有类的局部特征集合S：