CN111523447B

CN111523447B - 车辆跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN111523447B
Application number: CN202010320446.8A
Authority: CN
Inventors: 傅慧源; 马华东; 关俊
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2023-01-31
Anticipated expiration: 2040-04-22
Also published as: CN111523447A

Abstract

本发明提供一种车辆跟踪方法、装置、电子设备及存储介质。所述方法包括：依次获取多帧图像，每帧图像包括至少一个车辆；每获取一帧图像，提取当前帧图像中每个车辆的检测区；分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性；根据所述多维相似性，确定至少一组相匹配的第一检测区和第二检测区；所述第一检测区为当前帧图像中的检测区，所述第二检测区为上一帧图像中的检测区；根据所述第一检测区，更新所述第二检测区对应的车辆的跟踪轨迹。本发明实施例能够实现多车辆的实时跟踪，且提高跟踪的准确性。

Description

车辆跟踪方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种车辆跟踪方法、装置、设备及存储介质。

背景技术

多车辆跟踪作为一个智慧交通的一个中级计算机视觉任务，其是多车辆检测任务的一个提升，同时也是车辆行为分析、运动特征描述等任务的一个基础。

多车辆的跟踪有很多实际的应用，比如在智慧城市，智慧交通领域，我们可以通过多车辆跟踪进行车辆的计数，车流量的估计，交通情况上报等。同时，对车辆的跟踪及其对周围动态交通场景的预测能力在自主驾驶中起着至关重要的作用，比如轨道规划和决策制定等关键任务。

现有技术一般采用背景提取法来得到车辆目标，或者使用手工设计的特征提取器比如SIFT(Scale Invariant Feature Transform，尺度不变特征转换)、HOG(Histogram ofOriented Gridients，方向梯度直方图)提取特征，然后使用SVM(Support VectorMachine，支持向量机)进行分类，来实现提取车辆目标，提取完车辆目标后，对每个车辆使用卡尔曼滤波算法或者均值漂移算法进行跟踪。基于背景提取的车辆检测方法依赖于静态背景，同时提取出的车辆信息特征不明显，对之后相邻帧的车辆匹配造成干扰。基于手工特征SIFT、HOG的车辆提取方法，由于需要不断进行滑动窗口框定目标，耗时比较严重，不能实现实时提取。同时，由于均值漂移算法尺寸固定，不能很好的适用于交通场景下车辆近大远小的视觉差。

随着深度学习的方发展，基于深度学习的目标检测、目标跟踪技术也能逐渐成熟，通常由于深度神经网络层数比较深，导致效率低下，而对于智慧交通和自动驾驶等场景来说，信息的时效性是很重要的，交通情况的不及时上报，自动驾驶的感知延迟，都会造成信息的错误上传。

发明内容

有鉴于此，本发明的目的在于提出一种车辆跟踪方法、装置、设备及存储介质，以解决现有技术中多车辆跟踪实时性差且准确性低下的问题。

基于上述目的，本发明提供了一种车辆跟踪方法，包括：

依次获取多帧图像，每帧图像包括至少一个车辆；

每获取一帧图像，提取当前帧图像中每个车辆的检测区；

分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性；

根据所述多维相似性，确定至少一组相匹配的第一检测区和第二检测区；所述第一检测区为当前帧图像中的检测区，所述第二检测区为上一帧图像中的检测区；

根据所述第一检测区，更新所述第二检测区对应的车辆的跟踪轨迹。

进一步地，所述提取当前帧图像中每个车辆的检测区，具体包括：

将所述当前帧图像转换为多维矩阵；

对所述多维矩阵进行5次降采样，且每次采样2倍，得到第一特征图；

对所述第一特征图进行3次上采样，且每次采样2倍，得到第二特征图；

对所述第二特征图进行处理，得到所述当前帧图像中每个车辆的检测区位置信息；

根据所述检测区位置信息，提取所述当前帧图像中每个车辆的检测区。

进一步地，所述多维相似性包括表现特征相似性、空间位置相似性和运动轨迹相似性；

所述分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性，具体包括：

采用特征提取网络，提取所述当前帧图像中每个检测区的表现特征；

根据所述表现特征，采用余弦相似性函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的表现特征相似性，得到第一相似性矩阵；

采用交并比函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的空间位置相似性，得到第二相似性矩阵；

采用余弦函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的运动轨迹相似性，得到第三相似性矩阵。

进一步地，所述特征提取网络包括依次设置的最大池化层、第一卷积层、第二卷积层、第三卷积层、第四卷积层和平均池化层；

所述采用特征提取网络，提取所述当前帧图像中每个检测区的表现特征，具体包括：

将所述当前帧图像中每个检测区的大小调整为预设大小；

分别将每个预设大小的检测区依次输入至最大池化层、第一卷积层、第二卷积层、第三卷积层、第四卷积层和平均池化层，得到所述当前帧图像中每个检测区的表现特征。

进一步地，所述采用余弦函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的运动轨迹相似性，得到第三相似性矩阵，具体包括：

获取上一帧图像中每个车辆对应的轨迹向量；

确定当前帧图像中每个检测区与上一帧图像中每个检测区构成的检测区向量；

根据所述轨迹向量和所述检测区向量，采用余弦函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的运动轨迹相似性，得到第三相似性矩阵。

进一步地，所述根据所述多维相似性，确定至少一组相匹配的第一检测区和第二检测区，具体包括：

将所述第一相似性矩阵、第二相似性矩阵和第三相似性矩阵对应转换为第一损失矩阵、第二损失矩阵和第三损失矩阵；

将所述第一损失矩阵、第二损失矩阵和第三损失矩阵合并为整体损失矩阵；

对所述整体损失矩阵进行求解，得到至少一组相匹配的第一检测区和第二检测区。

进一步地，所述方法还包括：

若所述当前帧图像中存在第三检测区，则保存所述第三检测区的图像信息和位置信息，并初始化所述第三检测区对应的车辆的跟踪轨迹；所述第三检测区为未与上一帧图像中的检测区相匹配的检测区；

若所述上一帧图像中存在第四检测区，则预测所述第四检测区对应的车辆在当前帧图像中的位置信息，且在预测的位置信息满足预设条件时，根据所述预测的位置信息，更新所述第四检测区对应的车辆的跟踪轨迹；所述第四检测区为未与当前帧图像中的检测区相匹配的检测区。

本发明还提供了一种车辆跟踪装置，所述装置包括：

获取模块，用于依次获取多帧图像，每帧图像包括至少一个车辆；

提取模块，用于每获取一帧图像，提取当前帧图像中每个车辆的检测区；

比较模块，用于分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性；

确定模块，用于根据所述多维相似性，确定相匹配的第一检测区和第二检测区；所述第一检测区为当前帧图像中的检测区，所述第二检测区为上一帧图像中的检测区；

更新模块，用于根据所述第一检测区，更新所述第二检测区对应的车辆的跟踪轨迹。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述车辆跟踪方法。

本发明还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述车辆跟踪方法。

从上面所述可以看出，本发明提供的车辆跟踪方法、装置、设备及存储介质，能够依次获取多帧图像，每帧图像包括至少一个车辆，且每获取一帧图像，提取当前帧图像中每个车辆的检测区，以分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性，并根据多维相似性，确定相匹配的第一检测区和第二检测区，以根据第一检测区，更新第二检测区对应的车辆的跟踪轨迹，从而实现多车辆的实时跟踪，且提高跟踪的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的车辆跟踪方法的流程示意图；

图2为本发明实施例提供的车辆跟踪方法中车辆检测模型的结构示意图；

图3为本发明实施例提供的车辆跟踪方法中注意力模块的结构示意图；

图4为本发明实施例提供的车辆跟踪方法的原理图；

图5为本发明实施例提供的车辆跟踪方法中相邻两帧图像中的检测区示意图；

图6为本发明实施例提供的车辆跟踪方法中单目标跟踪网络的结构示意图；

图7本发明实施例提供的车辆跟踪装置的结构示意图；

图8本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

参见图1，为本发明实施例提供的车辆跟踪方法的流程示意图。所述车辆跟踪方法包括步骤101至105：

101、依次获取多帧图像，每帧图像包括至少一个车辆。

本发明实施例中，多帧图像可以从交通监控视频中获取，即多帧图像可以按照交通监控视频的时间顺序依次获取。每帧图像中可以包括至少一个行驶的车辆，例如当前帧图像t中包括n个车辆，n个车辆的集合为B：{Bt₁,Bt₂,Bt₃…Bt_n}。

102、每获取一帧图像，提取当前帧图像中每个车辆的检测区。

本发明实施例中，采用车辆检测模型对每帧帧图像中的所有车辆进行检测，即在获取当前帧图像t后，将当前帧图像t输入至车辆检测模型，车辆检测模型输出当前帧图像t中每个车辆的检测区的位置信息。

具体地，步骤102中的所述提取当前帧图像中每个车辆的检测区，包括：

将所述当前帧图像转换为多维矩阵；

需要说明的是，在将当前帧图像t输入至车辆检测模型之前，将当前帧图像t进行均值化处理，形成3xHxW的多维矩阵，进而将3xHxW的多维矩阵输入至车辆检测模型。

车辆检测模型采用改进的centernet网络(目标检测网络，特点为将目标看做点)来实现，网络结构如图2所示。先将3xHxW的多维矩阵调整为3x512x512的多维矩阵，然后经过resnet18网络进行特征提取，其中resnet18(残差网络，18表示一共18个卷积池化操作)网络一共降采样5次，每次采样2倍，因此3x512x512的多维矩阵经过resnet18网络输出的第一特征图F1的大小为512x16x16。可选地，在获取第一特征图F1后，可以采用注意力模块来建模像素块与像素块之间的关系。

注意力模块的结构如图3所示，CxHxW的原始特征图(原始特征图为第一特征图F1时，C＝512，H＝16，W＝16)经过三个1x1卷积生成三个分支K、Q、V，其中K、Q的特征维度为DxHxW，这里为了减少计算量D要小于C。Q和K特征图进行Affinity操作(元素点乘，计算像素间关系)来获取关系特征图，特征图中每一个像素点表示其与同行同列像素点的关系，然后通过Softmax函数(归一化函数，输出每个输入占总输入的比例)进行归一化处理得到最终的(W+H-1)xHxW维的注意力图。注意力图通过与V特征进行聚合再与第一特征图F1进行相加，得到最终特征图。第一特征图F1经过注意力模块21后输出的最终特征图与第一特征图F1的大小一致。

由于本发明采用的是基于关键点的检测方法，所以要尽量恢复到原图大小的特征图，同时还必须保证特征图的语义信息不大量丢失，所以这里还需对第一特征图F1进行上采样，采样3次，每次采样2倍，上采样部分采用转置卷积实现，同时为了达到更好的效果，在每次上采样前加入可行变卷积。经过3次上采样可以得到大小为64x128x128大小的第二特征图F2。可选地，第二特征图F2之后，可以添加注意力模块来建模像素点和像素点间的关系，以提升遮挡情况下的车辆检测效果。该注意力模块的原始特征图为第二特征图F2，C＝64，H＝128，W＝128，注意力模块的最终特征图可分为三个分支B1、B2和B3进行后处理。

B1分支为2x128x128的特征图，表示每个像素点属于车辆的检测区的中心点和背景的概率，训练时通过高斯分布和标注信息来构造整张特征图每个像素的标签，使用focalloss(焦点损失，更加关注难区分类别的样本，能很好地处理样本不均衡问题)作为损失函数。B2分支为2x128x128的特征图，每个像素点表示中心点的位置偏置(x方向和y方向)，使用L1loss(L1范数损失函数)作为损失函数。B3分支为2x128x128的特征图，每个像素点表示车辆的检测区的长和宽，使用L1loss作为损失函数进行训练。在使用时，根据B1分支得到车辆的检测区的中心坐标，然后再结合B2分支的输出对中心坐标进行调整，再使用B3分支输出的长和宽，确定车辆的检测区的位置信息。检测区的位置信息可以为(x1，y1，x2，y2)，其中，(x1，y1)为检测区的左上角坐标，(x2，y2)为检测区的右下角坐标。在获取每个检测区的位置信息后，即可从当前帧图像t中提取出每个检测区的图像信息。

整个车辆检测模型是一个基于关键点的检测方法，都存在编码解码的过程，即降采样和上采样。关键点检测网络和语义分割网络都可以使用到该车辆检测模型中。

训练时，使用随机梯度下降法，采用32batch进行训练，初始化学习率0.000125，迭代到90和120epoch学习率分别衰减0.1倍，总训练迭代次数140epoch达到比较好的结果。

在提取当前帧图像t中每个车辆的检测区后，如果当前帧图像t为初始帧图像，则分别给当前帧图像t中的每个车辆Bt_i分配跟踪id，并在提取当前帧图像t中每个车辆Bt_i的检测区后，将每个车辆Bt_i的检测区的图像信息和位置信息与其跟踪id对应保存，以便进行车辆跟踪，解决后续车辆漏检时发生跟踪轨迹断开或匹配出错的问题。

如果当前帧图像t不是初始帧图像，则在提取当前帧图像t中每个车辆的检测区B_i(1≤i≤m)时，获取上一帧图像t-1中每个车辆的检测区B_j(1≤j≤n)，如图4所示，以便后续对当前帧图像t中每个车辆的检测区B_i和上一帧图像t-1中每个车辆的检测区B_j进行匹配。其中，m为当前帧图像t中的检测区总数，n为上一帧图像t-1中的检测区总数。

103、分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性。

本发明实施例中，所述多维相似性包括表现特征相似性、空间位置相似性和运动轨迹相似性。其中，表现特征相似性通过第一相似性矩阵表示，空间位置相似性通过第二相似性矩阵表示，运动轨迹相似性通过第三相似性矩阵表示。

具体地，步骤103中的所述分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性，包括：

需要说明的是，先对当前帧图像t中每个车辆的表现特征进行提取，考虑到整个框架的速度问题，采用改进的resnet18作为特征提取网络进行表现特征提取。所述特征提取网络包括依次设置的最大池化层、第一卷积层、第二卷积层、第三卷积层、第四卷积层和平均池化层。

具体地，所述采用特征提取网络，提取所述当前帧图像中每个检测区的表现特征，具体包括：

将所述当前帧图像中每个检测区的大小调整为预设大小；

需要说明的是，将当前帧图像t中每个检测区(如尺寸为HxW)的尺寸调整为96x96，然后通过特征提取网络进行特征提取，特征提取网络中各层的配置如表1所示，特征提取网络输出的表现特征的尺寸为6x6，通道数为128。

表1

特征提取网络可以使用交叉熵损失或三元损失进行训练。其中，resnet18主干网络采用在imagenet数据集(图像分类数据集)上预训练的参数进行初始化，在公开车辆重识别数据集上训练40epoch能达到比较好的重识别效果。

采用特征提取网络对当前帧图像t中的每个检测区进行表现特征提取后，采用余弦相似性函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的表现特征相似性，得到第一相似性矩阵。余弦相似性函数如下：

其中，S¹(i,j)为第一相似性矩阵，rect_i为当前帧图像t中第i个检测区的图像信息，rect_j为上一帧图像t-1中第j个检测区的图像信息，

为特征提取网络。

同时，使用IoU(矩形框面积交并比)来计算两帧图像中车辆之间的空间位置相似性，即计算当前帧图像中每个检测区与上一帧图像中每个检测区的空间位置相似性，得到第二相似性矩阵S²(i,j)。交并比函数如下：

S²(i,j)＝IoU(rect_i,rect_j)；

但是，空间位置相似性有时并不可靠，当车辆快速移动时，两帧车辆的位置关系可能会出现如图5所示的情况，A1和A2分别为车辆A在上一帧图像和当前帧图像中的检测区，B1和B2分别为车辆B在上一帧图像和当前帧图像中的检测区。当车辆移动速度过快时，若只计算空间位置相似性，可能会导致A2和B1的相似性最高，从而将A2和B1错误匹配。因此，本发明在空间位置相似性的基础上增加运动轨迹相似性。

具体地，所述采用余弦函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的运动轨迹相似性，得到第三相似性矩阵，包括：

获取上一帧图像中每个车辆对应的轨迹向量；

其中，余弦函数如下：

其中，S³(i,j)表示第三相似性矩阵，

表示上一帧图像t-1中每个车辆对应的轨迹向量，

表示上一帧图像t-1中每个检测区与当前帧图像t中每个检测区中心点所构成的向量。

由于车辆在运动时出现在其前方的车辆与历史轨迹间的夹角最小，因此衡量检测到的目标与轨迹间的偏移量，使用余弦角能很好的反应出其变化趋势。但是，又由于当车辆速度过慢时，轨迹点的抖动误差相对比较大。因此，本发明提出使用速度v的方法来衡量相信S²和相信S³的程度。

其中，

表示上一帧图像t-1中第i个车辆的速度，即单位时间内移动的像素距离，

表示上一帧图像t-1中第i个车辆的检测区的像素坐标，

表示t-2帧图像中第i个车辆的检测区的像素坐标。当速度过快时，相信S³，速度过慢时，相信S²，即：

其中，λ为超参数，表示相邻两帧车辆的移动的最大像素距离。

104、根据所述多维相似性，确定至少一组相匹配的第一检测区和第二检测区；所述第一检测区为当前帧图像中的检测区，所述第二检测区为上一帧图像中的检测区。

本发明实施例中，在计算当前帧图像t中任一检测区与上一帧图像t-1中任一检测区的多维相似性后，即可将当前帧图像t中的检测区与上一帧图像t-1中的检测区进行匹配。

具体地，步骤104中的所述根据所述多维相似性，确定至少一组相匹配的第一检测区和第二检测区，包括：

需要说明的是，先将第一相似性矩阵S¹、第二相似性矩阵S²和第三相似性矩阵S³对应转换为第一损失矩阵C¹、第二损失矩阵C²和第三损失矩阵C³，即：

进而，将第一损失矩阵C¹、第二损失矩阵C²和第三损失矩阵C³合并为整体损失矩阵C(i,j)，即：

其中，α表示相信表现特征相似性的权重，0≤α≤1。

通过匈牙利算法求解整体损失矩阵C(i,j)，得到全局最优匹配，即得到当前帧图像t与上一帧图像t-1中所有相匹配的检测区。

105、根据所述第一检测区，更新所述第二检测区对应的车辆的跟踪轨迹。

本发明实施例中，对于匹配成功的第一检测区和第二检测区，即表明该第一检测区与第二检测区对应同一车辆，将第一检测区的位置信息保存在第二检测区对应的车辆的跟踪轨迹中，实现对相应车辆的跟踪轨迹的更新，如图4所示。

进一步地，所述方法还包括：

需要说明的是，若当前帧图像t中的检测区总数大于上一帧图像t-1中的检测区总数，则当前帧图像t中存在第三检测区未进行匹配，该第三检测区对应的车辆可能为初次行驶至监控区的车辆，为该车辆建立新的跟踪id，并初始化该车辆的跟踪轨迹，如图4所示。

若上一帧图像t-1中的检测区总数大于当前帧图像t中的检测区总数，则上一帧图像t-1中存在第四检测区未进行匹配，采用单目标跟踪网络对第四检测区对应的车辆在当前帧图像t中的位置信息进行预测，以用于下一帧图像中多车辆跟踪，如图4所示。

单目标跟踪网络使用改进的Siamese-RPN(基于孪生网络和区域候选网络的单目标跟踪)网络，Siamese-RPN网络在单目标领域效果突出。对Siamese-RPN进行裁剪后如图6所示，其中CNN(图6中CNN表示特征提取)部分和Dwconv(图6中Dwconv表示深度可分离卷积操作)部分为主要的参数和计算复杂度裁剪部分，CNN部分采用修改后的alexnet(经典特征提取网络)为主干网络，为了减少计算量，使用非对称卷积替换额alexnet的第四个卷积层。之后接入RPN(区域候选网络，用于生成可能为目标的区域)区域候选网络，对于区域候选网络中的Dwconv1部分，使用深度可分离卷积计算模板和搜索区域的相关性。conv3和conv1的输出都为256通道的特征图。结合深度可分离卷积的特性，将conv3和conv1的输出进行深度可分离卷积操作，那么输出仍然为256通道，然后再通过conv5卷积进行降维，例如使用5个锚框，那么conv5之后输出通道为10，即表示5个锚框分别属于前景或背景的概率。

对于网络中的Dwconv2部分，也使用深度可分离卷积对模板和搜索区域进行计算相关性。conv2和conv4的输出也是256通道，使用5个锚框，最后经过conv6输出特征的通道数为20，即表示5个锚框的平移和缩放量。对锚框进行平移、缩放和前景背景的区分即可输出预测的检测区的位置信息(x1，y1，x2，y2)。

训练时输入成对的图像，模板为第一次出现的目标特征，检测图片为上一帧预测的目标框确定的大小为271x271区域。输出结果为预测的目标框信息。

为了适应框架，需要对每个跟踪轨迹维护一个初始化数据T，数据T中包括车辆第一次出现时的原始图像和检测区的位置信息(x1，y1，x2，y2)。当需要对当前跟踪轨迹进行目标预测时，通过将上一帧的检测区的位置信息和数据T输入单目标跟踪网络来预测该目标在当前帧的位置信息。预测出来的检测区如果置信度大于阈值，并且没有超出跟踪区域，同时也符合在连续S帧内，那么使用预测的位置信息更新其对应的跟踪轨迹，但不更新轨迹的特征信息，否则停止使用单目标跟踪网络进行跟踪，并删除当前跟踪轨迹。该预测的位置信息可用于下一帧的多车辆跟踪。

这里使用在Youtube-BB(大规模视频数据集)和GOT10K(大规模目标跟踪数据集)数据集上预训练好的网络直接使用，由于Youtube-BB和GOT10K数据集包含了大量常见的物体，同时也包含本文要进行跟踪的车辆对象。

本发明提供的车辆跟踪方法，能够依次获取多帧图像，每帧图像包括至少一个车辆，且每获取一帧图像，提取当前帧图像中每个车辆的检测区，以分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性，并根据多维相似性，确定相匹配的第一检测区和第二检测区，以根据第一检测区，更新第二检测区对应的车辆的跟踪轨迹，从而实现多车辆的实时跟踪，且提高跟踪的准确性。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

参见图7，为本发明实施例提供的车辆跟踪装置，所述装置包括：

获取模块10，用于依次获取多帧图像，每帧图像包括至少一个车辆；

提取模块20，用于每获取一帧图像，提取当前帧图像中每个车辆的检测区；

比较模块30，用于分别比较当前帧图像中每个检测区与上一帧图像中每个检测区的多维相似性；

确定模块40，用于根据所述多维相似性，确定相匹配的第一检测区和第二检测区；所述第一检测区为当前帧图像中的检测区，所述第二检测区为上一帧图像中的检测区；

更新模块50，用于根据所述第一检测区，更新所述第二检测区对应的车辆的跟踪轨迹。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图8示出了本实施例所提供的一种具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明实施例提供一种非暂态计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种车辆跟踪方法中的步骤。

本实施例的非暂态计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种车辆跟踪方法，其特征在于，所述方法包括：

依次获取多帧图像，每帧图像包括至少一个车辆；

每获取一帧图像，提取当前帧图像中每个车辆的检测区；

根据所述第一检测区，更新所述第二检测区对应的车辆的跟踪轨迹；

其中，所述多维相似性包括表现特征相似性、空间位置相似性和运动轨迹相似性；

采用余弦函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的运动轨迹相似性，得到第三相似性矩阵；

其中，所述采用余弦函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的运动轨迹相似性，得到第三相似性矩阵，具体包括：

获取上一帧图像中每个车辆对应的轨迹向量；

根据所述轨迹向量和所述检测区向量，采用余弦函数，计算当前帧图像中每个检测区与上一帧图像中每个检测区的运动轨迹相似性，得到第三相似性矩阵；

其中，所述根据所述多维相似性，确定至少一组相匹配的第一检测区和第二检测区，具体包括：

2.根据权利要求1所述的车辆跟踪方法，其特征在于，所述提取当前帧图像中每个车辆的检测区，具体包括：

将所述当前帧图像转换为多维矩阵；

3.根据权利要求1所述的车辆跟踪方法，其特征在于，所述特征提取网络包括依次设置的最大池化层、第一卷积层、第二卷积层、第三卷积层、第四卷积层和平均池化层；

将所述当前帧图像中每个检测区的大小调整为预设大小；

4.根据权利要求1所述的车辆跟踪方法，其特征在于，所述方法还包括：

5.一种车辆跟踪装置，其特征在于，所述装置包括：

更新模块，用于根据所述第一检测区，更新所述第二检测区对应的车辆的跟踪轨迹；

获取上一帧图像中每个车辆对应的轨迹向量；

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任意一项所述的车辆跟踪方法。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至4任意一项所述的车辆跟踪方法。