CN112131904B

CN112131904B - 基于图匹配的多目标跨镜追踪方法、装置、设备和介质

Info

Publication number: CN112131904B
Application number: CN201910550032.1A
Authority: CN
Inventors: 吴旻烨; 张谷力; 毕凝
Original assignee: Yaoke Intelligent Technology Shanghai Co ltd
Current assignee: Yaoke Intelligent Technology Shanghai Co ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2024-03-15
Anticipated expiration: 2039-06-24
Also published as: CN112131904A

Abstract

本申请提供的一种基于图匹配的多目标跨镜追踪方法、装置、设备和介质，通过获取一或多组不同位置的同步的视频流；依据各所述视频流进行目标检测以得到一或多个目标的目标框；提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集；将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪。本申请能够对多目标同时跨镜追踪，并通过合理的图模型设计，使得匹配的复杂度降低。且通过调节匹配可以平衡生成匹配的质量和计算速度。

Description

基于图匹配的多目标跨镜追踪方法、装置、设备和介质

技术领域

本发明涉及的计算机视觉、及跨镜追踪及领域，特别是涉及一种基于图匹配的多目标跨镜追踪方法、装置、设备和介质。

背景技术

重识别(Re-identification，ReID)也称再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定目标的技术。广泛被认为是一个图像检索的子问题。给定一个监控目标图像，检索跨设备下的该目标图像。举例来说，该目标可以是行人、车辆或者是猫、狗等动物，或者一直类别的物体。

在监控视频中，由于相机分辨率和拍摄角度的缘故，通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下，ReID就成为了一个非常重要的替代品技术。ReID有一个非常重要的特性就是跨摄像头，因此，基于重识别技术的跨镜追踪逐渐成为计算机视觉在智慧交通管理中的重要运用之一，并且随着物体检测以及物体追踪技术的发展，该项技术被逐渐运用于多个领域，在交通日益发达以及便捷的今天，应用于交通安全以及交通管理上的意义将尤为重要。

但现有跨镜追踪往往只针对单一目标，无法对同一视角下的多目标同时跨镜追踪，如多个车辆的跨镜追踪。另外，在视角下目标出现重叠时，匹配及追踪效果差，以及在对目标进行匹配时算法通常都较为复杂，为计算带来较大负担，增加了计算时间。

因此，需要一种能够对多目标同时跨镜追踪的且复杂度降低的跨镜追踪方案。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于图匹配的多目标跨镜追踪方法、装置、设备和介质，以解决现有技术中的问题。

为实现上述目的及其他相关目的，本申请提供一种基于图匹配的多目标跨镜追踪方法，所述方法包括：获取一或多组不同位置的同步的视频流；依据各所述视频流进行目标检测以得到一或多个目标的目标框；提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集；将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪。

于本申请的一实施例中，所述依据各所述视频流进行目标检测以得到一或多个目标的目标框的方法包括：通过Mask R-CNN的检测框架对各所述视频流进行目标检测，并抽取与所述目标相关的标签以形成所述目标框；其中，选取在画面中大于一定像素的所述目标框为有效；和/或，当两个所述目标的重叠区域超过其中任意一个所述目标对应的所述目标框一定比例时，合并两个所述目标框。

于本申请的一实施例中，所述依据各所述视频流进行目标检测以得到一或多个目标的目标框的方法还包括：采用SFM算法对一或多个视频采集设备所在位置进行三维重建以获得带有贴图的三维模型；在所述三维模型中与各所述视频流的图像中标注一或多个对应点，据以标定各所述视频采集设备并得到其内外参数；依据各所述内外参数将各所述视频流中每一帧中的各所述目标框投影至所述三维模型中。

于本申请的一实施例中，所述提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集的方法包括：依据各所述视频流提取每一帧画面；依据检测器获取所述目标的最新检测结果中各检测目标框，依据追踪器获取最新所述追踪片段中各追踪目标框；计算各所述检测目标框与所述追踪目标框之间的准确度、及重识别误差；通过预设准确度阈值、重识别误差阈值、及置信度阈值进行筛选以得到所述追踪片段合集。

于本申请的一实施例中，所述将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征对出现在不同视角下的各所述目标进行匹配以及合并的方法包括：针对各所述视频流存在视角重叠的情况采用局部匹配，以及针对各所述视频流不存在视角重叠的情况全局匹配。

于本申请的一实施例中，所述局部匹配方法包括：在不同所述视频流的同步帧之间计算相应的评价指标，并对每条由所述节点连接的边赋权重值；所述评价指标由跨镜重识别距离以及三维几何约束信息确定；将属于同一所述追踪片段的所述节点合并，对应所述边的所述权重值为两合并的所述边的所述权重值的平均值；对各所述追踪片段进行有效性约束。

于本申请的一实施例中，所述全局匹配方法包括：令每个所述节点代表一个隶属同一所述目标的追踪片段集合；其中，所述追踪片段集合由原所述追踪片段中随机抽取一定数量的帧组成；依据所述重识别误差以确定各所述追踪片段的所述边及其权重值；对各所述追踪片段进行有效性约束。

为实现上述目的及其他相关目的，本申请提供一种电子装置，所述装置包括：获取模块，用于获取一或多组不同位置的同步的视频流；

处理模块，用于依据各所述视频流进行目标检测以得到一或多个目标的目标框；提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集；将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪。

为实现上述目的及其他相关目的，本申请提供一种计算机设备，所述设备包括：存储器、处理器、及通信器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如上所述的方法；所述通信器用于与外部设备通信。

为实现上述目的及其他相关目的，本申请提供一种计算机可读存储介质，存储有计算机指令，所述计算机指令被运行时执行如上所述的方法。

综上所述，本申请的一种基于图匹配的多目标跨镜追踪方法、装置、设备和介质，通过获取一或多组不同位置的同步的视频流；依据各所述视频流进行目标检测以得到一或多个目标的目标框；提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集；将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪。

具有以下有益效果：

能够对多目标同时跨镜追踪，并通过合理的图模型设计，使得匹配的复杂度降低。且通过调节匹配可以平衡生成匹配的质量和计算速度。

附图说明

图1显示为本申请于一实施例中的基于图匹配的多目标跨镜追踪方法的流程示意图。

图2显示为本申请于一实施例中的局部匹配的模型示意图。

图3显示为本申请于一实施例中的全局匹配的模型示意图。

图4显示为本申请于一实施例中的电子装置的模块示意图。

图5显示为本申请于一实施例中的计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面以附图为参考，针对本申请的实施例进行详细说明，以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现，并不限定于此处说明的实施例。

为了明确说明本申请，省略与说明无关的部件，对于通篇说明书中相同或类似的构成要素，赋予了相同的参照符号。

在通篇说明书中，当说某部件与另一部件“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部件“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素排除在外，而是意味着可以还包括其它构成要素。

当说某部件在另一部件“之上”时，这可以是直接在另一部件之上，但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时，其之间不伴随其它部件。

虽然在一些实例中术语第一、第二等在本文中用来描述各种元件，但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如，第一接口及第二接口等描述。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

此处使用的专业术语只用于言及特定实施例，并非意在限定本申请。此处使用的单数形态，只要语句未明确表示出与之相反的意义，那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化，并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。

表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指，不仅是在附图中所指的意义，还包括使用中的装置的其它意义或作业。例如，如果翻转附图中的装置，曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此，所谓“下”的示例性术语，全部包括上与下方。装置可以旋转90°或其它角度，代表相对空间的术语也据此来解释。

虽然未不同地定义，但包括此处使用的技术术语及科学术语，所有术语均具有与本申请所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义，只要未进行定义，不得过度解释为理想的或非常公式性的意义。

承前所述，ReID逐渐成为计算机视觉在智慧交通管理中的重要运用之一，随着物体检测以及物体追踪技术的发展，该项技术被逐渐运用于多个领域尤其是在在交通日益发达以及便捷的今天，在交通安全以及交通管理方面的应用将尤为重要。本申请技术提出一种针对多目标同时跨镜追踪的方案，例如对车辆的跨镜追踪，即通过检测车辆的同时对其进行多相机框架下的追踪，实现在不同的相机视频中发现同一个车辆。

本申请所述方法可用于现有视频交通系统，通过采集路口、路边的摄像机数据，达到目标追踪的目的。

需说明的是，本申请中所述目标可以是行人、车辆或者是猫、狗等动物，或者一直类别的物体。

如图1所示，展示为本申请一实施例中的基于图匹配的多目标跨镜追踪方法的流程示意图。如图所示，所述方法包括：

步骤S101：获取一或多组不同位置的同步的视频流。

于本实施例中，所述不同位置可以指不同路口。所述视频流可以通过采集路口、路边的摄像机数据获得。

例如，根据已知的视频流来源摄像头的GPS信息，可以获取对应位置，并从对应位置的三维街景图中截取一定数量的图片。

于本实施例中，所述同步的视频流是指这些视频流虽然为针对不同位置，但视频内容为同一时段，具有同步性。

步骤S102：依据各所述视频流进行目标检测以得到一或多个目标的目标框。

于本实施例中，本申请以目标检测结果作为每个视频流多目标追踪的初始化(目标框)，之后通过单目多目标追踪算法记录下每个视频流内每个目标的目标框以及轨迹。

于本申请一实施例中，所述步骤S102的方法具体还包括：

通过Mask R-CNN的检测框架对各所述视频流进行目标检测，并抽取与所述目标相关的标签以形成所述目标框。其中，选取在画面中大于一定像素的所述目标框为有效；和/或，当两个所述目标的重叠区域超过其中任意一个所述目标对应的所述目标框一定比例时，合并两个所述目标框。

所述Mask R-CNN是一个实例分割模型，它能确定图片中各个目标的位置和类别，给出像素级预测。所谓“实例分割”，指的是对场景内的每种兴趣对象进行分割，无论它们是否属于同一类别——比如模型可以从街景视频中识别车辆、人员等目标。

不同于Faster R-CNN这样的经典对象检测模型，Mask R-CNN的一个特点是可以给窗口内表示对象轮廓的像素着色。

事实上，Mask R-CNN是Faster R-CNN和FCN的结合，前者负责目标检测(分类标签+窗口)，后者负责确定目标轮廓。

其概念为：对于每个目标对象，Faster R-CNN都有两个输出，一是分类标签，二是候选窗口；为了分割目标像素，可以在前两个输出的基础上增加第三个输出——指示对象在窗口中像素位置的二进制掩模(mask)。和前两个输出不同，这个新输出需要提取更精细的空间布局，为此，Mask R-CNN在Faster-RCNN上添加一个分支网络：Fully ConvolutionNetwor(FCN)。

FCN是一种流行的语义分割算法，所谓语义分割，就是机器自动从图像中分割出对象区域，并识别其中的内容。该模型首先通过卷积和最大池化层把输入图像压缩到原始大小的1/32，然后在这个细粒度级别进行分类预测。最后，它再用上采样和deconvolution层把图还原成原始大小。

因此简而言之，可以说Mask R-CNN结合了两个网络——把Faster R-CNN和FCN纳入同一巨型架构。模型的损失函数计算的是分类、生成窗口、生成掩模的总损失。

承上所述，在通过Mask R-CNN的检测框架对各所述视频流进行目标检测后，从中抽取标签与目标相关的样本(例如，车辆相关的“轿车”，“卡车”)。同时，在所有检测结果中，将认为目标框的宽高在画面中大于一定像素的所述目标框为有效，例如大于40像素为有效的目标框。另外，还可以对任意重叠区域超过其中任何一个目标框一定比例以上的两个目标框合并，例如所述比例为85％。

于本申请一实施例中，所述步骤S102的方法还包括搭建三维环境的方法，具体包括：

A、采用SFM算法对一或多个视频采集设备所在位置进行三维重建以获得带有贴图的三维模型；

B、在所述三维模型中与各所述视频流的图像中标注一或多个对应点，据以标定各所述视频采集设备并得到其内外参数；

C、依据各所述内外参数将各所述视频流中每一帧中的各所述目标框投影至所述三维模型中。

首先，本方法可以根据已知的视频流来源视频采集设备(摄像头)的GPS信息，并从对应位置的三维街景图中截取一定数量的图片。

其次，使用SFM算法对摄像头所在的位置(路口)进行三维重建，获得一个简单的三维模型。

之后，在带有贴图的三维模型以及对应的视频流图像中人为地标注对应点，使用这些对应点标定相机(视频采集设备)，得到对应的相机的外参信息R和内参信息T。根据以上信息，能够将视频流中每一帧的每一个目标框投影到对应的三维环境中。

这里，对于目标框，本方法选取目标框下边界的中点x_c作为该目标框在相机c的二维坐标。故该目标框的三维坐标X通过以下公式进行反投影得到：

X＝Td(x′_c)K^-1x′_c

x′_c＝Θ(x_c,κ)

其中，Θ(x_c,κ)代表去畸变函数，畸变参数κ在标定相机内外参数的时候得到。d(x′_c)是去畸变二维坐标x′_c对应的深度，深度图像由三维模型在对应相机内外参下投影生成。

步骤S103：提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集。

对于目前的大部分检测器(例如，YOLOv3，Mask R-CNN等)虽然能在单帧检测上得到相对可观的检测结果。但是对于视频流而言，这一类检测器由于不能有效地利用时序以及三维信息，使得其检测结果在时间上不具备连续性，故无法提供一段时间内稳定的检测结果。本申请在原有检测结果的基础上，结合追踪器，利用了时间，空间以及重识别特征对单个视频流进行追踪片段生成。

于本申请一实施例中，所述步骤S102的方法具体还包括：

A、依据各所述视频流提取每一帧画面；

B、依据检测器获取所述目标的最新检测结果中各检测目标框，依据追踪器获取最新所述追踪片段中各追踪目标框；

C、计算各所述检测目标框与所述追踪目标框之间的准确度、及重识别误差；

D、通过预设准确度阈值、重识别误差阈值、及置信度阈值进行筛选以得到所述追踪片段合集。

于本实施例中，整个追踪片段生成算法的输入为一个视频流针对IoU的阈值ξ₁，IoU(Intersection over Union)是一种测量在特定数据集中检测相应目标准确度的一个标准。IoU是一个简单的测量标准，只要是在输出中得出一个预测范围(bounding boxes)的任务都可以用IoU来进行测量。另外，还针对重识别误差的阈值ξ₂以及针对检测算法置信度的阈值ξ₃。

例如，具体算法如下：

#建立追踪片段集合

for视频流中的每一帧fⁱdo

for中的每一个追踪片段rdo

UpdateTracklet(r,fⁱ)#追踪器更新追踪结果

end

B_d＝ObjectionDetection(r，fⁱ)#检测器更新检测结果

for目标检测结果B_d中的每一个目标框b_ddo

flag＝True

for中的每一个追踪片段rdo

b_t＝GetLastBoundingBox(t)#获取追踪器中最新追踪片段对于的目标框b_t

iou＝IoU between b_t and b_d#计算b_t以及b_d之间的IoU

if iou≥ξ₁and dist≤ξ₂then

UpdateLastBoundingBox(r,b_d)

flag＝False

end

if flag＝Truethen

end

序列化中的追踪片段并且删除检测置信度低于ξ₃的追踪片段

end

返回当前视频流的追踪片段集合

步骤S104：将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪。

于本申请一实施例中，步骤S104的方法具体包括：

针对各所述视频流存在视角重叠的情况采用局部匹配，以及针对各所述视频流不存在视角重叠的情况全局匹配。

于本实施例中，通过追踪片段生成算法，每个视频流中会生成上千个追踪片段。直接进行全局匹配是非常耗时并且需要巨大的内存空间。本申请将全局匹配问题划分为局部匹配和全局匹配两个阶段，同时把匹配问题抽象为图中团查找问题，并提出图匹配算法(GMS)来求解该问题。

首先，本方法在获得同步的每个视频流下的追踪片段之后，将每个时刻的追踪片段抽象为图(graph)中的一个节点(node)。

接下来的匹配分为两个阶段：

第一阶段，对于有重叠的视角，同样的目标有可能同时出现在多个视频流中，故首先在这样的视频流集合中，根据几何约束以及重识别特征匹配相同的目标，并把它们的追踪片段以及特征合并到一个节点下。

第二阶段，对于不存在重叠的视频流集合之间，本方法根据重识别特征对可能的目标进行匹配以及合并。从而得到全局坐标下每个追踪目标的全局追踪片段。

本方法将匹配过程抽象为无向图的团查找问题，在无向图中每个节点(node)代表一个匹配单元，每条带权值的边(edge)代表相连两个节点的相关性(correlation)。在完成匹配之后，本方法认为同一个团(clique)中的节点是等价的。匹配算法的目标是，根据给定的一系列条件限制，在图中尽可能构造出团，出找出图中的所有合理有效的团，认为属于同一个团的节点之间是等效的。

图匹配算法(GMS)是一个迭代算法，在每一次迭代中，算法分解当前图为匹配点集(matched node groups)和未匹配点集(unused nodes)。未匹配点集会构成新的无向图作为下一次迭代的输入，直到所有合理的团都被找到时迭代停止。

在第次迭代中，GMS算法的出入是原始无向图/>上一次迭代中的未匹配点集/>以及用于筛选边和团的阈值∈和最小团维度(minimum clique size)m_i。算法首先初始化一个新的无向图/>其中/>接下来删除G′中权值低于∈的边，并使用Disjoint Set Union算法获得强连接子图/>对于每个强连接子图/>尽可能地连接任意两个节点形成一个完全图(complete graph)，其中新的边的权值来自于原始的无向图G，对于G中不存在的边则赋值为0；接下来，去掉违反约束的两点之间的边，得到新的图G″；之后，从G″中选出至少包含m_i个节点的团；匹配点集合定义为S_i，未匹配点集合定义为/>迭代终止条件为/>

局部匹配

于本申请一实施例中，所述局部匹配方法包括：

A、在不同所述视频流的同步帧之间计算相应的评价指标，并对每条由所述节点连接的边赋权重值；所述评价指标由跨镜重识别距离以及三维几何约束信息确定

B、将属于同一所述追踪片段的所述节点合并，对应所述边的所述权重值为两合并的所述边的所述权重值的平均值；

C、对各所述追踪片段进行有效性约束。

在进行全局匹配之前，本方法在存在视角重叠的几组频流进行局部匹配，合并不同视频流中的相同目标。在这个阶段的匹配中，本方法认为每个时刻的每个追踪片段为一个节点(node)，可参考图2所示，并在不同视频流的同步帧之间计算相应的评价指标并赋值给每条边(edge)作为权重这一指标由跨镜重识别距离以及三维几何约束信息确定。

其中代表t时刻追踪片段r_a的重识别特征；φ(r_a,r_b,t)代表t时刻追踪片段r_a,r_b的三维几何误差；λ代表线性组合权重。

其中ω(r,t)代表追踪片段r在t时刻下的三维位置信息。由于初始化中过多的节点会给匹配带来过大的计算负担，本方法将属于同一追踪片段的节点合并，对应的边赋值为合并边的平均值。除此之外，对于不发生重叠的追踪片段，本方法计算其重识别误差作为他们之间的边。

此外，本申请所述方法对边的有效性还包括以下约束：

1)两个有效的追踪片段在同一视频流中不存在时间重叠；

2)两个有效的追踪片段在同一视角下的运动方向应当相似(如小于80°)；

3)对于没有时间重叠的追踪片段，其时间间隔应当小于如30帧。

全局匹配

于本申请一实施例中，所述全局匹配方法包括：

A、令每个所述节点代表一个隶属同一所述目标的追踪片段集合；其中，所述追踪片段集合由原所述追踪片段中随机抽取一定数量的帧组成；

B、依据所述重识别误差以确定各所述追踪片段的所述边及其权重值；

C、对各所述追踪片段进行有效性约束。

在完成组内视频流的匹配后，本方法使用同样的方法在组间对目标进行匹配。可参考图3所示，在初始化的无向图中，每个节点代表一个隶属同一目标的追踪片段集合，集合中的每个追踪片段由原追踪片段中随机抽取最多10帧组成，每条边及其权重ω_a,b只由重识别误差确定：

其中f_i是追踪片段集合的特征向量，特征向量由该集合中的追踪片段的重识别特征平均得到。

同时，本方法对追踪片段结合的有效性还包括以下约束：

1)两个有效的追踪片段集合不存在时间重叠；

2)两个有效的追踪片段集合的时间间隔应当符合物理世界中的时间间隔；

3)两个追踪片段结合不存在重叠。

综上所述，本申请所述方法提出了目标时空匹配的图建模方式，在图结构中完成目标的匹配。相比于暴力的匹配算法，本方法的方法是一种自底向上的匹配，通过合理的图模型设计，使得匹配的复杂度降低。且可以通过调节匹配的置信度(边的权重阈值)，可以平衡生成匹配的质量和计算速度。

在本申请的框架下，可以很方便地加入其它本文未描述的约束。只需把新的约束转化成一种评分机制，即可作为边权重中的一个线性加权项添加到构建的图中实现匹配和追踪。

本申请不仅可以用跨镜追踪车辆，也可用于追踪行人、猫、狗等已知类别的物体。

如图4所示，展示为本申请于一实施例中的电子装置的模块示意图。如图所示，所述装置400包括：

获取模块401，用于获取一或多组不同位置的同步的视频流；

处理模块402，用于依据各所述视频流进行目标检测以得到一或多个目标的目标框；提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集；将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请所述方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

还需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块402可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块402的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

如图5所示，展示为本申请于一实施例中的计算机设备的结构示意图。如图所示，所述计算机设备500包括：存储器501、处理器502、及通信器503；所述存储器501用于存储计算机指令；所述处理器502运行计算机指令实现如图1所述的方法。所述通信器503与外部设备通信。

举例来说，所述外部设备可以为视频采集设备，如摄像头、相机等。

在一些实施例中，所述计算机设备500中的所述存储器501的数量均可以是一或多个，所述处理器502的数量均可以是一或多个，所述通信器503的数量均可以是一或多个，而图5中均以一个为例。

于本申请一实施例中，所述计算机设备500中的处理器502会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器501中，并由处理器502来运行存储在存储器501中的应用程序，从而实现如图1所述的方法。

所述存储器501可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器501存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

所述处理器502可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

所述通信器503用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信连接。所述通信器503可包含一组或多组不同通信方式的模块，例如，与CAN总线通信连接的CAN通信模块。所述通信连接可以是一个或多个有线/无线通讯方式及其组合。通信方式包括：互联网、CAN、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字用户线(DSL)网络、帧中继网络、异步传输模式(ATM)网络、虚拟专用网络(VPN)和/或任何其它合适的通信网络中的任何一个或多个。例如：WIFI、蓝牙、NFC、GPRS、GSM、及以太网中任意一种及多种组合。

在一些具体的应用中，所述计算机设备500的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见，在图5中将各种总线都成为总线系统。

于本申请的一实施例中，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所述的方法。

所述计算机可读存储介质，本领域普通技术人员可以理解：实现上述系统及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述系统及各单元功能的实施例；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请提供的一种基于图匹配的多目标跨镜追踪方法、装置、设备和介质，通过获取一或多组不同位置的同步的视频流；依据各所述视频流进行目标检测以得到一或多个目标的目标框；提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集；将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于图匹配的多目标跨镜追踪方法，其特征在于，所述方法包括：

获取一或多组不同位置的同步的视频流；

依据各所述视频流进行目标检测以得到一或多个目标的目标框；

提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集；

将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪；

其中，所述将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征对出现在不同视角下的各所述目标进行匹配以及合并的方法包括：针对各所述视频流存在视角重叠的情况采用局部匹配方法，以及针对各所述视频流不存在视角重叠的情况采用全局匹配方法；

所述局部匹配方法包括：在不同所述视频流的同步帧之间计算相应的评价指标，并对每条由所述节点连接的边赋权重值所述评价指标由跨镜重识别距离以及三维几何约束信息确定；

其中代表t时刻追踪片段r_a的重识别特征；/>代表t时刻追踪片段r_b的重识别特征；

φ(r_a,r_b,t)代表t时刻追踪片段r_a,r_b的三维几何误差；λ代表线性组合权重；

其中ω(r,t)代表追踪片段r在t时刻下的三维位置信息；

将属于同一所述追踪片段的所述节点合并，对应所述边的所述权重值为两合并的所述边的所述权重值的平均值；对各所述追踪片段进行有效性约束；

所述全局匹配方法包括：令每个所述节点代表一个隶属同一所述目标的追踪片段集合；其中，所述追踪片段集合由原所述追踪片段中随机抽取一定数量的帧组成；依据重识别误差以确定各所述追踪片段的边及其权重值ω_a,b；

其中f_i是追踪片段集合的特征向量，特征向量由该集合中的追踪片段的重识别特征平均得到；

对各所述追踪片段进行有效性约束。

2.根据权利要求1所述的方法，其特征在于，所述依据各所述视频流进行目标检测以得到一或多个目标的目标框的方法包括：

通过Mask R-CNN的检测框架对各所述视频流进行目标检测，并抽取与所述目标相关的标签以形成所述目标框；

其中，选取在画面中大于一定像素的所述目标框为有效；和/或，当两个所述目标的重叠区域超过其中任意一个所述目标对应的所述目标框一定比例时，合并两个所述目标框。

3.根据权利要求1所述的方法，其特征在于，所述依据各所述视频流进行目标检测以得到一或多个目标的目标框的方法还包括：

采用SFM算法对一或多个视频采集设备所在位置进行三维重建以获得带有贴图的三维模型；

在所述三维模型中与各所述视频流的图像中标注一或多个对应点，据以标定各所述视频采集设备并得到其内外参数；

依据各所述内外参数将各所述视频流中每一帧中的各所述目标框投影至所述三维模型中。

4.根据权利要求1所述的方法，其特征在于，所述提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集的方法包括：

依据各所述视频流提取每一帧画面；

依据检测器获取所述目标的最新检测结果中各检测目标框，依据追踪器获取最新所述追踪片段中各追踪目标框；

计算各所述检测目标框与所述追踪目标框之间的准确度、及重识别误差；

通过预设准确度阈值、重识别误差阈值、及置信度阈值进行筛选以得到所述追踪片段合集。

5.一种电子装置，其特征在于，所述装置包括：

获取模块，用于获取一或多组不同位置的同步的视频流；

处理模块，用于依据各所述视频流进行目标检测以得到一或多个目标的目标框；提取各所述视频流内各所述目标对应的所述目标框及以形成追踪片段合集；将所述追踪片段合集中各时刻的追踪片段抽象为无向图中一个节点，并根据重识别特征及有效性约束对出现在不同视角下的各所述目标进行匹配以及合并，以实现各所述目标的跨镜追踪；

其中ω(r,t)代表追踪片段r在t时刻下的三维位置信息；

对各所述追踪片段进行有效性约束。

6.一种计算机设备，其特征在于，所述设备包括：存储器、处理器、及通信器；所述存储器用于存储计算机指令；所述处理器运行计算机指令实现如权利要求1至4中任意一项所述的方法；所述通信器用于与外部通信。

7.一种计算机可读存储介质，其特征在于，存储有计算机指令，所述计算机指令被运行时执行如权利要求1至4中任一项所述的方法。