CN111881840B

CN111881840B - 一种基于图网络的多目标跟踪方法

Info

Publication number: CN111881840B
Application number: CN202010748159.7A
Authority: CN
Inventors: 王涛; 李浥东; 王亚新; 郎丛妍; 冯松鹤
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2023-09-22
Anticipated expiration: 2040-07-30
Also published as: CN111881840A

Abstract

本发明提供了一种基于图网络的多目标跟踪方法，图网络包括特征提取网络模块和图卷积匹配模块，具体包括以下步骤：S1、选取视频中的两帧图像输入特征提取网络模块；S2、通过特征提取网络模块对目标进行特征的提取，获取两帧图像各自的目标特征向量集F_M和F_N，M和N分别表示两帧图像中检测到目标的数量；S3、基于目标特征向量集F_M和F_N，计算目标特征向量之间的相似度，构建二部图；S4、通过所述图卷积匹配模块对二部图进行匹配，并利用损失函数进行图网络的反向传播获得最优的匹配矩阵。本发明提供的一种基于图网络的多目标跟踪方法，利用卷积网络对目标进行特征提取，并且提出的损失函数解决了目标数量不确定的问题，大大提高多目标跟踪的正确率。

Description

一种基于图网络的多目标跟踪方法

技术领域

本发明涉及计算机视觉跟踪技术领域，尤其涉及一种基于图网络的多目标跟踪方法。

背景技术

目标跟踪技术通过观察运动目标的位置信息、根据时序将目标串联起来，利用得到的轨迹走向分析该运动目标的行为，预判目标下一时刻的动向，可以用于预测目标未来的运动趋向或者目标的行为状态，在许多应用场景中有非常重要的价值。如在机器导航、自动驾驶和视频监控系统中，在线多目标跟踪技术起到了重要作用。

对于专利申请CN201910429444.X中公开了一种基于深度学习和数据关联的在线多目标跟踪方法，包括如下步骤：1、输入视频当前帧的图像；2、应用目标检测器得到图像中所有的检测响应；3、利用深度余弦度量学习模型提取检测响应的外观特征；4、初始化目标状态；5、利用卡尔曼滤波算法预测目标在下一帧的位置和尺度；6、基于两阶段数据关联将目标与检测响应的匹配关联，得到最优关联结果；7、根据步骤6中的最优关联结果更新目标的状态和特征；8、输入下一视频帧的图像，重复步骤2、3、4、5、6、7，直到视频结束。该方案解决了多目标跟踪中的数据关联问题，通过深度卷积网络框架自动学习检测到目标的外观特征。但直接计算目标之间的相似度利用匈牙利算法进行轨迹匹配对误检、漏检等问题无法进行更正，在目标遮挡或者相似目标相互交错的场景下，容易发生身份互换，导致IDSw次数增加。

发明内容

本发明的实施例提供了一种基于图网络的多目标跟踪方法，以克服现有技术的缺陷。

为了实现上述目的，本发明采取了如下技术方案。

一种基于图网络的多目标跟踪方法，所述图网络包括特征提取网络模块和图卷积匹配模块，具体包括以下步骤：

S1、选取视频中的两帧图像输入所述特征提取网络模块；

S2、通过所述特征提取网络模块对目标进行特征的提取，获取所述两帧图像各自的目标特征向量集F_M和F_N，M和N分别表示两帧图像中检测到目标的数量；

S3、基于所述目标特征向量集F_M和F_N，计算目标特征向量之间的相似度，构建二部图；

S4、通过所述图卷积匹配模块对二部图进行匹配，并利用损失函数进行图网络的反向传播获得最优的匹配矩阵。

优选地，所述特征提取网络模块为以VGG为基础的36层扩展网络，所述图卷积匹配模块包含两层图卷积层，分别为用于节点特征更新的节点特征更新层和用于边关系更新的边关系更新层。

优选地，所述S1具体为：

利用DPM或R-CNN检测器检测视频中每一帧的目标，选取连续或不连续的两帧图像和检测信息输入特征提取网络模块。

优选地，所述S2具体为：

使用以VGG为基础的36层扩展网络进行特征的提取，选择其中9个层的特征图，连接所述特征图组合形成检测到对象的520维向量，得到两帧的feature map，分别为特征向量集F_M和F_N。

优选地，所述S3具体为：

以目标特征为图的节点特征，目标之间的相似度矩阵为图的邻接矩阵，通过计算目标特征向量之间的余弦距离得到相似度矩阵构建二部图，输入到图卷积匹配模块。

优选地，所述S4包括：

所述节点特征更新层在二部图的不相交的节点中通过矩阵乘法实例化消息传递功能，即二部图中一个集合中每个节点的特征向量，根据另一个集合中所有节点之间的相似度加权更新它们的特征向量，新的特征向量表示为：

F_M＝ρ(Softmax(S)F_NW_θ)

F_N＝ρ(Softmax(S)F_MW_θ)

其中，F_M∈R^IxC表示前一帧中轨迹检测到的结果特征，F_N∈R^JxC表示当前帧中检测到的结果特征，R代表实数，I是指前一帧中轨迹的数量，J是当前帧检测到的目标的数量，θ表示神经网络中的参数，C为向量维度；

等式右边S∈R^IxJ表示通过余弦距离计算得到的目标间的相似度矩阵，Softmax(S)表示对计算出的相似度矩阵进行Softmax归一化，W∈R^DxC代表一组可学习的权重；D是设置的参数，即节点更新生成D维的特征向量；ρ(.)对元素进行非线性化操作，采用的是ReLU函数；

将更新后的节点特征向量输入所述边关系更新层，其中，关联矩阵中元素x_ij∈R通过一对节点的特征聚集到连接这两个节点的边缘上进行边的特征估计，然后应用一个可学习的转换来计算标量值x_ij输出，表示为：

x_ij＝MLP_θ(σ(F_i,F_j))

式中，σ(.)表示将节点特征聚合为中间的边缘特征的特征聚合功能，x_ij∈R，x_ij表示前一帧的第i条轨迹与当前帧第j个检测到的目标之间的相似度，重新更新；

i为矩阵的第i行，j为矩阵第j列，F_i表示第i个目标更新后的特征向量，F_j表示第j个目标更新后的特征向量；

多级矩阵损失L由三个部分组成，分别是匹配损失L_E，一对一关联损失L_O2O，新轨迹与消失轨迹的关联损失L_B&D，L取三者的平均值，即L＝(L_E+L_O2O+L_B&D)/3；

首先，将地面真值关联矩阵Y分成两个部分：

一个为符合一对一关联的子矩阵Y_O2O∈R^k×k，其中，当i和j匹配时，该位置的元素为1，其他为0，k表示目标一对一关联的数量；

另一个为子矩阵Y_B&D表示目标的出现和消失，行中出现1代表新目标出现，列中出现1代表旧目标消失，并且Y_B&D∪Y_O2O＝Y，

地面真值关联矩阵Y和估计损失矩阵A中的每个元素都是二进制数据，表示该元素匹配还是不匹配，对每个元素应用二元交叉熵损失如下公式表示：

其中，L_E表示匹配损失；A_ij，Y_ij表示矩阵A和Y中的元素；p是权重因子，可根据数据样本设置；

对估计损失矩阵A按照地面真值关联矩阵Y进行分离，分别表示为子矩阵A_O2O和子矩阵A_B&D在向量层面上，对于一对一关联的损失函数采用多监督分类损失函数，按照以下公式计算一对一关联损失L_O2O，其中，k表示目标一对一关联的数量，V_O2O表示矩阵Y_O2O和A_O2O之间的差值：

定义L_B&D为新轨迹与消失轨迹的关联损失，采用均方误差使估计矩阵逼近于真值矩阵，公式表示如下，其中，V_B&D表示矩阵Y_B&D和A_B&D之间的差值：

其中，v＝m+n-2*k，m，n分别表示两帧中的目标数量，k表示目标一对一关联的数量，v表示两帧中一共出现的目标数量。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提供的一种基于图网络的多目标跟踪方法，与现有的技术方案网络结构完全不相同，利用图网络解决多目标跟踪的数据关联问题，使用二部图匹配的方式，求解最优分配矩阵，同时，利用提出的损失函数解决了目标数量不确定的问题，提高识别的精度，轨迹分配更加精确，效果更好。由于图数据可以更充分的表示数据信息，基于图网络的多目标跟踪方法的跟踪效果在身份互换次数方面好于传统方法。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于图网络的多目标跟踪方法框架结构示意图；

图2为本发明实施例提供的第1帧和第30帧的数据关联矩阵，其中，(a)和(b)表示第1帧和第30帧共包含5个检测对象，(c)表示一对一关联矩阵，(d)增加额外的行和列，表示在两帧之间包含未识别的目标(包括离开和进入的对象)；

图3为本发明实施例提供的一种基于图网络的多目标跟踪方法测试过程示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

图神经网络的概念首先由Gori在2005年提出，当时处理图数据是通过循环神经架构传播邻近节点的信息，将邻近节点的信息聚合在目标节点上，该过程计算量庞大，在大型的图数据结构中不适用。受卷积网络在图像领域的成功应用，Bruna等人在2013年基于谱图论开发了一种基于图数据卷积的变体，把每个邻居节点的特征以及每条相连边的特征和节点本身的特征通过某种方式聚集在一起，计算可以不在整个图中执行，提高了计算效率。目前，图神经网络在处理图划分、节点分类、图分类、时空图预测等问题有广泛的应用，为了处理特定的图数据问题，衍生了多种图网络，包括图卷积网络、图生成网络、图时空网络等，本发明采用的是图卷积网络。

本发明实施例提供了一种基于图网络的多目标跟踪方法，如图1所示，图网络包括特征提取网络模块和图卷积匹配模块，具体包括以下步骤：

S1、选取视频中的两帧图像输入特征提取网络模块：首先利用DPM(DeformableParts Model)、R-CNN(Region-Convolutional Neural Networks)等检测器检测视频中每一帧的目标，选取连续或不连续的两帧图像和检测信息送入特征提取网络模块。

S2、通过特征提取网络模块对目标进行特征的提取，获取两帧图像各自的目标特征向量集F_M和F_N，M和N分别表示两帧图像中检测到目标的数量：使用以VGG为基础的36层扩展网络进行特征的提取，选择9个层的特征图进行组合形成综合特征，连接特征图使每个目标用520维向量表示，得到两帧的feature map，分别为F_M和F_N。

S3、基于目标特征向量集F_M和F_N，计算目标特征向量之间的相似度，构建二部图：两帧图像经过特征提取网络模块后记录两帧中每个目标的特征，提供图结构的节点特征，计算目标之间的相似度作为图结构的边权值，建立二部图。

S4、通过图卷积匹配模块对二部图进行匹配，并利用损失函数进行图网络的反向传播获得最优的匹配矩阵，具体地：

利用图卷积匹配模块对二部图进行最优匹配，本模块包含两层图卷积，即节点特征更新层和边关系更新层，分别用来进行节点特征更新和边关系更新。其中，节点特征更新层是在二部图的不相交的节点中通过矩阵乘法实例化消息传递功能，即二部图中一个集合中每个节点的特征向量，根据另一个集合中所有节点之间的相似度加权更新它们的特征向量，新的特征向量表示为：

F_M＝ρ(Softmax(S)F_NW_θ)

F_N＝ρ(Softmax(S)F_MW_θ)

其中，F_M∈R^IxC表示前一帧中轨迹检测到的结果特征，F_N∈R^JxC表示当前帧中检测到的结果特征，等式右边S∈R^IxJ表示通过余弦距离计算得到的目标间的相似度矩阵，R为实数，C为向量维度，在本次实验中C是520，I是指前一帧中轨迹的数量，J是当前帧检测到的目标的数量，θ表示神经网络中的参数，Softmax(S)表示对计算出的相似度矩阵进行Softmax归一化，W∈R^DxC代表一组可学习的权重，D是设置的参数，即节点更新生成D维的特征向量，ρ(.)对元素进行非线性化操作，采用的是ReLU函数。

更新后的节点特征向量输入关系更新层，其中关联矩阵中元素x_ij∈R通过一对节点的特征聚集到连接这两个节点的边缘上进行边的特征估计，然后应用一个可学习的转换来计算标量值输出，表示为：

x_ij＝MLP_θ(σ(F_i,F_j))

σ(.)表示将节点特征聚合为中间的边缘特征的特征聚合功能，σ(.)可以有很多形式表示，在本发明实施例中，使用的是非参数化元素相减，基于聚合的边缘特征，θ的多层感知器参数化用来实例化得到标量值x_ij，x_ij表示前一帧的第i条轨迹与当前帧第j个检测到的目标之间的相似度，重新更新。

提出新的损失函数进行网络的反向传播，通过图卷积网络输出一个最优的匹配矩阵，既包含一对一的关系，也包含轨迹的出现与消失，需要对列和行进行不同的处理，为了解决这些困难，首先给出了地面真值矩阵的生成，然后根据假设估计提出多级矩阵损失L，由三个部分组成，分别是L_E(匹配损失)，L_O2O(一对一关联损失)，L_B&D(新轨迹与消失轨迹的关联损失)因此，L取三者的平均值，即L＝(L_E+L_O2O+L_B&D)/3。

由于每帧检测到的目标数量不一致，涉及到新目标的出现和旧目标的消失，考虑到此情况，将地面真值关联矩阵分成两部分：

一个符合一对一关联的子矩阵Y_O2O∈R^kxk，其中当i和j匹配时，该位置的元素为1，其他为0，k表示目标一对一关联的数量。

另一个子矩阵Y_B&D表示目标的出现和消失，行中出现1代表新目标出现，列中出现1代表旧目标消失，并且Y_B&D∪Y_O2O＝Y，Y为地面真值关联矩阵。

地面真值关联矩阵Y和估计损失矩阵A中的每个元素都是二进制数据，表示该元素匹配还是不匹配，因此对每个元素应用二元交叉熵损失如下公式表示：

其中，L_E表示匹配损失；A_ij，Y_ij表示矩阵A和Y中的元素；p是权重因子，可根据数据样本设置。

对估计损失矩阵A按照地面真值关联矩阵Y进行分离，分别表示为子矩阵A_O2O和子矩阵A_B&D在向量层面上，对于一对一关联的损失函数采用多监督分类损失函数，将估计损失矩阵和地面真值矩阵按照以下公式计算损失，其中，k表示目标一对一关联的数量，V_O2O表示矩阵Y_O2O和A_O2O之间的差值：

为了解决离开和进入的目标，定义L_B&D损失，采用均方误差使估计矩阵逼近于真值矩阵，公式表示如下，其中，V_B&D表示矩阵Y_B&D和A_B&D之间的差值：

其中v＝m+n-2*k，m，n分别表示两帧中的目标数量，k表示目标一对一关联的数量，v表示两帧中一共出现的目标数量。损失函数的设计符合多目标跟踪中出现的复杂情况，包含了新目标的出现和旧目标的消失，可以更好地向真实值逼近。

在训练过程中，所有的输入图像调整为统一大小900x 900，以包含目标的高宽比，所有的训练和测试数据再通过网络之前都需要调整到这个维度，VGG模块使用预训练的图像分类，其他的是从零开始训练，尽管特征提取部分作为双流网络进行训练，但在实际部署时是作为单流模型实现的，因为参数可以在两个流之间共享。

如图2所示为第1帧和第30帧的数据关联矩阵，其中，(a)和(b)表示第1帧和第30帧共包含5个检测对象，(c)表示一对一关联矩阵，(d)增加额外的行和列，表示在两帧之间包含未识别的目标(包括离开和进入的对象)。

该实施例提供了一种基于图网络的多目标跟踪方法测试过程，具体如下：

如图3所示，在测试过程中，对于第t帧图像，利用DPM或R-CNN检测器提供的目标中心位置信息，利用特征提取网络模块计算目标的特征矩阵F_t，该特征矩阵F_t与前面30个特征矩阵F_t-30：t-1进行配对，计算出相同数量的相似度矩阵S_t-30：t-1,t，将t-1个相似度矩阵累加起来后再进入图卷积匹配模块，特征矩阵F_t也被存储起来用于计算未来的相似度矩阵，通过计算优化得到的最优匹配矩阵将当前帧与之前的30帧关联起来更新轨迹集τ。

综上所述，本发明实施例提供了一种基于图网络的多目标跟踪方法，通过使用图卷积网络进行数据关联的加权二部图轨迹匹配学习，同时利用卷积网络对目标进行特征提取，并且提出新的损失函数拟合目标的离开与出现，解决了目标数量不确定的问题，既包括一对一的匹配，还包含目标的离开与出现，大大提高多目标跟踪的正确率。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于图网络的多目标跟踪方法，其特征在于，所述图网络包括特征提取网络模块和图卷积匹配模块，具体包括以下步骤：

S1、选取视频中的两帧图像输入所述特征提取网络模块；

S4、通过所述图卷积匹配模块对二部图进行匹配，并利用损失函数进行图网络的反向传播获得最优的匹配矩阵；

所述特征提取网络模块为以VGG为基础的36层扩展网络，所述图卷积匹配模块包含两层图卷积层，分别为用于节点特征更新的节点特征更新层和用于边关系更新的边关系更新层；

所述步骤S1具体为：

利用DPM或R-CNN检测器检测视频中每一帧的目标，选取连续或不连续的两帧图像和检测信息输入特征提取网络模块；

所述步骤S2具体为：

使用以VGG为基础的36层扩展网络进行特征的提取，选择其中9个层的特征图，连接所述特征图组合形成检测到对象的520维向量，得到两帧的feature map，分别为特征向量集F_M和F_N；

所述步骤S3具体为：

以目标特征为图的节点特征，目标之间的相似度矩阵为图的邻接矩阵，通过计算目标特征向量之间的余弦距离得到相似度矩阵构建二部图，输入到图卷积匹配模块；

所述步骤S4包括：

F_M＝ρ(Softmax(S)F_NW_θ)

F_N＝ρ(Softmax(S)F_MW_θ)

x_ij＝MLP_θ(σ(F_i,F_j))

首先，将地面真值关联矩阵Y分成两个部分：