CN110110670A

CN110110670A - 基于Wasserstein度量的行人跟踪中的数据关联方法

Info

Publication number: CN110110670A
Application number: CN201910384046.0A
Authority: CN
Inventors: 郭春生; 刘洋; 应娜; 陈华华; 章建武
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Electronic Science and Technology University
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-09
Anticipated expiration: 2039-05-09
Also published as: CN110110670B

Abstract

一种基于Wasserstein度量的行人跟踪中的数据关联方法，包括：获取行人的外观特征，把提取到的外观特征输入到一个特征提取网络，使用这个网路提取行人的外观特征，对于每个行人都会得到一个特征向量；制作数据集，同一个行人相邻视频帧的特征向量组成一个正样本，正样本的label为0；不同行人的特征向量组成一个负样本，负样本的label为1；由于Wasserstein距离的值反映了行人的外观匹配度，将Wasserstein距离与神经网络相结合进行求解；对于满足外观匹配度的行人，利用行人的运动匹配度进行筛选，再利用Hungarian算法实现行人跟踪中的数据关联。有效的减少行人跟踪中漏报行人的个数达到良好的跟踪效果。

Description

基于Wasserstein度量的行人跟踪中的数据关联方法

技术领域

本发明属于目标跟踪领域，具体涉及一种基于Wasserstein度量的行人跟踪中的数据关联方法。

背景技术

随着科技的日益进步和社会的不断发展，人们对自身生命财产的安全意识不断提高，在人们的日常生活中充斥着各种各样的摄像头组成的监控系统，而目标跟踪(OT)作为视频监控领域的一项关键技术，其涉及机器学习、图像处理、概率论与统计学、深度学习等多个领域的知识，受到国内外学者和相关产业界人士的高度关注，有着很重要的研究价值和应用前景。其中的行人跟踪不但要检测出行人，而且还要实现行人在时间序列上的关联。行人的检测技术已经比较成熟，如可以使用SSD、Faster R-CNN、YOLO等常用的行人检测模型进行检测，这些网络模型能准确的检测出行人。行人的数据关联是指随着时间的移动选择和聚类相应的检测。但是在实际场景中实现准确的行人数据关联是很不容易的，存在着很多难点，例如，行人的遮挡、行人的丢失和行人的身份转换等，都会给行人的数据关联造成困难。

因此，来找到一个鲁棒可靠的行人特征表示模型和特征相似度度量准则对于行人的数据关联是非常重要的，对行人跟踪的数据关联相关技术仍然需要进行深入研究。

发明内容

本发明将Wasserstein距离与深度卷积网络相结合，提出了一种基于Wasserstein度量的行人跟踪中的数据关联方法，即将Wasserstein距离应用于行人跟踪中的数据关联问题。首先，利用一个特征提取网络提取行人的外观特征，得到行人的外观特征向量，并利用这些特征向量制作了一个数据集。其次，借助于对偶定理和Farkas引理，把求解Wasserstein距离最小值的问题，转化为在一定约束条件下求解其对偶形式最大值的问题，并且设计了一个卷积网络，把Wasserstein距离与网络相结合，使用这个网络来求解特征向量之间的Wasserstein距离。考虑到网络训练的难易程度以及所需数据集的大小，给网络添加一个梯度惩罚项，对网络输出的梯度值加以限制，这样能保证网络的输出限定在一定的范围内，使得网络容易训练，尽快收敛。然后，还改进了Contrastive损失，并在自己制作的数据集上训练，网络训练的目的就是使得同一个行人外观特征向量之间的Wasserstein距离减小，不同行人外观特征向量之间的Wasserstein距离增大。由于Wasserstein距离的值仅反映了行人的外观匹配度，对于满足外观匹配度的行人，再计算行人的运动匹配，最后再利用Hungarian算法实现行人的最佳关联。

本发明的方法具体步骤如下：

步骤一：提取行人的外观特征，把行人的检测结果输入到一个特征提取网络，使用这个网路提取行人的外观特征，对于每个行人都会得到一个特征向量，这个向量是高维的，向量的每一维都可正可负可为零。

步骤二：制作数据集，同一个行人相邻视频帧的特征向量组成一个正样本，正样本的label为0；不同行人的特征向量组成一个负样本，负样本的label为1；正负样本都包含两个特征向量。

步骤三：将Wasserstein距离与神经网络相结合，详细介绍了Wasserstein距离的求解过程。由于行人特征向量的每一维都可正可负可为零，不能直接利用公式求解Wasserstein距离。借助于对偶定理和Farkas引理，把求解Wasserstein距离最小值的问题，转化为在一定约束条件下，求解其对偶形式最大值的问题。同时，由于要把Wasserstein距离与神经网络相结合，还要考虑到网络训练的难易程度以及所需数据集的大小，给网络的输出添加一个梯度惩罚项，可以使输出限定在一定的范围内，使得网络很容易训练和收敛。然后，还改进了Contrastive损失，也就是把衡量样本之间相似度的欧式距离替换为Wasserstein距离，并在自己制作的数据集上训练，网络训练的目的就是减小同一个行人外观特征向量之间的Wasserstein距离，增大不同行人外观特征向量之间的Wasserstein距离。

步骤四：由于现实场景行人跟踪的背景比较复杂，所以对于满足外观匹配度的行人，再利用行人的运动匹配度进一步筛选，这是一个级联的过程，也就是说对于不满足外观匹配度的行人，直接丢弃，不再计算行人的运动匹配度。最后再利用Hungarian算法实现行人的最佳关联。

本发明的所述步骤一中的获取行人的外观特征是通过图像采集来提取的。

采用本发明的数据关联方法，能有效的减少行人跟踪中漏报行人的个数，达到了良好的跟踪效果。

附图说明

图1为基于Wasserstein度量的行人跟踪中的数据关联方法示意图

具体实施方式

下面通过具体实施例对本发明的技术方案作进一步描述说明，使得本技术方案更加清楚、明白。

本实施例公开了一种基于Wasserstein度量的行人跟踪中的数据关联方法，包括以下步骤：

步骤一：首先对图片进行预处理，并把图片统一为128×64的大小，然后把包含行人检测结果的图片输入到特征提取网络中，来提取图片中行人的外观特征向量。这个特征提取网络是由2个卷积层、1个最大池化层、6个Residual模块和1个dense层等组成的，每个Residual模块包含三个卷积层和一个平均池化层。图片经过卷积层之后，维度变为32×128×64；经过最大池化层之后维度变为32×64×32；然后经过Residual-1和Residual-2之后，维度还为32×64×32；经过Residual-3和Residual-4之后，维度变为64×32×16；经过Residual-5和Residual-6之后，维度变为64×32×16；然后再经过dense层和正则化处理，会得到一个128维的特征向量。

步骤二：利用步骤一提取的行人特征向量制作数据集。首先要明白数据集中的每一个样本都包含两个向量，这两个向量分别描述视频前后帧中行人的外观特征。优选的，本方法使用MOT16数据集train序列上的七个视频片段制作了数据集，制作的训练集数据共有110000个，包含70000个正样本，40000个负样本；正样本的label为0，负样本的label为1。正样本代表两个特征向量取自视频前后帧中的同一个行人，负样本代表两个特征向量取自视频前后帧中的不同行人。

步骤三：将Wasserstein距离与卷积神经网络相结合，即设计一个卷积神经网络来求解Wasserstein距离。由于步骤一提取的行人特征向量的每一维都可正可负可为零，并且Wasserstein距离表达式比较复杂，不能直接计算Wasserstein距离，所以借助于神经网络来求解Wasserstein距离。下面介绍具体的求解步骤：

3-1.Wasserstein距离的定义

Wasserstein度量是一种衡量概率测度间差异程度的度量方式，具有能保持分布函数几何特性的性质。与传统的欧式度量、余弦度量相比，Wasserstein度量不但能反映分布的几何性质，而且又能作为一种度量方式应用于统计学习中。

设X～μ,Y～ν为概率空间Ω上的任意两个概率分布，d(x,y)为概率空间上的一个度量，则这两个概率分布之间的p-Wasserstein距离为：

通常研究的是p＝1的情况，取d(x,y)＝||x-y||，则1-Wasserstein距离(以下简称Wasserstein)的表达式为：

其中Π(P₁,P₂)是P₁和P₂组合起来的所有可能联合分布的集合，很显然P₁和P₂是Π(P₁,P₂)的边缘分布。从联合分布γ中采样(x,y)～γ，可以得到样本x和样本y，计算出这对样本之间的距离||x-y||，因此也就可以计算出该联合分布γ下样本对距离的期望值E_(x,y)～γ[||x-y||]。在所有可能的联合分布中求这个期望值的下界inf(E_(x,y)～γ[||x-y||])，就定义为Wasserstein距离。

3-2.Wasserstein距离的求解

求解Wasserstein距离一般有两种思路：一种是添加一个熵正则化项，再通过Sinkhorn迭代算法求其近似解；另一种是通过Bregman-ADMM算法来求解。上述两种思路都是把求解Wasserstein距离的问题转化为求解与其等价的最优传输问题来解决的。本发明依然把求解Wasserstein距离的问题转化为在约束条件下的最优传输问题。

在式子(2)中，当P₁和P₂是离散分布的时候，Wasserstein距离又叫Earth-Mover距离，此时式(2)的等价形式为：

其中Γ＝γ(x,y)，D＝||x-y||，x,y∈R^l，Γ,D∈R^l×l，<，>_F代表所有元素求和，式子(3)可以看成线性规划问题来求解，就是在约束条件Ax＝b,A∈R^m×n,b∈R^m,x≥0下；找到一个向量x∈Rⁿ，最小化式子(4)：

z＝inf(c^Tx) (4)

其中n＝l²，m＝2l，c∈Rⁿ，x＝vec(Γ)，c＝vec(D)，b＝[P₁,P₂]^T；vec(·)函数表示将向量展开成一行。

[P₁(x₁)P₁(x₂)…P₁(x_n)|P₂(y₁)P₂(y₂)…P₂(y_n)]}b^T

式子(5)为一个稀疏矩阵，较为清晰的展示了限制条件Ax＝b。不关心x＝vec(Γ)的值具体为多少，只需要求出式子(5)就可以。线性规划问题，通常有两种方式来解，由弱对偶定理，构建拉格朗日函数可得：

其中y∈R^m，由式子(3)可以看出，就是z的下界，也就是说求式子(4)的最小值就是寻找的最大值

假设原问题(3)的最优解为z^*＝c^Tx^*，ε>0，定义：

其中ε,α∈R，由Farkas引理和强对偶定理存在y和α使得：

式子(9)也可以写成式子(10)的形式：

A^Ty≤αc,b^Ty>α(z^*-ε) (10)

因为在本发明中z^*>0，所以α>0，所以α的值可以取为1，ε为任意大于0的数，无限接近z^*。综合式子(4)可得：

上面的证明过程说明式子(3)的对偶形式与它本身具有相同的解，求原始式子最小值的问题就等同于求其对偶形式最大值的问题，下面求它对偶形式的解：

其中y^*＝[f g]^T，f,g∈R^l；代入式子(12)在约束条件A^Ty≤c下化简得：

W(P₁,P₂)＝max(f^TP₁+g^TP₂) (13)

[D_1,1 D_1,2 …|D_2,1 D_2,2 …|…|D_n,1 D_n,2…]}c^T

从式子(14)可以看出：

f(x_i)+g(x_j)≤D_i,j (15)

当i＝j时，D_i,j＝0，得：

f(x_i)+g(x_j)≤0 (16)

因为P₁和P₂都是非负的，所以求式子(13)的最大值就是使∑_if_i+g_j最大；当g＝-f时，式子(16)最大，最大为0。从式子(14)可以看出，当i≠j，g＝-f时式子(15)也达到最大。所以，当g＝-f时，约束条件就变为：

也就是说||f(x₁)-f(x₂)||≤D_i,j，如果取D_i,j＝k||x_i-x_j||，对于定义域内的任意两个元素x₁和x₂都满足：

||f(x₁)-f(x₂)||≤k||x₁-x₂|| (18)

称它为k-Lipschitz，当k＝1时，就是1-Lipschitz，对式子(18)求梯度并移项可得：

也就是说f(x)的斜率都小于等于1，记为||f||_L≤1。

综上所述，求式(3)的最小值就相当于求式(20)最大值：

3-3.Wasserstein距离与网络相结合

上面主要研究了P₁和P₂都是离散概率的情况，因为要把Wasserstein距离与卷积神经网络相结合，所以必须要考虑P₁和P₂都是连续概率分布的情况，可以把连续分布看成具有无限多状态的离散分布，再应用对偶定理和Farkas引理即可。

从式子(20)可以看出，如果不加入||f||_L≤1这个限制项，只要使得f(x)对于从分布P₁中选取的x尽可能的大，使得从分布P₂中选取的x尽可能的小就可以，也就是：

这是一种很理想的情况，但是利用卷积网络计算Wasserstein距离，需要考虑到网络训练的难易程度，以及网络是否能收敛。所以，添加了一个||f||_L≤1，使得f(x)的输出限制在一定的范围内，便于网络的收敛和训练。

通过给式子(20)添加一个梯度惩罚项，可以实现对于所有的输入，输出的梯度都小于等于1。给式子(20)添加一个梯度惩罚项就变成了式子(22)：

其中λ为超参数。从式(22)可以看出，当函数f(x)的梯度小于1的话，梯度惩罚项为0；当梯度大于1的话，就有梯度惩罚项；这样就能保证函数f(x)的梯度总小于1。但是无法穷举所有满足条件的x求积分；只要保证从P_penalty分布中取得的x，输出值的梯度小于等于1即可，式(22)就变成式(23)：

其中P_penalty也是一个分布，可以这样得到：从数据集P₁中随机采样一个数据A，再从数据集P₂中采样数据B，取数据A、数据B之间的一个数据就是数据C，穷举所有的数据C就组成了分布P_penalty。

在实际的实验中，发现的值越接近1越好，也就是说梯度大于1小于1都要添加惩罚项。但是由于式子(19)的限制，只能为1。所以要优化的函数就变为：

3-4.改进的Contrastive损失

Contrastive损失最初是用于特征降维，即本来相似的样本，经过降维后，依然相似；原来不相似的样本，经过降维后，依旧不相似。本专利把衡量样本之间相似度的欧式距离替换为Wasserstein距离，并在自己制作的数据集上训练。网络训练的目的就是使得同一行人外观特征向量的Wasserstein距离减小，不同行人外观特征向量的Wasserstein距离尽增大。

其中为梯度惩罚，λ为超参数，α为一个随机数。x_i-1和x_i为相邻视频帧行人的外观特征描述子，是一个128维的行向量。式子(25)中的D_cost就是两个特征向量x_i-1和x_i之间的Wasserstein距离。

网络的损失函数为：

其中m为阈值，通常情况下设定为1。y是样本的标签；当y＝0时，表示两个样本取自相邻视频帧中的同一个行人；反之y＝1，表示两个样本取自不同的行人。从式(26)可以看出，当x_i-1和x_i取自同一个行人时(y＝0)，损失函数只剩下此时损失函数就是两个样本之间的Wasserstein距离，若两个样本的Wasserstein距离较大，那么需要减小它们之间的距离，也就是减小损失；当x_i-1和x_i来自同不同行人时(y＝1)，损失函数只剩下∑max(m-D_cost,0)²。当两个样本之间的距离大于m时，此网络就没有损失，也就是此时的损失函数为0；当两个样本之间的距离小于m时，损失函数为∑max(m-D_cost)²，此时需要加大损失。

步骤四：由于实际场景中行人跟踪的背景比较复杂，而且往往要跟踪多个行人，仅仅使用Wasserstein距离计算行人的外观匹配度是不够的，本发明还使用了行人的运动匹配度。假设对于视频中检测到的每一个行人d_j，它的表观描述子r_j都是128维的，r_j满足||r_j||＝1，对每一个追踪行人构建一个特征集，此特征集存储每一个追踪行人成功关联的最近L_k帧的特征向量，然后再计算第i个跟踪器的最近L_k个成功关联的特征集与当前第j个检测结果的特征向量间Wasserstein距离的最小值。行人外观匹配度的计算公式为：

考虑到跟踪的时间复杂度和跟踪的准确度，在本发明中L_k的值取为3。式子(27)和式子(28)所表示的意思是使用当前检测行人与轨迹中包含检测行人之间Wasserstein距离的最小值作为当前检测与轨迹之间的表观匹配度，d⁽¹⁾(i,j)的值越小表示当前检测行人d_j与轨迹中行人d_i的相似度越高。t_m是阈值，根据训练集的结果在本发明中t_m的取为0.8。当Wasserstein距离的值大于0.8时，直接判定当前检测行人无法与已有轨迹关联，不再进行下一步操作；反之，当Wasserstein距离的值小于0.8时，再进行下一步操作。

对于满足外观匹配度的行人，再计算行人的运动匹配度。需要指出的是：不是给行人外观匹配度和行人的运动匹配度赋予不同的权值，综合起来考虑总的匹配度；而是先考虑行人的外观匹配度，把满足外观匹配度的行人再用行人的运动信息进一步的筛选，是一个级联的过程；把不满足外观匹配度的行人直接舍弃，这样就减少了计算量。

要想计算行人的运动匹配度，首先要估计行人的运动状态，估计的目的就是为了找到行人的移动规律，预测行人在未来若干帧中的位置。考虑到计算的复杂度以及实现的难度，本发明使用最为常用的匀速直线运动模型，假设行人的状态为：

其中(u,v)代表检测行人框中心像素的位置；γ代表行人框的纵横比；h代表行人框的高度；代表行人在水平和竖直方向上的速度；代表在行人水平和竖直方向上的加速度。同时，假设每个行人的运动不受其它行人运动和相机运动的影响。

对于满足式(28)的行人，再计算当前检测行人与行人轨迹预测位置之间的马氏距离，做进一步的筛选，计算公式为：

其中d_j代表当前帧中的第j个检测行人，y_i代表第i条轨迹在当前时刻的预测观测值，S_i是轨迹由卡尔曼滤波器预测得到的在当前时刻观测量的协方差矩阵。对于运动匹配度，本发明使用卡方分布0.95分位点作为马氏距离阈值。即对于运动匹配度小于马氏距离阈值的行人，再利用Hungarian算法实现行人跟踪中的数据关联。

以上为本发明的优选实施方式，并不限定本发明的保护范围，对于本领域技术人员根据本发明的设计思路做出的变形及改进，都应当视为本发明的保护范围之内。

Claims

1.基于Wasserstein度量的行人跟踪中的数据关联方法，该方法实践的具体步骤是：

步骤一：获取行人的外观特征，把提取到的外观特征输入到一个特征提取网络，使用这个网路提取行人的外观特征，对于每个行人都会得到一个特征向量；

步骤二：制作数据集，同一个行人相邻视频帧的特征向量组成一个正样本，正样本的label为0；不同行人的特征向量组成一个负样本，负样本的label为1；所述正样本、负样本都包含两个特征向量，所述两个特征向量指视频前帧、后帧中行人的外观特征；

步骤三：由于Wasserstein距离的值反映了行人的外观匹配度，将Wasserstein距离与神经网络相结合，进行Wasserstein距离的求解；

步骤四：由于现实场景行人跟踪的背景比较复杂，对于满足外观匹配度的行人，再利用行人的运动匹配度进行筛选，再利用Hungarian算法实现行人跟踪中的数据关联。

2.根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法，，其特征在于，所述步骤一中的特征向量为是高维向量，所述高维向量的每一维为正或负或零。

3.根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法，其特征在于，所述步骤一中的获取行人的外观特征是通过图像采集来提取的。

4.根据权利要求1所述的根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法，其特征在于，所述步骤一具体为：对图片进行预处理，并把图片统一为128×64的大小，然后把包含行人外观特征的图片输入到特征提取网络中，来提取图片中行人的外观特征向量；这个特征提取网络包括由2个卷积层、1个最大池化层、6个Residual模块和1个dense层，每个Residual模块包含三个卷积层和一个平均池化层；图片经过卷积层之后，维度变为32×128×64；经过最大池化层之后维度变为32×64×32；然后经过Residual-1和Residual-2之后，维度还为32×64×32；经过Residual-3和Residual-4之后，维度变为64×32×16；经过Residual-5和Residual-6之后，维度变为64×32×16；然后再经过dense层和正则化处理，会得到一个128维的特征向量。

5.根据权利要求1所述的根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法，其特征在于，所述步骤二具体为：

使用MOT16数据集train序列上的七个视频片段制作了数据集，制作的训练集数据共有110000个，包含70000个正样本，40000个负样本；正样本的label为0，负样本的label为1。正样本代表两个特征向量取自视频前后帧中的同一个行人，负样本代表两个特征向量取自视频前后帧中的不同行人。

6.根据权利要求1所述的根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法，其特征在于，所述步骤三具体为：

借助于对偶定理和Farkas引理，把求解Wasserstein距离的最小值，转化为在限定的约束条件下，求解其对偶形式最大值；由于要把Wasserstein距离与神经网络相结合，考虑到网络训练的难易程度以及所需数据集的大小，给网络的输出添加一个梯度惩罚项，使得输出被限定在一定的范围内，使得网络很容易训练和收敛；改进了Contrastive损失，也就是把衡量样本之间相似度的欧式距离替换为Wasserstein距离，并在数据集上训练，通过网络训练减小同一个行人外观特征向量之间的Wasserstein距离，增大不同行人外观特征向量之间的Wasserstein距离。

7.根据权利要求1所述的根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法，其特征在于，所述步骤四中，满足外观匹配度是指Wasserstein距离的值小于预设阈值。

8.根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法，其特征在于，所述步骤四中，行人的运动匹配度中，采用匀速直线运动模型来估计行人的运动状态，将运动匹配度小于马氏距离阈值的行人作为筛选结果。