CN110110670A - 基于Wasserstein度量的行人跟踪中的数据关联方法 - Google Patents
基于Wasserstein度量的行人跟踪中的数据关联方法 Download PDFInfo
- Publication number
- CN110110670A CN110110670A CN201910384046.0A CN201910384046A CN110110670A CN 110110670 A CN110110670 A CN 110110670A CN 201910384046 A CN201910384046 A CN 201910384046A CN 110110670 A CN110110670 A CN 110110670A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- wasserstein
- network
- external appearance
- data correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005259 measurement Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 46
- 230000033001 locomotion Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 19
- 230000009977 dual effect Effects 0.000 claims description 10
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 238000009826 distribution Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
一种基于Wasserstein度量的行人跟踪中的数据关联方法,包括:获取行人的外观特征,把提取到的外观特征输入到一个特征提取网络,使用这个网路提取行人的外观特征,对于每个行人都会得到一个特征向量;制作数据集,同一个行人相邻视频帧的特征向量组成一个正样本,正样本的label为0;不同行人的特征向量组成一个负样本,负样本的label为1;由于Wasserstein距离的值反映了行人的外观匹配度,将Wasserstein距离与神经网络相结合进行求解;对于满足外观匹配度的行人,利用行人的运动匹配度进行筛选,再利用Hungarian算法实现行人跟踪中的数据关联。有效的减少行人跟踪中漏报行人的个数达到良好的跟踪效果。
Description
技术领域
本发明属于目标跟踪领域,具体涉及一种基于Wasserstein度量的行人跟踪中的数据关联方法。
背景技术
随着科技的日益进步和社会的不断发展,人们对自身生命财产的安全意识不断提高,在人们的日常生活中充斥着各种各样的摄像头组成的监控系统,而目标跟踪(OT)作为视频监控领域的一项关键技术,其涉及机器学习、图像处理、概率论与统计学、深度学习等多个领域的知识,受到国内外学者和相关产业界人士的高度关注,有着很重要的研究价值和应用前景。其中的行人跟踪不但要检测出行人,而且还要实现行人在时间序列上的关联。行人的检测技术已经比较成熟,如可以使用SSD、Faster R-CNN、YOLO等常用的行人检测模型进行检测,这些网络模型能准确的检测出行人。行人的数据关联是指随着时间的移动选择和聚类相应的检测。但是在实际场景中实现准确的行人数据关联是很不容易的,存在着很多难点,例如,行人的遮挡、行人的丢失和行人的身份转换等,都会给行人的数据关联造成困难。
因此,来找到一个鲁棒可靠的行人特征表示模型和特征相似度度量准则对于行人的数据关联是非常重要的,对行人跟踪的数据关联相关技术仍然需要进行深入研究。
发明内容
本发明将Wasserstein距离与深度卷积网络相结合,提出了一种基于Wasserstein度量的行人跟踪中的数据关联方法,即将Wasserstein距离应用于行人跟踪中的数据关联问题。首先,利用一个特征提取网络提取行人的外观特征,得到行人的外观特征向量,并利用这些特征向量制作了一个数据集。其次,借助于对偶定理和Farkas引理,把求解Wasserstein距离最小值的问题,转化为在一定约束条件下求解其对偶形式最大值的问题,并且设计了一个卷积网络,把Wasserstein距离与网络相结合,使用这个网络来求解特征向量之间的Wasserstein距离。考虑到网络训练的难易程度以及所需数据集的大小,给网络添加一个梯度惩罚项,对网络输出的梯度值加以限制,这样能保证网络的输出限定在一定的范围内,使得网络容易训练,尽快收敛。然后,还改进了Contrastive损失,并在自己制作的数据集上训练,网络训练的目的就是使得同一个行人外观特征向量之间的Wasserstein距离减小,不同行人外观特征向量之间的Wasserstein距离增大。由于Wasserstein距离的值仅反映了行人的外观匹配度,对于满足外观匹配度的行人,再计算行人的运动匹配,最后再利用Hungarian算法实现行人的最佳关联。
本发明的方法具体步骤如下:
步骤一:提取行人的外观特征,把行人的检测结果输入到一个特征提取网络,使用这个网路提取行人的外观特征,对于每个行人都会得到一个特征向量,这个向量是高维的,向量的每一维都可正可负可为零。
步骤二:制作数据集,同一个行人相邻视频帧的特征向量组成一个正样本,正样本的label为0;不同行人的特征向量组成一个负样本,负样本的label为1;正负样本都包含两个特征向量。
步骤三:将Wasserstein距离与神经网络相结合,详细介绍了Wasserstein距离的求解过程。由于行人特征向量的每一维都可正可负可为零,不能直接利用公式求解Wasserstein距离。借助于对偶定理和Farkas引理,把求解Wasserstein距离最小值的问题,转化为在一定约束条件下,求解其对偶形式最大值的问题。同时,由于要把Wasserstein距离与神经网络相结合,还要考虑到网络训练的难易程度以及所需数据集的大小,给网络的输出添加一个梯度惩罚项,可以使输出限定在一定的范围内,使得网络很容易训练和收敛。然后,还改进了Contrastive损失,也就是把衡量样本之间相似度的欧式距离替换为Wasserstein距离,并在自己制作的数据集上训练,网络训练的目的就是减小同一个行人外观特征向量之间的Wasserstein距离,增大不同行人外观特征向量之间的Wasserstein距离。
步骤四:由于现实场景行人跟踪的背景比较复杂,所以对于满足外观匹配度的行人,再利用行人的运动匹配度进一步筛选,这是一个级联的过程,也就是说对于不满足外观匹配度的行人,直接丢弃,不再计算行人的运动匹配度。最后再利用Hungarian算法实现行人的最佳关联。
本发明的所述步骤一中的获取行人的外观特征是通过图像采集来提取的。
采用本发明的数据关联方法,能有效的减少行人跟踪中漏报行人的个数,达到了良好的跟踪效果。
附图说明
图1为基于Wasserstein度量的行人跟踪中的数据关联方法示意图
具体实施方式
下面通过具体实施例对本发明的技术方案作进一步描述说明,使得本技术方案更加清楚、明白。
本实施例公开了一种基于Wasserstein度量的行人跟踪中的数据关联方法,包括以下步骤:
步骤一:首先对图片进行预处理,并把图片统一为128×64的大小,然后把包含行人检测结果的图片输入到特征提取网络中,来提取图片中行人的外观特征向量。这个特征提取网络是由2个卷积层、1个最大池化层、6个Residual模块和1个dense层等组成的,每个Residual模块包含三个卷积层和一个平均池化层。图片经过卷积层之后,维度变为32×128×64;经过最大池化层之后维度变为32×64×32;然后经过Residual-1和Residual-2之后,维度还为32×64×32;经过Residual-3和Residual-4之后,维度变为64×32×16;经过Residual-5和Residual-6之后,维度变为64×32×16;然后再经过dense层和正则化处理,会得到一个128维的特征向量。
步骤二:利用步骤一提取的行人特征向量制作数据集。首先要明白数据集中的每一个样本都包含两个向量,这两个向量分别描述视频前后帧中行人的外观特征。优选的,本方法使用MOT16数据集train序列上的七个视频片段制作了数据集,制作的训练集数据共有110000个,包含70000个正样本,40000个负样本;正样本的label为0,负样本的label为1。正样本代表两个特征向量取自视频前后帧中的同一个行人,负样本代表两个特征向量取自视频前后帧中的不同行人。
步骤三:将Wasserstein距离与卷积神经网络相结合,即设计一个卷积神经网络来求解Wasserstein距离。由于步骤一提取的行人特征向量的每一维都可正可负可为零,并且Wasserstein距离表达式比较复杂,不能直接计算Wasserstein距离,所以借助于神经网络来求解Wasserstein距离。下面介绍具体的求解步骤:
3-1.Wasserstein距离的定义
Wasserstein度量是一种衡量概率测度间差异程度的度量方式,具有能保持分布函数几何特性的性质。与传统的欧式度量、余弦度量相比,Wasserstein度量不但能反映分布的几何性质,而且又能作为一种度量方式应用于统计学习中。
设X~μ,Y~ν为概率空间Ω上的任意两个概率分布,d(x,y)为概率空间上的一个度量,则这两个概率分布之间的p-Wasserstein距离为:
通常研究的是p=1的情况,取d(x,y)=||x-y||,则1-Wasserstein距离(以下简称Wasserstein)的表达式为:
其中Π(P1,P2)是P1和P2组合起来的所有可能联合分布的集合,很显然P1和P2是Π(P1,P2)的边缘分布。从联合分布γ中采样(x,y)~γ,可以得到样本x和样本y,计算出这对样本之间的距离||x-y||,因此也就可以计算出该联合分布γ下样本对距离的期望值E(x,y)~γ[||x-y||]。在所有可能的联合分布中求这个期望值的下界inf(E(x,y)~γ[||x-y||]),就定义为Wasserstein距离。
3-2.Wasserstein距离的求解
求解Wasserstein距离一般有两种思路:一种是添加一个熵正则化项,再通过Sinkhorn迭代算法求其近似解;另一种是通过Bregman-ADMM算法来求解。上述两种思路都是把求解Wasserstein距离的问题转化为求解与其等价的最优传输问题来解决的。本发明依然把求解Wasserstein距离的问题转化为在约束条件下的最优传输问题。
在式子(2)中,当P1和P2是离散分布的时候,Wasserstein距离又叫Earth-Mover距离,此时式(2)的等价形式为:
其中Γ=γ(x,y),D=||x-y||,x,y∈Rl,Γ,D∈Rl×l,<,>F代表所有元素求和,式子(3)可以看成线性规划问题来求解,就是在约束条件Ax=b,A∈Rm×n,b∈Rm,x≥0下;找到一个向量x∈Rn,最小化式子(4):
z=inf(cTx) (4)
其中n=l2,m=2l,c∈Rn,x=vec(Γ),c=vec(D),b=[P1,P2]T;vec(·)函数表示将向量展开成一行。
[P1(x1)P1(x2)…P1(xn)|P2(y1)P2(y2)…P2(yn)]}bT
式子(5)为一个稀疏矩阵,较为清晰的展示了限制条件Ax=b。不关心x=vec(Γ)的值具体为多少,只需要求出式子(5)就可以。线性规划问题,通常有两种方式来解,由弱对偶定理,构建拉格朗日函数可得:
其中y∈Rm,由式子(3)可以看出,就是z的下界,也就是说求式子(4)的最小值就是寻找的最大值
假设原问题(3)的最优解为z*=cTx*,ε>0,定义:
其中ε,α∈R,由Farkas引理和强对偶定理存在y和α使得:
式子(9)也可以写成式子(10)的形式:
ATy≤αc,bTy>α(z*-ε) (10)
因为在本发明中z*>0,所以α>0,所以α的值可以取为1,ε为任意大于0的数,无限接近z*。综合式子(4)可得:
上面的证明过程说明式子(3)的对偶形式与它本身具有相同的解,求原始式子最小值的问题就等同于求其对偶形式最大值的问题,下面求它对偶形式的解:
其中y*=[f g]T,f,g∈Rl;代入式子(12)在约束条件ATy≤c下化简得:
W(P1,P2)=max(fTP1+gTP2) (13)
[D1,1 D1,2 …|D2,1 D2,2 …|…|Dn,1 Dn,2…]}cT
从式子(14)可以看出:
f(xi)+g(xj)≤Di,j (15)
当i=j时,Di,j=0,得:
f(xi)+g(xj)≤0 (16)
因为P1和P2都是非负的,所以求式子(13)的最大值就是使∑ifi+gj最大;当g=-f时,式子(16)最大,最大为0。从式子(14)可以看出,当i≠j,g=-f时式子(15)也达到最大。所以,当g=-f时,约束条件就变为:
也就是说||f(x1)-f(x2)||≤Di,j,如果取Di,j=k||xi-xj||,对于定义域内的任意两个元素x1和x2都满足:
||f(x1)-f(x2)||≤k||x1-x2|| (18)
称它为k-Lipschitz,当k=1时,就是1-Lipschitz,对式子(18)求梯度并移项可得:
也就是说f(x)的斜率都小于等于1,记为||f||L≤1。
综上所述,求式(3)的最小值就相当于求式(20)最大值:
3-3.Wasserstein距离与网络相结合
上面主要研究了P1和P2都是离散概率的情况,因为要把Wasserstein距离与卷积神经网络相结合,所以必须要考虑P1和P2都是连续概率分布的情况,可以把连续分布看成具有无限多状态的离散分布,再应用对偶定理和Farkas引理即可。
从式子(20)可以看出,如果不加入||f||L≤1这个限制项,只要使得f(x)对于从分布P1中选取的x尽可能的大,使得从分布P2中选取的x尽可能的小就可以,也就是:
这是一种很理想的情况,但是利用卷积网络计算Wasserstein距离,需要考虑到网络训练的难易程度,以及网络是否能收敛。所以,添加了一个||f||L≤1,使得f(x)的输出限制在一定的范围内,便于网络的收敛和训练。
通过给式子(20)添加一个梯度惩罚项,可以实现对于所有的输入,输出的梯度都小于等于1。给式子(20)添加一个梯度惩罚项就变成了式子(22):
其中λ为超参数。从式(22)可以看出,当函数f(x)的梯度小于1的话,梯度惩罚项为0;当梯度大于1的话,就有梯度惩罚项;这样就能保证函数f(x)的梯度总小于1。但是无法穷举所有满足条件的x求积分;只要保证从Ppenalty分布中取得的x,输出值的梯度小于等于1即可,式(22)就变成式(23):
其中Ppenalty也是一个分布,可以这样得到:从数据集P1中随机采样一个数据A,再从数据集P2中采样数据B,取数据A、数据B之间的一个数据就是数据C,穷举所有的数据C就组成了分布Ppenalty。
在实际的实验中,发现的值越接近1越好,也就是说梯度大于1小于1都要添加惩罚项。但是由于式子(19)的限制,只能为1。所以要优化的函数就变为:
3-4.改进的Contrastive损失
Contrastive损失最初是用于特征降维,即本来相似的样本,经过降维后,依然相似;原来不相似的样本,经过降维后,依旧不相似。本专利把衡量样本之间相似度的欧式距离替换为Wasserstein距离,并在自己制作的数据集上训练。网络训练的目的就是使得同一行人外观特征向量的Wasserstein距离减小,不同行人外观特征向量的Wasserstein距离尽增大。
其中为梯度惩罚,λ为超参数,α为一个随机数。xi-1和xi为相邻视频帧行人的外观特征描述子,是一个128维的行向量。式子(25)中的Dcost就是两个特征向量xi-1和xi之间的Wasserstein距离。
网络的损失函数为:
其中m为阈值,通常情况下设定为1。y是样本的标签;当y=0时,表示两个样本取自相邻视频帧中的同一个行人;反之y=1,表示两个样本取自不同的行人。从式(26)可以看出,当xi-1和xi取自同一个行人时(y=0),损失函数只剩下此时损失函数就是两个样本之间的Wasserstein距离,若两个样本的Wasserstein距离较大,那么需要减小它们之间的距离,也就是减小损失;当xi-1和xi来自同不同行人时(y=1),损失函数只剩下∑max(m-Dcost,0)2。当两个样本之间的距离大于m时,此网络就没有损失,也就是此时的损失函数为0;当两个样本之间的距离小于m时,损失函数为∑max(m-Dcost)2,此时需要加大损失。
步骤四:由于实际场景中行人跟踪的背景比较复杂,而且往往要跟踪多个行人,仅仅使用Wasserstein距离计算行人的外观匹配度是不够的,本发明还使用了行人的运动匹配度。假设对于视频中检测到的每一个行人dj,它的表观描述子rj都是128维的,rj满足||rj||=1,对每一个追踪行人构建一个特征集,此特征集存储每一个追踪行人成功关联的最近Lk帧的特征向量,然后再计算第i个跟踪器的最近Lk个成功关联的特征集与当前第j个检测结果的特征向量间Wasserstein距离的最小值。行人外观匹配度的计算公式为:
考虑到跟踪的时间复杂度和跟踪的准确度,在本发明中Lk的值取为3。式子(27)和式子(28)所表示的意思是使用当前检测行人与轨迹中包含检测行人之间Wasserstein距离的最小值作为当前检测与轨迹之间的表观匹配度,d(1)(i,j)的值越小表示当前检测行人dj与轨迹中行人di的相似度越高。tm是阈值,根据训练集的结果在本发明中tm的取为0.8。当Wasserstein距离的值大于0.8时,直接判定当前检测行人无法与已有轨迹关联,不再进行下一步操作;反之,当Wasserstein距离的值小于0.8时,再进行下一步操作。
对于满足外观匹配度的行人,再计算行人的运动匹配度。需要指出的是:不是给行人外观匹配度和行人的运动匹配度赋予不同的权值,综合起来考虑总的匹配度;而是先考虑行人的外观匹配度,把满足外观匹配度的行人再用行人的运动信息进一步的筛选,是一个级联的过程;把不满足外观匹配度的行人直接舍弃,这样就减少了计算量。
要想计算行人的运动匹配度,首先要估计行人的运动状态,估计的目的就是为了找到行人的移动规律,预测行人在未来若干帧中的位置。考虑到计算的复杂度以及实现的难度,本发明使用最为常用的匀速直线运动模型,假设行人的状态为:
其中(u,v)代表检测行人框中心像素的位置;γ代表行人框的纵横比;h代表行人框的高度;代表行人在水平和竖直方向上的速度;代表在行人水平和竖直方向上的加速度。同时,假设每个行人的运动不受其它行人运动和相机运动的影响。
对于满足式(28)的行人,再计算当前检测行人与行人轨迹预测位置之间的马氏距离,做进一步的筛选,计算公式为:
其中dj代表当前帧中的第j个检测行人,yi代表第i条轨迹在当前时刻的预测观测值,Si是轨迹由卡尔曼滤波器预测得到的在当前时刻观测量的协方差矩阵。对于运动匹配度,本发明使用卡方分布0.95分位点作为马氏距离阈值。即对于运动匹配度小于马氏距离阈值的行人,再利用Hungarian算法实现行人跟踪中的数据关联。
以上为本发明的优选实施方式,并不限定本发明的保护范围,对于本领域技术人员根据本发明的设计思路做出的变形及改进,都应当视为本发明的保护范围之内。
Claims (8)
1.基于Wasserstein度量的行人跟踪中的数据关联方法,该方法实践的具体步骤是:
步骤一:获取行人的外观特征,把提取到的外观特征输入到一个特征提取网络,使用这个网路提取行人的外观特征,对于每个行人都会得到一个特征向量;
步骤二:制作数据集,同一个行人相邻视频帧的特征向量组成一个正样本,正样本的label为0;不同行人的特征向量组成一个负样本,负样本的label为1;所述正样本、负样本都包含两个特征向量,所述两个特征向量指视频前帧、后帧中行人的外观特征;
步骤三:由于Wasserstein距离的值反映了行人的外观匹配度,将Wasserstein距离与神经网络相结合,进行Wasserstein距离的求解;
步骤四:由于现实场景行人跟踪的背景比较复杂,对于满足外观匹配度的行人,再利用行人的运动匹配度进行筛选,再利用Hungarian算法实现行人跟踪中的数据关联。
2.根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法,,其特征在于,所述步骤一中的特征向量为是高维向量,所述高维向量的每一维为正或负或零。
3.根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法,其特征在于,所述步骤一中的获取行人的外观特征是通过图像采集来提取的。
4.根据权利要求1所述的根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法,其特征在于,所述步骤一具体为:对图片进行预处理,并把图片统一为128×64的大小,然后把包含行人外观特征的图片输入到特征提取网络中,来提取图片中行人的外观特征向量;这个特征提取网络包括由2个卷积层、1个最大池化层、6个Residual模块和1个dense层,每个Residual模块包含三个卷积层和一个平均池化层;图片经过卷积层之后,维度变为32×128×64;经过最大池化层之后维度变为32×64×32;然后经过Residual-1和Residual-2之后,维度还为32×64×32;经过Residual-3和Residual-4之后,维度变为64×32×16;经过Residual-5和Residual-6之后,维度变为64×32×16;然后再经过dense层和正则化处理,会得到一个128维的特征向量。
5.根据权利要求1所述的根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法,其特征在于,所述步骤二具体为:
使用MOT16数据集train序列上的七个视频片段制作了数据集,制作的训练集数据共有110000个,包含70000个正样本,40000个负样本;正样本的label为0,负样本的label为1。正样本代表两个特征向量取自视频前后帧中的同一个行人,负样本代表两个特征向量取自视频前后帧中的不同行人。
6.根据权利要求1所述的根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法,其特征在于,所述步骤三具体为:
借助于对偶定理和Farkas引理,把求解Wasserstein距离的最小值,转化为在限定的约束条件下,求解其对偶形式最大值;由于要把Wasserstein距离与神经网络相结合,考虑到网络训练的难易程度以及所需数据集的大小,给网络的输出添加一个梯度惩罚项,使得输出被限定在一定的范围内,使得网络很容易训练和收敛;改进了Contrastive损失,也就是把衡量样本之间相似度的欧式距离替换为Wasserstein距离,并在数据集上训练,通过网络训练减小同一个行人外观特征向量之间的Wasserstein距离,增大不同行人外观特征向量之间的Wasserstein距离。
7.根据权利要求1所述的根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法,其特征在于,所述步骤四中,满足外观匹配度是指Wasserstein距离的值小于预设阈值。
8.根据权利要求1所述的基于Wasserstein度量的行人跟踪中的数据关联方法,其特征在于,所述步骤四中,行人的运动匹配度中,采用匀速直线运动模型来估计行人的运动状态,将运动匹配度小于马氏距离阈值的行人作为筛选结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910384046.0A CN110110670B (zh) | 2019-05-09 | 2019-05-09 | 基于Wasserstein度量的行人跟踪中的数据关联方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910384046.0A CN110110670B (zh) | 2019-05-09 | 2019-05-09 | 基于Wasserstein度量的行人跟踪中的数据关联方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110670A true CN110110670A (zh) | 2019-08-09 |
CN110110670B CN110110670B (zh) | 2022-03-25 |
Family
ID=67488912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910384046.0A Expired - Fee Related CN110110670B (zh) | 2019-05-09 | 2019-05-09 | 基于Wasserstein度量的行人跟踪中的数据关联方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110670B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178427A (zh) * | 2019-12-27 | 2020-05-19 | 杭州电子科技大学 | 一种基于Sliced-Wasserstein距离的深度自编码嵌入聚类的方法 |
WO2023249556A3 (zh) * | 2022-06-22 | 2024-03-07 | 脸萌有限公司 | 基于对比学习来处理视频的方法、装置、设备和介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751677A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 基于多摄像机的目标连续跟踪方法 |
CN103677734A (zh) * | 2012-09-25 | 2014-03-26 | 中国航天科工集团第二研究院二〇七所 | 基于特征匹配矩阵的多目标数据关联算法 |
CN104112282A (zh) * | 2014-07-14 | 2014-10-22 | 华中科技大学 | 一种基于在线学习跟踪监控视频中多个运动目标的方法 |
US20160034786A1 (en) * | 2014-07-29 | 2016-02-04 | Microsoft Corporation | Computerized machine learning of interesting video sections |
CN105654139A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种采用时间动态表观模型的实时在线多目标跟踪方法 |
CN106469443A (zh) * | 2015-08-13 | 2017-03-01 | 微软技术许可有限责任公司 | 机器视觉特征跟踪系统 |
CN107122735A (zh) * | 2017-04-26 | 2017-09-01 | 中山大学 | 一种基于深度学习和条件随机场的多目标跟踪方法 |
WO2018081156A1 (en) * | 2016-10-25 | 2018-05-03 | Vmaxx Inc. | Vision based target tracking using tracklets |
CN108009568A (zh) * | 2017-11-14 | 2018-05-08 | 华南理工大学 | 一种基于wgan模型的行人检测方法 |
CN108427112A (zh) * | 2018-01-22 | 2018-08-21 | 南京理工大学 | 一种改进的多扩展目标跟踪方法 |
CN108447080A (zh) * | 2018-03-02 | 2018-08-24 | 哈尔滨工业大学深圳研究生院 | 基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质 |
CN109086437A (zh) * | 2018-08-15 | 2018-12-25 | 重庆大学 | 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法 |
CN109359519A (zh) * | 2018-09-04 | 2019-02-19 | 杭州电子科技大学 | 一种基于深度学习的视频异常行为检测方法 |
CN109447121A (zh) * | 2018-09-27 | 2019-03-08 | 清华大学 | 一种视觉传感器网络多目标跟踪方法、装置及系统 |
-
2019
- 2019-05-09 CN CN201910384046.0A patent/CN110110670B/zh not_active Expired - Fee Related
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751677A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 基于多摄像机的目标连续跟踪方法 |
CN103677734A (zh) * | 2012-09-25 | 2014-03-26 | 中国航天科工集团第二研究院二〇七所 | 基于特征匹配矩阵的多目标数据关联算法 |
CN104112282A (zh) * | 2014-07-14 | 2014-10-22 | 华中科技大学 | 一种基于在线学习跟踪监控视频中多个运动目标的方法 |
US20160034786A1 (en) * | 2014-07-29 | 2016-02-04 | Microsoft Corporation | Computerized machine learning of interesting video sections |
CN106469443A (zh) * | 2015-08-13 | 2017-03-01 | 微软技术许可有限责任公司 | 机器视觉特征跟踪系统 |
CN105654139A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种采用时间动态表观模型的实时在线多目标跟踪方法 |
WO2018081156A1 (en) * | 2016-10-25 | 2018-05-03 | Vmaxx Inc. | Vision based target tracking using tracklets |
CN107122735A (zh) * | 2017-04-26 | 2017-09-01 | 中山大学 | 一种基于深度学习和条件随机场的多目标跟踪方法 |
CN108009568A (zh) * | 2017-11-14 | 2018-05-08 | 华南理工大学 | 一种基于wgan模型的行人检测方法 |
CN108427112A (zh) * | 2018-01-22 | 2018-08-21 | 南京理工大学 | 一种改进的多扩展目标跟踪方法 |
CN108447080A (zh) * | 2018-03-02 | 2018-08-24 | 哈尔滨工业大学深圳研究生院 | 基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质 |
CN109086437A (zh) * | 2018-08-15 | 2018-12-25 | 重庆大学 | 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法 |
CN109359519A (zh) * | 2018-09-04 | 2019-02-19 | 杭州电子科技大学 | 一种基于深度学习的视频异常行为检测方法 |
CN109447121A (zh) * | 2018-09-27 | 2019-03-08 | 清华大学 | 一种视觉传感器网络多目标跟踪方法、装置及系统 |
Non-Patent Citations (7)
Title |
---|
ISHAAN GULRAJANI 等: "Improved Training of Wasserstein GANs", 《ARXIV》 * |
MARTIN ARJOVSKY 等: "Wasserstein GAN", 《ARXIV》 * |
NICOLAI WOJKE 等: "SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC", 《ICIP 2017》 * |
VINCENT HERRMANN: "Wasserstein GAN and the Kantorovich-Rubinstein Duality", 《HTTPS://VINCENTHERRMANN.GITHUB.IO/BLOG/WASSERSTEIN/》 * |
侯建华 等: "基于深度学习的多目标跟踪关联模型设计", 《自动化学报》 * |
张良 等: "基于贪心策略的多目标跟踪数据关联算法", 《四川大学学报(自然科学版)》 * |
郑昌金 等: "基于LBP特征和熵正则化Wasserstein距离的人脸表情识别", 《计算机与数字工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178427A (zh) * | 2019-12-27 | 2020-05-19 | 杭州电子科技大学 | 一种基于Sliced-Wasserstein距离的深度自编码嵌入聚类的方法 |
CN111178427B (zh) * | 2019-12-27 | 2022-07-26 | 杭州电子科技大学 | 一种基于Sliced-Wasserstein距离的深度自编码进行图像降维并嵌入聚类的方法 |
WO2023249556A3 (zh) * | 2022-06-22 | 2024-03-07 | 脸萌有限公司 | 基于对比学习来处理视频的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110110670B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Deep learning for multiple object tracking: a survey | |
Li et al. | Dbcface: Towards pure convolutional neural network face detection | |
CN111723645B (zh) | 用于同相机内有监督场景的多相机高精度行人重识别方法 | |
CN108764085B (zh) | 基于生成对抗网络的人群计数方法 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
Zhao et al. | Robust unsupervised motion pattern inference from video and applications | |
CN108564598B (zh) | 一种改进的在线Boosting目标跟踪方法 | |
CN102156995A (zh) | 一种运动相机下的视频运动前景分割方法 | |
KC et al. | Discriminative and efficient label propagation on complementary graphs for multi-object tracking | |
Sawas et al. | Tensor methods for group pattern discovery of pedestrian trajectories | |
CN110110670A (zh) | 基于Wasserstein度量的行人跟踪中的数据关联方法 | |
Afonso et al. | Automatic estimation of multiple motion fields from video sequences using a region matching based approach | |
CN108073936B (zh) | 目标跟踪方法、装置及设备 | |
Wang et al. | Multiple pedestrian tracking with graph attention map on urban road scene | |
CN105005987A (zh) | 基于广义gamma分布的SAR图像超像素生成方法 | |
Nascimento et al. | Modeling and classifying human activities from trajectories using a class of space-varying parametric motion fields | |
CN115620242B (zh) | 多行人目标重识别方法、装置及应用 | |
Han et al. | Multi-target tracking based on high-order appearance feature fusion | |
Pellicano et al. | Robust wide baseline pose estimation from video | |
Chen et al. | Video foreground detection algorithm based on fast principal component pursuit and motion saliency | |
Hong et al. | An intelligent video categorization engine | |
CN106093940A (zh) | 合成孔径雷达图像序列生成方法 | |
Tian et al. | High confidence detection for moving target in aerial video | |
Li et al. | Data association methods via video signal processing in imperfect tracking scenarios: A review and evaluation | |
Матвеев et al. | THE OBJECT TRACKING ALGORITHM USING DIMENSIONAL BASED DETECTION FOR PUBLIC STREET ENVIRONMENT. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220325 |