CN111126223A - 基于光流引导特征的视频行人再识别方法 - Google Patents

基于光流引导特征的视频行人再识别方法 Download PDF

Info

Publication number
CN111126223A
CN111126223A CN201911297061.8A CN201911297061A CN111126223A CN 111126223 A CN111126223 A CN 111126223A CN 201911297061 A CN201911297061 A CN 201911297061A CN 111126223 A CN111126223 A CN 111126223A
Authority
CN
China
Prior art keywords
pedestrian
image
feature
characteristic
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911297061.8A
Other languages
English (en)
Other versions
CN111126223B (zh
Inventor
张丽红
王芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201911297061.8A priority Critical patent/CN111126223B/zh
Publication of CN111126223A publication Critical patent/CN111126223A/zh
Application granted granted Critical
Publication of CN111126223B publication Critical patent/CN111126223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及识别领域,特别涉及视频行人识别领域。基于光流引导特征的视频行人再识别方法,首先使用卷积神经网络提取行人图像的深度特征,并根据深度特征图计算光流引导特征来描述行人运动信息;然后联合行人空间外观特征与时间运动特征,获得视频级的行人特征描述矢量;最后计算特征描述矢量之间的欧式距离,判定两段图像序列中的行人是否为同一身份。本发明的有益效果是:采用本发明方法行人再识别准确率得到明显提高。

Description

基于光流引导特征的视频行人再识别方法
技术领域
本发明涉及识别领域,特别涉及视频行人识别领域。
背景技术
行人再识别的任务是判断两个或者多个无重叠视域的摄像头捕获的行人是否为同一身份,这一技术被广泛应用于刑事侦查、行人检索等任务当中,成为当前的研究热点。目前的行人再识别方法主要包括基于图像与基于视频两大类,基于图像的行人再识别方法采用从监控视频中截取的行人图像作为数据集来训练网络,主要通过行人的空间外观信息来判定行人身份。相对于单幅图像来说,连续的视频序列不仅包含了行人的空间外观信息,还包含了行人的时间运动信息,联合空间与时间信息能够获得更加精准的行人特征描述,从而提高行人再识别的准确率。MclaughlinN等人结合卷积神经网络(ConvolutionalNeural Networks,CNN)与循环神经网络(Recurrent Neural Network,RNN)提出了CNN-RNN结构,输入图像首先经过CNN提取深度特征,然后利用RNN融合多个时间步的信息,获得视频级的行人特征描述矢量。Chen L在CNN-RNN的基础上提出了Deep CNN-RNN,通过连接CNN与RNN的输出,形成行人序列的时空特征描述,该方法相对基础CNN-RNN一定程度上提高了行人再识别的准确率。Xu S等人同样对CNN-RNN结构做出改进,设计了注意力时空池化网络(AttentiveSpatial-Temporal Pooling Networks,ASTPN),提取更具有辨识力的行人特征。LIU Yi-min等人在Xu S的基础上,根据行人步伐大小、运动快慢生成帧间信息,并在网络训练过程中对输入序列添加自适应帧率尺度变化,提高了网络的性能。这些方法大都使用手动方式提取图像序列的光流图,手动提取光流图费时费力且存储光流图会占据大量的磁盘空间,Liu H等人提出一种累积运动上下文网络(Accumulative Motion Context,AMOC),利用光流提取网络代替手动方式提取光流图,再结合CNN-RNN结构实现视频行人再识别,这种方法进一步提升了行人再识别的准确率,但由于光流提取网络结构复杂,参数数量较大,极大地影响了网络训练的效率。
发明内容
本发明所要解决的技术问题是:如何提高行人再识别的准确率。
本发明所采用的技术方案是:基于光流引导特征的视频行人再识别方法,首先使用卷积神经网络提取行人图像的深度特征,并根据深度特征图计算光流引导特征来描述行人运动信息;然后联合行人空间外观特征与时间运动特征,获得视频级的行人特征描述矢量;最后计算特征描述矢量之间的欧式距离,判定两段图像序列中的行人是否为同一身份。
具体按照如下的步骤进行
步骤一、将含有T帧图像的视频作为行人图像的深度特征输入卷积神经网络,其中每一帧行人图片都经过卷积神经网络提取图像特征
Figure BDA0002320516350000011
其中t表示第t帧图像对应的图像特征,i表示第i个卷积神经网络层,
Figure BDA0002320516350000012
表示第t帧第i个卷积神经网络层对应的图像特征,它是图像特征xA的一个子集;
步骤二、两个相邻帧的图像特征
Figure BDA0002320516350000013
Figure BDA0002320516350000014
同时输入OFF单元后,首先经过卷积核大小为1×1的卷积神经网络获得两个相邻帧的当前图像特征
Figure BDA0002320516350000015
Figure BDA0002320516350000021
分别与sobel算子相卷积,获得x,y方向的梯度表示
Figure BDA0002320516350000022
将两个图像特征逐元素相减得
Figure BDA0002320516350000023
Figure BDA0002320516350000024
Figure BDA0002320516350000025
Figure BDA0002320516350000026
其中,*表示卷积运算,常数Nc表示特征f(I)的通道数,令
Figure BDA0002320516350000027
f(I,c)为基本特征f(I)的第c个通道;
步骤三、在后两个卷积层对应的OFF单元中,对前一个OFF单元的输出
Figure BDA0002320516350000028
执行下采样,得到特征图
Figure BDA0002320516350000029
然后将
Figure BDA00023205163500000210
与当前层的
Figure BDA00023205163500000211
相加,即获得当前OFF单元的输出特征图
Figure BDA00023205163500000212
其中t表示第t帧图像对应的图像特征,i表示第i个卷积神经网络层;
步骤四、最后一个卷积层的输出特征图为图像深度特征
Figure BDA00023205163500000213
最后一个OFF单元的输出特征图为图像时空特征
Figure BDA00023205163500000214
Figure BDA00023205163500000215
Figure BDA00023205163500000216
经通道融合获得第t帧的时空融合图像特征
Figure BDA00023205163500000217
Figure BDA00023205163500000218
步骤五、设第t帧图像对应的行人融合图像特征为xt,则
Figure BDA00023205163500000219
Figure BDA00023205163500000220
将xt作为循环神经网络的输入,输出单帧时空特征ot与隐藏状态ht
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure BDA00023205163500000221
Figure BDA00023205163500000222
ot=σ(Wo·ht)
其中,rt表示重置门,zt表示更新门,W表示待训练参数,σ表示sigmoid层,
Figure BDA00023205163500000223
表示候选隐藏状态,ht表示最终隐藏状态。GRU单元的输入为当前特征xt与前一单元的隐藏状态ht-1,输出为ot序列与隐藏状态ht
步骤六、将T帧时空特征ot序列输入时间池化层,整合序列信息,输出视频级时空特征描述yR
Figure BDA00023205163500000224
步骤七、对比损失函数用来最小化同一身份的行人之间的距离,最大化不同身份行人的距离,设行人序列a对应的视频级行人特征描述为xa,相应正负样本的特征为yb+、yb-,对比损失
Figure BDA00023205163500000225
Figure BDA00023205163500000226
其中yb+代表ya的正对,而yb-代表ya的负对,α表示区分不同行人的特征距离边界,损失包括两种惩罚:第一是惩罚相距太远的正对(ya,yb+),此时
Figure BDA00023205163500000227
第二是惩罚负对(ya,yb-),当负对之间的距离小于α时,
Figure BDA00023205163500000228
当负对之间距离大于α,则没有惩罚,并且Lcat(ya,yb-)=0,行人身份损失由Softmax函数预测,用来匹配行人图像特征与身份标签,行人身份损失
Figure BDA0002320516350000031
其中y为行人特征描述矢量,总共有k个不同身份的行人,p为预测值,q为行人真实标签,Wp和Wk是softmax权值矩阵的第p行和第k,最终的损失函数由对比损失与身份损失相结合,最终的损失函数L=Lcat(ya,yb)+Lsof(ya)+Lsof(yb);
步骤八、在网络测试阶段,设两段输入序列为sa,sb,将网络的特征提取子网络与信息融合子网络直接作为特征提取器R(·),视频级描述矢量
Figure BDA0002320516350000032
Figure BDA0002320516350000033
然后使用欧几里得距离直接计算提取的特征向量
Figure BDA0002320516350000034
的距离,若
Figure BDA0002320516350000035
则序列sa,sb中的行人为同一身份,否则为不同身份。
本发明的有益效果是:采用本发明方法行人再识别准确率得到明显提高。
附图说明
图1是基于光流引导特征设计了视频行人再识别深度学习网络框架;
图2是特征提取子网络结构图;
图3是OFF单元的内部结构图;
图4是iLIDS-VID数据集中的行人图像序列;
图5是基本方法与本发明方法在数据集iLIDS-VID上的结果对比图;
图6是基本方法与本发明方法在数据集PRID2011上的结果对比;
图7是本发明方法与其他方法在数据集iLIDS-VID上的CMC曲线图。
具体实施方式
光流引导特征(Optical Flow Guided Feature,OFF)是将光流法应用于卷积神经网络提取的特征图上得出的行人运动特征描述。本实施例将光流引导特征提取结构与CNN-RNN的视频行人再识别网络结构相结合,应用于视频行人再识别。该方法利用卷积神经网络提取行人空间外观特征,光流引导特征表征行人运动特征,联合空间与时间特征生成最终的行人特征描述。在多个数据集上进行实验,结果表明该方法在有效精简网络结构的同时,能够保证较高的识别率。
光流法是利用图像序列中相邻两帧的像素变化来找到上一帧跟当前帧之间存在的对应关系,从而计算物体运动信息的一种方法。光流约束方程是光流法中一个重要的理论基础。假设物体同一位置的像素点在相邻帧之间的亮度不会改变,且位移很小,光流约束方程如式(1):
I(x;y;t)=I(x+Δx;y+Δy;t+Δt) (1)
其中I(x;y;t)表示第t帧上位置为(x,y)的点的光强度,Δt表示时间间隔,Δx和Δy分别为像素点在x轴和y轴上的空间位移。将RGB图像输入卷积神经网络,经过卷积操作获得深度特征图。将光流约束方程运用到该特征图,可得式(2):
f(I;ω)(x;y;t)=f(I;ω)(x+Δx;y+Δy;t+Δt) (2)
其中f是表示从图像I中提取特征的映射函数,ω表示映射函数中的参数。这里的f指卷积神经网络。设p=(x;y;t),将公式(2)泰勒级数展开,得到公式(3):
Figure BDA0002320516350000036
公式(3)两边同时除以Δt,得公式(4):
Figure BDA0002320516350000041
当f(I;ω)(p)=I(p)时,则f(I;ω)(p)仅表示p点处的像素值,(vx,vy)即为光流。当f(I;ω)(p)≠I(p)时,则(vx,vy)为特征流。从等式(4)可以看出,有矢量
Figure BDA0002320516350000042
与包含特征流的向量(vx,vy,1)正交,即
Figure BDA0002320516350000043
会随着特征流的变化而变化。因此,可以认为矢量
Figure BDA0002320516350000044
由特征流引导,称为光流引导特征。
由于OFF特征
Figure BDA0002320516350000045
与特征流(vx,vy)正交,能够很好地编码时空信息。用其代替光流来描述行人的运动信息,能够避免手动提取光流图,并一定程度上保证行人再识别的准确率。
基于光流引导特征设计了视频行人再识别深度学习网络框架,其具体结构如图1所示,主要分为特征提取子网络和信息融合子网络两个部分。特征提取子网络包括卷积层与OFF层,其中卷积层用来获取图像序列的空间外观信息,OFF层用来获取图像序列的时间运动信息;信息融合子网络包括时空信息融合,循环神经网络和时间池化层三部分,主要用来融合图像序列的时空信息,形成视频级的行人特征描述矢量。网络训练过程采用多任务损失函数:一是对比损失,通过计算行人特征描述矢量之间的欧氏距离,表征同一身份行人与不同身份行人的距离;二是身份损失,通过匹配特征描述矢量与行人身份标签,优化行人特征提取器。
特征提取子网络以卷积神经网络为主干结构,输入的多帧行人图像首先经过卷积神经网络提取深度特征图,同时将网络中间层获得的特征图作为OFF单元的输入,用来提取行人运动特征,具体结构如图2所示。卷积神经网络的主干结构包含三层,每一层都包含卷积层、tanh激活层、以及最大池化层三部分,用来提取深度特征图,卷积层Conv-3的输出即为行人空间外观特征描述。其中卷积层Conv-1的卷积核大小为5×5×16,卷积步长为1,其他层参数如图2。
由于每个中间层对应特征图的尺寸都不相同,OFF层也包含多个不同尺寸的单元,分别对应不同尺寸的特征图。设卷积层输出的特征图为
Figure BDA0002320516350000046
其中t表示第t帧图像对应的图像特征,i表示第i个卷积神经网络层。除第一个OFF单元的输入为相邻两帧对应中间层的特征图之外,其他OFF单元的输入均是相邻两帧同一尺寸的特征图与上一个OFF单元的输出,采用残差块连接每两个OFF单元,最后一个OFF单元的输出特征图即为行人的运动特征描述。设OFF单元输出的特征图为
Figure BDA0002320516350000047
其中t表示第t帧图像对应的图像特征,i表示第i个卷积神经网络层对应OFF单元。OFF单元的内部结构如图3所示。
根据式(3)可知,光流引导特征应包括特征图的空间梯度和时间梯度。设f(I,c)为基本特征f(I)的第c个通道,令
Figure BDA0002320516350000048
Figure BDA0002320516350000049
Figure BDA00023205163500000410
分别为特征图上x和y方向的梯度。采用Sobel算子计算空间梯度,如式(5)、(6):
Figure BDA00023205163500000411
Figure BDA00023205163500000412
其中,*表示卷积运算,常数Nc表示特征f(I)的通道数。
Figure BDA0002320516350000051
为OFF特征中时间方向上的梯度,通过两个特征图逐元素相减获得,,如公式(7):
Figure BDA0002320516350000052
其中
Figure BDA0002320516350000053
分别表示相邻两帧图像对应的特征图。
光流引导特征单元输出的行人运动特征描述与全连接层输出的外观特征描述同时作为特征提取子网络的输出,输入到信息融合子网络。
信息融合子网络包含三个部分,一是时空信息融合,采用级联融合的方式,融合行人的空间外观特征与时间运动特征;二是循环神经网络,采用门控循环单元[11](GatedRecurrent Unit,GRU)使不同时间步的行人时空信息相互流通;三是时间池化层,采用平均池化的方式汇总循环神经网络中每一个时间步的输出,获得视频级的行人特征描述矢量。
时空信息融合
卷积层输出行人的外观信息,OFF层输出行人的运动信息,融合卷积层与OFF的输出,即为单帧图像的行人时空特征描述特征图,最后一层卷积层和OFF单元,即i=3时,其输出分别为
Figure BDA0002320516350000054
Figure BDA0002320516350000055
采用通道融合的方式,将两个特征图跨通道d堆叠到相同的空间位置上,如式(8):
Figure BDA0002320516350000056
其中,设uA,uB分别为卷积层与OFF层的输出,设
Figure BDA0002320516350000057
则行人时空特征为
Figure BDA0002320516350000058
循环神经网络
循环神经网络允许时间步中的信息相互流通,从而实现连续多帧的行人时空信息的融合。本实施例采用循环神经网络的一种变体门控循环单元来实现帧间的特征融合。相比基础RNN单元,GRU添加了重置门(Reset Gated)与更新门(Update Gated)两个门控结构,能够避免基础RNN无法很好地处理远距离依赖的问题。
设时空融合后,t时刻的行人时空特征为vt,则
Figure BDA0002320516350000059
输入序列共有T帧,序列V=(v0,...,vT-1)为输入序列对应时空特征组成的序列,作为GRU的输入。GRU将学习图像序列的长期依赖关系,取h0=0,单个GRU单元内的具体操作如式(9):
Figure BDA00023205163500000510
其中,rt表示重置门,zt表示更新门,W表示待训练参数,σ表示sigmoid层,
Figure BDA00023205163500000511
表示候选隐藏状态,ht表示最终隐藏状态。GRU单元的输入为当前特征xt与前一单元的隐藏状态ht-1,输出为单帧图像的时空特征ot序列与隐藏状态ht
时间池化层
时间池化层在时间维度上执行的平均池化操作来汇总所有时间步的信息。理论上来说,循环神经网络后期时间步的输出综合了所有输入的特征。但实际上,由于后期时间步输出的内容有限,会丢失很大一部分信息,为了尽可能获得更鲁棒的特征描述,采用平均池化的方式综合所有时间步的信息是一种简单有效的手段。图1中将GRU的输出作为时间池化层的输入,执行池化操作后,即可获得视频级的行人时空特征。如式(10):
Figure BDA0002320516350000061
其中,T表示序列长度,每个GRU单元的输出为单帧图像对应的时空特征ot,yR为行人的视频级时空特征描述。
损失函数
本实施例采用对比损失函数与行人身份损失函数相结合的多任务损失。
对比损失函数用来最小化同一身份的行人之间的距离,最大化不同身份行人的距离。设行人序列a对应的视频级行人特征描述矢量为xa,相应正负样本的特征描述矢量为yb+、yb-,则对比损失具体如式(11):
Figure BDA0002320516350000062
其中yb+代表ya的正对,而yb-代表ya的负对,α表示区分不同行人的特征距离边界。损失包括两种惩罚:第一是惩罚相距太远的正对(ya,yb+),此时
Figure BDA0002320516350000063
第二是惩罚负对(ya,yb-),当负对之间的距离小于α时,
Figure BDA0002320516350000064
当负对之间距离大于α,则没有惩罚,并且Lcat(ya,yb-)=0。
行人身份损失由Softmax函数预测,用来匹配行人图像特征与身份标签,如式(12):
Figure BDA0002320516350000065
其中y为行人特征描述矢量,总共有k个不同身份的行人,p为预测值,q为行人真实标签,Wp和Wk是softmax权值矩阵的第p行和第k行。最终的损失函数由对比损失与身份损失相结合,如式(13):
L=Lcat(ya,yb)+Lsof(ya)+Lsof(yb) (13)
在网络训练阶段,采用的是正负样本交替输入的方式。在测试阶段,不再采用多任务损失函数,只将OFF-CNN-RNN结构作为特征提取器应用于原始图像序列,然后计算获取特征向量的欧氏距离,来度量行人的相似性。当欧氏距离大于某一阈值,即认为两段视频序列中的行人为同一身份,否则为不同身份。
实验及结果分析
数据集
(1)iLIDS-VID:iLIDS-VID数据集是从机场到大厅的两个非重叠摄像机视域中捕获的行人创建的。数据集中有300个不同身份的行人,每个人有两个摄像机视图的一对图像序列,总共600个图像序列。图像序列长度的平均数为73,范围为23到192。该数据集中大量行人的服装相似,视图中的照明和视点变化较大,背景杂乱且遮挡问题严重,使得实现行人再识别具有很大的挑战性。如图4所示。
(2)PRID-2011:PRID-2011数据集包含来自两个非重叠视域的摄像头视图的行人图像序列,其中一个摄像头捕获385个行人,另一个摄像头捕获749个行人,两个摄像头之间共有200个人为同一身份。本实施例只选用具有相同身份的200个行人,共400个图像序列进行评估。序列长度范围为5到675帧,平均帧数为100。与iLIDS-VID数据集相比,PRID-2011数据集在不拥挤的室外场景中采集,背景相对简单干净,很少见遮挡,实现行人再识别的难度相对较小。
评价标准
当前行人再识别常用的评价指标主要指累积匹配特征曲线(Cumulative MatchCharacteristics,CMC),其中Rank-n表示准确率排名前n的匹配结果中包含正确匹配对象的概率。将数据集随机分成训练集和测试集。网络训练时,从训练集中选取两段16帧的视频序列作为输入;测试时,将测试集中两个摄像机捕获的行人视频序列分别作为查询集与图集。重复实验五次,并报告平均结果。
实验结果
表1为基本方法与本实施例方法在数据集iLIDS-VID上的结果对比。其中基本方法指网络只采用基本CNN-RNN结构,不包含OFF层的方案。本实施例方法指采用网络结构为CNN-RNN结合OFF层的方案。从表1可以看出,添加了OFF层的方案明显比不采用OFF的网络结构识别率更高,其Rank-1可以达到66%,相对于后者提高了8%。如图5为两种方法在数据集iLIDS-VID上的CMC曲线。
表1基本方法与本实施例方法在数据集iLIDS-VID上的结果对比iLIDS-VID
Figure BDA0002320516350000071
表2为两种方案数据集PRID2011上的结果对比。从中可以看出采用光流引导特征的方法的Rank-1比基本方法提高了9%。此外,从表1与表2的对比结果看,两种方案在PRID2011数据集上的测试结果都明显优于iLIDS-VID数据集。图6为两种方法在数据集PRID2011上的CMC曲线图。
表2基本方法与本实施例方法在数据集PRID2011上的结果对比PRID2011
Figure BDA0002320516350000072
表3是在数据集iLIDS-VID上本实施例方法与其他方法的对比结果。从表3可以看出,本实施例方法的实验结果相对于其他大部分方案有一定的提高,达到了当前的先进水平,证明本实施例提出的网络具有良好的性能。图7为本实施例方法与其他方法在数据集iLIDS-VID上的CMC曲线图。
表3本实施例方法与其他方法在数据集iLIDS-VID上对比
Figure BDA0002320516350000073
Figure BDA0002320516350000081
参考文献:
[1]M.M.Kalayeh,E.Basaran,M.G kmen,et al.Human semantic parsing forperson re-identification[C].Proceedings of the In IEEE Conference on ComputerVision and Pattern Recognition,CVPR,Salt Lake City,Utah,June 18-22,2018.IEEEXplore,2018:1062-1071.
[2]Cao Z,Simonn T,Wei S E,et al.Realtime multi-person 2d poseestimation using part affinity fields[C].Proceedings of the In IEEEConference on Computer Vision and Pattern Recognition,CVPR,Hawaii,July 21-26,2017.IEEEXplore,2017:7291-7299.
[3]Chung D,Tahboub K,Delp E J.A Two Stream Siamese ConvolutionalNeural Network for Person Re-identification[C].Proceedings of the 2017 IEEEInternatioual Conference on Computer Vision,ICCV..Venice,Italy,October 22-29,2017.IEEE,2017:1983-1991.
[4]You J,Wu A,Li X,et al.Top-push Video-based Person Re-identification[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,CVPR.Las Vegas,June 26-July 1,2016.IEEE,2016:1345-1353.
[5]Mclaughlin N,Rincon J M D,Miller P.Recurrent Convolutional Networkfor Video-Based Person Re-identification[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,CVPR.Las Vegas,June 26-July 1,2016.IEEE,2016:1325-1334.
[6]Chen L,Yang H,Zhu J,et al.Deep Spatial-Temporal Fusion Network forVideo-Based Person Re-identification[C].Proceedings of the In IEEE Conferenceon Computer Vision and Pattern Recognition,CVPR.Hawaii,July 21-26,2017.IEEEXplore,2017:63-70.
[7]Xu S,Cheng Y,Gu K,et al.Jointly Attentive Spatial-Temporal PoolingNetworks for Video-based Person Re-Identification[C].2017 IEEE InternationalConference on Computer Vision,ICCV.Venice,Italy,October 22-29,2017.IEEE,2017:4733-4742.
[8]LIU Yi-min,JIANG Jian-guo,Qi Mei-bin.Video-based Person Re-identification Method Based on Multi-scale Frame Rate[J].Computer Knowledgeand Technology,2018,14(1):196-199.(in Chinese)
[9]Liu H,Jie Z,Jayashree K,et al.Video-based Person Re-identificationwith Accumulative Motion Context[J].IEEE Transactious on Circuits and Systemsfor Video Technology,2017,28(10):2788-2802.
[10]Sun S,Kuang Z,Ouyang W,et al.Optical Flow Guided Feature:A Fastand Robust Motion Representation for Video Action Recognition[C].Proceedingsof the In IEEE Conference on Computer Vision and Pattern Recognition,CVPR,Salt Lake City,Utah,June 18-22,2018.IEEE,2018:1390-1399.
[11]Dey R,Salemt FM.Gate-variants of Gated Recurrent Unit(GRU)neuralnetworks[C].IEEE International Midwest Symposium on Circuits and Systems,MWSCAS,Boston,MA,Aug 6-9,2017.Springer,2017:1597-1600.
[12]Wang T,Gong S,Zhu X,et al.Person Re-Identification byDiscriminative Selection in Video Ranking[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2016,38(12):2501-2514.
[13]Hirzer M,Beleznai C,Roth P M,et a1.Person Re-identification byDescriptive and Discriminative Classification[C].Scandinavian Conference onImage Analysis,SCIA,Heidelberg,Berlin,May 23,2011-May 27,2011.Springer,2011:91-102.
结论
本实施例提出了基于光流引导特征的视频行人再识别方法。首先通过卷积层提取图像序列的深度特征,然后利用OFF单元内部的逐元素相减法与Sobel算子计算行人图像的时空梯度,即为光流引导特征。通过使用光流引导特征描述行人运动信息可以避免手动提取光流图,简化了网络结构,行人再识别准确率得到明显提高。通过在多个数据集上进行实验,证明了本实施例方法的可行性与有效性。

Claims (2)

1.基于光流引导特征的视频行人再识别方法,其特征在于:首先使用卷积神经网络提取行人图像的深度特征,并根据深度特征图计算光流引导特征来描述行人运动信息;然后联合行人空间外观特征与时间运动特征,获得视频级的行人特征描述矢量;最后计算特征描述矢量之间的欧式距离,判定两段图像序列中的行人是否为同一身份。
2.根据权利要求1所述的基于光流引导特征的视频行人再识别方法,其特征在于:具体按照如下的步骤进行
步骤一、将含有T帧图像的视频作为卷积神经网络的输入提取行人图像的深度特征,其中每一帧行人图片都经过卷积神经网络提取图像特征
Figure FDA0002320516340000011
其中t表示第t帧图像对应的图像特征,i表示第i个卷积神经网络层,
Figure FDA0002320516340000012
表示第t帧第i个卷积神经网络层对应的图像特征,它是图像特征xA的一个子集;
步骤二、两个相邻帧的图像特征
Figure FDA0002320516340000013
Figure FDA0002320516340000014
同时输入OFF单元后,首先经过卷积核大小为1×1的卷积神经网络获得两个相邻帧的当前图像特征
Figure FDA0002320516340000015
Figure FDA0002320516340000016
分别与sobel算子相卷积,获得x,y方向的梯度表示
Figure FDA0002320516340000017
将两个图像特征逐元素相减得
Figure FDA0002320516340000018
Figure FDA0002320516340000019
Figure FDA00023205163400000110
Figure FDA00023205163400000111
其中,*表示卷积运算,常数Nc表示特征f(I)的通道数,令
Figure FDA00023205163400000112
为基本特征f(I)的第c个通道;
步骤三、在后两个卷积层对应的OFF单元中,对前一个OFF单元的输出
Figure FDA00023205163400000113
执行下采样,得到特征图
Figure FDA00023205163400000114
然后将
Figure FDA00023205163400000115
与当前层的
Figure FDA00023205163400000116
相加,即获得当前OFF单元的输出特征图
Figure FDA00023205163400000117
其中t表示第t帧图像对应的图像特征,i表示第i个卷积神经网络层;
步骤四、最后一个卷积层的输出特征图为图像深度特征
Figure FDA00023205163400000118
最后一个OFF单元的输出特征图为图像时空特征
Figure FDA00023205163400000119
Figure FDA00023205163400000120
Figure FDA00023205163400000121
经通道融合获得第t帧的时空融合图像特征
Figure FDA00023205163400000122
Figure FDA00023205163400000123
步骤五、设第t帧图像对应的行人融合图像特征为xt,则xt=vcat
Figure FDA00023205163400000124
将xt作为循环神经网络的输入,输出时空特征ot与隐藏状态ht
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure FDA00023205163400000125
Figure FDA00023205163400000126
ot=σ(Wo·ht)
其中,rt表示重置门,zt表示更新门,W表示待训练参数,σ表示sigmoid层,
Figure FDA00023205163400000127
表示候选隐藏状态,ht表示最终隐藏状态。GRU单元的输入为当前特征xt与前一单元的隐藏状态ht-1,输出为ot序列与隐藏状态ht
步骤六、将T帧时空特征ot序列输入时间池化层,整合序列信息,输出视频级时空特征描述yR
Figure FDA0002320516340000021
步骤七、对比损失函数用来最小化同一身份的行人之间的距离,最大化不同身份行人的距离,设行人序列a对应的视频级行人特征描述为ya,相应正负样本的特征为yb+、yb-,对比损失
Figure FDA0002320516340000022
Figure FDA0002320516340000023
其中yb+代表ya的正对,而yb-代表ya的负对,α表示区分不同行人的特征距离边界,损失包括两种惩罚:第一是惩罚相距太远的正对(ya,yb+),此时
Figure FDA0002320516340000024
第二是惩罚负对(ya,yb-),当负对之间的距离小于α时,
Figure FDA0002320516340000025
当负对之间距离大于α,则没有惩罚,并且Lcat(ya,yb-)=0,行人身份损失由Softmax函数预测,用来匹配行人图像特征与身份标签,行人身份损失
Figure FDA0002320516340000026
其中y为行人特征描述矢量,总共有k个不同身份的行人,p为预测值,q为行人真实标签,Wp和Wk是softmax权值矩阵的第p行和第k,最终的损失函数由对比损失与身份损失相结合,最终的损失函数L=Lcat(ya,yb)+Lsof(ya)+Lsof(yb):
步骤八、在网络测试阶段,设两段输入序列为sa,sb,将网络的特征提取子网络与信息融合子网络直接作为特征提取器R(·),视频级描述矢量
Figure FDA0002320516340000027
Figure FDA0002320516340000028
然后使用欧几里得距离直接计算提取的特征向量
Figure FDA0002320516340000029
的距离,若
Figure FDA00023205163400000210
则序列sa,sb中的行人为同一身份,否则为不同身份。
CN201911297061.8A 2019-12-16 2019-12-16 基于光流引导特征的视频行人再识别方法 Active CN111126223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911297061.8A CN111126223B (zh) 2019-12-16 2019-12-16 基于光流引导特征的视频行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911297061.8A CN111126223B (zh) 2019-12-16 2019-12-16 基于光流引导特征的视频行人再识别方法

Publications (2)

Publication Number Publication Date
CN111126223A true CN111126223A (zh) 2020-05-08
CN111126223B CN111126223B (zh) 2023-04-18

Family

ID=70499105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911297061.8A Active CN111126223B (zh) 2019-12-16 2019-12-16 基于光流引导特征的视频行人再识别方法

Country Status (1)

Country Link
CN (1) CN111126223B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115796A (zh) * 2020-08-21 2020-12-22 西北大学 一种基于注意力机制的三维卷积微表情识别算法
CN112648994A (zh) * 2020-12-14 2021-04-13 首都信息发展股份有限公司 基于深度视觉里程计和imu的相机位姿估计方法及装置
CN112699811A (zh) * 2020-12-31 2021-04-23 中国联合网络通信集团有限公司 活体检测方法、装置、设备、储存介质及程序产品
CN113392725A (zh) * 2021-05-26 2021-09-14 苏州易航远智智能科技有限公司 基于视频数据的行人过街意图识别方法
CN113792633A (zh) * 2021-09-06 2021-12-14 北京工商大学 一种基于神经网络和光流法的人脸追踪系统和追踪方法
WO2022018548A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Online training of neural networks
CN114067270A (zh) * 2021-11-18 2022-02-18 华南理工大学 一种车辆追踪方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122707A (zh) * 2017-03-17 2017-09-01 山东大学 基于外貌特征紧凑表示的视频行人再识别方法及系统
CN107220611A (zh) * 2017-05-23 2017-09-29 上海交通大学 一种基于深度神经网络的空时特征提取方法
US20180165546A1 (en) * 2016-12-13 2018-06-14 Axis Ab Method, computer program product and device for training a neural network
CN108805078A (zh) * 2018-06-11 2018-11-13 山东大学 基于行人平均状态的视频行人再识别方法及系统
CN108960127A (zh) * 2018-06-29 2018-12-07 厦门大学 基于自适应深度度量学习的遮挡行人重识别方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
US20190279028A1 (en) * 2017-12-12 2019-09-12 TuSimple Method and Apparatus for Object Re-identification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165546A1 (en) * 2016-12-13 2018-06-14 Axis Ab Method, computer program product and device for training a neural network
CN107122707A (zh) * 2017-03-17 2017-09-01 山东大学 基于外貌特征紧凑表示的视频行人再识别方法及系统
CN107220611A (zh) * 2017-05-23 2017-09-29 上海交通大学 一种基于深度神经网络的空时特征提取方法
US20190279028A1 (en) * 2017-12-12 2019-09-12 TuSimple Method and Apparatus for Object Re-identification
CN108805078A (zh) * 2018-06-11 2018-11-13 山东大学 基于行人平均状态的视频行人再识别方法及系统
CN108960127A (zh) * 2018-06-29 2018-12-07 厦门大学 基于自适应深度度量学习的遮挡行人重识别方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAO LIU 等: "Video-Based Person Re-Identification With Accumulative Motion Context", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
NIALL MCLAUGHLIN 等: "Recurrent Convolutional Network for Video-based Person Re-Identification", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
SHUYANG SUN 等: "Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022018548A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Online training of neural networks
GB2612504A (en) * 2020-07-21 2023-05-03 Ibm Online training of neural networks
CN112115796A (zh) * 2020-08-21 2020-12-22 西北大学 一种基于注意力机制的三维卷积微表情识别算法
CN112648994A (zh) * 2020-12-14 2021-04-13 首都信息发展股份有限公司 基于深度视觉里程计和imu的相机位姿估计方法及装置
CN112648994B (zh) * 2020-12-14 2023-12-05 首都信息发展股份有限公司 基于深度视觉里程计和imu的相机位姿估计方法及装置
CN112699811A (zh) * 2020-12-31 2021-04-23 中国联合网络通信集团有限公司 活体检测方法、装置、设备、储存介质及程序产品
CN112699811B (zh) * 2020-12-31 2023-11-03 中国联合网络通信集团有限公司 活体检测方法、装置、设备、储存介质及程序产品
CN113392725A (zh) * 2021-05-26 2021-09-14 苏州易航远智智能科技有限公司 基于视频数据的行人过街意图识别方法
CN113792633A (zh) * 2021-09-06 2021-12-14 北京工商大学 一种基于神经网络和光流法的人脸追踪系统和追踪方法
CN113792633B (zh) * 2021-09-06 2023-12-22 北京工商大学 一种基于神经网络和光流法的人脸追踪系统和追踪方法
CN114067270A (zh) * 2021-11-18 2022-02-18 华南理工大学 一种车辆追踪方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111126223B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111126223B (zh) 基于光流引导特征的视频行人再识别方法
Zhang et al. Attentional neural fields for crowd counting
Wen et al. Detection, tracking, and counting meets drones in crowds: A benchmark
Yin et al. Recurrent convolutional network for video-based smoke detection
CN110378259A (zh) 一种面向监控视频的多目标行为识别方法及系统
CN109740419A (zh) 一种基于Attention-LSTM网络的视频行为识别方法
Miksik et al. Efficient temporal consistency for streaming video scene analysis
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN107025420A (zh) 视频中人体行为识别的方法和装置
Lin et al. Learning temporary block-based bidirectional incongruity-aware correlation filters for efficient UAV object tracking
CN112906545A (zh) 一种针对多人场景的实时动作识别方法及系统
Jeyabharathi et al. Vehicle Tracking and Speed Measurement system (VTSM) based on novel feature descriptor: Diagonal Hexadecimal Pattern (DHP)
Garg et al. Look no deeper: Recognizing places from opposing viewpoints under varying scene appearance using single-view depth estimation
Lee et al. Edgeconv with attention module for monocular depth estimation
Hsu et al. GAITTAKE: Gait recognition by temporal attention and keypoint-guided embedding
Patel et al. Night vision surveillance: Object detection using thermal and visible images
CN112307892A (zh) 一种基于第一视角rgb-d数据的手部动作识别方法
Yaseen et al. A novel approach based on multi-level bottleneck attention modules using self-guided dropblock for person re-identification
CN112487926A (zh) 一种基于时空图卷积网络的景区投喂行为识别方法
CN116703985A (zh) 基于骨架相似度的跨镜头多目标跟踪方法、装置及介质
Šarić et al. Dense semantic forecasting in video by joint regression of features and feature motion
Xue et al. A two-stage deep neural network for macro-and micro-expression spotting from long-term videos
Gu et al. Depth MHI based deep learning model for human action recognition
Khaliluzzaman et al. HActivityNet: A Deep Convolutional Neural Network for Human Activity Recognition
Meng et al. PHNet: Parasite-host network for video crowd counting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant