CN109145744B - 一种基于自适应预测模式的lstm网络行人重识别方法 - Google Patents

一种基于自适应预测模式的lstm网络行人重识别方法 Download PDF

Info

Publication number
CN109145744B
CN109145744B CN201810798128.5A CN201810798128A CN109145744B CN 109145744 B CN109145744 B CN 109145744B CN 201810798128 A CN201810798128 A CN 201810798128A CN 109145744 B CN109145744 B CN 109145744B
Authority
CN
China
Prior art keywords
apm
pedestrian
training
network
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810798128.5A
Other languages
English (en)
Other versions
CN109145744A (zh
Inventor
赵凡
姚怡
姬亚男
李维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201810798128.5A priority Critical patent/CN109145744B/zh
Publication of CN109145744A publication Critical patent/CN109145744A/zh
Application granted granted Critical
Publication of CN109145744B publication Critical patent/CN109145744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应预测模式的LSTM网络行人重识别方法,该方法主要由特征提取和距离度量学习两个部分组成。特征提取部分包括:首先对连续视频序列中的每一帧进行LBP&颜色特征提取;然后将连续视频序列所提的LBP&颜色特征作为输入送入前向和后向LSTM网络,得到前向LSTM和后向LSTM输出特征;再通过APM‑Net网络来对所得到前向和后向LSTM特征进行自适应选择得到视频帧特征。距离度量以两组行人视频序列特征作为输入,通过XQDA距离度量学习来判断对应的行人是否为同一行人。本发明提出的行人重识别方法解决了现有的行人重识别方法中对遮挡情况识别精度不高的问题。

Description

一种基于自适应预测模式的LSTM网络行人重识别方法
技术领域
本发明属于图像识别技术领域,涉及一种基于自适应预测模式的LSTM网络行人重识别方法。
背景技术
随着摄像头安装数量、智慧城市和公共安全需求的日益增长,传统的摄像头监控系统仅能做到对单个摄像头中的运动目标进行自动化检测和跟踪。因此研究和实现一个基于多摄像头的运动目标跨区域跟踪系统就变的非常迫切。行人重识别技术作为“跨摄像头追踪系统”中的关键技术之一,主要是指在非重叠视角域多摄像头网络下进行的行人图像匹配,即确定不同位置的摄像头在不同时刻拍摄到的行人是否为同一人。
行人重识别技术目前存在的难点有:①由于视频光照、角度、尺度等变化导致行人的外貌特征发生变化;②由于摄像机视角和行人姿态的变化导致行人外貌特征存在遮挡;③不同摄像头或不同行人的外貌特征可能比同一个人的外貌特征更相似。
[1]Yichao Yan,Bingbing Ni,Zhichao Song,Chao Ma,Yan Yan,and XiaokangYang.Person Re-identification via Recurrent Feature Aggregation[M].Workshopon Statistical Learning in Computer Vision(ECCV),2016:701-716.
[2]Liao S,Hu Y,Zhu X,et al.Person re-identification by Local MaximalOccurrence representation and metric learning[C].Computer Vision andPatternRecognition(CVPR).IEEE,2015:2197-2206.
发明内容
本发明的目的是提供一种基于自适应预测模式的LSTM网络行人重识别方法,解决了现有的LSTM网络由于遮挡因素导致的行人重识别性能偏低的问题。
本发明所采用的技术方案是,一种基于自适应预测模式的LSTM网络行人重识别方法,具体包括如下步骤:
步骤1,获取行人重识别数据集,该行人重识别数据集包括两个摄像头所拍摄的N个不同行人的2×N个视频序列,从2×N个视频序列中随机抽取J个不同行人的2×J个视频序列作为训练样本集Vtrain,其中
Figure BDA0001736436180000021
Figure BDA0001736436180000022
表示c摄像机下ID号为j的行人视频训练样本,
Figure BDA0001736436180000023
Figure BDA0001736436180000024
表示c摄像机下ID号为j的行人视频训练样本的第k帧图像,
Figure BDA0001736436180000025
表示行人视频训练样本
Figure BDA0001736436180000026
的视频总帧数;
步骤2,对步骤1所得的训练样本集Vtrain中的所有视频帧图像
Figure BDA0001736436180000027
提取局部二值模式和颜色融合特征
Figure BDA0001736436180000028
得到训练特征集FLBPC;
步骤3,制作标签文件,设置LSTM网络参数,把标签文件、训练特征集FLBPC中特征的正向排列作为前向LSTM网络FLSTM的输入,得到FLSTM网络模型MFLSTM;把标签文件、训练特征集FLBPC中特征的反向排列作为后向LSTM网络BLSTM的输入,得到BLSTM网络模型MBLSTM
步骤4,制作自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain,通过MFLSTM对APM_Vtrain提取FLSTM特征,得到FLSTM特征集ATr_Fflstm;通过MBLST对APM_Vtrain提取BLSTM特征,得到特征集ATr_Fblstm;
步骤5,设计自适应预测模式选择网络APM-Net,通过APM-Net网络对训练样本集APM_Vtrain中的三类样本进行预测,三类样本分别为前向样本、后向样本及双向样本;
步骤6,制作标签文件,把标签文件、前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为APM-Net网络的输入,训练自适应预测模式选择网络APM-Net,得到网络模型MAPM
步骤7,把步骤1数据集中除去训练样本集Vtrain之外的的剩余数据作为测试样本集Vtest,其中
Figure BDA0001736436180000031
步骤8,对Vtest提取APM特征,得到APM特征集AFV;
步骤9,对测试数据集Vtest提取的APM特征集AFV进行均值化预处理,得到特征均值集av_AFV;
步骤10,将摄像机1中的行人特征均值作为目标行人特征集Obj,摄像机2中的行人特征均值作为待识别行人特征集Gal,其中Obj={Objtrain,Objtest},Gal={Galtrain,Galtest},
Figure BDA0001736436180000032
Figure BDA0001736436180000033
Figure BDA0001736436180000034
Figure BDA0001736436180000035
Figure BDA0001736436180000036
表示摄像机1中的ID号为s的行人视频的特征均值,
Figure BDA0001736436180000037
表示摄像机2中的ID号为v的行人视频的特征均值,把Objtrain和Galtrain作为XQDA的训练特征集,训练得到映射矩阵W和度量核矩阵M,把Objtest和Galtest作为XQDA的测试特征集,用得到的W和M进行行人重识别性能测试。
本发明的特点还在于,
步骤2中
Figure BDA0001736436180000038
特征的提取过程如下:
步骤2.1,对输入的行人图像
Figure BDA0001736436180000041
进行大小归一化处理,得到归一化后的图像Imgw×h
步骤2.2,将图像Imgw×h划分为M=m1×m2个图像块Blkm,其中1≤m≤M;
步骤2.3,对每个图像块Blkm提取LBP和颜色融合特征FBlkm
步骤2.4,将图像Imgw×h中M个图像块所提取的LBP和颜色融合特征FBlkm进行串联融合,就可得到图像Imgw×h对应的LBP和颜色融合特征
Figure BDA0001736436180000042
步骤2.3的具体如下:
步骤2.3.1,将图像块Blkm转换为灰度图像块GBlkm,对GBlkm提取LBP特征LBlkm
步骤2.3.2,将图像块Blkm转换到HSV颜色空间,得到转换之后的图像HBlkm,计算图像HBlkm在H、S、V各个通道上的均值,组成三维HSV颜色特征CHBlkm;将图像块Blkm转换到LAB颜色空间,得到转换之后的图像LABBlkm,计算图像LABBlkm在L、A、B各个通道上的均值,组成三维LAB颜色特征CLBlkm
步骤2.3.3,将步骤2.3.1中图像块Blkm所提取的LBP特征LBlkm、步骤C2中图像块Blkm所提取得HSV颜色特征CHBlkm以及Lab颜色特征LABBlkm进行串联融合,从而得到图像块Blkm所对应的LBP和颜色融合特征FBIkm
步骤3的具体过程如下:
步骤3.1,准备样本标签文件,将训练特征集FLBPC中c摄像机下ID号为j的行人所对应的视频特征集
Figure BDA0001736436180000043
看作一个样本,把行人ID号j作为样本的标签llab,其具体格式为
Figure BDA0001736436180000044
其中
Figure BDA0001736436180000045
为特征路径FLBPCPath/下的训练特征文件名
Figure BDA0001736436180000051
以上述格式将各个样本的标记结果写入训练标签文件lstm_train.txt中;
步骤3.2,设置网络训练参数,并写入配置文件solver.prototxt;
步骤3.3,训练FLSTM网络模型MFLSTM,该网络FLSTM特征输出的维数为512维,该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本
Figure BDA0001736436180000052
中正向排列的连续n帧的视频特征
Figure BDA0001736436180000053
其中
Figure BDA0001736436180000054
输入标签为从lstm_train.txt训练文件中随机抽取的样本
Figure BDA0001736436180000055
所对应的标签{llab1,llab2,…,llabn},其中llab1=llab2=…=llabn=llab。将输入数据和输入标签同时送入FLSTM网络中,通过步骤3.2中的配置文件参数来进行训练,就可得到FLSTM网络训练模型MFLSTM
步骤3.4,训练BLSTM网络模型MBLSTM,该网络BLSTM特征输出的维数为512维,该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本
Figure BDA0001736436180000056
中反向排列的连续n帧的视频特征
Figure BDA0001736436180000057
其中
Figure BDA0001736436180000058
输入标签为从lstm_train.txt训练文件中随机抽取的样本
Figure BDA0001736436180000059
所对应的标签{llab1,llab2,…,llabn},其中llab1=llab2=…=llabn=llab。将输入数据和输入标签同时送入BLSTM网络中,通过步骤3.2中的配置文件参数来进行训练,从而得到BLSTM网络训练模型MBLSTM
步骤4的具体过程如下:
步骤4.1,制APM-Net的训练样本集APM_Vtrain,其中APM_Vtrain={APM_Vtrainp|1≤p≤A_TN},APM_Vtrainp表示第p个训练样本,它是从
Figure BDA00017364361800000511
中随机抽取的样本,APM_Vtrainp样本的长度为固定的2n-1帧的连续行人视频序列,即有
Figure BDA00017364361800000510
其中
Figure BDA0001736436180000061
步骤4.2,提取训练样本集APM_Vtrain对应的LBP和颜色融合特征集APM_FLBPC={APM_FLBPCp|1≤p≤A_TN};
步骤4.3,把APM_FLBPC中每一个样本APM_Vtrainp对应的特征集APM_FLBPCp中的第(i-n+1)~i帧特征
Figure BDA0001736436180000062
作为前向LSTM网络模型MFLS的输入,通过MFLS得到前向LSTM特征集ATr_Fflstm={ATr_Fflstmp|1≤p≤A_TN};把APM_FLBPC中的每一个样本APM_Vtrainp对应的特征集APM_FLBPCp中的第(i+n-1)~i帧特征
Figure BDA0001736436180000063
作为后向LSTM网络模型MBLSTM的输入,通过MBLSTM得到后向LSTM特征集ATr_Fblstm={ATr_Fblstmp|1≤p≤A_TN}。
步骤5中的网络APM-Net结构包括输入层、Reshape层、第一个全连接+drop层、第二全连接层和softmax层;
输入层:输入层的输入为样本APM_Vtrainp对应的前向LSTM特征ATr_Fflstmp和后向LSTM特征ATr_Fblstmp
Reshape层:Reshape层的输入为ATr_Fflstmp和ATr_Fblstmp,输出为特征维数为10240(10240=1024*n)的数据feaf_b,该层的作用为对输入的前向LSTM特征和后向LSTM特征进行串联操作;
第一全连接加drop层:第一个全连接+drop层:全连接层的输入为feaf_b,作用是将10240维数据feaf_b降成800维数据inner1;drop层的输入是inner1,操作是对inner1数据按一定的概率随机置0,作用是在一定程度上防止过拟合现象,输出数据为800维数据drop1;
第二全连接层:输入是drop1,输出为3维数据inner2=(x0,x1,x2)′,分别对应三种预测模式;
softmax层:对网络进行训练时需要通过softmax层的loss值对网络进行反馈修订,具体操作为:计算inner2中的最大值xmax=max(x0,x1,x2);根据xmax值对inner2中的数据进行归一化处理得到ykk
Figure BDA0001736436180000071
其中kk=0,1,2;根据样本标签Alable对应的yAlable计算loss值,loss=-log(yAlable)。
步骤6的具体过程为:
步骤6.1,制作样本标签文件,以步骤4.1设定的样本Alable值来对训练样本集ApM_Vtrain中的数据进行标记,并将标记结果存入训练标签文件APM_train.txt中;以第p个样本对应的连续2n-1帧视频APM_Vtrainp为例,标签格式为APM_VtrainPath/APM_Vtrainp.avi Alable,APM_VtrainPath/APM_Vtrainp.avi为APM_Vtrain中各样本对应的视频路径APM_VtrainPath/下的视频文件名APM_Vtrainp.avi;
步骤6.2,训练自适应预测模式选择网络APM-Net,以自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain所对应的前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为训练APM-Net网络的输入,进行APM-Net网络训练,得到自适应预测模式选择网络模型MAPM
步骤8中APM特征的提取过程如下:
步骤8.1,对测试样本集Vtest中的所有视频帧图像
Figure BDA0001736436180000075
提取LBP和颜色融合特征
Figure BDA0001736436180000076
得到测试特征集Te_FLBPC,其中
Figure BDA0001736436180000072
Figure BDA0001736436180000073
表示c摄像机下ID号为j的行人特征集,
Figure BDA0001736436180000074
表示摄像机c下ID号为j的行人的第k帧图像所提取的LBP和颜色融合特征;
步骤8.2,对行人测试样本集Vtest提取APM特征集
Figure BDA0001736436180000081
其中
Figure BDA0001736436180000082
表示摄像机c下ID号为j的行人视频所对应的APM特征;
步骤8.2的特征集提取过程如下:
步骤8.2.1,对摄像机c下ID号为j的行人视频
Figure BDA0001736436180000083
提取APM特征
Figure BDA0001736436180000084
以测试特征集Te_FLBPC的特征
Figure BDA0001736436180000085
作为提取APM特征的输入,按滑动窗对视频
Figure BDA00017364361800000812
提取APM特征
Figure BDA0001736436180000086
Figure BDA0001736436180000087
其中
Figure BDA0001736436180000088
表示摄像机c下ID号为j的行人的第t帧图像所提取的APM特征,滑动窗的大小为2n-1帧,步长为1,n=10;
步骤8.2.2,获取单帧图像
Figure BDA0001736436180000089
的APM特征
Figure BDA00017364361800000810
步骤10的具体过程如下:
步骤10.1,把Objtrain和Galtrain作为交叉视角二次判别分析(Cross-viewQuadratic Discriminant Analysis,XQDA)的训练特征集,训练得到映射矩阵W和度量核矩阵M;
步骤10.2,距离计算;
把步骤10.1中训练得到的度量核矩阵M,测试特征集Galtest和W的乘积Galtest×W,Objtest和W的乘积Objtest×W作为输入送入距离度量函数MahDistM(M,Galtest×W,Objtest×W)中,输出得到一个R/2×R/2的二维距离矩阵
Figure BDA00017364361800000811
其中dij表示摄像机1中的ID号为i的行人视频的特征均值与摄像机2中的ID号为j的行人视频的特征均值之间的距离;
步骤10.3,对矩阵D按行进行升序排列得到矩阵D′,D′中第i行中的第一列元素d′i0在D中的对应元素记为dij,dij的下标i和j为识别到的两个摄像机下的同一个行人。
本发明的有益效果是,本发明提出的一种基于自适应预测模式的LSTM网络行人重识别方法,根据所提出的APM-Net网络对半进入遮挡物和走出遮挡物时的LSTM特征进行选择,从而提高了行人在遮挡情况下的识别性能。
附图说明
图1是本发明的一种基于自适应预测模式的LSTM网络行人重识别方法的流程示意图;
图2是本发明一种基于自适应预测模式的LSTM网络行人重识别方法中
Figure BDA0001736436180000091
特征的提取过程示意图;
图3是本发明一种基于自适应预测模式的LSTM网络行人重识别方法中前向FLSTM网络结构图;
图4是本发明一种基于自适应预测模式的LSTM网络行人重识别方法中后向FLSTM网络结构图;
图5是本发明一种基于自适应预测模式的LSTM网络行人重识别方法中自适应预测模式网络的结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于自适应预测模式的LSTM网络行人重识别方法,如图1所示,主要由行人重识别网络训练、行人特征提取和距离度量三个部分组成。
首先进行行人重识别网络训练过程,具体按照以下步骤实施:
训练部分主要包括FLSTM、BLSTM和APM-Net三个网络的训练,其具体实施步骤如下:
步骤1,通过网络下载,获取行人重识别数据集(如iLIDS-VID、PRID数据集等)。该行人重识别数据集包括两个摄像头所拍摄的N个不同行人的2×N个视频序列。从中随机抽取J个不同行人的2×J个视频序列作为训练样本集Vtrain,其中
Figure BDA0001736436180000101
Figure BDA0001736436180000102
表示c摄像机下ID号为j的行人视频训练样本,且有
Figure BDA0001736436180000103
Figure BDA0001736436180000104
表示c摄像机下ID号为j的行人视频训练样本的第k帧图像,
Figure BDA0001736436180000105
表示行人视频训练样本
Figure BDA0001736436180000106
的视频总帧数;在本实施方案中N=300,J=N/2=150;
步骤2,对训练样本集Vtrain中的所有视频帧图像
Figure BDA0001736436180000107
提取局部二值模式(Local binary patterns,LBP)和颜色融合特征
Figure BDA0001736436180000108
则可以得到训练特征集FLBPC,其中
Figure BDA0001736436180000109
Figure BDA00017364361800001010
表示c摄像机下ID号为j的行人特征集,且有
Figure BDA00017364361800001011
Figure BDA00017364361800001012
表示c摄像机下ID号为j的行人的第k帧图像所提取的LBP和颜色融合特征,且
Figure BDA00017364361800001013
特征的维数为58950。
Figure BDA00017364361800001014
特征的提取过程如图2所示,其具体步骤如下:
步骤2.1,对输入的行人图像
Figure BDA00017364361800001015
进行大小归一化处理,得到归一化后的图像Imgw×h;在本实施方案中w=64,h=128;
步骤2.2,将图像Imgw×h划分为M=m1×m2个图像块Blkm,其中1≤m≤M,图像块的大小为16×8,相邻图像块在水平方向上相差4个像素在垂直方向相差8个像素。本实施方案中的m1=(w-8)/4+1=15,m2=(h-16)/8+1=15,M=225。
步骤2.3,对每个图像块Blkm提取LBP和颜色的融合特征FBlkm,具体过程如下:
步骤2.3.1,将图像块Blkm转换为灰度图像块GBlkm,对GBlkm提取LBP特征LBlkm,特征LBlkm的维数为256维;
步骤2.3.2,将图像块Blkm转换到HSV颜色空间,得到转换之后的图像HBlkm,计算图像HBlkm在H、S、V各个通道上的均值,组成三维的HSV颜色特征CHBlkm;将图像块Blkm转换到LAB颜色空间,得到转换之后的图像LABBlkm,计算图像LABBlkm在L、A、B各个通道上的均值,组成三维的LAB颜色特征CLBlkm
步骤2.3.3,将步骤2.3.1中图像块Blkm所提取的LBP特征LBlkm和步骤2.3.2中图像块Blkm所提取得HSV颜色特征CHBlkm以及Lab颜色特征LABBlkm进行串联融合,就可得到图像块Blkm所对应的262(256+3+3)维的LBP和颜色融合特征FBlkm
步骤2.4,将图像Imgw×h中M个图像块所提取的LBP和颜色融合特征FBlkm进行串联融合,得到图像Imgw×h对应的LBP和颜色融合特征
Figure BDA0001736436180000111
其中FL
Figure BDA0001736436180000112
的特征维数为58950(225×262);
步骤3,制作标签文件,设置LSTM网络参数,然后把标签文件、训练特征集FLBPC中特征的正向排列作为前向LSTM网络FLSTM的输入,得到FLSTM网络模型MFLSTM;把标签文件、训练特征集FLBPC中特征的反向排列作为后向LSTM网络BLSTM的输入,得到BLSTM网络模型MBLSTM;步骤3的具体过程如下:
步骤3.1,准备样本标签文件,将训练特征集FLBPC中c摄像机下ID号为j的行人所对应的视频特征集
Figure BDA0001736436180000121
看作一个样本,把行人ID号j作为样本的标签llab,其具体格式为
Figure BDA0001736436180000122
其中
Figure BDA0001736436180000123
为特征路径FLBPCPath/下的训练特征文件名
Figure BDA0001736436180000124
以上述格式将各个样本的标记结果写入训练标签文件lstm_train.txt中。
步骤3.2,设置网络训练参数,并写入配置文件solver.prototxt,其中对网络训练影响较大的训练参数的具体设置如表1所示:
表1
Figure BDA0001736436180000125
步骤3.3,训练FLSTM网络模型MFLSTM,其中FLSTM的网络结构如图3所示,该网络结构采用的是文献[1]中的LSTM网络结构,该网络FLSTM特征输出的维数为512维,该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本
Figure BDA0001736436180000126
中正向排列的连续n帧的视频特征
Figure BDA0001736436180000131
其中
Figure BDA0001736436180000132
输入标签为从lstm_train.txt训练文件中随机抽取的样本
Figure BDA0001736436180000133
所对应的标签{llab1,llab2,…,llabn},其中llab1=llab2=…=llabn=llab。将输入数据和输入标签同时送入图3所示的FLSTM网络中通过步骤3.2中的配置文件参数来进行训练,就可得到FLSTM网络训练模型MFLSTM;在本实施方案中n=10。
步骤3.4,训练BLSTM网络模型MBLSTM,其中BLSTM的网络结构如图4所示,该网络结构采用的是文献[1]中的LSTM网络结构,该网络BLSTM特征输出的维数为512维,该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本
Figure BDA0001736436180000134
中反向排列的连续n帧的视频特征
Figure BDA0001736436180000135
其中
Figure BDA0001736436180000136
输入标签为从lstm_train.txt训练文件中随机抽取的样本
Figure BDA0001736436180000137
所对应的标签{llab1,llab2,…,llabn},其中llab1=llab2=…=llabn=llab。将输入数据和输入标签同时送入图4所示的BLSTM网络中,通过步骤3.2中的配置文件参数来进行训练,就可得到BLSTM网络训练模型MBLSTM
步骤4,制作自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain,通过MFLSTM对APM_Vtrain提取FLSTM特征,得到FLSTM特征集ATr_Fflstm;通过MBLSTM对APM_Vtrain提取BLSTM特征,得到特征集ATr_Fblstm,其中APM_Vtrain中的样本数目为A_TN,本实施方案中A_TN=542,步骤4的具体过程如下:
步骤4.1,制作APM-Net的训练样本集APM_Vtrain,其中APM_Vtrain={APM_Vtrainp|1≤p≤A_TN},APM_Vtrainp表示第p个训练样本,它是从
Figure BDA0001736436180000138
中随机抽取的样本,APM_Vtrainp样本的长度为固定的2n-1帧的连续行人视频序列,即有
Figure BDA0001736436180000141
其中
Figure BDA0001736436180000142
在准备APM-Net的训练样本集APM_Vtrain时,训练样本集APM_Vtrain中的样本类别数设为三,这三种样本类别分别为双向、前向和后向预测模式。当样本
Figure BDA0001736436180000143
中n帧视频子序列
Figure BDA0001736436180000144
Figure BDA0001736436180000145
都不存在行人遮挡情况时,样本APM_Vtrainp的标签为Alable=0,对应双向预测模式;当样本APM_Vtrainp中视频子序列
Figure BDA0001736436180000146
不存在行人遮挡情况而视频子序列
Figure BDA0001736436180000147
存在行人遮挡情况时,样本APM_Vtrainp的标签为Alable=1,对应前向预测模式;当样本APM_Vtrainp中视频子序列
Figure BDA0001736436180000148
存在行人遮挡情况而视频子序列
Figure BDA0001736436180000149
不存在行人遮挡情况时,样本APM_Vtrainp的标签为Alable=2,对应后向预测模式;
步骤4.2,提取训练样本集APM_Vtrain对应的LBP和颜色融合特征集APM_FLBPC={APM_FLBPCp|1≤p≤A_TN}。由步骤2对
Figure BDA00017364361800001410
提取的LBP和颜色融合特征
Figure BDA00017364361800001411
得出
Figure BDA00017364361800001412
对应的LBP和颜色融合特征
Figure BDA00017364361800001413
训练样本集APM_Vtrain对应的LBP和颜色融合特征集为APM_FLBPC={APM_FLBPCp|1≤p≤A_TN};
步骤4.3,把APM_FLBPC中每一个样本APM_Vtrainp对应的特征集APM_FLBPCp中的第(i-n+1)~i帧特征
Figure BDA00017364361800001414
作为前向LSTM网络模型MFLSTM的输入,通过MFLSTM得到前向LSTM特征集ATr_Fflstm={ATr_Fflstmp|1≤p≤A_TN};把APM_FLBPC中的每一个样本APM_Vtrainp对应的特征集APM_FLBPCp中的第(i+n-1)~i帧特征
Figure BDA0001736436180000151
作为后向LSTM网络模型MBLSTM的输入,通过MBLSTM得到后向LSTM特征集ATr_Fblstm={ATr_Fblstmp|1≤p≤A_TN}。其中ATr_Fflstmp和ATr_Fblstmp的提取步骤如下:
步骤4.3.1,提取样本APM_Vtrainp的前向LSTM特征ATr_Fflstmp。将训练好的前向LSTM网络模型MFLSTM看作函数get_fflstm(·),以样本APM_Vtrainp所对应的特征集APM_FLBPCp中的第(i-n+1)~i帧特征
Figure BDA0001736436180000152
作为前向LSTM网络模型MFLSTM的输入,则可通过get_fflstm(·)函数提取样本APM_Vtrainp对应的前向LSTM特征ATr_Fflstmp,如式(1)所示。其中
Figure BDA0001736436180000153
Figure BDA0001736436180000154
表示第p个样本对应的第k帧图像的前向LSTM特征;本实施方案中
Figure BDA0001736436180000155
的维数为512,n的取值为10;
Figure BDA0001736436180000156
步骤4.3.2,提取样本APM_Vtrainp的后向LSTM特征ATr_Fblstmp。将训练好的后向LSTM网络模型MBLSTM看作函数get_fblstm(·),以样本APM_Vtrainp所对应的特征集APM_FLBPCp中的第(i+n-1)~i帧特征
Figure BDA0001736436180000157
作为后向LSTM网络模型MBLSTM的输入,则可通过get_fblstm(·)函数提取样本APM_Vtrainp对应的后向LSTM特征ATr_Fblstmp,如式(2)所示。其中
Figure BDA0001736436180000158
本实施方案中
Figure BDA0001736436180000159
的维数为512,n的取值为10;
Figure BDA00017364361800001510
步骤5,设计自适应预测模式选择网络APM-Net,APM-Net网络的功能为对样本的三种模式进行预测,其网络结构图如图5所示,由输入层、Reshape层、第一个全连接+drop层、第二全连接层和一个softmax层组成;
(1)输入层:输入层的输入为样本APM_Vtrainp对应的前向LSTM特征ATr_Fflstmp和后向LSTM特征ATr_Fblstmp。本实施方案中ATr_Fflstmp和ATr_Fblstmp的特征维数均为n×512,n=10;
(2)Reshape层:Reshape层的输入为ATr_Fflstmp和ATr_Fblstmp,输出为特征维数为10240(10240=1024*n)的数据feaf_b,该层的作用为对输入的前向LSTM特征和后向LSTM特征进行串联操作;
(3)第一个全连接+drop层:全连接层的输入为feaf_b,作用是将10240维数据feaf_b降成800维数据inner1;drop层的输入是inner1,操作是对inner1数据按一定的概率随机置0,作用是在一定程度上防止过拟合现象,输出数据为800维数据drop1;本实施案例中概率值为0.3;
(4)第二个全连接层:输入是drop1,输出为3维数据inner2=(x0,x1,x2)′,分别对应三种预测模式;
(5)softmax层:对网络进行训练时需要通过softmax层的loss值对网络进行反馈修订,具体操作为:计算inner2中的最大值xmax=max(x0,x1,x2);根据xmax值对inner2中的数据进行归一化处理得到ykk
Figure BDA0001736436180000161
其中kk=0,1,2;根据样本标签Alable对应的yAlable计算loss值,loss=-log(yAlable);根据loss值采用文献[1]中的网络反馈机制在网络训练过程中对网络参数进行修订。
步骤6,制作标签文件,把标签文件、前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为APM-Net网络的输入,训练自适应预测模式选择网络APM-Net,得到网络模型MAPM。具体步骤如下:
步骤6.1,制作样本标签文件,以步骤4.1设定的样本Alable值来对训练样本集APM_Vtrain中的数据进行标记,并将标记结果存入训练标签文件APM_train.txt中。以第p个样本对应的连续2n-1帧视频APM_Vtrainp为例,标签格式为(APM_VtrainPath/APM_Vtrainp.avi Alable),APM_VtrainPath/APM_Vtrainp.avi为APM_Vtrain中各样本对应的视频路径APM_VtrainPath/下的视频文件名APM_Vtrainp.avi。
步骤6.2,训练自适应预测模式选择网络APM-Net,得到APM-Net的网络模型MAPM
把训练样本集APM_Vtrain对应的特征集ATr_Fflstm、ATr_Fblstm和标签文件中对应的样本标签作为网络的输入,进行APM-Net网络训练,得到自适应预测模式选择网络模型MAPM
此时网络的训练已经完成,接下来的步骤为行人重识别,其具体实施步骤如下:
步骤7,把步骤1数据集中除去行人重识别训练样本集Vtrain之外的剩余数据作为测试样本集Vtest,其中
Figure BDA0001736436180000171
Figure BDA0001736436180000172
表示c摄像机下ID号为j的行人视频测试样本,且有
Figure BDA0001736436180000173
Figure BDA0001736436180000174
表示摄像机c下ID号为j的行人视频测试样本的第k帧图像,
Figure BDA0001736436180000175
表示行人视频测试样本
Figure BDA0001736436180000176
的视频总帧数;在本实施方案中,R=N/2=150;
步骤8,对Vtest提取APM特征,得到APM特征集
Figure BDA0001736436180000177
Figure BDA0001736436180000178
表示摄像机c下ID号为j的行人视频所对应的APM特征。其具体步骤如下:
步骤8.1,对测试样本集Vtest中的所有视频帧图像
Figure BDA0001736436180000181
提取LBP和颜色融合特征
Figure BDA0001736436180000182
得到测试特征集Te_FLBPC,其中
Figure BDA0001736436180000183
Figure BDA0001736436180000184
表示c摄像机下ID号为j的行人特征集,
Figure BDA0001736436180000185
Figure BDA0001736436180000186
表示摄像机c下ID号为j的行人的第k帧图像所提取的LBP和颜色融合特征,
Figure BDA0001736436180000187
特征的维数为58950。
Figure BDA0001736436180000188
特征的提取过程如图2所示,其具体步骤如下:
步骤8.1.1,对输入的行人图像
Figure BDA0001736436180000189
进行大小归一化处理,得到归一化后的图像Imgw×h;在本实施方案中w=64,h=128;
步骤8.1.2,将图像Imgw×h划分为M=m1×m2个图像块Blkm,其中1≤m≤M,图像块的大小为16×8,相邻图像块在水平方向上相差4个像素在垂直方向上相差8个像素。本实施方案中的m1=(w-8)/4+1=15,m2=(h-16)/8+1=15,M=225;
步骤8.1.3,对每个图像块Blkm提取LBP和颜色融合特征FBlkm,其具体步骤和步骤2.3中的具体步骤相同;
步骤8.1.4,将图像Imgw×h中M个图像块所提取的LBP和颜色融合特征FBlkm进行串联融合,就可得到图像Imgw×h所对应的LBP和颜色融合特征
Figure BDA00017364361800001810
其中
Figure BDA00017364361800001811
的特征维数为58950(58950=225×262)。
步骤8.2,对行人测试样本集Vtest提取APM特征集
Figure BDA00017364361800001812
其中
Figure BDA00017364361800001813
表示摄像机c下ID号为j的行人视频所对应的APM特征,提取
Figure BDA00017364361800001814
具体步骤为:
步骤8.2.1,对摄像机c下ID号为j的行人视频
Figure BDA00017364361800001815
提取APM特征
Figure BDA0001736436180000191
以测试特征集Te_FLBPC的特征
Figure BDA0001736436180000192
作为提取APM特征的输入,按滑动窗对视频
Figure BDA0001736436180000193
提取APM特征
Figure BDA0001736436180000194
Figure BDA0001736436180000195
其中
Figure BDA00017364361800001927
表示摄像机c下ID号为j的行人的第t帧图像所提取的APM特征,滑动窗的大小为2n-1帧,步长为1,n=10。
步骤8.2.2,获取单帧图像
Figure BDA0001736436180000196
的APM特征
Figure BDA0001736436180000197
具体步骤如下:
步骤8.2.2.1,将视频
Figure BDA0001736436180000198
中的子序列
Figure BDA0001736436180000199
对应的LBP和颜色融合特征送入模型MFLSTM得到video的前向LSTM特征集
Figure BDA00017364361800001910
将子序列
Figure BDA00017364361800001911
对应的LBP和颜色融合特征送入模型MBLSTM得到video的后向LSTM特征集
Figure BDA00017364361800001912
步骤8.2.2.2,将特征集
Figure BDA00017364361800001913
Figure BDA00017364361800001914
同时送入训练好的模型MAPM得到视频序列video的预测模式pre_Alable,pre_Alable为inner2中最大值对应的元素下标。当pre_Alable=0时,video的预测模式为双向预测,图像
Figure BDA00017364361800001915
特征的求取如式(3)所示;当pre_Alable=1时,video的预测模式为前向预测,图像
Figure BDA00017364361800001916
特征的求取如式(4)所示;当pre_Alable=2时,video的预测模式为后向预测,图像
Figure BDA00017364361800001917
特征的求取如式(5)所示,其中
Figure BDA00017364361800001918
的维数为n×512,
Figure BDA00017364361800001919
的维数为n×512,
Figure BDA00017364361800001920
的特征
Figure BDA00017364361800001921
的维数为1×512。本实施方案中n的取值为10。
Figure BDA00017364361800001922
Figure BDA00017364361800001923
Figure BDA00017364361800001924
步骤9,对测试数据集Vtest提取的APM特征集AFV进行均值化预处理,得到特征均值集av_AFV,其中
Figure BDA00017364361800001925
具体操作为对步骤8.2提取的行人视频特征集
Figure BDA00017364361800001926
在时间维度上求均值,得到一个512维的特征均值
Figure BDA0001736436180000201
步骤10,将摄像机1中的行人特征均值作为目标行人特征集Obj,摄像机2中的行人特征均值作为待识别行人特征集Gal,其中Obj={Objtrain,Objtest},Gal={Galtrain,Galtest},
Figure BDA0001736436180000202
Figure BDA0001736436180000203
Figure BDA0001736436180000204
Figure BDA0001736436180000205
Figure BDA0001736436180000206
表示摄像机1中的ID号为s的行人视频的特征均值,
Figure BDA0001736436180000207
表示摄像机2中的ID号为v的行人视频的特征均值。把Objtrain和Galtrain作为XQDA的训练特征集,训练得到映射矩阵W和度量核矩阵M。把Objtest和Galtest作为XQDA的测试特征集,用得到的W和M进行行人重识别性能测试。
步骤10.1,把Objtrain和Galtrain作为交叉视角二次判别分析(Cross-viewQuadratic Discriminant Analysis,XQDA)的训练特征集,训练得到映射矩阵W和度量核矩阵M。具体方法参考文献[2]。
步骤10.2,距离计算。把步骤10.1中训练得到的度量核矩阵M,Galtest和W的乘积Galtest×W,测试特征集Objtest和W的乘积Objtest×W作为参考文献[2]中距离度量函数MahDist(M,Galtest×W,Objtest×W)的输入,输出得到一个R/2×R/2的二维距离矩阵
Figure BDA0001736436180000208
其中dij表示摄像机1中的ID号为i的行人视频的特征均值与摄像机2中的ID号为j的行人视频的特征均值之间的距离。
步骤10.3,对矩阵D按行进行升序排列得到矩阵D′,D′中第i行中的第一列元素d′i0在D中的对应元素记为dij,dij的下标i和j为识别到的两个摄像机下的同一个行人。
行人重识别性能的评价指标是行人重识别结果排名第一的正确率Rank1,Rank1的取值越高,行人重识别性能越好。Rank1的计算方法为:①对矩阵D按行进行升序排列得到矩阵D′;②对D′中第i行中的第一列元素d′i0在D中找到对应元素,记为dij;③对各行中i和j相等的个数进行累加求和,得到numRank1;④
Figure BDA0001736436180000211
Rank5的计算方法为:①对矩阵D按行进行升序排列得到矩阵D′;②对D′中第i行中的第一列元素d′i0到第五列元素d′i4在D中找到对应元素,记为
Figure BDA0001736436180000212
③对各行中i和j1~j5相等的个数进行累加求和,得到numRank5;④
Figure BDA0001736436180000213
Rank10和Rank20的计算方法相同。
本实施方案中选用了iLIDS-VID标准数据集中的75对行人来进行识别,识别结果如表2所示。其中RFA-Net重识别方法中的Rank1、Rank5、Rank10和Rank20取值分别为50.40%、79.20%、87.47%和94.80%,本文所提重识别方法中Rank1、Rank5、Rank10和Rank20取值分别为54.93%、79.07%、88.67%和94.80,实验结果表明,本发明的一种基于自适应预测模式的LSTM网络行人重识别方法针对于遮挡情况能够在很大程度上提高行人重识别的性能。
表2
Figure BDA0001736436180000214

Claims (8)

1.一种基于自适应预测模式的LSTM网络行人重识别方法,其特征在于:具体包括如下步骤:
步骤1,获取行人重识别数据集,该行人重识别数据集包括两个摄像头所拍摄的N个不同行人的2×N个视频序列,从2×N个视频序列中随机抽取J个不同行人的2×J个视频序列作为训练样本集Vtrain,其中
Figure FDA0002494607640000011
Figure FDA0002494607640000012
表示c摄像机下ID号为j的行人视频训练样本,
Figure FDA0002494607640000013
Figure FDA0002494607640000014
表示c摄像机下ID号为j的行人视频训练样本的第k帧图像,
Figure FDA0002494607640000015
表示行人视频训练样本
Figure FDA0002494607640000016
的视频总帧数;
步骤2,在步骤1所得的训练样本集Vtrain中的所有视频帧图像
Figure FDA0002494607640000017
提取局部二值模式和颜色融合特征
Figure FDA0002494607640000018
得到训练特征集FLBPC;
步骤3,制作标签文件,设置LSTM网络参数,把标签文件、训练特征集FLBPC中特征的正向排列作为前向LSTM网络FLSTM的输入,训练得到FLSTM网络模型MFLSTM;把标签文件、训练特征集FLBPC中特征的反向排列作为后向LSTM网络BLSTM的输入,训练得到BLSTM网络模型MBLSTM
步骤4,制作自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain,然后通过MFLSTM对APM_Vtrain提取FLSTM特征,得到FLSTM特征集ATr_Fflstm;通过MBLSTM对APM_Vtrain提取BLSTM特征,得到特征集ATr_Fblstm;
步骤5,设计自适应预测模式选择网络APM-Net,通过APM-Net网络对训练样本集APM_Vtrain中的三类样本进行预测,三类样本分别为前向样本、后向样本及双向样本;
当样本
Figure FDA0002494607640000021
中n帧视频子序列
Figure FDA0002494607640000022
Figure FDA0002494607640000023
都不存在行人遮挡情况时,样本APM_Vtrainp的标签为Alable=0,对应双向预测模式;当样本APM_Vtrainp中视频子序列
Figure FDA0002494607640000024
不存在行人遮挡情况而视频子序列
Figure FDA0002494607640000025
存在行人遮挡情况时,样本APM_Vtrainp的标签为Alable=1,对应前向预测模式;当样本APM_Vtrainp中视频子序列
Figure FDA0002494607640000026
存在行人遮挡情况而视频子序列
Figure FDA0002494607640000027
不存在行人遮挡情况时,样本APM_Vtrainp的标签为Alable=2,对应后向预测模式;
步骤6,制作标签文件,把标签文件、前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为APM-Net网络的输入,训练自适应预测模式选择网络APM-Net,得到网络模型MAPM
步骤7,把步骤1数据集中除去训练样本集Vtrain之外的剩余数据作为测试样本集Vtest,其中
Figure FDA0002494607640000028
步骤8,对Vtest提取APM特征,得到APM特征集AFV;
具体步骤如下:
步骤8.1,对测试样本集Vtest中的所有视频帧图像
Figure FDA0002494607640000029
提取LBP和颜色融合特征
Figure FDA00024946076400000210
得到测试特征集Te_FLBPC,其中
Figure FDA0002494607640000031
Figure FDA0002494607640000032
表示c摄像机下ID号为j的行人特征集,
Figure FDA0002494607640000033
Figure FDA0002494607640000034
表示摄像机c下ID号为j的行人的第k帧图像所提取的LBP和颜色融合特征;
Figure FDA0002494607640000035
特征的提取过程具体步骤如下:
步骤8.1.1,对输入的行人图像
Figure FDA0002494607640000036
进行大小归一化处理,得到归一化后的图像Imgw×h
步骤8.1.2,将图像Imgw×h划分为M=m1×m2个图像块Blkm,其中1≤m≤M;
步骤8.1.3,对每个图像块Blkm提取LBP和颜色融合特征FBlkm
步骤8.1.4,将图像Imgw×h中M个图像块所提取的LBP和颜色融合特征FBlkm进行串联融合,就可得到图像Imgw×h所对应的LBP和颜色融合特征
Figure FDA0002494607640000037
步骤8.2,对行人测试样本集Vtest提取APM特征集
Figure FDA0002494607640000038
其中
Figure FDA0002494607640000039
表示摄像机c下ID号为j的行人视频所对应的APM特征,提取
Figure FDA00024946076400000310
具体步骤为:
步骤8.2.1,对摄像机c下ID号为j的行人视频
Figure FDA00024946076400000311
提取APM特征
Figure FDA00024946076400000312
以测试特征集Te_FLBPC的特征
Figure FDA00024946076400000313
作为提取APM特征的输入,按滑动窗对视频
Figure FDA00024946076400000314
提取APM特征
Figure FDA00024946076400000315
Figure FDA00024946076400000316
其中
Figure FDA00024946076400000317
表示摄像机c下ID号为j的行人的第t帧图像所提取的APM特征,滑动窗的大小为2n-1帧,步长为1,n=10;
步骤8.2.2,获取单帧图像
Figure FDA0002494607640000041
的APM特征
Figure FDA0002494607640000042
具体步骤如下:
步骤8.2.2.1,将视频
Figure FDA0002494607640000043
中的子序列
Figure FDA0002494607640000044
对应的LBP和颜色融合特征送入模型MFLSTM得到video的前向LSTM特征集
Figure FDA0002494607640000045
将子序列
Figure FDA0002494607640000046
对应的LBP和颜色融合特征送入模型MBLSTM得到video的后向LSTM特征集
Figure FDA0002494607640000047
步骤8.2.2.2,将特征集
Figure FDA0002494607640000048
Figure FDA0002494607640000049
同时送入训练好的模型MAPM得到视频序列video的预测模式pre_Alable,pre_Alable为inner2中最大值对应的元素下标;当pre_Alable=0时,video的预测模式为双向预测,图像
Figure FDA00024946076400000410
特征的求取如式(3)所示;当pre_Alable=1时,video的预测模式为前向预测,图像
Figure FDA00024946076400000411
特征的求取如式(4)所示;当pre_Alable=2时,video的预测模式为后向预测,图像
Figure FDA00024946076400000412
特征的求取如式(5)所示:
Figure FDA00024946076400000413
Figure FDA00024946076400000414
Figure FDA00024946076400000415
步骤9,对测试数据集Vtest提取的APM特征集AFV进行均值化预处理,得到特征均值集av_AFV;
步骤10,将摄像机1中的行人特征均值作为目标行人特征集Obj,摄像机2中的行人特征均值作为待识别行人特征集Gal,其中Obj={Objtrain,Objtest},Gal={Galtrain,Galtest},
Figure FDA0002494607640000051
Figure FDA0002494607640000052
Figure FDA0002494607640000053
表示摄像机1中的ID号为s的行人视频的特征均值,
Figure FDA0002494607640000054
表示摄像机2中的ID号为v的行人视频的特征均值;把Objtrain和Galtrain作为XQDA的训练特征集,训练得到映射矩阵W和度量核矩阵M;把Objtest和Galtest作为XQDA的测试特征集,用得到的W和M进行行人重识别性能测试。
2.根据权利要求1所述的一种基于自适应预测模式的LSTM网络行人重识别方法,其特征在于:
所述步骤2中
Figure FDA0002494607640000055
特征的提取过程如下:
步骤2.1,对输入的行人图像
Figure FDA0002494607640000056
进行大小归一化处理,得到归一化后的图像Imgw×h
步骤2.2,将图像Imgw×h划分为M=m1×m2个图像块Blkm,其中1≤m≤M;
步骤2.3,对每个图像块Blkm提取LBP和颜色融合特征FBlkm
步骤2.4,将图像Imgw×h中M个图像块所提取的LBP和颜色融合特征FBlkm进行串联融合,就可得到图像Imgw×h对应的LBP和颜色融合特征
Figure FDA0002494607640000057
3.根据权利要求2所述的一种基于自适应预测模式的LSTM网络行人重识别方法,其特征在于:所述步骤2.3的具体如下:
步骤2.3.1,将图像块Blkm转换为灰度图像块GBlkm,对GBlkm提取LBP特征LBlkm
步骤2.3.2,将图像块Blkm转换到HSV颜色空间,得到转换之后的图像HBlkm,计算图像HBlkm在H、S、V各个通道上的均值,组成三维HSV颜色特征CHBlkm;将图像块Blkm转换到LAB颜色空间,得到转换之后的图像LABBlkm,计算图像LABBlkm在L、A、B各个通道上的均值,组成三维LAB颜色特征CLBlkm
步骤2.3.3,将步骤2.3.1中图像块Blkm所提取的LBP特征LBlkm、步骤2.3.2中图像块Blkm所提取得HSV颜色特征CHBlkm以及Lab颜色特征LABBlkm进行串联融合,从而得到图像块Blkm所对应的LBP和颜色融合特征FBlkm
4.根据权利要求3所述的一种基于自适应预测模式的LSTM网络行人重识别方法,其特征在于:所述步骤3的具体过程如下:
步骤3.1,准备样本标签文件,将训练特征集FLBPC中c摄像机下ID号为j的行人所对应的视频特征集
Figure FDA0002494607640000061
看作一个样本,把行人ID号j作为样本的标签llab,其具体格式为
Figure FDA0002494607640000062
其中
Figure FDA0002494607640000063
为特征路径FLBPCPath/下的训练特征文件名
Figure FDA0002494607640000064
以上述格式将各个样本的标记结果写入训练标签文件lstm_train.txt中;
步骤3.2,设置网络训练参数,并写入配置文件solver.prototxt;
步骤3.3,训练FLSTM网络模型MFLSTM,该网络FLSTM特征输出的维数为512维,该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本
Figure FDA0002494607640000065
中正向排列的连续n帧的视频特征
Figure FDA0002494607640000071
其中
Figure FDA0002494607640000072
输入标签为从lstm_train.txt训练文件中随机抽取的样本
Figure FDA0002494607640000073
所对应的标签{llab1,llab2,…,llabn},其中llab1=llab2=…=llabn=llab;将输入数据和输入标签同时送入FLSTM网络中,通过步骤3.2中的配置文件参数来进行训练,就可得到FLSTM网络训练模型MFLSTM
步骤3.4,训练BLSTM网络模型MBLSTM,该网络BLSTM特征输出的维数为512维,该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本
Figure FDA0002494607640000074
中反向排列的连续n帧的视频特征
Figure FDA0002494607640000075
其中
Figure FDA0002494607640000076
输入标签为从lstm_train.txt训练文件中随机抽取的样本
Figure FDA0002494607640000077
所对应的标签{llab1,llab2,…,llabn},其中llab1=llab2=…=llabn=llab;将输入数据和输入标签同时送入BLSTM网络中,通过步骤3.2中的配置文件参数来进行训练,从而得到BLSTM网络训练模型MBLSTM
5.根据权利要求4所述的一种基于自适应预测模式的LSTM网络行人重识别方法,其特征在于:所述步骤4的具体过程如下:
步骤4.1,制APM-Net的训练样本集APM_Vtrain,其中APM_Vtrain={APM_Vtrainp|1≤p≤A_TN},APM_Vtrainp表示第p个训练样本,它是从
Figure FDA0002494607640000078
中随机抽取的样本,APM_Vtrainp样本的长度为固定的2n-1帧的连续行人视频序列,即有
Figure FDA0002494607640000079
,其中
Figure FDA00024946076400000710
APM_Vtrain中的样本数目为A_TN;
步骤4.2,提取训练样本集APM_Vtrain对应的LBP和颜色融合特征集APM_FLBPC={APM_FLBPCp|1≤p≤A_TN};
步骤4.3,把APM_FLBPC中每一个样本APM_Vtrainp对应的特征集APM_FLBPCp中的第
Figure FDA0002494607640000081
帧特征
Figure FDA0002494607640000082
作为前向LSTM网络模型MFLSTM的输入,通过MFLSTM得到前向LSTM特征集ATr_Fflstm={ATr_Fflstmp|1≤p≤A_TN};把APM_FLBPC中的每一个样本APM_Vtrainp对应的特征集APM_FLBPCp中的第
Figure FDA0002494607640000083
帧特征
Figure FDA0002494607640000084
作为后向LSTM网络模型MBLSTM的输入,通过MBLSTM得到后向LSTM特征集ATr_Fblstm={ATr_Fblstmp|1≤p≤A_TN}。
6.根据权利要求5所述的一种基于自适应预测模式的LSTM网络行人重识别方法,其特征在于:所述步骤5中的网络APM-Net结构包括输入层、Reshape层、第一全连接+drop层、第二全连接层和softmax层;
输入层:输入层的输入为样本p所对应的前向LSTM特征ATr_Fflstmp和后向LSTM特征ATr_Fblstmp
Reshape层:Reshape层的输入为ATr_Fflstmp和ATr_Fblstmp,Reshape层的输出为特征维数为10240的数据feaf_b,Reshape层的作用为对输入的前向和后向LSTM特征进行串联操作;
第一全连接+drop层:第一个全连接+drop层:全连接层的输入为feaf_b,作用是将10240维数据feaf_b降成800维数据inner1;drop层的输入是inner1,操作是对inner1数据按一定的概率随机置0,作用是在一定程度上防止过拟合现象,输出数据为800维数据drop1;
第二全连接层:输入是drop1,输出为3维数据inner2=(x0,x1,x2)',分别对应三种预测模式;
softmax层:对网络进行训练时需要通过softmax层的loss值对网络进行反馈修订,具体操作为:计算inner2中的最大值xmax=max(x0,x1,x2);根据xma值对
Figure FDA0002494607640000092
中的数据进行归一化处理得到ykk
Figure FDA0002494607640000091
其中kk=0,1,2;根据样本标签Alable对应的yAlable计算loss值,loss=-log(yAlable)。
7.根据权利要求6所述的一种基于自适应预测模式的LSTM网络行人重识别方法,其特征在于:所述步骤6的具体过程为:
步骤6.1,制作样本标签文件,以步骤4.1设定的样本Alable值来对训练样本集APM_Vtrain中的数据进行标记,并将标记结果存入训练标签文件APM_train.txt中,以第p个样本对应的连续2n-1帧视频APM_Vtrainp为例,标签格式为APM_VtrainPath/APM_Vtrainp.aviAlable,APM_VtrainPath/APM_Vtrainp.avi为APM_Vtrain中各样本对应的视频路径APM_VtrainPath/下的视频文件名APM_Vtrainp.avi;
步骤6.2,训练自适应预测模式选择网络APM-Net,以自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain所对应的前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为训练APM-Net网络的输入,进行APM-Net网络训练,得到自适应预测模式选择网络模型MAPM
8.根据权利要求1所述的一种基于自适应预测模式的LSTM网络行人重识别方法,其特征在于:所述步骤10的具体过程如下:
步骤10.1,把Objtrain和Galtrain作为交叉视角二次判别分析Cross-view QuadraticDiscriminant Analysis,XQDA的训练特征集,训练得到映射矩阵W和度量核矩阵M;
步骤10.2,距离计算;
把步骤10.1中训练得到的度量核矩阵M,测试特征集Objtest和W的乘积,Galtest和W的乘积作为距离度量函数MahDist的输入,输出得到一个R/2×R/2的二维距离矩阵
Figure FDA0002494607640000101
其中dij表示摄像机1中的ID号为i的行人视频的特征均值与摄像机2中的ID号为j的行人视频的特征均值之间的距离;
步骤10.3,对矩阵D按行进行升序排列得到矩阵D′,D′中第i行中的第一列元素d′i0在D中的对应元素记为dij,dij的下标i和j为识别到的两个摄像机下的同一个行人。
CN201810798128.5A 2018-07-19 2018-07-19 一种基于自适应预测模式的lstm网络行人重识别方法 Active CN109145744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810798128.5A CN109145744B (zh) 2018-07-19 2018-07-19 一种基于自适应预测模式的lstm网络行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810798128.5A CN109145744B (zh) 2018-07-19 2018-07-19 一种基于自适应预测模式的lstm网络行人重识别方法

Publications (2)

Publication Number Publication Date
CN109145744A CN109145744A (zh) 2019-01-04
CN109145744B true CN109145744B (zh) 2020-08-18

Family

ID=64801054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810798128.5A Active CN109145744B (zh) 2018-07-19 2018-07-19 一种基于自适应预测模式的lstm网络行人重识别方法

Country Status (1)

Country Link
CN (1) CN109145744B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459168B (zh) * 2020-04-23 2021-12-10 上海交通大学 一种融合的自动驾驶汽车过街行人轨迹预测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1525762A (zh) * 2003-09-12 2004-09-01 中国科学院计算技术研究所 一种用于视频编码的编码端/解码端双向预测方法
CN101409831A (zh) * 2008-07-10 2009-04-15 浙江师范大学 一种多媒体视频对象处理方法
CN102045563A (zh) * 2009-10-20 2011-05-04 英特尔公司 用于自适应地选取用于运动估计的搜索范围的方法和装置
US20140079297A1 (en) * 2012-09-17 2014-03-20 Saied Tadayon Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities
CN106250863A (zh) * 2016-08-09 2016-12-21 北京旷视科技有限公司 对象追踪方法和装置
CN106599807A (zh) * 2016-12-01 2017-04-26 中科唯实科技(北京)有限公司 一种基于自编码的行人检索方法
CN107273873A (zh) * 2017-07-13 2017-10-20 武汉大学 基于不规则视频序列的行人重识别方法及系统
CN107844775A (zh) * 2017-11-13 2018-03-27 常州大学 一种基于块稀疏表示的行人重识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1525762A (zh) * 2003-09-12 2004-09-01 中国科学院计算技术研究所 一种用于视频编码的编码端/解码端双向预测方法
CN101409831A (zh) * 2008-07-10 2009-04-15 浙江师范大学 一种多媒体视频对象处理方法
CN102045563A (zh) * 2009-10-20 2011-05-04 英特尔公司 用于自适应地选取用于运动估计的搜索范围的方法和装置
US20140079297A1 (en) * 2012-09-17 2014-03-20 Saied Tadayon Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities
CN106250863A (zh) * 2016-08-09 2016-12-21 北京旷视科技有限公司 对象追踪方法和装置
CN106599807A (zh) * 2016-12-01 2017-04-26 中科唯实科技(北京)有限公司 一种基于自编码的行人检索方法
CN107273873A (zh) * 2017-07-13 2017-10-20 武汉大学 基于不规则视频序列的行人重识别方法及系统
CN107844775A (zh) * 2017-11-13 2018-03-27 常州大学 一种基于块稀疏表示的行人重识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Learning Bidirectional Temporal Cues for Video-Based Person Re-Identification";Wei Zhang等;《IEEE Transactions on Circuits and Systems for Video Technology》;20170621;第28卷(第10期);全文 *
"Person Re-Identication via Recurrent Feature Aggregation";Yichao Yan等;《arXiv》;20170123;全文 *
"Person re-identification by Local Maximal Occurrence representation and metric learning";Shengcai Liao等;《2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)》;20151115;全文 *
"基于SATD 的H.265/HEVC 拉格朗日因子选择算法";李维等;《通信学报》;20170630;第38卷(第6期);全文 *
"行人重识别研究综述";宋婉茹等;《智能系统学报》;20171231;第12卷(第6期);全文 *

Also Published As

Publication number Publication date
CN109145744A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN103761531B (zh) 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN108154102B (zh) 一种道路交通标志识别方法
CN109543695B (zh) 基于多尺度深度学习的泛密度人群计数方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
WO2023083280A1 (zh) 一种场景文本识别方法和装置
CN110097115B (zh) 一种基于注意力转移机制的视频显著性物体检测方法
CN107622229A (zh) 一种基于融合特征的视频车辆重识别方法与系统
CN105787466B (zh) 一种车辆类型的精细识别方法及系统
CN106960176B (zh) 一种基于超限学习机和颜色特征融合的行人性别识别方法
CN110163286A (zh) 一种基于混合池化的领域自适应图像分类方法
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN110728216A (zh) 一种基于行人属性自适应学习的无监督行人再识别方法
CN110427888A (zh) 一种基于特征聚类的人脸质量评估方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN111507413A (zh) 一种基于字典学习的城市管理案件图像识别方法
CN112163508A (zh) 一种基于真实场景的文字识别方法、系统及ocr终端
CN110222772B (zh) 一种基于块级别主动学习的医疗图像标注推荐方法
CN109145744B (zh) 一种基于自适应预测模式的lstm网络行人重识别方法
CN110688966A (zh) 语义指导的行人重识别方法
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
CN103984965A (zh) 基于多分辨率特征关联的行人检测方法
CN109784244B (zh) 一种指定目标的低分辨率人脸精确识别方法
CN112750128A (zh) 图像语义分割方法、装置、终端及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant