CN109146921B - 一种基于深度学习的行人目标跟踪方法 - Google Patents
一种基于深度学习的行人目标跟踪方法 Download PDFInfo
- Publication number
- CN109146921B CN109146921B CN201810708758.9A CN201810708758A CN109146921B CN 109146921 B CN109146921 B CN 109146921B CN 201810708758 A CN201810708758 A CN 201810708758A CN 109146921 B CN109146921 B CN 109146921B
- Authority
- CN
- China
- Prior art keywords
- target
- pedestrian
- frame
- loss
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000001914 filtration Methods 0.000 claims abstract description 6
- 238000013139 quantization Methods 0.000 claims abstract description 6
- 230000004044 response Effects 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 230000033001 locomotion Effects 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度学习的行人目标跟踪方法,将深度学习与相关滤波相结合进行目标跟踪,在保证实时跟踪的前提下,有效提高跟踪的准确性。针对跟踪过程中目标姿态变化大的问题,将基于行人属性的深层卷积特征应用到跟踪中;针对遮挡问题,使用余弦相似度的方法进行遮挡的判断,以有效避免因遮挡带来的脏数据引入;为了提高效率、解决深层卷积特征在相关滤波器中的使用问题,提出双线性插值的方法,在去除量化误差的同时又能避免特征的重复提取,大幅度提高效率;针对目标高速运动的问题,提出将预选框策略融入到跟踪算法中,不仅能对全局图像进行搜索,同时预选框能够作为强负样本加入训练,提高相关滤波器的区分能力。
Description
技术领域
本发明涉及属于计算机视觉领域,更具体地,涉及一种基于深度学习的行人目标跟踪方法。
背景技术
近来,国内外恐怖事件频繁发生,严重威胁了人民的生命财产安全和健康幸福生活。随着“平安城市”的建设,大量摄像头的搭建,给人们的生命财产安全、幸福高质量的生活带来保障的同时,也带来了视频数据的爆发式的增长,给视频分析处理技术带来了极大的挑战。在视频监控系统产生的大量数据中绝大多数都是与人相关,而且我们所关心的也大都是人的特征、姿态、动作、行为等等,因此与人相关的信息获取就至关重要。行人目标跟踪,就是对视频序列中行人与背景进行区分,获得一个目标在整个视频序列中完整的运动轨迹。这能有效的把视频中的快照进行关联,大量减少分析的快照数量,提高分析处理速度。另外,行人目标跟踪对行人的运动速度、行人动作分析、事件检测都提供了基础。
跟踪算法一般来说可以分为生成模型方法和判别模型方法。生成模型方法的大概流程是,根据当前帧的目标区域建立模型,在下一帧中寻找与模型最相似的区域,该区域即为预测的目标位置。这一类方法,在面对跟踪过程中的复杂变化时,其鲁棒性和准确度方面的表现都不尽人意。
判别模型方法,又称为tracking-by-detection,与处理其他经典计算机视觉问题的思路一致,即图像特征加机器学习。大体流程是,在提取图像特征后,以真实目标区域为正样本,背景区域为负样本,使用机器学习的方法训练一个分类器,在之后视频帧中,用这个分类器进行预测,查找出最优的区域,并根据预测结果继续对分类器参数进行更新。
相关滤波方法(correlation filter,CF)最早是用在信号领域,用来描述信号之间的相关性。在目标跟踪领域中,该方法设计出密集采样,并引入了循环矩阵和核的概念,解决了传统目标跟踪算法中稀疏采样导致的样本冗余问题,同时对于岭回归快速求解的研究,使得目标跟踪效率极大的提高。另外,结合不同的特征,将其应用到相关滤波器算法中,能够有效的应对形状、尺度、光照等各种变化情况,跟踪效果的鲁棒性更强。
深度卷积神经网络提取的图像特征能够在更高层更加抽象的表达出图像语义特征,对于行人目标跟踪问题,深度卷积特征是一种鲁棒性强、表达能力好的特征。但将其应用到行人目标跟踪任务中,也包含着很多问题,比如针对性的特征选取问题、卷积特征的尺度缩放带来的量化误差问题、训练样本选取问题、遮挡问题等。
综上所述,目前在行人目标跟踪领域进行了大量的研究工作,已经有很多目标跟踪的算法,但是在实际应用场景中,将深度学习应用到行人目标跟踪任务中的方法并不多,主要是现有方法存在提取的特征针对性不强、深度卷积特征跟踪目标位置精确度不高、遮挡带了训练样本的污染等问题,不能直接应用于实际的使用场景中。因此,如何有效利用深度卷积特征的优势,解决其带来的各种问题,同时有能保证实时性,是一个亟待解决的难题。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有行人目标跟踪方法存在提取的特征针对性不强、深度卷积特征跟踪目标位置精确度不高、遮挡带了训练样本的污染等问题,不能直接应用于实际的使用场景中的技术问题。
为实现上述目的,本发明提供一种基于深度学习的行人目标跟踪方法,包括以下步骤:
(1)对包含行人目标的视频解码获得每一帧视频图像;
(2)提取每一帧视频图像的特征信息;
(3)根据每一帧视频图像的特征信息,使用区域候选网络(Region ProposalNetwork,RPN)生成每一帧视频图像的预选框区域,以粗粒度搜索每一帧视频图像,获取每一帧视频图像中有可能是行人目标的候选区域;
(4)在上一帧视频图像行人目标周围产生目标框,将所述目标框与前后关联帧视频图像中有可能是行人目标的候选区域合并,成为细粒度搜索候选集;
(5)用双线性插值算法,将每一帧视频图像特征信息对应的特征图进行扩展,使得扩展后的特征图与原始视频图像分辨率相同,去除因量化带来的目标位置预测不准确的问题,在扩展后的特征图上,确定所述细粒度搜索候选集中各个目标框对应位置的特征;
(6)使用相关滤波器,对细粒度搜索候选集中的区域计算响应值,响应值最大者即为预测的行人目标位置,同时对相关滤波器进行在线更新。
可选地,所述步骤(2)具体包括:
基于行人属性的特征提取模型进行图像特征的提取,所述行人属性的特征提取模型在CaffeNet的基础上,在第6个全连接层后分裂成多个,分别对应于多个行人属性的标签,每个标签对应于各自的分类损失和验证损失层,该模型的训练过程包括:
(21)从N个训练样本中随机选取一个批次的样本进行预处理,所述N个训练样本为N个包含行人图像的图片,用于训练得到行人属性的特征提取模型;
(22)以ImageNet预训练的模型进行网络权重参数的初始化,将一个批次的训练样本和标签输入网络进行正向传播,计算网络各层的值,分别计算得到分类损失和验证损失,最终计算得到总体损失;
(23)若预定总迭代次数达到或者总体损失小于一定阈值,则训练结束;否则,继续步骤(24);
(24)进行反向传播,用链式法则将损失梯度一层层向前进行传播,每一层利用各自的损失梯度,使用梯度下降算法对网络模型参数进行更新;重复步骤(21)至(23)。
可选地,所述步骤(3)具体包括:
在提取图像特征后,将其输入到RPN网络用于预选框的生成,特征提取网络模型与RPN网络模型的联合训练过程包括:
(31)对训练样本、真实目标区域和相应的行人ID、属性标签进行预处理;
(32)用步骤(2)中的训练得到网络参数,对特征提取模型权重参数进行初始化,并随机初始化RPN参数;
(33)固定卷积参数,训练网络,更新RPN和全连接层参数;
(34)固定卷积参数和RPN参数,用RPN生成预选框,使用预选框区域的卷积特征进行训练,更新全连接层参数。
可选地,所述步骤(5)具体包括:
(51)将每一帧视频图像特征信息对应的卷积特征图与原始图像进行映射,以对卷积特征图进行扩展,此时卷积特征图中将只有部分区域有值;
(52)根据双线性插值公式,对扩展后的卷积特征图进行横向插值,对每一行进行逐一插值;
(53)根据双线性插值公式,对扩展后的卷积特征图进行纵向插值,对每一列进行逐一插值。
可选地,所述步骤(6)具体包括:
(61)将细粒度搜索候选集中的目标框对应区域特征分别通过相关滤波器,计算响应值,并通过比较得出相应值最大者,响应值最大者即为预测的目标位置;
(62)计算预测目标位置与上一帧目标位置之间的特征余弦相似度,若相似度大于阈值,则进行步骤(63),否则结束;
(63)根据预测结果,对候选集中的目标框进行标记,并以此为预测的行人目标位置,对相关滤波参数进行更新。
可选地,分类损失的计算方式如下:
验证损失的计算方式如下:
其中,代表该特征对所对应的行人对的第j个标签是否一致,表示欧式距离,即L2范数,M为一个阈值,用来防止离群图像特征对间距离过大,|*|表示向量每一项的绝对值,1表示单位向量,‖*‖1表示第一范数,表示第n组图像对中第一张图像的属性j的特征,表示第n组图像对中第二张图像的属性j的特征;
总体损失的计算方式如下:
其中,μ表示分类所占损失权重,LC表示总体分类损失,LV表示总体验证损失,γ表示正则化损失权重,W表示网络参数。
可选地,双线性插值计算公式如下:
其中,f(x)表示对卷积特征图上未知点x双线性插值扩展后的数值,未知点x上的值f(x)通过与之邻近的点x1,x2计算得到。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明公开一种基于深度学习的行人目标跟踪方法,将深度学习与相关滤波相结合进行目标跟踪,在保证实时跟踪的前提下,有效提高跟踪的准确性。
本发明针对跟踪过程中目标姿态变化大的问题,将基于行人属性的深层卷积特征应用到跟踪中;针对遮挡问题,使用余弦相似度的方法进行遮挡的判断,以有效避免因遮挡带来的脏数据引入。
本发明为了提高效率、解决深层卷积特征在相关滤波器中的使用问题,提出双线性插值的方法,在去除量化误差的同时又能避免特征的重复提取,大幅度提高效率。
本发明针对目标高速运动的问题,提出将预选框策略融入到跟踪算法中,不仅能对全局图像进行搜索,同时预选框能够作为强负样本加入训练,提高相关滤波器的区分能力。
附图说明
图1为本发明提供的基于深度学习的行人目标跟踪方法的整体结构图;
图2为本发明提供的行人特征提取模型结构示意图;
图3为本发明提供目标跟踪方法的不同部分的实验结果对比图;
图4为本发明提供的ATTR-CNN+PB+C目标跟踪方法的具体跟踪效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的行人目标跟踪方法,其目的在于利用先验知识,使用卷积神经网络有针对性的提取行人目标的属性特征,并将提取的特征应用到跟踪算法中,达到行人目标跟踪的目的。此方法能够在保证实时性的前提下,将卷积特征应用到相关滤波器中,并且并解决行人目标跟踪中的遮挡问题。
为了实现上述目的,本发明提供了一种基于深度学习的行人目标跟踪方法,该方法包括:
(1)对视频进行解码获得每一帧的视频图像;(2)使用基于行人属性的特征提取模块进行图像特征的提取,得到图像的数学表达,用于后续的目标跟踪;(3)生成预选框区域,以较粗粒度搜索全局图像,获取更有可能是行人目标的区域,这些区域将是细粒度搜索候选集的子集,同时也将是相关滤波器的训练样本的子集;(4)在上一帧目标周围生产目标框,这将与候选区域合并成为细粒度的搜索的候选集;(5)用双线性插值算法,将深度卷积特征图进行扩展,使得特征图与原始图像分辨率相同,去除因量化带来的目标位置预测不准确的问题;(6)使用相关滤波器,对细粒度候选集中的区域计算响应值,响应值最大者即为预测的目标位置,同时对相关滤波器进行在线更新。
进一步地,步骤(2)中的模型是在CaffeNet的基础上,在第6个全连接层后分裂成多个,分别对应于多个行人属性的标签,每个标签对于各自的分类损失层和验证损失层。该模型的训练过程包括:
(21)从N个训练样本中随机选取一个批次的样本进行预处理;
(22)以ImageNet预训练的模型进行网络权重参数的初始化,将一个批次的训练样本和标签输入网络进行正向传播,计算网络各层的值,分别计算得到分类损失和验证损失,最终计算得到总体损失;分类损失的计算方式如下:
验证损失的计算方式如下:
总体损失的计算方式如下:
(23)若预定总迭代次数达到或者损失小于一定阈值,则训练结束;否则,继续步骤(24);
(24)进行反向传播,用链式法则将损失梯度一层层向前进行传播,每一层利用各自的损失梯度,使用梯度下降算法对网络模型参数进行更新;重复步骤(21)至(23)。
进一步地,所述步骤(3)中的RPN网络需要进行联合训练,具体训练过程包括:
(31)对训练样本、真实目标区域和相应的行人ID、属性标签进行预处理;
(32)用步骤(2)中的训练得到网络参数,对特征提取模型权重参数进行初始化,并随机初始化RPN参数;
(33)固定卷积参数,训练网络,更新RPN和全连接层参数;
(34)固定卷积参数和RPN参数,用RPN生成预选框,使用预选框区域的卷积特征进行训练,更新全连接层参数。
进一步地,所述步骤(5)中的双线性插值方法,具体过程包括:
(51)将卷积特征图与原始图像进行映射,直接将卷积特征图进行扩展,此时卷积特征图中将只有部分区域有值;
(52)根据双线性插值公式,对扩展后的卷积特征图进行横向插值,对每一行进行逐一插值;
(53)根据双线性插值公式,对扩展后的卷积特征图进行纵向插值,对每一列进行逐一插值。
进一步的,步骤(6)所述的响应值计算与相关滤波器模型的更新,具体过程包括:
(61)将候选集中的目标框对应区域特征分别通过相关滤波器,计算响应值,并通过比较,响应值最大者即为预测的目标位置;
(62)计算预测目标位置与上一帧目标位置之间的特征余弦相似度,若相似度大于阈值,则进行步骤(63),否则结束;
(63)根据预测结果,对候选集中的目标框进行标记,并以此为训练样本,对相关滤波其参数进行更新。
下面结合附图和具体实施方式对本发明做进一步详细说明。如图1所示,本发明提供的目标跟踪方法分为三部分,分别是离线训练的特征提取部分,在线更新的相关滤波器部分和中间的连接部分。在视频解码后将分别通过这三个部分进行特征提取,特征处理和目标位置预测,具体流程如下所示:
离线模型训练阶段包括以下步骤:
(1)选择6个有区分度的属性,例如,具体可包括:性别、头发长短、上半身样式、上半身颜色、下半身样式和下半身颜色。
(2)训练一个有多种属性标签的卷积神经网络模型,用来提取行人属性特征。
使用CaffeNet为基本结构,对该网络进行修改,如图2所示,在fc6层分裂成7个,具体包括:1个ID层和6个属性层,分别对应属性标签和ID标签,分裂后的全连接层都各自有分类和验证损失层,其中,分类损失层对应ID分类损失层和6个属性分类损失层,验证损失层对应ID验证损失层和6个属性验证损失层。
具体训练卷积神经网络的训练步骤为:
(21)从N个训练样本中随机选取一个批次64张图像作为的训练样本,将图像进行缩放和裁剪,最终获得224×224大小的图像块,减去图像均值后,将作为网络的输入;具体训练参数设置为,初始学习率设为0.001,权重衰减参数为0.0005,梯度下降加速的动量为0.9。训练过程中,学习率的衰减间隔是5000,衰减率为0.6。
(22)以ImageNet预训练的模型进行网络权重参数的初始化,将一个批次的训练样本和标签输入网络进行正向传播,计算网络各层的值,分别计算得到分类损失和验证损失,最终计算得到总体损失;分类损失的计算方式如下:
多个属性的分类损失的加权组合公式为:
LC=LATTR+αLI
验证损失的计算方式如下:
多个属性的验证损失加权表达如下:
总体损失的计算方式如下:
(23)若达到预定总迭代次数10000,则训练结束;否则,继续步骤(24);
(24)进行反向传播,用链式法则将损失梯度一层层向前进行传播,每一层利用各自的损失梯度,使用梯度下降算法对网络模型参数进行更新;重复步骤(21)至(23)。
具体分类损失梯度计算表达公式如下:
验证损失梯度计算表达公式如下:
其中,表示第n个样本属性j的特征输入;Xn,i表示第n组中第i张图片的特征,β表示约束项权重,sn表示第n组图像是否是同一个目标,Xn,1表示第n组中第一张图片特征,Xn,2表示第n组中第二张图片特征,t1表示验证损失函数中的第一部分,t2表示验证损失函数中的第二部分,t3表示验证损失函数中的第三部分;
(3)加入RPN网络后的联合训练,具体训练过程包括:
(31)对训练样本、真实目标区域和相应的行人ID、属性标签进行预处理;
(32)用步骤(2)中的训练得到网络参数,对特征提取模型权重参数进行初始化,并随机初始化RPN参数;
(33)固定卷积参数,训练网络,更新RPN和全连接层参数;
(34)固定卷积参数和RPN参数,用RPN生成预选框,使用预选框区域的卷积特征进行训练,更新全连接层参数。
在线相关滤波器部分和连接部分,都属于在线目标跟踪部分,这里将统一描述,具体目标跟踪过程步骤如下:
(4)对视频进行解码获得每一帧的视频图像;
(5)使用离线训练的卷积神经网络进行行人属性特征的提取,具体为第5个卷积层特征,同时的,通过RPN网络,获取预选框区域;
(6)对卷积特征使用双线性插值方法进行扩展,具体过程如下:
(61)将卷积特征图与原始图像进行映射,直接将卷积特征图进行扩展,此时卷积特征图中将只有部分区域有值;
(62)根据双线性插值公式,对扩展后的卷积特征图进行横向插值,对每一行进行逐一插值;
(63)根据双线性插值公式,对扩展后的卷积特征图进行纵向插值,对每一列进行逐一插值。双线性插值计算公式如下:
其中,未知点x上的值f(x)通过与之邻近的点x1,x2计算得到。
(8)用滑动窗口的方式,在上一帧目标周围生成目标框候选集;
(9)响应值计算与相关滤波器模型的更新,具体过程如下:
(91)将候选集中的目标框对应区域特征分别通过相关滤波器,计算响应值,并通过比较,响应值最大者即为预测的目标位置;
(92)计算预测目标位置与上一帧目标位置之间的特征余弦相似度,若相似度大于阈值,则进行步骤(63),否则结束;
(93)根据预测结果,对候选集中的目标框进行标记,并以此为预测的行人目标位置,对相关滤波其参数进行更新。
实例:
为了证明基于深度学习的行人目标跟踪方法的性能和效率具有优势,本发明通过以下实验进行验证与分析。
A、实验数据
本发明在MOT-16数据集上进行实验,该数据集中包含14个视频序列。
B、实验平台
硬件:CPU Intel Xeon E5-2650v3,内存64G,GPU GeForce GTX TITANX,显存12G,硬盘4TB 7200转/分。
软件:操作系统windows8、Ubuntu16.04,实验平台Caffe,MatconvNet,Matlab。
C行人目标跟踪评估标准
平均重叠精度(mean Overlap precision,mOP),速度评估标准FPS,平均跟踪时长。
D实验结果
实验表明,本发明在MOT-16数据集上,mOP达到了82.5%,在速度上FPS达到了34,能够达到实时的效果,在平均跟踪时长上也达到了18.7s。
将本发明中不同部分分别加入到整个方法中进行对比,结果如图3所示,在加入了遮挡判断后,跟踪算法因遮挡带来的目标丢失数量减少,跟踪目标个数与真实数量相差不大,而未加入遮挡判断的算法,跟踪目标数量因遮挡而带来了较多目标丢失。如表1所示为不同方法几种评估标准的比较表,随着不同的方法加入到发明中,实验结果也不断提高。
表1
其中,ATTR-CNN表示仅使用属性特征提取模型的方法,ATTR-CNN+P表示添加预选框策略的方法,ATTR-CNN+PC表示添加预选框策略和图片分割的方法,ATTR-CNN+PB表示添加预选框策略和插值的方法,ATTR-CNN+PB+C表示添加预选框策略、插值和遮挡判断的方法。
如图4所示为利用本发明提供的ATTR-CNN+PB+C目标跟踪方法的具体跟踪效果图。如图4中第一行的四幅图,为发生遮挡时的跟踪效果图,由效果可以看出,对于遮挡的情况,能够很准确的进行判断,以避免跟踪出错。如图4第二行的四幅图所示,由实验效果图可以看出采用本发明提供的目标跟踪算法可以准确的跟踪目标,可靠性较高。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度学习的行人目标跟踪方法,其特征在于,包括以下步骤:
(1)对包含行人目标的视频解码获得每一帧视频图像;
(2)提取每一帧视频图像的特征信息;
(3)根据每一帧视频图像的特征信息,使用区域候选网络RPN生成每一帧视频图像的预选框区域,以粗粒度搜索每一帧视频图像,获取每一帧视频图像中有可能是行人目标的候选区域;
(4)在上一帧视频图像行人目标周围产生目标框,将所述目标框与前后关联帧视频图像中有可能是行人目标的候选区域合并,成为细粒度搜索候选集;
(5)用双线性插值算法,将每一帧视频图像特征信息对应的特征图进行扩展,使得扩展后的特征图与原始视频图像分辨率相同,去除因量化带来的目标位置预测不准确的问题,在扩展后的特征图上,确定所述细粒度搜索候选集中各个目标框对应位置的特征;
(6)使用相关滤波器,对细粒度搜索候选集中的区域计算响应值,响应值最大者即为预测的行人目标位置,同时对相关滤波器进行在线更新。
2.根据权利要求1所述的基于深度学习的行人目标跟踪方法,其特征在于,所述步骤(2)具体包括:
基于行人属性的特征提取模型进行图像特征的提取,所述行人属性的特征提取模型在CaffeNet的基础上,在第6个全连接层后分裂成多个,分别对应于多个行人属性的标签,每个标签对应于各自的分类损失和验证损失层,该模型的训练过程包括:
(21)从N个训练样本中随机选取一个批次的样本进行预处理,所述N个训练样本为N个包含行人图像的图片,用于训练得到行人属性的特征提取模型;
(22)以ImageNet预训练的模型进行网络权重参数的初始化,将一个批次的训练样本和标签输入网络进行正向传播,计算网络各层的值,分别计算得到分类损失和验证损失,最终计算得到总体损失;
(23)若预定总迭代次数达到或者总体损失小于一定阈值,则训练结束;否则,继续步骤(24);
(24)进行反向传播,用链式法则将损失梯度一层层向前进行传播,每一层利用各自的损失梯度,使用梯度下降算法对网络模型参数进行更新;重复步骤(21)至(23)。
3.根据权利要求2所述的基于深度学习的行人目标跟踪方法,其特征在于,所述步骤(3)具体包括:
在提取图像特征后,将其输入到RPN网络用于预选框的生成,特征提取网络模型与RPN网络模型的联合训练过程包括:
(31)对训练样本、真实目标区域和相应的行人ID、属性标签进行预处理;
(32)用步骤(2)中的训练得到网络参数,对特征提取模型权重参数进行初始化,并随机初始化RPN参数;
(33)固定卷积参数,训练网络,更新RPN和全连接层参数;
(34)固定卷积参数和RPN参数,用RPN生成预选框,使用预选框区域的卷积特征进行训练,更新全连接层参数。
4.根据权利要求1所述的基于深度学习的行人目标跟踪方法,其特征在于,所述步骤(5)具体包括:
(51)将每一帧视频图像特征信息对应的卷积特征图与原始图像进行映射,以对卷积特征图进行扩展,此时卷积特征图中将只有部分区域有值;
(52)根据双线性插值公式,对扩展后的卷积特征图进行横向插值,对每一行进行逐一插值;
(53)根据双线性插值公式,对扩展后的卷积特征图进行纵向插值,对每一列进行逐一插值。
5.根据权利要求1所述的基于深度学习的行人目标跟踪方法,其特征在于,所述步骤(6)具体包括:
(61)将细粒度搜索候选集中的目标框对应区域特征分别通过相关滤波器,计算响应值,并通过比较得出响应值最大者,响应值最大者即为预测的目标位置;
(62)计算预测目标位置与上一帧目标位置之间的特征余弦相似度,若相似度大于阈值,则进行步骤(63),否则结束;
(63)根据预测结果,对候选集中的目标框进行标记,并以此为预测的行人目标位置,对相关滤波参数进行更新。
6.根据权利要求2所述的基于深度学习的行人目标跟踪方法,其特征在于,分类损失的计算方式如下:
验证损失的计算方式如下:
其中,代表该特征对所对应的行人对的第j个标签是否一致,表示欧式距离,即L2范数,M为一个阈值,用来防止离群图像特征对间距离过大,|*|表示向量每一项的绝对值,1表示单位向量,||*||1表示第一范数,表示第n组图像对中第一张图像的属性j的特征,表示第n组图像对中第二张图像的属性j的特征;β为约束项权重;
总体损失的计算方式如下:
其中,μ表示分类所占损失权重,LC表示总体分类损失,LV表示总体验证损失,γ表示正则化损失权重,W表示网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810708758.9A CN109146921B (zh) | 2018-07-02 | 2018-07-02 | 一种基于深度学习的行人目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810708758.9A CN109146921B (zh) | 2018-07-02 | 2018-07-02 | 一种基于深度学习的行人目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109146921A CN109146921A (zh) | 2019-01-04 |
CN109146921B true CN109146921B (zh) | 2021-07-27 |
Family
ID=64802662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810708758.9A Active CN109146921B (zh) | 2018-07-02 | 2018-07-02 | 一种基于深度学习的行人目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109146921B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766868B (zh) * | 2019-01-23 | 2020-12-11 | 哈尔滨工业大学 | 一种基于身体关键点检测的真实场景遮挡行人检测网络及其检测方法 |
CN109840489A (zh) * | 2019-01-24 | 2019-06-04 | 深圳市云恩科技有限公司 | 一种渡口行人运动跟踪检测系统及其检测方法 |
CN109886951A (zh) * | 2019-02-22 | 2019-06-14 | 北京旷视科技有限公司 | 视频处理方法、装置及电子设备 |
CN109961462A (zh) * | 2019-03-25 | 2019-07-02 | 华瑞新智科技(北京)有限公司 | 目标跟踪方法、装置和系统 |
CN110097091B (zh) * | 2019-04-10 | 2023-04-18 | 东南大学 | 训练与推理数据分布不一致条件下的图像细粒度识别方法 |
CN110120055B (zh) * | 2019-04-12 | 2023-04-18 | 浙江大学 | 基于深度学习的眼底荧光造影图像无灌注区自动分割方法 |
CN110276783B (zh) * | 2019-04-23 | 2021-01-08 | 上海高重信息科技有限公司 | 一种多目标跟踪方法、装置及计算机系统 |
CN110111351B (zh) * | 2019-05-10 | 2022-03-25 | 电子科技大学 | 融合rgbd多模态信息的行人轮廓跟踪方法 |
US11748613B2 (en) * | 2019-05-10 | 2023-09-05 | Baidu Usa Llc | Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning |
CN110310305B (zh) * | 2019-05-28 | 2021-04-06 | 东南大学 | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 |
CN110188690B (zh) * | 2019-05-30 | 2022-02-08 | 山东巍然智能科技有限公司 | 一种基于无人机的智能视觉分析系统、智能视觉分析系统及方法 |
CN110414336A (zh) * | 2019-06-21 | 2019-11-05 | 中国矿业大学 | 一种三元组边缘中心损失的深度互补分类器行人搜索方法 |
CN110837856B (zh) * | 2019-10-31 | 2023-05-30 | 深圳市商汤科技有限公司 | 神经网络训练及目标检测方法、装置、设备和存储介质 |
CN110856253B (zh) * | 2019-11-15 | 2021-03-23 | 北京三快在线科技有限公司 | 定位方法、装置、服务器及存储介质 |
CN111160101B (zh) * | 2019-11-29 | 2023-04-18 | 福建省星云大数据应用服务有限公司 | 一种基于人工智能的视频人员跟踪与计数方法 |
CN111143613B (zh) * | 2019-12-30 | 2024-02-06 | 携程计算机技术(上海)有限公司 | 选择视频封面的方法、系统、电子设备与存储介质 |
CN114205648B (zh) * | 2021-12-07 | 2024-06-04 | 网易(杭州)网络有限公司 | 插帧方法及装置 |
CN115100244B (zh) * | 2022-07-05 | 2023-04-07 | 上海闪马智能科技有限公司 | 一种目标跟踪方法、装置、存储介质及电子装置 |
CN117273068B (zh) * | 2023-09-28 | 2024-04-16 | 东南大学 | 一种基于可线性扩展学习基因的模型初始化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616032A (zh) * | 2015-01-30 | 2015-05-13 | 浙江工商大学 | 基于深度卷积神经网络的多摄像机系统目标匹配方法 |
CN105741316A (zh) * | 2016-01-20 | 2016-07-06 | 西北工业大学 | 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10769531B2 (en) * | 2015-06-05 | 2020-09-08 | Cisco Technology, Inc. | Methods and systems for counting people |
-
2018
- 2018-07-02 CN CN201810708758.9A patent/CN109146921B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616032A (zh) * | 2015-01-30 | 2015-05-13 | 浙江工商大学 | 基于深度卷积神经网络的多摄像机系统目标匹配方法 |
CN105741316A (zh) * | 2016-01-20 | 2016-07-06 | 西北工业大学 | 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109146921A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109146921B (zh) | 一种基于深度学习的行人目标跟踪方法 | |
Mukhoti et al. | Evaluating bayesian deep learning methods for semantic segmentation | |
CN106354816B (zh) | 一种视频图像处理方法及装置 | |
Migdal et al. | Background subtraction using markov thresholds | |
CN107145862B (zh) | 一种基于霍夫森林的多特征匹配多目标跟踪方法 | |
Chen et al. | Learning linear regression via single-convolutional layer for visual object tracking | |
CN110414367B (zh) | 一种基于gan和ssn的时序行为检测方法 | |
CN113920170B (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN103854027A (zh) | 一种人群行为识别方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
Wang et al. | Spatiotemporal group context for pedestrian counting | |
Li et al. | Robust object tracking with discrete graph-based multiple experts | |
CN112184767A (zh) | 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质 | |
CN112418149A (zh) | 一种基于深卷积神经网络的异常行为检测方法 | |
CN117541994A (zh) | 一种密集多人场景下的异常行为检测模型及检测方法 | |
CN113869274B (zh) | 基于城市管理的无人机智能跟踪监控方法及系统 | |
Li et al. | Fish trajectory extraction based on object detection | |
CN115527269A (zh) | 一种人体姿态图像智能识别方法及系统 | |
CN111462184A (zh) | 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法 | |
Krithika et al. | MAFONN-EP: A minimal angular feature oriented neural network based emotion prediction system in image processing | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
CN110826459B (zh) | 基于姿态估计的可迁移校园暴力行为视频识别方法 | |
Xue et al. | Tracking multiple visual targets via particle-based belief propagation | |
JP2010020808A (ja) | 移動物体認識方法及び装置 | |
CN115713806A (zh) | 基于视频分类的跌倒行为识别方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |