CN111915648A - 一种基于常识和记忆网络的长期目标运动跟踪方法 - Google Patents

一种基于常识和记忆网络的长期目标运动跟踪方法 Download PDF

Info

Publication number
CN111915648A
CN111915648A CN202010685477.3A CN202010685477A CN111915648A CN 111915648 A CN111915648 A CN 111915648A CN 202010685477 A CN202010685477 A CN 202010685477A CN 111915648 A CN111915648 A CN 111915648A
Authority
CN
China
Prior art keywords
image
image block
target
memory network
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010685477.3A
Other languages
English (en)
Other versions
CN111915648B (zh
Inventor
张焕龙
王凤仙
陈志武
陈键
陈青华
杨光露
张勋才
郑安平
李银华
贺振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202010685477.3A priority Critical patent/CN111915648B/zh
Publication of CN111915648A publication Critical patent/CN111915648A/zh
Application granted granted Critical
Publication of CN111915648B publication Critical patent/CN111915648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明提出了一种基于常识和记忆网络的长期目标运动跟踪方法,用以解决现有跟踪方法不能有效适应不确定运动场景下的目标跟踪问题。其步骤为:首先利用跟踪器在局部搜索窗内预测目标位置,然后利用单层记忆网络判断预测结果的可靠性。若可靠则进行下一帧的跟踪,否则利用常识信息和针对跟踪任务开发的语义目标感知特征从全局图片中生成少量高质量的包含目标真实运动状态的建议,再通过记忆网络选择最佳的候选建议作为预测结果。最后,利用可靠的跟踪结果对记忆网络进行微调以保持目标的外观记忆。本发明的单层记忆网络结构简单、运算量小;且本发明将记忆网络和语义目标感知建议相结合能够适应突变运动等目标跟踪问题,实现长期跟踪。

Description

一种基于常识和记忆网络的长期目标运动跟踪方法
技术领域
本发明涉及计算机视觉跟踪技术领域,特别是指一种基于常识和记忆网络的长期目标运动跟踪方法。
背景技术
视觉目标跟踪作为计算机视觉领域的重要研究方向,一直是热门的研究问题,其目标是给出某一时刻目标的边界框,使得跟踪器在后续时间里准确的预测出目标状态(包括位置和大小)。然而由于现实世界中存在着许多挑战,如目标的运动突变、出视野外后再现等等,使得跟踪器出现漂移并最终跟踪失败。早期的跟踪算法通过手工特征构建目标外观模型进行目标跟踪,后来由于深度特征的引入,大大提高了视觉目标跟踪的精度,但同时增加了计算负担,降低了跟踪器的速度。近几年来,全卷积式的Siamese网络被用于跟踪,通过大量数据的离线训练学习先验的相似性函数。在保证跟踪精度的同时有提高了跟踪器的速度。
然后,传统的基于Siamese网络的跟踪器仍存在着几个明显的问题:(1)由于没有在线模板更新,使得跟踪器不能有效的适应目标外观剧烈变化条件下的跟踪任务。(2)由于大多数跟踪器是在一个局部搜索窗口内进行,当目标跳出局部搜索窗口时会导致跟踪失败。(3)由于缺乏有效的跟踪判断和跟踪故障检测后的再恢复机制,使得跟踪失败一旦发生便不可恢复。因此,对于这些问题的有效解决仍然有待进一步的研究。
发明内容
针对上述背景技术中存在的不足,本发明提出了一种基于常识和记忆网络的长期目标运动跟踪方法,解决了现有基于Siamese网络跟踪器易发生跟踪失败的技术问题,能够有效的进行目标跟踪,提高了跟踪器的鲁棒性。
本发明的技术方案是这样实现的:
一种基于常识和记忆网络的长期目标运动跟踪方法,其步骤如下:
步骤一:利用人工标注的方式标注出视频序列中的第一帧图像的目标图像块
Figure BDA0002587409490000011
并利用VGG16深度网络提取目标图像块
Figure BDA0002587409490000012
的深度特征;
步骤二:初始化单层记忆网络,利用目标图像块
Figure BDA0002587409490000013
的深度特征对单层记忆网络进行训练获得初始卷积滤波器w;
步骤三:在第一帧图像中选取一个比目标图像块
Figure BDA0002587409490000014
大的图像块X',且图像块X'与目标图像块
Figure BDA0002587409490000015
的中心重合,并利用VGG16深度网络提取的图像块X'的深度特征对单层记忆网络进行训练获得卷积滤波器w',根据卷积滤波器w'获得目标图像的通道重要性参数;
步骤四:在当前帧图像中截取一个比目标图像块大的搜索图像块
Figure BDA0002587409490000021
且搜索图像块
Figure BDA0002587409490000022
与上一帧图像的目标图像的中心重合,计算搜索图像块
Figure BDA0002587409490000023
与目标图像块
Figure BDA0002587409490000024
的响应图,根据响应图中的最大响应值对应的当前帧图像的图像块作为基本跟踪器的预测结果;
步骤五:将基本跟踪器的预测结果输入步骤二中训练后的单层记忆网络中,输出第一次预测结果的响应矩阵,判断第一次预测结果的响应矩阵中响应值的最大值是否大于阈值β,若是,将基本跟踪器的预测结果作为当前帧的跟踪结果,并利用第一次预测结果对步骤二中的单层记忆网络进行训练更新初始卷积滤波器w,返回步骤四进行下一帧图像的跟踪,否则,执行步骤六;
步骤六:根据常识信息和步骤二中的通道重要性参数获得当前帧图像的语义目标感知特征图像集;
步骤七:利用语义目标感知特征图像集对当前帧图像进行目标定位,获得第二次预测结果的响应矩阵,判断第二次预测结果的响应矩阵的最大响应值是否大于阈值β,若是,将第二次预测结果对应的语义目标感知特征图像集中的图像块作为当前帧的跟踪结果,否则,将基本跟踪器的预测结果作为当前帧的跟踪结果;
步骤八:输出当前帧的跟踪结果,判断当前帧图像是否为最后一帧图像,若是,输出每一帧图像的跟踪结果,实现运动目标的跟踪,否则,返回步骤四进行下一帧图像的跟踪。
所述利用目标图像块
Figure BDA0002587409490000025
的深度特征对单层记忆网络进行训练获得初始卷积滤波器w的方法为:
S21、初始化初始卷积滤波器w的初值,以目标图像块
Figure BDA0002587409490000026
为初始样本X,利用MATLAB软件中的函数GAUSSIAN_SHAPED_LABELS()对初始样本X进行提取,得到初始样本X的训练标签Y;
S22、将初始样本X和训练标签Y输入单层记忆网络中,输出响应矩阵F(X)和单层记忆网络的初始卷积滤波器w;
S23、根据响应矩阵F(X)计算单层记忆网络的损失函数,判断损失函数的值是否满足L(w)<0.1,若是,结束训练,输出步骤S22中的初始卷积滤波器,否则,利用随机梯度下降法对初始卷积滤波器w进行调整,返回步骤S22。
所述响应矩阵F(X)为:F(X)=w*X,其中,*表示卷积操作。
所述损失函数为:L(w)=||F(X)-Y||2+λ||w||2,其中,||·||表示欧几里得范数,λ为正则化参数。
所述根据卷积滤波器w'获得目标图像的通道重要性参数的方法为:
S31、计算卷积滤波器w'在每一层上的所有元素的得分:
Figure BDA0002587409490000031
其中,c=1,2,…,p为卷积滤波器w'的层索引,p为卷积滤波器w'的层数,gc为c层的得分,G(i,j,c)表示滤波器w'在c层(i,j)坐标位置的权重值,i表示c层卷积滤波器w'的横坐标,j表示c层卷积滤波器w'的纵坐标;
S32、根据c层的得分gc计算c层的通道重要性参数:
Figure BDA0002587409490000032
则卷积滤波器w'的通道重要性参数为:Δ=[Δ12,…,Δp]。
所述搜索图像块
Figure BDA0002587409490000033
与目标图像块
Figure BDA0002587409490000034
的响应图的计算方法为:
Figure BDA0002587409490000035
其中,
Figure BDA0002587409490000036
表示搜索图像块
Figure BDA0002587409490000037
与目标图像块
Figure BDA0002587409490000038
的响应图,*为两个深度特征图之间的互相关操作,
Figure BDA0002587409490000039
表示第t帧图像的搜索图像块,
Figure BDA00025874094900000310
表示目标图像块,t为图像的帧索引,φθ(·)为VGG16深度网络的函数,θ为VGG16深度网络的网络参数。
所述根据常识信息和步骤二中的通道重要性参数获得当前帧图像的语义目标感知特征图像集的方法为:
S61、利用边缘检测方法Edge Boxes从当前帧图像中生成检测图像块集合及检测图像块对应的客观物体得分,将客观物体得分小于阈值th的检测图像块过滤掉,得到初步图像块集合:
Figure BDA00025874094900000311
其中,
Figure BDA00025874094900000312
表示第t帧图像的检测图像块集合,
Figure BDA00025874094900000313
表示第t帧图像第i0个检测图像块,i0=1,2,…,max表示检测图像块的序号,max为检测图像块的数量,Cb表示检测图像块的客观物体得分,th为检测图像块阈值,
Figure BDA00025874094900000314
为第t帧图像的初步建议框集合,t为图像的帧索引;
S62、利用常识信息对初步图像块集合进行筛选,得到候选图像块集合:
Figure BDA00025874094900000315
其中,
Figure BDA00025874094900000316
表示第t帧图像的候选图像块集合,τ1和τ2均为常识约束信息,
Figure BDA00025874094900000317
表示第t帧图像的初步图像块
Figure BDA0002587409490000041
的宽,
Figure BDA0002587409490000042
表示第t帧图像的初步图像块
Figure BDA0002587409490000043
的高,i1=1,2,…,n表示初步图像块的序号,n表示初步图像块的数量,
Figure BDA0002587409490000044
表示第t-1帧图像的初步图像块
Figure BDA0002587409490000045
的宽,
Figure BDA0002587409490000046
表示第t-1帧图像的初步图像块
Figure BDA0002587409490000047
的高;
S63、利用VGG16深度网络提取候选图像块集合中的每一个候选图像块的深度特征,根据深度特征提取语义感知特征:
Figure BDA0002587409490000048
其中,
Figure BDA0002587409490000049
为第t帧图像的候选图像块
Figure BDA00025874094900000410
的语义感知特征,
Figure BDA00025874094900000411
为第t帧图像的候选图像块
Figure BDA00025874094900000412
的深度特征,i2=1,2,…,n'表示候选图像块的序号,n'表示候选图像块的数量,
Figure BDA00025874094900000413
为感知特征提取函数,Δ为通道重要性参数,*为两个深度特征图之间的互相关操作;
S64、根据语义感知特征计算候选图像块集合中的每一个候选图像块的语义感知得分:
Figure BDA00025874094900000414
其中,
Figure BDA00025874094900000415
表示第t帧图像的候选图像块
Figure BDA00025874094900000416
的语义感知得分;
S65、根据每一个候选图像块的语义感知得分的高低对候选图像块进行排序,选取前Q个候选图像块作为当前帧图像的语义目标感知特征图像集
Figure BDA00025874094900000417
所述利用语义目标感知特征图像集对当前帧图像进行目标定位的方法为:
S71、初始化i2=1;
S72、从语义目标感知特征图像集
Figure BDA00025874094900000418
选出第i2个图像块
Figure BDA00025874094900000419
将图像块
Figure BDA00025874094900000420
输入训练后的单层记忆网络中,获得第i2个响应矩阵
Figure BDA00025874094900000421
S73、判断第i2个响应矩阵
Figure BDA00025874094900000422
中的最大响应值
Figure BDA00025874094900000423
是否大于阈值β,若是,将第i2个图像块
Figure BDA00025874094900000424
作为当前帧的跟踪结果
Figure BDA00025874094900000425
否则,执行步骤S74;
S74、i2=i2+1,判断i2是否大于Q,若是,将基本跟踪器的预测结果作为当前帧的跟踪结果
Figure BDA00025874094900000426
否则,循环步骤S72~S73。
本技术方案能产生的有益效果:本发明通过引入常识信息和开发语义目标感知特征,提出了一种高精度的语义目标感知建议方法,能够在目标跟踪失败发生时从全局内给出少量的高质量的包含目标真实运动状态候选,并指导跟踪器从跟踪失败中恢复;本发明通过将记忆网络模型引入到跟踪框中去,从而有效的适应由于目标的外观变化而导致的目标跟踪失败问题;本发明能够有效的改进跟踪器的性能,对后续对跟踪目标的识别、理解和分析具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基本流程图;
图2为本发明的示意图;
图3为本发明的语义目标感知建议生成示意图;
图4为本发明的记忆网络示意图;
图5为本发明方法与其他算法的跟踪效果示意图;
图6为本发明方法与其他算法的在OTB2015测试库中的对比示意图,(a)为精确图,(b)为成功率图;
图7为本发明的语义感知特征生成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的硬件环境为:Intel(R)Core(TM)i3-8100 CPU 3.6GHZ计算机、8GB内存。我们用Matlab软件实现了本发明提出的方法。本发明方法所用的视频跟踪图像序列来自于网上公开的OTB数据库视频集(http://cvlab.hanyang.ac.kr/tracker_benchmark/ index.html)。
如图1和图2所示,一种基于常识和记忆网络的长期目标运动跟踪方法,具体步骤如下:
步骤一:利用人工标注的方式标注出视频序列中的第一帧图像的目标图像块
Figure BDA0002587409490000051
并利用VGG16深度网络提取目标图像块
Figure BDA0002587409490000052
的深度特征,目标图像块
Figure BDA0002587409490000053
的深度特征即为目标模板。
步骤二:初始化单层记忆网络,利用目标图像块
Figure BDA0002587409490000054
的深度特征对单层记忆网络进行训练获得初始卷积滤波器w,获得的初始卷积滤波器w即为目标图像的外观记忆;具体方法如图4所示:
S21、初始化初始卷积滤波器w的初值,以目标图像块
Figure BDA0002587409490000055
为初始样本X,利用MATLAB软件中的函数GAUSSIAN_SHAPED_LABELS()对初始样本X进行提取,得到初始样本X的训练标签Y;
S22、将初始样本X和训练标签Y输入单层记忆网络中,输出响应矩阵F(X)和单层记忆网络的初始卷积滤波器w;所述响应矩阵F(X)为:F(X)=w*X,其中,*表示卷积操作。
S23、根据响应矩阵F(X)计算单层记忆网络的损失函数L(w)=||F(X)-Y||2+λ||w||2,并判断损失函数的值是否满足L(w)<0.1,若是,结束训练,输出步骤S22中的初始卷积滤波器,否则,利用随机梯度下降法对初始卷积滤波器w进行调整,返回步骤S22,其中,||·||表示欧几里得范数,λ=0.25为正则化参数。
步骤三:在第一帧图像中选取一个比目标图像块
Figure BDA0002587409490000061
大的图像块X',图像块X'的尺寸大小为目标图像块
Figure BDA0002587409490000062
的尺寸大小的1.25~2.5倍,且图像块X'与目标图像块
Figure BDA0002587409490000063
的中心重合,并利用VGG16深度网络提取的图像块X'的深度特征对单层记忆网络进行训练获得卷积滤波器w',根据卷积滤波器w'获得目标图像的通道重要性参数,具体方法为:
S31、计算卷积滤波器w'在每一层上的所有元素的得分:
Figure BDA0002587409490000064
其中,c=1,2,…,p为卷积滤波器w'的层索引,p为卷积滤波器w'的层数,gc为c层的得分,G(i,j,c)表示滤波器w'在c层(i,j)坐标位置的权重值,i表示c层卷积滤波器w'的横坐标,j表示c层卷积滤波器w'的纵坐标;
S32、根据c层的得分gc计算c层的通道重要性参数:
Figure BDA0002587409490000065
当Δc=1,则将该层作为目标感知特征并保留,否则作为冗余信息被除去;则卷积滤波器w'的通道重要性参数为:Δ=[Δ12,…,Δp]。
步骤四:在当前帧图像中截取一个比目标图像块
Figure BDA0002587409490000066
大的搜索图像块
Figure BDA0002587409490000067
搜索图像块
Figure BDA0002587409490000068
的尺寸大小是目标图像块
Figure BDA0002587409490000069
的尺寸大小的3倍,且搜索图像块
Figure BDA00025874094900000610
与上一帧图像的目标图像的中心重合,计算搜索图像块
Figure BDA00025874094900000611
与目标图像块
Figure BDA00025874094900000612
的响应图,根据响应图中的最大响应值对应的当前帧图像的图像块作为基本跟踪器的预测结果;
所述搜索图像块
Figure BDA00025874094900000613
与目标图像块
Figure BDA00025874094900000614
的响应图的计算方法为:
Figure BDA00025874094900000615
其中,
Figure BDA00025874094900000616
表示搜索图像块
Figure BDA00025874094900000617
与目标图像块
Figure BDA00025874094900000618
的响应图,*为两个深度特征图之间的互相关操作,
Figure BDA00025874094900000619
表示第t帧图像的搜索图像块,
Figure BDA00025874094900000620
表示目标图像块,t为图像的帧索引,φθ(·)为VGG16深度网络的函数,θ为VGG16深度网络的网络参数。
步骤五:将基本跟踪器的预测结果输入步骤二中训练后的单层记忆网络中,输出第一次预测结果的响应矩阵,判断第一次预测结果的响应矩阵中响应值的最大值是否大于阈值β,若是,将基本跟踪器的预测结果作为当前帧的跟踪结果,并利用第一次预测结果对步骤二中的单层记忆网络进行训练更新初始卷积滤波器w,返回步骤四进行下一帧图像的跟踪,否则,执行步骤六;
步骤六:根据常识信息和步骤二中的通道重要性参数获得当前帧图像的语义目标感知特征图像集,具体方法如图3所示:
S61、利用边缘检测方法Edge Boxes从当前帧图像中生成高度疑似目标物的检测图像块集合及检测图像块对应的客观物体得分,将客观物体得分小于阈值th的检测图像块过滤掉,得到初步图像块集合:
Figure BDA0002587409490000071
其中,
Figure BDA0002587409490000072
表示第t帧图像的检测图像块集合,
Figure BDA0002587409490000073
表示第t帧图像第i0个检测图像块,i0=1,2,…,max表示检测图像块的序号,max为检测图像块的数量,Cb表示检测图像块的客观物体得分,th为检测图像块阈值,
Figure BDA0002587409490000074
为第t帧图像的初步建议框集合,t为图像的帧索引;设置max=500使得生成的检测图像块尽可能的完全覆盖目标真实运动状态;阈值th用于过滤得分低的检测图像块;利用Edge Boxes目标检测建议生成器,可以从整幅图片中获得大量的疑似物体的图像块,为了能够通过候选建议来指导跟踪器进行鲁棒跟踪,还需要对这些建议进行进一步的筛选和过滤。
S62、利用常识信息对初步图像块集合进行筛选,得到候选图像块集合:
Figure BDA0002587409490000075
其中,
Figure BDA0002587409490000076
表示第t帧图像的候选图像块集合,τ1=0.75和τ2=1.25均为常识约束信息,
Figure BDA0002587409490000077
表示第t帧图像的初步图像块
Figure BDA0002587409490000078
的宽,
Figure BDA0002587409490000079
表示第t帧图像的初步图像块
Figure BDA00025874094900000710
的高,i1=1,2,…,n表示初步图像块的序号,n表示初步图像块的数量,n<max,
Figure BDA00025874094900000711
表示第t-1帧图像的初步图像块
Figure BDA00025874094900000712
的宽,
Figure BDA00025874094900000713
表示第t-1帧图像的初步图像块
Figure BDA00025874094900000714
的高;常识信息是指基于现实世界中目标运动前后时刻的尺度不会发生巨大的变化。通过步骤S62能够有效的过滤掉不符合目标尺度常识信息的初步图像块,从而减少了初步图像块的数量,提高了候选图像块的质量。
S63、如图7所示,利用VGG16深度网络提取候选图像块集合中的每一个候选图像块的深度特征,根据深度特征提取语义感知特征:
Figure BDA0002587409490000081
其中,
Figure BDA0002587409490000082
为第t帧图像的候选图像块
Figure BDA0002587409490000083
的语义感知特征,
Figure BDA0002587409490000084
为第t帧图像的候选图像块
Figure BDA0002587409490000085
的深度特征,i2=1,2,…,n'表示候选图像块的序号,n'表示候选图像块的数量,
Figure BDA0002587409490000086
为感知特征提取函数,Δ为通道重要性参数,*为两个深度特征图之间的互相关操作;
S64、根据语义感知特征计算候选图像块集合中的每一个候选图像块的语义感知得分:
Figure BDA0002587409490000087
其中,
Figure BDA0002587409490000088
表示第t帧图像的候选图像块
Figure BDA0002587409490000089
的语义感知得分;
S65、根据每一个候选图像块的语义感知得分的高低对候选图像块进行排序,选取前Q(Q<n)个候选图像块作为当前帧图像的语义目标感知特征图像集
Figure BDA00025874094900000810
利用更能区分目标和背景的语义目标感知特征图像集
Figure BDA00025874094900000811
将不包含跟踪目标的图像块过滤掉,留下少量高质量包含目标真实运动状态的图像块引导跟踪器进行鲁棒跟踪。
步骤七:利用语义目标感知特征图像集对当前帧图像进行目标定位,获得第二次预测结果的响应矩阵,判断第二次预测结果的响应矩阵的最大响应值是否大于阈值β,若是,将第二次预测结果对应的语义目标感知特征图像集中的图像块作为当前帧的跟踪结果,否则,认为目标遭遇到严重遮挡或者完全出视野外,将基本跟踪器的预测结果作为当前帧的跟踪结果;
所述利用语义目标感知特征图像集对当前帧图像进行目标定位的方法为:
S71、初始化i2=1;
S72、从语义目标感知特征图像集
Figure BDA00025874094900000812
选出第i2个图像块
Figure BDA00025874094900000813
将图像块
Figure BDA00025874094900000814
输入训练后的单层记忆网络中,获得第i2个响应矩阵
Figure BDA00025874094900000815
S73、判断第i2个响应矩阵
Figure BDA00025874094900000816
中的最大响应值
Figure BDA00025874094900000817
是否大于阈值β,若是,将第i2个图像块
Figure BDA00025874094900000818
作为当前帧的跟踪结果
Figure BDA00025874094900000819
否则,执行步骤S74;
S74、i2=i2+1,判断i2是否大于Q,若是,将基本跟踪器的预测结果作为当前帧的跟踪结果
Figure BDA00025874094900000820
否则,循环步骤S72~S73。
步骤八:输出当前帧的跟踪结果,判断当前帧图像是否为最后一帧图像,若是,输出每一帧图像的跟踪结果,实现运动目标的跟踪,否则,返回步骤四进行下一帧图像的跟踪。
在实际应用中,可采用定性和定量两种评价方式来评价本发明的有效性。定性评价方式采用本发明方法和代表性跟踪算法CF2、ACFN、SRDCF、siamfc、DSST和KCF在部分视频帧内的跟踪效果图,如图5所示。图5分别是六个视频在部分视频帧内的跟踪效果图,这些场景下使得CF2、ACFN、SRDCF、siamfc、DSST和KCF算法表现出不适应,甚至跟踪失败,而本发明提出的方法获得了好的跟踪效果。定量评价方式采用中心位置误差率和目标重叠率来评价,距离精度DP是指依据设定的阈值图像序列中能够成功跟踪目标的帧数与总视频帧数的比值。其中,阈值β是通过跟踪结果与真实结果的中心误差值确定的,本发明设置阈值为0.5。中心误差DP是通过计算跟踪目标的中心位置和真实位置之间的欧氏距离,一般其值越小说明跟踪结果比较优。目标重叠率OP是指跟踪结果与真实目标区域面积与操作和并操作的比值,其值越大,说明跟踪结果越好。图5展示了本发明与代表性跟踪算法CF2、ACFN、SRDCF、siamfc、DSST和KCF在OTB数据集上的距离精度DP值比较结果和目标重叠率OP值的比较结果。综合图5、图6(a)和图6(b)所示,本发明提供的目标跟踪方法能够很好地解决目标突变的运动问题,获得了较好地跟踪表现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于常识和记忆网络的长期目标运动跟踪方法,其特征在于,其步骤如下:
步骤一:利用人工标注的方式标注出视频序列中的第一帧图像的目标图像块
Figure FDA0002587409480000011
并利用VGG16深度网络提取目标图像块
Figure FDA0002587409480000012
的深度特征;
步骤二:初始化单层记忆网络,利用目标图像块
Figure FDA0002587409480000013
的深度特征对单层记忆网络进行训练获得初始卷积滤波器w;
步骤三:在第一帧图像中选取一个比目标图像块
Figure FDA0002587409480000014
大的图像块X',且图像块X'与目标图像块
Figure FDA0002587409480000015
的中心重合,并利用VGG16深度网络提取的图像块X'的深度特征对单层记忆网络进行训练获得卷积滤波器w',根据卷积滤波器w'获得目标图像的通道重要性参数;
步骤四:在当前帧图像中截取一个比目标图像块大的搜索图像块
Figure FDA0002587409480000016
且搜索图像块
Figure FDA0002587409480000017
与上一帧图像的目标图像的中心重合,计算搜索图像块
Figure FDA0002587409480000018
与目标图像块
Figure FDA0002587409480000019
的响应图,根据响应图中的最大响应值对应的当前帧图像的图像块作为基本跟踪器的预测结果;
步骤五:将基本跟踪器的预测结果输入步骤二中训练后的单层记忆网络中,输出第一次预测结果的响应矩阵,判断第一次预测结果的响应矩阵中响应值的最大值是否大于阈值β,若是,将基本跟踪器的预测结果作为当前帧的跟踪结果,并利用第一次预测结果对步骤二中的单层记忆网络进行训练更新初始卷积滤波器w,返回步骤四进行下一帧图像的跟踪,否则,执行步骤六;
步骤六:根据常识信息和步骤二中的通道重要性参数获得当前帧图像的语义目标感知特征图像集;
步骤七:利用语义目标感知特征图像集对当前帧图像进行目标定位,获得第二次预测结果的响应矩阵,判断第二次预测结果的响应矩阵的最大响应值是否大于阈值β,若是,将第二次预测结果对应的语义目标感知特征图像集中的图像块作为当前帧的跟踪结果,否则,将基本跟踪器的预测结果作为当前帧的跟踪结果;
步骤八:输出当前帧的跟踪结果,判断当前帧图像是否为最后一帧图像,若是,输出每一帧图像的跟踪结果,实现运动目标的跟踪,否则,返回步骤四进行下一帧图像的跟踪。
2.根据权利要求1所述的基于常识和记忆网络的长期目标运动跟踪方法,其特征在于,所述利用目标图像块
Figure FDA00025874094800000110
的深度特征对单层记忆网络进行训练获得初始卷积滤波器w的方法为:
S21、初始化初始卷积滤波器w的初值,以目标图像块
Figure FDA00025874094800000111
为初始样本X,利用MATLAB软件中的函数GAUSSIAN_SHAPED_LABELS()对初始样本X进行提取,得到初始样本X的训练标签Y;
S22、将初始样本X和训练标签Y输入单层记忆网络中,输出响应矩阵F(X)和单层记忆网络的初始卷积滤波器w;
S23、根据响应矩阵F(X)计算单层记忆网络的损失函数,判断损失函数的值是否满足L(w)<0.1,若是,结束训练,输出步骤S22中的初始卷积滤波器,否则,利用随机梯度下降法对初始卷积滤波器w进行调整,返回步骤S22。
3.根据权利要求2所述的基于常识和记忆网络的长期目标运动跟踪方法,其特征在于,所述响应矩阵F(X)为:F(X)=w*X,其中,*表示卷积操作。
4.根据权利要求2所述的基于常识和记忆网络的长期目标运动跟踪方法,其特征在于,所述损失函数为:L(w)=||F(X)-Y||2+λ||w||2,其中,||·||表示欧几里得范数,λ为正则化参数。
5.根据权利要求1所述的基于常识和记忆网络的长期目标运动跟踪方法,其特征在于,所述根据卷积滤波器w'获得目标图像的通道重要性参数的方法为:
S31、计算卷积滤波器w'在每一层上的所有元素的得分:
Figure FDA0002587409480000021
其中,c=1,2,…,p为卷积滤波器w'的层索引,p为卷积滤波器w'的层数,gc为c层的得分,G(i,j,c)表示滤波器w'在c层(i,j)坐标位置的权重值,i表示c层卷积滤波器w'的横坐标,j表示c层卷积滤波器w'的纵坐标;
S32、根据c层的得分gc计算c层的通道重要性参数:
Figure FDA0002587409480000022
则卷积滤波器w'的通道重要性参数为:Δ=[Δ12,…,Δp]。
6.根据权利要求1所述的基于常识和记忆网络的长期目标运动跟踪方法,其特征在于,所述搜索图像块
Figure FDA0002587409480000023
与目标图像块
Figure FDA0002587409480000024
的响应图的计算方法为:
Figure FDA0002587409480000025
其中,
Figure FDA0002587409480000026
表示搜索图像块
Figure FDA0002587409480000027
与目标图像块
Figure FDA0002587409480000028
的响应图,★为两个深度特征图之间的互相关操作,
Figure FDA0002587409480000029
表示第t帧图像的搜索图像块,
Figure FDA00025874094800000210
表示目标图像块,t为图像的帧索引,φθ(·)为VGG16深度网络的函数,θ为VGG16深度网络的网络参数。
7.根据权利要求1所述的基于常识和记忆网络的长期目标运动跟踪方法,其特征在于,所述根据常识信息和步骤二中的通道重要性参数获得当前帧图像的语义目标感知特征图像集的方法为:
S61、利用边缘检测方法Edge Boxes从当前帧图像中生成检测图像块集合及检测图像块对应的客观物体得分,将客观物体得分小于阈值th的检测图像块过滤掉,得到初步图像块集合:
Figure FDA0002587409480000031
其中,
Figure FDA0002587409480000032
表示第t帧图像的检测图像块集合,
Figure FDA0002587409480000033
表示第t帧图像第i0个检测图像块,i0=1,2,…,max表示检测图像块的序号,max为检测图像块的数量,Cb表示检测图像块的客观物体得分,th为检测图像块阈值,
Figure FDA0002587409480000034
为第t帧图像的初步建议框集合,t为图像的帧索引;
S62、利用常识信息对初步图像块集合进行筛选,得到候选图像块集合:
Figure FDA0002587409480000035
其中,
Figure FDA0002587409480000036
表示第t帧图像的候选图像块集合,τ1和τ2均为常识约束信息,
Figure FDA0002587409480000037
表示第t帧图像的初步图像块
Figure FDA0002587409480000038
的宽,
Figure FDA00025874094800000322
表示第t帧图像的初步图像块
Figure FDA0002587409480000039
的高,i1=1,2,…,n表示初步图像块的序号,n表示初步图像块的数量,
Figure FDA00025874094800000310
表示第t-1帧图像的初步图像块
Figure FDA00025874094800000311
的宽,
Figure FDA00025874094800000312
表示第t-1帧图像的初步图像块
Figure FDA00025874094800000313
的高;
S63、利用VGG16深度网络提取候选图像块集合中的每一个候选图像块的深度特征,根据深度特征提取语义感知特征:
Figure FDA00025874094800000314
其中,
Figure FDA00025874094800000315
为第t帧图像的候选图像块
Figure FDA00025874094800000323
的语义感知特征,
Figure FDA00025874094800000316
为第t帧图像的候选图像块
Figure FDA00025874094800000317
的深度特征,i2=1,2,…,n'表示候选图像块的序号,n'表示候选图像块的数量,
Figure FDA00025874094800000318
为感知特征提取函数,Δ为通道重要性参数,*为两个深度特征图之间的互相关操作;
S64、根据语义感知特征计算候选图像块集合中的每一个候选图像块的语义感知得分:
Figure FDA00025874094800000319
其中,
Figure FDA00025874094800000320
表示第t帧图像的候选图像块
Figure FDA00025874094800000324
的语义感知得分;
S65、根据每一个候选图像块的语义感知得分的高低对候选图像块进行排序,选取前Q个候选图像块作为当前帧图像的语义目标感知特征图像集
Figure FDA00025874094800000321
8.根据权利要求7所述的基于常识和记忆网络的长期目标运动跟踪方法,其特征在于,所述利用语义目标感知特征图像集对当前帧图像进行目标定位的方法为:
S71、初始化i2=1;
S72、从语义目标感知特征图像集
Figure FDA0002587409480000041
选出第i2个图像块
Figure FDA0002587409480000042
将图像块
Figure FDA0002587409480000043
输入训练后的单层记忆网络中,获得第i2个响应矩阵
Figure FDA0002587409480000044
S73、判断第i2个响应矩阵
Figure FDA0002587409480000045
中的最大响应值
Figure FDA0002587409480000046
是否大于阈值β,若是,将第i2个图像块
Figure FDA0002587409480000047
作为当前帧的跟踪结果
Figure FDA0002587409480000048
否则,执行步骤S74;
S74、i2=i2+1,判断i2是否大于Q,若是,将基本跟踪器的预测结果作为当前帧的跟踪结果
Figure FDA0002587409480000049
否则,循环步骤S72~S73。
CN202010685477.3A 2020-07-16 2020-07-16 一种基于常识和记忆网络的长期目标运动跟踪方法 Active CN111915648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010685477.3A CN111915648B (zh) 2020-07-16 2020-07-16 一种基于常识和记忆网络的长期目标运动跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010685477.3A CN111915648B (zh) 2020-07-16 2020-07-16 一种基于常识和记忆网络的长期目标运动跟踪方法

Publications (2)

Publication Number Publication Date
CN111915648A true CN111915648A (zh) 2020-11-10
CN111915648B CN111915648B (zh) 2023-09-01

Family

ID=73280998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010685477.3A Active CN111915648B (zh) 2020-07-16 2020-07-16 一种基于常识和记忆网络的长期目标运动跟踪方法

Country Status (1)

Country Link
CN (1) CN111915648B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674310A (zh) * 2021-05-11 2021-11-19 华南理工大学 一种基于主动视觉感知的四旋翼无人机目标跟踪方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN108846819A (zh) * 2018-07-04 2018-11-20 深圳市创客工场科技有限公司 激光切割参数获取方法及装置、电子设备、存储介质
CN110084836A (zh) * 2019-04-26 2019-08-02 西安电子科技大学 基于深度卷积特征分层响应融合的目标跟踪方法
CN110223323A (zh) * 2019-06-02 2019-09-10 西安电子科技大学 基于深度特征自适应相关滤波的目标跟踪方法
US20190294869A1 (en) * 2018-03-26 2019-09-26 Nvidia Corporation Object behavior anomaly detection using neural networks
CN110889863A (zh) * 2019-09-03 2020-03-17 河南理工大学 一种基于目标感知相关滤波的目标跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190294869A1 (en) * 2018-03-26 2019-09-26 Nvidia Corporation Object behavior anomaly detection using neural networks
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN108846819A (zh) * 2018-07-04 2018-11-20 深圳市创客工场科技有限公司 激光切割参数获取方法及装置、电子设备、存储介质
CN110084836A (zh) * 2019-04-26 2019-08-02 西安电子科技大学 基于深度卷积特征分层响应融合的目标跟踪方法
CN110223323A (zh) * 2019-06-02 2019-09-10 西安电子科技大学 基于深度特征自适应相关滤波的目标跟踪方法
CN110889863A (zh) * 2019-09-03 2020-03-17 河南理工大学 一种基于目标感知相关滤波的目标跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALAHI A等: "Social lstm: Human trajectory prediction in crowded spaces", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 961 - 971 *
HUANLONG ZHANG等: "Light regression memory and multi-perspective object special proposals for abrupt motion tracking", 《KNOWLEDGE-BASED SYSTEMS》, vol. 226, pages 1 - 13 *
宋小伟: "基于多通道图像融合的目标跟踪", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 8, pages 138 - 879 *
陈志旺等: "基于目标感知特征筛选的孪生网络跟踪算法", 《光学学报》, no. 9, pages 110 - 126 *
韩艳: "基于机器学习的运动目标检测与跟踪算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 3, pages 138 - 1306 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674310A (zh) * 2021-05-11 2021-11-19 华南理工大学 一种基于主动视觉感知的四旋翼无人机目标跟踪方法
CN113674310B (zh) * 2021-05-11 2024-04-26 华南理工大学 一种基于主动视觉感知的四旋翼无人机目标跟踪方法

Also Published As

Publication number Publication date
CN111915648B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN110070074B (zh) 一种构建行人检测模型的方法
CN109146921B (zh) 一种基于深度学习的行人目标跟踪方法
CN110084836B (zh) 基于深度卷积特征分层响应融合的目标跟踪方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN111797771B (zh) 一种基于迭代学习的弱监督视频行为检测方法及系统
CN110889863B (zh) 一种基于目标感知相关滤波的目标跟踪方法
CN108961308B (zh) 一种漂移检测的残差深度特征目标跟踪方法
CN112836639A (zh) 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN110796679B (zh) 一种面向航拍影像的目标跟踪方法
CN111582349B (zh) 一种基于YOLOv3和核相关滤波改进的目标跟踪算法
CN112348849A (zh) 一种孪生网络视频目标跟踪方法及装置
CN109543615B (zh) 一种基于多级特征的双学习模型目标跟踪方法
CN111008991B (zh) 一种背景感知的相关滤波目标跟踪方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及系统
CN111598928A (zh) 一种基于具有语义评估和区域建议的突变运动目标跟踪方法
CN113902991A (zh) 一种基于级联特征融合的孪生网络目标跟踪方法
CN113705490A (zh) 基于重构和预测的异常检测方法
Zhao et al. Effective local and global search for fast long-term tracking
CN114627156A (zh) 消费级无人机视频运动目标精准追踪方法
CN111915648B (zh) 一种基于常识和记忆网络的长期目标运动跟踪方法
CN110428447B (zh) 一种基于策略梯度的目标跟踪方法与系统
Yin et al. Fast scale estimation method in object tracking
CN115601841A (zh) 一种联合外观纹理和运动骨架的人体异常行为检测方法
CN113989920A (zh) 一种基于深度学习的运动员行为质量评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant