CN110580712A - 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 - Google Patents
一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 Download PDFInfo
- Publication number
- CN110580712A CN110580712A CN201910797988.1A CN201910797988A CN110580712A CN 110580712 A CN110580712 A CN 110580712A CN 201910797988 A CN201910797988 A CN 201910797988A CN 110580712 A CN110580712 A CN 110580712A
- Authority
- CN
- China
- Prior art keywords
- frame
- model
- information
- target
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000001133 acceleration Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000006073 displacement reaction Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000000306 recurrent effect Effects 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000153282 Theope Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,属于目标追踪、深度学习领域。为了使模型有更强的鲁棒性,首先,要能够更好的提取视频帧中的图像特征,在CFNet模型的基础上,引入了SE‑ResNext‑50作为本模型的特征提取网络,其次,通过前后帧的信息,计算物体的位移、速度、加速度特征,作为跟踪目标的运动信息特征输入模型中。同时,模型还使用二维ConvLSTM循环神经网络,提取视频帧内的时序信息,两种信息的加入使得模型具有了较强的鲁棒性,在遇到遮挡,形变,目标快速运动等问题时较之前模型有较好的表现。
Description
技术领域
本发明属于目标追踪、深度学习领域,是一种基于孪生全卷积跟踪模型CFNet(Correlation Filter Network),综合使用时序信息与运动信息的改进CFNet跟踪方法。
背景技术
现有的目标跟踪方法,一部分是利用现有的目标跟踪深度学习网络框架,并且主要使用 当前帧的表征信息,作为模型训练的数据来源。这样传统的模型存在一定的局限性,信息来 源比较单一,只能利用当前帧中的RGB信息。这使得这些模型在跟踪物体发生形变、快速移 动、遮挡时,表现出了较差的跟踪效果,限制了视频跟踪技术在真实场景中的使用。
相关滤波最早应用于信号处理中,用以描述两个信号之间的相关性,近年来被应用与传 统的视频目标跟踪任务中,借助傅立叶变换展现出了较优的实时性与跟踪效果。近年来来, 随着深度学习的快速发展,各类卷积神经网络在计算机视觉中表现突出,一系列基于卷积网 络的视频跟踪方法和模型框架也被提出。全卷积孪生网络SiameseFC于2016年被Bertinetto 提出。在2017年,Valmadre等人在SiameseFC架构的基础上,提出来改进的基于深度卷积跟 踪模型CFNet,将相关滤波融入到深度神经网络的架构里实现了端到端训练。在不牺牲精度 的同时,保证了方法计算处理的帧率,做到了较高的方法实时性,成为了当前在视频跟踪领 域中,被广泛应用的深度学习网络结构。
传统的相关滤波通常是对傅里叶变换后的图像进行处理,CFNet模型在SiameseFC模型 的基础上,首次在卷积神经网络中将相关滤波层加入模型,使得相关滤波层可以进行端到端 的优化。网络模型层数更少,模型训练难度更低。尽管CFNet方法在模型训练过程和训练结 果上较之前模型取得了不小的提升,但方法在进行推断处理时,只考虑到了当前帧的表层特 征,不能很好的利用到视频帧内以及帧与帧之间的关系。而这些信息的缺失,使得模型在遇 到诸如遮挡,形变等问题时表现出较差的性能。因此,在训练模型的特征选择上,还存在有 提升的空间。
发明内容
为了解决现有技术、模型存在的问题,本发明提出一种综合使用运动信息和时序信息的 改进CFNet视频跟踪方法。
本发明的技术方案:
一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,包括如下步骤:
步骤1,选取训练视频数据集,并进行预处理,得到网络模型需要的训练数据集。所述 的预处理的过程包括:对视频中的单帧图像进行亮度、对比度、色相的增广,对视频进行空 域上的裁剪,在时域上对视频的时长使用双线性插值的方法进行缩放。
步骤2,将步骤1预处理后的数据输入到构建好的网络模型中,初始化历史信息特征图, 使用训练好的CFNet或SiameseFC对目标下一帧位置进行估计,用估计结果计算初始化运动 状态特征图;
所述步骤2具体为:
步骤2.1,以Se-ResNext-50作为特征提取网络,构建网络模型,使用ImageNet预训练权 重初始化特征提取网络权重,初始化网络模型中特征提取网络以外部分的权重,使用0对历 史信息特征图进行初始化,设置模型最大训练轮数。
步骤2.2,将当前帧图片输入到网络模型中,使用CFNet或SiameseFC对目标下一帧位 置进行估计,再计算获取物体的运动信息以此初始化运动状态特征图;
(1)设物体当前的位置为Pt,目标在历史帧当中的位置分别为,Pt-T,Pt-2T,则当前帧目标的速度vt与加速度at可分别通过与相应历史值做一阶和二阶近似得到,T表示当前帧与所观察的下一帧的时间差。
vt=(Pt-Pt-T)
at=(vt-vt-T)
(2)利用运动信息对视频下一帧目标位置进行推断,得到位移、速度、加速度的特征图。 具体过程为:将下一帧图像的每个像素所在位置pi,j与预估的物体当前的位置Pt相减,得到与 Pt预估位置相关的位移特征图Mp,同理获得速度与加速度状态差的特征图Mv,Ma。
Mp(i,j)=pi,j-Pt
Mv(i,j)=Mp(i,j)-vt
Ma(i,j)=Mv(i,j)-at
(3)将得到的跟踪物体位移、速度、加速度特征图在通道轴进行拼接,得到运动状态特 征图M=[Mp,Mv,Ma],同时对过去的状态进行平滑处理:
其中,为在t时刻跟踪物体的速度,为在t时刻跟踪物体的加速度,vj为位置为 j的像素的速度,aj为位置为j的像素的加速度;
步骤2.3,将运动状态特征图M与当前帧进行拼接,作为图像特征提取网络Se-ResNext-50 的输入,得到当前帧特征图It。
步骤2.4,将当前帧特征图It,与在T时刻之前得到的历史状态特征Ht-1,同时输入到时 序特征状态提取网络ConvLSTM中,得到当前时刻的状态特征Ht,ConvLSTM在接收上一状 态特征Ht-1与当前帧特征图It后获取当前时刻状态特征Ht的方式如下:
其中,it为t时刻输入门特征,ft为t时刻遗忘门特征,Ct为t时刻细胞特征,ot为t时刻输出 门特征,*表示卷积操作,°表示Hadamard积,σ为Sigmoid激活函数,W(*)为卷积核权重,Wi为输 入门权重,Wci为细胞输入门权重,Wf为遗忘门权重,Wcf为细胞遗忘门权重,Wc为细胞权重, Wxo为输出权重,Who为隐藏状态输出门权重,Wco为细胞输出门权重,b(*)为偏置项,bi为输 入门偏置,bf为遗忘门偏置,bc为细胞偏置,bo为输出门偏置,tanh(·)表示双曲正切函数。
步骤3,使用Se-ResNext-50对模板帧图像特征进行提取,与步骤2中得到的当前时刻状 态特征Ht一起,作为相关滤波层的输入,通过相关滤波层进行匹配识别,输出匹配度最高的 结果作为模型预估的跟踪目标位置。
所述步骤3具体为:
步骤3.1,再次使用在步骤2出现过的SE-ResNext-50特征提取网络,对模板帧进行特征 提取,得到模板帧的特征向量。
步骤3.2,将模板帧特征信息与当前帧状态特征,同时输入到相关滤波层中,得到两个状 态下两特征的匹配度,相关滤波的具体操作为:
hρ,s,b(x,z)=sω(fρ(x))*fρ(z)+b
其中,ω指代CFNet里面所指的相关滤波层,s,b是为了使响应值更适用于Logistics回归的而 引入的参数,fρ(x)表示当前帧搜索区域的特征,fρ(z)表示上一帧目标的特征。
步骤3.3,根据模型输出相应值的高低,作为模型在该位置的得分,相应值最大的位置作 为当前帧中目标的预估位置。
步骤4,跟踪过程中通过步骤2与步骤3中的公式不断维护历史状态特征图与运动状态 特征图,通过多尺度输入不断修正跟踪目标边界框大小,并根据模型的损失函数,采用反向 传播方法,对整个网络的参数进行微调,重复步骤4,得到最后的网络模型;
所述步骤4具体为:
步骤4.1,将步骤2得到的Ht作为下一帧的历史状态信息,将步骤3中得到的当前帧模型 预估的跟踪目标位置通过步骤2的方式计算获得运动状态特征图;
步骤4.2,放大和缩小边界框,再通过双线性插值将模版帧缩放至模型要求输入的大小后 输入模型;
步骤4.3,将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置;
步骤4.4,通过损失函数计算目标位置与实际位置之间的误差,并通过反向传播方法不断 调整训练参数;
步骤5,将测试视频数据集输入到步骤4得到的模型中,输出结果,
所述步骤5具体为:
步骤5.1,将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中, 经过步骤2中各隐藏层网络的处理,提取视频帧中的当前状态特征信息;
步骤5.2,将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比, 确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置。
本发明的有益效果:为了使模型有更强的鲁棒性,首先,要能够更好的提取视频帧中的 图像特征,在CFNet模型的基础上,引入了SE-ResNext-50作为本模型的特征提取网络,其 次,通过前后帧的信息,计算物体的位移、速度、加速度特征,作为跟踪目标的运动信息特 征输入模型中。同时,模型还使用二维ConvLSTM循环神经网络,提取视频帧内的时序信息, 两种信息的加入使得模型具有了较强的鲁棒性,在遇到遮挡,形变,目标快速运动等问题时 较之前模型有较好的表现。
附图说明
图1为本发明中方法的模型的网络结构图。
图2为本发明中方法的训练流程图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
步骤1选取训练视频数据集,并进行预处理,得到模型需要的训练数据集。
步骤2将步骤1预处理后的数据输入到构建好的模型中,初始化历史信息特征图,使用 训练好的CFNet或SiameseFC对目标下一帧位置进行估计,以此计算初始化运动状态特征图;
所述步骤2具体为:
步骤2.1,以Se-ResNext-50作为特征提取网络,构建网络模型,使用ImageNet预训练权 重初始化特征提取网络权重,初始化模型其他部分权重,使用0对历史信息特征图进行初始 化,设置模型最大训练轮数。
步骤2.2,将当前帧图片输入到网络中,使用CFNet或SiameseFC对目标下一帧位置进 行估计,再计算获取物体的运动信息以此初始化运动状态特征图;
(1)假设物体当前的位置为Pt,目标在历史帧当中的位置分别为,Pt-T,Pt-2T,则当前帧目标的速度vt与加速度at可分别通过与与相应历史值做一阶和二阶近似得到, T表示当前帧与所观察的下一帧的时间差。
vt=(Pt-Pt-T)
at=(vt-vt-T)
(2)利用运动信息对视频下一帧目标位置进行推断,得到位移、速度、加速度的特征图。 具体的,我们将下一帧图像的每个像素所在位置pi,j与预估位置Pt相减,得到与预估位置相关 的位移特征图Mp,同理可得速度与加速度状态差的特征图Mv,Ma。
Mp(i,j)=pi,j-Pt
Mv(i,j)=Mp(i,j)-vt
Ma(i,j)=Mv(i,j)-at
(3)将得到的跟踪物体位移、速度、加速度特征图在通道轴进行拼接,得到运动状态特 征图M=[Mp,Mv,Ma],同时对过去个状态进行平滑处理:
其中,为在t时刻跟踪物体的速度,为在t时刻跟踪物体的加速度,vj为位置为 j的像素的速度,aj为位置为j的像素的加速度;
步骤2.3将运动状态特征图M与当前帧进行拼接,作为图像特征提取网络Se-ResNext-50 的输入,得到当前帧特征图It。
步骤2.4将当前帧特征矩阵It,与在T时刻之前得到的历史状态Ht-1,同时输入到时序 特征状态提取网络ConvLSTM中,得到当前的时刻的特征Ht,ConvLSTM在接收上一状态Ht-1与当前输入状态It后获取下一状态Ht的方式如下:
其中,it为t时刻输入门特征,ft为t时刻遗忘门特征,Ct为t时刻细胞特征,ot为t时刻输出 门特征,*表示卷积操作,°表示Hadamard积,σ为Sigmoid激活函数,W(*)为卷积核权重,Wi为输 入门权重,Wci为细胞输入门权重,Wf为遗忘门权重,Wcf为细胞遗忘门权重,Wc为细胞权重, Wxo为输出权重,Who为隐藏状态输出门权重,Wco为细胞输出门权重,b(*)为偏置项,bi为输 入门偏置,bf为遗忘门偏置,bc为细胞偏置,bo为输出门偏置,tanh(·)表示双曲正切函数。
步骤3、使用Se-ResNext-50对模板帧图像特征进行提取,与步骤2中得到的当前时刻特 征Ht一起,作为相关滤波层的输入,通过相关滤波层进行匹配识别,输出匹配度最高的结果 最为模型判断的跟踪目标位置。
所述步骤3具体为:
步骤3.1再次使用在步骤2出现过的SE-ResNext-50特征提取网络,对模板帧进行特征 提取,得到模板帧的特征向量。
步骤3.2将模板帧特征信息与当前帧状态特征,同时输入到相关滤波层中,得到两个状 态下两特征的匹配度,相关滤波的具体操作为:
hρ,s,b(x,z)=sω(fρ(x))*fρ(z)+b
其中ω指代CFNet里面所指的相关滤波层,s,b是为了使响应值更适用于Logistics回归的而引 入的参数,fρ(x)表示当前帧搜索区域的特征,fρ(z)表示上一帧目标的特征。
步骤3.3根据模型输出相应值的高低,作为模型在该位置的得分,相应值最大的位置作 为当前帧中目标的预估位置。
步骤4、跟踪过程中通过步骤2与步骤3中的公式不断维护历史状态特征图与运动状态 特征图,通过多尺度输入不断修正跟踪目标边界框大小,并根据模型的损失函数,采用反向 传播方法,对整个网络的参数进行微调,重复此步骤,得到最后的网络模型;
所述步骤4具体为:
步骤4.1,将步骤2得到的Ht作为下一帧的历史状态信息,将步骤3中得到的模型当前帧 的预估位置通过步骤2的方式计算获得运动状态特征图;
步骤4.2,以一定比例放大和缩小边界框,再通过双线性插值将模版帧缩放至模型要求输 入大小输入模型;
步骤4.3,将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置;
步骤4.4,通过损失函数计算目标位置与实际位置之间的误差,并通过反向传播方法不断 调整训练参数;
步骤5、将测试视频数据集输入到步骤4得到的模型中,并将输出结果,
所述步骤5具体为:
步骤5.1将预处理好的测试视频数据集输入到步骤4训练好的,参数确定的网络模型中, 经过步骤2中各隐藏层网络的处理,提取视频帧中的当前特征状态信息;
步骤5.2将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比, 确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置;
本发明的有益效果:为了使模型有更强的鲁棒性,首先,要能够更好的提取视频帧中的 图像特征,在CFNet模型的基础上,引入了SE-ResNext-50作为本模型的特征提取网络,
其次,通过前后帧的信息,计算物体的位移、速度、加速度特征,作为跟踪目标的运动 信息特征输入模型中。同时,模型还使用二维ConvLSTM循环神经网络,提取视频帧内的时 序信息,两种信息的加入使得模型具有了较强的鲁棒性,在遇到遮挡,形变,目标快速运动 等问题时较之前模型有较好的表现。
实施例2:在OTB-50和OTB-100数据集上的实验
OTB-50和OTB-100数据集包括了目标任务常见的典型问题场景,如目标快速移动、目 标遮挡等。其中实验在Linux系统下搭建的pytorch环境下进行,评价指标采用交并比(Intersection over Union,IoU)与距离精度(Distance Precision,DP),并使用OPE(One-Pass Evaluation)与TRE(Temporal Robustness Evaluation)评估方式。
交并比指标定义为:
其中Bg为标准目标框,Bt为方法预测所得目标框,area为区域面积计算函数。
距离精度指标定义为:
其中m表示目标的预测中心与标准中心位置的欧式距离小于一定阈值的帧数(文本阈值设为 20像素),n表示总帧数。
OPE评估方式指根据第一帧中的标准中心位置进行初始化,然后在测试序列中运行方法, 最后计算指标得分。TRE评估方式指在不同帧上进行初始化,再在序列中运行方法得到结果, 再对这些结果的指标得分取平均值。
本次实验中,将CFNet中综合性能最优的CFNet-conv3和SiameseFC中综合性能最优的 Siamese-3s进行对比,表1给出了方法在数据上对应指标得分。
表1各方法性能评估/%
Table 1 Comparison between algorithms performance
从表1中可以看出,通过一系列对比实验,本发明提出的跟踪方法各项指标相对于Siamese-3s和CFNet-conv3有较为显著的提升。在场景干扰或目标快速移动的情况下,CFNet 容易受到周围物体干扰导致目标脱框,而本方法在这种情况下仍可通过目标的运动信息来判 断目标的预估方向与位置,使得不会受到场景影响导致过分偏离原运动方向。而ConvLSTM 通过拟合帧中场景的时序变化,使得在场景变化较大的情况下,方法可以依据历史帧中的信 息去辨别目标。
表2各部分收益评价/%
Table 2 Gainsofeachpart
数据集 | 评价指标 | 运动信息 | 时序信息 | 综合 |
OPE IoU | 54.5 | 54.7 | 55.2 | |
OTB-50 | OPE DP | 72.8 | 73.0 | 73.5 |
TRE IoU | 58.6 | 58.8 | 59.2 | |
TRE DP | 77.2 | 77.8 | 78.4 | |
OPE IoU | 59.2 | 59.6 | 60.2 | |
OTB-100 | OPE DP | 78.5 | 78.7 | 79.2 |
TRE IoU | 62.0 | 61.9 | 62.6 |
同表1的实验,采用同样的评估方式,为本方法中提出的各个部分设计了对模型性能上 的增益的对比实验,结果如表2所示。从中我们可以看出与基础模型相比,改进方法中无论 是运动信息的使用还是ConvLSTM模块去获取历史帧中的时序信息都给模型带来了一定的提 升。
Claims (10)
1.一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,包括如下步骤:
步骤1,选取训练视频数据集,并进行预处理,得到网络模型需要的训练数据集;
步骤2,将步骤1预处理后的数据输入到构建好的网络模型中,初始化历史信息特征图,使用训练好的CFNet或SiameseFC对目标下一帧位置进行估计,用估计结果计算初始化运动状态特征图;
步骤3,使用Se-ResNext-50对模板帧图像特征进行提取,与步骤2中得到的当前时刻状态特征Ht一起,作为相关滤波层的输入,通过相关滤波层进行匹配识别,输出匹配度最高的结果作为模型预估的跟踪目标位置;
步骤4,跟踪过程中通过步骤2与步骤3中的公式不断维护历史状态特征图与运动状态特征图,通过多尺度输入不断修正跟踪目标边界框大小,并根据模型的损失函数,采用反向传播方法,对整个网络的参数进行微调,重复步骤4,得到最后的网络模型;
步骤5,将测试视频数据集输入到步骤4得到的模型中,输出结果。
2.根据权利要求1所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤2具体为:
步骤2.1,以Se-ResNext-50作为特征提取网络,构建网络模型,使用ImageNet预训练权重初始化特征提取网络权重,初始化网络模型中特征提取网络以外部分的权重,使用0对历史信息特征图进行初始化,设置模型最大训练轮数;
步骤2.2,将当前帧图片输入到网络模型中,使用CFNet或SiameseFC对目标下一帧位置进行估计,再计算获取物体的运动信息以此初始化运动状态特征图;
(1)设物体当前的位置为Pt,目标在历史帧当中的位置分别为,Pt-T,Pt-2T,则当前帧目标的速度vt与加速度at可分别通过与相应历史值做一阶和二阶近似得到,T表示当前帧与所观察的下一帧的时间差;
vt=(Pt-Pt-T)
at=(vt-vt-T)
(2)利用运动信息对视频下一帧目标位置进行推断,得到位移、速度、加速度的特征图;具体过程为:将下一帧图像的每个像素所在位置pi,j与预估的物体当前的位置Pt相减,得到与Pt预估位置相关的位移特征图Mp,同理获得速度与加速度状态差的特征图Mv,Ma;
Mp(i,j)=pi,j-Pt
Mv(i,j)=Mp(i,j)-vt
Ma(i,j)=Mv(i,j)-at
(3)将得到的跟踪物体位移、速度、加速度特征图在通道轴进行拼接,得到运动状态特征图M=[Mp,Mv,Ma],同时对过去的状态进行平滑处理:
其中,为在t时刻跟踪物体的速度,为在t时刻跟踪物体的加速度,vj为位置为j的像素的速度,aj为位置为j的像素的加速度;
步骤2.3,将运动状态特征图M与当前帧进行拼接,作为图像特征提取网络Se-ResNext-50的输入,得到当前帧特征图It;
步骤2.4,将当前帧特征图It,与在T时刻之前得到的历史状态特征Ht-1,同时输入到时序特征状态提取网络ConvLSTM中,得到当前时刻的状态特征Ht,ConvLSTM在接收上一状态特征Ht-1与当前帧特征图It后获取当前时刻状态特征Ht的方式如下:
其中,it为t时刻输入门特征,ft为t时刻遗忘门特征,Ct为t时刻细胞特征,ot为t时刻输出门特征,*表示卷积操作,°表示Hadamard积,σ为Sigmoid激活函数,W(*)为卷积核权重,Wi为输入门权重,Wci为细胞输入门权重,Wf为遗忘门权重,Wcf为细胞遗忘门权重,Wc为细胞权重,Wxo为输出权重,Who为隐藏状态输出门权重,Wco为细胞输出门权重,b(*)为偏置项,bi为输入门偏置,bf为遗忘门偏置,bc为细胞偏置,bo为输出门偏置,tanh(·)表示双曲正切函数。
3.根据权利要求1或2所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤3具体为:
步骤3.1,再次使用在步骤2出现过的SE-ResNext-50特征提取网络,对模板帧进行特征提取,得到模板帧的特征向量;
步骤3.2,将模板帧特征信息与当前帧状态特征,同时输入到相关滤波层中,得到两个状态下两特征的匹配度,相关滤波的具体操作为:
hρ,s,b(x,z)=sω(fρ(x))*fρ(z)+b
其中,ω指代CFNet里面所指的相关滤波层,s,b是为了使响应值更适用于Logistics回归的而引入的参数,fρ(x)表示当前帧搜索区域的特征,fρ(z)表示上一帧目标的特征;
步骤3.3,根据模型输出相应值的高低,作为模型在该位置的得分,相应值最大的位置作为当前帧中目标的预估位置。
4.根据权利要求1或2所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤4具体为:
步骤4.1,将步骤2得到的Ht作为下一帧的历史状态信息,将步骤3中得到的当前帧模型预估的跟踪目标位置通过步骤2的方式计算获得运动状态特征图;
步骤4.2,放大和缩小边界框,再通过双线性插值将模版帧缩放至模型要求输入的大小后输入模型;
步骤4.3,将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置;
步骤4.4,通过损失函数计算目标位置与实际位置之间的误差,并通过反向传播方法不断调整训练参数。
5.根据权利要求3所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤4具体为:
步骤4.1,将步骤2得到的Ht作为下一帧的历史状态信息,将步骤3中得到的当前帧模型预估的跟踪目标位置通过步骤2的方式计算获得运动状态特征图;
步骤4.2,放大和缩小边界框,再通过双线性插值将模版帧缩放至模型要求输入的大小后输入模型;
步骤4.3,将响应值最大的尺寸与位置作为下一帧目标模版帧的边界框尺寸与预估位置;
步骤4.4,通过损失函数计算目标位置与实际位置之间的误差,并通过反向传播方法不断调整训练参数。
6.根据权利要求1、2或5所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤5具体为:
步骤5.1,将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中,经过步骤2中各隐藏层网络的处理,提取视频帧中的当前状态特征信息;
步骤5.2,将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比,确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置。
7.根据权利要求3所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤5具体为:
步骤5.1,将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中,经过步骤2中各隐藏层网络的处理,提取视频帧中的当前状态特征信息;
步骤5.2,将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比,确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置。
8.根据权利要求4所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,所述步骤5具体为:
步骤5.1,将预处理好的测试视频数据集输入到步骤4训练好的、参数确定的网络模型中,经过步骤2中各隐藏层网络的处理,提取视频帧中的当前状态特征信息;
步骤5.2,将得到的模板帧特征信息与当前帧状态特征信息,通过相关滤波层进行对比,确定当前帧各部分与模板帧的响应值,得到模型推断的跟踪目标位置。
9.根据权利要求1、2、5、7或8所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,步骤1中所述的预处理的过程包括:对视频中的单帧图像进行亮度、对比度、色相的增广,对视频进行空域上的裁剪,在时域上对视频的时长使用双线性插值的方法进行缩放。
10.根据权利要求6所述的一种使用运动信息与时序信息的改进CFNet视频目标追踪方法,其特征在于,步骤1中所述的预处理的过程包括:对视频中的单帧图像进行亮度、对比度、色相的增广,对视频进行空域上的裁剪,在时域上对视频的时长使用双线性插值的方法进行缩放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797988.1A CN110580712B (zh) | 2019-08-27 | 2019-08-27 | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797988.1A CN110580712B (zh) | 2019-08-27 | 2019-08-27 | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580712A true CN110580712A (zh) | 2019-12-17 |
CN110580712B CN110580712B (zh) | 2023-04-25 |
Family
ID=68812088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910797988.1A Active CN110580712B (zh) | 2019-08-27 | 2019-08-27 | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580712B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091582A (zh) * | 2019-12-31 | 2020-05-01 | 北京理工大学重庆创新中心 | 一种基于深度神经网络的单视觉目标跟踪算法及系统 |
TWI783899B (zh) * | 2022-04-20 | 2022-11-11 | 圓展科技股份有限公司 | 自動追蹤拍攝系統及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919977A (zh) * | 2019-02-26 | 2019-06-21 | 鹍骐科技(北京)股份有限公司 | 一种基于时间特征的视频运动人物跟踪与身份识别方法 |
CN109934846A (zh) * | 2019-03-18 | 2019-06-25 | 南京信息工程大学 | 基于时间和空间网络的深度集成目标跟踪方法 |
-
2019
- 2019-08-27 CN CN201910797988.1A patent/CN110580712B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919977A (zh) * | 2019-02-26 | 2019-06-21 | 鹍骐科技(北京)股份有限公司 | 一种基于时间特征的视频运动人物跟踪与身份识别方法 |
CN109934846A (zh) * | 2019-03-18 | 2019-06-25 | 南京信息工程大学 | 基于时间和空间网络的深度集成目标跟踪方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091582A (zh) * | 2019-12-31 | 2020-05-01 | 北京理工大学重庆创新中心 | 一种基于深度神经网络的单视觉目标跟踪算法及系统 |
TWI783899B (zh) * | 2022-04-20 | 2022-11-11 | 圓展科技股份有限公司 | 自動追蹤拍攝系統及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110580712B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114972418B (zh) | 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法 | |
CN108154118A (zh) | 一种基于自适应组合滤波与多级检测的目标探测系统及方法 | |
US20060093188A1 (en) | Probabilistic exemplar-based pattern tracking | |
US20060078163A1 (en) | Mode- based multi-hypothesis tracking using parametric contours | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN110580472A (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN112308921B (zh) | 一种基于语义和几何的联合优化动态slam方法 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
CN112215079B (zh) | 一种全局多阶段目标跟踪方法 | |
CN110580712B (zh) | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN112184767A (zh) | 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质 | |
CN111931603A (zh) | 基于竞合网络的双流卷积网络的人体动作识别系统及方法 | |
CN110827320A (zh) | 基于时序预测的目标跟踪方法和装置 | |
CN112686952A (zh) | 一种图像光流计算系统、方法及应用 | |
CN112149500A (zh) | 一种部分遮挡的人脸识别小样本学习方法 | |
CN111429485A (zh) | 基于自适应正则化和高信度更新的跨模态滤波跟踪方法 | |
CN114821580A (zh) | 一种分阶段融入去噪模块的含噪图像分割方法 | |
CN110751670A (zh) | 一种基于融合的目标跟踪方法 | |
CN110136164B (zh) | 基于在线透射变换、低秩稀疏矩阵分解去除动态背景的方法 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
Saunders et al. | Dyna-dm: Dynamic object-aware self-supervised monocular depth maps | |
CN101127120B (zh) | 一种有效抑制模板漂移的目标跟踪算法 | |
CN114022510A (zh) | 一种基于内容检索的目标长时跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |