CN111696136B - 一种基于编解码结构的目标跟踪方法 - Google Patents

一种基于编解码结构的目标跟踪方法 Download PDF

Info

Publication number
CN111696136B
CN111696136B CN202010518310.8A CN202010518310A CN111696136B CN 111696136 B CN111696136 B CN 111696136B CN 202010518310 A CN202010518310 A CN 202010518310A CN 111696136 B CN111696136 B CN 111696136B
Authority
CN
China
Prior art keywords
network
frame
conv
encoder
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010518310.8A
Other languages
English (en)
Other versions
CN111696136A (zh
Inventor
王正宁
曾浩
潘力立
赵德明
曾仪
刘怡君
彭大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010518310.8A priority Critical patent/CN111696136B/zh
Publication of CN111696136A publication Critical patent/CN111696136A/zh
Application granted granted Critical
Publication of CN111696136B publication Critical patent/CN111696136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于编解码结构的目标跟踪方法,该方法使用编码器‑解码器与鉴别器组合,构建类似生成对抗网络结构,使得编码器提取的特征更加泛化,学习到被跟踪对象的本质特征。由于对象帧中存在被半遮挡、受到光照、运动模糊影响的对象,使得网络受到这些影响更小,更具鲁棒性。使用Focal Loss使用替代传统的交叉熵损失函数,使得网络减少易分类样本的损失,使得模型更关注于困难的、错分的样本,同时平衡正负样本数量的不均衡。使用Distance‑U loss作为回归损失,不仅关注重叠区域,还关注其他的非重合区域,具有尺度不变性,可以为边界框提供移动方向,同时具有较快的收敛速度。

Description

一种基于编解码结构的目标跟踪方法
技术领域
本发明属于图像处理和计算机视觉领域,具体涉及一种基于编码器-解码器结构的目标跟踪方法。
背景技术
计算机视觉的主要目标之一是使计算机能够复制人类视觉的基本功能,如运动感知和场景理解。为了实现智能运动感知的目标,在视觉物体跟踪方面投入了大量精力,这是计算机视觉中最重要、最具挑战性的研究课题之一。从本质上讲,可视对象跟踪的核心是在输入图像序列的每个帧中可靠估计目标对象的运动状态(即位置、方向、大小等)。目标跟踪算法在现阶段主要有两个大的分支,一个是基于相关滤波算法,一个是基于深度学习算法。本发明所提出的目标跟踪方法属于深度学习这一分支。而基于深度学习主要有:卷积神经网络;循环神经网络;生成对抗网络;孪生神经网络这四种主要方法。
“Fully-convolutional siamese networks for object tracking,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr,In ECCVWorkshops,2016”即为典型的基于孪生神经网络目标跟踪深度网络,孪生网络通过两个相同结构、参数共享的卷积神经网络提取区域特征与跟踪目标特征,通过在区域特征中寻找与目标特征相似的位置,确定跟踪目标在区域中的位置。该方法是一种比较原始的孪生网络,总体性能较低。发明专利“一种基于孪生神经网络和注意力模型的无人机跟踪方法,公开号CN110675423A”也使用了孪生网络,其训练中的分类损失选择交叉熵,但普通的交叉熵对于正样本而言,输出概率越大损失越小。对于负样本而言,输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优,而目标跟踪任务由于锚框的存在,恰恰存在许多简单样本。发明专利“一种基于孪生网络的目标跟踪方法,公开号CN110807793A”也是基于孪生网络的目标跟踪方法,其回归损失选取的L1损失函数。L1损失函数对4个坐标值进行分别回归,但该损失函数存在以下的不足:首先用该损失函数计算目标检测的包围框回归损失时,独立求出4个点的损失,然后进行相加得到最终的包围框回归损失,这种做法的假设是4个点是相互独立,但事实上该四个点存在相关性;其次实际评价框检测的指标是使用交并比,与L1不等价。“Fully-convolutional siamesenetworks for object trac king,L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr,I n ECCV Workshops,2016”和“一种基于孪生神经网络和注意力模型的无人机跟踪方法,公开号CN110675423A”提取特征的卷积神经网络虽然结构不同,但都是基于ImageNet图片数据库进行的预训练,再对整个网络进行端到端的训练。由于孪生网络具有比较高的复杂性,这种预训练对于整个网络的训练非常必要。但基于ImageNet图片数据库的预训练任务是基于分类任务,其卷积神经网络部分提取的特征也更加适用于分类任务,与适用于跟踪任务的特征提取需要存在不匹配。
“Generative Adversarial Networks for Extreme Learned ImageCompression,Agu stsson,Eirikur,et al.,2018”是一种利用编码器解码器结构与生成对抗结构的生成压缩网络,该网络用于图像的压缩,其编码器用于将图片进行编码,在训练阶段,解码器对编码结果进行解码,鉴别器用于鉴别生成结果。其中该编码器类似于特征提取网络,其目标是提取出该图像的本质特征,这种方法可以不依赖于标签对图像进行特征提取。这种特征获取的方法亦可利用于孪生网络的特征提取部分网络的预训练,且这种预训练完全依赖于使用的目标跟踪数据集,使得整个网络对跟踪数据集有更好的拟合。
针对现有孪生网络算法的不足,本发明综合分析其优缺点,使用编码器解码器与生成对抗网络的混合结构对网络的特征提取部分进行无监督学习的预训练,并使用FocalLoss与D IoU Loss应用于网络的损失函数,使得网络具有更好的鲁棒性。
发明内容
本发明属于计算机视觉和深度学习领域,对视频流中的指定对象进行跟踪,通过改进孪生网络的特征提取机制,利用编码器-解码器结构以及生成对抗网络,对图像进行学习,获得其特征,使得整个目标跟踪网络对目标跟踪数据集有更好的拟合能力以及鲁棒性。该方法具体内容如下:
该方法通过目标跟踪网络模型实现,所述目标跟踪网络模型的结构主要由三部分组成,第一部分是编码器-解码器部分:其中通过由卷积神经网络构成的编码器提取出模板帧(被搜索对象图像)和搜索帧(在该帧中寻找被搜索对象的位置)的深层特征,而解码器在训练部分,将模板帧的深层特征还原回该对象图像;第二部分是鉴别网络,用于鉴别解码器输出的图像与输入解码器的图像是否属于同一对象;第三部分是确定对象位置:通过将提取出的模板帧特征与搜索帧特征送入区域推荐网络,获得被跟踪物体的位置。
所述目标跟踪网络模型的训练过程主要由两个阶段组成,第一个阶段是特征提取预训练:通过编码器-解码器结构与生成对抗网络,学习到训练集中的跟踪对象的深层特征,得到特征提取部分的预训练模型。第二个阶段是所述目标跟踪网络模型的整体训练阶段,通过对整个所述目标跟踪网络进行端到端的训练,完成对区域推荐网络的训练以及对特征提取部分的微调。
本发明使用编码器-解码器与鉴别器组合,构建类似生成对抗网络结构,同时让解码器生成与模板帧属于同一目标的对象帧,而不局限于模板帧本身,使得编码器提取的特征更加泛化,学习到被跟踪对象的本质特征。由于对象帧中存在被半遮挡、受到光照、运动模糊影响的对象,使得网络受到这些影响更小,更具鲁棒性。使用Focal Loss使用替代传统的交叉熵损失函数,可以使得网络减少易分类样本的损失,使得模型更关注于困难的、错分的样本,同时平衡正负样本数量的不均衡。使用Distance-U loss作为回归损失,不仅关注重叠区域,还关注其他的非重合区域,具有尺度不变性,可以为边界框提供移动方向,同时具有较快的收敛速度。
附图说明
图1为本发明的目标跟踪网络整体结构示意图;
图2为本发明鉴别网络结构示意图;
图3为本发明编码器解码器结构示意图;
图4为本发明区域推荐网络示意图;
图5为本发明目标跟踪网络输出结果示意图;
图6为本发明DIoU示意图;
图7为本发明目标跟踪网络训练流程图。
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
本发明提出了一种基于编解码结构的目标跟踪方法,该方法通过目标跟踪网络模型实现,所述目标跟踪网络模型的结构主要由三部分组成,第一部分是编码器-解码器部分:其中通过由卷积神经网络构成的编码器提取出模板帧(被搜索对象图像)和搜索帧(在该帧中寻找被搜索对象的位置)的深层特征,而解码器在训练部分,将模板帧的深层特征还原回该对象图像;第二部分是鉴别网络,用于鉴别解码器输出的图像与输入解码器的图像是否属于同一对象;第三部分是确定对象位置:通过将提取出的模板帧特征与搜索帧特征送入区域推荐网络,获得被跟踪物体的位置。
所述目标跟踪网络模型的训练过程主要由两个阶段组成,第一个阶段是特征提取预训练:通过编码器-解码器结构与生成对抗网络,学习到训练集中的跟踪对象的深层特征,得到特征提取部分的预训练模型。第二个阶段是所述目标跟踪网络模型的整体训练阶段,通过对整个所述目标跟踪网络进行端到端的训练,完成对区域推荐网络的训练以及对特征提取部分的微调。
(1)数据集预处理:目标跟踪所使用的数据集是有许多的视频流及其对应的标签所组成,标签标注有每一帧对象的位置以及包围框的长宽。通过标签,将视频流中的每一帧图像进行裁切,以跟踪对象为中心裁切成wo×ho像素的对象帧Fo和wc×hc像素的搜索帧Fc(wo<wc,ho<hc),其中属于该视频流中的第一帧对象帧Fo为该视频流的模板帧Ft,且二者尺寸相同。完成裁切后,在每一个视频流中,随机挑选n个对象帧Fo,将模板帧Ft与对象帧Fo做点对点相减,获得残差帧Fr,作为训练鉴别器的样本。
(2)设计编码器:编码器用于图像的特征提取,由深度残差网络组成。特征提取部分为两个经过预训练的编码器E1、E2,这两个编码器参数共享,如图1所示,两个编码器分别输入模板帧Ft与搜索帧Fc,通过一系列卷积、下采样、激活函数后,输出模板帧特征Conv(Ft)与搜索帧特征Conv(Fc),这两个编码器之间参数共享,保证其提取特征具有一致性。其中输入模板帧Ft尺寸为wt×ht×3,搜索帧Fc尺寸为wc×hc×3;输出模板帧特征Conv(Ft)尺寸为wt-c onv×ht-conv×Ccd,搜索帧特征Conv(Fc)尺寸为wc-conv×hc-conv×Ccd。解码器的结构与编码器对称,解码器输入是尺寸为wt-conv×ht-conv×Cde的模板帧特征Conv(Ft),通过一系列卷积、上采样、激活函数后输出尺寸为wt×ht×3的解码模板帧对象
Figure BDA0002530962050000041
(3)设计鉴别网络:鉴别网络为一个卷积神经网络,如图2所示,输入为解码模板帧与模板帧的残差
Figure BDA0002530962050000042
通过卷积,下采样,全连接层,激活函数,输出模板帧与解码出的模板帧为同一对象的概率。
(4)编码器-解码器预训练:编码器为网络的特征提取部分,同时使用一个对称的解码器,如图3所示,组成编码器-解码器结构,同时与一个鉴别网络一起,组成了一个类生成对抗网络结构。如果解码器使用上述深度残差网络,解码器与编码器网络结构对称,将编码器网络中的所有残差模块按逆序放置,同时将编码器中所用到的步长为2的卷积替换为步长为2的反卷积,池化层替换成上采样层,即为对应的解码器结构。
编码器-解码器结构输入模板帧Ft,编码器输出该对象帧Fo的特征Fe,也就是其深层特征,解码器用于解码Fe,输出解码结果
Figure BDA0002530962050000043
鉴别网络用于鉴别/>
Figure BDA0002530962050000044
是否在可接受范围,即判断Ft与/>
Figure BDA0002530962050000051
是否是同一对象。其整个网络的训练优化目标如下所示:
Figure BDA0002530962050000052
其中EG对应编码器-解码器,相当于一般生成对抗网络的生成网络,但其输入不再是噪声而是模板帧Ft,D对应鉴别器,其作用与一般生成对抗网络的鉴别器相同,输出范围是0~1,数值越大表示Ft
Figure BDA0002530962050000053
是同一对象的可能性越高。/>
Figure BDA0002530962050000054
表示当x服从Fr的概率分布时,log(D(x))的期望;D(x)表示鉴别器在输入为x时的输出,也就是对x的鉴别结果。/>
Figure BDA0002530962050000055
表示当z服从Ft的概率分布时,log(1-D(EG(z)-Ft))的期望;EG(z)表示编码器-解码器在输入为z时的输出,D(EG(z)-Ft)表示对EG(z)-Ft的鉴别结果。当达到纳什均衡后,即训练完成,其编码器部分即为该目标模型的特征提取网络。
(5)设计区域推荐网络:区域推荐网络结构如图4所示,此网络输入模板帧特征Conv(Ft)与搜索帧特征Conv(Fc),输出被跟踪对象的可能位置与其包围框的长宽。输入Conv(Ft)与Conv(Fc)后,首先将Conv(Ft)从中心裁剪为wt-conv-cut×ht-conv-cut×256的尺寸,得到Conv(Ft)cut,之后通过卷积调整Conv(Ft)cut与Conv(Fc)的尺寸,并进行互相关运算,输出尺寸为wres×hres×2k的分类结果CLS与wres×hres×4k的回归结果REG,如图5所示,输出的结果的wres×hres维度与搜索帧wc×hc在空间上对应,每个位置上有k个设置了比例和大小的锚定框。CLS的2k个通道代表了网络预测的k种锚框包含目标的概率Ppos和不包含目标的概率Pneg。REG的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异,分别为dx,dy,d w,dh。其与实际目标框的关系为:
Figure BDA0002530962050000056
其中Ax、Ay表示参考框的中心点(由其所在位置决定),Aw、Ah表示参考框的宽高(人为设定),Tx、Ty、Tw、Th表示目标的坐标与长宽的真实值。
(6)选取分类损失函数:本文所述目标跟踪网络的输入为模板帧Ft与搜索帧Fc,输出为对应锚定框的分类结果CLS与回归结果REG。目标跟踪网络的损失函数由分类损失Lcls和回归损失Lreg构成,分类损失Lcls使用Focal Loss,公式如下所示:
Figure BDA0002530962050000057
y表示标签值,
Figure BDA0002530962050000061
表示实际分类值(即Ppos),其中α为平衡因子,平衡正负样本本身的数量比例不均,γ用于减少易分类样本的损失,当γ>0时使得该目标跟踪网络更关注于困难的、错分的样本。
(7)选取回归损失函数:回归损失Lreg使用Distance-IoU Loss,其公式为:
LDIoU=1-DIoU (4)
其中:
Figure BDA0002530962050000062
Figure BDA0002530962050000063
b和
Figure BDA0002530962050000064
分别代表真实包围框和预测包围框中心点,/>
Figure BDA0002530962050000065
代表真实包围框和预测包围框中心点这两个中心点距离,c代表能够同时包含预测框和真实框的最小闭包区域的对角线距离,S和/>
Figure BDA0002530962050000066
分别代表真实包围框和预测包围框的面积,如图6所示。
(8)目标跟踪网络整体训练:完成预训练后,开始整个网络的端到端训练。将分类损失Lcls和回归损失Lreg按照如下公式相加,即为最终的损失函数:
loss=Lcls+λLreg (7)
其中λ是一个人为设置的参数,用于平衡分类损失与回归损失的占比。整体训练中,在预训练时作为特征提取的编码器的前3层参数固定,后两层被训练微调。当训练到指定轮数时,经过测试选取指标最好的模型参数作为最终的训练结果。
本发明的一种具体实施例所涉及的关键参数如表1所示,部分图中标注的具体参数是以该实施参数为基准:
表1实施例具体参数
Figure BDA0002530962050000067
本发明所设计的目标跟踪模型网络具体训练流程如图7所示,其中具体训练过程以及该方案具体实施相关参数如下:
如图2所示,鉴别网络的实际结构可以由任务复杂度来定。一种具体的网络可由七个卷积层与三个全连接层组成,如表2所示,卷积层与池化层后接ReLU激活函数。
表2一种具体的鉴别器结构
Figure BDA0002530962050000071
在本发明的实施例中,实际训练时,对数据集中的视频序列进行预处理。根据标签信息,裁切获得127×127像素的对象帧Fo以及模板帧Ft,255×255像素的搜索帧Fc
在每一个视频流中随机选取100个对象帧Fo(如果数量不足100则选取所有对象帧),将模板帧Ft与对象帧Fo做点对点相减,获得残差帧Fr,作为训练鉴别器的样本,其尺寸为127×127像素。
完成预处理后,进行特征提取的预训练,将模板帧Ft送入编码器-解码器,输出解码结果
Figure BDA0002530962050000072
优化编码器-解码器损失。将/>
Figure BDA0002530962050000073
送入鉴别器,优化鉴别器损失。当二者损失达到纳什均衡时结束训练,完成特征提取预训练。
完成特征提取预训练后,进行网络的整体训练,网络整体如图1所示包括两个特征提取网络E1与E2以及一个区域推荐网络RPN。其中特征提取网络E1与E2与预训练中编码器结构完全一致,并且将预训练中获得的编码器模型作为E1与E2的预训练模型,并在整体训练阶段固定E1与E2的前3层参数。
将模板帧Ft和搜索帧Fc送入特征提取网络E1与E2,获得模板帧特征Conv(Ft),尺寸为15×15×256;搜索帧特征Conv(Fc),尺寸为31×31×256。
将模板帧特征Conv(Ft)与搜索帧特征Conv(Fc)送入区域推荐网络RPN。区域推荐网络具体结构如图4所示,包括四个进行卷积操作的卷积层,以及两处进行互相关运算的节点。共设置5种锚框,即k=5。首先将Conv(Ft)进行裁切,裁切掉周围部分元素,尺寸变为7×7×256,之后通过四个卷积层调整Conv(Ft)与搜索帧的混合特征Conv(Fc)的通道数,分别可以获得:[Conv(Ft)]c,尺寸为5×5×(10×256);[Conv(Ft)]r,尺寸为5×5×(20×256);[Conv(Fc)]c,尺寸为29×29×256;[Conv(Fc)]r,尺寸为29×29×256。
分别将[Conv(Ft)]c与[Conv(Fc)]c、[Conv(Ft)]r与[Conv(Fc)]r进行互相关运算,可以获得分类结果CLS和回归结果REG,其中CLS的尺寸为25×25×10,REG的尺寸为25×25×20。
根据式(3)~(7)计算损失并进行优化。当达到了设定的训练轮数50轮后,即结束训练进行测试。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合;本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明的保护范围。

Claims (4)

1.一种基于编解码结构的目标跟踪方法,其特征在于,该方法通过目标跟踪网络模型实现,所述目标跟踪网络模型的结构主要由三部分组成,第一部分是编码器-解码器部分:其中通过由卷积神经网络构成的编码器提取出模板帧和搜索帧的深层特征,其中,模板帧为被搜索的对象图像;搜索帧用于寻找被搜索对象的位置,而解码器在训练部分,将模板帧的深层特征还原回该对象图像;第二部分是鉴别网络,用于鉴别解码器输出的图像与输入解码器的图像是否属于同一对象;第三部分是确定对象位置:通过将提取出的模板帧特征与搜索帧特征送入区域推荐网络,获得被跟踪物体的位置;
所述目标跟踪网络模型的训练过程主要由两个阶段组成,第一个阶段是特征提取预训练:通过编码器-解码器结构与生成对抗网络,学习到训练集中的跟踪对象的深层特征,得到特征提取部分的预训练模型;第二个阶段是所述目标跟踪网络模型的整体训练阶段,通过对整个所述目标跟踪网络进行端到端的训练,完成对区域推荐网络的训练以及对特征提取部分的微调;
具体地,该方法包括以下步骤:
(1)数据集预处理:目标跟踪所使用的数据集是由许多的视频流及其对应的标签所组成,标签标注有每一帧对象的位置以及包围框的长宽,通过标签,将视频流中的每一帧图像进行裁切,以跟踪对象为中心裁切成wo×ho像素的对象帧Fo和wc×hc像素的搜索帧Fc,wo<wc,ho<hc,其中属于该视频流中的第一帧对象帧Fo为该视频流的模板帧Ft,且二者尺寸相同;完成裁切后,在每一个视频流中,随机挑选n个对象帧Fo,将模板帧Ft与对象帧Fo做点对点相减,获得残差帧Fr,作为训练鉴别网络的样本;
(2)设计编码器:编码器用于图像的特征提取,由深度残差网络组成,特征提取部分为两个经过预训练的编码器E1、E2,这两个编码器参数共享,两个编码器分别输入模板帧Ft与搜索帧Fc,通过一系列卷积、下采样、激活函数后,输出模板帧特征Conv(Ft)与搜索帧特征Conv(Fc),这两个编码器之间参数共享,保证其提取特征具有一致性,其中输入模板帧Ft尺寸为wt×ht×3,搜索帧Fc尺寸为wc×hc×3;输出模板帧特征Conv(Ft)尺寸为wt-conv×ht-conv×Ccd,搜索帧特征Conv(Fc)尺寸为wc-conv×hc-conv×Ccd;解码器的结构与编码器对称,解码器输入是尺寸为wt-conv×ht-conv×Cde的模板帧特征Conv(Ft),通过一系列卷积、上采样、激活函数后输出尺寸为wt×ht×3的解码模板帧对象
Figure FDA0004228583050000011
(3)设计鉴别网络:鉴别网络为一个卷积神经网络,输入为解码模板帧与模板帧的残差
Figure FDA0004228583050000012
通过卷积,下采样,全连接层,激活函数,输出模板帧与解码出的模板帧为同一对象的概率;
(4)编码器-解码器预训练:编码器为网络的特征提取部分,同时使用一个对称的解码器,组成编码器-解码器结构,同时与一个鉴别网络一起,组成了一个类生成对抗网络结构;如果解码器使用上述深度残差网络,解码器与编码器网络结构对称,将编码器网络中的所有残差模块按逆序放置,同时将编码器中所用到的步长为2的卷积替换为步长为2的反卷积,池化层替换成上采样层,即为对应的解码器结构;
编码器-解码器结构输入模板帧Ft,编码器输出该对象帧Fo的特征Fe,也就是其深层特征,解码器用于解码Fe,输出解码结果
Figure FDA0004228583050000021
鉴别网络用于鉴别/>
Figure FDA0004228583050000022
是否在可接受范围,即判断Ft与/>
Figure FDA0004228583050000023
是否是同一对象;所述类生成对抗网络的训练优化目标如下所示:
Figure FDA0004228583050000024
其中EG对应编码器-解码器,相当于一般生成对抗网络的生成网络,但其输入不再是噪声而是模板帧Ft,D对应鉴别网络,其作用与一般生成对抗网络的鉴别网络相同,输出范围是0~1,数值越大表示Ft
Figure FDA0004228583050000025
是同一对象的可能性越高;/>
Figure FDA0004228583050000026
表示当x服从Fr的概率分布时,log(D(x))的期望;D(x)表示鉴别器在输入为x时的输出,也就是对x的鉴别结果;/>
Figure FDA0004228583050000027
表示当z服从Ft的概率分布时,log(1-D(EG(z)-Ft))的期望;EG(z)表示编码器-解码器在输入为z时的输出,D(EG(z)-Ft)表示对EG(z)-Ft的鉴别结果;当达到纳什均衡后,即编码器-解码器预训练完成,其编码器部分即为该目标跟踪网络模型的特征提取网络;
(5)设计区域推荐网络:区域推荐网络输入模板帧特征Conv(Ft)与搜索帧特征Conv(Fc),输出被跟踪对象的可能位置与其包围框的长宽;输入Conv(Ft)与Conv(Fc)后,首先将Con v(Ft)从中心裁剪为wt-conv-cut×ht-conv-cut×256的尺寸,得到Conv(Ft)cut,之后通过卷积调整Conv(Ft)cut与Conv(Fc)的尺寸,并进行互相关运算,输出尺寸为wres×hres×2k的分类结果CLS与wres×hres×4k的回归结果REG,输出的结果的wres×hres维度与搜索帧wc×hc在空间上对应,每个位置上有k个设置了比例和大小的锚定框;CLS的2k个通道代表了网络预测的k种锚框包含目标的概率Ppos和不包含目标的概率Pneg;REG的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异,分别为dx,dy,dw,dh;其与实际目标框的关系为:
Figure FDA0004228583050000031
其中Ax、Ay表示参考框的中心点,由其所在位置决定,Aw、Ah表示参考框的宽高,这是人为预先设定的,Tx、Ty、Tw、Th表示目标的坐标与长宽的真实值;
(6)选取分类损失函数:所述目标跟踪网络的输入为模板帧Ft与搜索帧Fc,输出为对应锚定框的分类结果CLS与回归结果REG;所述目标跟踪网络的损失函数由分类损失Lcls和回归损失Lreg构成,分类损失Lcls使用Focal Loss,公式如下所示:
Figure FDA0004228583050000032
y表示标签值,
Figure FDA0004228583050000033
表示实际分类值,即Ppos,其中α为平衡因子,平衡正负样本本身的数量比例不均,γ用于减少易分类样本的损失,当γ>0时使得该目标跟踪网络关注于困难的、错分的样本;
(7)选取回归损失函数:回归损失Lreg使用Distance-IoU Loss,其公式为:
LDIoU=1-DIoU (4)
其中:
Figure FDA0004228583050000034
Figure FDA0004228583050000035
b和
Figure FDA0004228583050000036
分别代表真实包围框和预测包围框中心点,/>
Figure FDA0004228583050000037
代表真实包围框和预测包围框中心点这两个中心点距离,c代表能够同时包含预测框和真实框的最小闭包区域的对角线距离,S和/>
Figure FDA0004228583050000038
分别代表真实包围框和预测包围框的面积;
(8)目标跟踪网络整体训练:完成所述步骤4)的预训练后,开始整个目标跟踪网络的端到端训练,将分类损失Lcls和回归损失Lreg按照如下公式相加,即为最终的损失函数:
loss=Lcls+λLreg (7)
其中λ是一个人为预先设置的参数,用于平衡分类损失与回归损失的占比;整体训练中,在编码器-解码器预训练时作为特征提取的编码器的前3层参数固定,后两层被训练微调;当训练到预先指定轮数时,经过测试选取指标最好的模型参数作为最终的训练结果。
2.根据权利要求1所述的基于编解码结构的目标跟踪方法,其特征在于,所述鉴别网络的结构包括依次连接的1层包含64个尺寸为7×7的卷积核,stride=2的卷积层、1层尺寸为2×2的池化层、3层包含128个尺寸为3×3的卷积核,stride=1的卷积层、1层尺寸为2×2的池化层、3层包含256个尺寸为3×3的卷积核,stride=1的卷积层、1层包含4096个神经元节点的全连接层、1层包含1000个神经元节点的全连接层和1层包含1个神经元节点的全连接层,即输出层,并且每层卷积层与池化层后均接ReLU激活函数。
3.根据权利要求2所述的基于编解码结构的目标跟踪方法,其特征在于,所述wo×ho像素为127×127,wc×hc像素为255×255,wt-conv×ht-conv×Ccd为15×15×256,wc-conv×hc-conv×Ccd为31×31×256,wt-conv-cut×ht-conv-cut×256为7×7×256,wres×hres×2k为25×25×10,wres×hres×4k为25×25×20。
4.根据权利要求3所述的基于编解码结构的目标跟踪方法,其特征在于,所述步骤8)中所述预先指定轮数为50。
CN202010518310.8A 2020-06-09 2020-06-09 一种基于编解码结构的目标跟踪方法 Active CN111696136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010518310.8A CN111696136B (zh) 2020-06-09 2020-06-09 一种基于编解码结构的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010518310.8A CN111696136B (zh) 2020-06-09 2020-06-09 一种基于编解码结构的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN111696136A CN111696136A (zh) 2020-09-22
CN111696136B true CN111696136B (zh) 2023-06-16

Family

ID=72479975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010518310.8A Active CN111696136B (zh) 2020-06-09 2020-06-09 一种基于编解码结构的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN111696136B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884802B (zh) * 2021-02-24 2023-05-12 电子科技大学 一种基于生成的对抗攻击方法
CN112949614B (zh) * 2021-04-29 2021-09-10 成都市威虎科技有限公司 一种自动分配候选区域的人脸检测方法及装置和电子设备
CN113420844B (zh) * 2021-08-23 2021-12-21 深圳市信润富联数字科技有限公司 物体缺陷检测方法、装置、电子设备和存储介质
CN114331821B (zh) * 2021-12-29 2023-09-22 中国人民解放军火箭军工程大学 一种图像转换方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN110298404A (zh) * 2019-07-02 2019-10-01 西南交通大学 一种基于三重孪生哈希网络学习的目标跟踪方法
CN110796679A (zh) * 2019-10-30 2020-02-14 电子科技大学 一种面向航拍影像的目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3810657B2 (ja) * 2001-07-31 2006-08-16 松下電器産業株式会社 運動物体検出方法および装置
CN101877786B (zh) * 2009-04-30 2012-08-15 北京大学 一种视频帧前景跟踪方法以及视频编码器
US8848802B2 (en) * 2009-09-04 2014-09-30 Stmicroelectronics International N.V. System and method for object based parametric video coding
CN102497543A (zh) * 2012-01-06 2012-06-13 合肥博微安全电子科技有限公司 一种基于dsp的多目标跟踪方法及系统
CN103810723B (zh) * 2014-02-27 2016-08-17 西安电子科技大学 基于帧间约束超像素编码的目标跟踪方法
CN103971381A (zh) * 2014-05-16 2014-08-06 江苏新瑞峰信息科技有限公司 一种多目标跟踪系统及方法
CN106354816B (zh) * 2016-08-30 2019-12-13 东软集团股份有限公司 一种视频图像处理方法及装置
CN106709936A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种基于卷积神经网络的单目标跟踪方法
CN106651917A (zh) * 2016-12-30 2017-05-10 天津大学 基于神经网络的图像目标跟踪算法
CN107563341B (zh) * 2017-09-15 2023-03-24 威海元程信息科技有限公司 一种人脸识别装置与一种人脸识别系统
US9946960B1 (en) * 2017-10-13 2018-04-17 StradVision, Inc. Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same
CN107818575A (zh) * 2017-10-27 2018-03-20 深圳市唯特视科技有限公司 一种基于分层卷积的视觉对象跟踪方法
CN109005409B (zh) * 2018-07-27 2021-04-09 浙江工业大学 一种基于目标检测与跟踪的智能视频编码方法
CN110807392B (zh) * 2019-10-25 2022-09-06 浙江大华技术股份有限公司 编码控制方法以及相关装置
CN110942471B (zh) * 2019-10-30 2022-07-01 电子科技大学 一种基于时空约束的长时目标跟踪方法
CN111091582A (zh) * 2019-12-31 2020-05-01 北京理工大学重庆创新中心 一种基于深度神经网络的单视觉目标跟踪算法及系统
CN111093077A (zh) * 2019-12-31 2020-05-01 深圳云天励飞技术有限公司 一种视频编码方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN110298404A (zh) * 2019-07-02 2019-10-01 西南交通大学 一种基于三重孪生哈希网络学习的目标跟踪方法
CN110796679A (zh) * 2019-10-30 2020-02-14 电子科技大学 一种面向航拍影像的目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法

Also Published As

Publication number Publication date
CN111696136A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111696136B (zh) 一种基于编解码结构的目标跟踪方法
Li et al. Building-a-nets: Robust building extraction from high-resolution remote sensing images with adversarial networks
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统
CN111696137B (zh) 一种基于多层特征混合与注意力机制的目标跟踪方法
CN110728192B (zh) 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
Ben Tamou et al. Multi-stream fish detection in unconstrained underwater videos by the fusion of two convolutional neural network detectors
CN113052006B (zh) 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Zhao et al. Detecting deepfake video by learning two-level features with two-stream convolutional neural network
CN113762277B (zh) 一种基于Cascade-GAN的多波段红外图像融合方法
Xing et al. Multi-level adaptive perception guidance based infrared and visible image fusion
CN116977747B (zh) 基于多路多尺度特征孪生网络的小样本高光谱分类方法
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
CN111539434A (zh) 基于相似度的红外弱小目标检测方法
CN115861810A (zh) 一种基于多头注意力和自监督学习的遥感图像变化检测方法及系统
CN115661754A (zh) 一种基于维度融合注意力的行人重识别方法
Li Investigation of you only look once networks for vision-based small object detection
CN113450313A (zh) 一种基于区域对比学习的图像显著性可视化方法
CN116453111B (zh) 一种基于轻量级YOLOv4的菠萝成熟度分析方法
CN113627245B (zh) Crts目标检测方法
CN117893413B (zh) 基于图像增强的车载终端人机交互方法
Wang et al. Accurate 3D Single Object Tracker in Point Clouds with Transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant