CN116051601A - 一种深度时空关联的视频目标跟踪方法及系统 - Google Patents

一种深度时空关联的视频目标跟踪方法及系统 Download PDF

Info

Publication number
CN116051601A
CN116051601A CN202211720383.0A CN202211720383A CN116051601A CN 116051601 A CN116051601 A CN 116051601A CN 202211720383 A CN202211720383 A CN 202211720383A CN 116051601 A CN116051601 A CN 116051601A
Authority
CN
China
Prior art keywords
target
video
sequence
search
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211720383.0A
Other languages
English (en)
Inventor
梁敏
桂彦
刘斌斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202211720383.0A priority Critical patent/CN116051601A/zh
Publication of CN116051601A publication Critical patent/CN116051601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本申请公开了一种深度时空关联的视频目标跟踪方法及系统,实现逐视频序列的目标跟踪,同时保证获得精确的视频目标跟踪结果。首先设计一个时空特征提取器,提取模板序列和搜索序列的时空特征。其次,引入特征匹配模块,由分类分支和回归分支组成。将抽取的模板时空特征和搜索时空特征通过相关滤波进行相似匹配,分别获得多通道相关滤波特征。然后,部署一个目标跟踪模块,包括分类头和回归头,分别根据输入的多通道相关滤波特征计算分类得分图和回归得分图,用于预测目标位置和估计目标的尺度。最后,通过最小化定义的联合损失优化时空关联视觉跟踪模型。在目标跟踪测试中,提出置信区域估计策略,从而在视频序列中保持鲁棒和准确的目标跟踪。

Description

一种深度时空关联的视频目标跟踪方法及系统
技术领域
本发明涉及计算机视觉领域,具体而言,涉及一种深度时空关联的视频目标跟踪方法及系统。
背景技术
视频目标跟踪是指利用视频或者图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定位置的技术。通常情况下,根据视频第一帧中指定的目标,在后续视频帧中持续跟踪该特定目标,实现目标的定位和目标尺度估计。视频目标跟踪具有广泛的应用价值,可用于视频监控、无人驾驶、精确制导等领域。
近年来,随着深度学习和卷积网络的快速发展,出现了越来越多基于卷积网络的视频目标跟踪器。研究者们更加青睐基于孪生网络的跟踪器,其不仅在跟踪速度上占据了优势,而且还取得了不错的精度。这种基于孪生网络的跟踪器把视觉跟踪看作是相似性匹配问题。2016年,Bertinetto等提出用于视觉跟踪的SiamFC跟踪器(Luca Bertinetto,JackValmadre,
Figure BDA0004028358780000011
F.Henriques,Andrea Vedaldi,Philip H.S.Torr:Fully-ConvolutionalSiamese Networks for Object Tracking.ECCV Workshops(2)2016:850-865.),借助孪生网络提取模板和搜索特征,并利用相关滤波计算目标模板和搜索区域之间的互相关程度。随后,Held等提出GOTURN跟踪器(David Held,Sebastian Thrun,Silvio Savarese:Learning to Track at 100FPS with Deep Regression Networks.ECCV(1)2016:749-765.),对上一帧预测的目标框进行回归得到当前帧的目标框。
为了进一步提高精度,2018年,Li等将孪生网络和区域建议网络结合,提出SiamRPN跟踪器(Bo Li,Junjie Yan,Wei Wu,Zheng Zhu,Xiaolin Hu:High PerformanceVisual Tracking With Siamese Region Proposal Network.CVPR 2018:8971-8980.),通过引入区域候选网络,更准确地估计目标框尺度。然而,锚框的引入容易导致相似性匹配的二义性,从而影响跟踪精度,造成误差累积,降低目标跟踪器的鲁棒性,并且带来了更多的超参数。2020年,Chen等人设计一个简单而高效的无锚框跟踪器SiamBAN(Zedu Chen,Bineng Zhong,Guorong Li,Shengping Zhang,Rongrong Ji:Siamese Box AdaptiveNetwork for Visual Tracking.CVPR 2020:6667-6676.),通过添加特征组合模块分支和质量评估分支提高跟踪器的性能。这些跟踪器在大部分视频场景中具有比较出色的性能和实时的跟踪速度,但是现有方法往往将视频目标跟踪看作逐视频帧的目标检测问题,忽略了视频帧之间丰富的时空信息。基于孪生网络的视觉跟踪方法应该有效利用跨时间帧的丰富信息,并且可以更好地学习时空观特征进行目标外观建模,以提高跟踪定位的准确度。
发明内容
针对上述现有技术存在的不足,本发明提供了一种深度时空关联的视频目标跟踪方法及系统。跟踪器通过利用时空信息,不仅能够保留时空关联的特征信息,且通过利用模板序列存储不同模板帧的特征,能够更好地建模视频目标外观,提高跟踪器的准确性;同时,以模板序列和搜索序列作为输入,能够得到搜索序列中目标预测结果。这种以逐个序列处理视频目标跟踪的方式,极大地提升了视频目标跟踪的速度。
为了实现上述目的,本发明提供了一种深度时空关联的视频目标跟踪方法,包括以下步骤:
S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;
S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;
S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享。将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;
S4、构建特征匹配子网络,包括分类分支和回归分支。将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;
S5、构建目标预测子网络,主要由分类头和回归头组成。将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;
S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;
S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪器模型;
S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。
本发明提供了一种用于视频目标跟踪的端到端可训练的神经网络架构和系统,包括视频序列输入模块,用于裁剪模板序列块和和搜索序列块;模型训练模块,用于训练一种基于3D孪生网络的视频目标跟踪器,通过最小化组合损失对目标跟踪进行训练,包括交叉熵和交并比损失,最终实现逐视频序列的目标跟踪;视频目标跟踪模块,利用模型输出的分类图和回归图,分别进行搜索序列视频帧中目标状态的估计和尺度的预测,计算得到搜索序列中的目标预测框;利用当前视频序列的目标预测框,计算得到下一组视频序列的置信搜索区域,并将其输入到搜索分支以进行后续视频序列的目标跟踪。
与现有技术相比,具备以下有益效果:
本发明利用3D孪生全卷积网络提取模板时空特征和搜索时空特征,学习跨连续多个视频帧之间丰富的时空信息。将抽取的模板时空特征和搜索时空特征输入到特征匹配子网络,得到多通道相关滤波特征。利用分类头和回归头处理多通道相关滤波特征,预测目标的定位并估计目标尺度。在目标跟踪阶段,为了得到较为准确的搜索序列区域,定义置信搜索区域估计策略,根据当前视频序列中目标的不同状态对下一搜索序列区域进行估计,确保目标跟踪的稳定性和准确性。本方法不再是传统的单帧处理,而是直接处理视频序列,保证跟踪精度的同时提高了跟踪速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明专利中网络整体结构图。
图2是本发明专利中模板序列块和搜索序列块示意图。
图3是本发明专利中时空特征提取器结构示意图。
图4是本发明专利中置信搜索区域估计图。
图5是本发明专利中部分视频帧示意图。
图6是本发明专利中视频目标跟踪结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合说明书附图以及具体的实施方式对本发明作详细说明。
下面结合说明书附图以及具体的实施方式对本发明作详细说明,一种深度时空关联的视频目标跟踪方法,包含步骤S1~S8:
S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;
S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;
S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享。将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;
S4、构建特征匹配子网络,包括分类分支和回归分支。将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;
S5、构建目标预测子网络,主要由分类头和回归头组成。将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;
S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;
S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪模型;
S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。下面对各个步骤进行详细描述。
在步骤S1中,构建网络架构,如图1所示,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成。其步骤具体为:
S11、构建一个基于3D孪生网络的时空特征提取器,包括模板分支和搜索分支,以3D全卷积神经网络作为基础网络且权值共享,用于从输入的视频序列块中提取模板时空特征和搜索时空特征。
S12、特征匹配子网络由分类分支和回归分支组成,分别以模板时空特征和搜索时空特征作为输入,利用相关滤波操作进行特征相似性匹配,获得多通道相关滤波特征。
S13、目标预测子网络包括分类头和回归头,以多通道相关滤波特征作为输入,通过分类头和回归头,分别得到分类得分图和回归得分图。
在步骤2中,分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,如图2所示,并作为整个网络架构的输入。其步骤具体为:
S21、给定模板序列,根据模板序列中每一视频帧中目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(x,y,w,h)。
S211、根据S21给定的每一真实目标框信息,计算目标框宽和高的扩充值p=(w+h)/2,并计算缩放因子
Figure BDA0004028358780000051
用于缩放扩充后的目标框区域。如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值进行填充。最终,模板序列中的每一视频帧剪裁为127×127大小的模板块。
S212、对模板序列中每一视频帧裁剪之后得到模板块
Figure BDA0004028358780000061
其中k表示模板序列中视频帧的总数目。
S22、给定搜索序列,根据模板序列中第一帧视频帧目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(X,Y,W,H)。
S221、根据S22给定的真实目标框信息,计算目标框宽和高的扩充值P=(W+H)/2,并计算缩放因子
Figure BDA0004028358780000062
来用于缩放扩充后的目标框区域。如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值来填充,最终,搜索序列中每一视频帧裁剪为255×255大小的搜索块。
S222、对搜索序列中每一视频帧裁剪之后得到搜索块
Figure BDA0004028358780000063
其中k表示搜索序列中视频帧的总数目。
在步骤S3中,时空特征提取器是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络做为基础网络且权值共享。将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征。其步骤具体为:
S31、构建特征提取网络,如图3所示,其中每一分支是一个由五个残差块组成的Res3D网络。
S32、将Res3D的第一块残差块中的padding属性修改为1×4×4,stride调整为1×1×1,分别将第四块残差块输出通道和第五块的输入通道修改为128,去掉第五块残差块的下采样和最终分类层。由此,输出的时空特征和输入的视频序列具有相同的时间长度。
S34、将步骤S212和S222中得到的模板块和搜索块输入到时空特征提取器中,分别得到模板时空特征
Figure BDA0004028358780000064
和搜索时空特征
Figure BDA0004028358780000065
在步骤4中,特征匹配子网络包括分类分支和回归分支,将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征。其步骤具体为:
S41、将S3中得到的模板特征
Figure BDA0004028358780000071
和搜索特征
Figure BDA0004028358780000072
分别输入到分类分支和回归分支中并进行相关滤波操作,具体计算如下:
Figure BDA0004028358780000073
Figure BDA0004028358780000074
其中,
Figure BDA0004028358780000075
表示分类分支,
Figure BDA0004028358780000076
表示回归分支,*表示相关滤波。
S42、分类分支和回归分支分别输出多通道相关滤波特征
Figure BDA0004028358780000077
Figure BDA0004028358780000078
在步骤5中,目标预测模块包括分类头和回归头,将分类分支和回归分支输出的多通道相关滤波特征输入到分类头和回归头,分别得到分类得分图和回归得分图。其步骤具体为:
S51、分类头由一个1×1卷积层组成,以S42中分类分支输出的多通道相关滤波特征Fcls作为分类头的输入,输出分类得分图:
Figure BDA0004028358780000079
S52、回归头由一个1×1卷积层组成,以S42中回归分支输出的多通道相关滤波特征Freg作为回归头的输入,输出回归得分图:
Figure BDA00040283587800000710
在步骤6中,根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框。其步骤具体为:
S61、分类得分图的大小为:k×17×17,在分类得分图找到响应值最大的点
Figure BDA00040283587800000711
在原视频帧中表示为:
Figure BDA00040283587800000712
其中s=8为整个网络的总步长。
S62、回归得分图是一个四通道向量,大小为:k×4×17×17,使用li,ti,ri,bi表示回归目标的偏移量,目标的坐标信息可以表示为:
Figure BDA00040283587800000713
其中
Figure BDA0004028358780000081
表示目标预测框Bi的左上角点和右下角点坐标。
在步骤7中,通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到快速且精准的视频目标跟踪器。其步骤具体为:
S71、训练总损失定义为:
Figure BDA0004028358780000082
其中,Li为第i个搜索帧的损失。k表示为分类得分图(回归得分图)的总数目。
Figure BDA0004028358780000083
表示第i个搜索块中(x,y)位置属于目标的概率。
Figure BDA0004028358780000084
表示在第i个回归得分图中位置(x,y)距离边界框四周的距离。
S72、训练损失Li包括分类的交叉熵损失和回归的交并比损失,定义为:
Figure BDA0004028358780000085
其中,1{·}是指示性函数,表示是否属于目标,属于则赋值为1,否则赋值0。Lcls表示分类的交叉熵损失。Lreg表示回归的交并比损失。如果当前位置(xi,yi)属于正样本,即当前位置属于目标,则将
Figure BDA0004028358780000086
赋值为1;如果是负样本,则将
Figure BDA0004028358780000087
赋值为0。
Figure BDA0004028358780000088
表示在第i个搜索块中真实目标的中心位置(xi,yi)距离边界框四周的偏移量。
在步骤8中,以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。其步骤具体为:
S81、由于目标在视频序列中可能出现较大位置变化的情况,根据当前搜索序列的预测框结果{Bt-k,..,Bt-1,Bt},其中Bt是搜索序列中第t帧的目标预测框,根据每一目标框的左上角点坐标
Figure BDA0004028358780000089
和右下角点坐标
Figure BDA00040283587800000810
计算得到最小包围框bm,如图4所示。
S82、对最小包围框bm进行扩展,用于裁剪下一组视频序列的搜索区域bs,保证搜索区域能够覆盖搜索序列每一视频帧中的目标。视频目标跟踪结果如图6所示。
根据本申请的另一方面,还提供了一种深度时空关联的视频目标跟踪系统,包括以下几个模块:
视频序列输入模块:给定一组模板序列视频帧和搜索序列视频帧,将其按照S2中形式裁剪成指定大小的模板序列块和和搜索序列块。
模型训练模块,用于训练一种基于3D孪生网络的视频目标跟踪器。该目标跟踪器包括由时空特征提取器模块、特征匹配模块以及目标预测模块。时空特征提取器以模板序列块和和搜索序列块作为输入,从中提取模板时空特征和搜索时空特征;将这些时空特征输入到特征匹配模块中,利用相关滤波操作进行相似性匹配,得到多通道相关滤波特征;再依次输入到目标预测模块中的分类头和回归头中,最终得到分类得分图和回归图;通过最小化分类的交叉熵损失和回归的交并比损失对目标跟踪进行训练。
视频目标跟踪模块,在测试阶段,利用模型输出的分类图和回归图,分别进行搜索序列视频帧中目标状态的估计和尺度的预测,从而得到搜索序列中的目标预测框,再利用这组目标预测框,得到一组置信搜索区域,并将其输入到搜索分支以进行后续序列帧的目标跟踪。
该系统用于实现上述的实施例中方法的功能,该系统模块中所涉及方法的具体实施步骤已经在方法中进行过说明的,在此不再赘述。
在本申请实施例中,首先设计一个时空特征提取器,从输入的模板序列和搜索序列中提取时空特征,学习强辨别的目标外观表示;其次,设计一个特征匹配模块,由分类分支和回归分支组成。通过利用相关滤波操作,将抽取的模板时空特征和搜索时空特征在高维特征空间中进行相似匹配,分别获得多通道相关滤波特征。然后,部署一个目标跟踪模块,包括分类头和回归头,分别根据输入的多通道相关滤波特征计算分类得分图和回归得分图,用于预测目标位置和估计目标的尺度。最后,通过最小化定义的联合损失优化时空关联视觉跟踪模型,并用于视频目标跟踪预测。在目标跟踪测试中,定义置信区域估计策略,根据当前视频序列的目标跟踪结果计算下一视频序列的搜索区域,尽量减少误差累积,从而在视频序列中保持鲁棒和准确的目标跟踪。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种深度时空关联的视频目标跟踪方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;
S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;
S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享;将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;
S4、构建特征匹配子网络,包括分类分支和回归分支;将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;
S5、构建目标预测子网络,主要由分类头和回归头组成;将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;
S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;
S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪器模型;
S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪;为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。
2.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建深度时空关联的视频目标跟踪网络结构,其具体实现过程如下:
S11、构建一个基于3D孪生网络的时空特征提取器,包括模板分支和搜索分支,以3D全卷积神经网络作为基础网络且权值共享,用于从输入的视频序列块中提取模板时空特征和搜索时空特征;
S12、特征匹配子网络由分类分支和回归分支组成,分别以模板时空特征和搜索时空特征作为输入,利用相关滤波操作进行特征相似性匹配,获得多通道相关滤波特征;
S13、目标预测子网络包括分类头和回归头,以多通道相关滤波特征作为输入,通过分类头和回归头,分别得到分类得分图和回归得分图。
3.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建模板序列块和搜索序列块,其具体实现过程如下:
S21、给定模板序列,根据模板序列中每一视频帧中目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(x,y,w,h);
S211、根据S21给定的每一真实目标框信息,计算目标框宽和高的扩充值p=(w+h)/2,并计算缩放因子
Figure FDA0004028358770000021
用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值进行填充;最终,模板序列中的每一视频帧剪裁为127×127大小的模板块;
S212、对模板序列中每一视频帧裁剪之后得到模板块
Figure FDA0004028358770000022
其中k表示模板序列中视频帧的总数目;
S22、给定搜索序列,根据模板序列中第一帧视频帧目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(X,Y,W,H);
S221、根据S22给定的真实目标框信息,计算目标框宽和高的扩充值P=(W+H)/2,并计算缩放因子
Figure FDA0004028358770000023
来用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值来填充,最终,搜索序列中每一视频帧裁剪为255×255大小的搜索块;
S222、对搜索序列中每一视频帧裁剪之后得到搜索块
Figure FDA0004028358770000024
其中k表示搜索序列中视频帧的总数目。
4.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建时空特征提取器,其具体实现过程如下:
S31、构建特征提取网络,其中每一分支是一个由五个残差块组成的Res3D网络;
S32、将Res3D的第一块残差块中的padding属性修改为1×4×4,stride调整为1×1×1,分别将第四块残差块输出通道和第五块的输入通道修改为128,去掉第五块残差块的下采样和最终分类层;由此,输出的时空特征和输入的视频序列具有相同的时间长度;
S33、将S212和S222中得到的模板块和搜索块输入到时空特征提取器中,分别得到模板时空特征
Figure FDA0004028358770000031
和搜索时空特征
Figure FDA0004028358770000032
5.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建特征匹配子网络,其具体实现过程如下:
S41、将S3中得到的模板特征
Figure FDA0004028358770000033
和搜索特征
Figure FDA0004028358770000034
分别输入到分类分支和回归分支中并进行相关滤波操作,具体计算如下:
Figure FDA0004028358770000035
Figure FDA0004028358770000036
其中,
Figure FDA0004028358770000037
表示分类分支,
Figure FDA0004028358770000038
表示回归分支,*表示相关滤波;
S42、分类分支和回归分支分别输出多通道相关滤波特征
Figure FDA0004028358770000039
Figure FDA00040283587700000310
6.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建视频序列目标跟踪子网络,其具体实现过程如下:
S51、分类头由一个1×1卷积层组成,以S42中分类分支输出的多通道相关滤波特征Fcls作为分类头的输入,输出分类得分图:
Figure FDA00040283587700000311
S52、回归头由一个1×1卷积层组成,以S42中回归分支输出的多通道相关滤波特征Freg作为回归头的输入,输出回归得分图:
Figure FDA00040283587700000312
7.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于预测目标位置和估计边界框尺度,其具体实现过程如下:
S61、分类得分图的大小为:k×17×17,在分类得分图找到响应值最大的点
Figure FDA0004028358770000041
在原视频帧中表示为:
Figure FDA0004028358770000042
其中s=8为整个网络的总步长;
S62、回归得分图是一个四通道向量,大小为:k×4×17×17,使用li,ti,ri,bi表示回归目标的偏移量,目标的坐标信息可以表示为:
Figure FDA0004028358770000043
其中
Figure FDA0004028358770000044
表示目标预测框Bi的左上角点和右下角点坐标。
8.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于训练视觉跟踪模型,其具体实现过程如下:
S71、训练总损失定义为:
Figure FDA0004028358770000045
其中,Li为第i个搜索帧的损失;k表示为分类得分图(回归得分图)的总数目;
Figure FDA0004028358770000046
表示第i个搜索块中(x,y)位置属于目标的概率;
Figure FDA0004028358770000047
表示在第i个回归得分图中位置(x,y)距离边界框四周的距离;
S72、训练损失Li包括分类的交叉熵损失和回归的交并比损失,定义为:
Figure FDA0004028358770000048
其中,1{·}是指示性函数,表示是否属于目标,属于则赋值为1,否则赋值0;Lcls表示分类的交叉熵损失;Lreg表示回归的交并比损失;如果当前位置(xi,yi)属于正样本,即当前位置属于目标,则将
Figure FDA0004028358770000049
赋值为1;如果是负样本,则将
Figure FDA00040283587700000410
赋值为0;
Figure FDA00040283587700000411
表示在第i个搜索块中真实目标的中心位置(xi,yi)距离边界框四周的偏移量。
9.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于估计置信搜索区域,其具体实现过程如下:
S81、由于目标在视频序列中可能出现较大位置变化的情况,根据当前搜索序列的预测框结果{Bt-k,..,Bt-1,Bt},其中Bt是搜索序列中第t帧的目标预测框,根据每一目标框的左上角点坐标
Figure FDA0004028358770000051
和右下角点坐标
Figure FDA0004028358770000052
计算得到最小包围框bm
S82、对最小包围框bm进行扩展,用于裁剪下一组视频序列的搜索区域bs,保证搜索区域能够覆盖搜索序列每一视频帧中的目标。
10.一种深度时空关联的视频目标跟踪系统,其特征在于,包括以下几个模块:
图像标记模块:给定一张图片作为输入,根据该图片的真实标签进行随机像素点标注,其中包括前景和背景的标记,以此产生大量的交互信息来模拟用户的交互;
视频序列输入模块:给定一组模板序列视频帧和搜索序列视频帧,将其按照S2中形式裁剪成指定大小的模板序列块和和搜索序列块;
模型训练模块:用于训练一种基于3D孪生网络的视频目标跟踪器;该目标跟踪器包括由时空特征提取器模块、特征匹配模块以及目标预测模块;时空特征提取器以模板序列块和和搜索序列块作为输入,从中提取模板时空特征和搜索时空特征;将这些时空特征输入到特征匹配模块中,利用相关滤波操作进行相似性匹配,得到多通道相关滤波特征;再依次输入到目标预测模块中的分类头和回归头中,最终得到分类得分图和回归图;通过最小化分类的交叉熵损失和回归的交并比损失对目标跟踪进行训练;
视频目标跟踪模块:在测试阶段,利用模型输出的分类图和回归图,分别进行搜索序列视频帧中目标状态的估计和尺度的预测,从而得到搜索序列中的目标预测框,再利用这组目标预测框,得到一组置信搜索区域,并将其输入到搜索分支以进行后续序列帧的目标跟踪。
CN202211720383.0A 2022-12-30 2022-12-30 一种深度时空关联的视频目标跟踪方法及系统 Pending CN116051601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211720383.0A CN116051601A (zh) 2022-12-30 2022-12-30 一种深度时空关联的视频目标跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211720383.0A CN116051601A (zh) 2022-12-30 2022-12-30 一种深度时空关联的视频目标跟踪方法及系统

Publications (1)

Publication Number Publication Date
CN116051601A true CN116051601A (zh) 2023-05-02

Family

ID=86125998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211720383.0A Pending CN116051601A (zh) 2022-12-30 2022-12-30 一种深度时空关联的视频目标跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN116051601A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977905A (zh) * 2023-09-22 2023-10-31 杭州爱芯元智科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977905A (zh) * 2023-09-22 2023-10-31 杭州爱芯元智科技有限公司 目标跟踪方法、装置、电子设备及存储介质
CN116977905B (zh) * 2023-09-22 2024-01-30 杭州爱芯元智科技有限公司 目标跟踪方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111462175B (zh) 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
US20220366576A1 (en) Method for target tracking, electronic device, and storage medium
CN111144364B (zh) 一种基于通道注意更新机制的孪生网络目标跟踪方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN111898504B (zh) 一种基于孪生循环神经网络的目标跟踪方法及系统
CN109977774B (zh) 一种基于自适应卷积的快速目标检测方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN111832514A (zh) 基于软多标签的无监督行人重识别方法及装置
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN109934846A (zh) 基于时间和空间网络的深度集成目标跟踪方法
CN111598928B (zh) 一种基于具有语义评估和区域建议的突变运动目标跟踪方法
CN110909741A (zh) 一种基于背景分割的车辆再识别方法
CN113034545A (zh) 一种基于CenterNet多目标跟踪算法的车辆跟踪方法
CN111640138A (zh) 一种目标跟踪方法、装置、设备及存储介质
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
CN112927264A (zh) 一种无人机跟踪拍摄系统及其rgbd跟踪方法
CN111429485B (zh) 基于自适应正则化和高信度更新的跨模态滤波跟踪方法
CN110968711A (zh) 一种基于序列图像特征的自主无人系统位置识别定位方法
CN115908500A (zh) 一种基于3d孪生卷积网络的高性能视频跟踪方法及系统
CN113344971A (zh) 一种融合卡尔曼滤波的孪生红外目标跟踪方法
CN116051601A (zh) 一种深度时空关联的视频目标跟踪方法及系统
CN112767450A (zh) 一种基于多损失学习的相关滤波目标跟踪方法及系统
CN112396036A (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN116934796A (zh) 基于孪生残差注意力聚合网络的视觉目标跟踪方法
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination