CN115482375A - 一种基于时空通联数据驱动的跨镜目标跟踪方法 - Google Patents
一种基于时空通联数据驱动的跨镜目标跟踪方法 Download PDFInfo
- Publication number
- CN115482375A CN115482375A CN202211024862.9A CN202211024862A CN115482375A CN 115482375 A CN115482375 A CN 115482375A CN 202211024862 A CN202211024862 A CN 202211024862A CN 115482375 A CN115482375 A CN 115482375A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- frame
- sequence
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于时空通联数据驱动的跨镜目标跟踪方法,先分别获取跟踪目标模板图片和搜索区域的编码序列,然后三阶段混合注意力机制融合目标图片与视频帧获得对应特征序列,概率估计得到单摄像头视频的目标跟踪结果;接着通过注意力模块残差网络获得消失目标以及视频帧的强化特征,并计算二者相似度,最后通过相似度判断目标跟踪结果。本发明用于实时监控视频数据,结合追踪目标的通讯信息调用单个摄像头视频,并结合特定区域周围其他摄像头视频对异常目标进行持续追踪直至目标离开该区域,实现了跨镜的目标跟踪,从而达到及时预警,保护重点区域人员人身安全与信息安全的目的。
Description
技术领域
本发明属于图像处理领域,特别是目标跟踪领域,具体涉及一种基于时空通联数据驱动的跨镜目标跟踪方法。
背景技术
目标跟踪是计算机视觉领域的一项基本任务,其成功部署于各种应用中,如人机交互和视觉监控。当前流行的跟踪器通常包含几个组件来完成跟踪任务:(1)提取跟踪目标和搜索区域(即监控的重点区域)一般特征的主干;(2)允许跟踪目标和搜索区域之间进行信息通信的集成模块,以便后续进行目标定位;(3)特定于任务的头部,以精确定位目标并估计其边界框。
在现实场景中,由于输入图像的尺度不同、目标的形变、被遮挡和类似对象的混淆等方面因素的影响,难以设计出一个简单而有效的端到端跟踪器。最近,由于基于注意力的Transformer具有全局和动态建模能力,研究人员将其应用于跟踪领域,并产生良好的性能。然而,基于Transformer的跟踪器仍然依赖于卷积神经网络(CNN)进行一般特征提取,并且只在后一个高层抽象表示空间中应用注意力操作。由于CNN采用局部卷积核,缺乏全局建模能力,限制了自注意力模块在整个跟踪模型中的应用。
近年来,多镜头目标跟踪在跟踪模型领域的应用越来越广,目前的主流方法是采用行人重识别技术来实现跨镜追踪,该技术主要分为图像到图像以及图像到视频的人员重新识别,旨在从基于图像或视频的库集中检索与需查询的目标相同的行人,其主要原理是将跨镜追踪视为跨模态检索任务,并从图像和视频模态中学习常见的潜在嵌入信息,以此来度量视频中行人与查询目标的相似性。
但是,由于图像和视频模态间隙大,且是利用所有视频帧进行冗余特征学习,而对于摄像头密布的场景下,由于目标在一个摄像机中可能被遮挡而在另一个摄像机中可以完全观察到,也就是说行人的部分可见性和不可辨性就不那么严重了,因此冗余特征学习会降低模型的效率和准确性。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于时空通联数据驱动的跨镜目标跟踪方法,本发明用混合注意力机制将通用特征提取和目标信息进行耦合,从而获取更多精细的特征信息并具有全局建模能力;利用互补残差学习器获取视频帧中最显著的特征减少冗余匹配信息,同时挖掘视频帧之间的潜在互补信息以强化特征表示,进而在跨镜匹配时减小匹配误差。
技术方案:本发明的一种基于时空通联数据驱动的跨镜目标跟踪方法,包括以下步骤:
步骤S1、将跟踪目标模板图片Ti和当前搜索区域(即当前视频帧)S分别切割为固定大小的子图片(例如可以将一个目标模板图片分割为N个子图片),利用卷积操作对各子图片进行基本编码分别得到对应编码序列tj和sj,此处j的取值范围是根据输入的目标模板图片大小以及视频帧大小而改变的;然后对基本编码序列tj和sj进行分离和重建,最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查询、键和值向量组<qt,kt,vt>、<qs,ks,vs>;
其中,Ti表示第i个跟踪目标模板图片,i∈{1,2,...,n};qt,kt,vt为跟踪目标模板图片的查询、键和值,qs,ks,vs为搜索图片的查询、键和值;
步骤S2、利用三阶段混合注意力机制对输入的编码序列进行特征提取
第一阶段、将目标模板图片与搜索区域的键和值向量分别进行拼接,然后利用基本混合注意力操作得到目标模板图片与搜索区域融合后的混合特征F1;
第二阶段、将第一阶段所得混合特征通过可分离卷积改变尺寸后输入到混合注意力机制中,得到第二阶段的特征序列F2;
第三阶段、将第二阶段的特征序列F2再次通过可分离卷积改变尺寸,并进行多个混合注意力操作得到最终第三阶段的特征序列F3;
步骤S3、先将特征序列F3通过分离和重建得到搜索区域的特征序列,并利用基于全卷积操作的预测头来定位跟踪目标的边界框得到检测结果;然后,根据预测置信度进行在线更新,同时将下一帧视频帧下一个搜索区域作为步骤S1的搜索区域,重新对视频中的跟踪目标进行跟踪,直至搜索区域中的目标消失;
步骤S4、利用手机定位获取(例如可以可用手机定位)消失目标的位置并调取距离最近的三个摄像头的部分视频,同时将消失目标的时空通联讯息(位置信息、通讯信息与上网信息)和消失目标的图像通过注意力机制进行特征融合,并与调取的视频帧通过残差网络提取各自初始特征,分别得到三个摄像头视频序列的帧级特征以及特征融合后的目标初始特征;
步骤S5、将包含时间互补信息的视频帧级特征通过卷积映射为特征图,并利用多头注意机制获取该特征图上的显著特征;然后,利用激活和卷积操作获取初始特征中被激活的冗余显著区域,从而挖掘当前视频帧剩余互补区域,捕获剩余互补信息;接着,利用残差网络从互补信息中获取当前帧补充特征,进而得到当前视频帧的强化特征;最后,将消失目标的图像视为一个视频帧序列,并以相同的方式获得其对应的强化特征;
步骤S6、将获取的强化特征向量与消失目标的模板图片进行相似度计算,并根据经验设置余弦相似度阈值,若最大相似度低于阈值则表示消失目标已离开重点区域,反之,则获取最大相似度对应行人的边界框以及摄像头编号,并将该摄像头的视频序列与目标模板图片返回到步骤S1中对目标进行持续跟踪。
进一步地,所述步骤S1的具体过程为:
S1.1、分别获取跟踪目标模板图片Ti和搜索区域S的基本编码序列tj和sj;
采用C个补零层数为1、步长为4且核大小为7的卷积层,对各个子图片进行编码,公式如下:
然后,将跟踪目标模板图片Ti的N个目标子图像的基本编码和搜索区域的子图片的基本编码展开,并沿通道方向拼接得到大小为的编码序列;将拼接所得编码序列进行分离和重建得到目标编码序列与搜索序列的二维特征图像和
S1.2、分别获取目标模板图片和搜索区域的查询、键和值向量
进一步地,所述步骤S2利用混合注意力机制提取特征的详细过程为:
步骤S2.1、将目标模板图片的kt和搜索区域的ks进行拼接得到键向量km=Concat(kt,ks),将目标模板图片的vt和搜索区域vs进行拼接得到值向量vm=Concat(vt,vs),Concat表示拼接操作;此处下标m仅用于变量参数的符号区分;
步骤S2.2、利用混合注意力机制将目标模板图片与搜索区域进行特征融合,具体公式如下:
步骤S2.3、分三个阶段通过多层感知机制连接目标模板图片和搜索区域的注意力图来提取特征序列,提取公式为:
然后,将F1进行序列分离与重建得到目标和搜索区域的二维特征图,再利用3C个卷积核大小为3、步长为2、补零层数为1的卷积分别得到大小为和的编码序列,将其展平并拼接后输入到混合注意力机制,进行4次混合注意力操作得到第二阶段的特征序列F2,其大小为
进一步地,所述步骤S3中获取单个摄像头目标检测结果的具体过程为:
其中Pa(x,y)表示边界框左上方的顶点概率图,Pb(x,y)表示边界框右下方的顶点概率图,Conv表示卷积操作,BN表示批量标准化;
这两个顶点内的区域就是目标检测的结果;
最后,采用在线更新策略来获取跟踪结果。
进一步地,在线更新策略来获取跟踪结果的具体方法为:
对于目标模板图片和搜索区域的注意力图,使用多层感知机网络和Sigmoid函数得到最终的分数,然后选择分数大于0.5的部分作为最终结果并存入目标模板库中;并将更新后的目标模板图片以及下一帧视频作为步骤S1内初始目标模板图片和搜索区域,再次对视频中的异常目标进行跟踪,直至搜索区域内目标消失即目标离开该摄像头的搜索区域。
进一步地,所述步骤S4的详细过程包括如下:
步骤S4.1、获取融合特征:
使γloc,γnet,γcom分别表示抽取的目标的位置信息、上网信息和通讯信息的对应特征,Ti表示第i个消失目标的模板图片,则利用注意力机制进行特征的融合的计算公式如下:
步骤S4.2、利用残差网络提取初始特征:
进一步地,所述步骤S5获取强化特征的过程为:
其中Conv1和Conv2表示不同的卷积层,BN是批量归一化层,Relu是激活函数,是特征重建操作,表示摄像头序号为κ的第g-1个视频帧的显著特征,表示卷积操作,表示摄像头序号为κ的第g帧视频的剩余互补信息;
进一步地,所述步骤S6中跨镜目标追踪的具体方法为:
接着,根据经验设置余弦相似度阈值为0.5,通过相似度的大小得到行人图像与消失目标模板图片的相似性排序;
最后,选择相似度最大的行人图像所属摄像头继续跟踪消失目标,即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片,并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪;当所有视频帧中行人图像与目标模板的相似度均低于阈值时,则表示消失的目标已离开重点区域。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明有效地利用了目标和搜索区域之间的相关性,使得提取的特征更加针对相应的跟踪目标,并捕获更多针对特定目标的鉴别特征。
(2)本发明由于采用基于全卷积操作的预测头,可以预测出目标所在区域,显著地提高了跟踪算法的精度和稳健性。
(3)本发明由于结合了异常目标的时空通联数据(即目标的手机上网数据、通联数据以及位置信息等)对其进行跨镜跟踪,从而提高了跟踪速度及其准确性。
(4)本发明由于采用互补残差学习器,不仅可以获取视频帧之间的时间互补信息,从而抑制公共显著信息达到平衡效率和准确性的目的,还能彻底挖掘视频帧之间的潜在互补信息,以增强行人的特征表示,进而在跨镜匹配时减小匹配误差。
附图说明
图1为本发明的整理流程图;
图2为实施例中混合注意力机制示意图;
图3为实施例中互补残差学习模块示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
本发明利用监控的重点搜索区域中异常目标的通联信息对跟踪目标进行粗略定位以调用附近的单个摄像头的实时视频,并利用三阶段混合注意力机制提取并融合目标图片与视频帧之间的特征,通过概率估计得到检测结果,同时利用在线更新策略获取单个摄像头视频中的目标跟踪结果;然后,通过注意力模块将消失目标模板与其对应的时空通联信息进行融合,并利用手机定位获取消失目标的位置并通过调取距离最小的三个摄像头的视频;将消失目标的融合特征与视频输入到互补残差学习器进行特征增强与匹配,进而将强化特征与目标特征进行相似度计算;最后,找到相似度最高且大于阈值的行人图像,并返回其边界框以及所属摄像头编号进行继续追踪,直到在查询的视频中未匹配到消失的目标即判定为目标离开该重点区域。
简言之,本发明可用于实时监控视频数据,结合追踪目标的通讯信息调用单个摄像头视频,并结合特定区域周围其他摄像头视频对异常目标进行持续追踪直至目标离开该区域,实现跨镜目标跟踪,从而达到及时预警,保护重点区域人员人身安全与信息安全的目的。
如图1所示,本发明跨镜目标跟踪的整体流程为:首先,获取目标模板和单摄像头的视频序列;然后,目标跟踪,即利用多阶段混合注意力机制实现单摄像头目标跟踪;接着进行行人重识别,即当目标离开当前摄像头视野时,通过注意力模块将消失目标模板与其时空通联信息进行融合,并利用互补残差学习模块从多镜头视频中获取强化特征,计算其与消失目标的相似度;其次判断相似度是否均大于阈值,如果都大于阈值,则找到相似度最高的行人图像所属镜头并返回目标模板以及但摄像头的视频,如果没有都大于阈值则表示该目标已离开重点区域,并结束跨镜追踪。
实施例:
本实施例以监控某重点建筑物周围异常目标为例,这里将以该建筑物为中心的特定范围划分为重点区域,将重点区域中新增的时空通联数据以及其对应的目标视为异常信号与异常目标。
本实施例的具体跨镜目标追踪的步骤如下:
步骤一:首先,将目标模板图片和搜索区域(即视频帧)切割固定大小的子图片,并利用卷积操作对图片进行基本编码。具体来说,就是采用C个补零层数为1、步长为4、核大小为7的卷积层,对第i个跟踪目标模板图片Ti以及搜索区域S进行编码得到基本编码序列tj和sj。
最后,对每张特征图进行深度分离卷积操作,并将目标模板图片和搜索区域的每个特征映射进行展平,通过线性投影进行处理,得到所需的查询(query)、键(key)和值(value)向量:
其中,qt、kt和vt分别表示目标模板图片的query、key和value,qs、ks和vs分别表示搜索区域的query、key和value。DConv表示深度可分离卷积,表示将矩阵展平,表示线性投影操作。
步骤二:利用图2中得到三阶段混合注意力机制,对输入进行编码序列进行特征提取。
首先,将目标模板图片与搜索区域的键和值向量分别进行拼接得到km和vm,并利用混合注意力机制将目标模板图片与搜索区域进行特征融合:
d表示key的维度,上标T表示对应向量的转置,Softmax表示激活函数,Attent和Attens分别是目标模板图片和搜索区域注意力图。
然后,将F1进行序列分离与重建得到目标和搜索区域的二维特征图,再利用3C个卷积核大小为3、步长为2、补零层数为1的卷积分别得到大小为和的编码序列,将其展平并拼接后输入到混合注意力机制,进行4次混合注意力操作得到第二阶段的特征序列F2,其大小为
最后,进行类似操作提取第三阶段的特征图,就是将F2进行序列分离与重建得到目标和搜索区域的二维特征图,利用6C个卷积核获取对应编码序列,并将其展平拼接后输入到混合注意力机制进行16次混合注意力操作得到大小为的最终特征序列F3。
步骤三:为获取单摄像头的跟踪结果,首先将第三阶段输出的特征序列F3拆分得到搜索区域特征序列,并重建为特征图然后,将其输入到由L个卷积层、批量标准化层和Relu激活函数组成的全卷积网络,得到两个概率图:
Pa(x,y),Pb(x,y)=Conv(BN(Relu(T)))
最后,采用在线更新策略来获取跟踪结果。具体来说,先获取预测结果的注意力图,然后使用多层感知机网络和Sigmoid函数得到最终的分数,选择分数大于0.5的部分作为最终结果并存入目标模板库中。并将更新后的目标模板图片以及下一帧视频作为步骤一中初始目标模板图片和搜索区域,再次对视频中的异常目标进行跟踪,直至搜索区域内目标消失即目标离开该摄像头的搜索区域。
步骤四:为提高跨镜追踪目标的准确率,将目标的时空通联讯息作为行人重识别的辅助信息,即利用手机定位获取消失目标的位置并调取最近的三个摄像头的前帧视频(也就是先定位跟踪目标消失时的地理位置,然后调取该地理位置附近最近的三个摄像头视频),同时将目标的时空通联讯息(位置信息、通讯信息与上网信息)和消失目标的模板图像通过图3中的注意力机制进行特征融合。
步骤五:利用特征图上的冗余显著区域挖掘当前视频帧的剩余互补信息,并利用残差网络从中获取补充特征来强化当前视频帧的特征。为获取剩余互补信息,本实施例将第g-1帧的强化特征投射为并利用多头注意机制生成对应的注意力图
步骤六:利用相似度计算获取的强化特征向量与消失目标的模板图片之间相似性,并根据经验设置余弦相似度阈值,以实现跨镜目标追踪。
接着,根据经验设置余弦相似度阈值为0.5,通过相似度的大小得到行人图像与消失目标模板图片的相似性排序。
最后,选择相似度最大的行人图像所属摄像头继续跟踪消失目标,即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片,并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪。当所有视频帧中行人图像与目标模板图片的相似度均低于阈值时,则表示消失的目标已离开重点区域。
综上,本发明采用多阶段混合注意力机制能够很好地克服现有方法中利用卷积神经网络时因局部卷积而导致目标识别精度低的问题,不但可以实现单镜头目标跟踪;还可以利用互补残差学习模块有效地解决了因视频帧之间的冗余特征学习而导致行人重识别效率低的问题,进一步地完成跨镜头跟踪。通过在重点区域进行监控,根据目标的通联信息对其进行粗略定位以调用附近的单个摄像头进行单镜头跟踪,然后通过行人重识别技术在其它摄像头中找到消失目标持续跟踪,实现对目标快速精确的跨镜头跟踪。
Claims (8)
1.一种基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:包括以下步骤:
步骤S1、将跟踪目标模板图片Ti和当前搜索区域S切割为固定大小的子图片,利用卷积操作对各子图片进行基本编码分别得到对应编码序列tj和sj;然后对基本编码序列tj和sj进行分离和重建,最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查询、键和值向量组<qt,kt,vt>、<qs,ks,vs>;
其中,Ti表示第i个跟踪目标模板图片,i∈{1,2,...,n},qt,kt,vt为跟踪目标模板图片的查询、键和值,qs,ks,vs为搜索区域的查询、键和值;
步骤S2、利用三阶段混合注意力机制对输入的编码序列进行特征提取
第一阶段、将目标模板图片与搜索区域的键和值向量分别进行拼接,然后利用基本混合注意力操作得到目标模板图片与搜索区域融合后的混合特征F1;
第二阶段、将混合特征F1通过可分离卷积改变尺寸后输入到混合注意力机制中,得到第二阶段的特征序列F2;
第三阶段、将特征序列F2通过可分离卷积改变尺寸,并进行多个混合注意力操作得到最终第三阶段的特征序列F3;
步骤S3、先将特征序列F3通过分离和重建得到搜索区域的特征序列,并利用基于全卷积操作的预测头来定位跟踪目标的边界框得到检测结果;然后,根据预测置信度进行在线更新,同时将下一帧视频帧作为步骤S1的搜索区域,重新对视频中的跟踪目标进行跟踪,直至搜索区域中的目标消失;
步骤S4、利用手机定位获取消失目标的位置并调取最近的三个摄像头的部分视频,同时将消失目标的时空通联讯息和消失目标的图像通过注意力机制进行特征融合,并与调取的视频帧通过残差网络提取各自初始特征,分别得到三个摄像头视频序列的帧级特征以及特征融合后的消失目标初始特征;
步骤S5、将包含时间互补信息的视频帧级特征通过卷积映射为特征图,并利用多头注意机制获取该特征图上的显著特征;然后,利用激活和卷积操作获取初始特征中被激活的冗余显著区域,从而挖掘当前视频帧剩余互补区域,捕获剩余互补信息;接着,利用残差网络从互补信息中获取当前帧补充特征,进而得到当前视频帧的强化特征;最后,将消失目标的图像视为一个视频帧序列,并以相同的方式获得其对应的强化特征;
步骤S6、将获取的强化特征向量与消失目标的模板图片进行相似度计算,并根据经验设置余弦相似度阈值,若最大相似度低于阈值则表示消失目标已离开重点区域,反之,则获取最大相似度对应行人的边界框以及摄像头编号,并将该摄像头的视频序列与目标模板图片返回到步骤S1中对目标进行持续跟踪。
2.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S1的具体过程为:
S1.1、分别获取跟踪目标模板图片Ti和视频帧内搜索图片S的基本编码序列tj和sj;
采用C个补零层数为1、步长为4且核大小为7的卷积层,对各个子图片进行编码,公式如下:
然后,将跟踪目标模板图片Ti的N个目标子图像的基本编码和搜索区域的子图片的基本编码展开,并沿通道方向拼接得到大小为的编码序列;将拼接所得编码序列进行分离和重建得到目标编码序列与搜索序列的二维特征图像和
S1.2、分别获取目标模板图片和搜索图片的查询、键和值向量
3.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S2利用混合注意力机制提取特征的详细过程为:
步骤S2.1、将目标模板图片的kt和搜索区域的ks进行拼接得到键向量km=Concat(kt,ks),将目标模板图片的vt和搜索区域vs进行拼接得到值向量vm=Concat(vt,vs),Concat表示拼接操作;
步骤S2.2、利用混合注意力机制将目标模板图片与搜索区域进行特征融合,具体公式如下:
步骤S2.3、分三个阶段通过多层感知机制连接目标模板图片和搜索区域的注意力图来提取特征序列,提取公式为:
然后,将F1进行序列分离与重建得到目标和搜索区域的二维特征图,再利用3C个卷积核大小为3、步长为2、补零层数为1的卷积分别得到大小为和的编码序列,将其展平并拼接后输入到混合注意力机制,进行4次混合注意力操作得到第二阶段的特征序列F2,其大小为
5.根据权利要求4所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:在线更新策略来获取跟踪结果的具体方法为:
对于目标模板图片和搜索区域的注意力图,使用多层感知机网络和Sigmoid函数得到最终的分数,然后选择分数大于0.5的部分作为最终结果并存入目标模板库中;并将更新后的目标模板图片以及下一帧视频作为步骤S1内初始目标模板图片和搜索区域,再次对视频中的异常目标进行跟踪,直至搜索区域内目标消失即目标离开该摄像头的搜索区域。
6.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S4的详细过程包括如下:
步骤S4.1、获取融合特征:
使用γloc,γnet,γcom分别表示时空通联讯息中的目标的位置信息、上网信息和通讯信息的对应特征,然后利用注意力机制进行特征的融合的计算公式如下:
步骤S4.2、利用残差网络提取初始特征:
7.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S5获取强化特征的过程为:
其中Conv1和Conv2表示不同的卷积层,BN是批量归一化层,Relu是激活函数,是特征重建操作,表示摄像头序号为κ的第g-1个视频帧的显著特征,表示卷积操作,表示摄像头序号为κ的第g帧视频的剩余互补信息;
8.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S6中跨镜目标追踪的具体方法为:
接着,根据经验设置余弦相似度阈值,通过相似度的大小得到行人图像与消失目标模板图片的相似性排序;
最后,选择相似度最大的行人图像所属摄像头继续跟踪消失目标,即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片,并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪;当所有视频帧中行人图像与目标模板图片的相似度均低于阈值时,则表示消失的目标已离开重点区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211024862.9A CN115482375A (zh) | 2022-08-25 | 2022-08-25 | 一种基于时空通联数据驱动的跨镜目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211024862.9A CN115482375A (zh) | 2022-08-25 | 2022-08-25 | 一种基于时空通联数据驱动的跨镜目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115482375A true CN115482375A (zh) | 2022-12-16 |
Family
ID=84421760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211024862.9A Pending CN115482375A (zh) | 2022-08-25 | 2022-08-25 | 一种基于时空通联数据驱动的跨镜目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115482375A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402858A (zh) * | 2023-04-11 | 2023-07-07 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
CN116433727A (zh) * | 2023-06-13 | 2023-07-14 | 北京科技大学 | 一种基于阶段性持续学习的可伸缩单流追踪方法 |
CN117011342A (zh) * | 2023-10-07 | 2023-11-07 | 南京信息工程大学 | 一种注意力增强的时空Transformer视觉单目标跟踪方法 |
CN117036417A (zh) * | 2023-09-12 | 2023-11-10 | 南京信息工程大学 | 基于时空模板更新的多尺度Transformer目标跟踪方法 |
-
2022
- 2022-08-25 CN CN202211024862.9A patent/CN115482375A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402858A (zh) * | 2023-04-11 | 2023-07-07 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
CN116402858B (zh) * | 2023-04-11 | 2023-11-21 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
CN116433727A (zh) * | 2023-06-13 | 2023-07-14 | 北京科技大学 | 一种基于阶段性持续学习的可伸缩单流追踪方法 |
CN116433727B (zh) * | 2023-06-13 | 2023-10-27 | 北京科技大学 | 一种基于阶段性持续学习的可伸缩单流追踪方法 |
CN117036417A (zh) * | 2023-09-12 | 2023-11-10 | 南京信息工程大学 | 基于时空模板更新的多尺度Transformer目标跟踪方法 |
CN117011342A (zh) * | 2023-10-07 | 2023-11-07 | 南京信息工程大学 | 一种注意力增强的时空Transformer视觉单目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001339B (zh) | 一种基于YOLO v4的行人社交距离实时监测方法 | |
Yoo et al. | End-to-end lane marker detection via row-wise classification | |
Wang et al. | A self-training approach for point-supervised object detection and counting in crowds | |
CN115482375A (zh) | 一种基于时空通联数据驱动的跨镜目标跟踪方法 | |
US10467458B2 (en) | Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems | |
CN109784150B (zh) | 基于多任务时空卷积神经网络的视频驾驶员行为识别方法 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN109657533A (zh) | 行人重识别方法及相关产品 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN115171165A (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN111160295A (zh) | 基于区域引导和时空注意力的视频行人重识别方法 | |
CN113537254B (zh) | 图像特征提取方法、装置、电子设备及可读存储介质 | |
CN111325141A (zh) | 交互关系识别方法、装置、设备及存储介质 | |
CN114170516A (zh) | 一种基于路侧感知的车辆重识别方法、装置及电子设备 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
Getahun et al. | A deep learning approach for lane detection | |
Rashed et al. | Bev-modnet: Monocular camera based bird's eye view moving object detection for autonomous driving | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
CN110825916A (zh) | 一种基于形体识别技术的寻人方法 | |
Mukhopadhyay et al. | A hybrid lane detection model for wild road conditions | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
Liu et al. | Learning TBox with a cascaded anchor-free network for vehicle detection | |
Jin Kim et al. | Learned contextual feature reweighting for image geo-localization | |
CN116485894A (zh) | 视频场景建图与定位方法、装置、电子设备及存储介质 | |
CN115661535A (zh) | 一种目标去除背景恢复方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |