CN115482375A - 一种基于时空通联数据驱动的跨镜目标跟踪方法 - Google Patents

一种基于时空通联数据驱动的跨镜目标跟踪方法 Download PDF

Info

Publication number
CN115482375A
CN115482375A CN202211024862.9A CN202211024862A CN115482375A CN 115482375 A CN115482375 A CN 115482375A CN 202211024862 A CN202211024862 A CN 202211024862A CN 115482375 A CN115482375 A CN 115482375A
Authority
CN
China
Prior art keywords
target
video
frame
sequence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211024862.9A
Other languages
English (en)
Inventor
陈亮
李琦
张婧
剧立伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute Of Information Technology
Original Assignee
Nanjing Institute Of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute Of Information Technology filed Critical Nanjing Institute Of Information Technology
Priority to CN202211024862.9A priority Critical patent/CN115482375A/zh
Publication of CN115482375A publication Critical patent/CN115482375A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于时空通联数据驱动的跨镜目标跟踪方法,先分别获取跟踪目标模板图片和搜索区域的编码序列,然后三阶段混合注意力机制融合目标图片与视频帧获得对应特征序列,概率估计得到单摄像头视频的目标跟踪结果;接着通过注意力模块残差网络获得消失目标以及视频帧的强化特征,并计算二者相似度,最后通过相似度判断目标跟踪结果。本发明用于实时监控视频数据,结合追踪目标的通讯信息调用单个摄像头视频,并结合特定区域周围其他摄像头视频对异常目标进行持续追踪直至目标离开该区域,实现了跨镜的目标跟踪,从而达到及时预警,保护重点区域人员人身安全与信息安全的目的。

Description

一种基于时空通联数据驱动的跨镜目标跟踪方法
技术领域
本发明属于图像处理领域,特别是目标跟踪领域,具体涉及一种基于时空通联数据驱动的跨镜目标跟踪方法。
背景技术
目标跟踪是计算机视觉领域的一项基本任务,其成功部署于各种应用中,如人机交互和视觉监控。当前流行的跟踪器通常包含几个组件来完成跟踪任务:(1)提取跟踪目标和搜索区域(即监控的重点区域)一般特征的主干;(2)允许跟踪目标和搜索区域之间进行信息通信的集成模块,以便后续进行目标定位;(3)特定于任务的头部,以精确定位目标并估计其边界框。
在现实场景中,由于输入图像的尺度不同、目标的形变、被遮挡和类似对象的混淆等方面因素的影响,难以设计出一个简单而有效的端到端跟踪器。最近,由于基于注意力的Transformer具有全局和动态建模能力,研究人员将其应用于跟踪领域,并产生良好的性能。然而,基于Transformer的跟踪器仍然依赖于卷积神经网络(CNN)进行一般特征提取,并且只在后一个高层抽象表示空间中应用注意力操作。由于CNN采用局部卷积核,缺乏全局建模能力,限制了自注意力模块在整个跟踪模型中的应用。
近年来,多镜头目标跟踪在跟踪模型领域的应用越来越广,目前的主流方法是采用行人重识别技术来实现跨镜追踪,该技术主要分为图像到图像以及图像到视频的人员重新识别,旨在从基于图像或视频的库集中检索与需查询的目标相同的行人,其主要原理是将跨镜追踪视为跨模态检索任务,并从图像和视频模态中学习常见的潜在嵌入信息,以此来度量视频中行人与查询目标的相似性。
但是,由于图像和视频模态间隙大,且是利用所有视频帧进行冗余特征学习,而对于摄像头密布的场景下,由于目标在一个摄像机中可能被遮挡而在另一个摄像机中可以完全观察到,也就是说行人的部分可见性和不可辨性就不那么严重了,因此冗余特征学习会降低模型的效率和准确性。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于时空通联数据驱动的跨镜目标跟踪方法,本发明用混合注意力机制将通用特征提取和目标信息进行耦合,从而获取更多精细的特征信息并具有全局建模能力;利用互补残差学习器获取视频帧中最显著的特征减少冗余匹配信息,同时挖掘视频帧之间的潜在互补信息以强化特征表示,进而在跨镜匹配时减小匹配误差。
技术方案:本发明的一种基于时空通联数据驱动的跨镜目标跟踪方法,包括以下步骤:
步骤S1、将跟踪目标模板图片Ti和当前搜索区域(即当前视频帧)S分别切割为固定大小的子图片(例如可以将一个目标模板图片分割为N个子图片),利用卷积操作对各子图片进行基本编码分别得到对应编码序列tj和sj,此处j的取值范围是根据输入的目标模板图片大小以及视频帧大小而改变的;然后对基本编码序列tj和sj进行分离和重建,最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查询、键和值向量组<qt,kt,vt>、<qs,ks,vs>;
其中,Ti表示第i个跟踪目标模板图片,i∈{1,2,...,n};qt,kt,vt为跟踪目标模板图片的查询、键和值,qs,ks,vs为搜索图片的查询、键和值;
步骤S2、利用三阶段混合注意力机制对输入的编码序列进行特征提取
第一阶段、将目标模板图片与搜索区域的键和值向量分别进行拼接,然后利用基本混合注意力操作得到目标模板图片与搜索区域融合后的混合特征F1
第二阶段、将第一阶段所得混合特征通过可分离卷积改变尺寸后输入到混合注意力机制中,得到第二阶段的特征序列F2
第三阶段、将第二阶段的特征序列F2再次通过可分离卷积改变尺寸,并进行多个混合注意力操作得到最终第三阶段的特征序列F3
步骤S3、先将特征序列F3通过分离和重建得到搜索区域的特征序列,并利用基于全卷积操作的预测头来定位跟踪目标的边界框得到检测结果;然后,根据预测置信度进行在线更新,同时将下一帧视频帧下一个搜索区域作为步骤S1的搜索区域,重新对视频中的跟踪目标进行跟踪,直至搜索区域中的目标消失;
步骤S4、利用手机定位获取(例如可以可用手机定位)消失目标的位置并调取距离最近的三个摄像头的部分视频,同时将消失目标的时空通联讯息(位置信息、通讯信息与上网信息)和消失目标的图像通过注意力机制进行特征融合,并与调取的视频帧通过残差网络提取各自初始特征,分别得到三个摄像头视频序列的帧级特征以及特征融合后的目标初始特征;
步骤S5、将包含时间互补信息的视频帧级特征通过卷积映射为特征图,并利用多头注意机制获取该特征图上的显著特征;然后,利用激活和卷积操作获取初始特征中被激活的冗余显著区域,从而挖掘当前视频帧剩余互补区域,捕获剩余互补信息;接着,利用残差网络从互补信息中获取当前帧补充特征,进而得到当前视频帧的强化特征;最后,将消失目标的图像视为一个视频帧序列,并以相同的方式获得其对应的强化特征;
步骤S6、将获取的强化特征向量与消失目标的模板图片进行相似度计算,并根据经验设置余弦相似度阈值,若最大相似度低于阈值则表示消失目标已离开重点区域,反之,则获取最大相似度对应行人的边界框以及摄像头编号,并将该摄像头的视频序列与目标模板图片返回到步骤S1中对目标进行持续跟踪。
进一步地,所述步骤S1的具体过程为:
S1.1、分别获取跟踪目标模板图片Ti和搜索区域S的基本编码序列tj和sj
采用C个补零层数为1、步长为4且核大小为7的卷积层,对各个子图片进行编码,公式如下:
Figure BDA0003815249630000031
其中,
Figure BDA0003815249630000032
Ht和Wt分别为跟踪目标模板图的高度和宽度,Hs和Ws分别表示搜索区域的高度和宽度,tj表示目标模板图片的编码,sj表示搜索区域的编码,Conv7×7表示核大小为7的卷积;
进而得到目标子图像的基本编码大小分别为
Figure BDA0003815249630000033
搜索子图像的基本编码大小为
Figure BDA0003815249630000034
C为通道数(取值64);
然后,将跟踪目标模板图片Ti的N个目标子图像的基本编码
Figure BDA0003815249630000035
和搜索区域的子图片的基本编码
Figure BDA0003815249630000036
展开,并沿通道方向拼接得到大小为
Figure BDA0003815249630000041
的编码序列;将拼接所得编码序列进行分离和重建得到目标编码序列与搜索序列的二维特征图像
Figure BDA0003815249630000042
Figure BDA0003815249630000043
S1.2、分别获取目标模板图片和搜索区域的查询、键和值向量
首先,对每个二维特征图像
Figure BDA0003815249630000044
进行深度分离卷积操作DConv,然后将目标模板图片和搜索区域的每个特征映射进行矩阵展平操作
Figure BDA0003815249630000045
以及线性投影操作
Figure BDA0003815249630000046
最终得到对应查询query、键key和值value,具体公式如下:
Figure BDA0003815249630000047
进一步地,所述步骤S2利用混合注意力机制提取特征的详细过程为:
步骤S2.1、将目标模板图片的kt和搜索区域的ks进行拼接得到键向量km=Concat(kt,ks),将目标模板图片的vt和搜索区域vs进行拼接得到值向量vm=Concat(vt,vs),Concat表示拼接操作;此处下标m仅用于变量参数的符号区分;
步骤S2.2、利用混合注意力机制将目标模板图片与搜索区域进行特征融合,具体公式如下:
Figure BDA0003815249630000048
d表示键key的维度,上标T表示对应向量的转置,
Figure BDA0003815249630000049
表示激活函数,Attent和Attens分别是目标模板图片和搜索区域的注意力图,即提取各自的特征以及二者之间的关联性;
步骤S2.3、分三个阶段通过多层感知机制连接目标模板图片和搜索区域的注意力图来提取特征序列,提取公式为:
Figure BDA00038152496300000410
其中,F表示目标模板图片和搜索区域使用一次混合注意力操作提取到的特征,Concat表示拼接操作,
Figure BDA00038152496300000411
表示多层感知机网络;
先使用一次混合注意力操作提取得到大小为
Figure BDA0003815249630000051
的第一阶段特征序列F1;C为通道数,例如取值为64;
然后,将F1进行序列分离与重建得到目标和搜索区域的二维特征图,再利用3C个卷积核大小为3、步长为2、补零层数为1的卷积分别得到大小为
Figure BDA0003815249630000052
Figure BDA0003815249630000053
的编码序列,将其展平并拼接后输入到混合注意力机制,进行4次混合注意力操作得到第二阶段的特征序列F2,其大小为
Figure BDA0003815249630000054
最后,将F2进行序列分离与重建得到目标和搜索区域的二维特征图,利用6C个卷积核获取对应编码序列,并将其展平拼接后输入到混合注意力机制进行16次混合注意力操作得到大小为
Figure BDA0003815249630000055
的第三阶段最终特征序列F3
进一步地,所述步骤S3中获取单个摄像头目标检测结果的具体过程为:
首先,将特征序列F3拆分得到搜索区域特征序列,并重建大小为
Figure BDA0003815249630000056
的特征图
Figure BDA0003815249630000057
然后,将
Figure BDA0003815249630000058
输入到由L个卷积层、批量标准化层和Relu激活函数组成的全卷积网络,得到两个概率图为:
Figure BDA0003815249630000059
其中Pa(x,y)表示边界框左上方的顶点概率图,Pb(x,y)表示边界框右下方的顶点概率图,Conv表示卷积操作,BN表示批量标准化;
接着,通过计算两个顶点概率分布的期望值获得预测边界框坐标
Figure BDA00038152496300000510
Figure BDA00038152496300000511
如下式所示:
Figure BDA0003815249630000061
这两个顶点内的区域就是目标检测的结果;
最后,采用在线更新策略来获取跟踪结果。
进一步地,在线更新策略来获取跟踪结果的具体方法为:
对于目标模板图片和搜索区域的注意力图,使用多层感知机网络和Sigmoid函数得到最终的分数,然后选择分数大于0.5的部分作为最终结果并存入目标模板库中;并将更新后的目标模板图片以及下一帧视频作为步骤S1内初始目标模板图片和搜索区域,再次对视频中的异常目标进行跟踪,直至搜索区域内目标消失即目标离开该摄像头的搜索区域。
进一步地,所述步骤S4的详细过程包括如下:
步骤S4.1、获取融合特征:
使γlocnetcom分别表示抽取的目标的位置信息、上网信息和通讯信息的对应特征,Ti表示第i个消失目标的模板图片,则利用注意力机制进行特征的融合的计算公式如下:
Figure BDA0003815249630000062
其中,α,β为可调整参数,Ωtγθ为可学习的权重,bA,bθ为偏置向量,tj为向量Ti的一个元素,θj为权重向量θ的一个元素,
Figure BDA0003815249630000063
表示第i个消失目标的模板图片包含时空通联信息的融合特征;
步骤S4.2、利用残差网络提取初始特征:
使
Figure BDA0003815249630000064
表示抽取的前
Figure BDA0003815249630000065
帧视频序列,采用残差网络Resnet50的前四个残差层来提取视频序列和消失目标的最初特征,视频序列的帧级特征为
Figure BDA0003815249630000071
特征融合后的目标的初始特征为
Figure BDA0003815249630000072
具体公式如下:
Figure BDA0003815249630000073
其中,h、w和c是每个特征
Figure BDA0003815249630000074
的高度、宽度和通道大小,κ表示视频序列所属摄像头的序号,
Figure BDA0003815249630000075
表示视频序列的总数量,g是视频帧的索引。
进一步地,所述步骤S5获取强化特征的过程为:
使
Figure BDA0003815249630000076
表示摄像头序号为κ的第g帧视频初始特征,
Figure BDA0003815249630000077
表示第g-1帧视频的强化特征,其包含第g-1帧的帧级特征以及前g-1帧的时间互补信息;
首先,将强化特征
Figure BDA0003815249630000078
投射为特征图
Figure BDA0003815249630000079
并采用多头注意力机制生成对应的注意力图
Figure BDA00038152496300000710
然后,利用Softmax函数获取前g-1个视频帧的显著特征与第g个视频帧的初始特征之间的相似度,以获取第g帧视频的剩余互补信息
Figure BDA00038152496300000711
Figure BDA00038152496300000712
其中Conv1和Conv2表示不同的卷积层,BN是批量归一化层,Relu是激活函数,
Figure BDA00038152496300000713
是特征重建操作,
Figure BDA00038152496300000714
表示摄像头序号为κ的第g-1个视频帧的显著特征,
Figure BDA00038152496300000715
表示卷积操作,
Figure BDA00038152496300000716
表示摄像头序号为κ的第g帧视频的剩余互补信息;
最后,利用残差网络从
Figure BDA00038152496300000717
中获取该摄像头第g帧视频的补充特征
Figure BDA00038152496300000718
并将其与第g-1个的帧级强化特征
Figure BDA00038152496300000719
整合得到第g帧视频的强化特征
Figure BDA00038152496300000720
Figure BDA00038152496300000721
并利用相同方法计算消失目标模板图片的强化特征
Figure BDA0003815249630000081
进一步地,所述步骤S6中跨镜目标追踪的具体方法为:
首先,对帧级强化特征
Figure BDA0003815249630000082
进行全局平均池化得到视频帧中每个行人图像的特征向量
Figure BDA0003815249630000083
Figure BDA0003815249630000084
表示摄像头序号为κ的第g帧视频中检测到的行人数量;
然后,对消失目标模板图片的强化特征
Figure BDA0003815249630000085
与视频帧中行人目标的强化特征向量
Figure BDA0003815249630000086
进行通道归一化,并进行相似度计算即:
Figure BDA0003815249630000087
其中
Figure BDA0003815249630000088
表示消失目标与摄像头κ中行人图像的相似度;
接着,根据经验设置余弦相似度阈值为0.5,通过相似度的大小得到行人图像与消失目标模板图片的相似性排序;
最后,选择相似度最大的行人图像所属摄像头继续跟踪消失目标,即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片,并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪;当所有视频帧中行人图像与目标模板的相似度均低于阈值时,则表示消失的目标已离开重点区域。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明有效地利用了目标和搜索区域之间的相关性,使得提取的特征更加针对相应的跟踪目标,并捕获更多针对特定目标的鉴别特征。
(2)本发明由于采用基于全卷积操作的预测头,可以预测出目标所在区域,显著地提高了跟踪算法的精度和稳健性。
(3)本发明由于结合了异常目标的时空通联数据(即目标的手机上网数据、通联数据以及位置信息等)对其进行跨镜跟踪,从而提高了跟踪速度及其准确性。
(4)本发明由于采用互补残差学习器,不仅可以获取视频帧之间的时间互补信息,从而抑制公共显著信息达到平衡效率和准确性的目的,还能彻底挖掘视频帧之间的潜在互补信息,以增强行人的特征表示,进而在跨镜匹配时减小匹配误差。
附图说明
图1为本发明的整理流程图;
图2为实施例中混合注意力机制示意图;
图3为实施例中互补残差学习模块示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
本发明利用监控的重点搜索区域中异常目标的通联信息对跟踪目标进行粗略定位以调用附近的单个摄像头的实时视频,并利用三阶段混合注意力机制提取并融合目标图片与视频帧之间的特征,通过概率估计得到检测结果,同时利用在线更新策略获取单个摄像头视频中的目标跟踪结果;然后,通过注意力模块将消失目标模板与其对应的时空通联信息进行融合,并利用手机定位获取消失目标的位置并通过调取距离最小的三个摄像头的视频;将消失目标的融合特征与视频输入到互补残差学习器进行特征增强与匹配,进而将强化特征与目标特征进行相似度计算;最后,找到相似度最高且大于阈值的行人图像,并返回其边界框以及所属摄像头编号进行继续追踪,直到在查询的视频中未匹配到消失的目标即判定为目标离开该重点区域。
简言之,本发明可用于实时监控视频数据,结合追踪目标的通讯信息调用单个摄像头视频,并结合特定区域周围其他摄像头视频对异常目标进行持续追踪直至目标离开该区域,实现跨镜目标跟踪,从而达到及时预警,保护重点区域人员人身安全与信息安全的目的。
如图1所示,本发明跨镜目标跟踪的整体流程为:首先,获取目标模板和单摄像头的视频序列;然后,目标跟踪,即利用多阶段混合注意力机制实现单摄像头目标跟踪;接着进行行人重识别,即当目标离开当前摄像头视野时,通过注意力模块将消失目标模板与其时空通联信息进行融合,并利用互补残差学习模块从多镜头视频中获取强化特征,计算其与消失目标的相似度;其次判断相似度是否均大于阈值,如果都大于阈值,则找到相似度最高的行人图像所属镜头并返回目标模板以及但摄像头的视频,如果没有都大于阈值则表示该目标已离开重点区域,并结束跨镜追踪。
实施例:
本实施例以监控某重点建筑物周围异常目标为例,这里将以该建筑物为中心的特定范围划分为重点区域,将重点区域中新增的时空通联数据以及其对应的目标视为异常信号与异常目标。
本实施例的具体跨镜目标追踪的步骤如下:
步骤一:首先,将目标模板图片和搜索区域(即视频帧)切割固定大小的子图片,并利用卷积操作对图片进行基本编码。具体来说,就是采用C个补零层数为1、步长为4、核大小为7的卷积层,对第i个跟踪目标模板图片Ti以及搜索区域S进行编码得到基本编码序列tj和sj
然后,将目标模板图片Ti的N个目标子图片的基本编码和搜索区域的子图片的基本编码展开,并且沿着通道方向拼接,并对得到的编码序列进行分离和重建得到目标序列与搜索序列的二维特征图像
Figure BDA0003815249630000101
Figure BDA0003815249630000102
最后,对每张特征图进行深度分离卷积操作,并将目标模板图片和搜索区域的每个特征映射进行展平,通过线性投影进行处理,得到所需的查询(query)、键(key)和值(value)向量:
Figure BDA0003815249630000103
其中,qt、kt和vt分别表示目标模板图片的query、key和value,qs、ks和vs分别表示搜索区域的query、key和value。DConv表示深度可分离卷积,
Figure BDA0003815249630000104
表示将矩阵展平,
Figure BDA0003815249630000105
表示线性投影操作。
步骤二:利用图2中得到三阶段混合注意力机制,对输入进行编码序列进行特征提取。
首先,将目标模板图片与搜索区域的键和值向量分别进行拼接得到km和vm,并利用混合注意力机制将目标模板图片与搜索区域进行特征融合:
Figure BDA0003815249630000106
d表示key的维度,上标T表示对应向量的转置,Softmax表示激活函数,Attent和Attens分别是目标模板图片和搜索区域注意力图。
接着,通过多层感知机将目标模板图片和搜索区域的注意力图进行拼接,拼接公式为:
Figure BDA0003815249630000111
目标模板图片和搜索区域使用一次混合注意力操作提取到特征F1,F1大小为
Figure BDA0003815249630000112
然后,将F1进行序列分离与重建得到目标和搜索区域的二维特征图,再利用3C个卷积核大小为3、步长为2、补零层数为1的卷积分别得到大小为
Figure BDA0003815249630000113
Figure BDA0003815249630000114
的编码序列,将其展平并拼接后输入到混合注意力机制,进行4次混合注意力操作得到第二阶段的特征序列F2,其大小为
Figure BDA0003815249630000115
最后,进行类似操作提取第三阶段的特征图,就是将F2进行序列分离与重建得到目标和搜索区域的二维特征图,利用6C个卷积核获取对应编码序列,并将其展平拼接后输入到混合注意力机制进行16次混合注意力操作得到大小为
Figure BDA0003815249630000116
的最终特征序列F3
步骤三:为获取单摄像头的跟踪结果,首先将第三阶段输出的特征序列F3拆分得到搜索区域特征序列,并重建为特征图
Figure BDA0003815249630000117
然后,将其输入到由L个卷积层、批量标准化层和Relu激活函数组成的全卷积网络,得到两个概率图:
Pa(x,y),Pb(x,y)=Conv(BN(Relu(T)))
Pa(x,y)表示边界框左上方的顶点概率图,Pb(x,y)表示边界框右下方的顶点概率图。接着,通过计算顶点概率分布的期望值获得预测边界框坐标
Figure BDA0003815249630000118
Figure BDA0003815249630000119
这里两个顶点内的区域就是目标检测的结果,如下式所示:
Figure BDA0003815249630000121
最后,采用在线更新策略来获取跟踪结果。具体来说,先获取预测结果的注意力图,然后使用多层感知机网络和Sigmoid函数得到最终的分数,选择分数大于0.5的部分作为最终结果并存入目标模板库中。并将更新后的目标模板图片以及下一帧视频作为步骤一中初始目标模板图片和搜索区域,再次对视频中的异常目标进行跟踪,直至搜索区域内目标消失即目标离开该摄像头的搜索区域。
步骤四:为提高跨镜追踪目标的准确率,将目标的时空通联讯息作为行人重识别的辅助信息,即利用手机定位获取消失目标的位置并调取最近的三个摄像头的前
Figure BDA00038152496300001210
帧视频(也就是先定位跟踪目标消失时的地理位置,然后调取该地理位置附近最近的三个摄像头视频),同时将目标的时空通联讯息(位置信息、通讯信息与上网信息)和消失目标的模板图像通过图3中的注意力机制进行特征融合。
接着,采用残差网络Resnet50的前四个残差层对消失目标模板图片与调取的三个摄像头的前
Figure BDA0003815249630000122
个视频帧进行初始特征提取,得到视频序列的帧级特征
Figure BDA0003815249630000123
以及目标模板的初始特征
Figure BDA0003815249630000124
步骤五:利用特征图上的冗余显著区域挖掘当前视频帧的剩余互补信息,并利用残差网络从中获取补充特征来强化当前视频帧的特征。为获取剩余互补信息,本实施例将第g-1帧的强化特征
Figure BDA0003815249630000125
投射为
Figure BDA0003815249630000126
并利用多头注意机制生成对应的注意力图
Figure BDA0003815249630000127
Figure BDA0003815249630000128
然后,利用Softmax函数获取前g-1个视频帧的显著特征与第g个视频帧的初始特征之间的相似度,从而获取第g帧视频的剩余互补信息
Figure BDA0003815249630000129
Figure BDA0003815249630000131
此处,
Figure BDA0003815249630000132
是特征重建操作,
Figure BDA0003815249630000133
表示摄像头序号为κ的第g-1个视频帧的显著特征,
Figure BDA0003815249630000134
表示摄像头序号为κ的第g帧视频初始特征。
最后,利用残差网络从
Figure BDA0003815249630000135
中获取该摄像头第g帧视频的补充特征,并将其与第g-1帧的强化特征整合得到第g帧的强化特征
Figure BDA0003815249630000136
Figure BDA0003815249630000137
其中
Figure BDA0003815249630000138
表示第κ个摄像头的第g帧视频的补充特征,
Figure BDA0003815249630000139
表示第κ个摄像头的第g-1帧视频的强化特征,并以相同的方式获得消失目标模板图片的强化特征
Figure BDA00038152496300001310
步骤六:利用相似度计算获取的强化特征向量与消失目标的模板图片之间相似性,并根据经验设置余弦相似度阈值,以实现跨镜目标追踪。
首先,对帧级强化特征
Figure BDA00038152496300001311
进行全局平均池化得到视频帧中每个行人图像的特征向量
Figure BDA00038152496300001312
Figure BDA00038152496300001313
表示摄像头序号为κ的第g帧视频中检测到的行人数量。
然后,对消失目标模板图片的强化特征
Figure BDA00038152496300001314
与视频帧中行人的强化特征向量
Figure BDA00038152496300001315
进行通道归一化,并计算进行相似度Θκ
Figure BDA00038152496300001316
这里
Figure BDA00038152496300001317
表示消失目标与摄像头κ中行人图像的相似度。
接着,根据经验设置余弦相似度阈值为0.5,通过相似度的大小得到行人图像与消失目标模板图片的相似性排序。
最后,选择相似度最大的行人图像所属摄像头继续跟踪消失目标,即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片,并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪。当所有视频帧中行人图像与目标模板图片的相似度均低于阈值时,则表示消失的目标已离开重点区域。
综上,本发明采用多阶段混合注意力机制能够很好地克服现有方法中利用卷积神经网络时因局部卷积而导致目标识别精度低的问题,不但可以实现单镜头目标跟踪;还可以利用互补残差学习模块有效地解决了因视频帧之间的冗余特征学习而导致行人重识别效率低的问题,进一步地完成跨镜头跟踪。通过在重点区域进行监控,根据目标的通联信息对其进行粗略定位以调用附近的单个摄像头进行单镜头跟踪,然后通过行人重识别技术在其它摄像头中找到消失目标持续跟踪,实现对目标快速精确的跨镜头跟踪。

Claims (8)

1.一种基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:包括以下步骤:
步骤S1、将跟踪目标模板图片Ti和当前搜索区域S切割为固定大小的子图片,利用卷积操作对各子图片进行基本编码分别得到对应编码序列tj和sj;然后对基本编码序列tj和sj进行分离和重建,最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查询、键和值向量组<qt,kt,vt>、<qs,ks,vs>;
其中,Ti表示第i个跟踪目标模板图片,i∈{1,2,...,n},qt,kt,vt为跟踪目标模板图片的查询、键和值,qs,ks,vs为搜索区域的查询、键和值;
步骤S2、利用三阶段混合注意力机制对输入的编码序列进行特征提取
第一阶段、将目标模板图片与搜索区域的键和值向量分别进行拼接,然后利用基本混合注意力操作得到目标模板图片与搜索区域融合后的混合特征F1
第二阶段、将混合特征F1通过可分离卷积改变尺寸后输入到混合注意力机制中,得到第二阶段的特征序列F2
第三阶段、将特征序列F2通过可分离卷积改变尺寸,并进行多个混合注意力操作得到最终第三阶段的特征序列F3
步骤S3、先将特征序列F3通过分离和重建得到搜索区域的特征序列,并利用基于全卷积操作的预测头来定位跟踪目标的边界框得到检测结果;然后,根据预测置信度进行在线更新,同时将下一帧视频帧作为步骤S1的搜索区域,重新对视频中的跟踪目标进行跟踪,直至搜索区域中的目标消失;
步骤S4、利用手机定位获取消失目标的位置并调取最近的三个摄像头的部分视频,同时将消失目标的时空通联讯息和消失目标的图像通过注意力机制进行特征融合,并与调取的视频帧通过残差网络提取各自初始特征,分别得到三个摄像头视频序列的帧级特征以及特征融合后的消失目标初始特征;
步骤S5、将包含时间互补信息的视频帧级特征通过卷积映射为特征图,并利用多头注意机制获取该特征图上的显著特征;然后,利用激活和卷积操作获取初始特征中被激活的冗余显著区域,从而挖掘当前视频帧剩余互补区域,捕获剩余互补信息;接着,利用残差网络从互补信息中获取当前帧补充特征,进而得到当前视频帧的强化特征;最后,将消失目标的图像视为一个视频帧序列,并以相同的方式获得其对应的强化特征;
步骤S6、将获取的强化特征向量与消失目标的模板图片进行相似度计算,并根据经验设置余弦相似度阈值,若最大相似度低于阈值则表示消失目标已离开重点区域,反之,则获取最大相似度对应行人的边界框以及摄像头编号,并将该摄像头的视频序列与目标模板图片返回到步骤S1中对目标进行持续跟踪。
2.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S1的具体过程为:
S1.1、分别获取跟踪目标模板图片Ti和视频帧内搜索图片S的基本编码序列tj和sj
采用C个补零层数为1、步长为4且核大小为7的卷积层,对各个子图片进行编码,公式如下:
Figure FDA0003815249620000021
其中,
Figure FDA0003815249620000022
Ht和Wt分别为跟踪目标模板图的高度和宽度,Hs和Ws分别表示搜索图片的高度和宽度,tj表示目标模板图片的编码,sj表示搜索图片的编码,Conv7×7表示核大小为7的卷积;
进而得到目标子图像的基本编码大小分别为
Figure FDA0003815249620000023
搜索子图像的基本编码大小为
Figure FDA0003815249620000024
C为通道数;
然后,将跟踪目标模板图片Ti的N个目标子图像的基本编码
Figure FDA0003815249620000025
和搜索区域的子图片的基本编码
Figure FDA0003815249620000026
展开,并沿通道方向拼接得到大小为
Figure FDA0003815249620000027
的编码序列;将拼接所得编码序列进行分离和重建得到目标编码序列与搜索序列的二维特征图像
Figure FDA0003815249620000028
Figure FDA0003815249620000029
S1.2、分别获取目标模板图片和搜索图片的查询、键和值向量
首先,对二维特征图像
Figure FDA0003815249620000031
进行深度分离卷积操作DConv,然后将目标模板和搜索图片的每个特征映射进行矩阵展平操作
Figure FDA0003815249620000032
以及线性投影操作
Figure FDA0003815249620000033
最终得到对应查询query、键key和值value,具体公式如下:
Figure FDA0003815249620000034
3.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S2利用混合注意力机制提取特征的详细过程为:
步骤S2.1、将目标模板图片的kt和搜索区域的ks进行拼接得到键向量km=Concat(kt,ks),将目标模板图片的vt和搜索区域vs进行拼接得到值向量vm=Concat(vt,vs),Concat表示拼接操作;
步骤S2.2、利用混合注意力机制将目标模板图片与搜索区域进行特征融合,具体公式如下:
Figure FDA0003815249620000035
d表示键key的维度,上标T表示对应向量的转置,
Figure FDA0003815249620000036
表示激活函数,Attent和Attens分别是目标模板图片和搜索区域的注意力图;
步骤S2.3、分三个阶段通过多层感知机制连接目标模板图片和搜索区域的注意力图来提取特征序列,提取公式为:
Figure FDA0003815249620000037
其中,F表示目标模板图片和搜索区域使用一次混合注意力操作提取到的特征,Concat表示拼接操作,
Figure FDA0003815249620000038
表示多层感知机网络;
先使用一次混合注意力操作提取得到大小为
Figure FDA0003815249620000039
的第一阶段特征序列F1,C为通道数;
然后,将F1进行序列分离与重建得到目标和搜索区域的二维特征图,再利用3C个卷积核大小为3、步长为2、补零层数为1的卷积分别得到大小为
Figure FDA0003815249620000041
Figure FDA0003815249620000042
的编码序列,将其展平并拼接后输入到混合注意力机制,进行4次混合注意力操作得到第二阶段的特征序列F2,其大小为
Figure FDA0003815249620000043
最后,将F2进行序列分离与重建得到目标和搜索区域的二维特征图,利用6C个卷积核获取对应编码序列,并将其展平拼接后输入到混合注意力机制进行16次混合注意力操作得到大小为
Figure FDA0003815249620000044
的第三阶段最终特征序列F3
4.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S3中获取单个摄像头目标检测结果的具体过程为:
首先,将特征序列F3拆分得到搜索区域特征序列,并重建大小为
Figure FDA0003815249620000045
的特征图
Figure FDA0003815249620000046
C为通道数;
然后,将
Figure FDA0003815249620000047
输入到由L个卷积层、批量标准化层和Relu激活函数组成的全卷积网络,得到两个概率图为:
Figure FDA0003815249620000048
其中Pa(x,y)表示边界框左上方的顶点概率图,Pb(x,y)表示边界框右下方的顶点概率图,Conv表示卷积操作,BN表示批量标准化;
接着,通过计算两个顶点概率分布的期望值获得预测边界框坐标
Figure FDA0003815249620000049
Figure FDA00038152496200000410
如下式所示:
Figure FDA00038152496200000411
最后,采用在线更新策略来获取跟踪结果。
5.根据权利要求4所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:在线更新策略来获取跟踪结果的具体方法为:
对于目标模板图片和搜索区域的注意力图,使用多层感知机网络和Sigmoid函数得到最终的分数,然后选择分数大于0.5的部分作为最终结果并存入目标模板库中;并将更新后的目标模板图片以及下一帧视频作为步骤S1内初始目标模板图片和搜索区域,再次对视频中的异常目标进行跟踪,直至搜索区域内目标消失即目标离开该摄像头的搜索区域。
6.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S4的详细过程包括如下:
步骤S4.1、获取融合特征:
使用γlocnetcom分别表示时空通联讯息中的目标的位置信息、上网信息和通讯信息的对应特征,然后利用注意力机制进行特征的融合的计算公式如下:
Figure FDA0003815249620000051
其中,α,β为可调整参数,ΩtΥθ为可学习的权重,bA,bθ为偏置向量,tj为向量Ti的一个元素,θj为权重向量θ的一个元素,
Figure FDA0003815249620000052
表示第i个消失目标的模板图片包含时空通联信息的融合特征;
步骤S4.2、利用残差网络提取初始特征:
使
Figure FDA0003815249620000053
表示抽取的前
Figure FDA0003815249620000054
帧视频序列,采用残差网络Resnet50的前四个残差层来提取视频序列和消失目标的最初特征,视频序列的帧级特征为
Figure FDA0003815249620000055
特征融合后的目标初始特征为
Figure FDA0003815249620000056
具体公式如下:
Figure FDA0003815249620000057
其中,h、w和c是每个特征
Figure FDA0003815249620000061
的高度、宽度和通道大小,κ表示视频序列所属摄像头的序号,
Figure FDA0003815249620000062
表示视频序列的总数量,g是视频帧的索引。
7.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S5获取强化特征的过程为:
使
Figure FDA0003815249620000063
表示摄像头序号为κ的第g帧视频初始特征,
Figure FDA0003815249620000064
表示第g-1帧视频的强化特征,其包含第g-1帧的帧级特征以及前g-1帧的时间互补信息;
首先,将强化特征
Figure FDA0003815249620000065
投射为特征图
Figure FDA0003815249620000066
并采用多头注意力机制生成对应的注意力图
Figure FDA0003815249620000067
然后,利用Softmax函数获取前g-1个视频帧的显著特征与第g个视频帧的初始特征之间的相似度,以获取第g帧视频的剩余互补信息
Figure FDA0003815249620000068
Figure FDA0003815249620000069
其中Conv1和Conv2表示不同的卷积层,BN是批量归一化层,Relu是激活函数,
Figure FDA00038152496200000610
是特征重建操作,
Figure FDA00038152496200000611
表示摄像头序号为κ的第g-1个视频帧的显著特征,
Figure FDA00038152496200000612
表示卷积操作,
Figure FDA00038152496200000613
表示摄像头序号为κ的第g帧视频的剩余互补信息;
最后,利用残差网络从
Figure FDA00038152496200000614
中获取该摄像头第g帧视频的补充特征
Figure FDA00038152496200000615
并将其与第g-1个的帧级强化特征
Figure FDA00038152496200000616
整合得到第g帧视频的强化特征
Figure FDA00038152496200000617
Figure FDA00038152496200000618
并利用相同方法计算消失目标模板图片的强化特征
Figure FDA00038152496200000619
8.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法,其特征在于:所述步骤S6中跨镜目标追踪的具体方法为:
首先,对帧级强化特征
Figure FDA0003815249620000071
进行全局平均池化得到视频帧中每个行人图像的特征向量
Figure FDA0003815249620000072
Figure FDA0003815249620000073
表示摄像头序号为κ的第g帧视频中检测到的行人数量;
然后,对消失目标模板图片的强化特征
Figure FDA0003815249620000074
与视频帧中行人目标的强化特征向量
Figure FDA0003815249620000075
进行通道归一化,并进行相似度计算即:
Figure FDA0003815249620000076
其中
Figure FDA0003815249620000077
表示消失目标与摄像头κ中行人图像的相似度;
接着,根据经验设置余弦相似度阈值,通过相似度的大小得到行人图像与消失目标模板图片的相似性排序;
最后,选择相似度最大的行人图像所属摄像头继续跟踪消失目标,即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片,并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪;当所有视频帧中行人图像与目标模板图片的相似度均低于阈值时,则表示消失的目标已离开重点区域。
CN202211024862.9A 2022-08-25 2022-08-25 一种基于时空通联数据驱动的跨镜目标跟踪方法 Pending CN115482375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211024862.9A CN115482375A (zh) 2022-08-25 2022-08-25 一种基于时空通联数据驱动的跨镜目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211024862.9A CN115482375A (zh) 2022-08-25 2022-08-25 一种基于时空通联数据驱动的跨镜目标跟踪方法

Publications (1)

Publication Number Publication Date
CN115482375A true CN115482375A (zh) 2022-12-16

Family

ID=84421760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211024862.9A Pending CN115482375A (zh) 2022-08-25 2022-08-25 一种基于时空通联数据驱动的跨镜目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115482375A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116433727A (zh) * 2023-06-13 2023-07-14 北京科技大学 一种基于阶段性持续学习的可伸缩单流追踪方法
CN117011342A (zh) * 2023-10-07 2023-11-07 南京信息工程大学 一种注意力增强的时空Transformer视觉单目标跟踪方法
CN117036417A (zh) * 2023-09-12 2023-11-10 南京信息工程大学 基于时空模板更新的多尺度Transformer目标跟踪方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116402858B (zh) * 2023-04-11 2023-11-21 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116433727A (zh) * 2023-06-13 2023-07-14 北京科技大学 一种基于阶段性持续学习的可伸缩单流追踪方法
CN116433727B (zh) * 2023-06-13 2023-10-27 北京科技大学 一种基于阶段性持续学习的可伸缩单流追踪方法
CN117036417A (zh) * 2023-09-12 2023-11-10 南京信息工程大学 基于时空模板更新的多尺度Transformer目标跟踪方法
CN117011342A (zh) * 2023-10-07 2023-11-07 南京信息工程大学 一种注意力增强的时空Transformer视觉单目标跟踪方法

Similar Documents

Publication Publication Date Title
CN112001339B (zh) 一种基于YOLO v4的行人社交距离实时监测方法
Yoo et al. End-to-end lane marker detection via row-wise classification
Wang et al. A self-training approach for point-supervised object detection and counting in crowds
CN115482375A (zh) 一种基于时空通联数据驱动的跨镜目标跟踪方法
US10467458B2 (en) Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems
CN109784150B (zh) 基于多任务时空卷积神经网络的视频驾驶员行为识别方法
CN109753913B (zh) 计算高效的多模式视频语义分割方法
CN109657533A (zh) 行人重识别方法及相关产品
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN111160295A (zh) 基于区域引导和时空注意力的视频行人重识别方法
CN113537254B (zh) 图像特征提取方法、装置、电子设备及可读存储介质
CN111325141A (zh) 交互关系识别方法、装置、设备及存储介质
CN114170516A (zh) 一种基于路侧感知的车辆重识别方法、装置及电子设备
CN113269133A (zh) 一种基于深度学习的无人机视角视频语义分割方法
Getahun et al. A deep learning approach for lane detection
Rashed et al. Bev-modnet: Monocular camera based bird's eye view moving object detection for autonomous driving
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN110825916A (zh) 一种基于形体识别技术的寻人方法
Mukhopadhyay et al. A hybrid lane detection model for wild road conditions
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
Liu et al. Learning TBox with a cascaded anchor-free network for vehicle detection
Jin Kim et al. Learned contextual feature reweighting for image geo-localization
CN116485894A (zh) 视频场景建图与定位方法、装置、电子设备及存储介质
CN115661535A (zh) 一种目标去除背景恢复方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination