CN114596338A - 一种考虑时序关系的孪生网络目标跟踪方法 - Google Patents

一种考虑时序关系的孪生网络目标跟踪方法 Download PDF

Info

Publication number
CN114596338A
CN114596338A CN202210497757.0A CN202210497757A CN114596338A CN 114596338 A CN114596338 A CN 114596338A CN 202210497757 A CN202210497757 A CN 202210497757A CN 114596338 A CN114596338 A CN 114596338A
Authority
CN
China
Prior art keywords
target
frame
network
target template
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210497757.0A
Other languages
English (en)
Other versions
CN114596338B (zh
Inventor
孙仕棚
兰时勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210497757.0A priority Critical patent/CN114596338B/zh
Publication of CN114596338A publication Critical patent/CN114596338A/zh
Application granted granted Critical
Publication of CN114596338B publication Critical patent/CN114596338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及单目标跟踪技术领域,具体公开了一种考虑时序关系的孪生网络目标跟踪方法。本发明用于解决传统孪生网络跟踪器中无法使用视频时序信息,难以有效提升跟踪准确率和鲁棒性的问题;本发明首先使用残差网络ResNet‑50提取目标模板图像序列和搜索区域图像的特征;然后设计了基于多层感知机的时序信息融合网络,将目标模板图像序列的时间信息融入到目标模板特征中,从而实现更鲁棒性的跟踪性能;接着使用包含时间信息的目标模板特征和搜索区域特征获取响应图;最后根据响应图实现目标的精确定位,从而提升跟踪器的准确率。

Description

一种考虑时序关系的孪生网络目标跟踪方法
技术领域
本发明涉及单目标跟踪技术领域,具体为一种考虑时序关系的孪生网络目标跟踪方法。
背景技术
近年来,视觉目标跟踪任务成为了计算机视觉领域的一个重要研究内容。孪生网络凭借着结构简单、性能高效的优势成为了目前目标跟踪算法的主流。传统孪生网络目标跟踪算法包括目标模板分支和搜索区域分支,两个分支的输入分别是裁剪的单张图像块,无法使用视频的时间信息,因此跟踪鲁棒性较差。为了预测目标物体的位置,使用相关操作让目标模板和搜索区域之间产生联系得到响应图,再根据响应图进行分类和回归,最后输出目标物体的预测位置。但相关操作自身是一种局部匹配的方法,得到的预测结果是搜索区域中的局部最优结果,因此跟踪准确率较低。
发明内容
针对上述问题,本发明的目的在于提供一种考虑时序关系的孪生网络目标跟踪方法,可以在传统孪生网络跟踪框架中使用视频的时间信息。对目标模板图像序列和搜索区域图像进行特征提取的骨干网络;提取目标模板特征序列中的时间信息的时序信息融合网络;基于交叉注意力设计的目标位置预测网络。将上述网络模型在指定训练数据集上进行离线训练,得到收敛的跟踪模型。使用训练好的跟踪模型在给定的视频中进行在线跟踪,可准确的预测出目标物体的位置。技术方案如下:
一种考虑时序关系的孪生网络目标跟踪方法,包括以下步骤:
步骤1:构建考虑时序关系的孪生网络目标跟踪模型,包括特征提取网络,时序信息融合网络和目标位置预测网络;
步骤2:选取目标损失函数和训练数据集,对上述孪生网络目标跟踪模型进行离线训练,直到网络模型收敛为止;
步骤3:将训练好的考虑时序关系的孪生网络目标跟踪模型在给定视频上进行在线跟踪。
进一步的,所述步骤1中构建考虑时序关系的孪生网络目标跟踪模型,具体包括:
步骤1.1:选取残差网络ResNet-50作为特征提取网络,其输入为3张目标模板图像,以及1张搜索区域图像;残差网络ResNet-50模型共有4层,取第3层的输出作为提取的特征,得到目标模板特征f t1f t2f t3,以及搜索区域特征f s
步骤1.2:构建基于多层感知机的时序信息融合网络,根据提取的目标模板特征f t1f t2f t3,得到包含时间信息的目标模板特征f t
步骤1.3:使用交叉注意力获取包含时间信息的目标模板特征f t 和搜索区域特征f s 之间的响应图,根据响应图计算相似度得分预测目标物体的位置。
更进一步的,所述步骤1.2中构建基于多层感知机的时序信息融合网络,具体包括:
所述基于多层感知机的时序信息融合网络包括LayerNorm归一化层、全连接层和ReLU激活层;其输入为三个目标模板特征f t1f t2f t3,将每一个目标模板特征的宽和高合为一个空间维度,此时目标模板特征变为一个二维矩阵,对该矩阵进行转置;
将处理后的三个目标模板特征按照通道维度依次拼接在一起,得到新的目标模板特征f t1,2,3 ,其通道维度包含帧与帧之间的时序关系,使用关注全局信息的多层感知机去提取蕴含的时间信息,即
f t1,2,3 通过一个LayerNorm归一化层,再依次通过三个全连接层和两个ReLU激活层,提取到目标模板特征f t1,2,3 中的时间信息,最后得到包含时间信息的目标模板特征f t ;其表达式为:f t =MLP time ft 1ft 2ft 3),
其中,MLP time 为时序信息融合网络;
ReLU激活函数公式表达为:
Figure 310145DEST_PATH_IMAGE001
其中,x表示前一个全连接层的输出值;
基于多层感知机的时序信息融合网络公式表达为:
f out =w 3w 2w 1 f in +b 1)+b 2)+b 3
其中,w 1w 2w 3是权重参数,b 1b 2b 3为偏置矩阵,用于避免模型过拟合;f in 表示网络的输入,f out 表示网络的输出。
更进一步的,所述步骤1.3中预测目标物体的位置,具体包括:
使用交叉注意力得到的响应图,依次经过LayerNorm归一化层、全连接层和Sigmoid激活层,得到相似度得分图,得分范围为(0,1),表示当前位置为目标物体的概率;规定相似度得分大于或等于阈值得分s thres ,则判定为目标物体;
相似度得分图的一个像素点对应搜索区域图像中对应区域;相似度得分大于阈值s thres ,则该区域是目标物体,则取出相似度得分图中左上角大于阈值得分s thres 的坐标(x 1y 1)和右下角大于阈值得分s thres 的坐标(x 2y 2),将其映射到搜索区域图像中得到目标物体的预测框。
更进一步的,所述交叉注意力的计算公式表示为:
Figure 102520DEST_PATH_IMAGE003
其中,d Linear(ft)Linear(ft)的维度,Linear为全连接层,softmax为归一化函数,公式表达为:
Figure 505820DEST_PATH_IMAGE004
其中,x i 为第i个节点输出,N为输出节点的总数,e为自然指数。
更进一步的,所述步骤2中选取目标损失函数和训练数据集,具体包括:
训练考虑时序关系的孪生网络目标跟踪模型时,使用L 2损失和IoU损失,L 2损失的计算公式为:
Figure 333138DEST_PATH_IMAGE005
其中,(x 1y 1)为预测框的左上角坐标,(x 2y 2)为预测框的右下角坐标;(t x1t y1)和(t x2t y2)分别为目标真实框的左上角坐标和右下角坐标;
IoU损失的计算公式为:
Figure 556309DEST_PATH_IMAGE006
其中,
Figure 886796DEST_PATH_IMAGE007
为目标真实框的面积,
Figure 879023DEST_PATH_IMAGE008
为预测框的面积;
最终的损失函数计算公式为:loss=loss L2 +loss IoU
使用标注了目标真实框标签的训练集,并在所述训练集的同一个视频序列中,任意选取三帧图片作为目标模板帧,相邻两帧之间的帧差最大为10;随机选取先前确定的目标模板帧后100帧以内的某一帧作为搜索区域帧;
上述目标模板帧和搜索区域帧分别为以目标物体为中心裁剪出的目标模板图像和搜索区域图像。
更进一步的,所述步骤3具体包括:
步骤3.1:给定一段需要跟踪的视频,在初始帧中选取感兴趣的目标物体,并以该目标物体为中心裁剪出目标模板图像;
步骤3.2:在第二帧中以上一帧目标物体位置为中心裁剪出搜索区域图像;
步骤3.3:把在初始帧中获取的目标模板图像复制为3份,作为目标模板图像序列,和在第二帧中获取的搜索区域图像一起输入考虑时序关系的孪生网络目标跟踪模型中,得到第二帧中目标物体的预测位置;
步骤3.4:以预测位置为中心在第二帧图像中裁剪出目标模板图像,插入到目标模板图像序列最后,并删除第一个目标模板图像;
步骤3.5:以第二帧中目标物体的预测位置为中心在第三帧中裁取出搜索区域图像;
步骤3.6:再次将目标模板图像序列和搜索区域图像输入考虑时序关系的孪生网络目标跟踪模型中,得到第三帧中目标物体的预测位置;
步骤3.7:以预测位置为中心在第三帧图像中裁剪出目标模板图像,插入到目标模板图像序列最后,并删除第一个目标模板图像;
步骤3.8:以第三帧中目标物体的预测位置为中心在第四帧中裁取出搜索区域图像;
步骤3.9:将目标模板图像序列和搜索区域图像输入考虑时序关系的孪生网络目标跟踪模型中,得到第四帧中目标物体的预测位置;重复进行下一帧目标物体的位置预测,直至视频跟踪结束。
与现有技术相比,本发明的有益效果是:本发明通过设计的时序信息融合网络对视频的时间信息进行使用,目的是提升传统孪生网络跟踪器的鲁棒性;本发明设计了基于交叉注意力的目标位置预测网络,目的是获取搜索区域上的全局最优结果,解决了目前传统孪生网络跟踪器中使用的相关操作容易导致目标定位时陷入局部最优的问题,可有效提升跟踪器的准确率。
附图说明
图1为本发明考虑时序关系的孪生网络目标跟踪框架图。
图2(a)为基于多层感知机的时序信息融合网络结构图。
图2(b)为基于多层感知机的时序信息融合网络流程图。
图3为交叉注意力的示意流程图。
图4为在线跟踪示意流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。针对目前传统孪生网络目标跟踪算法无法使用视频时间信息,导致跟踪鲁棒性较差,且在目标位置预测时易陷入局部最优,导致跟踪准确率较低的问题,本实例提供了一种考虑时序关系的孪生网络目标跟踪算法,如图1所示,其步骤如下:
1、使用骨干网络对输入进行特征提取
选取残差网络ResNet-50作为特征提取网络,输入分别是3张3×160×160(3表示RGB三通道)的目标模板图像和1张3×320×320的搜索区域图像,使用残差网络ResNet-50作为骨干网络对输入图像进行特征提取,其权重参数是共享的。ResNet-50网络模型共有四层输出,取第三层输出作为提取的特征,分别得到目标模板特征序列f t1f t2f t3(大小都为1024×20×20)和搜索区域特征f s (大小为1024×40×40)。
2、使用时序信息融合网络对目标模板特征序列进行时间信息提取
使用交叉注意力获取目标模板特征f t 和搜索区域特征f s 之间的响应图,根据响应图计算相似度得分确定目标物体的位置。
交叉注意力的计算公式表示为:
Figure 653075DEST_PATH_IMAGE009
其中,d Linear(ft)Linear(ft)的维度,Linear为全连接层,softmax为归一化函数,公式表达为:
Figure 691438DEST_PATH_IMAGE010
其中,x i 为第i个节点输出,N为输出节点的总数,e为自然指数。
基于多层感知机的时序信息融合网络如图2(a)和图2(b)所示,输入上步骤中的目标模板特征序列f t1f t2f t3。将每一个目标模板特征f t1f t2f t3的宽高维度分别合为一个空间维度,f t1f t2f t3便从一个三维的特征转换为一个二维的矩阵,将该矩阵转置后,得到的特征尺寸为(20×20)×1024,将其依次按照通道维度拼接起来,得到(20×20)×(1024×3)的目标模板特征f t1,2,3 ,其通道维度包含目标模板帧与帧之间的时序关系。
设计的基于多层感知机的时序信息融合网络是由LayerNorm归一化层、全连接层和ReLU激活层组成的。使用该时序信息融合网络提取目标模板特征f t1,2,3 中的时间信息,得到包含时序关系的目标模板特征f t
目标模板特征f t1,2,3 的通道维度中含有帧与帧之间的时序关系,因此使用关注全局信息的多层感知机去提取蕴含的时间信息。首先将f t1,2,3 通过一个LayerNorm归一化层,然后依次通过三个全连接层和两个ReLU激活层,最后得到包含时间信息的目标模板特征f t (大小为(20×20)×1024)。
ReLU激活函数公式表达为:
Figure 435403DEST_PATH_IMAGE011
基于多层感知机的时序信息融合网络公式表达为:fout=w 3w 2w 1 fin+b 1)+b 2)+b 3
其中,w 1w 2w 3是权重参数,b 1b 2b 3为偏置矩阵,可避免模型过拟合。
3、根据目标位置预测网络推测目标物体的位置
将搜索区域特征f s 的宽高维度合为一个维度,并进行矩阵的转置后,大小变为(40×40)×1024。使用交叉注意力获取包含时间信息的目标模板特征f t 和搜索区域特征f s 之间的响应图,如图3所示。
f s 经过一个全连接层得到(40×40)×512的输出矩阵,f t 分别经过一个全连接层得到(20×20)×512的输出矩阵。(40×40)×512的矩阵与一个(20×20)×512的矩阵做矩阵乘法运算,得到(40×40)×(20×20)的结果,将该结果映射到另一个(20×20)×512的矩阵上(即进行矩阵乘法运算),得到(40×40)×512的映射结果,最后通过一个全连接层,便得到了(40×40)×256的响应图。
将上述的响应图通过一个多层感知机网络,该网络是由LayerNorm归一化层、三个全连接层和两个ReLU激活层组成的,第一个全连接层将通道数目从256降为64,第二个全连接层将通道数目从64降为8,第三个全连接层将通道数目降为1,接着通过一个Sigmoid激活层得到40×40的相似度得分图,得分范围为(0,1),表示当前位置为目标物体的概率。规定相似度得分大于或等于阈值得分s thres ,则判定为目标物体。Sigmoid函数的公式表达为:
Figure 921617DEST_PATH_IMAGE012
相似度得分图上的一个像素点映射到320×320的搜索区域图像中
Figure 725625DEST_PATH_IMAGE013
=8 ×8的区域,对应的是8×8的区域范围。规定相似度得分大于阈值s thres ,则该区域是目标物 体。因此获取相似度得分图左上角大于阈值得分s thres 的点和右下角大于阈值得分s thres 的 点,将其映射到搜索区域中便是预测的目标框。
4、对考虑时序关系的孪生网络目标跟踪模型进行离线训练
选取带标签(标注了目标物体的真实位置)的数据集(COCO,LaSOT,GOT-10k和TrackingNet)来训练该网络模型。目标模板图片序列任意选取同一视频中的三帧图片,相邻两帧之间的帧差不大于10。随机选取目标模板图片序列最后一张图片的后100帧以内的图片作为搜索区域图片。分别以目标物体为中心将目标模板图片序列和搜索区域图片裁剪出160×160和320×320的目标模板图像序列和搜索区域图像,搜索区域图像中的目标物体可适当偏移。
在训练网络模型时使用的目标损失函数包括L 2损失和IoU损失,以保证模型的收敛。在训练开始阶段,需设置较小的阈值得分s thres ,随着损失值越来越小,再逐步增大阈值得分s thres ,但不建议超过0.8。
L 2损失的计算公式为:
Figure DEST_PATH_IMAGE014
其中,(x 1y 1)为预测框的左上角坐标,(x 2y 2)为预测框的右下角坐标,(t x1t y1)和(t x2t y2)分别为目标真实框的左上角坐标和右下角坐标。
IoU损失的计算公式为:
Figure DEST_PATH_IMAGE015
其中,
Figure 126650DEST_PATH_IMAGE007
为目标真实框的面积,
Figure 674306DEST_PATH_IMAGE008
为预测框的面积。
最终的损失函数计算公式为:loss=loss L2 +loss IoU
5、使用训练好的考虑时序关系的孪生网络目标跟踪模型进行在线跟踪
图4是考虑时序关系的孪生网络目标跟踪模型在线跟踪示意流程图,其输入分别是第t-1帧、第t-2帧、第t-3帧裁剪的160×160的目标模板图像序列,和第t帧以第t-1帧预测的目标物体为中心裁剪的320×320的搜索区域图像。通过调节不同的阈值得分s thres ,可以输出模型预测第t帧中目标物体的准确位置。
t等于2时,第1帧裁取的目标模板图像复制为3份作为目标模板图像序列。当t等于3时,将第二帧裁取的目标模板图像插入到目标模板图像序列的末尾,并删除第一个目标模板图像。
本实施例公开了如下技术方案:
A1、考虑时序关系的孪生网络目标跟踪模型构建方法,包括:
1)提取目标模板图像序列特征和搜索区域特征的骨干网络,ResNet-50网络;
2)提取目标模板特征序列的时间信息的时序信息融合网络;
3)使用交叉注意力获取包含时间信息的目标模板特征和搜索区域特征之间的响应图;
4)根据响应图获取相似度得分图,然后输出目标物体的预测位置。
A2、对于A1所述的方法,构建基于多层感知机的时序信息融合网络具体包括:LayerNorm层归一化,三个全连接层和两个ReLU激活层。
A3、对于A1所述的方法,使用交叉注意力获取响应图,具体包括:
1)目标模板特征分别通过两个全连接层得到f tl1f tl2,搜索区域特征通过一个全连接层得到f sl
2)将f tl1f s 进行矩阵乘法运算,然后将结果映射到f tl2上;
3)将上述结果通过一个全连接层得到响应图。
A4、对于A1所述的方法,根据响应图获取相似度得分图,然后输出目标物体的预测位置,具体包括:
1)将响应图通过LayerNorm归一化层、三个全连接层和两个ReLU激活层;
2)上述结果通过Sigmoid激活函数后得到相似度得分图;
3)设置合理的阈值得分s thres ,把相似度得分图中左上角和右下角大于s thres 的点映射到搜索图像中,输出目标的预测位置。
A5、考虑时序关系的孪生网络目标跟踪模型离线训练方法,具体包括:
1)选取带标签的训练集,包括COCO、GOT-10k、TrackingNet和LaSOT数据集;
2)使用的目标损失函数有L 2损失和IoU损失。
A6、考虑时序关系的孪生网络目标跟踪模型在线跟踪方法,具体包括:
1)第一帧目标物体位置已知的情况下,对第二帧目标物体位置的预测;
2)第二帧目标物体位置预测出的情况下,对第三帧目标物体位置的预测;
3)对后续帧目标物体位置的持续预测,直至视频结束。

Claims (7)

1.一种考虑时序关系的孪生网络目标跟踪方法,其特征在于,包括以下步骤:
步骤1:构建考虑时序关系的孪生网络目标跟踪模型,包括特征提取网络,时序信息融合网络和目标位置预测网络;
步骤2:选取目标损失函数和训练数据集,对上述孪生网络目标跟踪模型进行离线训练,直到网络模型收敛为止;
步骤3:将训练好的考虑时序关系的孪生网络目标跟踪模型在给定视频上进行在线跟踪。
2.根据权利要求1所述的一种考虑时序关系的孪生网络目标跟踪方法,其特征在于,所述步骤1中,构建考虑时序关系的孪生网络目标跟踪模型,具体包括:
步骤1.1:选取残差网络ResNet-50作为特征提取网络,其输入为3张目标模板图像,以及1张搜索区域图像;残差网络ResNet-50模型共有4层,取第3层的输出作为提取的特征,得到目标模板特征f t1f t2f t3,以及搜索区域特征f s
步骤1.2:构建基于多层感知机的时序信息融合网络,根据提取的目标模板特征f t1f t2f t3,得到包含时间信息的目标模板特征f t
步骤1.3:使用交叉注意力获取包含时间信息的目标模板特征f t 和搜索区域特征f s 之间的响应图,根据响应图计算相似度得分预测目标物体的位置。
3.根据权利要求2所述的一种考虑时序关系的孪生网络目标跟踪方法,其特征在于,所述步骤1.2中,构建基于多层感知机的时序信息融合网络,具体包括:
所述基于多层感知机的时序信息融合网络包括LayerNorm归一化层、全连接层和ReLU激活层;其输入为三个目标模板特征f t1f t2f t3,将每一个目标模板特征的宽和高合为一个空间维度,此时目标模板特征变为一个二维矩阵,对该矩阵进行转置;
将处理后的三个目标模板特征按照通道维度依次拼接在一起,得到新的目标模板特征f t1,2,3 ,其通道维度包含帧与帧之间的时序关系,使用关注全局信息的多层感知机去提取蕴含的时间信息,即
f t1,2,3 通过一个LayerNorm归一化层,再依次通过三个全连接层和两个ReLU激活层,提取到目标模板特征f t1,2,3 中的时间信息,最后得到包含时间信息的目标模板特征f t ;其表达式为:f t =MLP time ft 1ft 2ft 3
其中,MLP time 为时序信息融合网络;
ReLU激活函数公式表达为:
Figure 416912DEST_PATH_IMAGE001
其中,x表示前一个全连接层的输出值;
基于多层感知机的时序信息融合网络公式表达为:
f out =w 3w 2w 1 f in +b 1)+b 2)+b 3
其中,w 1w 2w 3是权重参数,b 1b 2b 3为偏置矩阵,用于避免模型过拟合;f in 表示网络的输入,f out 表示网络的输出。
4.根据权利要求3所述的一种考虑时序关系的孪生网络目标跟踪方法,其特征在于,所述步骤1.3中,预测目标物体的位置,具体包括:
使用交叉注意力得到的响应图,依次经过LayerNorm归一化层、全连接层和Sigmoid激活层,得到相似度得分图,得分范围为(0,1),表示当前位置为目标物体的概率;规定相似度得分大于或等于阈值得分s thres ,则判定为目标物体;
相似度得分图的一个像素点对应搜索区域图像中对应区域;相似度得分大于阈值s thres ,则该区域是目标物体,则取出相似度得分图中左上角大于阈值得分s thres 的坐标(x 1y 1)和右下角大于阈值得分s thres 的坐标(x 2y 2),将其映射到搜索区域图像中得到目标物体的预测框。
5.根据权利要求4所述的一种考虑时序关系的孪生网络目标跟踪方法,其特征在于,所述交叉注意力的计算公式表示为:
Figure 943840DEST_PATH_IMAGE003
其中,d Linear(ft)Linear(ft)的维度,Linear为全连接层,softmax为归一化函数,公式表达为:
Figure 926839DEST_PATH_IMAGE004
其中,x i 为第i个节点输出,N为输出节点的总数,e为自然指数。
6.根据权利要求1所述的一种考虑时序关系的孪生网络目标跟踪方法,其特征在于,所述步骤2中,选取目标损失函数和训练数据集,具体包括:
训练考虑时序关系的孪生网络目标跟踪模型时,使用L 2损失和IoU损失,L 2损失的计算公式为:
Figure 181103DEST_PATH_IMAGE005
其中,(x 1y 1)为预测框的左上角坐标,(x 2y 2)为预测框的右下角坐标;(t x1t y1)和(t x2t y2)分别为目标真实框的左上角坐标和右下角坐标;
IoU损失的计算公式为:
Figure 464317DEST_PATH_IMAGE006
其中,
Figure 129522DEST_PATH_IMAGE007
为目标真实框的面积,
Figure DEST_PATH_IMAGE008
为预测框的面积;
最终的损失函数计算公式为:loss=loss L2 +loss IoU
使用标注了目标真实框标签的训练集,并在所述训练集的同一个视频序列中,任意选取三帧图片作为目标模板帧,相邻两帧之间的帧差最大为10;随机选取先前确定的目标模板帧后100帧以内的某一帧作为搜索区域帧;
上述目标模板帧和搜索区域帧分别为以目标物体为中心裁剪出目标模板图像和搜索区域图像。
7.根据权利要求1所述的一种考虑时序关系的孪生网络目标跟踪方法,其特征在于,所述步骤3具体包括:
步骤3.1:给定一段需要跟踪的视频,在初始帧中选取感兴趣的目标物体,并以该目标物体为中心裁剪出目标模板图像;
步骤3.2:在第二帧中以上一帧目标物体位置为中心裁剪出搜索区域图像;
步骤3.3:把在初始帧中获取的目标模板图像复制为3份,作为目标模板图像序列,和在第二帧中获取的搜索区域图像一起输入考虑时序关系的孪生网络目标跟踪模型中,得到第二帧中目标物体的预测位置;
步骤3.4:以预测位置为中心在第二帧图像中裁剪出目标模板图像,插入到目标模板图像序列最后,并删除第一个目标模板图像;
步骤3.5:以第二帧中目标物体的预测位置为中心在第三帧中裁取出搜索区域图像;
步骤3.6:再次将目标模板图像序列和搜索区域图像输入考虑时序关系的孪生网络目标跟踪模型中,得到第三帧中目标物体的预测位置;
步骤3.7:以预测位置为中心在第三帧图像中裁剪出目标模板图像,插入到目标模板图像序列最后,并删除第一个目标模板图像;
步骤3.8:以第三帧中目标物体的预测位置为中心在第四帧中裁取出搜索区域图像;
步骤3.9:将目标模板图像序列和搜索区域图像输入考虑时序关系的孪生网络目标跟踪模型中,得到第四帧中目标物体的预测位置;重复进行下一帧目标物体的位置预测,直至视频跟踪结束。
CN202210497757.0A 2022-05-09 2022-05-09 一种考虑时序关系的孪生网络目标跟踪方法 Active CN114596338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210497757.0A CN114596338B (zh) 2022-05-09 2022-05-09 一种考虑时序关系的孪生网络目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210497757.0A CN114596338B (zh) 2022-05-09 2022-05-09 一种考虑时序关系的孪生网络目标跟踪方法

Publications (2)

Publication Number Publication Date
CN114596338A true CN114596338A (zh) 2022-06-07
CN114596338B CN114596338B (zh) 2022-08-16

Family

ID=81813204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210497757.0A Active CN114596338B (zh) 2022-05-09 2022-05-09 一种考虑时序关系的孪生网络目标跟踪方法

Country Status (1)

Country Link
CN (1) CN114596338B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523463A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于匹配-回归网络的目标跟踪方法及训练方法
CN112069803A (zh) * 2020-09-08 2020-12-11 腾讯科技(深圳)有限公司 文本备份方法、装置、设备及计算机可读存储介质
CN112132856A (zh) * 2020-09-30 2020-12-25 北京工业大学 一种基于自适应模板更新的孪生网络跟踪方法
CN113298142A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于深度时空孪生网络的目标跟踪方法
CN113344976A (zh) * 2021-06-29 2021-09-03 常州工学院 一种基于目标物表征点估计的视觉跟踪方法
US20210319420A1 (en) * 2020-04-12 2021-10-14 Shenzhen Malong Technologies Co., Ltd. Retail system and methods with visual object tracking
CN114299111A (zh) * 2021-12-21 2022-04-08 中国矿业大学 一种基于半监督孪生网络的红外弱小目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210319420A1 (en) * 2020-04-12 2021-10-14 Shenzhen Malong Technologies Co., Ltd. Retail system and methods with visual object tracking
CN111523463A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于匹配-回归网络的目标跟踪方法及训练方法
CN112069803A (zh) * 2020-09-08 2020-12-11 腾讯科技(深圳)有限公司 文本备份方法、装置、设备及计算机可读存储介质
CN112132856A (zh) * 2020-09-30 2020-12-25 北京工业大学 一种基于自适应模板更新的孪生网络跟踪方法
CN113298142A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于深度时空孪生网络的目标跟踪方法
CN113344976A (zh) * 2021-06-29 2021-09-03 常州工学院 一种基于目标物表征点估计的视觉跟踪方法
CN114299111A (zh) * 2021-12-21 2022-04-08 中国矿业大学 一种基于半监督孪生网络的红外弱小目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIYONG LAN等: "Robust Visual Object Tracking with Spatiotemporal Regularisation and Discriminative Occlusion Deformation", 《2021 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
吴爽: "基于文字描述的单目标视觉跟踪方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法

Also Published As

Publication number Publication date
CN114596338B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN110930454B (zh) 一种基于边界框外关键点定位的六自由度位姿估计算法
CN111462175B (zh) 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN112837330B (zh) 基于多尺度双注意力机制和全卷积神经网络的叶分割方法
CN109086437B (zh) 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法
Komorowski et al. Minkloc++: lidar and monocular image fusion for place recognition
CN110569901A (zh) 一种基于通道选择的对抗消除弱监督目标检测方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN108334835B (zh) 基于卷积神经网络的阴道分泌物显微图像有形成分检测方法
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
WO2024060395A1 (zh) 一种基于深度学习的高精度点云补全方法及装置
CN113628244A (zh) 基于无标注视频训练的目标跟踪方法、系统、终端及介质
CN115222998B (zh) 一种图像分类方法
CN115424177A (zh) 一种基于增量学习的孪生网络目标跟踪的方法
CN114596338B (zh) 一种考虑时序关系的孪生网络目标跟踪方法
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN114066831A (zh) 一种基于两阶段训练的遥感图像镶嵌质量无参考评价方法
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
Hong et al. USOD10K: a new benchmark dataset for underwater salient object detection
CN114492755A (zh) 基于知识蒸馏的目标检测模型压缩方法
CN111144469B (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN109711454B (zh) 一种基于卷积神经网络的特征匹配方法
CN116958057A (zh) 一种策略引导的视觉回环检测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Lan Shiyong

Inventor after: Sun Shipeng

Inventor before: Sun Shipeng

Inventor before: Lan Shiyong

CB03 Change of inventor or designer information