CN114926498A - 一种基于时空约束与可学习特征匹配的快速目标跟踪方法 - Google Patents

一种基于时空约束与可学习特征匹配的快速目标跟踪方法 Download PDF

Info

Publication number
CN114926498A
CN114926498A CN202210451117.6A CN202210451117A CN114926498A CN 114926498 A CN114926498 A CN 114926498A CN 202210451117 A CN202210451117 A CN 202210451117A CN 114926498 A CN114926498 A CN 114926498A
Authority
CN
China
Prior art keywords
tracking
target
feature
space
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210451117.6A
Other languages
English (en)
Other versions
CN114926498B (zh
Inventor
刘启和
武哲纬
周世杰
邱士林
张准
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210451117.6A priority Critical patent/CN114926498B/zh
Publication of CN114926498A publication Critical patent/CN114926498A/zh
Application granted granted Critical
Publication of CN114926498B publication Critical patent/CN114926498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空约束与可学习特征匹配的快速目标跟踪方法,公开了一种基于孪生网络结构,采用时空约束机制与可学习特征匹配策略的快速目标跟踪方法。通过设置时序约束分支与空间约束分支分别捕捉并融合随时序变化的目标外观高维特征表示与限制空间搜索尺度,降低跟踪算法计算量并缓解目标因自身运动与环境变化所导致的自身视觉特征的变化。本发明通过设置可学习特征匹配模块完成特征匹配任务,相比于主流的无参互相关方法能够更好地从训练数据中学习正负样本分布并提升跟踪效果。本发明提出的跟踪方法具有良好的跟踪准确度与较高的运算速度,能够部署在运算资源受限的嵌入式平台,能完成准确的视觉目标跟踪任务。

Description

一种基于时空约束与可学习特征匹配的快速目标跟踪方法
技术领域
本发明涉及计算机视觉目标跟踪技术领域,具体涉及一种基于时空约束与可学习特征匹配的快速目标跟踪方法。
背景技术
目标跟踪方法旨在在连续的视频帧序列中,依据在初始帧中指定目标区域,提取目标视觉特征,并在后续帧序列对标定目标的位置、形状、大小等外观状态做出预测。
现有技术中曾提出了一种新的全卷积孪生网络作为基本结构的目标跟踪算法。在siamFC的网络结构中,具有两个权值共享的分支。在此将resize后的原图像成为x,搜索目标称为z,将他们分别输入两个分支,经过同样的特征提取计算操作
Figure BDA0003617235210000011
分别生成22x22x128与6x6x128的特征图。再将后者在前者中做卷积运算生成响应图,其标定了目标在原始图像x中的位置。
现有技术中还有采用GradNet网络的方法,GradNet方法是基于SiamFC所衍生出来的孪生跟踪网络,都需要采用模板帧来进行跟踪。模板的一个坏处就是一旦目标发生了很大的形变或严重遮挡,这个时候仍借助模板去跟踪目标的精度会大大降低。如果恰好出现了和目标相似类别的另一个背景目标出现,网络很可能出现误差漂移现象。
然而,现有技术中的方法存在着以下缺陷:1)跟踪速度相对较低的缺陷,随着网络模型的加深,算法的跟踪精度得到了较大提升,但在速度方面的表现却不尽人意。运算资源受限的设备在网络中往往扮演数据采集、初步分析的底层角色,故其对于跟踪速度的要求更高;2)已有的特征匹配方法不具备学习能力:互相关操作的核心是通过卷积以计算模板与搜索区域之间的相似性得分。究其原因,是因为互相关类方法均为非参数化方法,无法从数据中学习样本的正负分布,这会导致语义信息的丢失并进一步导致跟踪效果的不佳;3)无法动态捕捉目标变化:当前的基于孪生网络的目标跟踪方法通过提取首帧标注的目标特征,在后续的搜索图像特征序列中进行匹配。这样的工作方式单纯把跟踪任务考虑为单帧图像中的位置匹配过程,不仅忽略了帧与帧之间的联系,也同样没有考虑目标在后续帧中出现变动、遮挡的可能性。尽管有部分工作开始探索目标模板的更新,但大多数方法都采用恒定的更新速率——即固定一个间隔进行模板更新。此种更新方法的缺点不能准确捕捉目标的动态变化,并且在目标特征受到污染的情况下,将不准确的特征更新至已有模板中。
因此,亟需一种能解决嵌入式平台下目标跟踪算法速度慢、准确度低、进一步提高跟踪准确度的视觉目标跟踪方法。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于时空约束与可学习特征匹配的快速目标跟踪方法,解决嵌入式平台下目标跟踪算法速度慢、准确度低的缺点,提出的特征匹配方法为有参方法,可以通过训练数据集学习数据分布,具有更强的鲁棒性,提出的时空约束分支可以捕捉目标特征变化至跟踪模板,并能够滤除干扰性强的污染特征,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于时空约束与可学习特征匹配的快速目标跟踪方法,包括如下步骤:
S1、特征提取:在初始帧中给定目标初始位置Loc1,根据目标初始位置Loc1裁剪出目标区域Z1,并通过共享权重的骨干网络MobileNetv2分别提取搜索图像X1与跟踪目标Z1的深度特征,得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
S2、可学习特征匹配:将搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1分别输入至两个独立的卷积层进行特征映射,并在通道维度拼接,得到的中间相似图SimilarMapconcat,将中间相似图输入至降维层,输出得到最终的相似图SimilarMap;
S3、注意力提取:包括空间注意力提取和通道注意力提取,具体为使用一张掩码Mask完成,通过学习训练,让深度神经网络学习到需要关注的区域与通道,得到带有空间、通道注意力的相似图SMatt
S4、位置预测:根据带有空间、通道注意力的相似图SMatt,采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框;
S5、采用时空约束分支并更新模板直至跟踪结束:时空约束包括时序约束分支与空间约束分支;具体是采用时序约束分支捕捉并融合随时序变化的目标外观高维特征表示,采用空间约束分支根据前序跟踪结果约束空间层面的搜索尺度,更新模板直至跟踪结束。
优选的,所述步骤S1特征提取的具体步骤包括如下:
S11、尺寸调整:调整搜索图像X1与跟踪目标Z1的尺寸大小,使其能够被输入进网络,调整后的X1与Z1尺寸分别为255×255×3与127×127×3;
S12、多尺度特征图尺寸平衡:通过控制骨干网络MobileNetv2中的卷积参数,将不同尺度的规范为同一尺寸的中间特征图输出,输出搜索图像X1与跟踪目标Z1在骨干网络卷积层第3、5、7层的中间特征图集分别为MX={MX1,MX2,MX3}和MZ={MZ1,MZ2,MZ3},每个特征图集中的中间特征图具有相同的尺寸;
S13、多尺度特征图融合:将步骤S12中输出的特征图集MX与MZ分别进行融合,分别得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
优选的,所述步骤S13多尺度特征图融合的具体步骤包括:
S131、对于特征图集MX,首先将其在通道维度上进行拼接,拼接后的特征图记作FX_concat,尺寸为31×31×768,再将FX_concat输入进反卷积层进行降维,然后通过批量归一化与Relu层,得到降维后的搜索区域融合特征图FX1,尺寸为31×31×256;
S132、对于特征图集MZ,首先将其在通道维度上进行拼接,拼接后的特征图记作FZ_concat,尺寸为15×15×768,再将FZ_concat输入进反卷积层进行降维,然后通过批量归一化与激活层,得到降维后的搜索区域融合特征图FZ_fusion,该特征图尺寸为15×15×256;
随后将FZ_fusion依次输入进特征编码器、ROI_Align层与空间调整层,最后得到表征跟踪目标Z1的融合特征向量FZ1,向量尺寸为1×1×256。
优选的,所述步骤S2中两个独立的卷积层和降维层都具有256个1x1大小的卷积核;所述中间相似图SimilarMapconcat的尺寸为31×31×512,所述最终相似图SimilarMap的尺寸为31×31×256。
优选的,所述步骤S3注意力提取的具体步骤包括:
S31、空间注意力提取:采用非局部操作算子Non-Local Layer,Non-Local Layer通过非局部均值滤波操作用以捕捉空间、序列以及通道层面的长距离依赖,并保持输入与输出尺度的一致,输出空间注意力掩码;
S32、通道注意力提取:采用SEModule压缩-激励模块网络,通过Squeeze压缩和Excitation激励操作获得表示各通道的全局空间特征的表示向量,并通过训练数据的学习对各通道的依赖程度进行调整,输出通道注意力权重向量;
S33、将输出的空间注意力掩码与通道注意力权重向量与步骤S2得到的相似图SimilarMap进行融合,得到带有空间、通道注意力的相似图SMatt
优选的,所述步骤S4位置预测中,分类分支与回归分支网络分别采用不同的损失函数,分类分支采用交叉熵损失函数CrossEntropyLoss,回归分支采用Linear-IoU损失函数LinearIoULoss,两个损失函数的输入均为两个四元组(l,r,t,b)与
Figure BDA0003617235210000051
分别代表真实位置边框与预测位置边框,通过计算二者的交集与并集来评估网络的总损失TotalLoss。
优选的,所述网络的总损失TotalLoss具体计算如下:
Figure BDA0003617235210000052
gt_area=(l+r)*(t+b)
Figure BDA0003617235210000053
area_union=pred_area+gt_area-area_inter
Figure BDA0003617235210000054
TotalLoss=CrossEntropyLoss+LinearIoULoss;
其中,pred_area为本网络预测的目标区域;gt_area为目标真实区域;area_inter为pred_area与gt_area的交集区域;area_union为pred_area与gt_area的并集区域;
优选的,所述步骤S5采用时空约束分支并更新模板直至跟踪结束具体包括:
将当前帧的跟踪原始画面以及前序帧跟踪结果作为空间约束分支的输入,前序帧跟踪结果为一四元向量[x,y,w,h],分别代表目标位置边框左上角点的坐标以及边框的宽高,跟踪模型通过边框宽高以及人工设定的搜索区域缩放因子c计算当前帧搜索区域的裁剪尺寸sizex
设当前帧的跟踪结果为
Figure BDA0003617235210000055
在本网络配置文件中将阈值区间[a,b]与更新间隔ξ作为超参数,将当前帧的跟踪结果
Figure BDA0003617235210000056
作为时序约束分支的输入,若
Figure BDA0003617235210000057
的特征融合向量
Figure BDA0003617235210000058
与初始目标区域的特征融合向量
Figure BDA0003617235210000059
余弦相似度处于阈值区间[a,b]中,则将
Figure BDA0003617235210000061
的多尺度融合特征
Figure BDA0003617235210000062
更新至跟踪模板中。
优选的,所述跟踪模板更新的表达式如下:
Figure BDA0003617235210000063
其中,当i=1时,templatei为在初始帧中人为指定的目标位置。
为实现上述目的,本发明提供如下技术方案:一种基于时空约束与可学习特征匹配的快速目标跟踪系统,所述跟踪系统包括如下模块:
特征提取模块:用于通过共享权重的骨干网络MobileNetv2分别提取搜索图像X1与跟踪目标Z1的深度特征,得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
可学习特征匹配模块:用于将搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1分别输入至两个独立的卷积层进行特征映射,并在通道维度拼接,得到的中间相似图SimilarMapconcat,将中间相似图输入至降维层,输出得到最终的相似图SimilarMap;
注意力提取模块:包括空间注意力提取模块和通道注意力提取模块,具体为使用一张掩码Mask完成,通过学习训练,让深度神经网络学习到需要关注的区域与通道,得到带有空间、通道注意力的相似图SMatt
位置预测模块:用于根据带有空间、通道注意力的相似图SMatt,采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框;
时空约束分支模块和模板更新模块:时空约束分支模块包括时序约束分支模块与空间约束分支模块;
时序约束分支模块用于捕捉并融合随时序变化的目标外观高维特征表示;
空间约束分支模块用于根据前序跟踪结果约束空间层面的搜索尺度;
模板更新模块用于更新跟踪模板。
本发明的有益效果是:
1)本专利公开了一种基于孪生网络结构的,采用时空约束机制与可学习特征匹配策略的快速目标跟踪方法,该方法属于计算机视觉领域中的视觉单目标跟踪方向;
2)本方法通过设置时序约束分支与空间约束分支分别捕捉并融合随时序变化的目标外观高维特征表示与限制空间搜索尺度,降低跟踪算法计算量并缓解目标因自身运动与环境变化所导致的自身视觉特征的变化;本方法通过设置可学习特征匹配模块完成特征匹配任务,相比于主流的无参互相关方法能够更好地从训练数据中学习正负样本分布并提升跟踪效果;
3)本专利提出的跟踪方法具有良好的跟踪准确度与较高的运算速度,能够部署在运算资源受限的嵌入式平台,完成准确的视觉目标跟踪任务。
附图说明
图1为特征拼接示意图;
图2为可学习特征匹配方法示意图;
图3为Non-local Layer结构示意图;
图4为SEModule结构示意图;
图5为位置预测模块结构图;
图6为本发明目标跟踪网络整体结构图;
图7为本发明目标跟踪方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
孪生神经网络是基于两个人工神经网络建立的耦合架构,以两个样本为输入,输出两个样本嵌入高维度空间的特征表示,以比较两个样本的相似程度。
特征匹配模块通过特定的方式或策略,根据从特征提取模块获取的目标特征在搜索图像中找到目标的位置。
目标模板更新也是重要的研究方向。此前的跟踪方法都是在视频首帧指定目标位置,此后目标特征则不再更新,但随着外界条件的变化或受目标自身运动的影响,目标的视觉特征也可能发生相应的变化。在此情况下根据第一帧的目标特征进行搜索将会导致不可避免的错误。
实施例1
基于上述特点,以及其中的缺陷问题,请参阅图6,本发明提供一种基于时空约束与可学习特征匹配的快速目标跟踪系统,本发明提出的跟踪网络整体结构分为5个部分:特征提取模块、可学习特征匹配模块、注意力提取模块、位置预测模块、时空约束分支模块和模板更新模块,具体结构如图6所示。
特征提取模块:用于通过共享权重的骨干网络MobileNetv2分别提取搜索图像X1与跟踪目标Z1的深度特征,得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
可学习特征匹配模块:用于将搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1分别输入至两个独立的卷积层进行特征映射,并在通道维度拼接,得到的中间相似图SimilarMapconcat,将中间相似图输入至降维层,输出得到最终的相似图SimilarMap。
注意力提取模块:包括空间注意力提取模块和通道注意力提取模块,具体为使用一张掩码Mask完成,通过学习训练,让深度神经网络学习到需要关注的区域与通道,得到带有空间、通道注意力的相似图SMatt
位置预测模块:用于根据带有空间、通道注意力的相似图SMatt,采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框。
时空约束分支模块和模板更新模块:时空约束分支模块包括时序约束分支模块与空间约束分支模块。
时序约束分支模块用于捕捉并融合随时序变化的目标外观高维特征表示;
空间约束分支模块用于根据前序跟踪结果约束空间层面的搜索尺度;
模板更新模块用于更新跟踪模板。
实施例2
基于实施例1中的跟踪系统,本发明还提供一种基于时空约束与可学习特征匹配的快速目标跟踪方法,流程如图7所示,包括如下步骤:
步骤S1、特征提取:网络的输入为连续的视频帧序列X={Xi,i=1,2,3…},在初始帧中给定目标初始位置Loc1,跟踪方法依次给出目标在后续帧序列中的位置{Loci,i=2,3…},根据目标初始位置Loc1裁剪出目标区域Z1,并通过共享权重的骨干网络MobileNetv2分别提取搜索图像X1与跟踪目标Z1的深度特征,得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
进一步的,步骤S1特征提取的具体步骤包括如下:
S11、尺寸调整:调整搜索图像X1与跟踪目标Z1的尺寸大小,使其能够被输入进网络,调整后的X1与Z1尺寸分别为255×255×3与127×127×3;
S12、多尺度特征图尺寸平衡:由于在原生的骨干网络中,不同尺度下的特征图的尺寸与维度往往各不相同,通过控制骨干网络MobileNetv2中的卷积参数(填充参数padding、卷积核大小kernel_size、步长stride以及空洞卷积参数dilation),将不同尺度的规范为同一尺寸的中间特征图输出。本步骤分别输出搜索图像X1与跟踪目标Z1在骨干网络卷积层第3、5、7层的中间特征图集分别为MX={MX1,MX2,MX3}和MZ={MZ1,MZ2,MZ3},每个特征图集中的中间特征图具有相同的尺寸;特征图集MX的尺寸为分别为31×31×256,特征图集MZ的尺寸为分别为15×15×256。
S13、多尺度特征图融合:将步骤S12中输出的特征图集MX与MZ分别进行融合,分别得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
进一步的,步骤S13多尺度特征图融合的具体步骤包括:
S131、对于特征图集MX,首先将其在通道维度上进行拼接,拼接示意图如图1所示,拼接后的特征图记作FX_concat,尺寸为31×31×768,再将FX_concat输入进反卷积层进行降维(反卷积层具有256个1x1大小的卷积核),然后通过批量归一化与Relu层,得到降维后的搜索区域融合特征图FX1,尺寸为31×31×256;第n帧的搜索区域融合特征图记作FXn
S132、对于特征图集MZ,首先将其在通道维度上进行拼接,拼接后的特征图记作FZ_concat,尺寸为15×15×768,再将FZ_concat输入进反卷积层进行降维(反卷积层具有256个1x1大小的卷积核),然后通过批量归一化与激活层,得到降维后的搜索区域融合特征图FZ_fusion,该特征图尺寸为15×15×256;
随后将FZ_fusion依次输入进特征编码器(该编码器由2个卷积层、归一化层与LeakyRelu层组成)、ROI_Align层与空间调整层(由1个卷积层、归一化层与LeakyRelu层),最后得到表征跟踪目标Z1的融合特征向量FZ1,向量尺寸为1×1×256。
步骤S2、可学习特征匹配:本步骤的输入为输入步骤S131输出的搜索区域融合特征图FX1与步骤S132输出的搜索目标融合特征向量FZ1,二者的尺寸分别为31×31×256与1×1×256;
将搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1分别输入至两个独立的卷积层进行特征映射(该卷积层均含有256个1x1大小的卷积核),并在通道维度拼接,将映射后的FZ逐元素在通道维度拼接至映射后的FX后,具体示意图如图2所示,然后得到的中间相似图SimilarMapconcat,将中间相似图输入至降维层(降维层具有256个1x1大小的卷积核),输出得到最终的相似图SimilarMap;SimilarMap的尺寸为31×31×256。
步骤S3、注意力提取:包括空间注意力提取和通道注意力提取,具体为使用一张掩码Mask完成,掩码的原理在于通过另一层新的权重,将空间或通道中关键的特征标识出来,通过学习训练,让深度神经网络学习到需要关注的区域与通道,得到带有空间、通道注意力的相似图SMatt
进一步的,步骤S3注意力提取的具体步骤包括:
S31、空间注意力提取:采用非局部操作算子Non-Local Layer,Non-Local Layer是一个可以直接嵌入到任意网络的一个非局部操作算子,Non-Local Layer通过非局部均值滤波操作用以捕捉空间、序列以及通道层面的长距离依赖,并保持输入与输出尺度的一致,输出空间注意力掩码;Non-Local Layer公式表达如下:
Figure BDA0003617235210000111
其中,x为输入信号,在本网络中为相似图;i与j代表特征图x在空间位置上的索引,函数f(·)为计算xi与xj的相似度量的函数,函数g(·)计算相似图在j位置的表示,最后通过响应因子C(x)对所有位置进行加和的特征结果进行标准化处理得到带有注意力的特征yi
Non-local Layer的网络结构如图3所示。
S32、通道注意力提取:采用SEModule压缩-激励模块网络,通过Squeeze压缩和Excitation激励操作获得表示各通道的全局空间特征的表示向量,并通过训练数据的学习对各通道的依赖程度进行调整,输出通道注意力权重向量;通道注意力机制让模型可以更加关注信息量最大的通道中的特征,并抑制不重要的通道特征。另外一点是SEModule与Non-Local Layer一样,可以作为独立的模块嵌入到现有的网络架构中。
设给定的输入特征图x,通过Ftr()将x的调整为尺寸为C×H×W的特征图U,经过Squeeze操作(Fsq(·)),将U调整为尺寸为1×1×C的特征向量,再经过Excitation操作(Fex(·,W)),得到代表U各个通道注意力权重的权重向量,并与U加权获取到最终特征,SEModule的网络结构如图4所示。
S33、注意力融合:将步骤S31输出的空间注意力掩码与步骤S32通道注意力权重向量与步骤S2得到的相似图SimilarMap进行融合,不改变其相似图的尺寸,发掘其在空间与通道层面的注意力信息,得到带有空间、通道注意力的相似图SMatt
步骤S4、位置预测:根据带有空间、通道注意力的相似图SMatt,采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框;网络结构如图5所示。
分类分支:分类分支对于输入的相似图,首先输入分组卷积参数设置为32的卷积层Conv_cls,该卷积层用于从相似图中进一步提取不同层次间用于前-后景分类的特征,最后输入预测层logit_cls,进行最终的分类与预测,该层输出一张尺寸H×W×2的分类图,两个通道分别代表搜索区域中每个像素属于目标与背景的概率,
回归分支:对于回归分支,该分支输出一张H×W×4的回归图,可理解为一四维向量,向量的每个元素分别代表搜索区域中每个像素距离回归边框的距离。
进一步的,所述步骤S4位置预测中,分类分支与回归分支网络分别采用不同的损失函数,分类分支采用交叉熵损失函数CrossEntropyLoss,回归分支采用Linear-IoU损失函数LinearIoULoss,两个损失函数的输入均为两个四元组(l,r,t,b)与
Figure BDA0003617235210000131
分别代表真实位置边框与预测位置边框,通过计算二者的交集与并集来评估网络的总损失TotalLoss。
所述网络的总损失TotalLoss具体计算如下:
Figure BDA0003617235210000132
gt_area=(l+r)*(t+b)
Figure BDA0003617235210000133
area_union=pred_area+gt_area-area_inter
Figure BDA0003617235210000134
跟踪网络的总损失由上述两损失函数的加和,表达如下:
TotalLoss=CrossEntropyLoss+LinearIoULoss;
其中,pred_area为本网络预测的目标区域;gt_erea为目标真实区域;area_inter为pred_erea与gt_erea的交集区域;erea_union为pred_area与gt_area的并集区域。
步骤S5、采用时空约束分支并更新模板直至跟踪结束:时空约束包括时序约束分支与空间约束分支;具体是采用时序约束分支捕捉并融合随时序变化的目标外观高维特征表示,采用空间约束分支根据前序跟踪结果约束空间层面的搜索尺度,更新模板直至跟踪结束。
所述步骤S5采用时空约束分支并更新模板直至跟踪结束具体包括:
将当前帧的跟踪原始画面以及前序帧跟踪结果作为空间约束分支的输入,该分支旨在根据前序帧跟踪结果动态调整搜索图像在跟踪原始画面中所处的区域,前序帧跟踪结果为一四元向量[x,y,w,h],分别代表目标位置边框左上角点的坐标以及边框的宽高,跟踪模型通过边框宽高以及人工设定的搜索区域缩放因子c计算当前帧搜索区域的裁剪尺寸sizex;具体计算方法如下所示:
widthz=w+c(w+h)
heightz=h+c(w+h)
Figure BDA0003617235210000141
sizex=sizez×2。
设当前帧的跟踪结果为
Figure BDA0003617235210000142
在本网络配置文件中将阈值区间[a,b]与更新间隔ξ作为超参数,在训练后的调整阶段通过超参数搜索策略进行进一步优化,阈值区间与ξ的初始设定为[0.6,0.9]与70,设置阈值区间的动机是为了排除目标外观特征变化不大与目标外观特征受到污染的不良情况,为保证时序约束分支的运行效率,该分支只在固定间隔ξ后运行。
将当前帧的跟踪结果
Figure BDA0003617235210000143
作为时序约束分支的输入,若
Figure BDA0003617235210000144
的特征融合向量
Figure BDA0003617235210000145
与初始目标区域的特征融合向量
Figure BDA0003617235210000146
余弦相似度处于阈值区间[a,b]中,则将
Figure BDA0003617235210000147
的多尺度融合特征
Figure BDA0003617235210000148
更新至跟踪模板中。
所述跟踪模板更新的表达式如下:
Figure BDA0003617235210000149
其中,当i=1时,templatei为在初始帧中人为指定的目标位置。
实施例3
对比实验1
实验对比了近年来优秀的目标跟踪,主要对跟踪精度指标(SUC与PRE得分)与跟踪速度指标(FPS)进行测试与评估。其详细结果如表1所示。
表1
Figure BDA0003617235210000151
跟踪精度方面,本专利提出的基于时空约束的快速目标跟踪方法对比近年来的优秀跟踪模型在OTB100数据集上的跟踪精度能够大致持平,对比GradNet方法,本文提出的方法在跟踪精度方面存在2%至3%的精度降低。在所有疑难场景的测试中也没有出现明显的偏向性。值得注意的是,本文提出的方法在低分辨率(LR)与尺度变化(SV)场景中能够具有更好地表现。
跟踪速度方面,以GradNet方法为例,本专利提出的方法在Nvidia GTX 1050平台上能够达到124FPS的处理速度,而GradNet方法在Nvidia GTX 1080ti平台上仅能达到80FPS。本方法通过2%至3%的精度损失获得了50%的速度提升。对比SiamRPN++方法与STARK方法,本专利提出的方法依旧能够以8%至9%的性能损失带来354%的跟踪速度提升。
本专利提出的跟踪方法也被部署在Nvidia AGX Xavier嵌入式开发平台上,在运行过程中,本方法依旧可以保持62FPS的跟踪速度,能够实现实时跟踪的任务要求。
对比实验2
时空约束分支效果
本质上,时序约束分支是作为网络的辅助模块添加在跟踪预测的前处理与后处理的操作过程中,脱离时序约束分支,网络模型仍可以正常工作。故本部分实验主要探究并讨论时序约束分支对跟踪网络性能带来的贡献与影响。
使用与未使用时序约束分支的结果在OTB100数据集上的跟踪精度指标(SUC与PRE得分)如表2所示,(二者分别以Ours-withTS以Ours-noTS标注)。
表2
Figure BDA0003617235210000161
Figure BDA0003617235210000171
由表2可知可得,在性能方面,时序约束分支的引入会对跟踪网络带来5FPS左右的性能损失;,在准确度方面,时空约束分支可以为跟踪模型带至多6.8%的准确率提升。并且,在绝大多数疑难场景中,跟踪模型的跟踪效果都可以获取到时空约束分支带来的准确度增益,尤其是在光照变化(IV)、背景干扰(BC)等场景下,目标约束分支带来的准确度提升更加显著。本专利采用额外的时序约束分支更新目标外观特征的变化,对长时跟踪更具有鲁棒性。
本发明提供了一种基于时空约束与可学习特征匹配的快速目标跟踪方法,提出的特征匹配方法为有参方法,可以通过训练数据集学习数据分布,具有更强的鲁棒性,提出的时空约束分支可以捕捉目标特征变化至跟踪模板,并能够滤除干扰性强的污染特征,解决嵌入式平台下目标跟踪算法速度慢、准确度低的缺点。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于,包括如下步骤:
S1、特征提取:在初始帧中给定目标初始位置Loc1,根据目标初始位置Loc1裁剪出目标区域Z1,并通过共享权重的骨干网络MobileNetv2分别提取搜索图像X1与跟踪目标Z1的深度特征,得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
S2、可学习特征匹配:将搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1分别输入至两个独立的卷积层进行特征映射,并在通道维度拼接,得到的中间相似图SimilarMapconcat,将中间相似图输入至降维层,输出得到最终的相似图SimilarMap;
S3、注意力提取:包括空间注意力提取和通道注意力提取,具体为使用一张掩码Mask完成,通过学习训练,让深度神经网络学习到需要关注的区域与通道,得到带有空间、通道注意力的相似图SMatt
S4、位置预测:根据带有空间、通道注意力的相似图SMatt,采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框;
S5、采用时空约束分支并更新模板直至跟踪结束:时空约束包括时序约束分支与空间约束分支;具体是采用时序约束分支捕捉并融合随时序变化的目标外观高维特征表示,采用空间约束分支根据前序跟踪结果约束空间层面的搜索尺度,更新模板直至跟踪结束。
2.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S1特征提取的具体步骤包括如下:
S11、尺寸调整:调整搜索图像X1与跟踪目标Z1的尺寸大小,使其能够被输入进网络,调整后的X1与Z1尺寸分别为255×255×3与127×127×3;
S12、多尺度特征图尺寸平衡:通过控制骨干网络MobileNetv2中的卷积参数,将不同尺度的规范为同一尺寸的中间特征图输出,输出搜索图像X1与跟踪目标Z1在骨干网络卷积层第3、5、7层的中间特征图集分别为MX={MX1,MX2,MX3}和MZ={MZ1,MZ2,MZ3},每个特征图集中的中间特征图具有相同的尺寸;
S13、多尺度特征图融合:将步骤S12中输出的特征图集MX与MZ分别进行融合,分别得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
3.根据权利要求2所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S13多尺度特征图融合的具体步骤包括:
S131、对于特征图集MX,首先将其在通道维度上进行拼接,拼接后的特征图记作FX_concat,尺寸为31×31×768,再将FX_concat输入进反卷积层进行降维,然后通过批量归一化与Relu层,得到降维后的搜索区域融合特征图FX1,尺寸为31×31×256;
S132、对于特征图集MZ,首先将其在通道维度上进行拼接,拼接后的特征图记作FZ_concat,尺寸为15×15×768,再将FZ_concat输入进反卷积层进行降维,然后通过批量归一化与激活层,得到降维后的搜索区域融合特征图FZ_fusion,该特征图尺寸为15×15×256;
随后将FZ_fusion依次输入进特征编码器、ROI_Align层与空间调整层,最后得到表征跟踪目标Z1的融合特征向量FZ1,向量尺寸为1×1×256。
4.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S2中两个独立的卷积层和降维层都具有256个1x1大小的卷积核;所述中间相似图SimilarMapconcat的尺寸为31×31×512,所述最终相似图SimilarMap的尺寸为31×31×256。
5.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S3注意力提取的具体步骤包括:
S31、空间注意力提取:采用非局部操作算子Non-Local Layer,Non-Local Layer通过非局部均值滤波操作用以捕捉空间、序列以及通道层面的长距离依赖,并保持输入与输出尺度的一致,输出空间注意力掩码;
S32、通道注意力提取:采用SEModule网络,通过Squeeze和Excitation操作获得表示各通道的全局空间特征的表示向量,并通过训练数据的学习对各通道的依赖程度进行调整,输出通道注意力权重向量;
S33、将输出的空间注意力掩码与通道注意力权重向量与步骤S2得到的相似图SimilarMap进行融合,得到带有空间、通道注意力的相似图SMatt
6.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S4位置预测中,分类分支与回归分支网络分别采用不同的损失函数,分类分支采用交叉熵损失函数CrossEntropyLoss,回归分支采用Linear-IoU损失函数LinearIoULoss,两个损失函数的输入均为两个四元组(l,r,t,b)与
Figure FDA0003617235200000031
分别代表真实位置边框与预测位置边框,通过计算二者的交集与并集来评估网络的总损失TotalLoss。
7.根据权利要求6所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述网络的总损失TotalLoss具体计算如下:
Figure FDA0003617235200000032
gt_area=(l+r)*(t+b)
Figure FDA0003617235200000033
area_union=pred_area+gt_area-area_inter
Figure FDA0003617235200000034
TotalLoss=CrossEntropyLoss+LinearIoULoss。
8.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S5采用时空约束分支并更新模板直至跟踪结束具体包括:
将当前帧的跟踪原始画面以及前序帧跟踪结果作为空间约束分支的输入,前序帧跟踪结果为一四元向量[x,y,w,h],分别代表目标位置边框左上角点的坐标以及边框的宽高,跟踪模型通过边框宽高以及人工设定的搜索区域缩放因子c计算当前帧搜索区域的裁剪尺寸sizex
设当前帧的跟踪结果为
Figure FDA0003617235200000041
在本网络配置文件中将阈值区间[a,b]与更新间隔ξ作为超参数,将当前帧的跟踪结果
Figure FDA0003617235200000042
作为时序约束分支的输入,若
Figure FDA0003617235200000043
的特征融合向量
Figure FDA0003617235200000044
与初始目标区域的特征融合向量
Figure FDA0003617235200000045
余弦相似度处于阈值区间[a,b]中,则将
Figure FDA0003617235200000046
的多尺度融合特征
Figure FDA0003617235200000047
更新至跟踪模板中。
9.根据权利要求8所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述跟踪模板更新的表达式如下:
Figure FDA0003617235200000048
其中,当i=1时,templatei为在初始帧中人为指定的目标位置。
10.一种根据权利要求1-9中任一项所述基于时空约束与可学习特征匹配的快速目标跟踪方法的跟踪系统,其特征在于:所述跟踪系统包括如下模块:
特征提取模块:用于通过共享权重的骨干网络MobileNetv2分别提取搜索图像X1与跟踪目标Z1的深度特征,得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1
可学习特征匹配模块:用于将搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1分别输入至两个独立的卷积层进行特征映射,并在通道维度拼接,得到的中间相似图SimilarMapconcat,将中间相似图输入至降维层,输出得到最终的相似图SimilarMap;
注意力提取模块:包括空间注意力提取模块和通道注意力提取模块,具体为使用一张掩码Mask完成,通过学习训练,让深度神经网络学习到需要关注的区域与通道,得到带有空间、通道注意力的相似图SMatt
位置预测模块:用于根据带有空间、通道注意力的相似图SMatt,采用分类分支与回归分支网络分别计算目标-背景的前后景分类概率以及回归计算目标所处位置的边框;
时空约束分支模块和模板更新模块:时空约束分支模块包括时序约束分支模块与空间约束分支模块;
时序约束分支模块用于捕捉并融合随时序变化的目标外观高维特征表示;
空间约束分支模块用于根据前序跟踪结果约束空间层面的搜索尺度;
模板更新模块用于更新跟踪模板。
CN202210451117.6A 2022-04-26 2022-04-26 一种基于时空约束与可学习特征匹配的快速目标跟踪方法 Active CN114926498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210451117.6A CN114926498B (zh) 2022-04-26 2022-04-26 一种基于时空约束与可学习特征匹配的快速目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210451117.6A CN114926498B (zh) 2022-04-26 2022-04-26 一种基于时空约束与可学习特征匹配的快速目标跟踪方法

Publications (2)

Publication Number Publication Date
CN114926498A true CN114926498A (zh) 2022-08-19
CN114926498B CN114926498B (zh) 2023-05-23

Family

ID=82807490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210451117.6A Active CN114926498B (zh) 2022-04-26 2022-04-26 一种基于时空约束与可学习特征匹配的快速目标跟踪方法

Country Status (1)

Country Link
CN (1) CN114926498B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661207A (zh) * 2022-11-14 2023-01-31 南昌工程学院 基于空间一致性匹配与权重学习的目标跟踪方法与系统
CN116309080A (zh) * 2023-05-11 2023-06-23 武汉纺织大学 一种无人机视频拼接方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374219A1 (en) * 2017-06-27 2018-12-27 Shanghai Xiaoi Robot Technology Co., Ltd. Video tracking method and device, and object recognition method and device
CN109993774A (zh) * 2019-03-29 2019-07-09 大连理工大学 基于深度交叉相似匹配的在线视频目标跟踪方法
US20190294438A1 (en) * 2018-03-22 2019-09-26 Nanjing Horizon Robotics Technology Co., Ltd. Systems and methods of data processing
CN111462175A (zh) * 2020-03-11 2020-07-28 华南理工大学 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN111797716A (zh) * 2020-06-16 2020-10-20 电子科技大学 一种基于Siamese网络的单目标跟踪方法
CN112465872A (zh) * 2020-12-10 2021-03-09 南昌航空大学 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法
CN112489081A (zh) * 2020-11-30 2021-03-12 北京航空航天大学 一种视觉目标跟踪方法及装置
CN112560695A (zh) * 2020-12-17 2021-03-26 中国海洋大学 水下目标跟踪方法、系统、存储介质、设备、终端及应用
CN113052873A (zh) * 2021-03-16 2021-06-29 南京理工大学 一种在线自监督学习场景适应的单目标跟踪方法
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法
CN113744311A (zh) * 2021-09-02 2021-12-03 北京理工大学 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN113763417A (zh) * 2020-12-10 2021-12-07 四川大学 一种基于孪生网络和残差结构的目标跟踪方法
CN113793359A (zh) * 2021-08-25 2021-12-14 西安工业大学 一种融合孪生网络与相关滤波的目标跟踪方法
CN113807188A (zh) * 2021-08-20 2021-12-17 北京工业大学 基于锚框匹配和Siamese网络的无人机目标跟踪方法
CN113902991A (zh) * 2021-10-09 2022-01-07 石家庄学院 一种基于级联特征融合的孪生网络目标跟踪方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374219A1 (en) * 2017-06-27 2018-12-27 Shanghai Xiaoi Robot Technology Co., Ltd. Video tracking method and device, and object recognition method and device
US20190294438A1 (en) * 2018-03-22 2019-09-26 Nanjing Horizon Robotics Technology Co., Ltd. Systems and methods of data processing
CN109993774A (zh) * 2019-03-29 2019-07-09 大连理工大学 基于深度交叉相似匹配的在线视频目标跟踪方法
CN111462175A (zh) * 2020-03-11 2020-07-28 华南理工大学 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN111797716A (zh) * 2020-06-16 2020-10-20 电子科技大学 一种基于Siamese网络的单目标跟踪方法
CN112489081A (zh) * 2020-11-30 2021-03-12 北京航空航天大学 一种视觉目标跟踪方法及装置
CN112465872A (zh) * 2020-12-10 2021-03-09 南昌航空大学 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法
CN113763417A (zh) * 2020-12-10 2021-12-07 四川大学 一种基于孪生网络和残差结构的目标跟踪方法
CN112560695A (zh) * 2020-12-17 2021-03-26 中国海洋大学 水下目标跟踪方法、系统、存储介质、设备、终端及应用
CN113052873A (zh) * 2021-03-16 2021-06-29 南京理工大学 一种在线自监督学习场景适应的单目标跟踪方法
CN113256677A (zh) * 2021-04-16 2021-08-13 浙江工业大学 一种图注意力视觉目标跟踪方法
CN113807188A (zh) * 2021-08-20 2021-12-17 北京工业大学 基于锚框匹配和Siamese网络的无人机目标跟踪方法
CN113793359A (zh) * 2021-08-25 2021-12-14 西安工业大学 一种融合孪生网络与相关滤波的目标跟踪方法
CN113744311A (zh) * 2021-09-02 2021-12-03 北京理工大学 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN113902991A (zh) * 2021-10-09 2022-01-07 石家庄学院 一种基于级联特征融合的孪生网络目标跟踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JIAWEI HE等: "Learnable graph matching: Incorporating graph partitioning with deep feature learning for multiple object tracking" *
SAJID JAVED等: "Hierarchical Spatiotemporal Graph Regularized Discriminative Correlation Filter for Visual Object Tracking" *
张梦娇: "基于时空约束的视频目标跟踪技术研究" *
杨洁: "基于深度学习的无监督图像异常模式检测与识别研究" *
武哲纬等: "运算资源受限环境下的目标跟踪算法综述" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661207A (zh) * 2022-11-14 2023-01-31 南昌工程学院 基于空间一致性匹配与权重学习的目标跟踪方法与系统
CN116309080A (zh) * 2023-05-11 2023-06-23 武汉纺织大学 一种无人机视频拼接方法
CN116309080B (zh) * 2023-05-11 2023-08-11 武汉纺织大学 一种无人机视频拼接方法

Also Published As

Publication number Publication date
CN114926498B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN106875381B (zh) 一种基于深度学习的手机外壳缺陷检测方法
CN109145922B (zh) 一种自动抠图系统
CN111461212B (zh) 一种用于点云目标检测模型的压缩方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN111160407B (zh) 一种深度学习目标检测方法及系统
CN112364931B (zh) 一种基于元特征和权重调整的少样本目标检测方法及网络系统
CN114926498B (zh) 一种基于时空约束与可学习特征匹配的快速目标跟踪方法
CN110163207B (zh) 一种基于Mask-RCNN船舶目标定位方法及存储设备
CN114663346A (zh) 一种基于改进YOLOv5网络的带钢表面缺陷检测方法
CN114627052A (zh) 一种基于深度学习的红外图像漏气漏液检测方法及系统
CN114120069B (zh) 基于方向自注意力的车道线检测系统、方法和存储介质
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN115861772A (zh) 基于RetinaNet的多尺度单阶段目标检测方法
CN114359245A (zh) 一种工业场景下产品表面缺陷检测方法
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN114897738A (zh) 一种基于语义不一致性检测的图像盲修复方法
CN112884135B (zh) 一种基于边框回归的数据标注校正方法
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质
CN113496480A (zh) 一种焊缝图像缺陷的检测方法
CN111079807B (zh) 一种地物分类方法及装置
CN116721288A (zh) 一种基于YOLOv5的安全帽检测方法及系统
CN114998701B (zh) 基于像素特征匹配的目标检测损失优化方法
CN115170978A (zh) 车辆目标检测方法、装置、电子设备及存储介质
CN113450321A (zh) 基于边缘检测的单阶段目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant