CN114821390B - 基于注意力和关系检测的孪生网络目标跟踪方法及系统 - Google Patents

基于注意力和关系检测的孪生网络目标跟踪方法及系统 Download PDF

Info

Publication number
CN114821390B
CN114821390B CN202210263162.9A CN202210263162A CN114821390B CN 114821390 B CN114821390 B CN 114821390B CN 202210263162 A CN202210263162 A CN 202210263162A CN 114821390 B CN114821390 B CN 114821390B
Authority
CN
China
Prior art keywords
attention
regression
features
template
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210263162.9A
Other languages
English (en)
Other versions
CN114821390A (zh
Inventor
李爱民
刘笑含
刘腾
李稼川
刘德琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210263162.9A priority Critical patent/CN114821390B/zh
Publication of CN114821390A publication Critical patent/CN114821390A/zh
Application granted granted Critical
Publication of CN114821390B publication Critical patent/CN114821390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于注意力和关系检测的孪生网络目标跟踪方法及系统,获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;在模板分支和搜索分支中,将模板图像和搜索图像输入到网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,将增强处理得到的模板和搜索注意力特征,对应输入到目标跟踪模块中得到分类和回归结果;将分类和回归结果分别进行加权融合,得到融合后的分类和回归结果;基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,将点乘结果经过卷积操作,得到最后的分类得分,并获取的预测框。

Description

基于注意力和关系检测的孪生网络目标跟踪方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别是涉及基于注意力和关系检测的孪生网络目标跟踪方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着孪生网络引入到目标跟踪领域,基于孪生网络的跟踪器在单目标跟踪方面不断地取得了优异的成绩。由于兼顾了准确率和速度成为主流的方法之一,但依旧存在着很多问题。
首先,目标跟踪结果受多种因素的影响,如光照变化、视频模糊、遮挡、目标快速移动、尺度变化、出视野等等。这些都让目标跟踪变得非常困难,容易导致目标不能被准确的识别,造成跟踪失败,并对后续任务会造成极大的困难。然而注意力机制可以在某种程度上应对这些挑战。最常用的注意力机制主要分为两种:通道注意力和空间注意力,这两种机制都通过用不同的聚集策略、转换和增强功能聚集来自所有位置的相同特征来增强原始特征。但大多数基于注意力机制的目标跟踪算法依赖于单一注意力机制,没有很好的将通道注意力和空间注意力完美的结合起来。
其次,基于孪生网络的目标跟踪器的分类和回归通常是独立优化的,会导致他们之间会存在不匹配的问题。具体来说,分类置信度最高的位置对应的框并不一定是最准确的,甚至可能是错误。
发明内容
为了解决现有技术的不足,本发明提供了基于注意力和关系检测的孪生网络目标跟踪方法及系统;
第一方面,本发明提供了基于注意力和关系检测的孪生网络目标跟踪方法;
基于注意力和关系检测的孪生网络目标跟踪方法,包括:
获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
在模板分支中,将模板图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;
在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;
将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;
基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框。
第二方面,本发明提供了基于注意力和关系检测的孪生网络目标跟踪系统;
基于注意力和关系检测的孪生网络目标跟踪系统,包括:
获取模块,其被配置为:获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
模板特征提取增强模块,其被配置为:在模板分支中,将模板图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;
搜索特征提取增强模块,其被配置为:在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;
分类回归模块,其被配置为:将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;
预测跟踪模块,其被配置为:基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框。
与现有技术相比,本发明的有益效果是:
本发明加入的注意力模块,将空间注意力和通道注意力融合在一起,空间注意力捕捉丰富的语义信息,通道注意力选择性的增强相关依赖的通道特征,在不影响算法效率的基础上,提高了鲁棒性。
本发明加入的关系检测模块,增强了目标对于干扰和复杂背景的辨别能力,同时解决了分类和回归之间不匹配的问题,从而实现更准确和稳定的跟踪目标。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的SiamAR的跟踪模型图;
图2为实施例一的注意力模块;
图3(a)~图3(c)为实施例一的关系检测模型;
图4(a)~图4(i)为实施例一的实验结果;
图5(a)~图5(l)为实施例一的消融实验对比图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于注意力和关系检测的孪生网络目标跟踪方法;
如图1所示,基于注意力和关系检测的孪生网络目标跟踪方法,包括:
S101:获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
S102:在模板分支中,将模板图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;
S103:在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;
S104:将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;
S105:基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框。
示例性地,模板图像为127×127,搜索图像为255×255。
进一步地,所述采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;具体是指:
对ResNet-50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f3(z)、f4(z)、f5(z)用注意力模块进行特征增强,生成模板注意力特征f3(z’)、f4(z’)、f5(z’)。
进一步地,所述采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;具体包括:
对ResNet-50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f3(x)、f4(x)、f5(x)用注意力模块进行特征增强,生成搜索注意力特征f3(x‘)、f4(x‘)、f5(x‘)。
进一步地,如图2所示,所述注意力模块,工作原理:
将从ResNet-50骨干网络中提取的的特征图分成多个组,采用通道分离,分成两个分支并行处理各组的子特征;
对于通道注意力分支,使用全局平局池化生成通道统计量,用一对参数来缩放和移动通道向量;
对于空间注意力分支,使用group norm生成空间统计量,用类似于通道注意力分支生成相关特征。然后将两个分支结合起来。随后将所有子特征聚集。使用通道混合实现不同子特征之间的通信;最后输出注意力特征。
示例性地,对于给定的特征映射X∈RC×H×W,其中C、H、W分别表示通道数、空间高度和宽度。首先将X沿着通道维度划分为G组,即
X=[X1,…,XG],Xk∈RC/G×H×W
其中,每个子特征Xk在训练过程中逐渐捕获一个语义特征响应。
然后,利用注意力模块为每一个子特征生成对应的系数。具体来说,在每一个注意力模块的开始,沿着通道维度将Xk分成两个分支,即Xk1,Xk2∈RC/2G×H×W。一个分支利用通道间的相互关系生成通道注意力图,另一个分支利用特征图的空间关系生成空间注意力图。
对于通道注意力分支,首先,利用全局平局池化来嵌入全局信息,从而生成通道统计量s∈RC/2G×1×1,其中统计量可以通过通道维度H×W来收缩Xk1计算:
此外,还得到了一个特征,通过一个简单门控机制sigmoid函数来实现精确的选择。
然后,获得通道注意力的最终输出:
X′k1=σ(Fc(s))·Xk1=σ(W1s+b1)·Xk1 (3)
其中,σ(·)=sigmoid(·),Fc(x)=Wx+b,Xk∈RC/2G×1×1,b1∈RC/2G×1×1是用来缩放和位移s的参数。
对于空间注意力分支,首先,使用Group Norm(GN)来获取空间统计信息Xk2,然后采用Fc(·)来增强的表示,最终空间注意力的输出通过以下方式:
X′k2=σ(W2·GN+b2)·Xk2 (4)
其中,W2,b2∈RC/2G×1×1
最后,将两个分支链接起来,使通道数和输入数相同,即
X′k1=[X′k1,X′k2]∈RC/G×H×W (5)
在此之后,将所有子特征聚集;
最后,采用一个类似于ShuffleNet V2的通道混合实现跨组信息交流。
在单个注意力单元中,每个分支的通道为C/2G,因此总参数为3C/G,其中G通常为32或64,所以更方便计算,获得更高的效率。
进一步地,所述S104:将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;是指:
将第i个模板注意力特征和第i搜索注意力特征输入到SiamRPN++中的第i目标跟踪模块Siamese RPN中,得到第i分类结果和第i回归结果;其中,i的取值为1到3;
将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果。
应理解地,将模板注意力特征和搜索注意力特征输入到SiamRPN++中的SiameseRPN模块中,由于三个Siamese RPN模块的输出大小相同,因此直接进行加权融合。组合权重被分开分别用于分类和归回。
进一步地,所述S105:基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;具体包括:
先提取模板特征并通过ROI pooling(Region of interest pooling,感兴趣区域池化)提取ROI特征;
后续帧对回归分支响应图的每个位置都预测一个框,提取其ROI特征,与目标模板的ROI特征共同送入到关系检测模块中;
关系检测器是由三个检测器组成,每一个检测器最终生成一个匹配分数来度量回归结果中目标和预测图像的关系分数;
将三个分数进行加权平均得到回归分支的分数图。
进一步地,如图3(a)~图3(c)所示,所述关系检测器,包括:用于学习全局信息的全局检测器,用于捕捉像素级和深度级的局部检测器,以及用来学习深度非线性度量且建立一对多的块检测器;其中,
全局检测器,将目标和预测图像的ROI特征拼接后做全局池化,经过若干层全连接层得到全局分数;
局部检测器,将两个ROI特征做Depth-wise cross correlation(深度互相关)得到局部分数;
块检测器,将两个ROI特征拼接后经过若干卷积得到块分数。
将三个分数进行加权平均得到一个25×25×1的分数图,反映的是每个位置预测框内的物体与目标之间的相似性与目标的相似度,该分数图能够同时考虑全局、局部以及块之间的关系。
进一步地,ResNet-50骨干网络、注意力模块、Siamese RPN模块和关系检测模块共同组成了目标跟踪模型;所提出的目标跟踪模型是以端到端的方式进行训练,训练总损失是分类损失、回归损失、分数匹配回归损失多个函数的加权组合,总的损失函数的数学表示公式为:
L=λ1Lcls2Lreg3Lmatching
其中,λ1、λ2、λ3分别为分类、回归、匹配损失函数的权重。Lcls为分类损失函数,采用交叉熵损失函数。Lreg为回归损失函数,采用了L1损失函数。Lmatching为分数匹配回归损失函数,即
Lmatching=(ri.j-yi,j)2
其中,ri.j为该点回归关系得分,yi,j代表该点的分类结果(目标还是背景)。
实验结果及实验对比如图4(a)~图4(i)、图5(a)~图5(l)所示。
实施例二
本实施例提供了基于注意力和关系检测的孪生网络目标跟踪系统;
基于注意力和关系检测的孪生网络目标跟踪系统,包括:
获取模块,其被配置为:获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
模板特征提取增强模块,其被配置为:在模板分支中,将模板图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;
搜索特征提取增强模块,其被配置为:在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;
分类回归模块,其被配置为:将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;
预测跟踪模块,其被配置为:基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框。
此处需要说明的是,上述获取模块、模板特征提取增强模块、搜索特征提取增强模块、分类回归模块和预测跟踪模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,包括:
获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
在模板分支中,将模板图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;所述注意力模块,工作原理:将从ResNet-50骨干网络中提取的的特征图分成多个组,采用通道分离,分成两个分支并行处理各组的子特征;对于通道注意力分支,使用全局平局池化生成通道统计量,用一对参数来缩放和移动通道向量;对于空间注意力分支,使用group norm生成空间统计量,用类似于通道注意力分支生成相关特征;然后将两个分支结合起来;随后将所有子特征聚集;使用通道混合实现不同子特征之间的通信;最后输出注意力特征;
在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;
将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;
基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框;
其中,基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;具体包括:
先提取模板特征并通过感兴趣区域池化ROI pooling操作,提取ROI特征;
后续帧对回归分支响应图的每个位置都预测一个框,提取其ROI特征,与目标模板的ROI特征共同送入到关系检测模块中;
关系检测器是由三个检测器组成,每一个检测器最终生成一个匹配分数来度量回归结果中目标和预测图像的关系分数;
将三个分数进行加权平均得到回归分支的分数图;
所述关系检测器,包括:用于学习全局信息的全局检测器,用于捕捉像素级和深度级的局部检测器,以及用来学习深度非线性度量且建立一对多的块检测器;其中,
全局检测器,将目标和预测图像的ROI特征拼接后做全局池化,经过若干层全连接层得到全局分数;
局部检测器,将两个ROI特征做深度互相关Depth-wise cross correlation得到局部分数;
块检测器,将两个ROI特征拼接后经过若干卷积得到块分数。
2.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,所述采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;具体是指:
对ResNet-50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f3(z)、f4(z)、f5(z)用注意力模块进行特征增强,生成模板注意力特征f3(z)、f4(z)、f5(z)。
3.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,所述采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;具体包括:
对ResNet-50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f3(x)、f4(x)、f5(x)用注意力模块进行特征增强,生成搜索注意力特征f3(x)、f4(x)、f5(x)。
4.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,对于通道注意力分支,首先,利用全局平局池化来嵌入全局信息,从而生成通道统计量s∈RC /2G×1×1,其中统计量可以通过通道维度H×W来收缩Xk1计算:
然后,获得通道注意力的最终输出:
Xk 1=σ(Fc(s))·Xk1=σ(W1s+b1)·Xk1
其中,σ(·)=sigmoid(·),Fc(x)=Wx+b,Xk∈RC/2G×1×1,b1∈RC/2G×1×1是用来缩放和位移s的参数;
对于空间注意力分支,首先,使用Group Norm来获取空间统计信息Xk2,然后采用Fc(·)来增强的表示,最终空间注意力的输出通过以下方式:
Xk 2=σ(W2·GN+b2)·Xk2
其中,W2,b2∈RC/2G×1×1
最后,将两个分支链接起来,使通道数和输入数相同:
Xk 1=[Xk 1,Xk 2]∈RC/G×H×W
在此之后,将所有子特征聚集;
最后,采用一个类似于ShuffleNet V2的通道混合实现跨组信息交流。
5.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;是指:
将第i个模板注意力特征和第i搜索注意力特征输入到SiamRPN++中的第i目标跟踪模块Siamese RPN中,得到第i分类结果和第i回归结果;其中,i的取值为1到3;
将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果。
6.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,ResNet-50骨干网络、注意力模块、Siamese RPN模块和关系检测模块共同组成了目标跟踪模型;所提出的目标跟踪模型是以端到端的方式进行训练,训练总损失是分类损失、回归损失、分数匹配回归损失多个函数的加权组合,总的损失函数的数学表示公式为:
L=λ1Lcls2Lreg3Lmatching
其中,λ1、λ2、λ3分别为分类、回归、匹配损失函数的权重;
Lcls为分类损失函数,采用交叉熵损失函数;Lreg为回归损失函数,采用了L1损失函数;Lmatching为分数匹配回归损失函数:
Lmatching=(ri.j-yi,j)2
其中,ri.j为该点回归关系得分,yi,j代表该点的分类结果。
7.基于注意力和关系检测的孪生网络目标跟踪系统,其特征是,包括:
获取模块,其被配置为:获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
模板特征提取增强模块,其被配置为:在模板分支中,将模板图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;
搜索特征提取增强模块,其被配置为:在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet-50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;所述注意力模块,工作原理:将从ResNet-50骨干网络中提取的的特征图分成多个组,采用通道分离,分成两个分支并行处理各组的子特征;对于通道注意力分支,使用全局平局池化生成通道统计量,用一对参数来缩放和移动通道向量;对于空间注意力分支,使用group norm生成空间统计量,用类似于通道注意力分支生成相关特征;然后将两个分支结合起来;随后将所有子特征聚集;使用通道混合实现不同子特征之间的通信;最后输出注意力特征;
分类回归模块,其被配置为:将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;
预测跟踪模块,其被配置为:基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框;
其中,基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;具体包括:
先提取模板特征并通过感兴趣区域池化ROIpooling操作,提取ROI特征;
后续帧对回归分支响应图的每个位置都预测一个框,提取其ROI特征,与目标模板的ROI特征共同送入到关系检测模块中;
关系检测器是由三个检测器组成,每一个检测器最终生成一个匹配分数来度量回归结果中目标和预测图像的关系分数;
将三个分数进行加权平均得到回归分支的分数图;
所述关系检测器,包括:用于学习全局信息的全局检测器,用于捕捉像素级和深度级的局部检测器,以及用来学习深度非线性度量且建立一对多的块检测器;其中,
全局检测器,将目标和预测图像的ROI特征拼接后做全局池化,经过若干层全连接层得到全局分数;
局部检测器,将两个ROI特征做深度互相关Depth-wise cross correlation得到局部分数;
块检测器,将两个ROI特征拼接后经过若干卷积得到块分数。
CN202210263162.9A 2022-03-17 2022-03-17 基于注意力和关系检测的孪生网络目标跟踪方法及系统 Active CN114821390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210263162.9A CN114821390B (zh) 2022-03-17 2022-03-17 基于注意力和关系检测的孪生网络目标跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210263162.9A CN114821390B (zh) 2022-03-17 2022-03-17 基于注意力和关系检测的孪生网络目标跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN114821390A CN114821390A (zh) 2022-07-29
CN114821390B true CN114821390B (zh) 2024-02-23

Family

ID=82529796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210263162.9A Active CN114821390B (zh) 2022-03-17 2022-03-17 基于注意力和关系检测的孪生网络目标跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN114821390B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578421B (zh) * 2022-11-17 2023-03-14 中国石油大学(华东) 一种基于多图注意力机制的目标跟踪算法
CN116168216B (zh) * 2023-04-21 2023-07-18 中国科学技术大学 一种基于场景提示的单目标跟踪方法
CN116188804B (zh) * 2023-04-25 2023-07-04 山东大学 一种基于transformer的孪生网络目标搜索系统
CN116934796B (zh) * 2023-07-20 2024-08-06 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法
CN117727053B (zh) * 2024-02-08 2024-04-19 西南科技大学 一种多类别汉字单样本字体识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179314A (zh) * 2019-12-30 2020-05-19 北京工业大学 一种基于残差密集孪生网络的目标跟踪方法
CN113297959A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN113706581A (zh) * 2021-08-13 2021-11-26 河南大学 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113705588A (zh) * 2021-10-28 2021-11-26 南昌工程学院 基于卷积自注意力模块的孪生网络目标跟踪方法与系统
CN114049381A (zh) * 2021-12-21 2022-02-15 重庆大学 一种融合多层语义信息的孪生交叉目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11954599B2 (en) * 2020-06-18 2024-04-09 Institute Of Automation, Chinese Academy Of Sciences Bi-directional interaction network (BINet)-based person search method, system, and apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179314A (zh) * 2019-12-30 2020-05-19 北京工业大学 一种基于残差密集孪生网络的目标跟踪方法
CN113297959A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN113706581A (zh) * 2021-08-13 2021-11-26 河南大学 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113705588A (zh) * 2021-10-28 2021-11-26 南昌工程学院 基于卷积自注意力模块的孪生网络目标跟踪方法与系统
CN114049381A (zh) * 2021-12-21 2022-02-15 重庆大学 一种融合多层语义信息的孪生交叉目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董吉富 ; 刘畅 ; 曹方伟 ; 凌源 ; 高翔 ; .基于注意力机制的在线自适应孪生网络跟踪算法.激光与光电子学进展.2020,(02),全文. *

Also Published As

Publication number Publication date
CN114821390A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114821390B (zh) 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN108492294B (zh) 一种图像色彩和谐程度的评估方法及装置
CN108062531A (zh) 一种基于级联回归卷积神经网络的视频目标检测方法
CN112712546A (zh) 一种基于孪生神经网络的目标跟踪方法
Wang et al. Aspect-ratio-preserving multi-patch image aesthetics score prediction
WO2023159898A1 (zh) 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
CN114612832A (zh) 一种实时手势检测方法及装置
CN112215079B (zh) 一种全局多阶段目标跟踪方法
Zhu et al. HMFCA-Net: Hierarchical multi-frequency based Channel attention net for mobile phone surface defect detection
CN111696136A (zh) 一种基于编解码结构的目标跟踪方法
CN112288772B (zh) 基于在线多特征选择的通道注意力目标跟踪方法
CN117312681B (zh) 面向元宇宙的用户偏好产品推荐方法及系统
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN111931603A (zh) 基于竞合网络的双流卷积网络的人体动作识别系统及方法
CN112836609A (zh) 基于关系引导视频时空特征的人体行为识别方法及系统
CN115239765A (zh) 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
CN114492755A (zh) 基于知识蒸馏的目标检测模型压缩方法
Yang et al. A feature temporal attention based interleaved network for fast video object detection
Lu et al. Siamese graph attention networks for robust visual object tracking
CN117079260A (zh) 一种基于混合注意力与特征增强的文本检测方法
CN116524261A (zh) 一种基于多模态小样本持续学习的图像分类方法及产品
CN115019342B (zh) 一种基于类关系推理的濒危动物目标检测方法
CN114240994B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN114820755A (zh) 一种深度图估计方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501

Patentee after: Qilu University of Technology (Shandong Academy of Sciences)

Country or region after: China

Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501

Patentee before: Qilu University of Technology

Country or region before: China