CN116091979A - 一种基于特征融合和通道注意力的目标跟踪方法 - Google Patents

一种基于特征融合和通道注意力的目标跟踪方法 Download PDF

Info

Publication number
CN116091979A
CN116091979A CN202310185680.8A CN202310185680A CN116091979A CN 116091979 A CN116091979 A CN 116091979A CN 202310185680 A CN202310185680 A CN 202310185680A CN 116091979 A CN116091979 A CN 116091979A
Authority
CN
China
Prior art keywords
feature
network
layer
target
channel attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310185680.8A
Other languages
English (en)
Inventor
黄海涛
张建明
谢贤定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202310185680.8A priority Critical patent/CN116091979A/zh
Publication of CN116091979A publication Critical patent/CN116091979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于特征融合和通道注意力的目标跟踪方法,通过给定目标的初始帧,能够在后续的视频中确定该目标在当前帧的位置与尺寸大小。应用基于修改后的残差网络,提取后三层的特征信息;基于高效通道注意力模块增强目标的特征信息,抑制背景和干扰物的影响;通过将增强后的特征图送入自适应特征融合网络,获取到神经网络调优的参数后加权到三层特征图上,再逐点相加得到一层最利于跟踪的特征图;最后将模板分支和搜索分支的特征图进行互相关操作,得到分类和回归的结果;根据结果得出目标在当前帧的准确位置与尺寸大小。本发明通过结合高效通道注意力模块和自适应特征融合网络,有效应对不同场景,提升了跟踪器的性能。

Description

一种基于特征融合和通道注意力的目标跟踪方法
技术领域
本发明涉及计算机视觉中目标跟踪领域,尤其是一种基于特征融合和通道注意力的目标跟踪方法。
背景技术
视觉目标跟踪被定义为在给定视频序列初始帧中的目标的大小和位置的情况下,预测后续帧中目标的尺寸和位置。计算机技术发展日新月异,计算机视觉方向衍生出众多分支,而目标跟踪作为其重要研究领域,在近几年展现出强劲的发展势头。目标跟踪技术应用在我们身边的各种场景,包括交通监控、人机交互、医学诊断和现代军事等许多实际领域。众多研究者投身到了目标跟踪领域并做出诸多贡献和实践,然而面对实际场景中的困难挑战,如光照变化、运动模糊、背景杂波和遮挡等,各式各样的目标跟踪算法仍无法完全精确的实现实时跟踪。因此,研究出更高精度和更加鲁棒的跟踪算法成为这一领域的迫切需求,也是目标跟踪需要达到的最终目的。本学位论文主要以在保证跟踪算法的精度要求下,同时让跟踪算法具备一定的鲁棒性为目标展开研究,对跟踪模型的网络结构进行改进,使得训练出来的跟踪器能够实时并精确跟踪到目标。
发明内容
针对上述现有技术的不足,本发明提供一种基于特征融合和通道注意力的目标跟踪方法。其目的在于解决跟踪过程中出现的背景干扰,以及目标照明和形状变化、尺度变化的问题,提升跟踪方法的精度和鲁棒性。
为了实现上述目的,本发明提供了一种基于特征融合和通道注意力的目标跟踪方法,包括以下步骤:
S1、构建孪生网络;
S2、获取目标的初始帧;
S3、提取模板区域和搜索区域的特征信息;
S4、通过高效通道注意力机制增强目标特征信息;
S5、将增强后的特征送入到特征融合网络,将三层特征融合为一层;
S6、将最终得到的模板分支与搜索分支的特征做一次互相关操作来进行分类和回归。根据分类和回归的结果,得出目标在当前帧的准确位置。
本发明提供了一种基于特征融合和通道注意力的目标跟踪方法。与现有技术相比,具备以下有益效果:
本发明从两个角度提升目标跟踪方法的性能,一方面,通过高效通道注意力机制对提取的特征进行增强,经过一系列的卷积获得不同位置特征的权重,然后将获得的权重作用于输入特征上,以此降低背景和干扰物特征的干扰,使得网络更关注有利于目标分类和回归的信息;另一方面该方法使用特征融合网络对增强后的三层特征信息进行自适应的融合,充分利用到浅层特征中包含的外观和轮廓信息与深层特征中的语义信息,在避免了多次互相关操作带来的计算量的同时,通过网络的自我优化,能够得到最有利于我们跟踪的特征图。结合一次相似度计算的输出结果,最终得到目标在当前帧的准确位置与尺寸大小,大大提高了跟踪的准确性及鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中一种基于特征融合和通道注意力的目标跟踪方法流程图。
图2是本发明实例中高效通道注意力模块的示意图。
图3是本发明实例中特征融合网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
下面结合说明书附图以及具体的实施方式对本发明作详细说明。如图1所示,一种基于孪生网络的单目标跟踪方法包括步骤S1~S7:
S1、构建孪生网络;
S2、获取目标的初始帧;
S3、提取模板区域和搜索区域的特征信息;
S4、通过高效通道注意力机制增强目标特征信息;
S5、将增强后的特征送入到特征融合网络,将三层特征融合为一层;
S6、将最终得到的模板分支与搜索分支的特征做一次互相关操作来进行分类和回归。根据分类和回归的结果,得出目标在当前帧的准确位置。
下面对各个步骤进行详细描述。
在步骤S1中,如图1所示的构建一种基于孪生网络的单目标跟踪方法流程图。其步骤具体为:
S101、该孪生网络由四部分组成;分别为特征提取部分、高效通道注意力模块部分、特征融合网络部分和头部网络。
S102、特征提取部分由模板分支,搜索分支以及骨干网络三部分组成;模板分支用来提取模板图像的特征信息,搜索分支用来提取当前帧搜索区域的特征信息,骨干网络是修改后的深度残差网络,使用的特征是提取到的第三层、第四层和第五层的特征信息。
S103、高效通道注意力模块部分,主要是一种不降维的跨通道交互策略,并且可以自适应选择一维卷积核的大小,以此来得到通道之间的关系,增强特征表达能力,达到增强特征的目的。该模块增加的模型复杂度小,提升效果显著。
S104、特征融合网络部分,通过网络的训练,给三层特征图各分配由神经网络自我学习得到的权重值,自适应的调整浅层与深层特征的重要程度,最后将三层特征信息进行相加,得到最有利于我们跟踪的一层特征图。
S105、头部网络部分主要为一次互相关操作,用来处理来自模板帧和搜索帧不同层融合后的特征信息,计算相似度,最后根据分类和回归的结果,得出目标在当前帧的准确位置。
在步骤S2中,获取目标的初始帧。其步骤具体为:
S201、初始帧的获取是在视频序列的开始阶段,通过划定一个矩形框来选择要跟踪的目标,此目标为后续帧中所要对比的对象。
在步骤S3中,提取模板区域和搜索区域的特征信息。其具体步骤为:
S301、在该方法中使用的骨干网络是修改后的残差网络,提取到的有五块特征信息,我们选择第三层、第四层和第五层特征进行使用。
S302、第三块和第四块的特征经历的卷积层数较少,包含的更多是外观信息,其中只有少量的语义信息。
S303、分别将模板区域图像z和搜索区域图像x输入到残差网络中进行特征提取,输出第三层,第四层和第五层的特征图。用
Figure BDA0004103711870000051
Figure BDA0004103711870000052
来表示模板分支的特征和搜索分支的特征。
在步骤S4中,如图2所示的高效通道注意力模块,通过高效通道注意力模块分别将三层的特征信息进行特征增强。其步骤具体为:
S401、将提取获得的三块特征信息作为输入,输入高效通道注意力中进行处理。高效通道注意力可以通过卷积核大小为k的一维卷积来实现,达到通道之间的信息交互,通道注意力图权重的获取定义如下:
ω=σ(C1Dk(t)), (1)
σ表示激活函数sigmoid,C1D表示一维卷积,k为卷积核的大小,t为给定的不进行降维的特征。
S402、由于高效通道注意力模块旨在适当捕获局部通道信息交互,因此需要确定通道交互信息的大致范围(即一维卷积的卷积核大小k),在k和维度C之间可能存在映射φ,其定义如下:
c=φ(k), (2)
S403、最简单的映射方式就是线性映射,但由于线性函数对于某些相关特征的局限性,再由于通道维数通常是2的指数倍,所以,这里采用以2为底的指数函数来表示非线性映射关系:
C=φ(k)=2(γ*k-b), (3)
S404、所以,给定通道维数C,那么卷积核大小k便可根据下面公式计算得到:
Figure BDA0004103711870000061
其中|t|odd表示最接近t的奇数。我们在所有实验中分别将γ和b设为2和1。显然,通过映射ψ,通过非线性映射,高维通道具有较长的距离相互作用,而低维通道具有较短的距离相互作用。
S405、将归一化权重和原输入特征图逐通道相乘,生成加权后的特征图。
在步骤S5中,如图3所示的特征融合网络结构,将增强后的三层特征送入到特征融合网络进行融合,得到最利于跟踪的一层特征图。其步骤具体为:
S501、由于我们使用的是修改后的残差网络作为骨干网络,所以增强后的三层特征图尺寸大小也是一样的,不需要再进行尺度缩放,直接进行自适应融合,具体为经过网络学习到的参数加权后,再将其特征图进行逐点相加,融合后的特征图定义如下:
F=αF3+βF4+δF5, (5)
其中α,β和δ分别代表第三层、第四层和第五层特征图对应的空间权重,由网络自适应学习而来。F3、F4和F5分别代表此三层的特征图。
S502、令α+β+δ=1和α,β,δ∈[0,1],则有:
α,β,δ=Softmax(λαβδ), (6)
这里α,β和δ是由λαβ和λδ这三个softmax函数变量进行控制。标准的反向传播算法能够学习融合参数,通过合理的训练可以生成这些有效系数。
在步骤S6中,将特征送入到头部网络进行分别分类和回归处理。其步骤具体为:
S601、将经过高效通道注意力进行加权并融合的模板区域特征图和搜索区域特征图送入头部网络中,在第一个分支即分类分支进行互相关操作,输出通道数为2的分类图得到分类预测结果;
S602、将经过高效通道注意力进行加权并融合的模板区域特征图和搜索区域特征图送入头部网络中,在第二个分支即回归分支进行互相关操作,输出通道数为4的回归图得到回归预测结果。
S603、前景背景的分类以及边界框的回归,其互相关操作表达式如下:
Figure BDA0004103711870000081
其中★表示深度互相关操作,F(z)和F(x)是模板区域和搜索区域的特征图。[F(z)]cls和[F(z)]reg作为卷积核,
Figure BDA0004103711870000082
分别代表分类图和回归图。
S604、最后根据分类和回归的结果得到跟踪目标的位置与边界框的尺寸。
S605、计算整个网络的损失,由分类损失和回归损失组成。其表达式如下:
Figure BDA0004103711870000083
其中Npos表示正样本的数量。1{…}是指示函数,若大括号中的条件成立则取1,否则取值为0。Lcls表示用于分类结果的交叉熵损失,Lreg表示用于边界框结果的IoU损失。若(x,y)被认为是正样本,我们将1分配给
Figure BDA0004103711870000084
被认为是负样本则将0分配给它。λ1和λ2为用于平衡这些损失的超参数,在我们的方法中均设为1。
其中,分类的交叉熵损失定义如下:
Figure BDA0004103711870000091
px,y代表由学习模型预测的为前景的概率,
Figure BDA0004103711870000092
代表标签值。
回归损失表达式如下:
Figure BDA0004103711870000093
B=(x0,y0,x1,y1)表示预测的边界框的左上角和右下角坐标。B*为真实值。B可以通过rx,y=[l,r,t,b]和位置(x,y)的计算来获得。
S606、根据训练中最小损失的模型权重,输出目标在当前帧的准确位置。
本发明实施例在以往孪生网络跟踪方法上添加了高效通道注意力模块,以及自适应融合了多层特征,增强了特征的表示,有效的抑制了背景和干扰物的影响,充分利用了从骨干网络中提取的特征信息,从而提高了跟踪方法的准确性和鲁棒性。为实际应用中的目标跟踪等工作提供更为高效的框架。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (7)

1.一种基于特征融合和通道注意力的目标跟踪方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、构建孪生网络;
S2、获取目标的初始帧;
S3、提取模板区域和搜索区域的特征信息;
S4、通过高效通道注意力机制增强目标特征信息;
S5、将增强后的特征送入到特征融合网络,将三层特征融合为一层;
S6、将最终得到的模板分支与搜索分支的特征做一次互相关操作来进行分类和回归,根据分类和回归的结果,得出目标在当前帧的准确位置。
2.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法,其特征在于,S1的具体实现过程如下:
S101、该孪生网络由四部分组成,分别为特征提取部分、高效通道注意力模块部分、特征融合网络部分和头部网络;
S102、特征提取部分由模板分支,搜索分支以及骨干网络三部分组成;模板分支用来提取模板图像的特征信息,搜索分支用来提取当前帧搜索区域的特征信息,骨干网络是修改后的深度残差网络,使用的特征是提取到的第三层、第四层和第五层的特征信息;
S103、高效通道注意力模块部分,主要是一种不降维的跨通道交互策略,并且可以自适应选择一维卷积核的大小,以此来得到通道之间的关系,增强特征表达能力,达到增强特征的目的,该模块增加的模型复杂度小,提升效果显著;
S104、特征融合网络部分,通过网络的训练,给三层特征图各分配由神经网络自我学习得到的权重值,自适应的调整浅层与深层特征的重要程度,最后将三层特征信息进行相加,得到最有利于我们跟踪的一层特征图;
S105、头部网络部分主要为一次互相关操作,用来处理来自模板帧和搜索帧不同层融合后的特征信息,计算相似度,最后根据分类和回归的结果,得出目标在当前帧的准确位置。
3.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法,其特征在于,S2的具体实现过程如下:
S201、初始帧的获取是在视频序列的开始阶段,通过划定一个矩形框来选择要跟踪的目标,此目标为后续帧中所要对比的对象。
4.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法,其特征在于,在步骤S3中,提取模板区域和搜索区域的特征信息,其具体步骤为:
S301、在该方法中使用的骨干网络是修改后的残差网络,提取到的有五块特征信息,我们选择第三层、第四层和第五层特征进行使用;
S302、第三块和第四块的特征经历的卷积层数较少,包含的更多是外观信息,其中只有少量的语义信息;
S303、分别将模板区域图像z和搜索区域图像x输入到残差网络中进行特征提取,输出第三层,第四层和第五层的特征图,用
Figure FDA0004103711860000021
Figure FDA0004103711860000031
来表示模板分支的特征和搜索分支的特征。
5.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法,其特征在于,在步骤S4中,如图2所示的高效通道注意力模块,通过高效通道注意力模块分别将三层的特征信息进行特征增强,其步骤具体为:
S401、将提取获得的三块特征信息作为输入,输入高效通道注意力中进行处理,高效通道注意力可以通过卷积核大小为k的一维卷积来实现,达到通道之间的信息交互,通道注意力图权重的获取定义如下:
ω=σ(C1Dk(t)), (1)
σ表示激活函数sigmoid,C1D表示一维卷积,k为卷积核的大小,t为给定的不进行降维的特征;
S402、由于高效通道注意力模块旨在适当捕获局部通道信息交互,因此需要确定通道交互信息的大致范围(即一维卷积的卷积核大小k),在k和维度C之间可能存在映射φ,其定义如下:
c=φ(k), (2)
S403、最简单的映射方式就是线性映射,但由于线性函数对于某些相关特征的局限性,再由于通道维数通常是2的指数倍,所以,这里采用以2为底的指数函数来表示非线性映射关系:
C=φ(k)=2(γ*k-b), (3)
S404、所以,给定通道维数C,那么卷积核大小k便可根据下面公式计算得到:
Figure FDA0004103711860000041
其中|t|odd表示最接近t的奇数,我们在所有实验中分别将γ和b设为2和1,显然,通过映射ψ,通过非线性映射,高维通道具有较长的距离相互作用,而低维通道具有较短的距离相互作用;
S405、将归一化权重和原输入特征图逐通道相乘,生成加权后的特征图。
6.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法,其特征在于,在步骤S5中,如图3所示的特征融合网络结构,将增强后的三层特征送入到特征融合网络进行融合,得到最利于跟踪的一层特征图,其步骤具体为:
S501、由于我们使用的是修改后的残差网络作为骨干网络,所以增强后的三层特征图尺寸大小也是一样的,不需要再进行尺度缩放,直接进行自适应融合,具体为经过网络学习到的参数加权后,再将其特征图进行逐点相加,融合后的特征图定义如下:
H=αH3+βH4+δH5, (5)
其中α,β和δ分别代表第三层、第四层和第五层特征图对应的空间权重,由网络自适应学习而来,H3、H4和H5分别代表此三层的特征图;
S502、令α+β+δ=1和α,β,δ∈[0,1],则有:
α,β,δ=Softmax(λαβδ), (6)
这里α,β和δ是由λαβ和λδ这三个softmax函数变量进行控制,标准的反向传播算法能够学习融合参数,通过合理的训练可以生成这些有效系数。
7.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法,其特征在于,在步骤S6中,将特征送入到头部网络进行分别分类和回归处理,其步骤具体为:
S601、将经过高效通道注意力进行加权并融合的模板区域特征图和搜索区域特征图送入头部网络中,在第一个分支即分类分支进行互相关操作,输出通道数为2的分类图得到分类预测结果;
S602、将经过高效通道注意力进行加权并融合的模板区域特征图和搜索区域特征图送入头部网络中,在第二个分支即回归分支进行互相关操作,输出通道数为4的回归图得到回归预测结果;
S603、前景背景的分类以及边界框的回归,其互相关操作表达式如下:
Figure FDA0004103711860000051
其中★表示深度互相关操作,L(z)和L(x)是模板区域和搜索区域的特征图[L(z)]cls和[L(z)]reg作为卷积核,
Figure FDA0004103711860000052
分别代表分类图和回归图;
S604、最后根据分类和回归的结果得到跟踪目标的位置与边界框的尺寸;
S605、计算整个网络的损失,由分类损失和回归损失组成,其表达式如下:
Figure FDA0004103711860000061
其中Npos表示正样本的数量,1{…}是指示函数,若大括号中的条件成立则取1,否则取值为0,Lcls表示用于分类结果的交叉熵损失,Lreg表示用于边界框结果的IoU损失;若(x,y)被认为是正样本,我们将1分配给
Figure FDA0004103711860000062
被认为是负样本则将0分配给它,λ1和λ2为用于平衡这些损失的超参数,在我们的方法中均设为1;
其中,分类的交叉熵损失定义如下:
Figure FDA0004103711860000063
px,y代表由学习模型预测的为前景的概率,
Figure FDA0004103711860000064
代表标签值;
回归损失表达式如下:
Figure FDA0004103711860000065
B=(x0,y0,x1,y1)表示预测的边界框的左上角和右下角坐标,B*为真实值,B可以通过rx,y=[l,r,t,b]和位置(x,y)的计算来获得;
S606、根据训练中最小损失的模型权重,输出目标在当前帧的准确位置。
CN202310185680.8A 2023-03-01 2023-03-01 一种基于特征融合和通道注意力的目标跟踪方法 Pending CN116091979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310185680.8A CN116091979A (zh) 2023-03-01 2023-03-01 一种基于特征融合和通道注意力的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310185680.8A CN116091979A (zh) 2023-03-01 2023-03-01 一种基于特征融合和通道注意力的目标跟踪方法

Publications (1)

Publication Number Publication Date
CN116091979A true CN116091979A (zh) 2023-05-09

Family

ID=86188127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310185680.8A Pending CN116091979A (zh) 2023-03-01 2023-03-01 一种基于特征融合和通道注意力的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN116091979A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934796A (zh) * 2023-07-20 2023-10-24 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法
CN117197249A (zh) * 2023-11-08 2023-12-08 北京观微科技有限公司 目标位置确定方法、装置、电子设备及存储介质
CN117615255A (zh) * 2024-01-19 2024-02-27 深圳市浩瀚卓越科技有限公司 基于云台的拍摄追踪方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934796A (zh) * 2023-07-20 2023-10-24 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法
CN117197249A (zh) * 2023-11-08 2023-12-08 北京观微科技有限公司 目标位置确定方法、装置、电子设备及存储介质
CN117197249B (zh) * 2023-11-08 2024-01-30 北京观微科技有限公司 目标位置确定方法、装置、电子设备及存储介质
CN117615255A (zh) * 2024-01-19 2024-02-27 深圳市浩瀚卓越科技有限公司 基于云台的拍摄追踪方法、装置、设备及存储介质
CN117615255B (zh) * 2024-01-19 2024-04-19 深圳市浩瀚卓越科技有限公司 基于云台的拍摄追踪方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
WO2021249255A1 (zh) 一种基于RP-ResNet网络的抓取检测方法
CN116091979A (zh) 一种基于特征融合和通道注意力的目标跟踪方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113487629B (zh) 一种基于结构化场景和文本描述的图像属性编辑方法
CN112364931A (zh) 基于元特征和权重调整的少样本目标检测方法及网络模型
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN115731441A (zh) 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN113128564A (zh) 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN115240052A (zh) 一种目标检测模型的构建方法及装置
CN115222998A (zh) 一种图像分类方法
CN115439766A (zh) 一种基于改进yolov5的无人机目标检测方法
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
CN117409208B (zh) 一种实时服装图像语义分割方法及系统
CN114066844A (zh) 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN117636123A (zh) 一种基于半监督目标检测的实验仪器检测方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN117611963A (zh) 基于多尺度扩展残差网络的小目标检测方法及系统
CN117496138A (zh) 面向点云分割的伪实例对比学习实现方法、装置及介质
CN111898756A (zh) 一种多目标信息关联神经网络损失函数计算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination