CN114049381A - 一种融合多层语义信息的孪生交叉目标跟踪方法 - Google Patents

一种融合多层语义信息的孪生交叉目标跟踪方法 Download PDF

Info

Publication number
CN114049381A
CN114049381A CN202111573614.5A CN202111573614A CN114049381A CN 114049381 A CN114049381 A CN 114049381A CN 202111573614 A CN202111573614 A CN 202111573614A CN 114049381 A CN114049381 A CN 114049381A
Authority
CN
China
Prior art keywords
twin
regression
classification
tracking
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111573614.5A
Other languages
English (en)
Inventor
冯永
黄旺辉
程合晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202111573614.5A priority Critical patent/CN114049381A/zh
Publication of CN114049381A publication Critical patent/CN114049381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Abstract

本发明具体涉及一种融合多层语义信息的孪生交叉目标跟踪方法,包括:基于孪生神经网络构建孪生跟踪模型;获取跟踪目标的视频帧序列并输入经过训练的孪生跟踪模型中;首先通过孪生主干网络并行连接不同层次的语义信息;然后通过孪生区域推荐交互网络获取对应的分类图和回归图,并通过并行交叉注意机制融合不同分支间的互监督信息;最后通过自适应可形变卷积模块提供全局的目标描述辅助,并生成对应的分类得分图和回归得分图;基于跟踪目标的分类得分图定位中心位置,并根据回归得分图生成位置描述。本发明的孪生交叉目标跟踪方法能够充分探索分类特征和回归特征间的交互互补机制,充分挖掘孪生网络潜力并提升模型性能。

Description

一种融合多层语义信息的孪生交叉目标跟踪方法
技术领域
本发明涉及目标跟踪技术领域,具体涉及一种融合多层语义信息的孪生交叉目标跟踪方法。
背景技术
作为计算机视觉领域中的一个重要方向,目标跟踪一直以来都受到了高度的关注。在视频监控、增强现实和人机交互等领域中具有很广泛的应用。虽然,在最近的研究过程中跟踪算法的性能已经得到了提升,但是,由于光照变化、遮挡和相似干扰等复杂场景的存在,目标跟踪任务依旧充满了挑战。
随着深度卷积神经网络的引入,自适应提取的语义信息丰富的高维特征使目标跟踪算法获得了很大的提升。但是,由于深度神经网络结构的复杂性及卷积特征的高维性,使得跟踪算法的端到端训练和在线微调变得尤为复杂。同时,深度神经网络中计算量的大幅增加会导致跟踪速度的减慢,即使算法满足了精度的要求也无法达到实时性的要求。为了解决上述问题,基于孪生神经网络的目标跟踪算法获得了较快的进展。
其中,公开号为CN112446900A的中国专利就公开了《一种孪生神经网络目标跟踪方法及系统》,其包括:将模板分支图像与搜索区域分支图像输入到离线训练过的孪生神经网络中;利用孪生神经网络中的卷积层对上述输入的模板分支图像与搜索区域分支图像进行特征提取,得到三个卷积块的特征图;对特征提取得到的三个卷积块的特征图,采用多层信息融合得到响应图;在多层信息融合得到的响应图中寻找最大峰值,并映射到搜索区域分支图像中确定目标的精确位置。
上述现有的目标跟踪方法通过孪生神经网络提取语义信息更加丰富的深度特征,进而能够提高目标跟踪的精度。现有的目标跟踪方法一般直接对每个像素直接进行分类和回归,使得生成的分类特征集中于局部图像特征信息,对目标中心位置具有很强的鲁棒性,回归特征能够通过学习目标的空间位置全局信息来获得准确的状态估计。然而,现有方法没有充分探索分类特征和回归特征间的交互互补机制,进而难以充分挖掘孪生网络的潜力,限制了模型性能的提高,导致目标跟踪的准确性不够好。因此,如何设计一种能够充分挖掘孪生网络的潜力并提升模型性能的目标跟踪方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种融合多层语义信息的孪生交叉目标跟踪方法,以充分探索分类特征和回归特征间的交互互补机制,充分挖掘孪生网络潜力,提升模型性能,从而提升目标跟踪的准确性。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种融合多层语义信息的孪生交叉目标跟踪方法,包括以下步骤:
S1:基于孪生神经网络构建孪生跟踪模型,并对孪生跟踪模型进行训练;
S2:获取跟踪目标的视频帧序列,将视频帧序列的首帧作为模板帧,后续帧作为搜索帧;
S3:将跟踪目标的模板帧和搜索帧输入经过训练的孪生跟踪模型中;
所述孪生跟踪模型通过孪生主干网络并行连接不同层次的语义信息;然后通过孪生区域推荐交互网络获取对应的分类图和回归图,并通过并行交叉注意机制融合不同分支间的互监督信息;最后通过自适应可形变卷积模块提供全局的目标描述辅助,并生成对应的分类得分图和回归得分图;
S4:基于跟踪目标的分类得分图定位中心位置,并根据回归得分图生成位置描述。
优选的,步骤S3中,孪生主干网络从模板帧和搜索帧中提取对应的模板帧特征和搜索帧特征;然后对模板帧特征和搜索帧特征进行互相关操作计算,生成对应的分类特征图和回归特征图。
优选的,步骤S3中,通过如下步骤生成分类得分图和回归得分图:
S301:通过通道注意力模块强化分类特征图的语义通道信息,生成分类注意力特征图;
S302:通过空间注意力模块强化回归特征图的空间维度信息,生成回归注意力特征图;
S303:将分类注意力特征图和回归注意力特征图进行交互融合,生成更鲁棒的回归特征;然后将更鲁棒的回归特征输入自适应可形变卷积模块中降低背景语义信息,生成对应的自适应回归特征;
S304:将更鲁棒的回归特征经过回归头,生成对应的回归得分图;
S305:将分类注意力特征图经过分类头,并与自适应回归特征融合,生成对应的分类得分图。
优选的,通道注意力模块包括并行的平均池化层和最大池化层,具有隐藏层的共享多层感知器,以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。
优选的,空间注意力模块包括并行的平均池化层和最大池化层,用于学习不同维度空间信息的并行的四个单层感知器,以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。
优选的,自适应可形变卷积模块包括可形变卷积层和1×1卷积层。
优选的,步骤S1中,通过如下步骤训练孪生跟踪模型:
S101:将训练数据视频集分为训练模板帧和训练搜索帧;
S102:将训练模板帧和训练搜索帧输入孪生跟踪模型中;然后使用随机梯度下降法迭代优化孪生跟踪模型,并通过三元损失将孪生跟踪模型的参数进行梯度反方向更新;
S103:根据指定的训练帧对数和迭代次数,重复步骤S101至S103,直至训练完成。
优选的,三元损失的计算公式如下:
Figure BDA0003424584680000031
式中:Lcls和Lreg表示孪生跟踪模型的分类损失函数,分别代表基于常规规则区域特征和可形变卷积特征的二值交叉嫡损失;pi,j和qi,j分别表示位置(i,j)对应于常规规则区域特征和可形变卷积特征的分类得分值;
Figure BDA0003424584680000032
Figure BDA0003424584680000033
分别表示pi,j和qi,j对应的真值标签;Lreg表示边界框的IoU损失;ti,j表示孪生跟踪模型预测的回归距离向量;λ1=λ2=λ3=1。
优选的,训练孪生跟踪模型时,单独训练自适应可形变卷积模块。
优选的,构建孪生跟踪模型时,首先搭建Pytorch深度学习开源框架,然后在Pytorch深度学习开源框架上部署孪生跟踪模型。
本发明的孪生交叉目标跟踪方法与现有技术相比,具有如下有益效果:
本发明通过孪生区域推荐交互网络获取分类图和回归图,并通过并行交叉注意机制融合不同分支间的互监督信息,通过自适应可形变卷积模块提供全局的目标描述辅助,使得能够充分探索分类特征和回归特征间的交互互补机制,充分挖掘孪生架构网络的潜力,提升孪生跟踪模型的性能及复杂场景下的鲁棒,从而能够提升目标跟踪的准确性。同时,本发明通过孪生主干网络并行连接不同层次的语义信息,能够提取语义信息更加丰富的深度特征,从而能够提高目标跟踪的精度。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为孪生交叉目标跟踪方法的逻辑框图;
图2为孪生跟踪模型的网络结构图;
图3为HRNet的网络结构图;
图4为通道注意力模块和空间注意力模块组成的并行交叉注意力模块。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种融合多层语义信息的孪生交叉目标跟踪方法。
如图1所示,融合多层语义信息的孪生交叉目标跟踪方法,包括以下步骤:
S1:基于孪生神经网络构建孪生跟踪模型,并对孪生跟踪模型进行训练;
S2:获取视频帧序列S={S0,S1,...,SN},并将视频帧序列的首帧(第一帧)作为模板帧z,后续帧(第一帧之后的其他帧)作为搜索帧xi。将模板帧z裁剪的大小为127x127,搜索帧xi裁剪的大小为255x255,模板帧状态为B0,初始化目标状态B=B0,i=1。
S3:将跟踪目标的模板帧和搜索帧输入经过训练的孪生跟踪模型中;
所述孪生跟踪模型通过孪生主干网络并行连接不同层次的语义信息;然后通过孪生区域推荐交互网络获取对应的分类图和回归图,并通过并行交叉注意机制融合不同分支间的互监督信息;最后通过自适应可形变卷积模块提供全局的目标描述辅助,并生成对应的分类得分图和回归得分图;
S4:基于跟踪目标的分类得分图定位中心位置,并根据回归得分图生成位置描述。重复以上步骤直至所有视频帧序列的搜索帧被跟踪完成。
本发明通过孪生区域推荐交互网络获取分类图和回归图,并通过并行交叉注意机制融合不同分支间的互监督信息,通过自适应可形变卷积模块提供全局的目标描述辅助,使得能够充分探索分类特征和回归特征间的交互互补机制,充分挖掘孪生架构网络的潜力,提升孪生跟踪模型的性能及复杂场景下的鲁棒,从而能够提升目标跟踪的准确性。同时,本发明通过孪生主干网络并行连接不同层次的语义信息,能够提取语义信息更加丰富的深度特征,从而能够提高目标跟踪的精度。此外,本发明基于跟踪目标的分类得分图定位中心位置,并根据回归得分图生成位置描述的方式,能够准确的定位跟踪目标的位置。
具体实施过程中,构建孪生跟踪模型时,首先搭建Pytorch深度学习开源框架,然后在Pytorch深度学习开源框架上部署孪生跟踪模型。
PyTorch是一个清晰而高效的开源机器学习库,用于自然语言处理、计算机视觉等应用程序。PyTorch的优势有:1)简洁优雅:PyTorch的设计追求最少的封装,尽量避免重复造轮子;2)速度快:PyTorch的灵活性不以速度为代价,在众多评测中,PyTorch的速度表现胜过TensorFlow和Keras等框架;3)易用上手快:PyTorch的设计最符合人们的思维,它让用户尽可能地专注于实现自己的想法,即所思即所得,不需要考虑太多关于框架本身的束缚;4)动态计算图:Pytorch提供了出色的计算平台,可提供动态计算图,用户可在运行时进行更改;5)高度可扩展:Pytorch与C++代码深度集成,它与深度学习框架Torch共享一些C++后端。因此,允许用户使用基于cFFI for Python的扩展API在C/C++中编程,并为CPU操作编译CPU。
结合图2所示,孪生主干网络从模板帧和搜索帧中提取对应的模板帧特征f(z)和搜索帧特征f(xi);然后对模板帧特征f(z)和搜索帧特征f(xi)进行互相关操作计算,得到对应的分类特征图Fcls和回归特征图Freg
孪生主干网络选用结合图3所示的HRNet(全称Deep High-ResolutionRepresentation Learning for Human Pose Estimation)。HRNet是最近提出的新型高分辨率网络,在整个网络处理过程中,能够保持高分辨率表示。
HRNet的特点有:1)HRNet并行连接高分辨率与低分辨率网络。因此,网络能够在加深的同时依旧保持高分辨率,而不需要通过一个低到高的过程恢复分辨率,因此预测的结果在空间上会更精确。2)HRNet重复地进行多尺度融合,利用相同深度、相似水平的低分辨率表示,来提高高分辨率表示,这使得高分辨率的表示对于姿态估计也很丰富,目标的几何和语义信息相对也会更加丰富。
具体的,通过如下步骤生成回归得分图和分类得分图:
S301:通过通道注意力模块强化分类特征图Fcls的语义通道信息,生成分类注意力特征图;
S302:通过空间注意力模块强化回归特征图Freg的空间维度信息,生成回归注意力特征图;
S303:将分类注意力特征图和回归注意力特征图进行交互融合,生成更鲁棒的回归特征;然后将更鲁棒的回归特征输入自适应可形变卷积模块中降低背景语义信息,生成对应的自适应回归特征
Figure BDA0003424584680000051
S304:将更鲁棒的回归特征经过回归头,生成对应的回归得分图
Figure BDA0003424584680000052
S305:将分类注意力特征图经过分类头,并与自适应回归特征
Figure BDA0003424584680000053
融合,生成对应的分类得分图
Figure BDA0003424584680000054
分类头和回归头都是一个1×1卷积。
其中,
Figure BDA0003424584680000055
Figure BDA0003424584680000056
式中:f(:)表示孪生主干网络(HRNet);*表示深度互相关操作;φcls和φreg分别表示并行交叉注意力子模块的通道注意力模块和空间注意力模块;
Figure BDA0003424584680000057
表示分类得分图,
Figure BDA0003424584680000058
表示回归得分图。
具体实施过程中,结合图4所示,通道注意力模块包括并行的平均池化层(AvgPool)和最大池化层(MaxPool),具有隐藏层的共享多层感知器(MLP),以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。空间注意力模块包括并行的平均池化层(AvgPool)和最大池化层(MaxPool),用于学习不同维度空间信息的并行的四个单层感知器(SLP),以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。
自适应可形变卷积模块包括可形变卷积层和1×1卷积层。
其中,可形变卷积相对于在n×n固定网格区域的常规卷积而言,卷积的位置是可形变的。其目的是为了更好地提取到我们感兴趣的区域特征。具体实现,可形变卷积会在固定规则区域每一个采样点加上偏移量Δpn
Figure BDA0003424584680000061
其中,po表示中心采样点;pn表示固定网格区域
Figure BDA0003424584680000062
的采样点位置;Δpn表示偏移向量;w(·)表示固定采样点的位置权重;x(·)表示采样点位置的取值;y(·)表示最终输出值;
Figure BDA0003424584680000063
可以表示为:
Figure BDA0003424584680000064
对于卷积核大小为k可形变卷积,采样时便是从
Figure BDA0003424584680000065
上k×k个采样位置加上偏移量Δpn,向外扩散进行采样。
本发明通过上述步骤,能够实现通过孪生区域推荐交互网络获取分类图和回归图,并通过并行交叉注意机制融合不同分支间的互监督信息,通过自适应可形变卷积模块提供全局的目标描述辅助,使得能够充分探索分类特征和回归特征间的交互互补机制,充分挖掘孪生架构网络的潜力,提升孪生跟踪模型的性能及在复杂场景的鲁棒,从而能够提升目标跟踪的准确性。
具体实施过程中,通过如下步骤训练孪生跟踪模型:
S101:将训练数据视频集分为训练模板帧和训练搜索帧;采用COCO、GOT10k和LaSOT等大型数据集来进行训练。
其中,COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。数据集包括91类目标,328,000影像和2,500,000个label。COCO数据集专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计。
GOT10k是一个包含10,000个训练子集和180个测试子集的大型多类别跟踪基准。GOT10k以WordNet英文词汇数据库作为骨架搭建,分成5个大类:动物(Animal)、人造物体(Artifact)、人物(Person)、自然物体(NaturalObject),以及Part。
LaSOT针对当前数据集规模小、缺少高质量标注、多为短视频、类别少等问题,是迄今为止被提出最大的具有高质量手动密集注释的对象跟踪数据集。LaSOT包含1400个视频,每个序列平均2512帧,此外LaSOT包含70个类别,每个类别包含20个序列。
S102:将训练模板帧和训练搜索帧输入孪生跟踪模型中;然后使用随机梯度下降法迭代优化孪生跟踪模型,并通过三元损失将孪生跟踪模型的参数进行梯度反方向更新;
其中,采用随机梯度下降法对网络进行优化目标求解,即对损失函数L求其关于参数θ的梯度,再将参数向梯度的反方向更新,计算公式如下:
Figure BDA0003424584680000071
式中:θ表示深度哈希编码网络中的任意一个参数;θ′表示更新后的参数;λ表示θ的更新幅度,称为学习率,设置为0.0001;L表示损失函数;
Figure BDA0003424584680000072
表示L关于θ的梯度。
三元损失的计算公式如下:
Figure BDA0003424584680000073
式中:Lcls和Lreg表示孪生跟踪模型的分类损失函数,分别代表基于常规规则区域特征和可形变卷积特征的二值交叉嫡损失;pi,j和qi,j分别表示位置(i,j)对应于常规规则区域特征和可形变卷积特征的分类得分值;
Figure BDA0003424584680000074
Figure BDA0003424584680000075
分别表示pi,j和qi,j对应的真值标签;Lreg表示边界框的IoU损失;ti,j表示孪生跟踪模型预测的回归距离向量;λ1=λ2=λ3=1。
S103:根据指定的训练帧对数和迭代次数,重复步骤S101至S103,直至训练完成。
使用训练数据视频集对孪生跟踪模型进行预训练,具体训练过程包括:
1、HRNet作为孪生网络骨干,并使用的预训练参数来初始化模型参数。
2、模板帧的输入分辨率为127×127像素,搜索帧的输入分别率为255×255像素。
3、mini-batch训练,batch ize是128,epoch是30。
4、训练时,前5个回合进行预热,学习率固定为0.001;在剩下的回合中,学习率指数从0.005逐渐下降到0.00001以避免过拟合。
5、权重衰减系数和动量参数则分别设置为0.001和0.9,来防止震荡和不稳定。
本发明通过上述训练方式,能够有效的训练孪生跟踪模型,从而能够保证孪生跟踪模型的性能和精度。
具体实施过程中,训练孪生跟踪模型时,单独训练自适应可形变卷积模块。
本发明单独训练自适应可形变卷积模块,能够减少训练难度,提高孪生跟踪模型的训练效果。
需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。同时,实施例中公知的具体结构及特性等常识在此未作过多描述。最后,本发明要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (10)

1.一种融合多层语义信息的孪生交叉目标跟踪方法,其特征在于,包括以下步骤:
S1:基于孪生神经网络构建孪生跟踪模型,并对孪生跟踪模型进行训练;
S2:获取跟踪目标的视频帧序列,将视频帧序列的首帧作为模板帧,后续帧作为搜索帧;
S3:将跟踪目标的模板帧和搜索帧输入经过训练的孪生跟踪模型中;
所述孪生跟踪模型通过孪生主干网络并行连接不同层次的语义信息;然后通过孪生区域推荐交互网络获取对应的分类图和回归图,并通过并行交叉注意机制融合不同分支间的互监督信息;最后通过自适应可形变卷积模块提供全局的目标描述辅助,并生成对应的分类得分图和回归得分图;
S4:基于跟踪目标的分类得分图定位中心位置,并根据回归得分图生成位置描述。
2.如权利要求1所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于:步骤S3中,孪生主干网络从模板帧和搜索帧中提取对应的模板帧特征和搜索帧特征;然后对模板帧特征和搜索帧特征进行互相关操作计算,生成对应的分类特征图和回归特征图。
3.如权利要求2所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于,步骤S3中,通过如下步骤生成分类得分图和回归得分图:
S301:通过通道注意力模块强化分类特征图的语义通道信息,生成分类注意力特征图;
S302:通过空间注意力模块强化回归特征图的空间维度信息,生成回归注意力特征图;
S303:将分类注意力特征图和回归注意力特征图进行交互融合,生成更鲁棒的回归特征;然后将更鲁棒的回归特征输入自适应可形变卷积模块中降低背景语义信息,生成对应的自适应回归特征;
S304:将更鲁棒的回归特征经过回归头,生成对应的回归得分图;
S305:将分类注意力特征图经过分类头,并与自适应回归特征融合,生成对应的分类得分图。
4.如权利要求3所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于:通道注意力模块包括并行的平均池化层和最大池化层,具有隐藏层的共享多层感知器,以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。
5.如权利要求3所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于:空间注意力模块包括并行的平均池化层和最大池化层,用于学习不同维度空间信息的并行的四个单层感知器,以及用于将输出的特征值映射到区间(0,1)中的Sigmoid函数。
6.如权利要求1所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于:自适应可形变卷积模块包括可形变卷积层和1×1卷积层。
7.如权利要求1所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于:步骤S1中,通过如下步骤训练孪生跟踪模型:
S101:将训练数据视频集分为训练模板帧和训练搜索帧;
S102:将训练模板帧和训练搜索帧输入孪生跟踪模型中;然后使用随机梯度下降法迭代优化孪生跟踪模型,并通过三元损失将孪生跟踪模型的参数进行梯度反方向更新;
S103:根据指定的训练帧对数和迭代次数重复步骤S101至S103,直至训练完成。
8.如权利要求7所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于,三元损失的计算公式如下:
Figure FDA0003424584670000021
式中:Lcls和Lreg表示孪生跟踪模型的分类损失函数,分别代表基于常规规则区域特征和可形变卷积特征的二值交叉嫡损失;pi,j和qi,j分别表示位置(i,j)对应于常规规则区域特征和可形变卷积特征的分类得分值;
Figure FDA0003424584670000022
Figure FDA0003424584670000023
分别表示pi,j和qi,j对应的真值标签;Lreg表示边界框的IoU损失;ti,j表示孪生跟踪模型预测的回归距离向量;λ1=λ2=λ3=1。
9.如权利要求7所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于:训练孪生跟踪模型时,单独训练自适应可形变卷积模块。
10.如权利要求1所述的融合多层语义信息的孪生交叉目标跟踪方法,其特征在于:构建孪生跟踪模型时,首先搭建Pytorch深度学习开源框架,然后在Pytorch深度学习开源框架上部署孪生跟踪模型。
CN202111573614.5A 2021-12-21 2021-12-21 一种融合多层语义信息的孪生交叉目标跟踪方法 Pending CN114049381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111573614.5A CN114049381A (zh) 2021-12-21 2021-12-21 一种融合多层语义信息的孪生交叉目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111573614.5A CN114049381A (zh) 2021-12-21 2021-12-21 一种融合多层语义信息的孪生交叉目标跟踪方法

Publications (1)

Publication Number Publication Date
CN114049381A true CN114049381A (zh) 2022-02-15

Family

ID=80213202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111573614.5A Pending CN114049381A (zh) 2021-12-21 2021-12-21 一种融合多层语义信息的孪生交叉目标跟踪方法

Country Status (1)

Country Link
CN (1) CN114049381A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821390A (zh) * 2022-03-17 2022-07-29 齐鲁工业大学 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN115063445A (zh) * 2022-08-18 2022-09-16 南昌工程学院 基于多尺度层次化特征表示的目标跟踪方法与系统
CN115359103A (zh) * 2022-08-24 2022-11-18 北京医智影科技有限公司 图像配准网络模型及其建立方法、设备及介质
CN115661929A (zh) * 2022-10-28 2023-01-31 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质
CN116030095A (zh) * 2023-02-01 2023-04-28 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116664624A (zh) * 2023-06-01 2023-08-29 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及跟踪器
CN116934796A (zh) * 2023-07-20 2023-10-24 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821390B (zh) * 2022-03-17 2024-02-23 齐鲁工业大学 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN114821390A (zh) * 2022-03-17 2022-07-29 齐鲁工业大学 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN115063445A (zh) * 2022-08-18 2022-09-16 南昌工程学院 基于多尺度层次化特征表示的目标跟踪方法与系统
CN115063445B (zh) * 2022-08-18 2022-11-08 南昌工程学院 基于多尺度层次化特征表示的目标跟踪方法与系统
CN115359103A (zh) * 2022-08-24 2022-11-18 北京医智影科技有限公司 图像配准网络模型及其建立方法、设备及介质
CN115661929B (zh) * 2022-10-28 2023-11-17 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质
CN115661929A (zh) * 2022-10-28 2023-01-31 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质
CN116168322A (zh) * 2023-01-10 2023-05-26 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116168322B (zh) * 2023-01-10 2024-02-23 中国人民解放军军事科学院国防科技创新研究院 一种基于多模态融合的无人机长时跟踪方法及系统
CN116030095B (zh) * 2023-02-01 2023-06-20 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN116030095A (zh) * 2023-02-01 2023-04-28 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN116664624A (zh) * 2023-06-01 2023-08-29 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及跟踪器
CN116664624B (zh) * 2023-06-01 2023-10-27 中国石油大学(华东) 基于解耦分类与回归特征的目标跟踪方法及跟踪器
CN116934796A (zh) * 2023-07-20 2023-10-24 河南大学 基于孪生残差注意力聚合网络的视觉目标跟踪方法

Similar Documents

Publication Publication Date Title
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
Ji et al. Salient object detection via multi-scale attention CNN
US20200311871A1 (en) Image reconstruction method and device
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN111507378A (zh) 训练图像处理模型的方法和装置
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
Chen et al. RSPrompter: Learning to prompt for remote sensing instance segmentation based on visual foundation model
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN115222998B (zh) 一种图像分类方法
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN116310318A (zh) 交互式的图像分割方法、装置、计算机设备和存储介质
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Kavitha et al. Convolutional Neural Networks Based Video Reconstruction and Computation in Digital Twins.
Lv et al. Memory‐augmented neural networks based dynamic complex image segmentation in digital twins for self‐driving vehicle
Chacon-Murguia et al. Moving object detection in video sequences based on a two-frame temporal information CNN
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
Zhou et al. Motion balance ability detection based on video analysis in virtual reality environment
Sun et al. A Metaverse text recognition model based on character-level contrastive learning
Zhang et al. Expression recognition algorithm based on CM-PFLD key point detection
Gao Basketball posture recognition based on HOG feature extraction and convolutional neural network
Piramanayagam et al. Gradient-driven unsupervised video segmentation using deep learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination