CN115205336A - 一种基于多层感知机的特征融合目标感知跟踪方法 - Google Patents

一种基于多层感知机的特征融合目标感知跟踪方法 Download PDF

Info

Publication number
CN115205336A
CN115205336A CN202210877419.XA CN202210877419A CN115205336A CN 115205336 A CN115205336 A CN 115205336A CN 202210877419 A CN202210877419 A CN 202210877419A CN 115205336 A CN115205336 A CN 115205336A
Authority
CN
China
Prior art keywords
tracking
features
template
target
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210877419.XA
Other languages
English (en)
Inventor
产思贤
王煜
陶键
白琮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210877419.XA priority Critical patent/CN115205336A/zh
Publication of CN115205336A publication Critical patent/CN115205336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层感知机的特征融合目标感知跟踪方法,在图片中裁出一块区域作为模版图片,并且输入ResNet网络提取其特征,在后续的跟踪过程中,首先会根据上一帧的目标位置信息在当前帧裁出模版图片多倍的搜索区域图片,输入相同的ResNet网络提取其特征,并与模版特征做像素级相关计算,获得具有两者的相似性信息的相关特征;然后将相关特征依次通过非局部注意力模块、全局信息编码模块和角点预测模块,获得精准的边界框回归结果。

Description

一种基于多层感知机的特征融合目标感知跟踪方法
技术领域
本申请属于图像处理技术领域,尤其涉及一种基于多层感知机的特征融合目标感知跟踪方法。
背景技术
目标跟踪是计算机视觉领域的重要研究方向之一,在机器人、人机交互、军事侦查、智能交通、虚拟现实等军事、民用领域都有广泛的应用。近年来,许多学者在目标跟踪方面开展了大量工作,并取得了一定的进展。但是,在复杂环境中仍存在目标外观变形(目标纹理、形状、姿态变化等)、光照变化、快速运动和运动模糊、背景相似干扰、平面内外旋转、尺度变化、遮挡和出视野等难题,使得复杂环境下稳定实时的目标跟踪仍然是一个具有挑战性的问题。
基于孪生网络的跟踪器通过学习模板特征和搜索特征生成的相似性相关特征来预测目标在当前帧的位置信息,成功的将目标跟踪问题转换为相似性度量问题。SiamFC通过学习从基础相关(
Figure BDA0003763057370000011
-correlation)获得的单通道相似响应图来预测目标的边界框,从而取得了开创性的工作。然而,单通道响应图难以包含多尺度空间信息,对精确跟踪具有一定的局限性。为了克服跟踪过程中由于物体或相机运动引起的尺度变化,SiamRPN采用更好的相关方法获取更多的空间信息,并引入区域建议网络(RPN),利用精心设计的锚盒(anchor)对不同尺度的目标进行预测。SiamRPN++通过使用深度相关方法将相关特征的通道数增加到了256,同时使用了不同深度的ResNet的特征进行目标跟踪,极大的提升了跟踪精度。近年来,学者们发现基于孪生网路的跟踪器中的相关运算本身是局部线性匹配过程,容易丢失语义信息,并且陷入局部最优。因此,设计了更健壮、更准确的编码器-解码器结构的跟踪器,提出一个全新的特征融合模块。然而,尽管编码器-解码器结构可以来解决跟踪过程中语义信息丢失的挑战,但其需要大量数据集训练,并且难以拟合。
发明内容
本申请的目的是提供一种基于多层感知机的特征融合目标感知跟踪方法,在现有技术方案中引入多层感知机进行全局感受野编码,以克服上述背景技术中所提出的技术问题。
为了实现上述目的,本申请技术方案如下:
一种基于多层感知机的特征融合目标感知跟踪方法,通过构建的深度学习模型进行目标跟踪,所述深度学习模型包括特征提取模块、特征相关模块、非局部注意力模块、全局信息编码器和角点预测模块,所述基于多层感知机的特征融合目标感知跟踪方法,包括:
获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征;
从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征;
将模板特征和搜索特征输入特征相关模块,计算模板特征每个子核与搜索特征的相关性,得到相关特征图;
将相关图输入到非局部注意力模块,得到相关注意力图;
将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,所述全局信息编码器包括允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器,每个编码器由两层全连接层和一个激活函数GELU构成;
将全局信息编码特征输入角点预测模块,获得跟踪目标的包围框信息。
进一步的,所述获取待跟踪视频序列的跟踪模板,包括:
将人为标注的跟踪目标包围框信息放大预设第一倍数,从待根据视频序列第一帧图片中裁剪出跟踪模板。
进一步的,所述从待跟踪视频序列中获取当前搜索图片,包括:
将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
进一步的,所述计算模板特征每个子核与搜索特征的相关性,得到相关特征图,包括:
将模板特征
Figure BDA0003763057370000031
分解成h×w个子核
Figure BDA0003763057370000032
计算每个子核与搜索特征
Figure BDA0003763057370000033
的基础相关,从而得到相关特征图
Figure BDA0003763057370000034
进一步的,所述将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,包括:
将相关注意力图
Figure BDA0003763057370000035
矩阵变形成
Figure BDA0003763057370000036
输入到全局信息编码器;
采用如下公式表示全局信息编码器的操作:
R1=RGT+W2σ(W1LN(RGT))
RT=R1 T+W4σ(W3LN(R1 T))
其中,RT表示全局编码器输出的全局信息编码特征,LN表示归一化,W1-W4表示全连接层操作,σ表示激活函数GELU,T表示转置。
进一步的,所述深度学习模型的联合损失函数表示为:
Figure BDA0003763057370000037
其中,Liou表示交并比损失,L1表示平均绝对误差损失,λiou
Figure BDA0003763057370000039
表示对应损失函数的权重,bi
Figure BDA0003763057370000038
表示真值和预测的包围框。
本申请提出了一种基于多层感知机的特征融合目标感知跟踪方法,引入多层感知机进行全局感受野编码,使得跟踪器具有全局信息的搜索感知能力,使用Resnet-50进行特征提取以及像素级的特征相关模块,从而获得更精细的特征表达,再通过本文提出的全局信息编码器模块增大模型的感受野,克服了跟踪过程中感受野小引发的遮挡、超出视野等跟踪问题。
附图说明
图1为本申请基于多层感知机的特征融合目标感知跟踪方法流程图;
图2为本申请深度学习模型网络示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提出了一种基于多层感知机的特征融合目标感知跟踪方法,包括:
步骤S1、获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征。
对于需要进行目标跟踪的视频序列,本实施例首先获取其跟踪模板Z1。具体的,将人为标注的跟踪目标包围框信息B1放大预设第一倍数,从待根据视频序列第一帧图片I1中裁剪出跟踪模板Z1
例如将包围框信息B1放大2倍,然后第一帧图片I1中裁剪出跟踪模版Z1,包围框信息B1包括跟踪目标包围框的左上角坐标和右下角坐标。
本实施例特征提取模块,采用预训练好的深度残差网络ResNet-50(图2中用CNN表示),在输入跟踪模板后,提取得到模板特征
Figure BDA0003763057370000041
Figure BDA0003763057370000042
步骤S2、从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征。
本实例将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
例如,根据上一帧的跟踪结果Bi-1,对输入的图片Ii,i∈[2,n],根据上一帧的跟踪结果的包围框信息,放大5倍然后裁剪出搜索图片。同理上一帧的跟踪结果Bi-1,包括跟踪目标包围框的左上角坐标和右下角坐标。
本实施例特征提取模块,在输入搜索图片后,提取得到搜索特征
Figure BDA0003763057370000043
步骤S3、将模板特征和搜索特征输入特征相关模块,计算模板特征每个子核与搜索特征的相关性,得到相关特征图。
本步骤将模板特征
Figure BDA0003763057370000044
和搜索特征
Figure BDA0003763057370000045
输入到特征相关模块中,具体操作如下:首先,将模板特征
Figure BDA0003763057370000046
分解成h×w个子核
Figure BDA0003763057370000047
计算每个子核与搜索特征
Figure BDA0003763057370000048
的基础相关,从而得到相关特征图
Figure BDA0003763057370000049
数学表达式如下:
Figure BDA00037630573700000410
其中,*表示基础相关计算,基础相关计算指的是
Figure BDA00037630573700000411
和子核ki的矩阵乘法,最后将获得的ri按通道连结得到
Figure BDA0003763057370000051
需要说明的是,
Figure BDA0003763057370000052
通常用来表示特征的尺寸,c表示通道数,h表示高度,w表示宽度。本申请用小写的h和w表示模板特征的高度和宽度,用大写的H和W表示搜索特征的高度和宽度。
步骤S4、将相关图输入到非局部注意力模块,得到相关注意力图。
然后,利用非局部注意力(Non-Local attention)来聚合全局上下文信息,首先将特征
Figure BDA0003763057370000053
输入三个并行1*1卷积层(θ,φ,g)降低特征通道数,获得三个特征
Figure BDA0003763057370000054
后将三个特征
Figure BDA0003763057370000055
的后两维向量在同一个向量空间聚合获得三个新的特征向量
Figure BDA0003763057370000056
Figure BDA0003763057370000057
然后,通过矩阵乘法和softmax函数,将
Figure BDA0003763057370000058
Figure BDA0003763057370000059
计算这两个特征在不同位置之间的响应值得到ANL,其数学表达式如下:
Figure BDA00037630573700000510
其中,
Figure BDA00037630573700000511
表示矩阵乘法。
然后再将ANL
Figure BDA00037630573700000512
进行矩阵乘法操作,即与Xg再次计算特征不同位置之间的响应值。之后通过一个1*1层卷积层Conv恢复通道数,最后与原始特征
Figure BDA00037630573700000513
相加完成非局部注意力的优化过程:
Figure BDA00037630573700000514
其中,
Figure BDA00037630573700000515
表示元素间的求和,
Figure BDA00037630573700000516
Figure BDA00037630573700000517
的尺寸一致。非局部注意力机制是本领域比较成熟的技术,这里不再赘述。
步骤S5、将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征。
本步骤将相关注意力图
Figure BDA00037630573700000518
矩阵变形成
Figure BDA00037630573700000519
送入全局信息编码器进行特征增强。该编码器由两类编码器交替组成,分别是允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器,每个编码器由两层全连接层和一个激活函数GELU构成。
具体来说,经过矩阵变形的RG,先将特征转置后,进入空间编码器聚合空间信息,空间编码器作用在特征的列上并且共享所有的列参数,得到的输出再重新转置一下,然后和原始特征RG相加,得到特征R1;其次,经过矩阵变形的R1,先将特征转置后,进入通道编码器聚合空间信息,通道编码器作用在特征的行上并且共享所有的行参数,得到的输出再重新转置一下,然后和经过空间编码器的特征R1相加,得到全局信息编码特征RT
采用公式表示如下:
R1=RGT+W2σ(W1LN(RGT))
RT=R1 T+W4σ(W3LN(R1 T))
其中,RG是输入到全局信息编码器的特征,RGT是转置后的特征,LN表示归一化,计算RGT特征的通道中所有参数的均值和方差,使其分布在(0,1)之间。W1-W4表示全连接层操作,包含可学习的权重系数,根据每次重复的计算拟合出一个合适的权重使跟踪器更加鲁棒,σ表示激活函数GELU,R1表示经过通道编码器的特征,输入空间编码器,R1 T表示转置后的进入空间编码器的特征,RT表示全局编码器的输出,T表示转置。
步骤S6、将全局信息编码特征输入角点预测模块,获得跟踪目标的包围框信息。
本步骤将全局信息编码特征RT变形为一个新的特征图
Figure BDA0003763057370000061
输入角点预测模块,角点预测模块包括3层全连接层(FCN),并且通过soft-argmax归一化,RT通过三层全连接层得到预测结果的左上角和右下角的概率分布Ptl(x,y)和Pbr(x,y),然后分别经过soft-argmax函数,得到包围框的左上角和右下角的坐标
Figure BDA0003763057370000062
Figure BDA0003763057370000063
Figure BDA0003763057370000064
其中,
Figure BDA0003763057370000065
表示:预测包围框的左上角坐标;
Figure BDA0003763057370000066
表示:预测包围框的左上角坐标;Ptl(x,y)表示:预测包围框左上角坐标的概率分布;Pbr(x,y)表示:预测包围框右下角坐标的概率分布。
根据概率分布的期望值得到预测结果左上角和右下角的坐标,然后获得包围框结果,最终获得跟踪结果。
对于如图2所示的整个深度学习模型,需要进行训练后才能够进行实际的应用,训练过程如下:
对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照裁切模板图片和搜索图片到128×128和320×320尺寸;
将预处理后的训练数据集输入到深度学习模型,进行训练,训练中计算联合损失,进行反向传播,更新模型参数,完成训练。
联合损失采用如下公式表示:
Figure BDA0003763057370000071
其中,Liou表示交并比损失,用来衡量真值与预测值的距离,L1表示平均绝对误差损失,λiоu
Figure BDA0003763057370000072
表示对应损失函数的权重,例如分别是5和2,bi
Figure BDA0003763057370000073
表示真值和预测的包围框。
训练过程中,批处理大小为256,学习率从0.0001下降到0.00001,使用AdamW算法迭代训练10次并保存每次迭代结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率的十分之一开始训练。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于多层感知机的特征融合目标感知跟踪方法,通过构建的深度学习模型进行目标跟踪,其特征在于,所述深度学习模型包括特征提取模块、特征相关模块、非局部注意力模块、全局信息编码器和角点预测模块,所述基于多层感知机的特征融合目标感知跟踪方法,包括:
获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征;
从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征;
将模板特征和搜索特征输入特征相关模块,计算模板特征每个子核与搜索特征的相关性,得到相关特征图;
将相关图输入到非局部注意力模块,得到相关注意力图;
将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,所述全局信息编码器包括允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器,每个编码器由两层全连接层和一个激活函数GELU构成;
将全局信息编码特征输入角点预测模块,获得跟踪目标的包围框信息。
2.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述获取待跟踪视频序列的跟踪模板,包括:
将人为标注的跟踪目标包围框信息放大预设第一倍数,从待根据视频序列第一帧图片中裁剪出跟踪模板。
3.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述从待跟踪视频序列中获取当前搜索图片,包括:
将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
4.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述计算模板特征每个子核与搜索特征的相关性,得到相关特征图,包括:
将模板特征
Figure FDA0003763057360000021
分解成h×w个子核
Figure FDA0003763057360000022
计算每个子核与搜索特征
Figure FDA0003763057360000023
的基础相关,从而得到相关特征图
Figure FDA0003763057360000024
5.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,包括:
将相关注意力图
Figure FDA0003763057360000025
矩阵变形成
Figure FDA0003763057360000026
输入到全局信息编码器;
采用如下公式表示全局信息编码器的操作:
R1=RGT+W2σ(W1LN(RGT))
RT=R1 T+W4σ(W3LN(R1 T))
其中,RT表示全局编码器输出的全局信息编码特征,LN表示归一化,W1-W4表示全连接层操作,σ表示激活函数GELU,T表示转置。
6.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述深度学习模型的联合损失函数表示为:
Figure FDA0003763057360000027
其中,Liоu表示交并比损失,L1表示平均绝对误差损失,λiоu
Figure FDA0003763057360000028
表示对应损失函数的权重,bi
Figure FDA0003763057360000029
表示真值和预测的包围框。
CN202210877419.XA 2022-07-25 2022-07-25 一种基于多层感知机的特征融合目标感知跟踪方法 Pending CN115205336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210877419.XA CN115205336A (zh) 2022-07-25 2022-07-25 一种基于多层感知机的特征融合目标感知跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210877419.XA CN115205336A (zh) 2022-07-25 2022-07-25 一种基于多层感知机的特征融合目标感知跟踪方法

Publications (1)

Publication Number Publication Date
CN115205336A true CN115205336A (zh) 2022-10-18

Family

ID=83583642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210877419.XA Pending CN115205336A (zh) 2022-07-25 2022-07-25 一种基于多层感知机的特征融合目标感知跟踪方法

Country Status (1)

Country Link
CN (1) CN115205336A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116740795A (zh) * 2023-08-16 2023-09-12 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116740795A (zh) * 2023-08-16 2023-09-12 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法
CN116740795B (zh) * 2023-08-16 2023-11-24 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法

Similar Documents

Publication Publication Date Title
CN110335337B (zh) 一种基于端到端半监督生成对抗网络的视觉里程计的方法
US20220366576A1 (en) Method for target tracking, electronic device, and storage medium
CN111507222B (zh) 一种基于多源数据知识迁移的三维物体检测框架
CN115205336A (zh) 一种基于多层感知机的特征融合目标感知跟踪方法
CN112750148B (zh) 一种基于孪生网络的多尺度目标感知跟踪方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
US11948368B2 (en) Real-time target detection and 3d localization method based on single frame image
CN113592927A (zh) 一种结构信息引导的跨域图像几何配准方法
CN116402858B (zh) 基于transformer的时空信息融合的红外目标跟踪方法
CN113298036A (zh) 一种无监督视频目标分割的方法
CN113850189A (zh) 一种应用于机动平台的嵌入式孪生网络实时跟踪方法
CN116363750A (zh) 人体姿态预测方法、装置、设备及可读存储介质
Lee et al. CrossFormer: Cross-guided attention for multi-modal object detection
Gao et al. Edge Devices Friendly Self-Supervised Monocular Depth Estimation Via Knowledge Distillation
Wang et al. EMAT: Efficient feature fusion network for visual tracking via optimized multi-head attention
Oh et al. Local selective vision transformer for depth estimation using a compound eye camera
CN116797799A (zh) 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统
CN109492530B (zh) 基于深度多尺度时空特征的健壮性视觉物体跟踪方法
CN116630641A (zh) 基于注意力机制的长时目标跟踪方法
CN117011640A (zh) 基于伪标签滤波的模型蒸馏实时目标检测方法及装置
CN115830707A (zh) 一种基于超图学习的多视角人体行为识别方法
Wang et al. EFRNet-VL: An end-to-end feature refinement network for monocular visual localization in dynamic environments
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN118229781B (zh) 显示屏异物检测方法、模型训练方法、装置、设备及介质
De Magistris et al. Visual Odometry with Depth-Wise Separable Convolution and Quaternion Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination