CN116091551B - 一种基于多模态融合的目标检索跟踪方法及系统 - Google Patents

一种基于多模态融合的目标检索跟踪方法及系统 Download PDF

Info

Publication number
CN116091551B
CN116091551B CN202310237584.3A CN202310237584A CN116091551B CN 116091551 B CN116091551 B CN 116091551B CN 202310237584 A CN202310237584 A CN 202310237584A CN 116091551 B CN116091551 B CN 116091551B
Authority
CN
China
Prior art keywords
target
features
image
regression
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310237584.3A
Other languages
English (en)
Other versions
CN116091551A (zh
Inventor
李芳芳
夏伟代
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310237584.3A priority Critical patent/CN116091551B/zh
Publication of CN116091551A publication Critical patent/CN116091551A/zh
Application granted granted Critical
Publication of CN116091551B publication Critical patent/CN116091551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多模态融合的目标检索跟踪方法,包括:对文本数据和图像数据进行特征提取,获得文本特征和图像特征;根据文本特征和图像特征进行回归运算,获得目标预测坐标;当出现跟踪漂移后重新感知目标位置,具体是:先划定一个搜索区域,并以目标图像作为模板区域,获得模板特征和搜索特征;以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征,将相关性特征输入卷积神经网络得到相关性特征图;将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标。本发明还提供了使用该方法的目标检索跟踪系统。相较于传统跟踪算法大大提高了面对复杂跟踪环境的跟踪鲁棒性,提高了模型目标回归的精度。

Description

一种基于多模态融合的目标检索跟踪方法及系统
技术领域
本发明涉及目标跟踪技术领域,具体涉及一种基于多模态融合的目标检索跟踪方法及系统。
背景技术
目标跟踪是计算机视觉中的一项重要任务。综合性工业和国防设备需无人系统在复杂境况下能实现全天候高精确度应用。近年来,视觉目标跟踪技术在机器人研发、自主汽车行业、人机界面设备和视频监控设备等方面获得了广泛的运用。
通常,现有的方法大多使用边界框(BBox)初始化第一帧中的目标对象,并随着目标对象的移动调整BBox。虽然这些方法在实际应用展现了不错的跟踪精度,但是在应对一系列跟踪挑战时,会出现跟踪失败,算法鲁棒性不强的问题。
究其原因,主要是因为现有算法是仅利用前一帧图像的预测中心进行高斯采样,基于第一帧图像进行目标回归训练的算法,会因为跟踪过程中目标外观特征发生的较大形变出现跟踪漂移,极大的影响跟踪精度。同时,大部分方法都没有将目标文本信息给利用起来,仅仅比较候选区域图像特征与目标特制的相似度。
综上所述,急需一种基于多模态融合的目标检索跟踪方法及系统以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种基于多模态融合的目标检索跟踪方法,旨在解决现有跟踪算法由于跟踪漂移出现跟踪失败、算法鲁棒性不强的问题,具体技术方案如下:
一种基于多模态融合的目标检索跟踪方法,包括:
对文本数据和图像数据进行特征提取,获得文本特征和图像特征;
根据文本特征和图像特征进行回归运算,获得目标预测坐标;
当出现跟踪漂移后重新感知目标位置,具体是:先划定一个搜索区域,并以目标图像作为模板区域,获得模板特征和搜索特征;以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征,将相关性特征输入卷积神经网络得到相关性特征图;将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标。
以上技术方案中优选的,使用预训练语言文本编码网络对文本数据进行特征提取,获得文本特征;使用预训练图像提取骨干网络对图像数据进行特征提取,获得图像特征。
以上技术方案中优选的,使用预训练图像提取骨干网络对图像数据进行特征提取,具体是:
以视频
Figure SMS_1
帧的目标预测坐标为中心,进行高斯分布采样/>
Figure SMS_2
个候选框,对候选区域图像进行特征提取,得到视频第/>
Figure SMS_3
帧的图像特征。
以上技术方案中优选的,根据文本特征和图像特征进行回归运算获得目标预测坐标,具体是:
对图像特征进行评分,获得每个候选区域的目标置信值;
将图像特征与文本特征进行内积运算得到相似度量,相似度量依次与每个候选区域的目标置信值进行乘积运算,得到最终目标置信值;
选取最终正置信值最高的
Figure SMS_4
个候选区域,进行平均值运算作为目标预测坐标;其中/>
Figure SMS_5
为大于等于2的自然数。
以上技术方案中优选的,将图像特征输入卷积神经网络或全连接神经层,获得每个候选区域的目标置信值。
以上技术方案中优选的,构建回归损失函数,利用回归损失函数训练对目标置信值的评估能力;
回归损失函数为:
Figure SMS_6
其中,
Figure SMS_7
是回归任务的标签,/>
Figure SMS_8
为预测分类值。
以上技术方案中优选的,构建对象感知任务损失函数,通过对象感知任务损失函数训练对目标位置的感知能力;
对象感知任务损失函数为:
Figure SMS_9
其中,
Figure SMS_10
和/>
Figure SMS_11
分别表示搜索区域的宽和高,/>
Figure SMS_12
是对象感知任务的标签,
Figure SMS_13
为目标中心预测图,/>
Figure SMS_14
、/>
Figure SMS_15
为重新感知的目标预测坐标。
以上技术方案中优选的,根据对象感知任务损失函数和回归损失函数计算跟踪方法的整体损失:
Figure SMS_16
其中,
Figure SMS_17
为回归损失在整体损失的权重。
以上技术方案中优选的,将搜索区域和模板区域分别输入预训练图像提取骨干网络进行特征提取,得到模板特征和搜索特征。
本发明还提供了一种基于多模态融合的目标检索跟踪系统,该系统采用上述的基于多模态融合的目标检索跟踪方法,该系统包括多模态特征提取模块、目标回归模块和对象感知模块,所述多模态特征提取模块用于特征提取,目标回归模块用于回归运算,所述对象感知模块用于跟踪漂移后重新感知目标位置。
应用本发明的技术方案,具有以下有益效果:
为了解决现有基于第一帧图像进行目标回归训练的算法,会因为跟踪过程中目标外观特征发生的较大形变出现跟踪漂移的问题。本发明在跟踪方法,融入了文本特征和图像特征,为模型提供了有效的目标信息,相较于传统跟踪算法大大提高了面对复杂跟踪环境的跟踪鲁棒性,提高了模型目标回归的精度。
由于实际跟踪环境多变(如遮挡、极端光照和能见度低等),现有跟踪算法在跟踪过程存在一定的限制,以前一帧的预测目标作为后续目标候选区域的采样中心,因此发生的跟踪漂移不仅会影响当前帧,同时导致算法在后续视频帧中丢失目标。为了解决该问题,本发明的跟踪方法,以目标图像特征为卷积核对搜索区域进行相关性滤波运算,结合图像相关特征图与文本信息,重新感知目标中心,以此来纠正跟踪漂移,使得算法具有高效的跟踪漂移纠正能力,提高了模型的鲁棒性。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是文本特征提取流程示意图;
图2是图像特征提取流程示意图;
图3是回归运算流程示意图;
图4是对象感知流程示意图。
具体实施方式
为了便于理解本发明,下面将对本发明进行更全面的描述,并给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1:
本实施例提供了一种基于多模态融合的目标检索跟踪方法,具体包括:对文本数据和图像数据进行特征提取,获得文本特征和图像特征;根据文本特征和图像特征进行回归运算,获得目标预测坐标;当出现跟踪漂移后重新感知目标位置。
为了让本实施例的方案更加清楚,下面对跟踪方法的每个过程进行详细说明。
具体的,本实施例中获得文本特征和图像特征的具体过程如下:
参见图1,使用预训练语言文本编码网络(Transformer)对文本数据进行特征提取,获得文本特征
Figure SMS_18
,其中/>
Figure SMS_19
表示文本特征的维度,/>
Figure SMS_20
为第/>
Figure SMS_21
维的特征,/>
Figure SMS_22
文本特征获得的具体过程如下:
步骤1.1:根据原始的文本数据
Figure SMS_23
,得到编号序列/>
Figure SMS_24
、分段序列
Figure SMS_25
与位置序列/>
Figure SMS_26
,其中/>
Figure SMS_27
、/>
Figure SMS_28
和/>
Figure SMS_29
分别表示序列中的向量;获得三种序列的方法为本领域的公知常识,本实施例中不再详细说明;
步骤1.2:获取文本嵌入向量
Figure SMS_30
和文本特征/>
Figure SMS_31
,其中/>
Figure SMS_32
表示
Figure SMS_33
中的第/>
Figure SMS_34
维向量,具体如下:
Figure SMS_35
Figure SMS_36
其中,Embedding为嵌入层,Encoding为编码层。
参见图2,使用预训练图像提取骨干网络(VIT-B)对图像数据进行特征提取,获得图像特征,具体是:
以视频
Figure SMS_38
帧的目标预测坐标为中心,对视频第/>
Figure SMS_42
帧的图像进行高斯分布采样/>
Figure SMS_43
个候选框,对候选区域图像(即候选框区域图像)进行特征提取,得到视频第/>
Figure SMS_44
帧的图像特征
Figure SMS_45
,/>
Figure SMS_46
,其中/>
Figure SMS_47
表示特征向量维度,/>
Figure SMS_37
,/>
Figure SMS_39
表示第/>
Figure SMS_40
个候选区域的图像特征,/>
Figure SMS_41
为大于等于1的自然数;该步骤的具体过程如下:
Figure SMS_48
Figure SMS_49
其中
Figure SMS_51
为/>
Figure SMS_52
帧的目标预测坐标中心,Gaussian是高斯采样,采样得到的第/>
Figure SMS_53
帧的候选区域图像为/>
Figure SMS_54
,/>
Figure SMS_55
与/>
Figure SMS_57
是预训练图像提取骨干网络中可学习的向量,通过预训练图像提取骨干网络得到视频第/>
Figure SMS_58
帧的图像特征/>
Figure SMS_50
Figure SMS_56
参见图3,根据文本特征和图像特征进行回归运算获得目标预测坐标,详细过程如下:
步骤2.1:对图像特征进行评分,获得每个候选区域的目标置信值;
具体是将图像特征输入卷积神经网络或全连接神经层,获得每个候选区域的目标置信值;本实施例中选用全连接神经层,优选为三层全连接神经层,计算流程表示如下:
Figure SMS_59
其中:
Figure SMS_61
为全连接层运算,运算得到每个候选区域的目标置信值
Figure SMS_64
,/>
Figure SMS_65
,其中/>
Figure SMS_66
为置信值维度;/>
Figure SMS_67
,其中/>
Figure SMS_68
Figure SMS_69
为第/>
Figure SMS_60
个候选区域的正置信值和负置信值,其中/>
Figure SMS_62
为1至/>
Figure SMS_63
中的任意值。
步骤2.2:将图像特征
Figure SMS_70
,/>
Figure SMS_71
与文本特征
Figure SMS_72
进行内积运算得到相似度量,相似度量依次与每个候选区域的目标置信值进行乘积运算,得到最终目标置信值,计算流程表示如下:
Figure SMS_73
Figure SMS_74
其中:
Figure SMS_76
为内积运算,运算得到每个候选区域图像特征与文本特征的相似度量
Figure SMS_78
,/>
Figure SMS_85
表示第/>
Figure SMS_86
个候选区域与文本特征的相似度;/>
Figure SMS_87
为乘积运算,最终目标置信值为/>
Figure SMS_88
,/>
Figure SMS_89
,/>
Figure SMS_75
,其中,/>
Figure SMS_77
为第/>
Figure SMS_79
个候选区域的最终目标置信值,/>
Figure SMS_80
、/>
Figure SMS_81
分别为第/>
Figure SMS_82
个候选区域的最终正置信值和最终负置信值,其中/>
Figure SMS_83
为1至/>
Figure SMS_84
中的任意值。
步骤2.3:选取最终正置信值最高的
Figure SMS_90
个候选区域进行平均值运算作为目标预测坐标(即选取最终正置信值靠前的/>
Figure SMS_91
个候选区域);其中N为大于等于2的自然数。
具体的,在所有的候选区域中,利用argmax函数获得最终正置信值最高的候选区域,选出该候选区域后,在剩下的候选区域中继续利用argmax函数选取最终正置信值最高的候选区域;重复该过程,直至获得
Figure SMS_92
个候选区域。
argmax函数表达式如下:
Figure SMS_93
其中,
Figure SMS_94
为/>
Figure SMS_95
个候选区域中最终正置信值最高的候选区域。
参见图4,当出现跟踪漂移后重新感知目标位置,详细过程如下:
步骤3.1:先划定一个搜索区域,并以目标图像作为模板区域,获得模板特征
Figure SMS_96
和搜索特征/>
Figure SMS_97
;以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征/>
Figure SMS_98
,将相关性特征输入卷积神经网络得到相关性特征图/>
Figure SMS_99
,计算流程如下:
Figure SMS_100
Figure SMS_101
其中,
Figure SMS_102
表示相关性滤波运算,/>
Figure SMS_103
为卷积层/>
Figure SMS_104
运算。
步骤3.2:将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标:
Figure SMS_105
其中,
Figure SMS_106
为最终的目标中心预测图,即重新感知的目标预测坐标。
本实施例中优选的,将搜索区域和模板区域分别输入预训练图像提取骨干网络进行特征提取,得到模板特征
Figure SMS_107
和搜索特征/>
Figure SMS_108
本实施例中的跟踪方法还包括构建回归损失函数和构建对象感知任务损失函数,利用回归损失函数训练对目标置信值的评估能力;通过对象感知任务损失函数训练对目标位置的感知能力;
回归损失函数为:
Figure SMS_109
其中,
Figure SMS_110
是回归任务的标签,/>
Figure SMS_111
为预测分类值。
对象感知任务损失函数为:
Figure SMS_112
其中,
Figure SMS_113
和/>
Figure SMS_114
分别表示搜索区域的宽和高,/>
Figure SMS_115
是对象感知任务的标签,
Figure SMS_116
为目标中心预测图,/>
Figure SMS_117
、/>
Figure SMS_118
为重新感知的目标预测坐标。
根据对象感知任务损失函数和回归损失函数可以计算跟踪方法的整体损失:
Figure SMS_119
其中,
Figure SMS_120
为回归损失在整体损失的权重;本实施例中/>
Figure SMS_121
本实施例还提供了一种基于多模态融合的目标检索跟踪系统,该系统采用上述的基于多模态融合的目标检索跟踪方法,该系统包括多模态特征提取模块、目标回归模块和对象感知模块,所述多模态特征提取模块用于特征提取,即进行文本特征、图像特征、搜索特征和模板特征的提取;目标回归模块用于回归运算,即获得目标的目标预测坐标;所述对象感知模块用于跟踪漂移后重新感知目标位置,对象感知模块只有在发生跟踪漂移后才会被启用,实现重新纠正目标位置,提高长期跟踪精度。
其中,多模态特征提取模块包括预训练语言文本编码网络和预训练图像提取骨干网络,两个网络使用CLIP权重进行初始化;目标回归模块由全连接神经层与内积运算组成,也可以是由卷积神经网络与内积运算组成;所述跟踪系统未详细说明之处均为本领域的公知常识。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于多模态融合的目标检索跟踪方法,其特征在于,包括:
对文本数据和图像数据进行特征提取,获得文本特征和图像特征;
根据文本特征和图像特征进行回归运算,获得目标预测坐标;
当出现跟踪漂移后重新感知目标位置,具体是:先划定一个搜索区域,并以目标图像作为模板区域,获得模板特征和搜索特征;以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征,将相关性特征输入卷积神经网络得到相关性特征图;将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标;
其中,使用预训练图像提取骨干网络对图像数据进行特征提取,具体是:
以视频t-1帧的目标预测坐标为中心,进行高斯分布采样j个候选框,对候选区域图像进行特征提取,得到视频第t帧的图像特征;
其中,根据文本特征和图像特征进行回归运算获得目标预测坐标,具体是:
对图像特征进行评分,获得每个候选区域的目标置信值;
将图像特征与文本特征进行内积运算得到相似度量,相似度量依次与每个候选区域的目标置信值进行乘积运算,得到最终目标置信值;
选取最终正置信值最高的N个候选区域,进行平均值运算作为目标预测坐标;其中N为大于等于2的自然数;
其中,将搜索区域和模板区域分别输入预训练图像提取骨干网络进行特征提取,得到模板特征和搜索特征。
2.根据权利要求1所述的基于多模态融合的目标检索跟踪方法,其特征在于,使用预训练语言文本编码网络对文本数据进行特征提取,获得文本特征。
3.根据权利要求1所述的基于多模态融合的目标检索跟踪方法,其特征在于,将图像特征输入卷积神经网络或全连接神经层,获得每个候选区域的目标置信值。
4.根据权利要求1所述的基于多模态融合的目标检索跟踪方法,其特征在于,构建回归损失函数,利用回归损失函数训练对目标置信值的评估能力;
回归损失函数为:
Figure FDA0004230766340000011
其中,d是回归任务的标签,
Figure FDA0004230766340000012
为预测分类值。
5.根据权利要求4所述的基于多模态融合的目标检索跟踪方法,其特征在于,构建对象感知任务损失函数,通过对象感知任务损失函数训练对目标位置的感知能力;
对象感知任务损失函数为:
Figure FDA0004230766340000021
其中,w和h分别表示搜索区域的宽和高,Ybox是对象感知任务的标签,
Figure FDA0004230766340000022
为目标中心预测图,x、y为重新感知的目标预测坐标。
6.根据权利要求5所述的基于多模态融合的目标检索跟踪方法,其特征在于,根据对象感知任务损失函数和回归损失函数计算跟踪方法的整体损失:
Loss=λ×Losscls+(1-λ)×Losscen
其中,λ为回归损失在整体损失的权重。
7.一种基于多模态融合的目标检索跟踪系统,其特征在于,该系统采用如权利要求1-6任意一项所述的基于多模态融合的目标检索跟踪方法,该系统包括多模态特征提取模块、目标回归模块和对象感知模块,所述多模态特征提取模块用于特征提取,目标回归模块用于回归运算,所述对象感知模块用于跟踪漂移后重新感知目标位置。
CN202310237584.3A 2023-03-14 2023-03-14 一种基于多模态融合的目标检索跟踪方法及系统 Active CN116091551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310237584.3A CN116091551B (zh) 2023-03-14 2023-03-14 一种基于多模态融合的目标检索跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310237584.3A CN116091551B (zh) 2023-03-14 2023-03-14 一种基于多模态融合的目标检索跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN116091551A CN116091551A (zh) 2023-05-09
CN116091551B true CN116091551B (zh) 2023-06-20

Family

ID=86204704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310237584.3A Active CN116091551B (zh) 2023-03-14 2023-03-14 一种基于多模态融合的目标检索跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN116091551B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578734B (zh) * 2023-05-20 2024-04-30 重庆师范大学 一种基于clip的概率嵌入组合检索方法
CN116757497B (zh) * 2023-06-12 2024-01-12 南京航空航天大学 基于图类感知Transformer的多模态军事智能辅助作战决策方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568003A (zh) * 2011-12-21 2012-07-11 北京航空航天大学深圳研究院 一种基于视频结构化描述的多摄像机目标跟踪方法
JP5894707B2 (ja) * 2013-06-28 2016-03-30 楽天株式会社 情報処理装置、情報処理方法、および、情報処理装置用プログラム
KR101897018B1 (ko) * 2017-04-27 2018-09-10 주식회사 엑사스코프 객체 추적 방법 및 장치
CN112734803A (zh) * 2020-12-31 2021-04-30 山东大学 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN113129345A (zh) * 2021-04-19 2021-07-16 重庆邮电大学 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法
CN114708297A (zh) * 2022-02-17 2022-07-05 北京深睿博联科技有限责任公司 一种视频目标跟踪方法及装置
CN114879891A (zh) * 2022-05-19 2022-08-09 中国人民武装警察部队工程大学 一种自监督多目标跟踪下的多模态人机互动方法
CN115222768A (zh) * 2022-06-14 2022-10-21 中国科学院自动化研究所 视频中跟踪对象的定位方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4668220B2 (ja) * 2007-02-20 2011-04-13 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
GB2586265B (en) * 2019-08-15 2023-02-15 Vision Semantics Ltd Text based image search

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568003A (zh) * 2011-12-21 2012-07-11 北京航空航天大学深圳研究院 一种基于视频结构化描述的多摄像机目标跟踪方法
JP5894707B2 (ja) * 2013-06-28 2016-03-30 楽天株式会社 情報処理装置、情報処理方法、および、情報処理装置用プログラム
KR101897018B1 (ko) * 2017-04-27 2018-09-10 주식회사 엑사스코프 객체 추적 방법 및 장치
CN112734803A (zh) * 2020-12-31 2021-04-30 山东大学 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN113129345A (zh) * 2021-04-19 2021-07-16 重庆邮电大学 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法
CN114708297A (zh) * 2022-02-17 2022-07-05 北京深睿博联科技有限责任公司 一种视频目标跟踪方法及装置
CN114879891A (zh) * 2022-05-19 2022-08-09 中国人民武装警察部队工程大学 一种自监督多目标跟踪下的多模态人机互动方法
CN115222768A (zh) * 2022-06-14 2022-10-21 中国科学院自动化研究所 视频中跟踪对象的定位方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116091551A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN116091551B (zh) 一种基于多模态融合的目标检索跟踪方法及系统
Cao et al. Rapid detection of blind roads and crosswalks by using a lightweight semantic segmentation network
CN110796018B (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN108230354B (zh) 目标跟踪、网络训练方法、装置、电子设备和存储介质
CN114241548A (zh) 一种基于改进YOLOv5的小目标检测算法
CN112686833A (zh) 一种基于卷积神经网络的工业产品表面缺陷检测和分类装置
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN112528974B (zh) 测距方法、装置、电子设备及可读存储介质
CN112989995B (zh) 文本检测方法、装置及电子设备
CN113642431A (zh) 目标检测模型的训练方法及装置、电子设备和存储介质
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
CN112712052A (zh) 一种机场全景视频中微弱目标的检测识别方法
CN110533661A (zh) 基于图像特征级联的自适应实时闭环检测方法
CN115937626B (zh) 基于实例分割的半虚拟数据集自动生成方法
CN113591566A (zh) 图像识别模型的训练方法、装置、电子设备和存储介质
CN111815576B (zh) 金属部件腐蚀状况检测方法、装置、设备和存储介质
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN114170686A (zh) 一种基于人体关键点的屈肘行为检测方法
CN116258931B (zh) 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN116630753A (zh) 一种基于对比学习的多尺度小样本目标检测方法
CN116416503A (zh) 一种基于多模态融合的小样本目标检测方法、系统及介质
CN116434230A (zh) 一种复杂环境下的船舶水尺读数方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN116030347B (zh) 一种基于注意力网络的高分辨率遥感影像建筑物提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant