CN116091551B - 一种基于多模态融合的目标检索跟踪方法及系统 - Google Patents
一种基于多模态融合的目标检索跟踪方法及系统 Download PDFInfo
- Publication number
- CN116091551B CN116091551B CN202310237584.3A CN202310237584A CN116091551B CN 116091551 B CN116091551 B CN 116091551B CN 202310237584 A CN202310237584 A CN 202310237584A CN 116091551 B CN116091551 B CN 116091551B
- Authority
- CN
- China
- Prior art keywords
- target
- features
- image
- regression
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多模态融合的目标检索跟踪方法,包括:对文本数据和图像数据进行特征提取,获得文本特征和图像特征;根据文本特征和图像特征进行回归运算,获得目标预测坐标;当出现跟踪漂移后重新感知目标位置,具体是:先划定一个搜索区域,并以目标图像作为模板区域,获得模板特征和搜索特征;以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征,将相关性特征输入卷积神经网络得到相关性特征图;将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标。本发明还提供了使用该方法的目标检索跟踪系统。相较于传统跟踪算法大大提高了面对复杂跟踪环境的跟踪鲁棒性,提高了模型目标回归的精度。
Description
技术领域
本发明涉及目标跟踪技术领域,具体涉及一种基于多模态融合的目标检索跟踪方法及系统。
背景技术
目标跟踪是计算机视觉中的一项重要任务。综合性工业和国防设备需无人系统在复杂境况下能实现全天候高精确度应用。近年来,视觉目标跟踪技术在机器人研发、自主汽车行业、人机界面设备和视频监控设备等方面获得了广泛的运用。
通常,现有的方法大多使用边界框(BBox)初始化第一帧中的目标对象,并随着目标对象的移动调整BBox。虽然这些方法在实际应用展现了不错的跟踪精度,但是在应对一系列跟踪挑战时,会出现跟踪失败,算法鲁棒性不强的问题。
究其原因,主要是因为现有算法是仅利用前一帧图像的预测中心进行高斯采样,基于第一帧图像进行目标回归训练的算法,会因为跟踪过程中目标外观特征发生的较大形变出现跟踪漂移,极大的影响跟踪精度。同时,大部分方法都没有将目标文本信息给利用起来,仅仅比较候选区域图像特征与目标特制的相似度。
综上所述,急需一种基于多模态融合的目标检索跟踪方法及系统以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种基于多模态融合的目标检索跟踪方法,旨在解决现有跟踪算法由于跟踪漂移出现跟踪失败、算法鲁棒性不强的问题,具体技术方案如下:
一种基于多模态融合的目标检索跟踪方法,包括:
对文本数据和图像数据进行特征提取,获得文本特征和图像特征;
根据文本特征和图像特征进行回归运算,获得目标预测坐标;
当出现跟踪漂移后重新感知目标位置,具体是:先划定一个搜索区域,并以目标图像作为模板区域,获得模板特征和搜索特征;以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征,将相关性特征输入卷积神经网络得到相关性特征图;将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标。
以上技术方案中优选的,使用预训练语言文本编码网络对文本数据进行特征提取,获得文本特征;使用预训练图像提取骨干网络对图像数据进行特征提取,获得图像特征。
以上技术方案中优选的,使用预训练图像提取骨干网络对图像数据进行特征提取,具体是:
以上技术方案中优选的,根据文本特征和图像特征进行回归运算获得目标预测坐标,具体是:
对图像特征进行评分,获得每个候选区域的目标置信值;
将图像特征与文本特征进行内积运算得到相似度量,相似度量依次与每个候选区域的目标置信值进行乘积运算,得到最终目标置信值;
以上技术方案中优选的,将图像特征输入卷积神经网络或全连接神经层,获得每个候选区域的目标置信值。
以上技术方案中优选的,构建回归损失函数,利用回归损失函数训练对目标置信值的评估能力;
回归损失函数为:
以上技术方案中优选的,构建对象感知任务损失函数,通过对象感知任务损失函数训练对目标位置的感知能力;
以上技术方案中优选的,将搜索区域和模板区域分别输入预训练图像提取骨干网络进行特征提取,得到模板特征和搜索特征。
本发明还提供了一种基于多模态融合的目标检索跟踪系统,该系统采用上述的基于多模态融合的目标检索跟踪方法,该系统包括多模态特征提取模块、目标回归模块和对象感知模块,所述多模态特征提取模块用于特征提取,目标回归模块用于回归运算,所述对象感知模块用于跟踪漂移后重新感知目标位置。
应用本发明的技术方案,具有以下有益效果:
为了解决现有基于第一帧图像进行目标回归训练的算法,会因为跟踪过程中目标外观特征发生的较大形变出现跟踪漂移的问题。本发明在跟踪方法,融入了文本特征和图像特征,为模型提供了有效的目标信息,相较于传统跟踪算法大大提高了面对复杂跟踪环境的跟踪鲁棒性,提高了模型目标回归的精度。
由于实际跟踪环境多变(如遮挡、极端光照和能见度低等),现有跟踪算法在跟踪过程存在一定的限制,以前一帧的预测目标作为后续目标候选区域的采样中心,因此发生的跟踪漂移不仅会影响当前帧,同时导致算法在后续视频帧中丢失目标。为了解决该问题,本发明的跟踪方法,以目标图像特征为卷积核对搜索区域进行相关性滤波运算,结合图像相关特征图与文本信息,重新感知目标中心,以此来纠正跟踪漂移,使得算法具有高效的跟踪漂移纠正能力,提高了模型的鲁棒性。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是文本特征提取流程示意图;
图2是图像特征提取流程示意图;
图3是回归运算流程示意图;
图4是对象感知流程示意图。
具体实施方式
为了便于理解本发明,下面将对本发明进行更全面的描述,并给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1:
本实施例提供了一种基于多模态融合的目标检索跟踪方法,具体包括:对文本数据和图像数据进行特征提取,获得文本特征和图像特征;根据文本特征和图像特征进行回归运算,获得目标预测坐标;当出现跟踪漂移后重新感知目标位置。
为了让本实施例的方案更加清楚,下面对跟踪方法的每个过程进行详细说明。
具体的,本实施例中获得文本特征和图像特征的具体过程如下:
文本特征获得的具体过程如下:
其中,Embedding为嵌入层,Encoding为编码层。
参见图2,使用预训练图像提取骨干网络(VIT-B)对图像数据进行特征提取,获得图像特征,具体是:
以视频帧的目标预测坐标为中心,对视频第/>帧的图像进行高斯分布采样/>个候选框,对候选区域图像(即候选框区域图像)进行特征提取,得到视频第/>帧的图像特征,/>,其中/>表示特征向量维度,/>,/>表示第/>个候选区域的图像特征,/>为大于等于1的自然数;该步骤的具体过程如下:
其中为/>帧的目标预测坐标中心,Gaussian是高斯采样,采样得到的第/>帧的候选区域图像为/>,/>与/>是预训练图像提取骨干网络中可学习的向量,通过预训练图像提取骨干网络得到视频第/>帧的图像特征/>,。
参见图3,根据文本特征和图像特征进行回归运算获得目标预测坐标,详细过程如下:
步骤2.1:对图像特征进行评分,获得每个候选区域的目标置信值;
具体是将图像特征输入卷积神经网络或全连接神经层,获得每个候选区域的目标置信值;本实施例中选用全连接神经层,优选为三层全连接神经层,计算流程表示如下:
其中:为内积运算,运算得到每个候选区域图像特征与文本特征的相似度量,/>表示第/>个候选区域与文本特征的相似度;/>为乘积运算,最终目标置信值为/>,/>,/>,其中,/>为第/>个候选区域的最终目标置信值,/>、/>分别为第/>个候选区域的最终正置信值和最终负置信值,其中/>为1至/>中的任意值。
具体的,在所有的候选区域中,利用argmax函数获得最终正置信值最高的候选区域,选出该候选区域后,在剩下的候选区域中继续利用argmax函数选取最终正置信值最高的候选区域;重复该过程,直至获得个候选区域。
argmax函数表达式如下:
参见图4,当出现跟踪漂移后重新感知目标位置,详细过程如下:
步骤3.1:先划定一个搜索区域,并以目标图像作为模板区域,获得模板特征和搜索特征/>;以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征/>,将相关性特征输入卷积神经网络得到相关性特征图/>,计算流程如下:
步骤3.2:将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标:
本实施例中的跟踪方法还包括构建回归损失函数和构建对象感知任务损失函数,利用回归损失函数训练对目标置信值的评估能力;通过对象感知任务损失函数训练对目标位置的感知能力;
回归损失函数为:
本实施例还提供了一种基于多模态融合的目标检索跟踪系统,该系统采用上述的基于多模态融合的目标检索跟踪方法,该系统包括多模态特征提取模块、目标回归模块和对象感知模块,所述多模态特征提取模块用于特征提取,即进行文本特征、图像特征、搜索特征和模板特征的提取;目标回归模块用于回归运算,即获得目标的目标预测坐标;所述对象感知模块用于跟踪漂移后重新感知目标位置,对象感知模块只有在发生跟踪漂移后才会被启用,实现重新纠正目标位置,提高长期跟踪精度。
其中,多模态特征提取模块包括预训练语言文本编码网络和预训练图像提取骨干网络,两个网络使用CLIP权重进行初始化;目标回归模块由全连接神经层与内积运算组成,也可以是由卷积神经网络与内积运算组成;所述跟踪系统未详细说明之处均为本领域的公知常识。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于多模态融合的目标检索跟踪方法,其特征在于,包括:
对文本数据和图像数据进行特征提取,获得文本特征和图像特征;
根据文本特征和图像特征进行回归运算,获得目标预测坐标;
当出现跟踪漂移后重新感知目标位置,具体是:先划定一个搜索区域,并以目标图像作为模板区域,获得模板特征和搜索特征;以模板特征作为卷积核对搜索特征进行相关性滤波运算得到相关性特征,将相关性特征输入卷积神经网络得到相关性特征图;将文本特征和相关性特征图进行乘积运算获得重新感知的目标预测坐标;
其中,使用预训练图像提取骨干网络对图像数据进行特征提取,具体是:
以视频t-1帧的目标预测坐标为中心,进行高斯分布采样j个候选框,对候选区域图像进行特征提取,得到视频第t帧的图像特征;
其中,根据文本特征和图像特征进行回归运算获得目标预测坐标,具体是:
对图像特征进行评分,获得每个候选区域的目标置信值;
将图像特征与文本特征进行内积运算得到相似度量,相似度量依次与每个候选区域的目标置信值进行乘积运算,得到最终目标置信值;
选取最终正置信值最高的N个候选区域,进行平均值运算作为目标预测坐标;其中N为大于等于2的自然数;
其中,将搜索区域和模板区域分别输入预训练图像提取骨干网络进行特征提取,得到模板特征和搜索特征。
2.根据权利要求1所述的基于多模态融合的目标检索跟踪方法,其特征在于,使用预训练语言文本编码网络对文本数据进行特征提取,获得文本特征。
3.根据权利要求1所述的基于多模态融合的目标检索跟踪方法,其特征在于,将图像特征输入卷积神经网络或全连接神经层,获得每个候选区域的目标置信值。
6.根据权利要求5所述的基于多模态融合的目标检索跟踪方法,其特征在于,根据对象感知任务损失函数和回归损失函数计算跟踪方法的整体损失:
Loss=λ×Losscls+(1-λ)×Losscen
其中,λ为回归损失在整体损失的权重。
7.一种基于多模态融合的目标检索跟踪系统,其特征在于,该系统采用如权利要求1-6任意一项所述的基于多模态融合的目标检索跟踪方法,该系统包括多模态特征提取模块、目标回归模块和对象感知模块,所述多模态特征提取模块用于特征提取,目标回归模块用于回归运算,所述对象感知模块用于跟踪漂移后重新感知目标位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310237584.3A CN116091551B (zh) | 2023-03-14 | 2023-03-14 | 一种基于多模态融合的目标检索跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310237584.3A CN116091551B (zh) | 2023-03-14 | 2023-03-14 | 一种基于多模态融合的目标检索跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116091551A CN116091551A (zh) | 2023-05-09 |
CN116091551B true CN116091551B (zh) | 2023-06-20 |
Family
ID=86204704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310237584.3A Active CN116091551B (zh) | 2023-03-14 | 2023-03-14 | 一种基于多模态融合的目标检索跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091551B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578734B (zh) * | 2023-05-20 | 2024-04-30 | 重庆师范大学 | 一种基于clip的概率嵌入组合检索方法 |
CN116757497B (zh) * | 2023-06-12 | 2024-01-12 | 南京航空航天大学 | 基于图类感知Transformer的多模态军事智能辅助作战决策方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568003A (zh) * | 2011-12-21 | 2012-07-11 | 北京航空航天大学深圳研究院 | 一种基于视频结构化描述的多摄像机目标跟踪方法 |
JP5894707B2 (ja) * | 2013-06-28 | 2016-03-30 | 楽天株式会社 | 情報処理装置、情報処理方法、および、情報処理装置用プログラム |
KR101897018B1 (ko) * | 2017-04-27 | 2018-09-10 | 주식회사 엑사스코프 | 객체 추적 방법 및 장치 |
CN112734803A (zh) * | 2020-12-31 | 2021-04-30 | 山东大学 | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 |
CN113129345A (zh) * | 2021-04-19 | 2021-07-16 | 重庆邮电大学 | 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 |
CN114708297A (zh) * | 2022-02-17 | 2022-07-05 | 北京深睿博联科技有限责任公司 | 一种视频目标跟踪方法及装置 |
CN114879891A (zh) * | 2022-05-19 | 2022-08-09 | 中国人民武装警察部队工程大学 | 一种自监督多目标跟踪下的多模态人机互动方法 |
CN115222768A (zh) * | 2022-06-14 | 2022-10-21 | 中国科学院自动化研究所 | 视频中跟踪对象的定位方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4668220B2 (ja) * | 2007-02-20 | 2011-04-13 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
GB2586265B (en) * | 2019-08-15 | 2023-02-15 | Vision Semantics Ltd | Text based image search |
-
2023
- 2023-03-14 CN CN202310237584.3A patent/CN116091551B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568003A (zh) * | 2011-12-21 | 2012-07-11 | 北京航空航天大学深圳研究院 | 一种基于视频结构化描述的多摄像机目标跟踪方法 |
JP5894707B2 (ja) * | 2013-06-28 | 2016-03-30 | 楽天株式会社 | 情報処理装置、情報処理方法、および、情報処理装置用プログラム |
KR101897018B1 (ko) * | 2017-04-27 | 2018-09-10 | 주식회사 엑사스코프 | 객체 추적 방법 및 장치 |
CN112734803A (zh) * | 2020-12-31 | 2021-04-30 | 山东大学 | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 |
CN113129345A (zh) * | 2021-04-19 | 2021-07-16 | 重庆邮电大学 | 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 |
CN114708297A (zh) * | 2022-02-17 | 2022-07-05 | 北京深睿博联科技有限责任公司 | 一种视频目标跟踪方法及装置 |
CN114879891A (zh) * | 2022-05-19 | 2022-08-09 | 中国人民武装警察部队工程大学 | 一种自监督多目标跟踪下的多模态人机互动方法 |
CN115222768A (zh) * | 2022-06-14 | 2022-10-21 | 中国科学院自动化研究所 | 视频中跟踪对象的定位方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116091551A (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116091551B (zh) | 一种基于多模态融合的目标检索跟踪方法及系统 | |
Cao et al. | Rapid detection of blind roads and crosswalks by using a lightweight semantic segmentation network | |
CN110796018B (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN108230354B (zh) | 目标跟踪、网络训练方法、装置、电子设备和存储介质 | |
CN114241548A (zh) | 一种基于改进YOLOv5的小目标检测算法 | |
CN112686833A (zh) | 一种基于卷积神经网络的工业产品表面缺陷检测和分类装置 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN112528974B (zh) | 测距方法、装置、电子设备及可读存储介质 | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN113642431A (zh) | 目标检测模型的训练方法及装置、电子设备和存储介质 | |
CN106407978B (zh) | 一种结合似物度的无约束视频中显著物体检测方法 | |
CN112712052A (zh) | 一种机场全景视频中微弱目标的检测识别方法 | |
CN110533661A (zh) | 基于图像特征级联的自适应实时闭环检测方法 | |
CN115937626B (zh) | 基于实例分割的半虚拟数据集自动生成方法 | |
CN113591566A (zh) | 图像识别模型的训练方法、装置、电子设备和存储介质 | |
CN111815576B (zh) | 金属部件腐蚀状况检测方法、装置、设备和存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN113989604A (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
CN114170686A (zh) | 一种基于人体关键点的屈肘行为检测方法 | |
CN116258931B (zh) | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 | |
CN116630753A (zh) | 一种基于对比学习的多尺度小样本目标检测方法 | |
CN116416503A (zh) | 一种基于多模态融合的小样本目标检测方法、系统及介质 | |
CN116434230A (zh) | 一种复杂环境下的船舶水尺读数方法 | |
CN112069997B (zh) | 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置 | |
CN116030347B (zh) | 一种基于注意力网络的高分辨率遥感影像建筑物提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |