CN115272420A - 一种长时目标跟踪方法、系统及存储介质 - Google Patents

一种长时目标跟踪方法、系统及存储介质 Download PDF

Info

Publication number
CN115272420A
CN115272420A CN202211188338.5A CN202211188338A CN115272420A CN 115272420 A CN115272420 A CN 115272420A CN 202211188338 A CN202211188338 A CN 202211188338A CN 115272420 A CN115272420 A CN 115272420A
Authority
CN
China
Prior art keywords
image
thermal infrared
visible light
module
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211188338.5A
Other languages
English (en)
Other versions
CN115272420B (zh
Inventor
何震宇
吴述坤
田超
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202211188338.5A priority Critical patent/CN115272420B/zh
Publication of CN115272420A publication Critical patent/CN115272420A/zh
Application granted granted Critical
Publication of CN115272420B publication Critical patent/CN115272420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本发明提供了一种长时目标跟踪方法、系统及存储介质,该长时目标跟踪系统包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块,所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型;所述单光级联检测模块包括方差检测器、集合检测器、最近邻检测器;所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像。本发明的有益效果是:本发明的长时目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与实时性。

Description

一种长时目标跟踪方法、系统及存储介质
技术领域
本发明涉及目标跟踪技术领域,尤其涉及一种长时目标跟踪方法、系统及存储介质。
背景技术
当前长时目标跟踪技术必须面对真实场景中的光照变化、目标消失再出现、剧烈的尺度变化等问题。为解决上述问题,基于跟踪与检测结合的长时跟踪方法主要是通过跟踪器进行短时跟踪, 检测器进行目标丢失时重捕获。
这种基于跟踪与检测结合的长时跟踪方法采用可见光图像作为唯一输入,其思想主要分为三个阶段,第一个阶段,跟踪器利用当前帧目标局部信息预测下一帧的目标状态,第二阶段是检测器利用当前帧全局信息预测下一帧的目标状态,第三个阶段是综合跟踪器和检测器的预测结果决策出下一帧的最优目标状态。
在数据的使用方面,现有的长时目标跟踪方法可以分为两类,一类是仅使用一种模态数据的跟踪方法,比如基于可见光的跟踪方法和基于热红外的跟踪方法;另一类是使用多种模态数据的跟踪方法,比如基于可见光-热红外的跟踪方法。第一类方法由于使用的数据类型有限,导致其应用场景受到很大限制;第二类方法使用了多种模态的数据,虽然可以应对更复杂的场景,但是输入数据的增加导致了计算量的增加。
背景技术的缺陷如下:
数据使用方面:现有的基于跟踪与检测结合的长时跟踪算法仅使用可见光图像作为输入,因可见光图像的成像特性,导致该类算法在夜晚、雨雾天等场景中难以取得满意的跟踪效果。
现有的双光特征融合的不足:现有的双光特征融合方法主要分为三类,一类是基于简单融合策略的方法 ,这些方法对双光图像特征通过逐元素相加和拼接等方式来实现特征的结合,该类方法忽略了不同模态的质量与相关性; 第二类是基于模态权重的融合方法,这些方法通过调节不同场景下可见光图像特征与热红外图像特征的权重来实现融合;第三类是基于注意力机制的融合方法 ,这些方法引入注意力机制来提高模型的局部或全局特征提取能力。而第二类和第三类特征融合方法直接对可见光和热红外图像特征进行融合操作,忽略了模态差异带来的不良影响,同时没有权衡好模态特有特征与模态共享特征的关系。
可见光和热红外图像对位置偏移的问题:现有的双光目标跟踪算法都假设可见光图像和热红外图像是严格对齐的,然而在实际场景中由于可见光摄像头和热红外摄像头的不同抖动程度、视差等因素的影响,导致获取的可见光和热红外图像对不是完全对齐的,也即存在位置偏移问题。位置偏移问题会严重影响跟踪算法的性能。
基于跟踪与检测相结合的长时跟踪算法运行速度的缺陷:现有的跟踪与检测结合的跟踪算法在目标丢失(目标运动出视野、目标被遮挡)时,采用全局搜索的检测器对丢失目标进行重捕获,也即通过滑动窗口遍历整幅可见光图像得到非常多的候选目标图像块,对这些候选图像块分别进行检测从而判断是否含有丢失的目标。当目标比较小时,需要检测的候选图像块数量非常庞大,从而导致算法运行速度慢。
发明内容
本发明提供了一种长时目标跟踪方法,包括如下步骤:
数据读取步骤:从可见光和热红外摄像头读取可见光图像和热红外图像;
图像特征对齐步骤:将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中,经过该特征对齐模块的处理使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
特征融合步骤:将对齐后的双光图像特征输入到一个离线训练好的特征融合模块中,在轻量特征融合模块中对双光图像特征进行空间和语义层级的融合;
多跟踪器协同预测步骤:多跟踪器协同模型基于融合后的特征和当前帧目标状态 预测下一帧中目标的状态
Figure 100002_DEST_PATH_IMAGE001
单光级联检测步骤:对可见光图像通过滑动窗口生成多个候选目标图像块,将候 选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧 的目标状态
Figure 360607DEST_PATH_IMAGE002
决策步骤:将多跟踪器协同模型的输出
Figure 12169DEST_PATH_IMAGE003
和单光级联检测步骤输出的
Figure 464010DEST_PATH_IMAGE004
进 行置信度比较,将其中置信度最高的作为最终的长时目标跟踪的结果进行输出。
作为本发明的进一步改进,在所述决策步骤中,依据式(5-1)选择出最优的目标状 态
Figure DEST_PATH_IMAGE005
作为最终的输出,
Figure 489910DEST_PATH_IMAGE006
(5-1)
上式中
Figure 445228DEST_PATH_IMAGE007
代表相关相似度,
Figure 470953DEST_PATH_IMAGE008
代表初始帧的目标状态,
Figure 174204DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE013
作为本发明的进一步改进,在所述图像特征对齐步骤中,将可见光图像和热红外 图像输入到一个离线训练好的特征对齐模块中,输入的可见光图像特征和热红外图像特征 分别为
Figure 186154DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
,将可见光图像特征作为参考特征,通过预测的偏移量来调整热红外图像特 征,调整后的热红外图像特征为
Figure 966284DEST_PATH_IMAGE016
Figure 897331DEST_PATH_IMAGE017
(5-2)
Figure 589344DEST_PATH_IMAGE018
(5-3)
Figure 762574DEST_PATH_IMAGE019
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接 的特征通过卷积操作
Figure 20380DEST_PATH_IMAGE020
预测出可见光与热红外特征点之间的偏移量
Figure 591170DEST_PATH_IMAGE021
Figure 770478DEST_PATH_IMAGE022
操作根据 学习出来的偏移量对热红外图像特征进行调整,且
Figure 484750DEST_PATH_IMAGE022
采用可形变卷积实现。
作为本发明的进一步改进,在所述特征融合步骤,
Figure 65904DEST_PATH_IMAGE023
,R为实数域,
Figure 338753DEST_PATH_IMAGE025
代表其为C×H×W维的实数张量,进行形状调整后得到四个嵌入特征
Figure 5358DEST_PATH_IMAGE026
,代表大小都为HW×C的张量,之后对
Figure DEST_PATH_IMAGE027
Figure 254812DEST_PATH_IMAGE028
Figure 690472DEST_PATH_IMAGE029
Figure 134223DEST_PATH_IMAGE030
分别进行 矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 22544DEST_PATH_IMAGE031
(5-5)
Figure 344198DEST_PATH_IMAGE032
(5-6)
将可见光的跨通道相似矩阵
Figure 634365DEST_PATH_IMAGE033
与热红外的跨通道相似矩阵
Figure 514596DEST_PATH_IMAGE034
进行矩阵 点乘操作,从而得到模态共享的语义模式传播矩阵,
Figure 890214DEST_PATH_IMAGE035
(5-7)
Figure 747049DEST_PATH_IMAGE036
代表过滤操作,将小于0的值设置为0,
Figure 157302DEST_PATH_IMAGE037
为归一化操作;
将语义模式传播矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义信息,
Figure 5172DEST_PATH_IMAGE038
(5-8)
Figure 868086DEST_PATH_IMAGE039
(5-9)
可见光和热红外图像中模态共享的空间信息,
Figure 746523DEST_PATH_IMAGE040
(5-10)
在式(5-10)中,
Figure 214544DEST_PATH_IMAGE042
代表模态共享的空间模式传播矩阵,
Figure 436578DEST_PATH_IMAGE043
(5-11)
使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 583526DEST_PATH_IMAGE044
(5-12)
Figure 47743DEST_PATH_IMAGE045
(5-13)
Figure 167009DEST_PATH_IMAGE046
是可调整的超参数。
作为本发明的进一步改进,在所述多跟踪器协同模型中,采用多个传统跟踪器与 一个深度学习类跟踪器进行协同跟踪,对于每一帧图像,n个传统跟踪器的预测结果为
Figure 294365DEST_PATH_IMAGE047
,深度学习类跟踪器的预测结果为
Figure 131871DEST_PATH_IMAGE048
,根据式(5-14)确定最终的预测结果
Figure 137129DEST_PATH_IMAGE049
Figure 376481DEST_PATH_IMAGE050
(5-14)
在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 878000DEST_PATH_IMAGE051
(5-15)。
作为本发明的进一步改进,在方差检测器中,对
Figure 999540DEST_PATH_IMAGE052
个图像片的检测任务,采用 dynamic策略将检测任务划分成大小为
Figure 805560DEST_PATH_IMAGE053
的任务块,并采用n个线程并行执行每个任务 块,其中初始化线程的数量按照下式的策略确定,
Figure 633839DEST_PATH_IMAGE054
(5-16)
在集合检测器中,对
Figure 368576DEST_PATH_IMAGE055
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中 的线程组织为
Figure 915095DEST_PATH_IMAGE056
个线程块,在GPU中,线程块中的每个线程负责计算该图像片上一对特 征点的像素比较值,每个线程块依据该比较值完成对一个图像片的检测;
Figure 730998DEST_PATH_IMAGE057
(5-17)
Figure 679362DEST_PATH_IMAGE058
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该 相似度值对其进行检测分类,假设先前的正样本和负样本数量分别为
Figure 585002DEST_PATH_IMAGE059
Figure 117352DEST_PATH_IMAGE060
,对于
Figure 766639DEST_PATH_IMAGE061
Figure 569510DEST_PATH_IMAGE062
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的 线程组织为
Figure 442788DEST_PATH_IMAGE063
个大小为
Figure 963899DEST_PATH_IMAGE062
的线程块;在GPU中,线程块中的每个线程负责 计算一个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值 完成对一个图像片的检测。
本发明还提供了一种长时目标跟踪系统,包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块,
所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型;
所述单光级联检测模块包括方差检测器、集合检测器、最近邻检测器;
所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像,
将可见光图像和热红外图像输入到双光融合跟踪模块,可见光图像和热红外图像 依次经过图像特征对齐模块、特征融合模块、多跟踪器协同模型后预测得到下一帧的目标 状态
Figure 652763DEST_PATH_IMAGE064
将可见光图像输入到单光级联检测模块,对可见光图像通过滑动窗口生成多个候 选目标图像块,将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理 后预测得到下一帧的目标状态
Figure 575720DEST_PATH_IMAGE002
Figure 557582DEST_PATH_IMAGE001
Figure 565989DEST_PATH_IMAGE065
输入到决策模块中,将
Figure 55614DEST_PATH_IMAGE001
Figure 629815DEST_PATH_IMAGE065
进行置信度比较,将其中置信 度最高的作为最终的长时目标跟踪的结果进行输出。
作为本发明的进一步改进,在所述决策模块中,依据式(5-1)选择出最优的目标状 态
Figure 48158DEST_PATH_IMAGE005
作为最终的输出,
Figure 278282DEST_PATH_IMAGE006
(5-1)
上式中
Figure 766071DEST_PATH_IMAGE007
代表相关相似度,
Figure 663620DEST_PATH_IMAGE008
代表初始帧的目标状态,
Figure 252864DEST_PATH_IMAGE066
Figure 235864DEST_PATH_IMAGE068
Figure 801712DEST_PATH_IMAGE070
作为本发明的进一步改进,所述图像特征对齐模块:用于对可见光图像和热红外图像进行处理,使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
所述特征融合模块:用于将对齐后的双光图像特征进行空间和语义层级的融合;
所述多跟踪器协同模型基于融合后的特征和当前帧目标状态预测下一帧中目标 的状态
Figure 288188DEST_PATH_IMAGE003
作为本发明的进一步改进,在所述图像特征对齐模块中,输入的可见光图像特征 和热红外图像特征分别为
Figure 313913DEST_PATH_IMAGE014
Figure 315367DEST_PATH_IMAGE015
,将可见光图像特征作为参考特征,通过预测的偏移量来 调整热红外图像特征,调整后的热红外图像特征为
Figure 953415DEST_PATH_IMAGE016
Figure 294398DEST_PATH_IMAGE017
(5-2)
Figure 225445DEST_PATH_IMAGE018
(5-3)
Figure 917457DEST_PATH_IMAGE019
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接 的特征通过卷积操作
Figure 388890DEST_PATH_IMAGE020
预测出可见光与热红外特征点之间的偏移量
Figure 348494DEST_PATH_IMAGE021
Figure 716021DEST_PATH_IMAGE022
操作根据 学习出来的偏移量对热红外图像特征进行调整,且
Figure 364171DEST_PATH_IMAGE022
采用可形变卷积实现。
作为本发明的进一步改进,在所述特征融合模块中,
Figure 842557DEST_PATH_IMAGE023
,R为实数域,
Figure 721914DEST_PATH_IMAGE072
代表其为C×H×W维的实数张量,进行形状调整后得到四个嵌入特征
Figure 994763DEST_PATH_IMAGE026
,代表大小都为HW×C的张量,之后对
Figure 661368DEST_PATH_IMAGE027
Figure 412286DEST_PATH_IMAGE028
Figure 346482DEST_PATH_IMAGE029
Figure 790233DEST_PATH_IMAGE030
分别进行 矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 944133DEST_PATH_IMAGE031
(5-5)
Figure 561059DEST_PATH_IMAGE032
(5-6)
将可见光的跨通道相似矩阵
Figure 585647DEST_PATH_IMAGE033
与热红外的跨通道相似矩阵
Figure 967343DEST_PATH_IMAGE034
进行矩阵 点乘操作,从而得到模态共享的语义模式传播矩阵,
Figure 342961DEST_PATH_IMAGE035
(5-7)
Figure 701261DEST_PATH_IMAGE036
代表过滤操作,将小于0的值设置为0,
Figure 908252DEST_PATH_IMAGE037
为归一化操作;
将语义模式传播矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义信息,
Figure 192340DEST_PATH_IMAGE038
(5-8)
Figure 789675DEST_PATH_IMAGE039
(5-9)
可见光和热红外图像中模态共享的空间信息,
Figure 951666DEST_PATH_IMAGE040
(5-10)
在式(5-10)中,
Figure 216425DEST_PATH_IMAGE074
代表模态共享的空间模式传播矩阵,
Figure 951643DEST_PATH_IMAGE043
(5-11)
使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 301853DEST_PATH_IMAGE044
(5-12)
Figure 1955DEST_PATH_IMAGE045
(5-13)
Figure 121221DEST_PATH_IMAGE046
是可调整的超参数。
作为本发明的进一步改进,在所述多跟踪器协同模型中,采用多个传统跟踪器与 一个深度学习类跟踪器进行协同跟踪,对于每一帧图像,n个传统跟踪器的预测结果为
Figure 12691DEST_PATH_IMAGE047
,深度学习类跟踪器的预测结果为
Figure 646935DEST_PATH_IMAGE048
,根据式(5-14)确定最终的预测结果
Figure 150729DEST_PATH_IMAGE049
Figure 858922DEST_PATH_IMAGE050
(5-14)
在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 422758DEST_PATH_IMAGE051
(5-15)。
作为本发明的进一步改进,在方差检测器中,对
Figure 249025DEST_PATH_IMAGE052
个图像片的检测任务,采用 dynamic策略将检测任务划分成大小为
Figure 87668DEST_PATH_IMAGE053
的任务块,并采用n个线程并行执行每个任务 块,其中初始化线程的数量按照下式的策略确定,
Figure 181526DEST_PATH_IMAGE054
(5-16)
在集合检测器中,对
Figure 916264DEST_PATH_IMAGE055
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中 的线程组织为
Figure 695739DEST_PATH_IMAGE056
个线程块,在GPU中,线程块中的每个线程负责计算该图像片上一对特 征点的像素比较值,每个线程块依据该比较值完成对一个图像片的检测;
Figure 806914DEST_PATH_IMAGE057
(5-17)
Figure 552016DEST_PATH_IMAGE058
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该 相似度值对其进行检测分类,假设先前的正样本和负样本数量分别为
Figure 457656DEST_PATH_IMAGE059
Figure 491471DEST_PATH_IMAGE060
,对于
Figure 376643DEST_PATH_IMAGE061
Figure 445094DEST_PATH_IMAGE062
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的 线程组织为
Figure 256055DEST_PATH_IMAGE063
个大小为
Figure 777166DEST_PATH_IMAGE062
的线程块;在GPU中,线程块中的每个线程负责 计算一个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值 完成对一个图像片的检测。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明的长时目标跟踪方法的步骤。
本发明的有益效果是:本发明的长时目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与实时性。
附图说明
图1是本发明的长时目标跟踪系统原理图。
具体实施方式
本发明公开了一种长时目标跟踪方法,包括如下步骤:
数据读取步骤:从可见光和热红外摄像头读取可见光图像和热红外图像,在之后的处理中,可见光图像将作为检测算法的唯一输入,热红外图像和可见光图像将作为双光目标跟踪的输入;
图像特征对齐步骤:将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中,经过该特征对齐模块的处理使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
特征融合步骤:将对齐后的双光图像特征输入到一个离线训练好的特征融合模块中,在特征融合模块中对双光图像特征进行空间和语义层级的融合;
多跟踪器协同预测步骤:多跟踪器协同模型基于融合后的特征和当前帧目标状态 预测下一帧中目标的状态
Figure 259838DEST_PATH_IMAGE001
单光级联检测步骤:对可见光图像通过滑动窗口生成大量候选目标图像块,将候 选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧 的目标状态
Figure 182794DEST_PATH_IMAGE002
决策步骤:将多跟踪器协同模型的输出
Figure 430236DEST_PATH_IMAGE001
和单光级联检测步骤输出的
Figure 438643DEST_PATH_IMAGE075
进 行置信度比较,将其中置信度最高的作为最终的长时目标跟踪的结果进行输出。
在所述决策步骤中,依据式(5-1)选择出最优的目标状态
Figure 931198DEST_PATH_IMAGE005
作为最终的输 出,
Figure 708661DEST_PATH_IMAGE006
(5-1)
上式中
Figure 127004DEST_PATH_IMAGE007
代表相关相似度,
Figure 357128DEST_PATH_IMAGE008
代表初始帧的目标状态。
现有的基于跟踪与检测结合的长时跟踪算法仅使用可见光图像作为输入,因可见光图像的成像特性,导致该类算法在夜晚、雨雾天等场景中难以取得满意的跟踪效果。为了解决这个问题,本发明新增热红外图像作为额外的输入,如图1所示,本发明还公开了一种双光(可见光和热红外)目标跟踪与单光(可见光)检测相结合的长时目标跟踪系统,包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块,
所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型;
所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像,
将可见光图像和热红外图像输入到双光融合跟踪模块,可见光图像和热红外图像 依次经过图像特征对齐模块、特征融合模块、多跟踪器协同模型后预测得到下一帧的目标 状态
Figure 650444DEST_PATH_IMAGE064
将可见光图像输入到单光级联检测模块,对可见光图像通过滑动窗口生成大量候 选目标图像块,将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理 后预测得到下一帧的目标状态
Figure 485676DEST_PATH_IMAGE002
Figure 871658DEST_PATH_IMAGE001
Figure 854657DEST_PATH_IMAGE065
输入到决策模块中,将
Figure 880558DEST_PATH_IMAGE001
Figure 632614DEST_PATH_IMAGE065
进行置信度比较,将其中置信 度最高的作为最终的长时目标跟踪的结果进行输出。
在所述决策模块中,依据式(5-1)选择出最优的目标状态
Figure 658338DEST_PATH_IMAGE005
作为最终的输 出,
Figure 863055DEST_PATH_IMAGE006
(5-1)
上式中
Figure 232594DEST_PATH_IMAGE007
代表相关相似度,
Figure 839156DEST_PATH_IMAGE008
代表初始帧的目标状态。
所述图像特征对齐模块:用于对可见光图像和热红外图像进行处理,使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
所述特征融合模块:用于将对齐后的双光图像特征进行空间和语义层级的融合;
所述多跟踪器协同模型基于融合后的特征和当前帧目标状态预测下一帧中目标 的状态
Figure 35782DEST_PATH_IMAGE001
下面进行具体详细说明:
1. 图像特征对齐模块:
为解决可见光和热红外图像对位置偏移的问题,本发明在特征层级对热红外图像 特征进行调整,即通过监督学习的特征偏差来微调热红外图像特征。假设输入的可见光图 像特征和热红外图像特征分别为
Figure 462215DEST_PATH_IMAGE014
Figure 903954DEST_PATH_IMAGE015
,将可见光图像特征作为参考特征,通过预测的偏 移量来调整热红外图像特征,调整后的热红外图像特征为
Figure 365023DEST_PATH_IMAGE016
Figure 201392DEST_PATH_IMAGE017
(5-2)
Figure 380700DEST_PATH_IMAGE018
(5-3)
上式中,
Figure 357621DEST_PATH_IMAGE019
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接的特征通过卷积操作
Figure 673196DEST_PATH_IMAGE020
预测出可见光与热红外特征点之间的偏移量
Figure 211625DEST_PATH_IMAGE021
Figure 612650DEST_PATH_IMAGE022
操 作根据学习出来的偏移量对热红外图像特征进行调整,且
Figure 661771DEST_PATH_IMAGE022
采用可形变卷积实现。
在离线训练图像对齐模块时,我们采用人为标注的真实标签
Figure 831852DEST_PATH_IMAGE076
来监督训练该模 块,其中训练时我们采用均方误差损失MSE,即
Figure 275603DEST_PATH_IMAGE077
(5-4)
2. 特征融合模块:
为避免可见光和热红外模态差异带来的不良影响,本发明提出一种基于通道与空 间模式传播的特征融合方法。假设输入的可见光图像特征和热红外图像特征分别为
Figure 429504DEST_PATH_IMAGE014
Figure 748228DEST_PATH_IMAGE015
,且
Figure 38395DEST_PATH_IMAGE023
,对这些特征进行形状调整后得到
Figure 918626DEST_PATH_IMAGE026
,之后对
Figure 294244DEST_PATH_IMAGE027
Figure 622850DEST_PATH_IMAGE028
Figure 767524DEST_PATH_IMAGE029
Figure 84236DEST_PATH_IMAGE030
分别进行矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 445684DEST_PATH_IMAGE031
(5-5)
Figure DEST_PATH_IMAGE079
(5-6)
上式计算出来的跨通道相似矩阵对同一模态内的长距离语义关系进行了建模。将 可见光的跨通道相似矩阵
Figure 545359DEST_PATH_IMAGE033
与热红外的跨通道相似矩阵
Figure 810118DEST_PATH_IMAGE034
进行矩阵点乘操作, 从而得到模态共享的语义模式传播矩阵,
Figure 217439DEST_PATH_IMAGE035
(5-7)
上式中
Figure 567649DEST_PATH_IMAGE036
代表过滤操作,将小于0的值设置为0,
Figure 533331DEST_PATH_IMAGE037
为归一化操作。将语义模式传播 矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义 信息,
Figure 151132DEST_PATH_IMAGE038
(5-8)
Figure 747330DEST_PATH_IMAGE039
(5-9)
与通道模式传播类似,基于模态共享的空间模式传播矩阵,我们可以得到可见光和热红外图像中模态共享的空间信息,
Figure 381573DEST_PATH_IMAGE080
(5-10)
Figure 885367DEST_PATH_IMAGE082
(5-11)
为了实现模态共享特征之间的相互补充,我们使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 563866DEST_PATH_IMAGE044
(5-12)
Figure 393282DEST_PATH_IMAGE045
(5-13)
上式中,
Figure 452505DEST_PATH_IMAGE046
都是可调整的超参数。式(5-12)和(5-13)中,模态共享的语义 与空间信息被加入到另一个模态的原信息中,因此模态共享的语义和空间信息实现了互惠 互利,同时也保护了模态的特有特征。
综上,为了解决现有的双光特征融合不足的问题,本发明提出了一种基于模式传播的双光特征融合方法,通过模态间模式的相关性,可以在保护模态特有特征的同时实现模态共享特征间的充分交互,从而提高跟踪的性能。
本发明不同于背景技术的方法,本发明更准备的说是一种双光目标跟踪与单光检测相结合的跟踪方法,提出了一系列方法来兼顾跟踪质量和计算效率。在特征融合方面,现有的特征融合方法均采用的是模态数据直接交互(相加、通道拼接等)的方式,虽然实现了模态共享信息的增强,但该方式会对模态特有特征造成污染。本发明在实现模态共享特征的交互的同时,考虑了对模态特有特征的保护。
3. 多跟踪器协同模型:
为了解决传统跟踪器速度快但性能不高、深度学习类跟踪器性能高但速度慢的问题,我们提出一种传统跟踪器与深度学习类跟踪器相互协同的模型,该模型可以兼顾速度与精度。
在该模型中,我们采用多个传统跟踪器(将不使用卷积网络进行推理计算的跟踪 算法定义为传统跟踪器)与一个深度学习类跟踪器(将使用卷积网络进行推理计算的跟踪 算法定义为深度学习类跟踪器)进行协同跟踪。对于每一帧图像,n个传统跟踪器的预测结 果为
Figure 759990DEST_PATH_IMAGE047
,深度学习类跟踪器的预测结果为
Figure 352383DEST_PATH_IMAGE048
,根据式(5-14)确定最终的预测结果
Figure 290383DEST_PATH_IMAGE049
Figure 836902DEST_PATH_IMAGE050
(5-14)
由于深度学习类跟踪器的运行速度慢,所以我们只在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 449542DEST_PATH_IMAGE051
(5-15)
4. 基于OpenMP和Cuda的CPU-GPU异构并行加速方法
为了解决级联检测中检测器运行速度慢的问题,我们基于OpenMP对方差检测器进行CPU并行化加速,基于Cuda对集合检测器和最近邻检测器进行GPU并行化加速。
在方差检测器中,对
Figure 601169DEST_PATH_IMAGE052
个图像片的检测任务,采用dynamic策略将检测任务划分成 大小为
Figure 506808DEST_PATH_IMAGE053
的任务块,并采用n个线程并行执行每个任务块,其中初始化线程的数量按照下 式的策略确定,
Figure DEST_PATH_IMAGE083
(5-16)
在集合检测器中,对
Figure 242420DEST_PATH_IMAGE055
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中 的线程组织为
Figure 94970DEST_PATH_IMAGE056
个线程块,其中
Figure 428999DEST_PATH_IMAGE084
由下式确定。在GPU中,线程块中的每个线程负责 计算该图像片上一对特征点的像素比较值,每个线程块依据该比较值完成对一个图像片的 检测。
Figure 210267DEST_PATH_IMAGE057
(5-17)
Figure 731378DEST_PATH_IMAGE058
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该 相似度值对其进行检测分类。假设先前的正样本和负样本数量分别为
Figure 387619DEST_PATH_IMAGE059
Figure 809110DEST_PATH_IMAGE060
,对于
Figure 56552DEST_PATH_IMAGE061
Figure 64959DEST_PATH_IMAGE062
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的 线程组织为
Figure 56049DEST_PATH_IMAGE063
个大小为
Figure 792100DEST_PATH_IMAGE062
的线程块。在GPU中,线程块中的每个线程负责 计算一个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值 完成对一个图像片的检测。
本发明的有益效果是:通过上述方案,此长时目标跟踪器具有较高的跟踪精度、鲁棒性与实时性。具体表述为:
(1)对长时目标跟踪任务,本发明提出一种长时目标跟踪系统(新的跟踪框架),将传统算法中的单光跟踪-单光检测的框架替换为双光融合跟踪-单光级联检测的跟踪框架,使跟踪算法在夜晚、雨雾天等复杂场景下具有更强的鲁棒性。
(2)针对可见光和热红外图像对位置偏移的问题,设计了一个图像特征对齐模块用于动态调整热红外图像特征,使得热红外图像特征与可见光图像特征在空间上对齐,使跟踪算法可以适用于图像不完全对齐的情况,扩大了跟踪算法的应用场景。
(3)针对模态差异给跟踪带来不良影响的问题,提出一种基于通道与空间模式传播的特征融合方法,该方法避免了可见光与热红外两种模态之间的直接交互,基于模态共享的语义与空间信息建模,提高了特征融合的有效性。
(4)提出多跟踪器协同模型,利用多个传统跟踪算法与深度学习类跟踪算法进行协同跟踪,兼顾了传统跟踪器的速度与深度学习类跟踪器的精度,使跟踪算法具有更高的精度与实时性。
(5)针对长时跟踪算法中检测器速度慢的问题,提出基于OpenMP与Cuda的CPU-GPU异构并行加速方案,对级联检测器中的方差检测器进行CPU并行加速,对集合检测器和最近邻检测器进行GPU并行加速,解决了检测器带来的速度瓶颈问题。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (14)

1.一种长时目标跟踪方法,其特征在于,包括如下步骤:
数据读取步骤:从可见光和热红外摄像头读取可见光图像和热红外图像;
图像特征对齐步骤:将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中,经过该特征对齐模块的处理使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
特征融合步骤:将对齐后的双光图像特征输入到一个离线训练好的特征融合模块中,在轻量特征融合模块中对双光图像特征进行空间和语义层级的融合;
多跟踪器协同预测步骤:多跟踪器协同模型基于融合后的特征和当前帧目标状态预测 下一帧中目标的状态
Figure DEST_PATH_IMAGE001
单光级联检测步骤:对可见光图像通过滑动窗口生成多个候选目标图像块,将候选目 标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧的目 标状态
Figure 745403DEST_PATH_IMAGE002
决策步骤:将多跟踪器协同模型的输出
Figure 256019DEST_PATH_IMAGE001
和单光级联检测步骤输出的
Figure 504598DEST_PATH_IMAGE003
进行置信 度比较,将其中置信度最高的作为最终的长时目标跟踪的结果进行输出。
2.根据权利要求1所述的长时目标跟踪方法,其特征在于,在所述决策步骤中,依据式 (5-1)选择出最优的目标状态
Figure 493283DEST_PATH_IMAGE004
作为最终的输出,
Figure 776496DEST_PATH_IMAGE005
(5-1)
上式中
Figure 428320DEST_PATH_IMAGE006
代表相关相似度,
Figure 288828DEST_PATH_IMAGE007
代表初始帧的目标状态,
Figure 956570DEST_PATH_IMAGE008
Figure 218924DEST_PATH_IMAGE009
Figure 681130DEST_PATH_IMAGE010
3.根据权利要求1所述的长时目标跟踪方法,其特征在于,在所述图像特征对齐步骤 中,将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中,输入的可见光 图像特征和热红外图像特征分别为
Figure 28934DEST_PATH_IMAGE011
Figure 234788DEST_PATH_IMAGE012
,将可见光图像特征作为参考特征,通过预测的 偏移量来调整热红外图像特征,调整后的热红外图像特征为
Figure 853113DEST_PATH_IMAGE013
Figure 751799DEST_PATH_IMAGE014
(5-2)
Figure 586900DEST_PATH_IMAGE015
(5-3)
Figure 330865DEST_PATH_IMAGE016
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接的特 征通过卷积操作
Figure 567811DEST_PATH_IMAGE017
预测出可见光与热红外特征点之间的偏移量
Figure 371819DEST_PATH_IMAGE018
Figure 694216DEST_PATH_IMAGE019
操作根据学习 出来的偏移量对热红外图像特征进行调整,且
Figure 507451DEST_PATH_IMAGE019
采用可形变卷积实现。
4.根据权利要求3所述的长时目标跟踪方法,其特征在于,在所述特征融合步骤,
Figure 474270DEST_PATH_IMAGE020
,R为实数域,
Figure 340857DEST_PATH_IMAGE021
代表其为C×H×W维的实数张量,进行形状调整后 得到四个嵌入特征
Figure 760337DEST_PATH_IMAGE022
,代表大小都为HW×C的张量,之后对
Figure 236318DEST_PATH_IMAGE023
Figure 57644DEST_PATH_IMAGE024
Figure 593667DEST_PATH_IMAGE025
Figure 500443DEST_PATH_IMAGE026
分别进行矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 514536DEST_PATH_IMAGE027
(5-5)
Figure 455947DEST_PATH_IMAGE028
(5-6)
将可见光的跨通道相似矩阵
Figure 664337DEST_PATH_IMAGE029
与热红外的跨通道相似矩阵
Figure 58409DEST_PATH_IMAGE030
进行矩阵点乘 操作,从而得到模态共享的语义模式传播矩阵,
Figure 876192DEST_PATH_IMAGE031
(5-7)
Figure 406531DEST_PATH_IMAGE032
代表过滤操作,将小于0的值设置为0,
Figure 284357DEST_PATH_IMAGE033
为归一化操作;
将语义模式传播矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义信息,
Figure 165725DEST_PATH_IMAGE034
(5-8)
Figure 52778DEST_PATH_IMAGE036
(5-9)
可见光和热红外图像中模态共享的空间信息,
Figure 703203DEST_PATH_IMAGE037
(5-10)
在式(5-10)中,
Figure 976097DEST_PATH_IMAGE038
代表模态共享的空间模式传播矩阵,
Figure 344761DEST_PATH_IMAGE039
(5-11)
使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 504347DEST_PATH_IMAGE040
(5-12)
Figure DEST_PATH_IMAGE041
(5-13)
Figure 868333DEST_PATH_IMAGE042
是可调整的超参数。
5.根据权利要求4所述的长时目标跟踪方法,其特征在于,在所述多跟踪器协同模型 中,采用多个传统跟踪器与一个深度学习类跟踪器进行协同跟踪,对于每一帧图像,n个传 统跟踪器的预测结果为
Figure 697748DEST_PATH_IMAGE043
,深度学习类跟踪器的预测结果为
Figure 678343DEST_PATH_IMAGE044
,根据式(5-14)确 定最终的预测结果
Figure 782565DEST_PATH_IMAGE045
Figure 142002DEST_PATH_IMAGE046
(5-14)
在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 33997DEST_PATH_IMAGE047
(5-15)。
6.根据权利要求1所述的长时目标跟踪方法,其特征在于,
在方差检测器中,对
Figure 111674DEST_PATH_IMAGE048
个图像片的检测任务,采用dynamic策略将检测任务划分成大小 为
Figure 878642DEST_PATH_IMAGE049
的任务块,并采用n个线程并行执行每个任务块,其中初始化线程的数量按照下式的 策略确定,
Figure 358165DEST_PATH_IMAGE050
(5-16)
在集合检测器中,对
Figure 919596DEST_PATH_IMAGE051
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中的线 程组织为
Figure 484570DEST_PATH_IMAGE052
个线程块,在GPU中,线程块中的每个线程负责计算该图像片上一对特征点 的像素比较值,每个线程块依据该比较值完成对一个图像片的检测;
Figure 789649DEST_PATH_IMAGE053
(5-17)
Figure 123679DEST_PATH_IMAGE054
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该相似 度值对其进行检测分类,假设先前的正样本和负样本数量分别为
Figure 357476DEST_PATH_IMAGE055
Figure 409746DEST_PATH_IMAGE056
,对于
Figure 518516DEST_PATH_IMAGE057
Figure 972631DEST_PATH_IMAGE058
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的线程组 织为
Figure 875865DEST_PATH_IMAGE059
个大小为
Figure 415431DEST_PATH_IMAGE058
的线程块;在GPU中,线程块中的每个线程负责计算一 个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值完成对 一个图像片的检测。
7.一种长时目标跟踪系统,其特征在于,包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块,
所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型;
所述单光级联检测模块包括方差检测器、集合检测器、最近邻检测器;
所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像,
将可见光图像和热红外图像输入到双光融合跟踪模块,可见光图像和热红外图像依次 经过图像特征对齐模块、特征融合模块、多跟踪器协同模型后预测得到下一帧的目标状态
Figure 62313DEST_PATH_IMAGE060
将可见光图像输入到单光级联检测模块,对可见光图像通过滑动窗口生成多个候选目 标图像块,将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预 测得到下一帧的目标状态
Figure 370934DEST_PATH_IMAGE002
Figure 946535DEST_PATH_IMAGE001
Figure 707817DEST_PATH_IMAGE061
输入到决策模块中,将
Figure 299335DEST_PATH_IMAGE001
Figure 321518DEST_PATH_IMAGE061
进行置信度比较,将其中置信度最 高的作为最终的长时目标跟踪的结果进行输出。
8.根据权利要求7所述的长时目标跟踪系统,其特征在于,在所述决策模块中,依据式 (5-1)选择出最优的目标状态
Figure 566555DEST_PATH_IMAGE004
作为最终的输出,
Figure 346292DEST_PATH_IMAGE005
(5-1)
上式中
Figure 210343DEST_PATH_IMAGE006
代表相关相似度,
Figure 352611DEST_PATH_IMAGE007
代表初始帧的目标状态,
Figure 909494DEST_PATH_IMAGE008
Figure 271468DEST_PATH_IMAGE062
Figure 939209DEST_PATH_IMAGE063
9.根据权利要求7所述的长时目标跟踪系统,其特征在于,
所述图像特征对齐模块:用于对可见光图像和热红外图像进行处理,使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
所述特征融合模块:用于将对齐后的双光图像特征进行空间和语义层级的融合;
所述多跟踪器协同模型基于融合后的特征和当前帧目标状态预测下一帧中目标的状 态
Figure 935984DEST_PATH_IMAGE064
10.根据权利要求9所述的长时目标跟踪系统,其特征在于,在所述图像特征对齐模块 中,输入的可见光图像特征和热红外图像特征分别为
Figure 663769DEST_PATH_IMAGE011
Figure 11574DEST_PATH_IMAGE012
,将可见光图像特征作为参考 特征,通过预测的偏移量来调整热红外图像特征,调整后的热红外图像特征为
Figure 217427DEST_PATH_IMAGE013
Figure 334288DEST_PATH_IMAGE014
(5-2)
Figure 232973DEST_PATH_IMAGE015
(5-3)
Figure 303960DEST_PATH_IMAGE016
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接的特 征通过卷积操作
Figure 313504DEST_PATH_IMAGE017
预测出可见光与热红外特征点之间的偏移量
Figure 816030DEST_PATH_IMAGE018
Figure 354458DEST_PATH_IMAGE019
操作根据学习 出来的偏移量对热红外图像特征进行调整,且
Figure 942435DEST_PATH_IMAGE019
采用可形变卷积实现。
11.根据权利要求10所述的长时目标跟踪系统,其特征在于,在所述特征融合模块中,
Figure 490091DEST_PATH_IMAGE020
,R为实数域,
Figure 581543DEST_PATH_IMAGE065
代表其为C×H×W维的实数张量,进行形状调整后 得到四个嵌入特征
Figure 556453DEST_PATH_IMAGE022
,代表大小都为HW×C的张量,之后对
Figure 867611DEST_PATH_IMAGE023
Figure 218957DEST_PATH_IMAGE024
Figure 164917DEST_PATH_IMAGE025
Figure 576306DEST_PATH_IMAGE026
分别进行矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 607716DEST_PATH_IMAGE027
(5-5)
Figure 762754DEST_PATH_IMAGE028
(5-6)
将可见光的跨通道相似矩阵
Figure 563220DEST_PATH_IMAGE029
与热红外的跨通道相似矩阵
Figure 879932DEST_PATH_IMAGE030
进行矩阵点乘 操作,从而得到模态共享的语义模式传播矩阵,
Figure 539583DEST_PATH_IMAGE031
(5-7)
Figure 593252DEST_PATH_IMAGE032
代表过滤操作,将小于0的值设置为0,
Figure 513804DEST_PATH_IMAGE033
为归一化操作;
将语义模式传播矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义信息,
Figure 266996DEST_PATH_IMAGE034
(5-8)
Figure 272998DEST_PATH_IMAGE066
(5-9)
可见光和热红外图像中模态共享的空间信息,
Figure 504259DEST_PATH_IMAGE037
(5-10)
在式(5-10)中,
Figure 420263DEST_PATH_IMAGE067
代表模态共享的空间模式传播矩阵,
Figure 468990DEST_PATH_IMAGE039
(5-11)
使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 837655DEST_PATH_IMAGE040
(5-12)
Figure 510424DEST_PATH_IMAGE041
(5-13)
Figure 15355DEST_PATH_IMAGE042
是可调整的超参数。
12.根据权利要求11所述的长时目标跟踪系统,其特征在于,在所述多跟踪器协同模型 中,采用多个传统跟踪器与一个深度学习类跟踪器进行协同跟踪,对于每一帧图像,n个传 统跟踪器的预测结果为
Figure 234984DEST_PATH_IMAGE043
,深度学习类跟踪器的预测结果为
Figure 90944DEST_PATH_IMAGE044
,根据式(5-14)确 定最终的预测结果
Figure 788642DEST_PATH_IMAGE045
Figure 413658DEST_PATH_IMAGE046
(5-14)
在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 804188DEST_PATH_IMAGE047
(5-15)。
13.根据权利要求7所述的长时目标跟踪系统,其特征在于,
在方差检测器中,对
Figure 881866DEST_PATH_IMAGE048
个图像片的检测任务,采用dynamic策略将检测任务划分成大小 为
Figure 150298DEST_PATH_IMAGE049
的任务块,并采用n个线程并行执行每个任务块,其中初始化线程的数量按照下式的 策略确定,
Figure 629821DEST_PATH_IMAGE050
(5-16)
在集合检测器中,对
Figure 456832DEST_PATH_IMAGE051
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中的线 程组织为
Figure 756226DEST_PATH_IMAGE052
个线程块,在GPU中,线程块中的每个线程负责计算该图像片上一对特征点 的像素比较值,每个线程块依据该比较值完成对一个图像片的检测;
Figure 61305DEST_PATH_IMAGE053
(5-17)
Figure 660914DEST_PATH_IMAGE054
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该相似 度值对其进行检测分类,假设先前的正样本和负样本数量分别为
Figure 393247DEST_PATH_IMAGE055
Figure 445516DEST_PATH_IMAGE056
,对于
Figure 790172DEST_PATH_IMAGE057
Figure 244287DEST_PATH_IMAGE058
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的线程组 织为
Figure 147521DEST_PATH_IMAGE059
个大小为
Figure 687087DEST_PATH_IMAGE058
的线程块;在GPU中,线程块中的每个线程负责计算一 个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值完成对 一个图像片的检测。
14.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-6中任一项所述的长时目标跟踪方法的步骤。
CN202211188338.5A 2022-09-28 2022-09-28 一种长时目标跟踪方法、系统及存储介质 Active CN115272420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211188338.5A CN115272420B (zh) 2022-09-28 2022-09-28 一种长时目标跟踪方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211188338.5A CN115272420B (zh) 2022-09-28 2022-09-28 一种长时目标跟踪方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115272420A true CN115272420A (zh) 2022-11-01
CN115272420B CN115272420B (zh) 2023-01-17

Family

ID=83756985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211188338.5A Active CN115272420B (zh) 2022-09-28 2022-09-28 一种长时目标跟踪方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115272420B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598739A (zh) * 2020-12-25 2021-04-02 哈尔滨工业大学(深圳) 基于时空特征聚合网络的移动机器人红外目标跟踪方法、系统及存储介质
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN114022516A (zh) * 2021-11-15 2022-02-08 安徽大学 一种基于高秩特征和位置注意力的双模态视觉跟踪方法
WO2022100470A1 (en) * 2020-11-13 2022-05-19 Zhejiang Dahua Technology Co., Ltd. Systems and methods for target detection
CN114998220A (zh) * 2022-05-12 2022-09-02 湖南中医药大学 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN115063329A (zh) * 2022-06-10 2022-09-16 中国人民解放军国防科技大学 低光照环境下的可见光和红外图像融合增强方法及系统
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质
CN115170605A (zh) * 2022-06-15 2022-10-11 南京大学 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
WO2022217840A1 (zh) * 2021-04-15 2022-10-20 南京莱斯电子设备有限公司 一种复杂背景下高精度多目标跟踪方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022100470A1 (en) * 2020-11-13 2022-05-19 Zhejiang Dahua Technology Co., Ltd. Systems and methods for target detection
CN112598739A (zh) * 2020-12-25 2021-04-02 哈尔滨工业大学(深圳) 基于时空特征聚合网络的移动机器人红外目标跟踪方法、系统及存储介质
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
WO2022217840A1 (zh) * 2021-04-15 2022-10-20 南京莱斯电子设备有限公司 一种复杂背景下高精度多目标跟踪方法
CN114022516A (zh) * 2021-11-15 2022-02-08 安徽大学 一种基于高秩特征和位置注意力的双模态视觉跟踪方法
CN114998220A (zh) * 2022-05-12 2022-09-02 湖南中医药大学 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN115063329A (zh) * 2022-06-10 2022-09-16 中国人民解放军国防科技大学 低光照环境下的可见光和红外图像融合增强方法及系统
CN115170605A (zh) * 2022-06-15 2022-10-11 南京大学 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XINGCHEN ZHANG 等: "Object fusion tracking based on visible and infrared images: A comprehensive review", 《INFORMATION FUSION》 *
YUFEI ZHA 等: "Self-Supervised Cross-Modal Distillation for Thermal Infrared Tracking", 《IEEE MULTIMEDIA》 *
ZDENEK KALAL 等: "Tracking-Learning-Detection", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
罗禹杰 等: "基于自适应空间特征融合的轻量化目标检测算法", 《激光与光电子学进展》 *
陈聪: "基于深层网络的城市街道场景的语义分割的方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN115272420B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
Zhu et al. Hidden two-stream convolutional networks for action recognition
Ming et al. Deep learning for monocular depth estimation: A review
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
Xu et al. A systematic review and analysis of deep learning-based underwater object detection
CN111967480A (zh) 基于权重共享的多尺度自注意力目标检测方法
Zhou et al. Underwater image enhancement method with light scattering characteristics
CN113111979B (zh) 模型训练方法、图像检测方法及检测装置
CN115170605A (zh) 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
CN114067251B (zh) 一种无监督监控视频预测帧异常检测方法
Huang et al. Learning optical flow with R-CNN for visual odometry
Wu et al. Direct sparse odometry with planes
Li et al. Occlusion aware unsupervised learning of optical flow from video
CN115272420B (zh) 一种长时目标跟踪方法、系统及存储介质
CN117372764A (zh) 一种弱光环境下非合作目标检测方法
KR101268596B1 (ko) 정사각 코드북과 다중 경계 값이 적용된 텍스쳐 특징을 이용한 전경 검출 장치 및 방법
US20230090941A1 (en) Processing video content using gated transformer neural networks
WO2023049726A1 (en) Processing video content using gated transformer neural networks
CN115439738A (zh) 一种基于自监督协同重构的水下目标检测方法
Li et al. UStark: underwater image domain-adaptive tracker based on Stark
US20230031931A1 (en) Object tracking apparatus, object tracking method and recording medium
Qiu et al. ARODNet: adaptive rain image enhancement object detection network for autonomous driving in adverse weather conditions
Dong et al. Framework of degraded image restoration and simultaneous localization and mapping for multiple bad weather conditions
CN112926480B (zh) 一种面向多尺度、多朝向的航拍物体检测方法及系统
Hu et al. High-low level task combination for object detection in foggy weather conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant