CN115272420B - 一种长时目标跟踪方法、系统及存储介质 - Google Patents

一种长时目标跟踪方法、系统及存储介质 Download PDF

Info

Publication number
CN115272420B
CN115272420B CN202211188338.5A CN202211188338A CN115272420B CN 115272420 B CN115272420 B CN 115272420B CN 202211188338 A CN202211188338 A CN 202211188338A CN 115272420 B CN115272420 B CN 115272420B
Authority
CN
China
Prior art keywords
image
thermal infrared
visible light
module
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211188338.5A
Other languages
English (en)
Other versions
CN115272420A (zh
Inventor
何震宇
吴述坤
田超
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202211188338.5A priority Critical patent/CN115272420B/zh
Publication of CN115272420A publication Critical patent/CN115272420A/zh
Application granted granted Critical
Publication of CN115272420B publication Critical patent/CN115272420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本发明提供了一种长时目标跟踪方法、系统及存储介质,该长时目标跟踪系统包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块,所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型;所述单光级联检测模块包括方差检测器、集合检测器、最近邻检测器;所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像。本发明的有益效果是:本发明的长时目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与实时性。

Description

一种长时目标跟踪方法、系统及存储介质
技术领域
本发明涉及目标跟踪技术领域,尤其涉及一种长时目标跟踪方法、系统及存储介质。
背景技术
当前长时目标跟踪技术必须面对真实场景中的光照变化、目标消失再出现、剧烈的尺度变化等问题。为解决上述问题,基于跟踪与检测结合的长时跟踪方法主要是通过跟踪器进行短时跟踪, 检测器进行目标丢失时重捕获。
这种基于跟踪与检测结合的长时跟踪方法采用可见光图像作为唯一输入,其思想主要分为三个阶段,第一个阶段,跟踪器利用当前帧目标局部信息预测下一帧的目标状态,第二阶段是检测器利用当前帧全局信息预测下一帧的目标状态,第三个阶段是综合跟踪器和检测器的预测结果决策出下一帧的最优目标状态。
在数据的使用方面,现有的长时目标跟踪方法可以分为两类,一类是仅使用一种模态数据的跟踪方法,比如基于可见光的跟踪方法和基于热红外的跟踪方法;另一类是使用多种模态数据的跟踪方法,比如基于可见光-热红外的跟踪方法。第一类方法由于使用的数据类型有限,导致其应用场景受到很大限制;第二类方法使用了多种模态的数据,虽然可以应对更复杂的场景,但是输入数据的增加导致了计算量的增加。
背景技术的缺陷如下:
数据使用方面:现有的基于跟踪与检测结合的长时跟踪算法仅使用可见光图像作为输入,因可见光图像的成像特性,导致该类算法在夜晚、雨雾天等场景中难以取得满意的跟踪效果。
现有的双光特征融合的不足:现有的双光特征融合方法主要分为三类,一类是基于简单融合策略的方法 ,这些方法对双光图像特征通过逐元素相加和拼接等方式来实现特征的结合,该类方法忽略了不同模态的质量与相关性; 第二类是基于模态权重的融合方法,这些方法通过调节不同场景下可见光图像特征与热红外图像特征的权重来实现融合;第三类是基于注意力机制的融合方法 ,这些方法引入注意力机制来提高模型的局部或全局特征提取能力。而第二类和第三类特征融合方法直接对可见光和热红外图像特征进行融合操作,忽略了模态差异带来的不良影响,同时没有权衡好模态特有特征与模态共享特征的关系。
可见光和热红外图像对位置偏移的问题:现有的双光目标跟踪算法都假设可见光图像和热红外图像是严格对齐的,然而在实际场景中由于可见光摄像头和热红外摄像头的不同抖动程度、视差等因素的影响,导致获取的可见光和热红外图像对不是完全对齐的,也即存在位置偏移问题。位置偏移问题会严重影响跟踪算法的性能。
基于跟踪与检测相结合的长时跟踪算法运行速度的缺陷:现有的跟踪与检测结合的跟踪算法在目标丢失(目标运动出视野、目标被遮挡)时,采用全局搜索的检测器对丢失目标进行重捕获,也即通过滑动窗口遍历整幅可见光图像得到非常多的候选目标图像块,对这些候选图像块分别进行检测从而判断是否含有丢失的目标。当目标比较小时,需要检测的候选图像块数量非常庞大,从而导致算法运行速度慢。
发明内容
本发明提供了一种长时目标跟踪方法,包括如下步骤:
数据读取步骤:从可见光和热红外摄像头读取可见光图像和热红外图像;
图像特征对齐步骤:将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中,经过该特征对齐模块的处理使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
特征融合步骤:将对齐后的双光图像特征输入到一个离线训练好的特征融合模块中,在轻量特征融合模块中对双光图像特征进行空间和语义层级的融合;
多跟踪器协同预测步骤:多跟踪器协同模型基于融合后的特征和当前帧目标状态 预测下一帧中目标的状态
Figure DEST_PATH_IMAGE001
单光级联检测步骤:对可见光图像通过滑动窗口生成多个候选目标图像块,将候 选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧 的目标状态
Figure 360607DEST_PATH_IMAGE002
决策步骤:将多跟踪器协同模型的输出
Figure 12169DEST_PATH_IMAGE003
和单光级联检测步骤输出的
Figure 464010DEST_PATH_IMAGE004
进 行置信度比较,将其中置信度最高的作为最终的长时目标跟踪的结果进行输出。
作为本发明的进一步改进,在所述决策步骤中,依据式(5-1)选择出最优的目标状 态
Figure 100002_DEST_PATH_IMAGE005
作为最终的输出,
Figure 489910DEST_PATH_IMAGE006
(5-1)
上式中
Figure 445228DEST_PATH_IMAGE007
代表相关相似度,
Figure 470953DEST_PATH_IMAGE008
代表初始帧的目标状态,
Figure 174204DEST_PATH_IMAGE009
Figure 100002_DEST_PATH_IMAGE011
Figure 100002_DEST_PATH_IMAGE013
作为本发明的进一步改进,在所述图像特征对齐步骤中,将可见光图像和热红外 图像输入到一个离线训练好的特征对齐模块中,输入的可见光图像特征和热红外图像特征 分别为
Figure 186154DEST_PATH_IMAGE014
Figure 100002_DEST_PATH_IMAGE015
,将可见光图像特征作为参考特征,通过预测的偏移量来调整热红外图像特 征,调整后的热红外图像特征为
Figure 966284DEST_PATH_IMAGE016
Figure 897331DEST_PATH_IMAGE017
(5-2)
Figure 589344DEST_PATH_IMAGE018
(5-3)
Figure 762574DEST_PATH_IMAGE019
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接 的特征通过卷积操作
Figure 20380DEST_PATH_IMAGE020
预测出可见光与热红外特征点之间的偏移量
Figure 591170DEST_PATH_IMAGE021
Figure 770478DEST_PATH_IMAGE022
操作根据 学习出来的偏移量对热红外图像特征进行调整,且
Figure 484750DEST_PATH_IMAGE022
采用可形变卷积实现。
作为本发明的进一步改进,在所述特征融合步骤,
Figure 65904DEST_PATH_IMAGE023
,R为实数域,
Figure 338753DEST_PATH_IMAGE025
代表其为C×H×W维的实数张量,进行形状调整后得到四个嵌入特征
Figure 5358DEST_PATH_IMAGE026
,代表大小都为HW×C的张量,之后对
Figure 100002_DEST_PATH_IMAGE027
Figure 254812DEST_PATH_IMAGE028
Figure 690472DEST_PATH_IMAGE029
Figure 134223DEST_PATH_IMAGE030
分别进行 矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 22544DEST_PATH_IMAGE031
(5-5)
Figure 344198DEST_PATH_IMAGE032
(5-6)
将可见光的跨通道相似矩阵
Figure 634365DEST_PATH_IMAGE033
与热红外的跨通道相似矩阵
Figure 514596DEST_PATH_IMAGE034
进行矩阵 点乘操作,从而得到模态共享的语义模式传播矩阵,
Figure 890214DEST_PATH_IMAGE035
(5-7)
Figure 747049DEST_PATH_IMAGE036
代表过滤操作,将小于0的值设置为0,
Figure 157302DEST_PATH_IMAGE037
为归一化操作;
将语义模式传播矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义信息,
Figure 5172DEST_PATH_IMAGE038
(5-8)
Figure 868086DEST_PATH_IMAGE039
(5-9)
可见光和热红外图像中模态共享的空间信息,
Figure 746523DEST_PATH_IMAGE040
(5-10)
在式(5-10)中,
Figure 214544DEST_PATH_IMAGE042
代表模态共享的空间模式传播矩阵,
Figure 436578DEST_PATH_IMAGE043
(5-11)
使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 583526DEST_PATH_IMAGE044
(5-12)
Figure 47743DEST_PATH_IMAGE045
(5-13)
Figure 167009DEST_PATH_IMAGE046
是可调整的超参数。
作为本发明的进一步改进,在所述多跟踪器协同模型中,采用多个传统跟踪器与 一个深度学习类跟踪器进行协同跟踪,对于每一帧图像,n个传统跟踪器的预测结果为
Figure 294365DEST_PATH_IMAGE047
,深度学习类跟踪器的预测结果为
Figure 131871DEST_PATH_IMAGE048
,根据式(5-14)确定最终的预测结果
Figure 137129DEST_PATH_IMAGE049
Figure 376481DEST_PATH_IMAGE050
(5-14)
在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 878000DEST_PATH_IMAGE051
(5-15)。
作为本发明的进一步改进,在方差检测器中,对
Figure 999540DEST_PATH_IMAGE052
个图像片的检测任务,采用 dynamic策略将检测任务划分成大小为
Figure 805560DEST_PATH_IMAGE053
的任务块,并采用n个线程并行执行每个任务 块,其中初始化线程的数量按照下式的策略确定,
Figure 633839DEST_PATH_IMAGE054
(5-16)
在集合检测器中,对
Figure 368576DEST_PATH_IMAGE055
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中 的线程组织为
Figure 915095DEST_PATH_IMAGE056
个线程块,在GPU中,线程块中的每个线程负责计算该图像片上一对特 征点的像素比较值,每个线程块依据该比较值完成对一个图像片的检测;
Figure 730998DEST_PATH_IMAGE057
(5-17)
Figure 679362DEST_PATH_IMAGE058
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该 相似度值对其进行检测分类,假设先前的正样本和负样本数量分别为
Figure 585002DEST_PATH_IMAGE059
Figure 117352DEST_PATH_IMAGE060
,对于
Figure 766639DEST_PATH_IMAGE061
Figure 569510DEST_PATH_IMAGE062
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的 线程组织为
Figure 442788DEST_PATH_IMAGE063
个大小为
Figure 963899DEST_PATH_IMAGE062
的线程块;在GPU中,线程块中的每个线程负责 计算一个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值 完成对一个图像片的检测。
本发明还提供了一种长时目标跟踪系统,包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块,
所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型;
所述单光级联检测模块包括方差检测器、集合检测器、最近邻检测器;
所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像,
将可见光图像和热红外图像输入到双光融合跟踪模块,可见光图像和热红外图像 依次经过图像特征对齐模块、特征融合模块、多跟踪器协同模型后预测得到下一帧的目标 状态
Figure 652763DEST_PATH_IMAGE064
将可见光图像输入到单光级联检测模块,对可见光图像通过滑动窗口生成多个候 选目标图像块,将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理 后预测得到下一帧的目标状态
Figure 575720DEST_PATH_IMAGE002
Figure 557582DEST_PATH_IMAGE001
Figure 565989DEST_PATH_IMAGE065
输入到决策模块中,将
Figure 55614DEST_PATH_IMAGE001
Figure 629815DEST_PATH_IMAGE065
进行置信度比较,将其中置信 度最高的作为最终的长时目标跟踪的结果进行输出。
作为本发明的进一步改进,在所述决策模块中,依据式(5-1)选择出最优的目标状 态
Figure 48158DEST_PATH_IMAGE005
作为最终的输出,
Figure 278282DEST_PATH_IMAGE006
(5-1)
上式中
Figure 766071DEST_PATH_IMAGE007
代表相关相似度,
Figure 663620DEST_PATH_IMAGE008
代表初始帧的目标状态,
Figure 252864DEST_PATH_IMAGE066
Figure 235864DEST_PATH_IMAGE068
Figure 801712DEST_PATH_IMAGE070
作为本发明的进一步改进,所述图像特征对齐模块:用于对可见光图像和热红外图像进行处理,使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
所述特征融合模块:用于将对齐后的双光图像特征进行空间和语义层级的融合;
所述多跟踪器协同模型基于融合后的特征和当前帧目标状态预测下一帧中目标 的状态
Figure 288188DEST_PATH_IMAGE003
作为本发明的进一步改进,在所述图像特征对齐模块中,输入的可见光图像特征 和热红外图像特征分别为
Figure 313913DEST_PATH_IMAGE014
Figure 315367DEST_PATH_IMAGE015
,将可见光图像特征作为参考特征,通过预测的偏移量来 调整热红外图像特征,调整后的热红外图像特征为
Figure 953415DEST_PATH_IMAGE016
Figure 294398DEST_PATH_IMAGE017
(5-2)
Figure 225445DEST_PATH_IMAGE018
(5-3)
Figure 917457DEST_PATH_IMAGE019
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接 的特征通过卷积操作
Figure 388890DEST_PATH_IMAGE020
预测出可见光与热红外特征点之间的偏移量
Figure 348494DEST_PATH_IMAGE021
Figure 716021DEST_PATH_IMAGE022
操作根据 学习出来的偏移量对热红外图像特征进行调整,且
Figure 364171DEST_PATH_IMAGE022
采用可形变卷积实现。
作为本发明的进一步改进,在所述特征融合模块中,
Figure 842557DEST_PATH_IMAGE023
,R为实数 域,
Figure 721914DEST_PATH_IMAGE072
代表其为C×H×W维的实数张量,进行形状调整后得到四个嵌入特征
Figure 994763DEST_PATH_IMAGE026
,代表大小都为HW×C的张量,之后对
Figure 661368DEST_PATH_IMAGE027
Figure 412286DEST_PATH_IMAGE028
Figure 346482DEST_PATH_IMAGE029
Figure 790233DEST_PATH_IMAGE030
分别进行 矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 944133DEST_PATH_IMAGE031
(5-5)
Figure 561059DEST_PATH_IMAGE032
(5-6)
将可见光的跨通道相似矩阵
Figure 585647DEST_PATH_IMAGE033
与热红外的跨通道相似矩阵
Figure 967343DEST_PATH_IMAGE034
进行矩阵 点乘操作,从而得到模态共享的语义模式传播矩阵,
Figure 342961DEST_PATH_IMAGE035
(5-7)
Figure 701261DEST_PATH_IMAGE036
代表过滤操作,将小于0的值设置为0,
Figure 908252DEST_PATH_IMAGE037
为归一化操作;
将语义模式传播矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义信息,
Figure 192340DEST_PATH_IMAGE038
(5-8)
Figure 789675DEST_PATH_IMAGE039
(5-9)
可见光和热红外图像中模态共享的空间信息,
Figure 951666DEST_PATH_IMAGE040
(5-10)
在式(5-10)中,
Figure 216425DEST_PATH_IMAGE074
代表模态共享的空间模式传播矩阵,
Figure 951643DEST_PATH_IMAGE043
(5-11)
使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 301853DEST_PATH_IMAGE044
(5-12)
Figure 1955DEST_PATH_IMAGE045
(5-13)
Figure 121221DEST_PATH_IMAGE046
是可调整的超参数。
作为本发明的进一步改进,在所述多跟踪器协同模型中,采用多个传统跟踪器与 一个深度学习类跟踪器进行协同跟踪,对于每一帧图像,n个传统跟踪器的预测结果为
Figure 12691DEST_PATH_IMAGE047
,深度学习类跟踪器的预测结果为
Figure 646935DEST_PATH_IMAGE048
,根据式(5-14)确定最终的预测结果
Figure 150729DEST_PATH_IMAGE049
Figure 858922DEST_PATH_IMAGE050
(5-14)
在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 422758DEST_PATH_IMAGE051
(5-15)。
作为本发明的进一步改进,在方差检测器中,对
Figure 249025DEST_PATH_IMAGE052
个图像片的检测任务,采用 dynamic策略将检测任务划分成大小为
Figure 87668DEST_PATH_IMAGE053
的任务块,并采用n个线程并行执行每个任务 块,其中初始化线程的数量按照下式的策略确定,
Figure 181526DEST_PATH_IMAGE054
(5-16)
在集合检测器中,对
Figure 916264DEST_PATH_IMAGE055
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中 的线程组织为
Figure 695739DEST_PATH_IMAGE056
个线程块,在GPU中,线程块中的每个线程负责计算该图像片上一对特 征点的像素比较值,每个线程块依据该比较值完成对一个图像片的检测;
Figure 806914DEST_PATH_IMAGE057
(5-17)
Figure 552016DEST_PATH_IMAGE058
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该 相似度值对其进行检测分类,假设先前的正样本和负样本数量分别为
Figure 457656DEST_PATH_IMAGE059
Figure 491471DEST_PATH_IMAGE060
,对于
Figure 376643DEST_PATH_IMAGE061
Figure 445094DEST_PATH_IMAGE062
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的 线程组织为
Figure 256055DEST_PATH_IMAGE063
个大小为
Figure 777166DEST_PATH_IMAGE062
的线程块;在GPU中,线程块中的每个线程负责 计算一个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值 完成对一个图像片的检测。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明的长时目标跟踪方法的步骤。
本发明的有益效果是:本发明的长时目标跟踪方法及系统具有较高的跟踪精度、鲁棒性与实时性。
附图说明
图1是本发明的长时目标跟踪系统原理图。
具体实施方式
本发明公开了一种长时目标跟踪方法,包括如下步骤:
数据读取步骤:从可见光和热红外摄像头读取可见光图像和热红外图像,在之后的处理中,可见光图像将作为检测算法的唯一输入,热红外图像和可见光图像将作为双光目标跟踪的输入;
图像特征对齐步骤:将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中,经过该特征对齐模块的处理使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
特征融合步骤:将对齐后的双光图像特征输入到一个离线训练好的特征融合模块中,在特征融合模块中对双光图像特征进行空间和语义层级的融合;
多跟踪器协同预测步骤:多跟踪器协同模型基于融合后的特征和当前帧目标状态 预测下一帧中目标的状态
Figure 259838DEST_PATH_IMAGE001
单光级联检测步骤:对可见光图像通过滑动窗口生成大量候选目标图像块,将候 选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧 的目标状态
Figure 182794DEST_PATH_IMAGE002
决策步骤:将多跟踪器协同模型的输出
Figure 430236DEST_PATH_IMAGE001
和单光级联检测步骤输出的
Figure 438643DEST_PATH_IMAGE075
进 行置信度比较,将其中置信度最高的作为最终的长时目标跟踪的结果进行输出。
在所述决策步骤中,依据式(5-1)选择出最优的目标状态
Figure 931198DEST_PATH_IMAGE005
作为最终的输 出,
Figure 708661DEST_PATH_IMAGE006
(5-1)
上式中
Figure 127004DEST_PATH_IMAGE007
代表相关相似度,
Figure 357128DEST_PATH_IMAGE008
代表初始帧的目标状态。
现有的基于跟踪与检测结合的长时跟踪算法仅使用可见光图像作为输入,因可见光图像的成像特性,导致该类算法在夜晚、雨雾天等场景中难以取得满意的跟踪效果。为了解决这个问题,本发明新增热红外图像作为额外的输入,如图1所示,本发明还公开了一种双光(可见光和热红外)目标跟踪与单光(可见光)检测相结合的长时目标跟踪系统,包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块,
所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型;
所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像,
将可见光图像和热红外图像输入到双光融合跟踪模块,可见光图像和热红外图像 依次经过图像特征对齐模块、特征融合模块、多跟踪器协同模型后预测得到下一帧的目标 状态
Figure 650444DEST_PATH_IMAGE064
将可见光图像输入到单光级联检测模块,对可见光图像通过滑动窗口生成大量候 选目标图像块,将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理 后预测得到下一帧的目标状态
Figure 485676DEST_PATH_IMAGE002
Figure 871658DEST_PATH_IMAGE001
Figure 854657DEST_PATH_IMAGE065
输入到决策模块中,将
Figure 880558DEST_PATH_IMAGE001
Figure 632614DEST_PATH_IMAGE065
进行置信度比较,将其中置信 度最高的作为最终的长时目标跟踪的结果进行输出。
在所述决策模块中,依据式(5-1)选择出最优的目标状态
Figure 658338DEST_PATH_IMAGE005
作为最终的输 出,
Figure 863055DEST_PATH_IMAGE006
(5-1)
上式中
Figure 232594DEST_PATH_IMAGE007
代表相关相似度,
Figure 839156DEST_PATH_IMAGE008
代表初始帧的目标状态。
所述图像特征对齐模块:用于对可见光图像和热红外图像进行处理,使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
所述特征融合模块:用于将对齐后的双光图像特征进行空间和语义层级的融合;
所述多跟踪器协同模型基于融合后的特征和当前帧目标状态预测下一帧中目标 的状态
Figure 35782DEST_PATH_IMAGE001
下面进行具体详细说明:
1. 图像特征对齐模块:
为解决可见光和热红外图像对位置偏移的问题,本发明在特征层级对热红外图像 特征进行调整,即通过监督学习的特征偏差来微调热红外图像特征。假设输入的可见光图 像特征和热红外图像特征分别为
Figure 462215DEST_PATH_IMAGE014
Figure 903954DEST_PATH_IMAGE015
,将可见光图像特征作为参考特征,通过预测的偏 移量来调整热红外图像特征,调整后的热红外图像特征为
Figure 365023DEST_PATH_IMAGE016
Figure 201392DEST_PATH_IMAGE017
(5-2)
Figure 380700DEST_PATH_IMAGE018
(5-3)
上式中,
Figure 357621DEST_PATH_IMAGE019
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接的特征通过卷积操作
Figure 673196DEST_PATH_IMAGE020
预测出可见光与热红外特征点之间的偏移量
Figure 211625DEST_PATH_IMAGE021
Figure 612650DEST_PATH_IMAGE022
操 作根据学习出来的偏移量对热红外图像特征进行调整,且
Figure 661771DEST_PATH_IMAGE022
采用可形变卷积实现。
在离线训练图像对齐模块时,我们采用人为标注的真实标签
Figure 831852DEST_PATH_IMAGE076
来监督训练该模 块,其中训练时我们采用均方误差损失MSE,即
Figure 275603DEST_PATH_IMAGE077
(5-4)
2. 特征融合模块:
为避免可见光和热红外模态差异带来的不良影响,本发明提出一种基于通道与空 间模式传播的特征融合方法。假设输入的可见光图像特征和热红外图像特征分别为
Figure 429504DEST_PATH_IMAGE014
Figure 748228DEST_PATH_IMAGE015
,且
Figure 38395DEST_PATH_IMAGE023
,对这些特征进行形状调整后得到
Figure 918626DEST_PATH_IMAGE026
,之后对
Figure 294244DEST_PATH_IMAGE027
Figure 622850DEST_PATH_IMAGE028
Figure 767524DEST_PATH_IMAGE029
Figure 84236DEST_PATH_IMAGE030
分别进行矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 445684DEST_PATH_IMAGE031
(5-5)
Figure DEST_PATH_IMAGE079
(5-6)
上式计算出来的跨通道相似矩阵对同一模态内的长距离语义关系进行了建模。将 可见光的跨通道相似矩阵
Figure 545359DEST_PATH_IMAGE033
与热红外的跨通道相似矩阵
Figure 810118DEST_PATH_IMAGE034
进行矩阵点乘操作, 从而得到模态共享的语义模式传播矩阵,
Figure 217439DEST_PATH_IMAGE035
(5-7)
上式中
Figure 567649DEST_PATH_IMAGE036
代表过滤操作,将小于0的值设置为0,
Figure 533331DEST_PATH_IMAGE037
为归一化操作。将语义模式传播 矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义 信息,
Figure 151132DEST_PATH_IMAGE038
(5-8)
Figure 747330DEST_PATH_IMAGE039
(5-9)
与通道模式传播类似,基于模态共享的空间模式传播矩阵,我们可以得到可见光和热红外图像中模态共享的空间信息,
Figure 381573DEST_PATH_IMAGE080
(5-10)
Figure 885367DEST_PATH_IMAGE082
(5-11)
为了实现模态共享特征之间的相互补充,我们使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 563866DEST_PATH_IMAGE044
(5-12)
Figure 393282DEST_PATH_IMAGE045
(5-13)
上式中,
Figure 452505DEST_PATH_IMAGE046
都是可调整的超参数。式(5-12)和(5-13)中,模态共享的语义 与空间信息被加入到另一个模态的原信息中,因此模态共享的语义和空间信息实现了互惠 互利,同时也保护了模态的特有特征。
综上,为了解决现有的双光特征融合不足的问题,本发明提出了一种基于模式传播的双光特征融合方法,通过模态间模式的相关性,可以在保护模态特有特征的同时实现模态共享特征间的充分交互,从而提高跟踪的性能。
本发明不同于背景技术的方法,本发明更准备的说是一种双光目标跟踪与单光检测相结合的跟踪方法,提出了一系列方法来兼顾跟踪质量和计算效率。在特征融合方面,现有的特征融合方法均采用的是模态数据直接交互(相加、通道拼接等)的方式,虽然实现了模态共享信息的增强,但该方式会对模态特有特征造成污染。本发明在实现模态共享特征的交互的同时,考虑了对模态特有特征的保护。
3. 多跟踪器协同模型:
为了解决传统跟踪器速度快但性能不高、深度学习类跟踪器性能高但速度慢的问题,我们提出一种传统跟踪器与深度学习类跟踪器相互协同的模型,该模型可以兼顾速度与精度。
在该模型中,我们采用多个传统跟踪器(将不使用卷积网络进行推理计算的跟踪 算法定义为传统跟踪器)与一个深度学习类跟踪器(将使用卷积网络进行推理计算的跟踪 算法定义为深度学习类跟踪器)进行协同跟踪。对于每一帧图像,n个传统跟踪器的预测结 果为
Figure 759990DEST_PATH_IMAGE047
,深度学习类跟踪器的预测结果为
Figure 352383DEST_PATH_IMAGE048
,根据式(5-14)确定最终的预测结果
Figure 290383DEST_PATH_IMAGE049
Figure 836902DEST_PATH_IMAGE050
(5-14)
由于深度学习类跟踪器的运行速度慢,所以我们只在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 449542DEST_PATH_IMAGE051
(5-15)
4. 基于OpenMP和Cuda的CPU-GPU异构并行加速方法
为了解决级联检测中检测器运行速度慢的问题,我们基于OpenMP对方差检测器进行CPU并行化加速,基于Cuda对集合检测器和最近邻检测器进行GPU并行化加速。
在方差检测器中,对
Figure 601169DEST_PATH_IMAGE052
个图像片的检测任务,采用dynamic策略将检测任务划分成 大小为
Figure 506808DEST_PATH_IMAGE053
的任务块,并采用n个线程并行执行每个任务块,其中初始化线程的数量按照下 式的策略确定,
Figure DEST_PATH_IMAGE083
(5-16)
在集合检测器中,对
Figure 242420DEST_PATH_IMAGE055
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中 的线程组织为
Figure 94970DEST_PATH_IMAGE056
个线程块,其中
Figure 428999DEST_PATH_IMAGE084
由下式确定。在GPU中,线程块中的每个线程负责 计算该图像片上一对特征点的像素比较值,每个线程块依据该比较值完成对一个图像片的 检测。
Figure 210267DEST_PATH_IMAGE057
(5-17)
Figure 731378DEST_PATH_IMAGE058
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该 相似度值对其进行检测分类。假设先前的正样本和负样本数量分别为
Figure 387619DEST_PATH_IMAGE059
Figure 809110DEST_PATH_IMAGE060
,对于
Figure 56552DEST_PATH_IMAGE061
Figure 64959DEST_PATH_IMAGE062
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的 线程组织为
Figure 56049DEST_PATH_IMAGE063
个大小为
Figure 792100DEST_PATH_IMAGE062
的线程块。在GPU中,线程块中的每个线程负责 计算一个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值 完成对一个图像片的检测。
本发明的有益效果是:通过上述方案,此长时目标跟踪器具有较高的跟踪精度、鲁棒性与实时性。具体表述为:
(1)对长时目标跟踪任务,本发明提出一种长时目标跟踪系统(新的跟踪框架),将传统算法中的单光跟踪-单光检测的框架替换为双光融合跟踪-单光级联检测的跟踪框架,使跟踪算法在夜晚、雨雾天等复杂场景下具有更强的鲁棒性。
(2)针对可见光和热红外图像对位置偏移的问题,设计了一个图像特征对齐模块用于动态调整热红外图像特征,使得热红外图像特征与可见光图像特征在空间上对齐,使跟踪算法可以适用于图像不完全对齐的情况,扩大了跟踪算法的应用场景。
(3)针对模态差异给跟踪带来不良影响的问题,提出一种基于通道与空间模式传播的特征融合方法,该方法避免了可见光与热红外两种模态之间的直接交互,基于模态共享的语义与空间信息建模,提高了特征融合的有效性。
(4)提出多跟踪器协同模型,利用多个传统跟踪算法与深度学习类跟踪算法进行协同跟踪,兼顾了传统跟踪器的速度与深度学习类跟踪器的精度,使跟踪算法具有更高的精度与实时性。
(5)针对长时跟踪算法中检测器速度慢的问题,提出基于OpenMP与Cuda的CPU-GPU异构并行加速方案,对级联检测器中的方差检测器进行CPU并行加速,对集合检测器和最近邻检测器进行GPU并行加速,解决了检测器带来的速度瓶颈问题。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种长时目标跟踪方法,其特征在于,包括如下步骤:
数据读取步骤:从可见光和热红外摄像头读取可见光图像和热红外图像;
图像特征对齐步骤:将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中,经过该特征对齐模块的处理使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
特征融合步骤:将对齐后的双光图像特征输入到一个离线训练好的特征融合模块中,在轻量特征融合模块中对双光图像特征进行空间和语义层级的融合;
多跟踪器协同预测步骤:多跟踪器协同模型基于融合后的特征和当前帧目标状态预测 下一帧中目标的状态
Figure 454093DEST_PATH_IMAGE002
单光级联检测步骤:对可见光图像通过滑动窗口生成多个候选目标图像块,将候选目 标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预测得到下一帧的目 标状态
Figure DEST_PATH_IMAGE003
决策步骤:将多跟踪器协同模型的输出
Figure 626318DEST_PATH_IMAGE002
和单光级联检测步骤输出的
Figure DEST_PATH_IMAGE005
进行置 信度比较,将其中置信度最高的作为最终的长时目标跟踪的结果进行输出;
在所述特征融合步骤,
Figure 873759DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 364390DEST_PATH_IMAGE008
分别表示可见光图像特征和热红外图 像特征,R为实数域,
Figure 886638DEST_PATH_IMAGE010
代表其为C×H×W维的实数张量,进行形状调整后得到四个嵌 入特征
Figure DEST_PATH_IMAGE011
,代表大小都为HW×C的张量,之后对
Figure 460839DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
Figure 862871DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
分 别进行矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 92995DEST_PATH_IMAGE016
(5-5)
Figure DEST_PATH_IMAGE017
(5-6)
将可见光的跨通道相似矩阵
Figure 435246DEST_PATH_IMAGE018
与热红外的跨通道相似矩阵
Figure DEST_PATH_IMAGE019
进行矩阵点乘 操作,从而得到模态共享的语义模式传播矩阵,
Figure 270477DEST_PATH_IMAGE020
(5-7)
Figure DEST_PATH_IMAGE021
代表过滤操作,将小于0的值设置为0,
Figure 905727DEST_PATH_IMAGE022
为归一化操作;
将语义模式传播矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义信息,
Figure DEST_PATH_IMAGE023
(5-8)
Figure 888727DEST_PATH_IMAGE024
(5-9)
可见光和热红外图像中模态共享的空间信息,
Figure DEST_PATH_IMAGE025
(5-10)
在式(5-10)中,
Figure DEST_PATH_IMAGE027
代表模态共享的空间模式传播矩阵,
Figure 172684DEST_PATH_IMAGE028
(5-11)
使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure DEST_PATH_IMAGE029
(5-12)
Figure 455898DEST_PATH_IMAGE030
(5-13)
Figure DEST_PATH_IMAGE031
是可调整的超参数;
在所述多跟踪器协同模型中,采用多个传统跟踪器与一个深度学习类跟踪器进行协同 跟踪,对于每一帧图像,n个传统跟踪器的预测结果为
Figure 730890DEST_PATH_IMAGE032
,深度学习类跟踪器的预 测结果为
Figure DEST_PATH_IMAGE033
,根据式(5-14)确定最终的预测结果
Figure 670027DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
(5-14)
在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 603348DEST_PATH_IMAGE036
(5-15)。
2.根据权利要求1所述的长时目标跟踪方法,其特征在于,在所述决策步骤中,依据式 (5-1)选择出最优的目标状态
Figure DEST_PATH_IMAGE037
作为最终的输出,
Figure 695063DEST_PATH_IMAGE038
(5-1)
上式中
Figure DEST_PATH_IMAGE039
代表相关相似度,
Figure 891689DEST_PATH_IMAGE040
代表初始帧的目标状态,
Figure 98549DEST_PATH_IMAGE042
Figure 304402DEST_PATH_IMAGE002
Figure 296629DEST_PATH_IMAGE005
3.根据权利要求1所述的长时目标跟踪方法,其特征在于,在所述图像特征对齐步骤 中,将可见光图像和热红外图像输入到一个离线训练好的特征对齐模块中,将可见光图像 特征作为参考特征,通过预测的偏移量来调整热红外图像特征,调整后的热红外图像特征 为
Figure DEST_PATH_IMAGE043
Figure 460894DEST_PATH_IMAGE044
(5-2)
Figure DEST_PATH_IMAGE045
(5-3)
Figure 856847DEST_PATH_IMAGE046
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接的特 征通过卷积操作
Figure DEST_PATH_IMAGE047
预测出可见光与热红外特征点之间的偏移量
Figure 335233DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
操作根据学习 出来的偏移量对热红外图像特征进行调整,且
Figure 962392DEST_PATH_IMAGE049
采用可形变卷积实现。
4.根据权利要求1所述的长时目标跟踪方法,其特征在于,
在方差检测器中,对
Figure 766400DEST_PATH_IMAGE050
个图像片的检测任务,采用dynamic策略将检测任务划分成大小 为
Figure DEST_PATH_IMAGE051
的任务块,并采用n个线程并行执行每个任务块,其中初始化线程的数量按照下式的 策略确定,
Figure 433005DEST_PATH_IMAGE052
(5-16)
在集合检测器中,对
Figure DEST_PATH_IMAGE053
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中的线 程组织为
Figure 200235DEST_PATH_IMAGE054
个线程块,在GPU中,线程块中的每个线程负责计算该图像片上一对特征点 的像素比较值,每个线程块依据该比较值完成对一个图像片的检测;
Figure DEST_PATH_IMAGE055
(5-17)
Figure 635895DEST_PATH_IMAGE056
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该相似 度值对其进行检测分类,假设先前的正样本和负样本数量分别为
Figure DEST_PATH_IMAGE057
Figure 328914DEST_PATH_IMAGE058
,对于
Figure DEST_PATH_IMAGE059
Figure 217235DEST_PATH_IMAGE060
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的线程组 织为
Figure DEST_PATH_IMAGE061
个大小为
Figure 796945DEST_PATH_IMAGE060
的线程块;在GPU中,线程块中的每个线程负责计算一 个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值完成对 一个图像片的检测。
5.一种长时目标跟踪系统,其特征在于,包括数据读取模块、双光融合跟踪模块、单光级联检测模块和决策模块,
所述双光融合跟踪模块包括图像特征对齐模块、特征融合模块、多跟踪器协同模型;
所述单光级联检测模块包括方差检测器、集合检测器、最近邻检测器;
所述数据读取模块用于从可见光和热红外摄像头读取可见光图像和热红外图像,
将可见光图像和热红外图像输入到双光融合跟踪模块,可见光图像和热红外图像依次 经过图像特征对齐模块、特征融合模块、多跟踪器协同模型后预测得到下一帧的目标状态
Figure 415008DEST_PATH_IMAGE062
将可见光图像输入到单光级联检测模块,对可见光图像通过滑动窗口生成多个候选目 标图像块,将候选目标图像块依次经过方差检测器、集合检测器、最近邻检测器的处理后预 测得到下一帧的目标状态
Figure 826398DEST_PATH_IMAGE003
Figure 733174DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE063
输入到决策模块中,将
Figure 75163DEST_PATH_IMAGE002
Figure 16574DEST_PATH_IMAGE063
进行置信度比较,将其中置信 度最高的作为最终的长时目标跟踪的结果进行输出;
在所述特征融合模块中,
Figure 333286DEST_PATH_IMAGE006
Figure 524096DEST_PATH_IMAGE007
Figure 967978DEST_PATH_IMAGE008
分别表示可见光图像特征和热红外 图像特征,R为实数域,
Figure 763895DEST_PATH_IMAGE010
代表其为C×H×W维的实数张量,进行形状调整后得到四 个嵌入特征
Figure 251508DEST_PATH_IMAGE011
,代表大小都为HW×C的张量,之后对
Figure 132877DEST_PATH_IMAGE012
Figure 613405DEST_PATH_IMAGE013
Figure 60567DEST_PATH_IMAGE014
Figure 984661DEST_PATH_IMAGE015
分别进行矩阵乘操作得到模态内的跨通道相似矩阵,
Figure 353325DEST_PATH_IMAGE016
(5-5)
Figure 122698DEST_PATH_IMAGE017
(5-6)
将可见光的跨通道相似矩阵
Figure 375432DEST_PATH_IMAGE018
与热红外的跨通道相似矩阵
Figure 470427DEST_PATH_IMAGE019
进行矩阵点乘 操作,从而得到模态共享的语义模式传播矩阵,
Figure 123125DEST_PATH_IMAGE020
(5-7)
Figure 696189DEST_PATH_IMAGE021
代表过滤操作,将小于0的值设置为0,
Figure 321205DEST_PATH_IMAGE022
为归一化操作;
将语义模式传播矩阵分别与输入特征进行矩阵乘操作,从而得到在可见光和热红外图像中模态共享的语义信息,
Figure 570790DEST_PATH_IMAGE023
(5-8)
Figure 648467DEST_PATH_IMAGE024
(5-9)
可见光和热红外图像中模态共享的空间信息,
Figure 290801DEST_PATH_IMAGE025
(5-10)
在式(5-10)中,
Figure 567062DEST_PATH_IMAGE027
代表模态共享的空间模式传播矩阵,
Figure 3859DEST_PATH_IMAGE028
(5-11)
使用逐元素相加将模态共享的语义信息和空间特征信息与原特征进行融合,
Figure 319565DEST_PATH_IMAGE029
(5-12)
Figure 234432DEST_PATH_IMAGE030
(5-13)
Figure 37302DEST_PATH_IMAGE031
是可调整的超参数;
在所述多跟踪器协同模型中,采用多个传统跟踪器与一个深度学习类跟踪器进行协同 跟踪,对于每一帧图像,n个传统跟踪器的预测结果为
Figure 441739DEST_PATH_IMAGE032
,深度学习类跟踪器的预 测结果为
Figure 743276DEST_PATH_IMAGE033
,根据式(5-14)确定最终的预测结果
Figure 461833DEST_PATH_IMAGE034
Figure 650369DEST_PATH_IMAGE035
(5-14)
在每隔m帧执行一次深度学习类跟踪器,中间帧只执行传统跟踪器,此时最终的预测结果由下式确定,
Figure 428970DEST_PATH_IMAGE036
(5-15)。
6.根据权利要求5所述的长时目标跟踪系统,其特征在于,在所述决策模块中,依据式 (5-1)选择出最优的目标状态
Figure 716338DEST_PATH_IMAGE037
作为最终的输出,
Figure 35324DEST_PATH_IMAGE038
(5-1)
上式中
Figure 343945DEST_PATH_IMAGE039
代表相关相似度,
Figure 293447DEST_PATH_IMAGE040
代表初始帧的目标状态,
Figure DEST_PATH_IMAGE065
Figure DEST_PATH_IMAGE067
Figure DEST_PATH_IMAGE069
7.根据权利要求5所述的长时目标跟踪系统,其特征在于,
所述图像特征对齐模块:用于对可见光图像和热红外图像进行处理,使得可见光图像和热红外图像在特征层面上是完全对齐的,将可见光图像和热红外图像称为双光图像;
所述特征融合模块:用于将对齐后的双光图像特征进行空间和语义层级的融合;
所述多跟踪器协同模型基于融合后的特征和当前帧目标状态预测下一帧中目标的状态
Figure 444943DEST_PATH_IMAGE067
8.根据权利要求7所述的长时目标跟踪系统,其特征在于,在所述图像特征对齐模块 中,将可见光图像特征作为参考特征,通过预测的偏移量来调整热红外图像特征,调整后的 热红外图像特征为
Figure 770882DEST_PATH_IMAGE043
Figure 684742DEST_PATH_IMAGE044
(5-2)
Figure 805145DEST_PATH_IMAGE045
(5-3)
Figure 319303DEST_PATH_IMAGE046
表示将可见光图像特征与热红外图像特征沿通道维度进行拼接, 将拼接的特 征通过卷积操作
Figure 183354DEST_PATH_IMAGE047
预测出可见光与热红外特征点之间的偏移量
Figure 450256DEST_PATH_IMAGE048
Figure 803877DEST_PATH_IMAGE049
操作根据学习 出来的偏移量对热红外图像特征进行调整,且
Figure 539752DEST_PATH_IMAGE049
采用可形变卷积实现。
9.根据权利要求5所述的长时目标跟踪系统,其特征在于,
在方差检测器中,对
Figure 941914DEST_PATH_IMAGE050
个图像片的检测任务,采用dynamic策略将检测任务划分成大小 为
Figure 79634DEST_PATH_IMAGE051
的任务块,并采用n个线程并行执行每个任务块,其中初始化线程的数量按照下式的 策略确定,
Figure 289642DEST_PATH_IMAGE052
(5-16)
在集合检测器中,对
Figure 247234DEST_PATH_IMAGE053
个图像片的检测任务,将图像片加载到GPU内存中,将GPU中的线 程组织为
Figure 718667DEST_PATH_IMAGE054
个线程块,在GPU中,线程块中的每个线程负责计算该图像片上一对特征点 的像素比较值,每个线程块依据该比较值完成对一个图像片的检测;
Figure 710894DEST_PATH_IMAGE055
(5-17)
Figure 593268DEST_PATH_IMAGE056
(5-18)
在最近邻检测器中,对图像片计算其与先前帧中的正负样本的相似度值,依据该相似 度值对其进行检测分类,假设先前的正样本和负样本数量分别为
Figure 100473DEST_PATH_IMAGE057
Figure 110017DEST_PATH_IMAGE058
,对于
Figure 691171DEST_PATH_IMAGE059
Figure 760758DEST_PATH_IMAGE060
大小的图像片的检测任务,将这些图像片和正负样本加载到GPU内存中,将GPU中的线程组 织为
Figure 443674DEST_PATH_IMAGE061
个大小为
Figure 522489DEST_PATH_IMAGE060
的线程块;在GPU中,线程块中的每个线程负责计算一 个图像片与正样本或负样本上对应像素点的相似度值,每个线程块依据该相似度值完成对 一个图像片的检测。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-4中任一项所述的长时目标跟踪方法的步骤。
CN202211188338.5A 2022-09-28 2022-09-28 一种长时目标跟踪方法、系统及存储介质 Active CN115272420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211188338.5A CN115272420B (zh) 2022-09-28 2022-09-28 一种长时目标跟踪方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211188338.5A CN115272420B (zh) 2022-09-28 2022-09-28 一种长时目标跟踪方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115272420A CN115272420A (zh) 2022-11-01
CN115272420B true CN115272420B (zh) 2023-01-17

Family

ID=83756985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211188338.5A Active CN115272420B (zh) 2022-09-28 2022-09-28 一种长时目标跟踪方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115272420B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598739A (zh) * 2020-12-25 2021-04-02 哈尔滨工业大学(深圳) 基于时空特征聚合网络的移动机器人红外目标跟踪方法、系统及存储介质
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN114022516A (zh) * 2021-11-15 2022-02-08 安徽大学 一种基于高秩特征和位置注意力的双模态视觉跟踪方法
WO2022100470A1 (en) * 2020-11-13 2022-05-19 Zhejiang Dahua Technology Co., Ltd. Systems and methods for target detection
CN114998220A (zh) * 2022-05-12 2022-09-02 湖南中医药大学 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN115063329A (zh) * 2022-06-10 2022-09-16 中国人民解放军国防科技大学 低光照环境下的可见光和红外图像融合增强方法及系统
CN115170605A (zh) * 2022-06-15 2022-10-11 南京大学 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012203B (zh) * 2021-04-15 2023-10-20 南京莱斯电子设备有限公司 一种复杂背景下高精度多目标跟踪方法
CN115100235B (zh) * 2022-08-18 2022-12-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、系统及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022100470A1 (en) * 2020-11-13 2022-05-19 Zhejiang Dahua Technology Co., Ltd. Systems and methods for target detection
CN112598739A (zh) * 2020-12-25 2021-04-02 哈尔滨工业大学(深圳) 基于时空特征聚合网络的移动机器人红外目标跟踪方法、系统及存储介质
CN113077491A (zh) * 2021-04-02 2021-07-06 安徽大学 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN114022516A (zh) * 2021-11-15 2022-02-08 安徽大学 一种基于高秩特征和位置注意力的双模态视觉跟踪方法
CN114998220A (zh) * 2022-05-12 2022-09-02 湖南中医药大学 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN115063329A (zh) * 2022-06-10 2022-09-16 中国人民解放军国防科技大学 低光照环境下的可见光和红外图像融合增强方法及系统
CN115170605A (zh) * 2022-06-15 2022-10-11 南京大学 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Object fusion tracking based on visible and infrared images: A comprehensive review;Xingchen Zhang 等;《Information Fusion》;20201130;第63卷;166-187 *
Self-Supervised Cross-Modal Distillation for Thermal Infrared Tracking;Yufei Zha 等;《IEEE MultiMedia》;20220916;1-13 *
Tracking-Learning-Detection;Zdenek Kalal 等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20200131;第6卷(第1期);1-14 *
基于深层网络的城市街道场景的语义分割的方法研究;陈聪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215(第2期);I138-1431 *
基于自适应空间特征融合的轻量化目标检测算法;罗禹杰 等;《激光与光电子学进展》;20220228;第59卷(第4期);0415004-1:11 *

Also Published As

Publication number Publication date
CN115272420A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
Xu et al. A systematic review and analysis of deep learning-based underwater object detection
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN111428575B (zh) 一种基于孪生网络的针对模糊目标的跟踪方法
Zhou et al. Underwater image enhancement method with light scattering characteristics
GB2553782A (en) Predicting depth from image data using a statistical model
Tian et al. Unsupervised learning of optical flow with CNN-based non-local filtering
CN111931603B (zh) 基于竞合网络的双流卷积网络的人体动作识别系统及方法
Zhou et al. Underwater image restoration via information distribution and light scattering prior
KR20220052359A (ko) 듀얼 카메라 및 듀얼 픽셀을 통한 조인트 깊이 예측
CN115170605A (zh) 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
WO2023236445A1 (zh) 一种使用长曝光补偿的低光照图像增强方法
CN115063648A (zh) 一种绝缘子缺陷检测模型构建方法及系统
Zhang et al. Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement
Huang et al. Learning optical flow with R-CNN for visual odometry
Wu et al. Direct sparse odometry with planes
Li et al. Occlusion aware unsupervised learning of optical flow from video
CN115272420B (zh) 一种长时目标跟踪方法、系统及存储介质
CN111275751A (zh) 一种无监督绝对尺度计算方法及系统
CN115439738A (zh) 一种基于自监督协同重构的水下目标检测方法
WO2023049726A1 (en) Processing video content using gated transformer neural networks
CN113096176B (zh) 一种语义分割辅助的双目视觉无监督深度估计方法
Zhang et al. Unsupervised learning of monocular depth and large-ego-motion with multiple loop consistency losses
Dong et al. Framework of degraded image restoration and simultaneous localization and mapping for multiple bad weather conditions
Liu et al. Bilevel Generative Learning for Low-Light Vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant