CN113077491A - 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 - Google Patents

基于跨模态共享和特定表示形式的rgbt目标跟踪方法 Download PDF

Info

Publication number
CN113077491A
CN113077491A CN202110359997.XA CN202110359997A CN113077491A CN 113077491 A CN113077491 A CN 113077491A CN 202110359997 A CN202110359997 A CN 202110359997A CN 113077491 A CN113077491 A CN 113077491A
Authority
CN
China
Prior art keywords
features
rgbt
target tracking
layer
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110359997.XA
Other languages
English (en)
Other versions
CN113077491B (zh
Inventor
王福田
张淑云
汤进
罗斌
李成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202110359997.XA priority Critical patent/CN113077491B/zh
Publication of CN113077491A publication Critical patent/CN113077491A/zh
Application granted granted Critical
Publication of CN113077491B publication Critical patent/CN113077491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法,对可见光视频和对应的热红外视频进行配准和标注,按照要求将其分成训练集和测试集;利用VGG‑M网络来提取不同模态的模态特定特征,利用共享特征提取模块来提取两个模态之间的模态共享特征,同时在共享特征提取模块中使用多尺度特征融合的策略来增强特征以提高其鲁棒性。本发明在光照变化强烈、夜晚等极端条件下跟踪上目标,通过焦点损失函数使训练的模型更加关注于难以分类的样本,提高模型的鲁棒性。

Description

基于跨模态共享和特定表示形式的RGBT目标跟踪方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法。
背景技术
目标跟踪是计算机视觉领域中的重要研究方向,其在监控系统、自动驾驶等领域有着广泛的应用。目标跟踪的任务是在给定某视频序列第一帧中目标的位置和大小的情况下,对视频后续帧的目标状态和大小进行估计。
近年来深度学习发展迅速,越来越多的研究人员将深度学习相关技术应用于目标跟踪领域使得目标跟踪技术取得了很大的进步。因为极端的天气(如雾,霾等)、相机的抖动、光照条件不好等原因使得可见光模态下的图片成效效果不好,所以基于可见光模态的目标跟踪算法很难应对这些复杂的环境。热红外摄像机拍摄的图像是根据温度成像的,相对于可见光相机,热红外成像仪对光照不敏感、具有很强的雾霾穿透力等。近些年,随着热红外技术的不断成熟,其被广泛应用于各个领域,如军事、人机交互等。RGBT目标跟踪通过聚合两个模态的数据来克服复杂场景对单模态跟踪的影响从而进一步提高性能。
在基于可见光和热红外模态的视频目标跟踪中,不同模态之间既有各自独特的视觉模式,也有一些共有的视觉模式。可见光模态下的图片颜色信息丰富,空间分辨率较高,而热红外模态下的图片是根据温度成像,在雾、霾等情况下成像效果好;同时可见光模态和热红外模态之间共享一些信息,如对象的边界,空间的布局和一些细粒度的纹理信息等等。
现有RGBT跟踪算法一般使用不同模态的特定特征进行融合,没有考虑到两个模态之间的共享特征。同时现有RGBT跟踪算法在训练期间一般都使用传统的二分类交叉熵损失函数来训练模型,这样在训练期间无法使模型更加偏重于困难样本,所以本跟踪算法使用焦点损失函数来进行训练,自适应降低易分样本的权重而增加难分的样本的权重。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法,利用可见光模态和热红外模态之间的互补性,在光照变化强烈的极端条件下进行目标跟踪。
技术方案:本发明的一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法,包括以下步骤:
S1、构建多模态数据集
将可见光-热红外视频中可见光图片和热红外图片进行初筛、配准和标注,形成RGBT目标跟踪数据集,并分成训练集和测试集;
S2、对训练集和测试集中的可见光图片和热红外图片进行预处理;
S3、建RGBT目标跟踪模型。
该RGBT目标跟踪模型使用的深度网络框架为PyTorch,包括注意力机制模块,共享特征提取模块和特定特征提取模块,特定特征提取模块使用VGG-M网络的前三层卷积层。
本过程中选取MDNet跟踪器作为baseline跟踪器,加载两个结构相同且参数不同的VGG-M网络分别对可见光和热红外分支进行特定特征的提取,在共享特征提取模块中,采用多尺度融合方法来对特征进行增强;然后将模态特定特征和模态共享特征进行进行元素级相加;训练期间使用焦点损失函数,用于自适应降低易分样本的权重,使得模型更加偏向于难分类的样本;具体步骤如下:
S3.1、将预处理好的可见光图片和热红外图片同时输入到网络中;
S3.2、提取不同模态的特定特征,即加载两个结构相同且参数不同的VGG-M网络分别对输入的可见光图片和热红外图片进行特征提取;
S3.3、对步骤S3.2所得两个模态的特定特征使用注意力机制模块提高特征的判别性;
S3.4、在共享特征提取模块中使用多尺度特征融合法加强特征表示,并输出两个模态之间的共享特征;
3.5、先将两个模态各自的模态特定特征和模态共享特征进行融合来提高特征的鲁棒性,然后再将两个模态融合后的特征进行级联;
S3.6、不同视频中的目标对象在外观、大小等方面有所差异,所以建立一个多域学习网络来学习目标对象的共性;该多域学习网络包括四个全连接层依次为:FC1,FC2,FC3和FC4;
S3.7、在训练期间使用焦点损失函数来训练网络模型;
焦点损失函数公式如下:
Figure BDA0003005157770000031
FL(pt)=-(1-pt)γlog(pt)
其中,γ是一个超参数,代表容易分类的样本和难分类样本的权重差别的难度;y∈{±1}代表的是样本的真实标签,在二分类中样本标签y=1和y=-1分别代表的是正样本和负样本,它们之间是互斥的,p∈[0,1]代表的是当y=1时类的估计概率。
进一步地,所述步骤S1中将配准后可见光图片和热红外图片分别放在infrared和visible两个文件夹内;对可见光图片和热红外图片进行标注,即对图片中包含目标的部分画框,生成的坐标格式为(xmin,ymin,width,height),其中,(xmin,ymin)代表目标左上角信息,(width,height)分别代表目标框的宽和高;标注完成后,对应的帧值信息写入infrared.txt和visible.txt中,和上面两个文件夹存放在同一目录下。
所述步骤S2中将训练集中标注完成的可见光图片和热红外图片进行预处理,即将每一张图片所在的路径位置、图片名称、帧值(目标的左上角位置和长宽)均写到pkl文件中,以方便在训练时候读入图片;
对测试集中的可见光图片和热红外图片进行预处理,将测试集中的序列名称写入到txt文本中,方便后续的读入。
进一步地,所述步骤S3.2中模态特定特征提取模块包括以下内容:
(A)第一层为卷积层,使用7*7*96卷积核,步长为2,对图片进行卷积操作,然后使用一个LRN(局部响应归一化)层来归一化数据,帮助模型快速收敛并提高模型的泛化能力。;然后使用3*3的Max Pool操作;
(B)第二层为卷积层,使用5*5*256卷积核,步长为2,对图片进行卷积操作,再使用一个LRN层归一化数据;
(C)第三层为卷积层,使用3*3*512卷积核进行卷积操作。
进一步地,所述步骤S3.3中注意力机制对模态特定特征进行增强的具体方法:
(A)将输入的模态特定特征,分别经过基于width和height的全局最大池化和全局平均池化,然后分别经过MLP(多层感知器);将MLP输出的特征进行基于元素级的相加操作,再经过sigmoid激活操作,生成通道注意力图,将该图和输入的特征做元素级乘法操作获得新特征;
(B)空间注意力机制:将经过通道注意力机制模块输出的特征图作为输入特征图;首先做一个基于通道的全局最大池化和全局平均池化,然后将这两个结果基于通道方向做级联操作;然后经过一个卷积操作,降维为1个通道;再经过sigmoid生成空间注意力图,最后将该图和该模块的输入特征做乘法,得到最终生成的特征。
进一步地,所述步骤S3.4中不同模态之间的共享特征提取模块包括以下内容:上层先使用3*3的Max Pool操作,步长为1;再使用3*3的卷积操作,步长为1;下层使用3*3的卷积操作,步长为2。这是一个简单的多尺度融合方法,用来特征进行增强。
进一步地,所述步骤S3.6中的多域学习网络包括四个全连接层,分别为FC1,FC2,FC3,FC4;四个全连接层的输出通道大小分别为1024、512、512、2;在训练期间,最后一个全连接层FC4具有K个分支,每个分支对应一个单独的域,且每个分支都包含一个二分类层,用于区分目标和背景。
有益效果:与现有技术相比,本发明具有以下优点:
(1)为得到更加鲁棒的模态特定特征,本发明在提取特征之后使用注意力机制。
(2)本发明在共享特征提取模块中使用多尺度特征融合的方法来获取更加强大的特征表示。
(3)为在训练期间使模型更加注重困难样本,本发明在训练期间使用焦点损失函数,使用焦点损失函数来进行训练,降低易分样本的权重而增加难分的易错样本的权重。
附图说明
图1为本发明中的网络结构示意图;
图2为本发明的整体流程示意图;
图3为本发明中共享特征提取模块示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本发明的一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法,首先,对可见光图片和相应的热红外图片进行标配准和标注,分成训练集和测试集;构建RGBT目标跟踪模型,RGBT目标跟踪模型利用VGG-M网络来提取两个不同模态的模态特定特征,在共享特征提取模块中提取两个模态的模态共享特征,同时在共享特征提取模块中使用多尺度特征融合的策略来增强特征。
如图2所示,具体包括以下步骤:
S1、构建多模态数据集,将可见光图片和热红外图片进行配准和标注形成RGBT目标跟踪数据集,分别为训练集和测试集;
上述过程中,先对采集好的多模态视频先进行人工校对筛选出合适的视频序列,再人工标注帧值,并标注上对应的挑战因素;
S2、对训练集中的图片进行预处理,即将每一张图片所在的路径位置、图片名称、帧值(目标的左上角位置和长宽)均写到pkl文件中,以方便在训练时候读入图片;对测试集中的图片进行预处理,将测试集中的序列名称写入到txt文本中,方便后续的读入;
S3、构建RGBT目标跟踪模型,该RGBT目标跟踪模型使用的深度网络框架为PyTorch,包括模态特定特征提取模块、注意力机制模块和模态共享提取特征模块(如图3所示)。
1)将可将光图片和热红外图片输入到目标跟踪网络MDNet中,用VGG-M特征提取模块的前三层卷积层来分别提取可见光和热红外图片特征。通过加载VGG-M预训练网络,结构相同但参数不一致的网络分别针对不同模态提取不同模态的特征。
2)模态特定特征提取模块
(a)第一层为卷积层,使用7*7*96卷积核,步长为2,对图像进行卷积操作,然后使用一个LRN(局部响应归一化)层来归一化数据,帮助模型快速收敛并提高模型的泛化能力。然后使用3*3的Max Pool操作。
(b)第二层为卷积层,使用5*5*256卷积核,步长为2,对图像进行卷积操作,再使用一个LRN层归一化数据。
(c)第三层为卷积层,使用3*3*512卷积核进行卷积操作。
3)在特定特征提取模块中使用注意力机制来增强模态特定特征:
(A)将输入的模态特定特征,分别经过基于width和height的全局最大池化和全局平均池化,然后分别经过MLP(多层感知器);将MLP输出的特征进行基于元素级的相加操作,再经过sigmoid激活操作,生成通道注意力图,将该图和输入的特征做元素级乘法操作获得新特征;
(B)空间注意力机制:将经过通道注意力机制模块输出的特征图作为输入特征图;首先做一个基于通道的全局最大池化和全局平均池化,然后将这两个结果基于通道方向做级联操作;然后经过一个卷积操作,降维为1个通道;再经过sigmoid生成空间注意力图,最后将该图和该模块的输入特征做乘法,得到最终生成的特征。
4)在共享特征提取模块中,使用多尺度特征融合的方法来加强特征;将模态特定特征和模态共享特征进行相加得到新的特征,再将两个模态的新特征进行级联。
5)将融合之后的特征送入全连接层,为防止过度拟合,建立一个多域学习网络,该多域学习网络网络由四个全连接层FC1,FC2,FC3,FC4组成。;这四个全连接层的输出通道大小分别为1024、512、512、2。在训练期间,最后一个全连接层FC4具有K个分支,每个分支对应一个单独的域。每个分支都包含一个二分类层,用于区分目标和背景。
6)在训练期间,使用焦点损失函数进行训练。之前的RGBT目标跟踪方法在训练期间使用二分类损失函数,这样会使在训练的时候容易分类的样本和难分类的样本起到一样的作用,但是在训练期间应该更加注重难分类的样本。焦点损失函数很好的解决了这个问题,使模型在训练期间偏重于难分类的样本。损失函数公式如下:
Figure BDA0003005157770000061
FL(pt)=-(1-pt)γlog(pt)
其中,y∈{±1}代表的是样本的真实标签,在二分类中样本标签y=1和y=-1分别代表的是正样本和负样本,它们之间是互斥的,p∈[0,1]代表的是当y=1时类的估计概率;γ是一个超参数,它代表的是容易分类的样本和难分类样本的权重差别的难度,这里设置的值为2。
实施例:
如图1所示,本实施例将不同模态的特定特征和共享特征融合之后,将其作为输入送入到全连接层中进行前景和背景的分类,训练期间使用焦点损失函数使网络模型更加注重于难以分类的样本,提高模型的判别能力。整个目标跟踪过程中,其训练使用的优化器是随机梯度下降法,初始的学习率为0.0001,训练次数为50次,最终的模型收敛到最优。

Claims (7)

1.一种基于跨模态共享和特定表示形式的RGBT目标跟踪方法,其特征在于:包括以下步骤:
S1、构建多模态数据集
将可见光-热红外视频中可见光和热红外图片进行初筛、配准和标注,形成RGBT目标跟踪数据集,并分成训练集和测试集;
S2、对训练集和测试集中的图片进行预处理;
S3、构建RGBT目标跟踪模型,
该RGBT目标跟踪模型使用的深度网络框架为PyTorch,包括注意力机制模块、共享特征提取模块和特定特征提取模块,具体步骤如下:
S3.1、将预处理好的可见光图片和热红外图片同时输入到网络中;
S3.2、提取不同模态的特定特征,即加载两个结构相同且参数不同的VGG-M网络分别对训练集中的可见光图片和热红外图片进行特征提取;
S3.3、对步骤S3.2所得两个模态的特定特征使用注意力机制模块提高特征的判别性;
S3.4、在共享特征提取模块中使用多尺度特征融合方法来提高特征的鲁棒性,并输出两个模态之间的共享特征;
3.5、将两个模态各自的特定特征和共享特征进行融合,然后再将两个模态融合后的特征进行级联;
S3.6、建立一个多域学习网络来学习目标对象的共性;该多域学习网络包括四个全连接层依次为:FC1,FC2,FC3和FC4;
S3.7、在训练期间使用焦点损失函数来训练网络模型;
焦点损失函数公式如下:
Figure FDA0003005157760000011
FL(pt)=-(1-pt)γlog(pt)
其中,γ是一个超参数,代表容易分类的样本和难分类样本的权重差别的难度;y∈{±1}代表的是样本的真实标签,在二分类中样本标签y=1和y=-1分别代表的是正样本和负样本,它们之间是互斥的,p∈[0,1]代表的是当y=1时类的估计概率。
2.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法,其特征在于:所述步骤S1中先对拍摄到的可见光以及热红外视频中的图片进行初步的筛选,再对其进行人工标注帧值,即对图片中包含目标的候选框,生成的坐标格式为(xmin,ymin,width,height),其中,(xmin,ymin)代表目标左上角坐标信息,(width,height)分别代表目标的宽和高;然后按照要求划分为训练集和测试集;同时对训练集和测试集中的视频序列标注相应的挑战因素。
3.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法,其特征在于:所述步骤S2中将训练集中标注完成的可见光图片和热红外图片进行预处理,即将每一张图片所在的路径位置、图片名称、帧值(目标的左上角位置和长宽)均写到pkl文件中,以方便在训练时候读入图片;视频序列的可将光图片和热红外图片分别放在infrared和visible两个文件夹内,对应的帧值信息存放在infrared.txt和visible.txt中,和infrared、visible这两个文件夹放在同一目录下;
对测试集中的可见光图片和热红外图片进行预处理,将测试集中的序列名称写入到txt文本中,方便后续的读入。
4.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法,其特征在于:所述S3.2中模态特定特征的特征提取模块如下:
(A)第一层为卷积层,使用7*7*96卷积核,步长为2,对图片进行卷积操作,然后使用一个LRN层来归一化数据;然后使用3*3的Max Pool操作;
(B)第二层为卷积层,使用5*5*256卷积核,步长为2,对图片进行卷积操作,再使用一个LRN层归一化数据;
(C)第三层为卷积层,使用3*3*512卷积核进行卷积操作。
5.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法,其特征在于:所述步骤S3.3中注意力机制对模态特定特征进行增强的具体方法:
(A)将输入的模态特定特征,分别经过基于width和height的全局最大池化和全局平均池化,然后分别经过多层感知器MLP;将MLP输出的特征进行基于元素级的相加操作,再经过sigmoid激活操作,生成通道注意力图,将该图和输入的特征做元素级乘法操作获得新特征;
(B)空间注意力机制:将经过通道注意力机制模块输出的特征图作为输入特征图;先做一个基于通道的全局最大池化和全局平均池化,然后将这两个结果基于通道方向做级联操作;然后经过一个卷积操作,降维为1个通道;再经过sigmoid生成空间注意力图,最后将该图和该模块的输入特征做乘法,得到最终生成的特征。
6.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法,其特征在于:所述步骤S3.4中不同模态之间的共享提取模块包括以下内容:上层先使用3*3的Max Pool操作,步长为1;再使用3*3的卷积操作,步长为1;下层使用3*3的卷积操作,步长为2。
7.根据权利要求1所述的基于跨模态共享和特定表示形式的RGBT目标跟踪方法,其特征在于:所述步骤S3.6中的多域学习网络包括四个全连接层,分别为FC1,FC2,FC3,FC4;四个全连接层的输出通道大小分别为1024、512、512、2;在训练期间,最后一个全连接层FC4具有K个分支,每个分支对应一个单独的域,且每个分支都包含一个二分类层,用于区分目标和背景。
CN202110359997.XA 2021-04-02 2021-04-02 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 Active CN113077491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110359997.XA CN113077491B (zh) 2021-04-02 2021-04-02 基于跨模态共享和特定表示形式的rgbt目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110359997.XA CN113077491B (zh) 2021-04-02 2021-04-02 基于跨模态共享和特定表示形式的rgbt目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113077491A true CN113077491A (zh) 2021-07-06
CN113077491B CN113077491B (zh) 2023-05-02

Family

ID=76614820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110359997.XA Active CN113077491B (zh) 2021-04-02 2021-04-02 基于跨模态共享和特定表示形式的rgbt目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113077491B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837296A (zh) * 2021-09-28 2021-12-24 安徽大学 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统
CN114581706A (zh) * 2022-03-02 2022-06-03 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质
CN114663470A (zh) * 2022-01-26 2022-06-24 安徽大学 基于软选择的自适应跨模态视觉跟踪方法
CN114782488A (zh) * 2022-04-01 2022-07-22 燕山大学 一种基于通道感知的水下目标跟踪方法
CN115272420A (zh) * 2022-09-28 2022-11-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种长时目标跟踪方法、系统及存储介质
CN115294176A (zh) * 2022-09-27 2022-11-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种双光多模型长时间目标跟踪方法、系统及存储介质
CN116188528A (zh) * 2023-01-10 2023-05-30 中国人民解放军军事科学院国防科技创新研究院 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596958A (zh) * 2018-05-10 2018-09-28 安徽大学 一种基于困难正样本生成的目标跟踪方法
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN110349185A (zh) * 2019-07-12 2019-10-18 安徽大学 一种rgbt目标跟踪模型的训练方法及装置
CN110349179A (zh) * 2019-07-12 2019-10-18 安徽大学 一种基于多适配器的可见光红外视觉跟踪方法及装置
CN110874590A (zh) * 2019-11-18 2020-03-10 安徽大学 基于适配器互学习模型的训练及可见光红外视觉跟踪方法
CN110929848A (zh) * 2019-11-18 2020-03-27 安徽大学 基于多挑战感知学习模型的训练、跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111476823A (zh) * 2020-05-09 2020-07-31 安徽大学 基于多挑战交互学习的实时rgbt跟踪方法及装置
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN111724410A (zh) * 2020-05-25 2020-09-29 天津大学 一种基于残余注意力的目标跟踪方法
CN111767882A (zh) * 2020-07-06 2020-10-13 江南大学 一种基于改进yolo模型的多模态行人检测方法
CN111931787A (zh) * 2020-07-22 2020-11-13 杭州电子科技大学 一种基于特征聚合的rgbd显著性检测方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN112070111A (zh) * 2020-07-28 2020-12-11 浙江大学 一种适配多波段图像的多目标检测方法和系统
WO2021015231A1 (ja) * 2019-07-25 2021-01-28 富士フイルム株式会社 学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル
CN112418203A (zh) * 2020-11-11 2021-02-26 南京邮电大学 基于双线性汇合四流网络的鲁棒性rgb-t跟踪方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596958A (zh) * 2018-05-10 2018-09-28 安徽大学 一种基于困难正样本生成的目标跟踪方法
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN110349185A (zh) * 2019-07-12 2019-10-18 安徽大学 一种rgbt目标跟踪模型的训练方法及装置
CN110349179A (zh) * 2019-07-12 2019-10-18 安徽大学 一种基于多适配器的可见光红外视觉跟踪方法及装置
WO2021015231A1 (ja) * 2019-07-25 2021-01-28 富士フイルム株式会社 学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル
CN110874590A (zh) * 2019-11-18 2020-03-10 安徽大学 基于适配器互学习模型的训练及可见光红外视觉跟踪方法
CN110929848A (zh) * 2019-11-18 2020-03-27 安徽大学 基于多挑战感知学习模型的训练、跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111583173A (zh) * 2020-03-20 2020-08-25 北京交通大学 一种rgb-d图像显著性目标检测方法
CN111476823A (zh) * 2020-05-09 2020-07-31 安徽大学 基于多挑战交互学习的实时rgbt跟踪方法及装置
CN111724410A (zh) * 2020-05-25 2020-09-29 天津大学 一种基于残余注意力的目标跟踪方法
CN111967477A (zh) * 2020-07-02 2020-11-20 北京大学深圳研究生院 Rgb-d图像显著性目标检测方法、装置、设备及存储介质
CN111767882A (zh) * 2020-07-06 2020-10-13 江南大学 一种基于改进yolo模型的多模态行人检测方法
CN111931787A (zh) * 2020-07-22 2020-11-13 杭州电子科技大学 一种基于特征聚合的rgbd显著性检测方法
CN112070111A (zh) * 2020-07-28 2020-12-11 浙江大学 一种适配多波段图像的多目标检测方法和系统
CN112418203A (zh) * 2020-11-11 2021-02-26 南京邮电大学 基于双线性汇合四流网络的鲁棒性rgb-t跟踪方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
CHAOQUN WANG ET AL: "Cross-Modal Pattern-Propagation for RGB-T Tracking", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
HYEONSEOB NAM ET AL: "Learning Multi-domain Convolutional Neural Networks for Visual Tracking", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
SANGHYUN WOO ET AL: "CBAM: Convolutional Block Attention Module", 《ARXIV》 *
SEUNGYONG LEE ET AL: "RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
YABIN ZHU ET AL: "Quality-Aware Feature Aggregation Network for Robust RGBT Tracking", 《IEEE TRANSACTIONS ON INTELLIGENT VEHICLES》 *
施政 等: "基于YOLO的多模态加权融合行人检测算法", 《计算机工程》 *
李肖肖: "基于梯度域的多尺度PET-SPECT与MRI图像融合算法研究", 《中国优秀硕士论文全文数据库卫生医药科技辑》 *
王钰龙: "基于协同相关滤波的RGBT目标跟踪研究", 《中国优秀硕士论文全文数据库信息科技辑》 *
董洪义: "《深度学习之PyTorch物体检测实战》", 31 January 2020, 北京:机械工业出版社 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837296A (zh) * 2021-09-28 2021-12-24 安徽大学 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统
CN113837296B (zh) * 2021-09-28 2024-05-31 安徽大学 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统
CN114663470A (zh) * 2022-01-26 2022-06-24 安徽大学 基于软选择的自适应跨模态视觉跟踪方法
CN114663470B (zh) * 2022-01-26 2024-03-15 安徽大学 基于软选择的自适应跨模态视觉跟踪方法
CN114581706A (zh) * 2022-03-02 2022-06-03 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质
CN114581706B (zh) * 2022-03-02 2024-03-08 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质
CN114782488A (zh) * 2022-04-01 2022-07-22 燕山大学 一种基于通道感知的水下目标跟踪方法
CN115294176A (zh) * 2022-09-27 2022-11-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种双光多模型长时间目标跟踪方法、系统及存储介质
CN115272420A (zh) * 2022-09-28 2022-11-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种长时目标跟踪方法、系统及存储介质
CN115272420B (zh) * 2022-09-28 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种长时目标跟踪方法、系统及存储介质
CN116188528A (zh) * 2023-01-10 2023-05-30 中国人民解放军军事科学院国防科技创新研究院 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统
CN116188528B (zh) * 2023-01-10 2024-03-15 中国人民解放军军事科学院国防科技创新研究院 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统

Also Published As

Publication number Publication date
CN113077491B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN113077491B (zh) 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
Li et al. Deep domain adaptive object detection: A survey
Zhang et al. Deep multimodal fusion for semantic image segmentation: A survey
Zhang et al. Cross-modality interactive attention network for multispectral pedestrian detection
Song et al. Automated pavement crack damage detection using deep multiscale convolutional features
Kaur et al. Tools, techniques, datasets and application areas for object detection in an image: a review
Jiang et al. CmSalGAN: RGB-D salient object detection with cross-view generative adversarial networks
Fan et al. A survey of crowd counting and density estimation based on convolutional neural network
Chen et al. EF-Net: A novel enhancement and fusion network for RGB-D saliency detection
Dasgupta et al. Spatio-contextual deep network-based multimodal pedestrian detection for autonomous driving
Huang et al. Scribble-based boundary-aware network for weakly supervised salient object detection in remote sensing images
CN114332911A (zh) 一种头部姿态检测方法、装置及计算机设备
Lv et al. Attention-based fusion network for human eye-fixation prediction in 3D images
Li et al. A novel feature fusion method for computing image aesthetic quality
Shi et al. Adaptive threshold cascade faster RCNN for domain adaptive object detection
CN111507416A (zh) 一种基于深度学习的吸烟行为实时检测方法
CN114170422A (zh) 一种煤矿井下图像语义分割方法
Wang et al. Cold start problem of vehicle model recognition under cross-scenario based on transfer learning
Che et al. A database of students’ spontaneous actions in the real classroom environment
CN115393901A (zh) 一种跨模态行人重识别方法及计算机可读存储介质
Rahmon et al. Deepftsg: Multi-stream asymmetric use-net trellis encoders with shared decoder feature fusion architecture for video motion segmentation
CN115359442A (zh) 基于部件表征学习和个性化属性结构的车辆重识别方法
Shi et al. Cpa-yolov7: Contextual and pyramid attention-based improvement of yolov7 for drones scene target detection
CN113361475A (zh) 一种基于多阶段特征融合信息复用的多光谱行人检测方法
Vasilescu et al. Collaborative object recognition for parking management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant