CN112801182B - 一种基于困难样本感知的rgbt目标跟踪方法 - Google Patents
一种基于困难样本感知的rgbt目标跟踪方法 Download PDFInfo
- Publication number
- CN112801182B CN112801182B CN202110111705.0A CN202110111705A CN112801182B CN 112801182 B CN112801182 B CN 112801182B CN 202110111705 A CN202110111705 A CN 202110111705A CN 112801182 B CN112801182 B CN 112801182B
- Authority
- CN
- China
- Prior art keywords
- sample
- foreground
- picture
- target
- difficult
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000008447 perception Effects 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 description 9
- 238000005286 illumination Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于困难样本感知的RGBT目标跟踪方法,包括对行可见光图片和热红外图片进行配准标注分成训练集和测试集,然后对构建对应模型对预处理后的图片进行训练和测试;模型中包括实时跟踪网络RT‑MDNet、VGG‑M特征提取模块、前景增强模块、特征嵌入模块和二分类模块,本发明在低光照光照变化强烈等极端条件下跟踪上目标,通过前景增强模块来增强前景信息抑制背景信息,并通过困难样本感知损失函数,挖掘更多困难样本,辅助分类器目标背景的分类。
Description
技术领域
本发明属于计算机视觉目标跟踪技术,具体涉及一种基于困难样本感知的RGBT目标跟踪方法。
背景技术
视频目标跟踪作为计算机视觉中的一个重要分支,在视频监控、无人机巡航、智能监控等应用中起到了关键的作用,同时也能帮助解决其他计算机视觉任务。目标跟踪是给出第一帧中的目标,在后续帧中利用一个合适大小的矩形框实现目标物体的跟踪,其中包含每一帧中物体的尺度信息和位置信息。
随着深度学习的快速发展,视频目标跟踪的性能问题得到了很大的提升,但在跟踪问题中仍然有很多的问题需要进一步的解决。视频目标跟踪是基于视频帧来处理的,所以在视频帧跟踪的过程中,背景和前景都会发生变化,因此主要的挑战包括:遮挡、形变、背景杂乱、尺度变化、光照等,这些挑战无疑增加了视频目标跟踪的难度。当前一些跟踪器有针对性地解决相关的挑战以此来提高跟踪的效率。同时也出现了利用其他模态的图片信息来弥补单个模态的缺陷,减缓甚至消除单个模态下某些挑战的影响。因此,越来越多的研究关注于利用多模态的互补信息来提高跟踪性能,热红外模态尤其适合于低光照或者光照变化强烈的条件下。
近年来,研究者们提出众多深度度量学习方法,并在图像检索、行人车辆的重识别以及目标跟踪上取得很好的效果。深度度量学习方法通过采用卷积神经网络作为其嵌入函数,极大的提高了嵌入表达的性能。具体来说,这些方法训练神经网络将图像投影到一个嵌入空间上,如果两个样本示例在语义上相似,那么样本间的欧式距离或马氏距离就会比较小,否则距离就会比较大。因此,深度度量学习的加入,可以辅助分类器对样本进行更好的分类,可以应用于许多分类任务中。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于困难样本感知的RGBT目标跟踪方法,通过挖掘更多有价值的困难样本加入训练,提高RGBT目标跟踪模型的判别性和鲁棒性。
技术方案:本发明的一种基于困难样本感知的RGBT目标跟踪方法,包括以下步骤:
步骤S1、构建数据库,获得数据集;
采集多模态相机拍摄的图片,并对图片进行人工配准和标注,按要求筛选出适合训练和测试的图片,并标注上相应挑战,形成对应训练集和测试集;
步骤S2、分别对训练集RGBT234和测试集GTOT中的图片进行预处理,即将每一张图片所在的路径位置和图片内目标所处的像素位置均分别加入到各自的XML文件内,以方便后续对图片的读入;
步骤S3、通过MLX文件读取对应图片信息,所述图片信息包括图片的路径、图片内目标的坐标等,然后对训练集中的图片进行数据增强的预处理(例如旋转、缩放、平移、翻转、裁剪等),进而扩充训练集中的图片数据量,丰富图片的数据量;
步骤S4、构建优化目标跟踪模型,该模型中包括实时跟踪网络RT-MDNet、VGG-M特征提取模块、前景增强模块、特征嵌入模块和二分类模块;具体方法为:
S4.1、将预处理后的可见光图片和热红外图片同时输入到网络中(基础网是RT-MDNet);
S4.2、加载两个结构相同且参数不同的VGG-M特征提取模块分别对两个数据源(即是指训练集中的可见光图片和热红外图片)的数据进行特征提取;
S4.3、针对步骤S4.2所提取的特征,使用全局平均池化GAP层和softmax层进行特征融合;即计算每个模态的特征图的全局平均池化的结果,然后送到softmax,计算其通道权重,然后将每个模态的特征的通道权重和特征相乘再拼接;
S4.4、使用自适应的ROIAlign将原图(此处原图是指步骤S4.1中输入的可见光和热红外图片)上样本的矩形包围盒映射到原图的特征图上,得到相应的样本特征;
S4.5、将步骤S4.4提取的样本特征通过前景增强模块生成前景掩膜,用于增强前景特征;即通过前景增强模块来增强前景的特征并同时抑制背景噪声带来的负面影响;
S4.6、使用困难感知的结构性损失函数挖掘更多困难样本来训练特征嵌入空间,用来辅助分类器目标背景的分类;
S4.7、使用softmax损失函数计算二分类损失,再与困难样本感知的结构性损失函数一起共同更新网络参数。
进一步地,所述步骤1中多模态相机拍摄的图片包括可见光图片和热红外图片;人工标注时使用labelimg标注软件,对包含目标的部分画框,生成的坐标格式为(xmin,ymin,width,height),
其中,(xmin,ymin)代表目标左上角信息,(width,height)表示的是目标框的宽和高。
进一步地,所述步骤S2中将标注完成的可见光图片和热红外图片分别放在nfrared和visible两个文件夹内,坐标文件按照infrared.txt和visible.txt格式和两个文件夹在同一目录下。
进一步地,所述步骤S4.2中将可将光图片和热红外图片输入到网络后,使用两个结构相同但参数不同的VGG-M预训练网络分别对这两个不同模态提取不同模态的特征;每个VGG-M预训练网络均包括三层卷积层,分别是:
第一层为卷积层,使用7*7*96卷积核,步长为2,对图像进行卷积操作,然后使用局部响应归一化LRN层归一化数据,帮助模型快速收敛并提高模型的泛化能力,然后使用3*3的Max Pool操作;
第二层为卷积层,使用5*5*256卷积核,步长为2,对图像进行卷积操作,再使用一个LRN层归一化数据;
第三层为卷积层,使用3*3*512卷积核进行卷积操作。
进一步地,所述步骤S4.3中使用全局平均池化GAP层和softmax层融合两个模态的特征。
进一步地,所述步骤S4.5中使用前景增强模块对目标增强的详细方法为:
(1)对于同一个特征图分别经过两个相同结构的网络:前景网络和背景网络;前景网络中先使用目标增强模块对前景目标进行学习前景的mask,这样学习到的前景特征的信息被加强,而背景的噪声信息一定程度上也能被压制,然后使用中间的目标注意力损失函数对前景mask的学习;最终得到对应特征图。
其中,目标增强模块的网络结构通过对应卷积操作进行目标增强,依次为:使用1*1*256卷积核来对特征进行降维,3*3*128的卷积核继续提取特征,1*1*64卷积核进行特征降低维数减少网络参数。
(2)将所得特征图对应通道的特征值进行相加求平均,然后按照通道池化操作通过一个sigmoid函数,就生成对应一个前景mask。
(3)生成前景mask后,对背景的mask进行掩膜,通过目标注意力损失函数对mask学习,公式如下所示:
上式中,Zf是前景的mask掩膜,Fg是增强后的前景特征,Bg是增强后的背景特征,和是对F和B在空间维度上执行l2规范化的结果;F是前景的特征,B是背景的特征,g是增强操作,因此Fg和Bg是增强后的前景和背景特征,f和b是前景和背景的上标,l是范式约束,l2是二范约束;c指的是通道的标志,是第几通道;Zf是生成的mask掩膜。
进一步地,所述步骤4中对经过前景增强模块增强的特征进行特征嵌入,方法如下:
按照样本与锚框的距离分别为正负样本加上权值:对于正样本,样本与锚框的距离越小权值越小,而样本与锚框的距离越大,则说明此正样本属于困难样本,因此赋予的权值相应加大;对于负样本,样本与锚框的距离越小,则说明此负样本可能越属于困难负样本,则赋予的权值相应的更大,对于简单负样本赋予的权值更低;
通过上述过程挖掘更多的困难样本加入训练,同时也利用了所有样本的全局信息,能够学习到一个更具判别性的特征嵌入空间,辅助分类器的分类;
相关损失函数公式如下所示:
式(6)中NS是三元组的对数,a是下标,fa是锚框的特征,和是正样本和负样本特征的集合,而m是正负样本之间的间距。这里的fi是样本的特征集合中的其中一个;公式(8)是样本的加权策略,和是对应的每一个正样本和负样本获得的权重值;d()是欧式距离公式,是个预先设置的值,通过公式(8)获得每个正负样本的权值,公式(7)是所有样本的欧式距离加权求平均的结果。
进一步地,所述步骤S4.6中在训练时,学习率设置为0.0001,训练次数设置为450次,得到的模型大致为最优模型。
有益效果:本发明利用可见光模态和热红外模态的互补性,使得在低光照、光照变化强烈等极端条件下也能跟踪上目标,通过增强前景信息抑制背景信息的前景增强网络,同时利用困难样本感知的损失函数来挖掘更多有价值困难样本,最终训练生成对应信息更具丰富的特征嵌入空间,实现辅助分类器目标背景的分类。
附图说明
图1为本发明的整体流程示意图;
图2为本发明的整体网络结构示意图;
图3为本发明中前景增强模块的网络结构示意图;
图4为本发明中目标增强网络示意图;
图5为本发明中困难样本感知损失函数示意图;
图6为本发明中加权策略示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1和图2所示,本发明的一种基于困难样本感知的RGBT目标跟踪方法,包括以下步骤:
步骤S1、构建数据库,获得数据集
采集多模态相机拍摄的图片,并对图片进行人工配准和标注,按要求筛选出适合训练和测试的图片,并标注上相应挑战,形成对应训练集和测试集;人工标注时使用labelimg标注软件,对包含目标的部分画框,生成的坐标格式为(xmin,ymin,width,height),其中,(xmin,ymin)代表目标左上角信息,(width,height)表示的是目标框的宽和高。
步骤S2、分别对训练集RGBT234和测试集GTOT中的图片进行预准备,即将每一张图片所在的路径位置和图片内目标所处的像素位置均分别加入到各自的XML文件内,以方便后续对图片的读入。例如,本实施例中将标注完成的可见光图片和热红外图片分别放在infrared和visible两个文件夹内,坐标文件按照infrared.txt和visible.txt格式和两个文件夹在同一目录下。
步骤S3、通过MLX文件读取对应图片信息,包括图片的路径、图片内目标的坐标等然后对训练集中的图片进行预处理(旋转、缩放、平移、翻转、裁剪等数据增强操作),进而扩充训练集中的图片数据量,丰富图片的数据量。
步骤S4、构建优化目标跟踪模型,该模型中包括实时跟踪网络RT-MDNet、VGG-M特征提取模块、前景增强模块、特征嵌入模块和二分类模块;具体方法为:
S4.1、将预处理后的可见光图片和热红外图片同时输入到网络中;
S4.2、加载两个结构相同且参数不同的VGG-M特征提取模块分别对两个数据源的数据进行特征提取;每个VGG-M预训练网络均包括三层卷积层,分别是:
第一层为卷积层,使用7*7*96卷积核,步长为2,对图像进行卷积操作,然后使用局部响应归一化LRN层归一化数据,帮助模型快速收敛并提高模型的泛化能力,然后使用3*3的Max Pool操作;
第二层为卷积层,使用5*5*256卷积核,步长为2,对图像进行卷积操作,再使用一个LRN层归一化数据;
第三层为卷积层,使用3*3*512卷积核进行卷积操作
S4.3、针对步骤S4.2所提取的特征,使用全局平均池化GAP层和softmax层融合两个模态的特征;
S4.4、使用自适应的ROI Align将原图上样本的矩形包围盒映射到原图的特征图上,得到相应的样本特征;
S4.5、将步骤S4.4提取的样本特征通过前景增强模块生成前景掩膜,用于增强前景特征;即通过前景增强模块来增强前景的特征并同时抑制背景噪声带来的负面影响;
S4.6、使用困难感知的结构性损失函数挖掘更多困难样本来训练特征嵌入空间,用来辅助分类器目标背景的分类;
S4.7、使用softmax损失函数计算二分类损失,再与困难样本感知的结构性损失函数一起共同更新网络参数。
上述步骤S4.5中使用前景增强模块对目标增强的详细方法为:
(1)、对于同一个特征图分别经过两个相同结构的网络:前景网络和背景网络;前景网络中先使用目标增强模块对前景目标进行学习前景的mask,这样学习到的前景特征的信息被加强,而背景的噪声信息一定程度上也能被压制,然后使用中间的目标注意力损失函数对前景mask的学习;最终得到对应特征图
其中,目标增强模块的网络结构通过对应卷积操作进行目标增强,依次为:使用1*1*256卷积核来对特征进行降维,3*3*128的卷积核继续提取特征,1*1*64卷积核进行特征降低维数减少网络参数;
(2)、将所得特征图对应通道的特征值进行相加求平均,然后按照通道池化操作通过一个sigmoid函数,就生成对应一个前景mask;
(3)、生成前景mask后,对背景的mask进行掩膜,通过目标注意力损失函数对mask学习,公式如下所示:
如图4至图6所示,将上述已经过前景特征增强后的样本特征放入一个特征嵌入层,学习一个特征空间用于拉近同类样本,使非同类样本距离变大。方法如下:
按照样本与锚框的距离分别为正负样本加上权值:对于正样本,样本与锚框的距离越小权值越小,而样本与锚框的距离越大,则说明此正样本属于困难样本,因此赋予的权值相应加大;对于负样本,样本与锚框的距离越小,则说明此负样本可能越属于困难负样本,则赋予的权值相应的更大,对于简单负样本赋予的权值更低;
通过上述过程挖掘更多的困难样本加入训练,同时也利用了所有样本的全局信息,能够学习到一个更具判别性的特征嵌入空间,辅助分类器的分类;
相关损失函数公式如下所示:
式(6)中NS是三元组的对数,a是下标,fa是锚框的特征,和是正样本和负样本特征的集合,而m是正负样本之间的间距。这里的fi是样本的特征集合中的其中一个。公式(8)是样本的加权策略,和是对应的每一个正样本和负样本获得的权重值。d()是欧式距离公式,是个预先设置的值,通过公式(8)获得每个正负样本的权值,公式(7)是所有样本的欧式距离加权求平均的结果。
本实施例中,如图2所示,将融合后的可见光和热红外模态图片的样本特征另一支送入到三个连续的全连接层,计算分类损失,因此最终的训练损失是困难样本感知结构性损失函数和分类损失函数的总和。
整个目标跟踪过程中,其训练使用的优化器是随机梯度下降法,初始的学习率为0.0001,训练次数为450次,最终的模型收敛到最优。
Claims (6)
1.一种基于困难样本感知的RGBT目标跟踪方法,其特征在于:包括以下步骤:
步骤S1、构建数据库,获得数据集
采集多模态相机拍摄的图片,并对图片进行人工配准和标注,按要求筛选出适合训练和测试的图片,并标注上相应标签,形成对应训练集和测试集;
步骤S2、分别对训练集和测试集中的图片进行预准备,即将每一张图片所在的路径位置和图片内目标所处的像素位置均加入到一个各自的XML文件内,以方便后续对图片的读入;
步骤S3、通过XML文件读取对应图片信息,所述图片信息包括图片的路径、图片内目标的坐标,然后对训练集中的图片进行数据增强的预处理操作,进而扩充训练集中的图片数据量;
步骤S4、构建优化目标跟踪模型,该模型中包括实时跟踪网络RT-MDNet、VGG-M特征提取模块、前景增强模块、特征嵌入模块和二分类模块;具体方法为:
S4.1、将预处理后的可见光图片和热红外图片同时输入到网络中;
S4.2、加载两个结构相同但参数不同的VGG-M特征提取模块分别对训练集中的可见光图片和热红外图片进行特征提取;
S4.3、针对步骤S4.2所提取的特征,使用全局平均池化GAP层和softmax层融合两个模态的特征;
S4.4、使用自适应的ROIAlign将原图上样本的矩形包围盒映射到原图的特征图上,得到相应的样本特征;原图是指步骤S4.1中输入的可见光图片和热红外图片;
S4.5、将步骤S4.4提取的样本特征通过前景增强模块生成前景掩膜来增强前景特征,具体方法为:
(1)对于同一个特征图分别经过两个相同结构的网络:前景网络和背景网络;前景网络中先使用目标增强模块对前景目标进行学习前景的mask,然后使用中间的目标注意力损失函数对前景mask的学习;最终得到对应特征图;
其中,目标增强模块的网络结构通过对应卷积操作进行目标增强,依次为:使用1*1*256卷积核来对特征进行降维,3*3*128的卷积核继续提取特征,1*1*64卷积核进行特征降低维数减少网络参数;
(2)将所得特征图对应通道的特征值进行相加求平均,然后按照通道池化操作通过一个sigmoid函数,就生成对应一个前景mask;
(3)生成前景mask后,对背景的mask进行掩膜,通过目标注意力损失函数对mask学习,公式如下所示:
上式中,Zf是前景的mask掩膜,Fg是增强后的前景特征,Zb是背景的mask掩膜,Bg是增强后的背景特征,和是对F和B在空间维度上执行l2规范化的结果;F是前景的特征,B是背景的特征;g是增强操作,因此Fg和Bg是增强后的前景和背景特征,Lt是指目标注意力损失函数;f和b是前景和背景的上标;l2是范式约束,c指的是通道的标志,是第几通道;
S4.6、使用困难样本感知的结构性损失函数挖掘更多困难样本来训练特征嵌入空间,用来辅助分类器目标背景的分类;
S4.7、使用softmax损失函数计算二分类损失,再与困难样本感知的结构性损失函数一起共同更新网络参数。
2.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法,其特征在于:所述步骤S1中多模态相机拍摄的图片包括可见光图片和热红外图片;人工标注时使用labelimg标注软件,对包含目标的部分画框,生成的坐标格式为(xmin,ymin,width,height),其中,(xmin,ymin)代表目标左上角信息,(width,height)表示的是目标框的宽和高。
3.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法,其特征在于:所述步骤S2中将标注完成的热红外图片和可见光图片分别放在infrared和visible两个文件夹内,坐标文件按照infrared.txt和visible.txt格式和两个文件夹在同一目录下。
4.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法,其特征在于:所述步骤S4.2中将可见光图片和热红外图片输入到网络后,使用两个结构相同但参数不同的VGG-M特征提取模块分别对这两个不同模态提取不同模态的特征;每个VGG-M特征提取模块均包括三层卷积层,分别是:
第一层为卷积层,使用7*7*96卷积核,步长为2,对图像进行卷积操作,然后使用局部响应归一化LRN层归一化数据,然后使用3*3的Max Pool操作;
第二层为卷积层,使用5*5*256卷积核,步长为2,对图像进行卷积操作,再使用一个LRN层归一化数据;
第三层为卷积层,使用3*3*512卷积核进行卷积操作。
5.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法,其特征在于:所述步骤S4中对经过前景增强模块增强的特征进行特征嵌入,方法如下:
按照样本与锚框的距离分别为正负样本加上权值:对于正样本,样本与锚框的距离越小权值越小,而样本与锚框的距离越大,则说明此正样本属于困难样本,因此赋予的权值相应加大;对于负样本,样本与锚框的距离越小,则说明此负样本可能越属于困难负样本,则赋予的权值相应的更大,对于简单负样本赋予的权值更低;
通过上述过程挖掘更多的困难样本加入训练,同时也利用了所有样本的全局信息,能够学习到一个更具判别性的特征嵌入空间,辅助分类器的分类;
困难样本感知的结构性损失函数公式如下所示:
6.根据权利要求1所述的基于困难样本感知的RGBT目标跟踪方法,其特征在于:所述步骤S4.6中在训练时,学习率设置为0.0001,训练次数设置为450次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110111705.0A CN112801182B (zh) | 2021-01-27 | 2021-01-27 | 一种基于困难样本感知的rgbt目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110111705.0A CN112801182B (zh) | 2021-01-27 | 2021-01-27 | 一种基于困难样本感知的rgbt目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801182A CN112801182A (zh) | 2021-05-14 |
CN112801182B true CN112801182B (zh) | 2022-11-04 |
Family
ID=75812103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110111705.0A Active CN112801182B (zh) | 2021-01-27 | 2021-01-27 | 一种基于困难样本感知的rgbt目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801182B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298094B (zh) * | 2021-06-10 | 2022-11-04 | 安徽大学 | 一种基于模态关联与双感知解码器的rgb-t的显著性目标检测方法 |
CN113744314B (zh) * | 2021-09-06 | 2023-09-22 | 郑州海威光电科技有限公司 | 一种基于目标-干扰感知的目标跟踪方法 |
CN113837296B (zh) * | 2021-09-28 | 2024-05-31 | 安徽大学 | 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统 |
CN116701917B (zh) * | 2023-07-28 | 2023-10-20 | 电子科技大学 | 一种基于生理信号的开放集情感识别方法 |
CN117351049B (zh) * | 2023-12-04 | 2024-02-13 | 四川金信石信息技术有限公司 | 热成像与可见光融合的测点配准引导方法、设备和介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596958A (zh) * | 2018-05-10 | 2018-09-28 | 安徽大学 | 一种基于困难正样本生成的目标跟踪方法 |
CN109800778A (zh) * | 2018-12-03 | 2019-05-24 | 浙江工业大学 | 一种基于难分样本挖掘的Faster RCNN目标检测方法 |
CN110210551A (zh) * | 2019-05-28 | 2019-09-06 | 北京工业大学 | 一种基于自适应主体敏感的视觉目标跟踪方法 |
CN110349185A (zh) * | 2019-07-12 | 2019-10-18 | 安徽大学 | 一种rgbt目标跟踪模型的训练方法及装置 |
CN110874590A (zh) * | 2019-11-18 | 2020-03-10 | 安徽大学 | 基于适配器互学习模型的训练及可见光红外视觉跟踪方法 |
CN110929848A (zh) * | 2019-11-18 | 2020-03-27 | 安徽大学 | 基于多挑战感知学习模型的训练、跟踪方法 |
CN111242026A (zh) * | 2020-01-13 | 2020-06-05 | 中国矿业大学 | 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法 |
CN111724410A (zh) * | 2020-05-25 | 2020-09-29 | 天津大学 | 一种基于残余注意力的目标跟踪方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102450441B1 (ko) * | 2016-07-14 | 2022-09-30 | 매직 립, 인코포레이티드 | 홍채 식별을 위한 딥 뉴럴 네트워크 |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
-
2021
- 2021-01-27 CN CN202110111705.0A patent/CN112801182B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596958A (zh) * | 2018-05-10 | 2018-09-28 | 安徽大学 | 一种基于困难正样本生成的目标跟踪方法 |
CN109800778A (zh) * | 2018-12-03 | 2019-05-24 | 浙江工业大学 | 一种基于难分样本挖掘的Faster RCNN目标检测方法 |
CN110210551A (zh) * | 2019-05-28 | 2019-09-06 | 北京工业大学 | 一种基于自适应主体敏感的视觉目标跟踪方法 |
CN110349185A (zh) * | 2019-07-12 | 2019-10-18 | 安徽大学 | 一种rgbt目标跟踪模型的训练方法及装置 |
CN110874590A (zh) * | 2019-11-18 | 2020-03-10 | 安徽大学 | 基于适配器互学习模型的训练及可见光红外视觉跟踪方法 |
CN110929848A (zh) * | 2019-11-18 | 2020-03-27 | 安徽大学 | 基于多挑战感知学习模型的训练、跟踪方法 |
CN111242026A (zh) * | 2020-01-13 | 2020-06-05 | 中国矿业大学 | 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法 |
CN111724410A (zh) * | 2020-05-25 | 2020-09-29 | 天津大学 | 一种基于残余注意力的目标跟踪方法 |
Non-Patent Citations (8)
Title |
---|
Fusing two-stream convolutional neural networks for RGB-T object tracking;ChenglongLi 等;《Neurocomputing》;20180315;第281卷;78-85 * |
Learning Modality-Consistency Feature Templates: A Robust RGB-Infrared Tracking System;Xiangyuan Lan 等;《IEEE Transactions on Industrial Electronics》;20191231;第66卷(第12期);9887-9897 * |
Multi-Modal Fusion for End-to-End RGB-T Tracking;Lichao Zhang 等;《2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW)》;20200305;2252-2261 * |
Multi-modal fusion network with multi-scale multi-path and cross-modal interactions for RGB-D salient object detection;Chen Hao 等;《Pattern Recognition》;20190228;第86卷;376-385 * |
Quality-Aware Feature Aggregation Network for Robust RGBT Tracking;Yabin Zhu 等;《IEEE Transactions on Intelligent Vehicles》;20200313;121-130 * |
RGB-T目标跟踪综述;丁正彤 等;《南京信息工程大学学报(自然科学版)》;20191231;第11卷(第6期);690-697 * |
基于多图学习的多模态图像显著性检测算法研究;黎圣;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715;第2020年卷(第7期);I138-1177 * |
基于深度学习的行人重识别;王艳旗;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;第2020年卷(第1期);I138-1861 * |
Also Published As
Publication number | Publication date |
---|---|
CN112801182A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801182B (zh) | 一种基于困难样本感知的rgbt目标跟踪方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN108875608B (zh) | 一种基于深度学习的机动车交通信号识别方法 | |
CN113077491B (zh) | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 | |
CN114820655B (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN113159043A (zh) | 基于语义信息的特征点匹配方法及系统 | |
CN112070174A (zh) | 一种基于深度学习的自然场景下文本检测方法 | |
WO2024051296A1 (zh) | 一种复杂天气下障碍物检测方法及装置 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN113033454A (zh) | 一种城市视频摄像中建筑物变化的检测方法 | |
CN111489330A (zh) | 基于多源信息融合的弱小目标检测方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Wang et al. | Pedestrian detection in infrared image based on depth transfer learning | |
CN111507416A (zh) | 一种基于深度学习的吸烟行为实时检测方法 | |
CN114743126A (zh) | 一种基于图注意力机制网络的车道线标志分割方法 | |
CN112418207B (zh) | 一种基于自注意力蒸馏的弱监督文字检测方法 | |
CN114170422A (zh) | 一种煤矿井下图像语义分割方法 | |
CN110533074B (zh) | 一种基于双深度神经网络的图片类别自动标注方法及系统 | |
CN116740413A (zh) | 一种基于改进YOLOv5的深海生物目标检测方法 | |
CN115359442A (zh) | 基于部件表征学习和个性化属性结构的车辆重识别方法 | |
CN114998866A (zh) | 一种基于改进YOLOv4的交通标志识别方法 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN117315614B (zh) | 一种基于改进YOLOv7的交通目标检测方法 | |
CN117994822B (zh) | 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法 | |
CN113642500B (zh) | 一种基于多阶段域自适应的低照度目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |