CN114220124A - 一种近红外-可见光跨模态双流行人重识别方法及系统 - Google Patents
一种近红外-可见光跨模态双流行人重识别方法及系统 Download PDFInfo
- Publication number
- CN114220124A CN114220124A CN202111542006.8A CN202111542006A CN114220124A CN 114220124 A CN114220124 A CN 114220124A CN 202111542006 A CN202111542006 A CN 202111542006A CN 114220124 A CN114220124 A CN 114220124A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- modal
- visible light
- cross
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000013095 identification testing Methods 0.000 claims description 3
- 230000036961 partial effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims 1
- 238000003062 neural network model Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 238000005070 sampling Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种近红外‑可见光跨模态双流行人重识别方法,以残差网络为基础,初始输入k对图片至神经网络模型中进行特征提取,分别提取可见光模态和红外模态的模态特有特征和模态共享特征;并采用跨模态三元组和Circle联合损失函数对网络模型在近红外‑可见光跨模态数据集上进行训练,将提取到的最终图像特征进行欧式距离度量得到特征匹配结果,实现跨模态行人重识别,本发明采用双流分支网络结构,提高网络特征提取能力,采用随机调换输入策略有概率的选择特定模态的图像输入,引入多头自注意力机制模块以及局部关系注意力方法将不同结构特征融合,有效解决传统可见光图像模式到红外图像模式模态差异大的问题,提高跨模态行人重识别匹配准确率。
Description
技术领域
本发明涉及计算机视觉的研究领域,特别涉及一种近红外-可见光跨模态双流行人重识别方法及系统。
背景技术
行人重识别是计算机视觉领域中的一项热门的研究课题,它将计算机图像处理技术和统计学技术融入到一起,广泛应用于安防领域和智能监控等领域。行人重识别的目的是从一台相机中拍摄的图片或视频给定一个查询行人,从另一台相机拍摄的图片或者视频中去识别出这个特定行人。通过开发卷积神经网络模型,可见光下行人重识别在学术研究上的性能已经达到了95%以上。
随着监控系统的普及,行人重识别技术也取得了很大的进展。为了实现全天候监控,使用可见光摄像头和红外摄像头分别采集白天的可见光图像和夜晚的红外图像。由于不同模态相机的波长范围不同,造成了较大的模态差异以及类内差异,导致两种模态之间存在显著的视觉差异,因此可见光-红外图像跨模态行人重识别受到了极大的关注。可见光-红外图像跨模态行人重识别是一种异质行人图像数据之间检索问题。其核心问题是构建跨模态图像数据间的统一共享特征表达,主要技术难点在于如何有效区分跨模态图像数据中的模态共享和模态特征相关的信息。在跨模态图像识别任务中,期望跨模态共享特征信息学习到更多与身份判别相关联的信息。因此,如果所学共享特征信息混有比较多的与模态特有特征相关的信息,则会降低统一特征表达下的身份判别能力。同时,跨模态图像数据之间的非线性映射比单一模态图像数据在低维空间上的非线性映射更加复杂,这将会对模型结构设计提出更高的要求,模型架构也会更加复杂。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种近红外-可见光跨模态双流行人重识别方法及系统,针对近红外模态与可见光模态图像之间的巨大差异,在双流卷积神经网络的基础上对网络模型进行了改进,主要包含三个组成部分:1、多头自注意力双流网络模块;2、局部关系分支模块;3、全局分支模块;本文提出的基于多头注意力机制的跨模态双流行人重识别网络可以充分提取近红外与可见光的跨模态行人不变特征信息,使网络可以学习到泛化能力更强的特征,从而提高近红外与可见光跨模态行人重识别任务的准确度和识别效果。
本发明的第一目的在于提供一种近红外-可见光跨模态双流行人重识别方法;
本发明的第二目的在于提供一种近红外-可见光跨模态双流行人重识别系统。
本发明的第一目的通过以下的技术方案实现:
一种近红外-可见光跨模态双流行人重识别方法,包括以下步骤:
通过数据获取模块获取跨模态行人图像数据集;
构建多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型,并进行参数初始化;
对所述跨模态行人图像数据集进行图像预处理,并通过固定目标样本策略使得每张图片的采用概率相等,预处理后行人图像数据集作为跨模态双流行人重识别网络模型的输入张量;
采用随机调换输入策略,将预处理后行人图像数据集输入跨模态双流行人重识别网络模型中进行训练,得到最优的跨模态双流行人重识别网络模型并保存;
使用最优的跨模态双流行人重识别网络模型分别提取近红外图像和可见光图像的特征向量,即分别提取近红外模态的特征向量和可见光模态的特征向量;
将两个模态的特征向量进行欧式距离计算并按照距离大小排序得到特征匹配结果,完成近红外-可见光跨模态双流行人重识别。
进一步地,所述多头自注意力机制的近红外-可见光的跨模态双流行人重识别网络模型包括多头自注意力双流网络模块、局部关系分支模块、全局分支模块。
进一步地,所述多头自注意力双流网络模块采用ResNet50作为主干网络,包含多个Stage,将Stage0作为特定模态图像的特征提取部分,Stage0的参数不共享,用于提取可见光模态图像和红外模态图像的模态特定信息,其余Stage2-Stagei作为混合模态图像的特征提取部分,Stage2-Stagei的参数共享,i取值范围为:0,1,2,3,4。
进一步地,所述局部关系分支模块将多头自注意力双流网络模块的输出特征图作为输入,对输出特征图进行切分得到水平特征图,将每个水平特征图依次输入到三核的卷积层结构,得到卷积后特征图,将第一核和第二核得到的卷积后特征图做乘法操作后得到一个p*p阶的相似性矩阵,将相似性矩阵和第三核得到的卷积后特征图做乘法操作得到p*2048个特征图,做一个全局平均池化层得到1*2048的特征向量,用来与全局分支模块特征融合以及做跨模态三元组损失计算。
进一步地,所述全局分支模块包含广义平均池化层、BN层、融合层;所述全局分支模块将多头自注意力双路网络模块的输出特征图作为输入,经过广义平均池化层得到特征向量,经过BN层做归一化处理,将归一化处理后的特征向量和局部关系分支模块池化后的特征向量做加法操作,得到最终多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练的输出特征,用于做Circle损失计算。
进一步地,所述对跨模态行人图像数据集进行图像预处理,具体为:通过采用固定目标样本策略使每个行人的采样概率相同后对行人图像数据集中进行数据增强,包括对样本图片进行设定概率为1/2的水平翻转、随机擦除原图像中的部分区域、随机裁剪或者旋转来增强训练数据,然后进行归一化处理得到三维张量,以得到合适网络模型处理的输入张量;达到增强训练样本的多样性目标,一定程度上可以提高模型的泛化能力和鲁棒性;
进一步地,所述采用固定目标样本策略,具体为:首先对训练数据集进行统计,包括所有行人类别的图片的总和、每个行人ID所对应的图片数量、每个行人ID的最大值、中位数、众数以及平均值,其中第i个行人拥有的图片数量记为ni,行人中拥有最多的图片数量记为max(ni)。然后,对每个行人图片设置一个相同采样值,即目标图片采样数,记为N,N的取值让其大于每个行人类别的最大值、中位数、众数以及平均值,建议取值设为平均值的K倍。当ni>N时,随机去掉ni-N张图片;当ni<N时,利用后面的数据增强方法增强到N张图片。使用这种固定目标样本策略就能使每个行人Id对应的图片数相等,从而使样本均衡采样概率相等,避免个别样本过多或者过少而引起训练模型对不同样本识别效果差距大的问题。
进一步地,所述采用随机调换输入策略,具体为:在基于多头注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练过程中,所述行人重识别网络模型的两个输入端输入图像会随着模型训练Epoch的增加而进行随机调换;刚开始进行第一概率的调换,即有第一概率将网络的一个输入端输入换成另外一个输入端的输入;然后在40epoch的时候进行第二概率的调换,在70epoch的时候进行第三概率的调换,总共训练120epoch;通过调换输入策略,一个特定模态的网络将有概率地接受另一个模态的图像作为输入。
进一步地,所述将预处理后行人图像数据集输入跨模态双流行人重识别网络模型中进行训练,具体为:
整个训练分为两个阶段,第一阶段使用预训练模型权重作为训练的超参数,对网络权重进行调整,第一阶段迭代次数设置为取PreEpoch次;第二阶段是为正式训练阶段,第二阶段迭代次数设置为ResEpoch;整个过程是将多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型输出的两个模态图像的特征向量通过跨模态三元组损失函数计算得到跨模态三元组损失值;
所述跨模态三元组损失函数表示为:
LCro-triplet=max[D(F′rgb,F′ir-p)-D(F′rgb,F′rgb-n)+m]+max[D(F′ir,F′rgb-p)-D(F′ir,F′ir-n)+m]
其中F′rgb表示可见光图像特征,F′ir表示红外图像特征,F′ir-p表示红外图像正样本特征,T′rgb-n表示可见光图像负样本特征;D(:,:)表示行人图像对之间的相似性距离;m为手动设置的距离阈值,用于限制正负样本之间的距离;跨模态三元组数损失L'Cro-triplet的目标就是拉近不同模态的正样本对之间的距离D(F′rgb,F′ir-p)和D(F′ir,F′rgb-p)同时推远相同模态负样本对之间的距离D(F′rgb,F′rgb-n)和D(F′ir,F′ir-n),在样本图像的距离空间减小类内距离;本文距离度量D选择欧式距离。
将特征向量通过全连接神经网络计算和softmax函数归一化计算得到图像标签预测值;将图像标签预测值和图像标签真实值通过Circle损失函数计算得到Circle损失值;
所述Circle损失函数表示为:
其中,sn和sp分别为关于样本空间x的类间相似度和类内相似度,其采用余弦相似度来计算类内和类间相似度距离分数,Δn与Δp分别为类间间隔和类内间隔,实验过程中分别设置为0.25和0.75;
将跨模态三元组损失值和Circle损失值相加后得到总的损失值;对总的损失值进行反向传播梯度计算,利用梯度进行参数更新,依次迭代进行网络训练,保存每一次迭代的最佳模型,直到所有迭代结束得到最优的网络模型;
总的损失函数表示为:
Ltotal=αLCro-triplet+βLcircle
其中α和β分别为损失函数的权重因子,实验过程中均设置为1。
进一步地,所述将两个模态的特征向量进行欧式距离计算并按照距离大小排序得到特征匹配结果,具体为:在行人重识别的测试阶段,在第一模态已有多个行人的特征向量的情况下,将第二模态中拍摄到的一张新的行人图像输入到基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型中,将网络模型输出的特征向量通过批标准化得到输出特征向量,在两个模态的特征向量之间进行余弦相似度距离计算并进行距离由小到大的排序,与新的特征向量余弦距离最近的特征向量所对应的行人图像ID即为匹配结果。
本发明的第二目的通过以下技术方案实现:
一种近红外-可见光跨模态双流行人重识别系统,包括图像预处理模块、网络构建模块、参数初始化模块、训练模块与识别模块;
所述图像预处理模块,用于采集两个不同模态下的图像,并基于固定目标样本策略进行图像预处理,作为基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络的输入张量;
所述网络构建模块,引入Transformer中的多头自注意力机制,构建基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型,并通过该跨模态双流行人重识别网络模型提取特征;
所述参数初始化模块,用于对基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型进行参数初始化;
所述训练模块,用于在跨模态数据集上基于随机调换输入策略进行训练;
所述识别模块,用于将提取到的近红外和可见光两个模态的特征向量进行欧氏距离计算并按照距离大小排序以得到特征匹配结果,完成跨模态双流行人重识别。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明在一般的卷积神经网络特征提取模块中引入Transformer中的多头自注意力模块,可以筛选取出行人重识别更加有用的特征,增加不同行人之间的区别和减少同一行人之间的区别,提高了网络特征提取能力;
2、本发明将两种模态的数据共享一个卷积网络的权重以学习两种模态的不变行人特征,减少了网络参数,提升了跨模态行人重识别的速度;
3、本发明实现了全局粗粒度特征与局部细粒度关系特征的结合,可以有效的利用不同层次的特征,减少信息的丢失,提高特征的利用率,从而达到提高跨模态行人重识别的准确率。
附图说明
图1是本发明所述一种近红外-可见光跨模态双流行人重识别方法的流程图;
图2是本发明所述一种近红外-可见光跨模态双流行人重识别方法的网络模型图;
图3是本发明所述一种近红外-可见光跨模态双流行人重识别系统的结构框图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1:
一种近红外-可见光跨模态双流行人重识别方法,如图1所示,该方法通过使用在大型图像识别数据集ImageNet上预训练好的卷积神经网络ResNet50为骨干网络,引入多头自注意力机制模块用来特征提取、并采用跨模态三元组损失函数、Circle损失函数和随机调换策略对网络在跨模态数据集上进行训练,分别提取两个模态图像的特征,再将两个模态的特征进行欧氏距离度量得到特征匹配结果,实现跨模态行人重识别,包括以下步骤:
通过数据获取模块获取跨模态行人图像数据集;
构建多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型,并进行参数初始化;
对所述跨模态行人图像数据集进行图像预处理,并通过固定目标样本策略使得每张图片的采用概率相等,预处理后行人图像数据集作为跨模态双流行人重识别网络模型的输入张量;
采用随机调换输入策略,将预处理后行人图像数据集输入跨模态双流行人重识别网络模型中进行训练,得到最优的跨模态双流行人重识别网络模型并保存;
使用最优的跨模态双流行人重识别网络模型分别提取近红外图像和可见光图像的特征向量,即分别提取近红外模态的特征向量和可见光模态的特征向量;
将两个模态的特征向量进行欧式距离计算并按照距离大小排序得到特征匹配结果,完成近红外-可见光跨模态双流行人重识别。
参考图1,为本发明一种近红外-可见光跨模态双流行人重识别方法的具体实施流程图,具体实施步骤如下:
获取跨模态行人重识别领域的公开数据集SYSU-MM01,数据集SYSU-MM01包含了491个行人身份,训练集包含19659幅可见图像和395人的12792幅红外图像,测试集包含96人。有两种测试模式,全搜索模式和室内搜索模式。
对数据集进行图像预处理,并采用固定目标样本策略使每个行人图片的采样概率相等后,再进行数据增强的具体实施步骤如下:
1)将所有训练和测试的图像大小调整为384x128;
2)这里的固定目标样本策略具体是指:首先对训练数据集进行统计,包括所有行人类别的图片的总和、每个行人ID所对应的图片数量、每个行人ID的最大值、中位数、众数以及平均值,其中第i个行人拥有的图片数量记为ni,行人中拥有最多的图片数量记为max(ni)。然后,对每个行人图片设置一个相同采样值,即目标图片采样数,记为N,N的取值让其大于每个行人类别的最大值、中位数、众数以及平均值,建议取值设为平均值的K倍。当ni>N时,随机去掉ni-N张图片;当ni<N时,利用后面的数据增强方法增强到N张图片。使用这种固定目标样本策略就能使每个行人Id对应的图片数相等,从而使样本均衡采样概率相等,避免个别样本过多或者过少而引起训练模型对不同样本识别效果差距大的问题。
3)数据增强方法具体包括:对样本图片进行概率为1/2的水平翻转、随机擦除原图像中的部分区域、随机裁剪或者旋转来增强训练数据,然后进行归一化处理得到三维张量,以得到合适网络模型处理的输入张量;达到增强训练样本的多样性目标,一定程度上可以提高模型的泛化能力和鲁棒性。
构建多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型的具体实施例如下:
对残差网络ResNet50改造为基础网络,参照图2,为本发明设计的多头注意力机制的近红外-可见光跨模态双流行人重识别网络结构。输入图像经过Resnet50骨干网络的堆叠卷积层后,由全局分支(Global Branch)和局部关系分支(Local Relation Branch)共享特征图。对于全局粗粒度特征,本发明可以直接对特征图做全局平均池化(GMP)得到。对于局部细粒度特征,本发明首先对特征图做水平分区,然后将水平分区之间构成一个关系注意力矩阵,提取局部细粒度特征,并通过广义平均池化(GeM)得到局部特征向量,以进行跨模态三元组损失计算。最后,本发明将全局特征和局部特征进行组合作为最终的特征表示,并经过全连接层和Softmax层以实现图像的分类。
构建全局分支模块和局部关系分支模块的具体实施如下:
1)为了让神经网络学习到更多判别性的特征,本发明设计了一种基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络结构用于跨模态行人重识别任务,采用具有竞争性性能的Resnet50作为骨干网络,引入Transformer中的多头自注意力结构构成参照图3中的多头自注意力双流网络模块来提取行人的特征图。首先,将Resnet50中的Stage0作为特定模态图像的特征提取部分,Stage0的参数不共享,用于提取可见光模态图像和红外模态图像的模态特定信息,其余Stage2-Stagei作为混合模态图像的特征提取部分,Stage2-Stagei的参数共享,i为4。然后,将Stage4层的3x3卷积(convolution)操作用多头自注意力结构替换,并再将stride=2改为stride=1。接着,将多头自注意力双流网络模块后的部分划分成两个独立的分支,分别将其命名为全局分支(Global Branch)模块和局部关系分支(Local Relation Branch)模块。
2)对于全局分支模块,包括全局平均池化(GMP)层、BN层、融合层;使用全局平均池化(GMP)将P x 2048的特征图转换为1x2048的全局特征向量,
经过BN层做归一化处理,将归一化处理后的特征向量和局部关系分支模块池化后的特征向量做加法操作,得到最终多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练的输出特征,用于做Circle损失计算。
3)对于局部关系分支模块,将多头自注意力双流网络模块的输出特征图作为输入,对输出特征图水平方向上均匀p个条带;然后,将每个水平特征图依次输入到从上到下三个不同1x1Conv卷积层结构(依次用v(.)、u(.)、z(.)来表示)得到卷积后特征图,将第一核和第二核得到的卷积后特征图做乘法操作后得到一个p x p阶的相似性矩阵(AffinityMatrix),将相似性矩阵和第三核得到的卷积后特征图做乘法操作得到p x 2048个特征图,然后做一个广义平均池化(GeM)得到1x2048的特征向量,用来与全局分支模块特征融合以及做跨模态三元组损失计算。
对多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型参数初始化的具体实施如下:
1)使用ImageNet上预先训练的权重进行ResNet50模型的初始化,因为预训练的网络有助于实现更好的性能;
2)设置批处理的大小为64,在每个批次中随机选取P个不同身份的样本进行采样,并从训练集中为每个身份随机选取K张图像,在本发明的实验中设置P=16,K=4;
3)将全局分支和局部关系分支上的跨模态三元组损失和Circle损失的权重均设置为1;
4)选择Adam作为模型的优化器。训练模型设置Epochs的大小为120,其中学习率在前40个Epochs由0.01递增到0.1,在40至80个Epochs之间学习率保持为0.1,在80个Epochs之后学习率为0.01;
5)最后模型采用深度学习框架PyTorch实现,服务器采用NVIDIA 1080Ti GPU对模型进行训练。
进行图像预处理:将数据集SYSU-MM01里的原始图像随机地裁剪成384x128的图像;
基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络训练方法具体实施如下:
对基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型进行参数初始化,对训练数据集中的图像进行预处理,将处理好的不同模态图像按照随机调换策略分别输入到双流网络模型中。模型最终输出图像提取后的特征和行人ID预测值,然后在Adam优化器的优化下,以梯度下降的方式对损失值求导,更新网络中的参数,在跨模态行人重识别数据集SYSU-MM01上进行网络训练。损失值通过对网络的损失函数进行计算得出。基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络训练的损失函数为跨模态三元组损失函数与Circle损失函数两个函数线性相加,将网络模型输出的两个模态图像的特征向量通过跨模态三元组损失函数计算得到跨模态三元组损失值,其中,图像的特征向量通过对网络模型输出的特征图使用通用平均池化(GeM Pooling)得到,将特征向量通过全连接神经网络计算和softmax函数归一化计算得到图像标签预测值,然后将图像标签预测值和图像标签真实值通过跨模态三元组损失函数和Circle损失函数计算得到跨模态三元组损失值和Circle损失值,把所有的损失值相加得到总的损失值,不断的进行参数更新迭代,最后得到最优的网络模型并保存;
网络训练中的随机调换策略具体为:在基于多头注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练过程中,所述行人重识别网络模型的两个输入端输入图像会随着模型训练Epochs的增加而进行随机调换;刚开始进行第一概率的调换,即有第一概率将网络的一个输入端输入换成另外一个输入端的输入;然后在40epoch的时候进行第二概率的调换,在70epoch的时候进行第三概率的调换,总共训练120epoch;通过调换输入策略,一个特定模态的网络将有概率地接受另一个模态的图像作为输入。这里的第一概率为1/2,第二概率为1/4,第三概率为1/8。
行人识别:在跨模态的行人重识别测试阶段,在一个模态下已有多个行人图像的特征向量的情况下,将另一个模态中的一张新的行人图像输入到基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络中,然后将网络模型输出的特征向量通过批标准化得到特征向量,在两个模态的特征向量之间进行余弦相似度距离计算并按照距离由小到大排序,与新的行人图像特征向量余弦相似度距离最近的已知行人图像特征向量所对应的行人图像ID就是识别结果。
网络模型训练的损失函数表示如下:
所述跨模态三元组损失函数表示为:
LCro-triplet=max[D(F′rgb,F′ir-p)-D(F′rgb,F′rgb-n)+m]+max[D(F′ir,F′rgb-p)-D(F′ir,F′ir-n)+m]
其中F′rgb表示可见光图像特征,F′ir表示红外图像特征,F′ir-p表示红外图像正样本特征,T′rgb-n表示可见光图像负样本特征;D(:,:)表示行人图像对之间的相似性距离;m为手动设置的距离阈值,用于限制正负样本之间的距离;跨模态三元组数损失L'Cro-triplet的目标就是拉近不同模态的正样本对之间的距离D(F′rgb,F′ir-p)和D(F′ir,F′rgb-p)同时推远相同模态负样本对之间的距离D(F′rgb,F′rgb-n)和D(F′ir,F′ir-n),在样本图像的距离空间减小类内距离。本文距离度量D选择欧式距离。
所述Circle损失函数表示为:
其中sn和sp分别为关于样本空间x的类间相似度和类内相似度,其采用余弦相似度来计算类内和类间相似度距离分数,Δn与Δp分别为类间和类内间隔,实验过程中分别设置为0.25和0.75,γ为缩放因子,实验过程中设置为1,和为非负权重因子。
总的损失函数表示为:
Ltotal=αLCro-triplet+βLcircle
其中α和β分别为损失函数的权重因子,实验过程中均设置为1。
实施例2
一种近红外-可见光跨模态双流行人重识别系统,如图3所示,包括图像预处理模块、网络构建模块、参数初始化模块、训练模块与识别模块;
所述图像预处理模块,用于采集两个不同模态下的图像,并基于固定目标样本策略进行图像预处理,作为基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络的输入张量;
所述网络构建模块,引入Transformer中的多头自注意力机制,构建基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型,并通过该行人重识别网络模型提取特征;
所述参数初始化模块,用于对基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型进行参数初始化;
所述训练模块,用于在跨模态数据集上基于随机调换输入策略进行训练;
所述识别模块,用于将提取到的近红外和可见光两个模态的特征向量进行欧氏距离计算并按照距离大小排序以得到特征匹配结果,完成跨模态双流行人重识别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种近红外-可见光跨模态双流行人重识别方法,其特征在于,包括以下步骤:
通过数据获取模块获取跨模态行人图像数据集;
构建多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型,并进行参数初始化;
对所述跨模态行人图像数据集进行图像预处理,并通过固定目标样本策略使得每张图片的采用概率相等,预处理后行人图像数据集作为跨模态双流行人重识别网络模型的输入张量;
采用随机调换输入策略,将预处理后行人图像数据集输入跨模态双流行人重识别网络模型中进行训练,得到最优的跨模态双流行人重识别网络模型并保存;
使用最优的跨模态双流行人重识别网络模型分别提取近红外图像和可见光图像的特征向量,即分别提取近红外模态的特征向量和可见光模态的特征向量;
将两个模态的特征向量进行欧式距离计算并按照距离大小排序得到特征匹配结果,完成近红外-可见光跨模态双流行人重识别。
2.根据权利要求1所述的一种近红外-可见光跨模态双流行人重识别方法,其特征在于,所述多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型包括多头自注意力双流网络模块、局部关系分支模块、全局分支模块。
3.根据权利要求2所述的一种近红外-可见光跨模态双流行人重识别方法,其特征在于,所述多头自注意力双流网络模块采用ResNet50作为主干网络,包含若干个Stage,将Stage0作为特定模态图像的特征提取部分,Stage0的参数不共享,用于提取可见光模态图像和红外模态图像的模态特定信息,其余Stage2-Stagei作为混合模态图像的特征提取部分,Stage2-Stagei的参数共享。
4.根据权利要求3所述的一种近红外-可见光跨模态双流行人重识别方法,其特征在于,所述局部关系分支模块将多头自注意力双路网络模块的输出特征图作为输入,对输出特征图进行切分得到水平特征图,将每个水平特征图依次输入到三核的卷积层结构,得到卷积后特征图,将第一核和第二核得到的卷积后特征图做乘法操作后得到一个p*p阶的相似性矩阵,将所述相似性矩阵和第三核得到的卷积后特征图做乘法操作得到p*2048个特征图,做一个全局平均池化层得到1*2048的特征向量,用来与全局分支模块特征融合以及做跨模态三元组损失计算。
5.根据权利要求4所述的一种近红外-可见光跨模态双流行人重识别方法,其特征在于,所述全局分支模块包含广义平均池化层、BN层、融合层;所述全局分支模块将多头自注意力双流网络模块的输出特征图作为输入,经过广义平均池化层得到特征向量,经过BN层做归一化处理,将归一化处理后的特征向量和局部关系分支模块池化后的特征向量做加法操作,得到最终多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练的输出特征,用于做Circle损失计算。
6.根据权利要求1所述的一种近红外-可见光跨模态双流行人重识别方法,其特征在于,所述对跨模态行人图像数据集进行图像预处理,具体为:对跨模态行人图像数据集中图像进行固定大小的随机裁剪,然后将裁剪好的图像按照设定概率进行水平翻转,接着将水平翻转后的图像进行归一化处理得到三维张量,随机将三维张量中的部分区域擦除,得到适合网络模型训练的输入张量。
7.根据权利要求1所述的一种近红外-可见光跨模态双流行人重识别方法,其特征在于,所述采用随机调换输入策略,具体为:在基于多头注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练过程中,所述跨模态双流行人重识别网络模型的两个输入端输入图像会随着模型训练Epoch的增加而进行随机调换;刚开始进行第一概率的调换,即有第一概率将网络的一个输入端输入换成另外一个输入端的输入;然后在40epoch的时候进行第二概率的调换,在70epoch的时候进行第三概率的调换,总共训练120epoch;通过调换输入策略,一个特定模态的网络将有概率地接受另一个模态的图像作为输入。
8.根据权利要求7所述的一种近红外-可见光跨模态双流行人重识别方法,其特征在于,所述将预处理后行人图像数据集输入跨模态双流行人重识别网络模型中进行训练,具体为:
整个训练分为两个阶段,第一阶段使用预训练模型权重作为训练的超参数,对网络权重进行调整,第一阶段迭代次数设置为取PreEpoch次;第二阶段是为正式训练阶段,第二阶段迭代次数设置为ResEpoch;整个过程是将多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型输出的两个模态图像的特征向量通过跨模态三元组损失函数计算得到跨模态三元组值;
所述跨模态三元组损失函数表示为:
LCro-triplet=max[D(F′rgb,F′ir-p)-D(F′rgb,F′rgb-n)+m]+max[D(F′ir,F′rgb-p)-D(F′ir,F′ir-n)+m]
其中,F′rgb表示可见光图像特征,F′ir表示红外图像特征,F′ir-p表示红外图像正样本特征,T′rgb-n表示可见光图像负样本特征;D(:,:)表示行人图像对之间的相似性距离;m为手动设置的距离阈值,用于限制正负样本之间的距离;跨模态三元组数损失L′Cro-triplet的目标就是拉近不同模态的正样本对之间的距离D(F′rgb,F′ir-p)和D(F′ir,F′rgb-p)同时推远相同模态负样本对之间的距离D(F′rgb,F′rgb-n)和D(F′ir,F′ir-n),在样本图像的距离空间减小类内距离;距离度量D选择欧式距离;
将特征向量通过全连接神经网络计算和softmax函数归一化计算得到图像标签预测值;将图像标签预测值和图像标签真实值通过Circle损失函数计算得到Circle损失值;
所述Circle损失函数表示为:
其中,sn和sp分别为关于样本空间x的类间相似度和类内相似度,其采用余弦相似度来计算类内和类间相似度距离分数,Δn与Δp分别为类间间隔和类内间隔;
将跨模态三元组损失值和Circle损失值相加后得到总的损失值;对总的损失值进行反向传播梯度计算,利用梯度进行参数更新,依次迭代进行网络训练,保存每一次迭代的最佳模型,直到所有迭代结束得到最优的网络模型;
总的损失函数表示为:
Ltotal=αLCro-triplet+βLcircle
其中α和β分别为损失函数的权重因子。
9.根据权利要求1所述的一种近红外-可见光跨模态双流行人重识别方法,其特征在于,所述将两个模态的特征向量进行欧式距离计算并按照距离大小排序得到特征匹配结果,具体为:在行人重识别的测试阶段,在第一模态已有多个行人的特征向量的情况下,将第二模态中拍摄到的一张新的行人图像输入到基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型中,将网络模型输出的特征向量通过批标准化得到输出特征向量,在两个模态的特征向量之间进行余弦相似度距离计算并进行距离由小到大的排序,与新的特征向量余弦距离最近的特征向量所对应的行人图像ID即为匹配结果。
10.一种近红外-可见光跨模态双流行人重识别系统,其特征在于,包括图像预处理模块、网络构建模块、参数初始化模块、训练模块与识别模块;
所述图像预处理模块,用于采集两个不同模态下的图像,并基于固定目标样本策略进行图像预处理,作为基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络的输入张量;
所述网络构建模块,引入Transformer中的多头自主意力模块,构建基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型,并通过该行人重识别网络模型提取特征;
所述参数初始化模块,用于对基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型进行参数初始化;
所述训练模块,用于在跨模态数据集上基于随机调换输入策略进行训练;
所述识别模块,用于将提取到的近红外和可见光两个模态的特征向量进行欧氏距离计算并按照距离大小排序以得到特征匹配结果,完成跨模态行人重识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111542006.8A CN114220124B (zh) | 2021-12-16 | 2021-12-16 | 一种近红外-可见光跨模态双流行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111542006.8A CN114220124B (zh) | 2021-12-16 | 2021-12-16 | 一种近红外-可见光跨模态双流行人重识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114220124A true CN114220124A (zh) | 2022-03-22 |
CN114220124B CN114220124B (zh) | 2024-07-12 |
Family
ID=80703154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111542006.8A Active CN114220124B (zh) | 2021-12-16 | 2021-12-16 | 一种近红外-可见光跨模态双流行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220124B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581838A (zh) * | 2022-04-26 | 2022-06-03 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、装置和云设备 |
CN114694185A (zh) * | 2022-05-31 | 2022-07-01 | 浪潮电子信息产业股份有限公司 | 一种跨模态目标重识别方法、装置、设备及介质 |
CN114743162A (zh) * | 2022-04-07 | 2022-07-12 | 浙江工业大学 | 一种基于生成对抗网络的跨模态行人重识别方法 |
CN114783003A (zh) * | 2022-06-23 | 2022-07-22 | 之江实验室 | 一种基于局部特征注意力的行人重识别方法和装置 |
CN114821488A (zh) * | 2022-06-30 | 2022-07-29 | 华东交通大学 | 基于多模态网络的人群计数方法、系统及计算机设备 |
CN114882525A (zh) * | 2022-04-21 | 2022-08-09 | 中国科学技术大学 | 基于模态特定记忆网络的跨模态行人重识别方法 |
CN114973120A (zh) * | 2022-04-14 | 2022-08-30 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN115050048A (zh) * | 2022-05-25 | 2022-09-13 | 杭州像素元科技有限公司 | 一种基于局部细节特征的跨模态行人重识别方法 |
CN115050044A (zh) * | 2022-04-02 | 2022-09-13 | 广西科学院 | 一种基于MLP-Mixer的跨模态行人重识别方法 |
CN115100678A (zh) * | 2022-06-10 | 2022-09-23 | 河南大学 | 基于通道重组和注意力机制的跨模态行人重识别方法 |
CN115115919A (zh) * | 2022-06-24 | 2022-09-27 | 国网智能电网研究院有限公司 | 一种电网设备热缺陷识别方法及装置 |
CN115661754A (zh) * | 2022-11-04 | 2023-01-31 | 南通大学 | 一种基于维度融合注意力的行人重识别方法 |
CN115908518A (zh) * | 2023-01-09 | 2023-04-04 | 四川赛狄信息技术股份公司 | 一种多传感图像融合方法及系统 |
CN116311387A (zh) * | 2023-05-25 | 2023-06-23 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN116363382A (zh) * | 2023-02-14 | 2023-06-30 | 长春理工大学 | 一种双波段图像特征点搜索与匹配方法 |
CN116523969A (zh) * | 2023-06-28 | 2023-08-01 | 云南联合视觉科技有限公司 | 基于mscfm和mgfe的红外-可见光跨模态行人重识别方法 |
CN116524542A (zh) * | 2023-05-08 | 2023-08-01 | 杭州像素元科技有限公司 | 一种基于细粒度特征的跨模态行人重识别方法及装置 |
CN116612439A (zh) * | 2023-07-20 | 2023-08-18 | 华侨大学 | 模态域适应性和特征鉴别性平衡方法及行人再辨识方法 |
CN117351518A (zh) * | 2023-09-26 | 2024-01-05 | 武汉大学 | 一种基于层级差异的无监督跨模态行人重识别方法及系统 |
CN117542084A (zh) * | 2023-12-06 | 2024-02-09 | 湖南大学 | 一种语义感知的跨模态行人重识别方法 |
CN117746467A (zh) * | 2024-01-05 | 2024-03-22 | 南京信息工程大学 | 一种模态增强和补偿的跨模态行人重识别方法 |
CN117746457A (zh) * | 2023-06-05 | 2024-03-22 | 南通理工学院 | 一种基于跨维度交互注意力的跨模态行人重识别方法 |
CN117934309A (zh) * | 2024-03-18 | 2024-04-26 | 昆明理工大学 | 基于模态字典和特征匹配的未配准红外可见图像融合方法 |
CN118116035A (zh) * | 2024-04-30 | 2024-05-31 | 南京信息工程大学 | 一种模态不平衡特征转换跨模态行人重识别方法 |
CN118447723A (zh) * | 2024-07-02 | 2024-08-06 | 北京大唐永盛科技发展有限公司 | 低空空域网格化无人机管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
US20200285896A1 (en) * | 2019-03-09 | 2020-09-10 | Tongji University | Method for person re-identification based on deep model with multi-loss fusion training strategy |
CN111931637A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于双流卷积神经网络的跨模态行人重识别方法和系统 |
CN112597866A (zh) * | 2020-12-16 | 2021-04-02 | 南京邮电大学 | 一种基于知识蒸馏的可见光-红外跨模态行人重识别方法 |
-
2021
- 2021-12-16 CN CN202111542006.8A patent/CN114220124B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285896A1 (en) * | 2019-03-09 | 2020-09-10 | Tongji University | Method for person re-identification based on deep model with multi-loss fusion training strategy |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
CN111931637A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于双流卷积神经网络的跨模态行人重识别方法和系统 |
CN112597866A (zh) * | 2020-12-16 | 2021-04-02 | 南京邮电大学 | 一种基于知识蒸馏的可见光-红外跨模态行人重识别方法 |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115050044A (zh) * | 2022-04-02 | 2022-09-13 | 广西科学院 | 一种基于MLP-Mixer的跨模态行人重识别方法 |
CN114743162A (zh) * | 2022-04-07 | 2022-07-12 | 浙江工业大学 | 一种基于生成对抗网络的跨模态行人重识别方法 |
CN114973120A (zh) * | 2022-04-14 | 2022-08-30 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN114973120B (zh) * | 2022-04-14 | 2024-03-12 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统 |
CN114882525B (zh) * | 2022-04-21 | 2024-04-02 | 中国科学技术大学 | 基于模态特定记忆网络的跨模态行人重识别方法 |
CN114882525A (zh) * | 2022-04-21 | 2022-08-09 | 中国科学技术大学 | 基于模态特定记忆网络的跨模态行人重识别方法 |
CN114581838A (zh) * | 2022-04-26 | 2022-06-03 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、装置和云设备 |
CN115050048A (zh) * | 2022-05-25 | 2022-09-13 | 杭州像素元科技有限公司 | 一种基于局部细节特征的跨模态行人重识别方法 |
CN114694185B (zh) * | 2022-05-31 | 2022-11-04 | 浪潮电子信息产业股份有限公司 | 一种跨模态目标重识别方法、装置、设备及介质 |
CN114694185A (zh) * | 2022-05-31 | 2022-07-01 | 浪潮电子信息产业股份有限公司 | 一种跨模态目标重识别方法、装置、设备及介质 |
WO2023231233A1 (zh) * | 2022-05-31 | 2023-12-07 | 浪潮电子信息产业股份有限公司 | 一种跨模态目标重识别方法、装置、设备及介质 |
CN115100678A (zh) * | 2022-06-10 | 2022-09-23 | 河南大学 | 基于通道重组和注意力机制的跨模态行人重识别方法 |
US11699290B1 (en) | 2022-06-23 | 2023-07-11 | Zhejiang Lab | Pedestrian re-identification method and apparatus based on local feature attention |
CN114783003A (zh) * | 2022-06-23 | 2022-07-22 | 之江实验室 | 一种基于局部特征注意力的行人重识别方法和装置 |
CN115115919A (zh) * | 2022-06-24 | 2022-09-27 | 国网智能电网研究院有限公司 | 一种电网设备热缺陷识别方法及装置 |
CN115115919B (zh) * | 2022-06-24 | 2023-05-05 | 国网智能电网研究院有限公司 | 一种电网设备热缺陷识别方法及装置 |
CN114821488A (zh) * | 2022-06-30 | 2022-07-29 | 华东交通大学 | 基于多模态网络的人群计数方法、系统及计算机设备 |
CN115661754B (zh) * | 2022-11-04 | 2024-05-31 | 南通大学 | 一种基于维度融合注意力的行人重识别方法 |
CN115661754A (zh) * | 2022-11-04 | 2023-01-31 | 南通大学 | 一种基于维度融合注意力的行人重识别方法 |
CN115908518B (zh) * | 2023-01-09 | 2023-05-09 | 四川赛狄信息技术股份公司 | 一种多传感图像融合方法及系统 |
CN115908518A (zh) * | 2023-01-09 | 2023-04-04 | 四川赛狄信息技术股份公司 | 一种多传感图像融合方法及系统 |
CN116363382A (zh) * | 2023-02-14 | 2023-06-30 | 长春理工大学 | 一种双波段图像特征点搜索与匹配方法 |
CN116363382B (zh) * | 2023-02-14 | 2024-02-23 | 长春理工大学 | 一种双波段图像特征点搜索与匹配方法 |
CN116524542A (zh) * | 2023-05-08 | 2023-08-01 | 杭州像素元科技有限公司 | 一种基于细粒度特征的跨模态行人重识别方法及装置 |
CN116524542B (zh) * | 2023-05-08 | 2023-10-31 | 杭州像素元科技有限公司 | 一种基于细粒度特征的跨模态行人重识别方法及装置 |
CN116311387B (zh) * | 2023-05-25 | 2023-09-01 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN116311387A (zh) * | 2023-05-25 | 2023-06-23 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
CN117746457A (zh) * | 2023-06-05 | 2024-03-22 | 南通理工学院 | 一种基于跨维度交互注意力的跨模态行人重识别方法 |
CN116523969A (zh) * | 2023-06-28 | 2023-08-01 | 云南联合视觉科技有限公司 | 基于mscfm和mgfe的红外-可见光跨模态行人重识别方法 |
CN116523969B (zh) * | 2023-06-28 | 2023-10-03 | 云南联合视觉科技有限公司 | 基于mscfm和mgfe的红外-可见光跨模态行人重识别方法 |
CN116612439A (zh) * | 2023-07-20 | 2023-08-18 | 华侨大学 | 模态域适应性和特征鉴别性平衡方法及行人再辨识方法 |
CN116612439B (zh) * | 2023-07-20 | 2023-10-31 | 华侨大学 | 模态域适应性和特征鉴别性平衡方法及行人再辨识方法 |
CN117351518A (zh) * | 2023-09-26 | 2024-01-05 | 武汉大学 | 一种基于层级差异的无监督跨模态行人重识别方法及系统 |
CN117351518B (zh) * | 2023-09-26 | 2024-04-19 | 武汉大学 | 一种基于层级差异的无监督跨模态行人重识别方法及系统 |
CN117542084A (zh) * | 2023-12-06 | 2024-02-09 | 湖南大学 | 一种语义感知的跨模态行人重识别方法 |
CN117746467A (zh) * | 2024-01-05 | 2024-03-22 | 南京信息工程大学 | 一种模态增强和补偿的跨模态行人重识别方法 |
CN117746467B (zh) * | 2024-01-05 | 2024-05-28 | 南京信息工程大学 | 一种模态增强和补偿的跨模态行人重识别方法 |
CN117934309A (zh) * | 2024-03-18 | 2024-04-26 | 昆明理工大学 | 基于模态字典和特征匹配的未配准红外可见图像融合方法 |
CN117934309B (zh) * | 2024-03-18 | 2024-05-24 | 昆明理工大学 | 基于模态字典和特征匹配的未配准红外可见图像融合方法 |
CN118116035A (zh) * | 2024-04-30 | 2024-05-31 | 南京信息工程大学 | 一种模态不平衡特征转换跨模态行人重识别方法 |
CN118116035B (zh) * | 2024-04-30 | 2024-07-02 | 南京信息工程大学 | 一种模态不平衡特征转换跨模态行人重识别方法 |
CN118447723A (zh) * | 2024-07-02 | 2024-08-06 | 北京大唐永盛科技发展有限公司 | 低空空域网格化无人机管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114220124B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114220124B (zh) | 一种近红外-可见光跨模态双流行人重识别方法及系统 | |
CN109583482B (zh) | 一种基于多特征融合与多核迁移学习的红外人体目标图像识别方法 | |
CN108108657B (zh) | 基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Akram et al. | A deep heterogeneous feature fusion approach for automatic land-use classification | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN110321967B (zh) | 基于卷积神经网络的图像分类改进方法 | |
CN107066559A (zh) | 一种基于深度学习的三维模型检索方法 | |
CN114821014B (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN110321862B (zh) | 一种基于紧致三元损失的行人再识别方法 | |
CN116452937A (zh) | 基于动态卷积与注意力机制的多模态特征目标检测方法 | |
CN109871892A (zh) | 一种基于小样本度量学习的机器人视觉认知系统 | |
WO2023173599A1 (zh) | 一种基于图像块评分的细粒度图像分类方法和装置 | |
Yang et al. | Local label descriptor for example based semantic image labeling | |
CN116721398A (zh) | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 | |
CN116704611A (zh) | 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN115661754A (zh) | 一种基于维度融合注意力的行人重识别方法 | |
Wang et al. | Pedestrian recognition in multi-camera networks based on deep transfer learning and feature visualization | |
Poostchi et al. | Feature selection for appearance-based vehicle tracking in geospatial video | |
CN113011506A (zh) | 一种基于深度重分形频谱网络的纹理图像分类方法 | |
Li et al. | Incremental learning of infrared vehicle detection method based on SSD | |
CN108960005A (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |