CN113989851B - 一种基于异构融合图卷积网络的跨模态行人重识别方法 - Google Patents
一种基于异构融合图卷积网络的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN113989851B CN113989851B CN202111324923.9A CN202111324923A CN113989851B CN 113989851 B CN113989851 B CN 113989851B CN 202111324923 A CN202111324923 A CN 202111324923A CN 113989851 B CN113989851 B CN 113989851B
- Authority
- CN
- China
- Prior art keywords
- visible light
- network
- image
- key point
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 28
- 239000011541 reaction mixture Substances 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100465000 Mus musculus Prag1 gene Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于异构融合图卷积网络的跨模态行人重识别方法,包括:1、构建可见光与近红外数据集,包括图像的获取以及预处理;2、采用随机批采样策略获取当前批次的可见光和近红外图像;3、构建一阶关键点提取网络提取图像的局部关键点特征,利用领接矩阵生成图数据;4、构建高阶嵌入图卷积网络建模图数据之间的结构关系;5、构建图匹配模块及损失函数的网络结构;6、利用分阶段方式训练得到最优行人重识别模型;7、利用测试集获得行人重识别结果。本发明能通过关键点提取网络、嵌入图卷积网络和图匹配网络,更好的构建跨模态图数据的特征关系,从而提高可见光与近红外行人重识别的准确度。
Description
技术领域
本发明属于计算机视觉、模式识别及行人重识别领域,具体的说公开了一种基于异构融合图卷积网络的跨模态行人重识别方法。
背景技术
近年来,由于公共安全的迫切需求,城市中监控摄像机数量不断增加,而在智能视频监控系统设计中,行人重识别技术是必不可少的关键技术之一。行人重识别是一种跨摄像机的图像检索任务,其目的是从不相交摄像机采集的图像库中检索给定查询的人员。鉴于行人重识别研究的影响力和实际重要性,该技术已成为计算机视觉和模式识别领域的一个研究热点。
现有的行人重识别方法主要是处理单模态的可见光图像,但在真实复杂的场景中,即在黑暗和明亮的交叉光照环境中捕捉人物图像,这些方法的效果会显著降低。同时,可见光相机不能在夜间工作。现如今,一些新型监视设备投入使用,如可见光-红外双模摄像机(RGB-IR Dual-mode Cameras),在较差的照明条件下仍然可以捕捉人的外观特征。这引起了工业界和学术界对可见光-近红外(RGB-NIR)跨模态匹配的广泛研究兴趣。两种模态间图像以及单一模态内人的外观特征均存在较大差异。例如,可见光图像包含了一些像颜色这样的鉴别线索,而这些信息在红外图像中缺失。
目前,已经有一些针对可见光和红外的跨模态行人重识别方法。当前的研究工作主要从两个方面来解决跨模态行人重识别问题。第一类方法试图通过特征级约束(如对齐图像的特征分布)来减少跨模态差异。其目标是最大化具有相同身份特征(类内特征)的相似性,并最小化具有不同身份特征(类间特征)的相似性。例如Zhu等文献《Hetero-Centerloss for cross-modality person Re-identification》设计了双流局部特征网络,为了改进类内跨模态相似性,提出异质中心损失将两个异质模态中心之间的距离拉近,提高模态间特征的相似度。第二类方法是在输入级使用GAN将图像从一种模态转换到另一种模态,同时尽可能地保存身份信息。
然而,这两类方法仅专注于解决跨模态中的模态差异,却忽略了单模态行人重识别中仍然存在的挑战,包括外观差异、背景杂乱、视点变化和遮挡等。现有的工作主要集中在可见光-近红外图像转换或跨模态的全局共享特征学习,而身体部位的局部特征和这些特征之间的结构关系在很大程度上被忽略了。第一类方法忽视了很多模态特有信息,第二类方法会引入随机干扰,这些方法仍然使跨模态信息之间的匹配较困难,导致红外与可见光跨模态行人再识别的识别效果较差。
发明内容
本发明为克服上述现有技术中存在的问题,本发明提出了一种基于异构融合图卷积网络的跨模态行人重识别方法,以期能更好的构建跨模态数据的特征关系并减弱图像数据中噪声的影响,同时考虑到局部关键点之间的联系,从而提高可见光与近红外跨模态行人重识别的准确度。
为了实现上述技术目的,本发明采用如下技术方案:
本发明一种基于异构融合图卷积网络的跨模态行人重识别方法的特点是,包括如下步骤:
步骤1、构建可见光与近红外数据集;
用光学相机和近红外相机分别采集若干张可见光单帧图像与近红外单帧图像,并利用SA-FastRCNN行人检测方法,分别裁剪出可见光与近红外单帧图像中的单个行人图像;对裁剪后的每张单个行人图像进行人工标注和标准化处理,并选取P个行人的Q张单个行人图像分别构成可见光单个行人图像集和近红外单个行人图像集其中,表示第p个行人的第q张可见光单个行人图像,表示第p个行人的第q张近红外单个行人图像;将由可见光单个行人图像集XRGB和近红外单个行人图像集XNIR所构成的数据集分成训练集和测试集;
步骤3、构建包含姿态估计网络和CNN网络的一阶关键点提取网络,用于提取图像的局部关键点特征;
步骤3.1、将可见光的当前第T个批次分别输入到姿态估计网络和CNN网络,并相应输出姿态关键点热度图mkey和全局特征向量Vglobal后进行哈达玛积运算,再将运算结果输入全局平均池化层后,得到K个可见光关键点特征向量其中,表示第k个可见光关键点;
步骤3.2、将K个可见光关键点特征向量Vlocal中的每个可见光关键点以及一个全局特征向量Vglobal中的全局特征点按照人体结构进行构图,从而得到可见光的图数据GRGB=(VRGB,ARGB);其中,VRGB表示每个可见光关键点所表示的顶点集,ARGB表示领接矩阵定义的自然连接关系所表示的边集;
步骤3.3、将近红外的当前第T个批次分别输入到姿态估计网络和CNN网络后,也按照步骤3.1-步骤3.2的过程进行处理,得到近红外的图数据GNIR=(VNIR,ANIR);其中,VNIR表示由每个可见光关键点的顶点集,ANIR表示领接矩阵定义的自然连接关系所表示的边集,且ARGB=ANIR;
步骤4、构建由输入模块、图内卷积模块、跨图卷积模块、图内卷积模块和输出模块依次级联而成的高阶嵌入图卷积网络;
所述输入模块为一层批归一化层;
所述图内卷积模块由一层图内卷积层、一层归一化层和一层ReLU激活层组成;
所述跨图卷积模块由一层跨图卷积层、一层归一化层和一层ReLU激活层组成;
所述输出层由一层池化层和带有softmax函数的一层全连接层组成;
步骤4.1、将所述可见光的图数据GRGB和近红外的图数据GNIR分别送入所述输入模块进行归一化处理,得到归一化后的可见光的图数据和近红外的其中,分别表示归一化后的可见光顶点集和近红外顶点集,分别表示通过正则化后的可见光邻接矩阵和近红外领接矩阵;
步骤4.2、将所述归一化后的可见光的图数据和近红外的图数据分别依次经过所述图内卷积模块、跨图卷积模块、图内卷积模块的处理后得到可见光异构融合图数据和近红外异构融合图数据其中,分别表示依次经过所述图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光图数据和近红外图数据,V1 GCN、V2 GCN分别表示依次经过所述图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光顶点集和近红外顶点集,分别表示依次经过所述图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光邻接矩阵和近红外领接矩阵;
步骤4.3、将异构融合图数据中的可见光顶点集V1 GCN和近红外顶点集V2 GCN分别送入输出模块后,相应得到分类器预测的可见光预测概率和近红外预测概率;
步骤5、构建由一阶关键点提取网络、高阶嵌入图卷积网络、图匹配模块及loss函数组成的异构融合图卷积网络模型;
步骤5.1、所述图匹配模块根据式(1)计算亲和矩阵M的第i行j列元素Mi,j,从而得到亲和矩阵M:
式(1)中,Mi,j表示可见光第i个特征与近红外第j个特征的亲和程度,exp表示指数化,表示可见光特征V1 GCN中的第i个特征,表示近红外特征V2 GCN中的第j个特征,τ为超参数;i∈[1,K+1];j∈[1,K+1];A表示边集,且A=ARGB=ANIR;
步骤5.2、所述图匹配模块采用Sinkhorn算法求解式(2)得到最优的匹配矩阵U*:
式(2)中,argmax(.)表示最大化(.);U表示初始匹配矩阵,||U||表示U矩阵的欧氏距离;
步骤5.3、设计loss函数:
步骤5.3.1、在一阶关键点提取网络后添加交叉熵、三元组、异质中心三元组的loss函数LE,如式(3)所示:
式(5)中,和分别表示当前第T个批次中第i个人的第a张图像和第p张图像对应的特征向量,表示当前第T个批次中第j个人的第n张图像对应的特征向量;表示特征向量与的欧氏距离,[·]+表示max(·,0),ρ1为控制特征向量间相对距离的超参数;
式(3)中,Lhc_tri(C)是异质中心三元组损失,并由式(6)得到:
式(6)中,为可见光图像中第i个人的特征中心,为近红外图像中第i个人特征中心,为从第j个行人中挖掘最难负向特征中心,且j≠i,为特征中心与的欧氏距离,[x]+为max(x,0),ρ2为控制距离的超参数;
步骤5.3.2、在高阶嵌入图卷积网络的全连接层后添加交叉熵、三元组、异质中心三元组的loss函数LGCN,如式(7)所示:
步骤5.3.3、在所述图匹配模块后添加跨模态验证损失LV,如式(8)所示;
式(8)中,为可见光关键点特征与近红外关键点特征的图匹配结果,i,j∈[1,K+1],表示可见光关键点与近红外关键点的真值矩阵,当可见光图像的第i个关键点与近红外图像的第j个关键点属于同一行人时,令否则为0;
步骤5.3.4、利用式(9)得到总损失函数L:
L=LE+μ1×LGCN+μ2×LV (9)
式(9)中,μ1、μ2是对应loss权重值;
步骤6、异构融合图卷积网络模型的训练,包括第一阶段训练和第二阶段训练;
步骤6.1、在所述第一阶段训练中,设置模型的基础学习率为lr1,第一阶段迭代总次数为items1,将当前第T个批次图像输入一阶关键点提取网络中,并采用自适应矩估计Adam优化算法对一阶关键点提取网络中的各个参数进行迭代优化,直至到达迭代总次数items1且一阶关键点提取网络总损失LE趋于稳定为止,得到一阶关键点提取模型;
步骤6.2、所述第二阶段训练中,设置模型的基础学习率为lr2,设置第二阶段迭代总次数为items2,在迭代次数为num1和num2时学习率下降为原来的0.1倍,预加载第一阶段训练一阶关键点提取模型,与高阶嵌入图卷积网络、图匹配模块联合训练,将当前第T个批次图像输入第二阶段网络中,并采用自适应矩估计Adam优化算法对第二阶段网络的各个参数进行迭代优化,直至总损失函数L不再下降为止,从而得到最优异构融合图卷积网络模型;
步骤7、利用所述最优异构融合图卷积网络模型分别对待检索图像和测试集中所有图像提取特征,并计算待检索特征分别和测试集中所有特征的相似度,再将相似度进行降序排序,选取前σ个相似度所对应的图像作为跨模态行人重识别检索结果。
本发明所述的基于异构融合图卷积网络的跨模态行人重识别方法的特点也在于,所述步骤7中是利用式(10)计算相似度:
式(12)中,|·|表示取向量的1-范数,fs为全连接层,σ为sigmoid激活函数。
与已有技术相比,本发明有益效果体现在:
1、本发明设计了一种异构融合图卷积网络,该网络结合局部关键点信息和身体各部位高阶拓扑关系信息,与目前主流的跨模态行人重识别方法相比,本发明的方法效率高,且对图像干扰因素如遮挡等有更好的鲁棒性,从而更利于行人重识别的实际应用。
2、本发明通过所设计的一阶关键点提取网络从人体姿态信息中提取关键点特征,与传统的提取网络相比,该网络能更精确的提取姿态关键点数据,并能够利用人体结构与全局特征点之间的联系构造图数据,从而为后续图处理打下可靠基础。
3、本发明设计一种图内卷积层,促进局部关键点间有意义的信息传递,抑制遮挡或异常值等无意义区域的信息传递,同时设计了一种跨图卷积层,用于学习可见光图像与近红外图像之间的特征对齐,减弱了模态的差异。
4、本发明设计跨模态排列损失来对齐异构模态两个图数据之间的距离,利用即匹配矩阵作为监督信息,有效地对跨模态中的图数据进行距离测度,在多种损失函数的联合监督下模型更易捕获有效特征,从而提高了可见光与近红外行人重识别的准确度。
附图说明
图1为本发明红外与可见光跨模态行人重识别方法的流程图;
图2为本发明一阶关键点提取网络图;
图3为本发明高阶嵌入图卷积网络、图匹配模块及损失图;
图4为本发明图匹配过程图。
具体实施方式
本实施例中,一种基于异构融合图卷积网络的跨模态行人重识别方法,主要利用一阶关键点提取网络、高阶嵌入图卷积网络、图匹配模块从带有干扰的行人图像中构建跨模态图数据的特征关系,如图1所示,具体步骤如下:
步骤1、构建可见光与近红外数据集;
用光学相机和近红外相机分别采集若干张可见光单帧图像与近红外单帧图像,并利用SA-FastRCNN行人检测方法,分别裁剪出可见光与近红外单帧图像中的单个行人图像;对裁剪后的每张单个行人图像进行人工标注和标准化处理,并选取P个行人的Q张单个行人图像分别构成可见光单个行人图像集和近红外单个行人图像集其中,表示第p个行人的第q张可见光单个行人图像,表示第p个行人的第q张近红外单个行人图像;将由可见光单个行人图像集XRGB和近红外单个行人图像集XNIR所构成的数据集分成训练集和测试集;
在本实施例中,采用权威可见光与近红外行人数据集RegDB训练和评估模型。RegDB是由双摄像机系统采集的小型数据集,采用一台可见光摄像机和一台热敏摄像机拍摄而成;这个数据集总共包含412个身份,其中每个身份有10个可见光图像和10个红外图像,随机选取206个身份(2060张图像)用于训练,其余206个身份(2060张图像)用于测试;在测试阶段,有两种检索模式;将可见光图像作为检索图像,同时将红外模态的图片作为被检索图像,称为可见光检索模式;而将红外图像作为检索图像称为红外检索模式;
步骤2、采用随机批采样策略在训练集中进行采样,得到包含N个行人的M张可见光和M张近红外单个行人图像的当前第T个批次;其中,可见光的当前第T个批次记为和近红外的当前第T个批次记为N<P;M<Q;本实施例中,选取N=8;M=4;以使网络达到最佳的识别准确率;
步骤3、构建包含姿态估计网络和CNN网络的一阶关键点提取网络,用于提取图像的局部关键点特征,如图2所示;
步骤3.1、将可见光的当前第T个批次分别输入到姿态估计网络和CNN网络,并相应输出姿态关键点热度图mkey和全局特征向量Vglobal后进行哈达玛积运算,再将运算结果输入全局平均池化层后,得到K个可见光关键点特征向量其中,表示第k个可见光关键点;本实例中,K设置为13;
本实施例中,CNN网络构造细节是,首先将分别送入参数不共享的卷积层Conv1、Conv2,然后将卷积层Conv1、Conv2的两个输出送入ImageNet上预训练的ResNet50中,仅选取ResNet50中stage2-stage5板块,参数设置共享,并删除其stage5中全局平均池化(GAP)层和全连接层。对于一阶关键点提取网络的分类器,使用一个批归一化层(BN neck)和一个全连层,后面连接一个softmax函数;姿态估计网络选取2D高分辨率人体姿态估计网络(Deep High ResolutionNet,HRnet);
步骤3.2、将K个可见光关键点特征向量Vlocal中的每个可见光关键点以及一个全局特征向量Vglobal中的全局特征点按照人体结构进行构图,从而得到可见光的图数据GRGB=(VRGB,ARGB);其中,VRGB表示每个可见光关键点所表示的顶点集,ARGB表示领接矩阵定义的自然连接关系所表示的边集;
步骤3.3、将近红外的当前第T个批次分别输入到姿态估计网络和CNN网络后,也按照步骤3.1-步骤3.2的过程进行处理,得到近红外的图数据GNIR=(VNIR,ANIR);其中,VNIR表示由每个可见光关键点的顶点集,ANIR表示领接矩阵定义的自然连接关系所表示的边集,且ARGB=ANIR;
步骤4、构建由输入模块、图内卷积模块、跨图卷积模块、图内卷积模块和输出模块依次级联而成的高阶嵌入图卷积网络,如图3所示;
输入模块为一层批归一化层;
图内卷积模块由一层图内卷积层、一层归一化层和一层ReLU激活层组成;
跨图卷积模块由一层跨图卷积层、一层归一化层和一层ReLU激活层组成;
输出层由一层池化层和带有softmax函数的一层全连接层组成;
本实例中,图内卷积层的构造算法为:
(1)初始化更新矩阵Aupd=0和领接矩阵Alim=ARGB;
本实例中,跨图卷积层的构造算法为:
步骤4.1、将可见光的图数据GRGB和近红外的图数据GNIR分别送入输入模块进行归一化处理,得到归一化后的可见光的图数据和近红外的其中,分别表示归一化后的可见光顶点集和近红外顶点集,分别表示通过正则化后的可见光邻接矩阵和近红外领接矩阵;输入模块将图数据归一化处理为均值为0、方差为1正态分布的数据,有助于减少训练集和测试集分布间的偏差,从而提高准确率;
步骤4.2、将归一化后的可见光的图结构和近红外的图数据分别依次经过图内卷积模块、跨图卷积模块、图内卷积模块的处理后得到可见光异构融合图数据和近红外异构融合图数据其中,分别表示依次经过图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光图数据和近红外图数据,V1 GCN、V2 GCN分别表示依次经过图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光顶点集和近红外顶点集,分别表示依次经过图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光邻接矩阵和近红外领接矩阵;本实施例中使用了2个图内卷积模块和1个跨图卷积模块,每个模块的输出的特征图通道数分别为64,64和64;输出特征向量V1 GCN、V2 GCN的维度均为2048;
步骤4.3、将异构融合图数据中的可见光顶点集V1 GCN和近红外顶点集V2 GCN分别送入输出模块后,相应得到分类器预测的可见光预测概率和近红外预测概率;
步骤5、构建由一阶关键点提取网络、高阶嵌入图卷积网络、图匹配模块及loss函数组成的异构融合图卷积网络模型;
步骤5.1、如图4所示,图匹配模块根据式(1)计算亲和矩阵M的第i行j列元素Mi,j,从而得到亲和矩阵M:
式(1)中,Mi,j表示可见光第i个特征与近红外第j个特征的亲和程度,exp表示指数化,表示可见光特征V1 GCN中的第i个特征,表示近红外特征V2 GCN中的第j个特征,τ为超参数;i∈[1,K+1];j∈[1,K+1];A表示边集,A=ARGB=ANIR;
步骤5.2、图匹配模块采用Sinkhorn算法求解式(2)得到最优的匹配矩阵U*:
式(2)中,argmax(.)表示最大化(.);U表示初始匹配矩阵,由式(2)及Sinkhorn算法逐渐优化其值,最终收敛至U*,||U||表示U矩阵的欧氏距离;
步骤5.3、设计loss函数:
步骤5.3.1、在一阶关键点提取网络后添加交叉熵、三元组、异质中心三元组的loss函数LE,如式(3)所示:
式(3)中,K为局部关键点总数,k∈[1,2K+2],βk为第k个关键点置信度,λ1是权重参数,本实例中,λ1=0.3,表示一阶关键点提取网络输出的第k个特征向量;是第k个特征向量的交叉熵损失,并由式(4)得到:
式(5)中,和分别表示当前第T个批次中第i个人的第a张图像和第p张图像对应的特征向量,表示当前第T个批次中第j个人的第n张图像对应的特征向量;表示特征向量与的欧氏距离,[·]+表示max(·,0),ρ1为控制特征向量间相对距离的超参数;本实例中ρ1取0.3;
式(6)中,为可见光图像中第i个人的特征中心,为近红外图像中第i个人特征中心,为从第j(j≠i)个行人中挖掘最难负向特征中心,为特征中心与的欧氏距离,[x]+为max(x,0),ρ2为控制距离的超参数;本实例中,ρ2取0.3;
步骤5.3.2、在高阶嵌入图卷积网络的全连接层后添加交叉熵、三元组、异质中心三元组的loss函数LGCN,如式(7)所示:
步骤5.3.3、在图匹配模块后添加跨模态验证损失LV,如式(8)所示;
式(8)中,为可见光关键点特征与近红外关键点特征的图匹配结果,i,j∈[1,K+1],表示可见光关键点与近红外关键点的真值矩阵,当可见光图像的第i个关键点与近红外图像的第j个关键点属于同一行人时,令否则为0;
步骤5.3.4、利用式(9)得到总损失函数L:
L=LE+μ1×LGCN+μ2×LV (9)
式(9)中,μ1、μ2是对应loss权重值;本实例中μ1取2.0,μ2取1.0;
步骤6、异构融合图卷积网络模型的训练,包括第一阶段训练和第二阶段训练;
步骤6.1、在第一阶段训练中,设置模型的基础学习率为lr1,第一阶段迭代总次数为items1,将当前第T个批次图像输入一阶关键点提取网络中,并采用自适应矩估计Adam优化算法对一阶关键点提取网络中的各个参数进行迭代优化,直至到达迭代总次数items1且一阶关键点提取网络总损失LE趋于稳定为止,得到一阶关键点提取模型;在本实例中,第一阶段训练的基础学习率设置为0.00035,迭代总次数为20轮,将随机采样的当前T批次共64张图像输入一阶关键点提取网络中,直到20轮且一阶关键点提取网络总损失稳定在1.0~3.0为止;
步骤6.2、第二阶段训练中,设置模型的基础学习率为lr2,设置第二阶段迭代总次数为items2,在迭代次数为num1和num2时学习率下降为原来的0.1倍,预加载第一阶段训练一阶关键点提取模型,与高阶嵌入图卷积网络、图匹配模块联合训练,将当前第T个批次图像输入第二阶段网络中,并采用自适应矩估计Adam优化算法对第二阶段网络的各个参数进行迭代优化,直至总损失函数L不再下降为止,从而得到最优异构融合图卷积网络模型;在本实例中,第二阶段训练的迭代总次数为100轮;训练过程采用了预热的训练策略,该策略有助于缓解网络的过拟合现象,提高准确率,具体策略实施为:基础学习率设置为0.00035,并在前10轮迭代中线性增长到0.35,之后迭代到第30轮、第70轮时都将学习率减少到原来的0.1倍;直至到达100轮且一阶关键点提取网络总损失稳定在0.0001~0.01为止;
步骤7、利用最优异构融合图卷积网络模型分别对待检索图像和测试集中所有图像提取特征,并计算待检索特征分别和测试集中所有特征的相似度,再将相似度进行降序排序,选取前前σ=20个相似度所对应的图像作为跨模态行人重识别检索结果。
具体实施中,步骤7中利用式(10)计算相似度:
式(12)中,|·|表示取向量的1-范数,fs为全连接层,σ为sigmoid激活函数。
本实例中,除使用常见评估指标:累积匹配特性(Cumulative MatchingCharacteristics,CMC)和平均精度均值(MeanAverage Precision,mAP)外,增加平均反向负惩罚(mean of inverse negative penalty,mINP)作为辅助评估指标;对于一个真实的身份识别系统,通过算法一般会返回一个检索到的排名列表,供人工进一步调查。目标人物不应该在从多个摄像机检索到的排名榜中被忽视,因此最难正确匹配的排名位置决定了检查人员的工作量。在实际应用场景中,所有正确的匹配项都应具有低Rank值。而目前广泛使用的CMC和mAP指标不能评估这一特性。因此本发明引入mINP,从多方面评估模型的可靠性。mINP用来衡量Re-ID算法找到最难匹配样本的效率,定义为式(13):
Claims (2)
1.一种基于异构融合图卷积网络的跨模态行人重识别方法,其特征是,包括如下步骤:
步骤1、构建可见光与近红外数据集;
用光学相机和近红外相机分别采集若干张可见光单帧图像与近红外单帧图像,并利用SA-FastRCNN行人检测方法,分别裁剪出可见光与近红外单帧图像中的单个行人图像;对裁剪后的每张单个行人图像进行人工标注和标准化处理,并选取P个行人的Q张单个行人图像分别构成可见光单个行人图像集和近红外单个行人图像集其中,表示第p个行人的第q张可见光单个行人图像,表示第p个行人的第q张近红外单个行人图像;将由可见光单个行人图像集XRGB和近红外单个行人图像集XNIR所构成的数据集分成训练集和测试集;
步骤3、构建包含姿态估计网络和CNN网络的一阶关键点提取网络,用于提取图像的局部关键点特征;
步骤3.1、将可见光的当前第T个批次分别输入到姿态估计网络和CNN网络,并相应输出姿态关键点热度图mkey和全局特征向量Vglobal后进行哈达玛积运算,再将运算结果输入全局平均池化层后,得到K个可见光关键点特征向量其中,表示第k个可见光关键点;
步骤3.2、将K个可见光关键点特征向量Vlocal中的每个可见光关键点以及一个全局特征向量Vglobal中的全局特征点按照人体结构进行构图,从而得到可见光的图数据GRGB=(VRGB,ARGB);其中,VRGB表示每个可见光关键点所表示的顶点集,ARGB表示领接矩阵定义的自然连接关系所表示的边集;
步骤3.3、将近红外的当前第T个批次分别输入到姿态估计网络和CNN网络后,也按照步骤3.1-步骤3.2的过程进行处理,得到近红外的图数据GNIR=(VNIR,ANIR);其中,VNIR表示由每个可见光关键点的顶点集,ANIR表示领接矩阵定义的自然连接关系所表示的边集,且ARGB=ANIR;
步骤4、构建由输入模块、图内卷积模块、跨图卷积模块、图内卷积模块和输出模块依次级联而成的高阶嵌入图卷积网络;
所述输入模块为一层批归一化层;
所述图内卷积模块由一层图内卷积层、一层归一化层和一层ReLU激活层组成;
所述跨图卷积模块由一层跨图卷积层、一层归一化层和一层ReLU激活层组成;
所述输出模块由一层池化层和带有softmax函数的一层全连接层组成;
步骤4.1、将所述可见光的图数据GRGB和近红外的图数据GNIR分别送入所述输入模块进行归一化处理,得到归一化后的可见光的图数据和近红外的其中,分别表示归一化后的可见光顶点集和近红外顶点集,分别表示通过正则化后的可见光邻接矩阵和近红外领接矩阵;
步骤4.2、将所述归一化后的可见光的图数据和近红外的图数据分别依次经过所述图内卷积模块、跨图卷积模块、图内卷积模块的处理后得到可见光异构融合图数据和近红外异构融合图数据其中,分别表示依次经过所述图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光图数据和近红外图数据,V1 GCN、V2 GCN分别表示依次经过所述图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光顶点集和近红外顶点集,A1 GCN、A2 GCN分别表示依次经过所述图内卷积模块、跨图卷积模块、图内卷积模块处理的可见光邻接矩阵和近红外领接矩阵;
步骤4.3、将异构融合图数据中的可见光顶点集V1 GCN和近红外顶点集V2 GCN分别送入输出模块后,相应得到分类器预测的可见光预测概率和近红外预测概率;
步骤5、构建由一阶关键点提取网络、高阶嵌入图卷积网络、图匹配模块及loss函数组成的异构融合图卷积网络模型;
步骤5.1、所述图匹配模块根据式(1)计算亲和矩阵M′的第i行第j列元素M′i,j,从而得到亲和矩阵M′:
式(1)中,M′i,j表示可见光第i个特征与近红外第j个特征的亲和程度,exp表示指数化,表示可见光特征V1 GCN中的第i个特征,表示近红外特征V2 GCN中的第j个特征,τ为超参数;i∈[1,K+1];j∈[1,K+1];A表示边集,且A=ARGB=ANIR;
步骤5.2、所述图匹配模块采用Sinkhorn算法求解式(2)得到最优的匹配矩阵U*:
式(2)中,argmax(.)表示最大化(.);U表示初始匹配矩阵,||U||表示U矩阵的欧氏距离;
步骤5.3、设计loss函数:
步骤5.3.1、在一阶关键点提取网络后添加交叉熵、三元组、异质中心三元组的loss函数LE,如式(3)所示:
式(3)中,K′为局部关键点总数,k′∈[1,2K′+2],βk′为第k′个关键点置信度,λ1是权重参数,表示一阶关键点提取网络输出的第k′个关键点所对应特征向量;是第k′个关键点所对应特征向量的交叉熵损失,并由式(4)得到:
式(5)中,和分别表示当前第T个批次中第i’个人的第a张图像和第p’张图像对应的特征向量,表示当前第T个批次中第j’个人的第n张图像对应的特征向量;表示特征向量与的欧氏距离,[·]+表示max(·,0),ρ1为控制特征向量间相对距离的超参数;
式(3)中,Lhc_tri(C)是异质中心三元组损失,并由式(6)得到:
式(6)中,为可见光图像中第i″个人的特征中心,为近红外图像中第i″个人特征中心,为从第j″个行人中挖掘最难负向特征中心,且j″≠i″,为特征中心与的欧氏距离,[x]+为max(x,0),ρ2为控制距离的超参数;
步骤5.3.2、在高阶嵌入图卷积网络的全连接层后添加交叉熵、三元组、异质中心三元组的loss函数LGCN,如式(7)所示:
步骤5.3.3、在所述图匹配模块后添加跨模态验证损失LV,如式(8)所示;
步骤5.3.4、利用式(9)得到总损失函数L:
L=LE+μ1×LGCN+μ2×LV (9)
式(9)中,μ1、μ2是对应loss权重值;
步骤6、异构融合图卷积网络模型的训练,包括第一阶段训练和第二阶段训练;
步骤6.1、在所述第一阶段训练中,设置模型的基础学习率为lr1,第一阶段迭代总次数为items1,将当前第T个批次图像输入一阶关键点提取网络中,并采用自适应矩估计Adam优化算法对一阶关键点提取网络中的各个参数进行迭代优化,直至到达迭代总次数items1且一阶关键点提取网络总损失LE趋于稳定为止,得到一阶关键点提取模型;
步骤6.2、所述第二阶段训练中,设置模型的基础学习率为lr2,设置第二阶段迭代总次数为items2,在迭代次数为num1和num2时学习率下降为原来的0.1倍,预加载第一阶段训练一阶关键点提取模型,与高阶嵌入图卷积网络、图匹配模块联合训练,将当前第T个批次图像输入第二阶段网络中,并采用自适应矩估计Adam优化算法对第二阶段网络的各个参数进行迭代优化,直至总损失函数L不再下降为止,从而得到最优异构融合图卷积网络模型;
步骤7、利用所述最优异构融合图卷积网络模型分别对待检索图像和测试集中所有图像提取特征,并计算待检索特征分别和测试集中所有特征的相似度,再将相似度进行降序排序,选取前σ个相似度所对应的图像作为跨模态行人重识别检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111324923.9A CN113989851B (zh) | 2021-11-10 | 2021-11-10 | 一种基于异构融合图卷积网络的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111324923.9A CN113989851B (zh) | 2021-11-10 | 2021-11-10 | 一种基于异构融合图卷积网络的跨模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113989851A CN113989851A (zh) | 2022-01-28 |
CN113989851B true CN113989851B (zh) | 2023-04-07 |
Family
ID=79747575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111324923.9A Active CN113989851B (zh) | 2021-11-10 | 2021-11-10 | 一种基于异构融合图卷积网络的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989851B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550210B (zh) * | 2022-02-21 | 2024-04-02 | 中国科学技术大学 | 基于模态自适应混合和不变性卷积分解的行人重识别方法 |
CN114842508B (zh) * | 2022-05-20 | 2024-03-01 | 合肥工业大学 | 一种基于深度图匹配的可见光-红外行人重识别方法 |
CN115272681B (zh) * | 2022-09-22 | 2022-12-20 | 中国海洋大学 | 基于高阶特征类解耦的海洋遥感图像语义分割方法及系统 |
CN115641559B (zh) * | 2022-12-23 | 2023-06-02 | 深圳佑驾创新科技有限公司 | 一种环视摄像头组的目标匹配方法、装置及存储介质 |
CN115661780A (zh) * | 2022-12-23 | 2023-01-31 | 深圳佑驾创新科技有限公司 | 一种交叉视角下的摄像头目标匹配方法、装置及存储介质 |
CN117475474A (zh) * | 2023-10-30 | 2024-01-30 | 中国矿业大学 | 一种用于智能安防的跨模态行人重识别系统及方法 |
CN117710711B (zh) * | 2024-02-06 | 2024-05-10 | 东华理工大学南昌校区 | 一种基于轻量化深度卷积网络的光学和sar图像匹配方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115805A (zh) * | 2020-08-27 | 2020-12-22 | 山东师范大学 | 带双模态难挖掘三元-中心损失的行人重识别方法及系统 |
CN112651262A (zh) * | 2019-10-09 | 2021-04-13 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
CN112883819A (zh) * | 2021-01-26 | 2021-06-01 | 恒睿(重庆)人工智能技术研究院有限公司 | 多目标跟踪方法、装置、系统及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443828A (zh) * | 2019-07-31 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 对象跟踪方法和装置、存储介质及电子装置 |
US20210319033A1 (en) * | 2020-04-09 | 2021-10-14 | Microsoft Technology Licensing, Llc | Learning to rank with alpha divergence and entropy regularization |
-
2021
- 2021-11-10 CN CN202111324923.9A patent/CN113989851B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651262A (zh) * | 2019-10-09 | 2021-04-13 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
CN112115805A (zh) * | 2020-08-27 | 2020-12-22 | 山东师范大学 | 带双模态难挖掘三元-中心损失的行人重识别方法及系统 |
CN112883819A (zh) * | 2021-01-26 | 2021-06-01 | 恒睿(重庆)人工智能技术研究院有限公司 | 多目标跟踪方法、装置、系统及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
《G2DA:Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person ReIdentification》;Wan L et al;《Arxiv》;20210725;全文 * |
《基于深度学习的跨模态行人重识别研究》;林建武;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113989851A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113989851B (zh) | 一种基于异构融合图卷积网络的跨模态行人重识别方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN109460702B (zh) | 基于人体骨架序列的乘客异常行为识别方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN114926746B (zh) | 基于多尺度差分特征注意力机制的sar图像变化检测方法 | |
CN114220124A (zh) | 一种近红外-可见光跨模态双流行人重识别方法及系统 | |
CN110598543B (zh) | 基于属性挖掘和推理的模型训练方法及行人再识别方法 | |
CN105138998B (zh) | 基于视角自适应子空间学习算法的行人重识别方法及系统 | |
CN109190544B (zh) | 一种基于序列深度图像的人体身份识别方法 | |
CN111898736A (zh) | 基于属性感知的高效行人重识别方法 | |
CN114241053B (zh) | 基于改进的注意力机制FairMOT多类别跟踪方法 | |
CN101661554A (zh) | 远距离视频下的正面人体自动身份识别方法 | |
CN114511878A (zh) | 一种基于多模态关系聚合的可见光红外行人重识别方法 | |
CN112132157B (zh) | 一种基于树莓派的步态人脸融合识别方法 | |
CN112115838A (zh) | 一种热红外图像光谱融合的人脸分类方法 | |
CN117333948A (zh) | 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法 | |
CN118038494A (zh) | 一种损坏场景鲁棒的跨模态行人重识别方法 | |
CN113537137B (zh) | 一种面向电扶梯的人体动作本征特征提取的方法及系统 | |
Khatri et al. | Detection of animals in thermal imagery for surveillance using GAN and object detection framework | |
CN117705059B (zh) | 一种自然资源遥感测绘影像定位方法及系统 | |
CN113269099B (zh) | 基于图匹配的异构无人系统下车辆重新识别方法 | |
CN108960005A (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统 | |
CN116229511A (zh) | 基于金丝猴躯干特征提取的身份重识别方法 | |
CN114627493A (zh) | 一种基于步态特征的身份识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |