CN117422963A - 基于高维度特征映射和特征聚合的跨模态地点识别方法 - Google Patents

基于高维度特征映射和特征聚合的跨模态地点识别方法 Download PDF

Info

Publication number
CN117422963A
CN117422963A CN202311168173.XA CN202311168173A CN117422963A CN 117422963 A CN117422963 A CN 117422963A CN 202311168173 A CN202311168173 A CN 202311168173A CN 117422963 A CN117422963 A CN 117422963A
Authority
CN
China
Prior art keywords
feature
features
cross
modal
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311168173.XA
Other languages
English (en)
Inventor
梁瑞
王进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202311168173.XA priority Critical patent/CN117422963A/zh
Publication of CN117422963A publication Critical patent/CN117422963A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于高维度特征映射和特征聚合的跨模态地点识别方法,包括将RGB图像和红外图像输入SCHAL‑Net网络模型提取各自模态所特有的特征,并在ResNet50中添加浅层特征增强模块,在ResNet50第三阶段输出的特征分别经过高维度特征映射模块及图像块处理,将处理后的特征进行整体和局部特征协同约束,直至训练结束。本发明基于整体和局部特征协同约束的跨模态模型SCHAL‑Net,以减少跨模态视觉地点识别任务中的跨模态差异和模态内部差异,来提高地点识别的准确率。

Description

基于高维度特征映射和特征聚合的跨模态地点识别方法
技术领域
本发明属于人工智能和计算机视觉技术领域,尤其涉及一种基于高维度特征映射和特征聚合的跨模态地点识别方法。
背景技术
视觉地点识别(Visual Place Recognition,VPR)旨在协助机器人或视觉导航系统确定其当前是否位于先前访问过的位置。VPR通过摄像机拍摄图像并对其进行识别,从而确定其所在的位置。在视觉同步定位与地图构建(SLAM)系统中,VPR可用于重新定位、地图复用或回环修正。VPR在自动驾驶、闭环检测等场景中的广泛应用,是计算机视觉和机器人学界积极研究的热点领域。但该任务面临着视角差异、光照强弱等挑战。
视觉地点识别通常被视为图像检索任务,其中给定一个查询集,目标是从图库集中识别出与之相关的地点。查询集是待查询的图像集合,而图库集则是一组带有地标标记(如GPS坐标)的图像集合。地点识别系统需要在图库集中搜索与查询集相关的图像,一旦找到相关图像,就可以利用这些图像的地标信息来推断查询集所表示的位置。
近年来许多技术的提出在视觉地点识别中都取得了很好的进展,然而,图像间类内差异大使得VPR任务难以处理,这主要由外观变化、视角变化等因素引起。尽管许多研究提出了各种解决方法,但都未能充分考虑光照变化的影响。这些方法往往假设图像采集在理想的光照条件下,但实际环境中,昼夜、天气、灯光等变化都可能引发光照的差异。
在高照度环境,机器人使用RGB摄像头,而在低照度下,选择红外摄像头进行图像采集。这一硬件方案有效应对光照变化问题,赋予机器人全天候工作能力。但这也为VPR带来了新的挑战——可见光与红外跨模态视觉地点识别(VI-VPR)。
VI-VPR旨在从不同模态的摄像机中获取地点图像并识别其位置。与单模态地点位置识别相比,VI-VPR的查询集和图库集涉及不同的模态,克服了光照限制,但也面临RGB图像和红外图像之间的跨模态差异问题。例如,在图1中,RGB图像的通道数为3,而红外图像的通道数为1,这使得它们之间存在巨大差异,为跨模态识别任务带来了挑战。除了跨模态差异外,VI-VPR还面临着模内差异问题。如图2所示,每个地点图像都是从不同角度拍摄的,可能存在光照环境和背景差异,导致相同地点图像间的相似度降低,甚至低于不同地点图像间的相似度,产生较大的模内差异。因此,要实现跨模态视觉地点识别任务,需要解决跨模态差异和模内差异的问题。
图1所示的是KAIST数据集中某个地点的RGB图像和红外图像,第一排为RGB图像,第二排为红外图像,每一列都是从同一个角度拍摄,且三列同为一个地点拍摄,只是拍摄的角度不同。其中RGB模态地点图像的通道数为3,而红外模态地点图像仅包含1条通道,让RGB图像和红外图像之间的差异变大。
图2所示的KAIST数据集中不同角度对同一地点拍摄的图像,图中的每个地点图像都是从不同角度拍摄而来的,得到的图像间难免会出现光照环境,背景不同等差异。
近年来,提出了多种地点识别方法,在可见光图像地点识别方面表现良好。然而,由于红外光图像与可见光图像之间存在巨大差异,现有的地点识别方法在解决多模态识别问题时效果不佳。为此,Ali-bey A[1]设计了MixVPR方法,其网络框架如图3所示。该方法采用了一种新的整体特征聚合技术,将网络第三层输出的特征映射到更高维度上作为全局特征,其训练流程如图4所示。虽然该模型取得了不错的效果,但它对于同一模态内的差异性处理不够好,样本中存在许多干扰性噪声,如光照和遮挡等,仅使用全局特征的模型对噪声的鲁棒性较差。[2]设计了GLFC-Net方法,其网络框架如图5所示。虽然该方法在跨模态地点识别的准确率上有了一定的识别效果,但在提取全局特征时,两种模态的浅层特征容易丢失,导致两种模态特征之间的联系减少,这样就使网络的鲁棒性较差。
参考文献
[1]Ali-bey A,Chaib-draa B,Giguère P.MixVPR:Feature Mixing for VisualPlace Recognition[C]//Proceedings of the IEEE/CVF Winter Conference onApplications of Computer Vision.2023:2998-3007.
[2]梁瑞.一种基于全局和局部特征联合约束的跨模态地点识别方法:116580287[A].2023.08.11.
发明内容
发明目的:本发明的目的在于提供一种基于高维度特征映射和特征聚合的跨模态地点识别方法,以减少跨模态视觉地点识别任务中的跨模态差异和模态内部差异,来提高地点识别的准确率。
技术方案:本发明的基于高维度特征映射和特征聚合的跨模态地点识别方法,包括如下步骤:
步骤1:分别输入1张RGB图像和红外图像到SCHAL-Net网络模型中,进入步骤2;
步骤2:将两种模态的图像分别通过ResNet50的Conv1卷积层,提取各自模态所特有的特征,进入步骤3;
步骤3:通过共享参数的ResNet50的后四个阶段,在第一和第二阶段之后分别添加了浅层特征增强模块,以防止浅层特征的丢失,并增强两种模态特征之间的联系。接下来进入第4步骤;
步骤4:在ResNet50第三阶段输出的特征经过高维度特征映射模块作为最终整体特征的输出,进入步骤5;
步骤5:对ResNet50第三阶段输出的特征进行图像块处理,也就是提取局部特征,在经过注意力模块作为最终局部特征的输出,进入步骤6;
步骤6:通过高维度模态内特征聚合模块,将步骤4的特征和ResNet50第四阶段的特征进行融合,从而对整体特征进行约束,使学习到的特征信息更具鲁棒性,然后进入步骤7;
步骤7:对步骤4获得的整体特征与步骤5获得的局部特征以及步骤6获得的特征进行整体和局部特征协同约束,进入步骤8;
步骤8:若达到指定的训练轮数,则进行步骤9,否则继续完成训练,返回步骤1;
步骤9:结束。
作为优选,步骤1中的图像均来自跨模态地点识别任务中最常用的公开数据集KAIST。RGB图像由三个通道,而红外图像在本发明中以单通道的形式存在。由于红外地点图像的通道数为1,因此在数据预处理阶段,以填充相同值的策略,将其扩充成三通道,从而与RGB地点图像保持通道数的一致,方便后续模型训练。与上文所述一致,本发明以输入一个RGB模态样本和一个红外模态样本为例,介绍本发明在训练过程中的工作原理。
作为优选,为了提高模型的准确率,本发明选择以ResNet50作为骨干网络。首先利用Conv1卷积层提取每种模态特有的特征。然后,在特征提取网络的前两层通过浅层特征强化策略,以加强两种模态特征之间的联系并避免浅层特征的丢失。接下来,在网络的第三层输出上应用高维度特征映射模块来生成图像的整体特征,同时通过补丁级处理提取局部特征,并利用注意力模块获得最终的局部特征输出。随后,利用高维度模态内特征聚合模块对整体特征进行加权处理,以增强整体特征的表达能力。最后,通过整体特征和局部特征的协同约束,提高模型对光照、视角变化等因素的鲁棒性,并提升识别准确率。浅层特征增强模块、高维度特征映射模块、高维度模态内特征聚合模块和注意力模块的结构分别如图8、图9、图10和图11所示。其中,图8是浅层特征增强模块。该模块为了防止图像浅层特征的丢失,来加强两种模态特征之间的联系。其中自适应平均池化层1和2是不同的操作,Mean、Max也是如此。Cat是拼接操作,表示矩阵的乘法。图9是高维度特征映射模块,该模块作为整体特征的输出。/>表示矩阵的加法,K表示通过全连接层按行方向降到的维数。图10是高维度模态内特征聚合模块,该模块是对整体特征进行约束,使其学习到的特征信息更具有鲁棒性。/>表示矩阵的乘法,/>表示矩阵的加法。图11是注意力模块,该模块可以编码局部描述符之间有意义的空间关系。/>表示矩阵的乘法。
作为优选,本发明在训练流程的步骤2内的提取各个模态特有的特征的步骤是将RGB图像和红外图像/>输入网络,分别通过一层卷积操作,其结构相同,参数不同,得到RGB模态和红外模态的特有特征/>和/>
作为优选,本发明在训练流程的步骤3内加入的浅层特征增强模块的步骤如下(假设输入浅层特征增强模块的特征记作
步骤3-1:首先将F输入到两个不同的自适应平均池化层分别得到2个特征一样的F1和2个特征一样的F4
步骤3-2:同样的将F输入到两个不同的取均值以及最大值操作,分别得到特征F2,F3,F5,F6,这些操作的本质为分别对空间维度下的H和W分别池化;
步骤3-3:将自适应平均池化层、取均值以及最大值操作得到的特征进行拼接,分别得到FH∈R4×C×W和FW∈R4×C×H,并按最后一维进行拼接得到特征FHW∈R4×C×(H+W)
步骤3-4:对输出特征FHW进行unfold操作,将三维特征转成二维特征,由于转成二维特征后第二维的维度过大,为了减少运算成本并且学习H维度和W维度的细节特征,本发明使用Conv1d卷积,最后通过fold操作将维度还原到三维,得到细节、位置信息更多的浅层特征Fshallow∈R1×C×(H+W)
步骤3-5:最后将学习到的浅层特征Fshallow经过Sigmoid激活函数与F相乘获得最终输出和/>
作为优选,本发明在训练流程的步骤4内的提取最终整体特征的步骤如下:
步骤4-1:将和/>输入ResNet50的第三层,得到两种模态的整体共享特征
步骤4-2:输出整体共享特征
步骤4-3:将整体共享特征输入到高维度特征映射模块作为最终整体特征的输出。
作为优选,步骤4-1中,两种模态的图像经过的卷积层的结构相同,参数也相同。
作为优选,步骤4-3中高维度特征映射模块步骤如下(假设输入高维度特征映射模块的描述符记作
步骤1:对F执行flatten操作,在维度上进行相应的改变,得到特征向量
F={Xi}∈RN×C×HW,i={1,...,C};
步骤2:进入MLP模块,将一组扁平的特征映射作为输入,并将整体关系合并到每个特征映射中;
步骤3:将MLP模块中输入与输出的特征向量做求和操作;
步骤4:通过两个全连接层,依次按通道方向和行方向进行降维;
步骤5:执行批归一化操作输出最终的整体特征和/>
作为优选,步骤2中MLP模块的表示为:Xi=W2(σ(LayerNorm(Xi)W1)),其中LayerNorm是对每个输入特征的第二个维度计算均值和方差,W1和W2是构成MLP的两个全连接层的权值,σ是激活函数。
作为优选,本发明在训练流程的步骤5内的提取最终局部特征的步骤如下:
步骤5-1:将步骤4-1得到的和/>以特征块的形式进行局部特征的提取,得到特征/>和/>
步骤5-2:将步骤5-1得到的特征经过注意力模块得到最终的局部特征
作为优选,步骤5-1中以特征块的形式提取局部特征操作如下:假设为其中一个整体特征候选描述符,其中C,H,W分别代表通道、高和宽三个维度,从F中提取一组步幅为Sp的大小为dx×dy的补丁级特征{Pi,xi,yi},补丁级特征总数为/>其中Pi表示补丁级特征集合,(xi,yi)表示补丁级特征的中心在特征映射上的坐标。
作为优选,步骤5-2中注意力模块的步骤如下:
步骤1:将Pi分别进行三个卷积操作得到fQuery,fKey,fValue
步骤2:将fQuery和fKey相乘后进行Softmax操作得到特征
步骤3:将和fValue相乘得到特征f。
步骤4:将f进行卷积操作得到特征f'。
步骤5:将f'输入BN层与Pi相加得到最后的最终局部特征和/>
作为优选,本发明在训练流程的步骤6内的高维度模态内特征聚合模块的步骤如下:
步骤1:将经过ResNet50第四阶段输出的特征f4和最终的整体特征ffinal-Global输入部分特征加权模块;
步骤2:对f4进行池化操作,并在维度上进行相应的改变得到x4
步骤3:将x4分别经过三个1×1的卷积层得到特征v(x4),u(x4),z(x4);
步骤4:计算注意力图并用Softmax函数进行归一化得到α;
步骤5:将步骤4得到的结果与z(x4)做内积操作得到y;
步骤6:初始化了一个可学习的注意力增强部分特征的权重w,其目的是构造一个判别性的部分聚合特征的表示;
步骤7:进行Softmax操作;
步骤8:将步骤7得到的结果与步骤5得到的结果做内积得到F;
步骤9:将ffinal-Global与F进行相加操作,让整体特征ffinal-Global能够拥有更深层次的特征,输出特征
作为优选,本发明在训练流程的步骤4,5,6中的整体级别和局部级别联合约束由整体级别约束损失、局部级别约束损失组成。
作为优选,本发明在训练流程的步骤4,5,6内的整体级别约束损失和局部级别约束损失基于VPR任务的困难三元组损失和交叉熵损失。
本发明的测试流程为:
步骤1:输入查询数据集和图库数据集,进入步骤2;
步骤2:利用训练过后得到的模型,对步骤1输入的查询数据集和图库数据集的所有地点图像进行整体特征提取和局部特征提取,进入步骤3;
步骤3:将查询数据集整体特征和图库数据集整体特征进行相似度匹配,进入步骤4;
步骤4:通过整体特征的匹配得到的候选排名,再通过局部特征进行重排序,进入步骤5;
步骤5:根据相似度的高低,得出查询数据集内的每张地点图像与图库数据集的匹配结果,进入步骤6;
步骤6:结束。
作为优选,测试流程中的步骤1内的查询数据集表示待查询地点图像的集合,而图库数据集表示待查询集匹配的地点图像的集合。
作为优选,测试流程中的步骤3内的整体特征相似度计算方法是通过最近邻搜索方法筛选出查询数据集与图库数据集相似度接近的一些图像。
作为优选,测试流程中的步骤4内的局部特征匹配是通过Ransac的评分方法进行图像检索。
作为优选,在测试流程的步骤5中,查询数据集中的每张图像都会与图库集中的若干图像进行匹配。本发明使用Top-1、Top-5和Top-10指标来评估性能。Top-k准确率衡量了前k个检索结果中正确匹配到跨模态地点图像的概率。
有益效果:与现有技术相比,本发明具有如下显著优点:首先本发明方法通过特征聚合模块、高维度特征映射等模块的协同作用,实现了对图像特征的增强和约束,来提高跨模态地点识别的准确率。然后在广泛应用于跨模态地点识别任务的公开数据集KAIST上进行了模型的训练和评估。与MixVPR技术相比,在红外图像查询RGB图像阈值为10米的模式下,本发明的准确率在Top-1和Top-10方面分别提高了13.3%和36.3%;而在RGB图像查询红外图像阈值为10米的模式下,本发明的准确率在Top-1和Top-10方面分别提高了6.0%和22.1%。
附图说明
图1为KAIST数据集中某个地点的RGB图像和红外图像;
图2为KAIST数据集中不同角度对同一地点拍摄的图像;
图3为现有技术的特征融合网络;
图4为现有技术的特征融合网络训练阶段流程图;
图5为现有技术的全局和局部特征联合约束网络;
图6为本发明提出的SCHAL-Net网络框架;
图7为本发明训练阶段流程图;
图8为浅层特征增强模块;
图9为高维度特征映射模块;
图10高维度模态内特征聚合模块;
图11为注意力模块图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明提出一种“RGB-红外”视觉地点识别方法,以减少跨模态视觉地点识别任务中的跨模态差异和模态内部差异,来提高地点识别的准确率。具体地,本发明提出用于“RGB-红外”视觉地点识别任务的基于整体和局部特征协同约束的跨模态模型SCHAL-Net,该网络的框架图如图6所示,其中浅层特征增强模块为了防止图像浅层特征的丢失,来加强两种模态特征之间的联系;高维度特征映射模块将第三层网络输出的特征映射在高维作为整体特征的输出;高维度模态内特征聚合模块来对整体特征进行约束,使其学习到的特征信息更具有鲁棒性
本发明提出的SCHAL-Net的训练流程如图7所示。该流程采用小批量训练方式,每次从地点图像中随机选择一组RGB图像和红外图像。本发明以输入一张RGB图像和一张红外图像为例,训练流程如下:
步骤1:分别输入1张RGB图像和红外图像到SCHAL-Net网络模型中,进入步骤2;
步骤2:将两种模态的图像分别通过ResNet50的Conv1卷积层,提取各自模态所特有的特征,进入步骤3;
步骤3:通过共享参数的ResNet50的后四个阶段,在第一和第二阶段之后分别添加了浅层特征增强模块,以防止浅层特征的丢失,并增强两种模态特征之间的联系。接下来进入第4步骤;
步骤4:在ResNet50第三阶段输出的特征经过高维度特征映射模块作为最终整体特征的输出,进入步骤5;
步骤5:对ResNet50第三阶段输出的特征进行图像块处理,也就是提取局部特征,在经过注意力模块作为最终局部特征的输出,进入步骤6;
步骤6:通过高维度模态内特征聚合模块,将步骤4的特征和ResNet50第四阶段的特征进行融合,从而对整体特征进行约束,使学习到的特征信息更具鲁棒性,然后进入步骤7;
步骤7:对步骤4获得的整体特征与步骤5获得的局部特征以及步骤6获得的特征进行整体和局部特征协同约束,进入步骤8;
步骤8:若达到指定的训练轮数,则进行步骤9,否则继续完成训练,返回步骤1;
步骤9:结束。
本实施例采用小批量梯度下降的方式来更新本发明模型的参数。在实验中,批大小设置为8,即从训练数据集中随机选择8个不同的地点。每个批次中,对于每个地点,随机选择4张RGB图像和4张红外图像,使得RGB图像和红外图像分别有32张。这样的设置有利于损失函数的约束。由于红外地点图像的通道数为1,因此在数据预处理阶段采用填充相同值的策略,将其扩充为三通道,以保持与RGB地点图像相同的通道数,以方便后续的模型训练。此外,在训练过程中还进行了数据增强,包括随机裁剪、随机擦除和水平翻转等操作。为了训练模型,所有图像的尺寸都统一裁剪为213×213。
本发明在不同距离阈值(3.0,5.0,10.0米)下,分别测量了top-1,top-5和top-10的检索精度。如果这些排名前n的图像中的任何一个在查询图像的一定距离阈值内,将其视为成功定位。
实施例1:
为评估所提出网络模型的性能,本发明在广泛应用于跨模态地点识别任务的知名公开数据集KAIST上进行了模型的训练和评估。
KAIST数据集是一个用于跨模态地点识别任务的优秀数据集。该数据集包括RGB图像和红外图像对,这些图像对是在白天、夜晚、日落和日出时拍摄的,并且配有高精度的PS/IMU数据。在本发明中,测试集选取了在校园西线拍摄的两个序列(上午5点和上午9点)。选择这两个序列的好处在于红外图像对光照变化具有鲁棒性,并且可以涵盖从白天(RGB)到白天(红外)的地点识别,以及从白天(红外)到晚上(RGB)的地点识别。在与GPS时间戳同步的情况下,采集了1332张上午9点的RGB图像作为参考图像,3061张上午5点的红外图像作为查询图像。
本发明的实验评估了RGB图像检索红外图像、红外图像检索RGB图像这两种检索模式。为了公平起见,本发明选择了各种基线方法进行比较,以验证本发明SCHAL-Net的有效性。本文方法与现有方案在KAIST数据集上的对比结果如表1所示。
表1本发明与其他主流的最先进的地点识别模型在KAIST数据集上的对比结果。其中Top-1,Top-5,Top-10为准确率的评价标准。
根据表1的结果,本发明对近三年来的主流地点识别方法进行了复现,并使用了该领域公开效果最好的预训练模型进行测试,遵循了它们的测试过程。DOLG方法通过将局部特征和全局特征融合成最终的全局特征,避免了二阶段的重排序,但由于RGB图像和红外图像两种模态之间的特征差异较大,融合后的全局特征缺乏更多的细节信息,无法很好地解决模态特征匹配的问题。Patch-NetVLAD方法先利用NetVLAD的聚类方法得到全局特征用于一阶段的排序,然后通过提取补丁特征进行二阶段的排序,取得了不错的效果。MixVPR方法通过整体特征聚合技术获得更高维度的全局特征,虽然没有利用局部特征进行二次排序,但也取得了良好的结果。与这些方法相比,本发明设计的网络模型在红外图像查询RGB图像阈值为10米的模式下,相对于效果最好的方法,Top-1和Top-10分别提高了13.3%和36.3%。在RGB图像查询红外图像阈值为10米的模式下,相对于效果最好的方法,Top-1和Top-10分别提高了6%和22.1%。这表明本发明的网络模型能够很好地处理跨模态地点识别问题。
实施例2:
本实施例将介绍本发明的一种适用场景。
本发明可适用于回环检测场景。回环检测是指在机器人、自动驾驶车辆等应用中,通过分析已经访问过的地点,判断当前位置是否已经被访问过,从而避免位置重复或确定当前位置。本发明利用计算机视觉技术,通过比较不同地点的视觉特征,识别出图像或视频帧的地点信息。这种能力使得机器人或车辆能够在探索过程中判断是否回到了之前访问过的位置。本发明可以在光照条件变化的环境中帮助回环检测系统更准确地确定当前位置,从而提高导航的可靠性和精度,减少定位误差和漂移问题。
在自动驾驶任务中,GPS或者北斗导航能够给出大概的导航定位,想要更加精确地确定无人汽车位于哪个地点是很难做到的,导航的精确度不高,需要校正的方法。本方法应用于回环检测技术中,来校正无人汽车所走的路线。在光照好的时候,对某个路段的无人汽车进行测试,记录其从起点到终点的行驶路线。而在晚上,起点和终点与白天相同,由于夜晚光照的问题,拍摄的图像清晰度较低、色彩信息较少,所以采用红外图像进行拍摄。
首先,对白天行驶的路线视频进行图像截取,以60帧为标准。规定在10米范围内的视图被视为同一地点,并为这些图像命名,形成一个图库集。
其次,在晚上按照与白天相同的标准截取图像,作为查询集。将白天和晚上的图像输入到本发明提出的模型中。
接着,本发明提出的模型将输出一组图像序列,根据图像的名称判断地点是否相同。
最后,通过判断地点是否匹配,可以确定无人汽车所在的位置,再根据此结果对导航进行校正。

Claims (11)

1.一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,包括如下步骤:
步骤1:在SCHAL-Net网络模型中分别输入RGB图像和红外图像,进入步骤2;
步骤2:将RGB图像和红外图像两种模态的图像分别通过ResNet50的Conv1卷积层,提取各自模态所特有的特征,进入步骤3;
步骤3:将共享参数的ResNet50网络的特征映射分为四个阶段,分别在前两个阶段的特征映射之后添加浅层特征增强模块,进入步骤4;
步骤4:在ResNet50第三阶段输出的特征经过高维度特征映射模块作为最终整体特征的输出,进入步骤5;
步骤5:对ResNet50第三阶段输出的特征进行图像块处理,提取局部特征,在经过注意力模块作为最终局部特征的输出,进入步骤6;
步骤6:基于高维度模态内特征聚合模块,将步骤4输出的最终整体特征和ResNet50第四阶段的特征进行融合,得到融合后的特征,从而对整体特征进行约束,进入步骤7;
步骤7:对步骤4输出的最终整体特征、步骤5输出的最终局部特征以及步骤6融合后的特征进行整体和局部特征协同约束,进入步骤8;
步骤8:若达到指定的训练轮数,则进行步骤9,否则继续完成训练,返回步骤1;
步骤9:得到训练完成的SCHAL-Net网络模型,并基于SCHAL-Net网络模型,实现跨模态地点识别。
2.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤1具体为:采集的RGB图像和红外图像来自公开数据集KAIST,RGB图像是三个通道,红外图像通过填充相同值的策略将单通道扩展为三通道。
3.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤2具体为:将RGB图像和红外图像/>输入网络,分别通过一层卷积操作,得到RGB模态和红外模态的特有特征/>和/>
4.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤3具体包括:
步骤3-1:将F输入到两个不同的自适应平均池化层分别得到2个特征一样的F1和2个特征一样的F4,输入浅层特征增强模块的特征记作
步骤3-2:将F输入到两个不同的取均值以及最大值操作,分别得到特征F2,F3,F5,F6
步骤3-3:将自适应平均池化层、取均值以及最大值操作得到的特征进行拼接,分别得到FH∈R4×C×W和FW∈R4×C×H,并按最后一维进行拼接得到特征FHW∈R4×C×(H+W)
步骤3-4:对输出特征FHW进行unfold操作,将三维特征转成二维特征,使用Conv1d卷积,通过fold操作将维度还原到三维,得到细节、位置信息更多的浅层特征Fshallow∈R1×C×(H+W)
步骤3-5:将学习到的浅层特征Fshallow经过Sigmoid激活函数与F相乘获得最终输出和/>
5.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤4具体包括:
步骤4-1:将和/>输入ResNet50的第三层,得到两种模态的整体共享特征其中两种模态的图像经过的卷积层的结构和参数相同;
步骤4-2:输出整体共享特征
步骤4-3:将整体共享特征输入到高维度特征映射模块作为最终整体特征的输出。
6.根据权利要求5所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤4-3具体包括:
步骤4-3-1:对F执行flatten操作,在维度上进行相应的改变,得到特征向量F={Xi}∈RN×C×HW,i={1,...,C},输入高维度特征映射模块的描述符记作
步骤4-3-2:进入MLP模块,将一组扁平的特征映射作为输入,并将整体关系合并到每个特征映射中,MLP模块的表示为:Xi=W2(σ(LayerNorm(Xi)W1)),其中LayerNorm是对每个输入特征的第二个维度计算均值和方差,W1和W2是构成MLP的两个全连接层的权值,σ是激活函数;
步骤4-3-3:将MLP模块中输入与输出的特征向量做求和操作;
步骤4-3-4:通过两个全连接层,依次按通道方向和行方向进行降维;
步骤4-3-5:执行批归一化操作输出最终的整体特征和/>
7.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤5具体包括:
步骤5-1:将步骤4-1得到的和/>以特征块的形式进行局部特征的提取,得到特征/>和/>
步骤5-2:将步骤5-1得到的特征经过注意力模块得到最终的局部特征
8.根据权利要求7所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤5-1具体为:
假设为其中一个整体特征候选描述符,其中C,H,W分别代表通道、高和宽三个维度,从F中提取一组步幅为Sp的大小为dx×dy的补丁级特征{Pi,xi,yi},补丁级特征总数为/>其中Pi表示补丁级特征集合,(xi,yi)表示补丁级特征的中心在特征映射上的坐标。
9.根据权利要求7所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤5-2具体为:
步骤5-2-1:将Pi分别进行三个卷积操作得到fQuery,fKey,fValue
步骤5-2-2:将fQuery和fKey相乘后进行Softmax操作得到特征
步骤5-2-3:将和fValue相乘得到特征f;
步骤5-2-4:将f进行卷积操作得到特征f';
步骤5-2-5:将f'输入BN层与Pi相加得到的最终局部特征和/>
10.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤6具体包括:
步骤6-1:将经过ResNet50第四阶段输出的特征f4和最终的整体特征ffinal-Global输入部分特征加权模块;
步骤6-2:对f4进行池化操作,并在维度上进行相应的改变得到x4
步骤6-3:将x4分别经过三个1×1的卷积层得到特征v(x4),u(x4),z(x4);
步骤6-4:计算注意力图并用Softmax函数进行归一化得到α;
步骤6-5:将步骤4得到的结果与z(x4)做内积操作得到y;
步骤6-6:初始化一个可学习的注意力增强部分特征的权重w,构造一个判别性的部分聚合特征的表示;
步骤6-7:进行Softmax操作;
步骤6-8:将步骤7得到的结果与步骤5得到的结果做内积得到F;
步骤6-9:将ffinal-Global与F进行相加操作,让整体特征ffinal-Global能够拥有更深层次的特征,输出特征
11.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤4、5、6中的整体级别和局部级别联合约束由整体级别约束损失、局部级别约束损失组成,并基于VPR任务的困难三元组损失和交叉熵损失。
CN202311168173.XA 2023-09-11 2023-09-11 基于高维度特征映射和特征聚合的跨模态地点识别方法 Pending CN117422963A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311168173.XA CN117422963A (zh) 2023-09-11 2023-09-11 基于高维度特征映射和特征聚合的跨模态地点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311168173.XA CN117422963A (zh) 2023-09-11 2023-09-11 基于高维度特征映射和特征聚合的跨模态地点识别方法

Publications (1)

Publication Number Publication Date
CN117422963A true CN117422963A (zh) 2024-01-19

Family

ID=89527314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311168173.XA Pending CN117422963A (zh) 2023-09-11 2023-09-11 基于高维度特征映射和特征聚合的跨模态地点识别方法

Country Status (1)

Country Link
CN (1) CN117422963A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580287A (zh) * 2023-04-13 2023-08-11 南通大学 一种基于全局和局部特征联合约束的跨模态地点识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082165A1 (en) * 2016-12-16 2020-03-12 Peking University Shenzhen Graduate School Collaborative deep network model method for pedestrian detection
CN112434796A (zh) * 2020-12-09 2021-03-02 同济大学 一种基于局部信息学习的跨模态行人再识别方法
WO2022027986A1 (zh) * 2020-08-04 2022-02-10 杰创智能科技股份有限公司 基于跨模态行人重识别方法及装置
CN114627500A (zh) * 2022-03-10 2022-06-14 浙江工业大学 一种基于卷积神经网络的跨模态行人重识别方法
CN115171148A (zh) * 2022-04-18 2022-10-11 西安电子科技大学 一种基于特定模态特征补偿的跨模态行人重识别方法
CN116580287A (zh) * 2023-04-13 2023-08-11 南通大学 一种基于全局和局部特征联合约束的跨模态地点识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082165A1 (en) * 2016-12-16 2020-03-12 Peking University Shenzhen Graduate School Collaborative deep network model method for pedestrian detection
WO2022027986A1 (zh) * 2020-08-04 2022-02-10 杰创智能科技股份有限公司 基于跨模态行人重识别方法及装置
CN112434796A (zh) * 2020-12-09 2021-03-02 同济大学 一种基于局部信息学习的跨模态行人再识别方法
CN114627500A (zh) * 2022-03-10 2022-06-14 浙江工业大学 一种基于卷积神经网络的跨模态行人重识别方法
CN115171148A (zh) * 2022-04-18 2022-10-11 西安电子科技大学 一种基于特定模态特征补偿的跨模态行人重识别方法
CN116580287A (zh) * 2023-04-13 2023-08-11 南通大学 一种基于全局和局部特征联合约束的跨模态地点识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AMAR ALI-BEY: "MixVPR: Feature Mixing for Visual Place Recognition", 2023 IEEE/CVF WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV), 6 February 2023 (2023-02-06), pages 2997 - 3006 *
STEPHEN HAUSLER: "Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition", 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2 December 2021 (2021-12-02), pages 14136 - 14147 *
TIANQI ZHANG,JIN WANG: "Visible Infrared Person Re-Identification via Global-Level and Local-Level Constraints", IEEE ACCESS, 13 November 2021 (2021-11-13), pages 166339 - 166350 *
马潇峰: "双粒度特征融合网络的跨模态行人再识别", 中国图象图形学报, 31 May 2023 (2023-05-31), pages 1422 - 1433 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580287A (zh) * 2023-04-13 2023-08-11 南通大学 一种基于全局和局部特征联合约束的跨模态地点识别方法

Similar Documents

Publication Publication Date Title
Zhang et al. Visual place recognition: A survey from deep learning perspective
CN110728263B (zh) 一种基于距离选择的强判别特征学习的行人重识别方法
CN112101150B (zh) 一种基于朝向约束的多特征融合行人重识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN111507217A (zh) 一种基于局部分辨特征融合的行人重识别方法
CN111862213A (zh) 定位方法及装置、电子设备、计算机可读存储介质
CN109635695B (zh) 基于三元组卷积神经网络的行人再识别方法
CN108764096B (zh) 一种行人重识别系统和方法
CN111582178B (zh) 基于多方位信息和多分支神经网络车辆重识别方法及系统
CN105989369A (zh) 基于度量学习的行人再识别方法
CN113516005B (zh) 一种基于深度学习和姿态估计的舞蹈动作评价系统
CN117422963A (zh) 基于高维度特征映射和特征聚合的跨模态地点识别方法
Payet et al. Scene shape from texture of objects
CN115841683A (zh) 一种联合多级特征的轻量行人重识别方法
CN113792686B (zh) 基于视觉表征跨传感器不变性的车辆重识别方法
CN113011359B (zh) 一种基于图像的同时检测平面结构和生成平面描述的方法及应用
CN113076891A (zh) 基于改进高分辨率网络的人体姿态预测方法及系统
CN116580287A (zh) 一种基于全局和局部特征联合约束的跨模态地点识别方法
CN113761995A (zh) 一种基于双变换对齐与分块的跨模态行人重识别方法
CN114037922B (zh) 一种基于层级上下文网络的航拍图像分割方法
CN115830643A (zh) 一种姿势引导对齐的轻量行人重识别方法
Zhao et al. Attention-enhanced cross-modal localization between spherical images and point clouds
CN112016661B (zh) 一种基于擦除显著性区域的行人重识别方法
CN113051962B (zh) 基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法
CN114627500A (zh) 一种基于卷积神经网络的跨模态行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination