CN112906493A - 一种基于互相关注意力机制的跨模态行人重识别方法 - Google Patents
一种基于互相关注意力机制的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN112906493A CN112906493A CN202110113099.6A CN202110113099A CN112906493A CN 112906493 A CN112906493 A CN 112906493A CN 202110113099 A CN202110113099 A CN 202110113099A CN 112906493 A CN112906493 A CN 112906493A
- Authority
- CN
- China
- Prior art keywords
- cross
- modal
- image
- attention
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于互相关注意力机制的跨模态行人重识别方法,属于计算机视觉领域中图像检索方向的一个子任务。此方法既要解决不同人物ID的匹配问题,同时还要解决RGB图像和红外图像的模态差异问题。此方法将自然语言处理(NLP)领域比较流行的Transformer经过创新应用到行人重识别领域,用来解决模态间的差异问题。此方法主要内容包括:数据增强、多模态特征提取、跨模态图像生成、跨模态Transformer机制、多重损失函数。本发明的方法中最具创新性的部分是跨模态Transformer机制,既有模态内的self‑attention,又有跨模态co‑attention,可以有效的缩小模态间差异,同时不会丢弃模态特有特征。此方法针对模型各个组成部分的训练要求设计多种损失函数并定义超参数平衡各损失函数的权重,并且网络模型可以端到端训练。
Description
技术领域
本发明属于计算机视觉领域,是领域内关注度较高应用技术。本发明依托现有深度学习技术,具体公开了一种基于互相关注意力机制的跨模态行人重识别方法。
技术背景
自上世纪以来,人工智能技术在不断进步,尤其是在计算机视觉领域,从传统的手工提取特征到现在应用广泛的深度学习技术,不断推进该学术界与工业界的发展。随着技术的进步,越来越多的应用场景和具体研究领域被提出来,比如目前应用最广的人脸识别技术。
行人重识别技术是继人脸识别技术以来又一重要的以人为中心的研究领域,而且该领域在现实社会中具有重要的现实意义和商业转化前景。行人重识别(Person re-identification)是图像检索领域的一个子任务,其目标是依托遍布各地、各场景的监控设备实现跨域行人检索。从其目标来看,该研究领域具有非常广阔的前景,但是现实场景的监控数据受到隐私保护无法公开用来学术研究,所以目前学术界一直是使用标准的不侵犯隐私的公开数据集做研究,由此可知,设计的解决方案不仅要在数据集上取得比较好的结果,同时还要具备比较优秀的泛化能力,从而满足现实的工业应用需求。
目前的行人重识别研究方案主要有基于表征学习、度量学习、局部特征和GAN的方法。表征学习的重点不是计算图片之间的相似度,而是直接把行人重识别当成分类问题或验证问题,直接将行人所属的人物ID属性作为标签来训练模型,或者是判断两张图片是否属于同一个ID。表征学习适用于数据集比较小的情况,若是人物ID数量较多,那么网络的参数量巨大,训练很难收敛,现在不是研究的主流方法。基于度量的学习方法旨在学习两张图片的相似度,其重点是损失函数的设计,使相同ID的距离尽可能小,不同ID的距离尽可能大,常用的损失函数有三元组损失、四元组损失和困难样本采样三元组损失等。基于局部特征的方式是将图像分成几部分分别提取局部特征来解决问题。基于GAN的方法是通过网络生成图像的方式解决问题。
上述方法解决的是RGB图像的行人重识别问题,然而RGB图像在现实的应用场景中具有明显的局限性:黑暗环境、弱光照环境下效果很差。在黑夜或光照很弱的情况下,RGB摄像头无法拍摄到特征明显的照片,这使得方法失效。现有的部分监控摄像头可以在白天用RGB相机拍摄,晚上使用红外图像拍摄,通过这样的方式工作可以提升安全性,由此跨模态行人重识别的问题就被提出来了。RGB图像和红外图像拥有完全不同的特点,此问题不仅要解决行人的匹配问题,更要解决跨模态的问题,通过设计一定的方法减少两种模态的差异是目前研究的重点方向。
在此背景下,我们提出一种基于互相关注意力机制的跨模态行人重识别方法,可以很好的解决跨模态差异的问题,同时在识别精度上相对于目前的最优方法也有所提升。
发明内容
本发明提出了一种基于互相关注意力机制的跨模态行人重识别方法,目标是解决行人重识别领域中RGB图像和红外图像之间的跨模态差异问题,设计方案如下:
基于互相关注意力机制的跨模态行人重识别方法包括以下步骤:
步骤1),数据加载。包括数据预处理、缩放和裁剪以及数据选择。
步骤2),设计轻量级残差神经网络架构作为特征提取器。
步骤3),每个特征图按照顺序被分解作为序列化数据输入到互相关注意力模块中得到注意力特征,经过全连接层,输出为特征向量。
步骤4),为满足测试要求,训练一个生成器网络,为每张图片生成其对应的跨模态图。
步骤5),计算真实图与生成图的KL散度,作为生成器网络的训练损失的一部分。
步骤6),测试阶段中,输入图像经过网络得到特征向量。将query图的特征向量,与gallery 中的图像特征向量分别计算与欧氏距离,找到距离最近的图片。
附图说明
附图1为本发明中基于互相关注意力机制的跨模态行人重识别方法的模型图。
附图2为本发明中互相关注意力模块的示意图。
具体实施方式
本发明内容的具体实施方式结合附图可以做以下详细说明:
步骤1),数据加载。选取的图片先要经过缩放和裁剪操作,使尺寸满足算法的需要。数据每次加载2*P*K张图片,即每个batch中就包含2*P*K张照片。2指的是2种模态,分别是RGB图像与红外图像,P指的是每次随机选取P个人物ID,K指的是每个人物选取K张图片。
步骤2),设计轻量级的残差神经网络架构作为前期的特征提取器,在不同的尺度上提取图像的全局特征和局部特征,两种模态采用相同架构的网络提取特征,得到两种模态的特征图。
步骤3),每个特征图按照上中下的顺序被分解成3个patch,每张图的3个patch每次作为一个序列化数据输入到后续网络中。特征提取器提取完特征并完成特征图分解后,将特征输入到互相关注意力模块中,按照从RGB图像到IR图像每个位置相对应的顺序在Transformer 中排列,得到最后的RGB注意力特征和红外注意力特征,然后将最后的两种注意力特征转换成向量,经过最后的全连接层,输出为最后的特征向量,在最后的全连接层中,两种特征是参数共享的。在此处定义一个KL损失,使得同类的图像分布尽量一致。
步骤4),上过程是所设计方法的训练流程,但是在测试时做的是跨模态检索,所以还要训练一个生成器网络,为每张图片生成其对应的跨模态图。训练生成器网络的流程是,输入图片分别经过模态共享与模态特有特征提取分支,将模态共享特征与相对模态的特有特征输入生成器网络中生成对应的跨模态图。
步骤5),经过步骤2)中对真实图与生成图提取特征后,计算两张特征图的KL散度,作为生成器网络的训练损失的一部分。使用循环一致性损失和重建损失与步骤3)中的KL散度相结合,训练生成器网络和模态共享与特有网络,RGB图像和红外图像的模态共享网络是参数共享的。
步骤6),测试阶段中,输入图像经过第一段特征提取器,分别提取模态共享特征和特有特征,将得到的两部分特征传到生成器,生成相对模态的图像,然后将原始图像和相对模态的生成图像送到互相关注意力模块中,把经过互相关注意力模块得到的特征图转换成向量,送入最后的全连接层,得到最后的特征向量。将query图的特征向量,与gallery中的图像特征向量分别计算欧氏距离,找到距离最近的图片,以此来查询K张最相似的图像,通过计算 Rank-K评估模型性能。
所述步骤一)中随机选取2*P*K张图像做裁剪和缩放处理,同时采用随机翻转策略做数据增强来防止过拟合。
所述步骤2)中使用在ImageNet与预训练的ResNet18网络模型,将网络的最后的全局平均池化层去掉,同时修改网络的步长,将步长全部修改为1,以此来保证特征图的尺寸不会过小,并且又能提取到有效的特征。
所述步骤3)要按照顺序将特征图分解,在Transformer中,先通过卷积操作得到每种图像(RGB或红外)的每个块的三维的Q、K、V矩阵,让每个Q分别于所有的K做pixel-levelproduct,然后得到的结果值再与各自的V做pixel-levelproduct,这样即做了每种图像内部的 attention,又做了跨模态的attention,这也是互相关注意力机制的核心所在。
所述步骤5)中的生成器使用的是标准的GAN,将单模态的共享特征与特有特征通过生成器重建图像与原始的图像做损失来训练GAN,为了增强GAN的重建能力使用循环一致性损与重建损失相结合,共同训练GAN。
所述步骤6)为每个损失添加一个权重参数,来调节每种损失在网络训练过程中的重要性,具体的参数值是在大量的实验中依据经验所得。
所述步骤7)测试时分别检验RGB图像作为probe在红外图像gallery中做检索,以及红外图像作为probe在RGB图像gallery中做检索。
整个网络是分阶段、端到端实现的,分阶段指的是前一部分的epoch用来训练生成器,后面部分训练整个网络,整个过程从输入到输出无需终止,完全端到端实现。
Claims (5)
1.一种基于互相关注意力机制的跨模态行人重识别方法,所述方法包括:
步骤1),数据加载。包括数据预处理、缩放和裁剪以及数据选择。
步骤2),设计轻量级残差神经网络架构作为特征提取器。
步骤3),每个特征图按照顺序被分解作为序列化数据输入到互相关注意力模块中得到注意力特征,经过全连接层,输出为特征向量。
步骤4),为满足测试要求,训练一个生成器网络,为每张图片生成其对应的跨模态图。
步骤5),计算真实图与生成图的KL散度,作为生成器网络的训练损失的一部分。
步骤6),测试阶段中,输入图像经过网络得到特征向量。将query图的特征向量,与gallery中的图像特征向量分别计算与欧氏距离,找到距离最近的图片。
2.根据权利要求1所述的基于互相关注意力机制的跨模态行人重识别方法,其特征在于:
步骤3)要按照顺序将特征图分解,在Transformer中,先通过卷积操作得到每种图像(RGB或红外)的每个块的三维的Q、K、V矩阵,让每个Q分别于所有的K做逐像素点积,然后得到的结果值再与各自的V做逐像素点积,这样即做了每种图像内部的注意力,又做了跨模态的注意力,这也是互相关注意力机制的核心所在。
3.根据权利要求1所述的基于互相关注意力机制的跨模态行人重识别方法,其特征在于:
步骤5)中的生成器使用的是标准的GAN,将单模态的共享特征与特有特征通过生成器重建图像与原始的图像做损失来训练GAN,为了增强GAN的重建能力使用循环一致性损与重建损失相结合,共同训练GAN。
4.根据权利要求1所述的基于互相关注意力机制的跨模态行人重识别方法,其特征在于:
步骤6)为每个损失添加一个权重参数,来调节每种损失在网络训练过程中的重要性,具体的参数值是在大量的实验中依据经验所得。
5.根据权利要求1所述的基于互相关注意力机制的跨模态行人重识别方法,其特征在于:
整个网路是分阶段、端到端实现的,分阶段指的是前一部分的epoch用来训练生成器,后面部分训练整个网络,整个过程从输入到输出无需终止,完全端到端实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110113099.6A CN112906493A (zh) | 2021-01-27 | 2021-01-27 | 一种基于互相关注意力机制的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110113099.6A CN112906493A (zh) | 2021-01-27 | 2021-01-27 | 一种基于互相关注意力机制的跨模态行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112906493A true CN112906493A (zh) | 2021-06-04 |
Family
ID=76119035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110113099.6A Pending CN112906493A (zh) | 2021-01-27 | 2021-01-27 | 一种基于互相关注意力机制的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906493A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627266A (zh) * | 2021-07-15 | 2021-11-09 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
CN113723236A (zh) * | 2021-08-17 | 2021-11-30 | 广东工业大学 | 一种结合局部阈值二值化图像的跨模态行人重识别方法 |
CN114091548A (zh) * | 2021-09-23 | 2022-02-25 | 昆明理工大学 | 一种基于关键点和图匹配的车辆跨域重识别方法 |
CN116682144A (zh) * | 2023-06-20 | 2023-09-01 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
-
2021
- 2021-01-27 CN CN202110113099.6A patent/CN112906493A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627266A (zh) * | 2021-07-15 | 2021-11-09 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
CN113627266B (zh) * | 2021-07-15 | 2023-08-18 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
CN113723236A (zh) * | 2021-08-17 | 2021-11-30 | 广东工业大学 | 一种结合局部阈值二值化图像的跨模态行人重识别方法 |
CN113723236B (zh) * | 2021-08-17 | 2023-02-28 | 广东工业大学 | 一种结合局部阈值二值化图像的跨模态行人重识别方法 |
CN114091548A (zh) * | 2021-09-23 | 2022-02-25 | 昆明理工大学 | 一种基于关键点和图匹配的车辆跨域重识别方法 |
CN116682144A (zh) * | 2023-06-20 | 2023-09-01 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
CN116682144B (zh) * | 2023-06-20 | 2023-12-22 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | GAN-based day-to-night image style transfer for nighttime vehicle detection | |
Li et al. | Pose guided deep model for pedestrian attribute recognition in surveillance scenarios | |
CN112906493A (zh) | 一种基于互相关注意力机制的跨模态行人重识别方法 | |
Jin et al. | Generative adversarial network technologies and applications in computer vision | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Wu et al. | Language prompt for autonomous driving | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
Tang et al. | Multi-modal metric learning for vehicle re-identification in traffic surveillance environment | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
Zhang et al. | IL-GAN: Illumination-invariant representation learning for single sample face recognition | |
CN114333002A (zh) | 基于图深度学习和人脸三维重建的微表情识别方法 | |
CN117011883A (zh) | 一种基于金字塔卷积和Transformer双分支的行人重识别方法 | |
CN114694089A (zh) | 一种新型的多模态融合的行人重识别算法 | |
Mokhayeri et al. | Video face recognition using siamese networks with block-sparsity matching | |
Hu et al. | Dual encoder-decoder based generative adversarial networks for disentangled facial representation learning | |
Liu et al. | Single image depth map estimation for improving posture recognition | |
Ma et al. | Cascade transformer decoder based occluded pedestrian detection with dynamic deformable convolution and Gaussian projection channel attention mechanism | |
Zhang et al. | Two-stage domain adaptation for infrared ship target segmentation | |
Teng et al. | Unimodal face classification with multimodal training | |
Li et al. | Efficient thermal infrared tracking with cross-modal compress distillation | |
Joseph et al. | Deepfake detection using a two-stream capsule network | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
He et al. | MTRFN: Multiscale temporal receptive field network for compressed video action recognition at edge servers | |
Zeng et al. | Realistic frontal face reconstruction using coupled complementarity of far-near-sighted face images | |
Liu et al. | SYRER: Synergistic Relational Reasoning for RGB-D Cross-modal Re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |