CN115050044A - 一种基于MLP-Mixer的跨模态行人重识别方法 - Google Patents
一种基于MLP-Mixer的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN115050044A CN115050044A CN202210349736.4A CN202210349736A CN115050044A CN 115050044 A CN115050044 A CN 115050044A CN 202210349736 A CN202210349736 A CN 202210349736A CN 115050044 A CN115050044 A CN 115050044A
- Authority
- CN
- China
- Prior art keywords
- mixer
- mlp
- pedestrian
- infrared
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于MLP‑Mixer的跨模态行人重识别方法,其特征在于,包括以下步骤:采集行人可见光图像和行人红外图像;基于所述行人可见光图像和所述行人红外图像,利用MLP‑Mixer网络分别提取可见光模态人物特征和红外模态人物特征;基于所述可见光模态人物特征和所述红外模态人物特征,利用基于位置的自注意力引导学习模型提取模态共享特征;利用损失函数优化所述模态共享特征,获得异质模态的区分性局部特征表示,进行行人重识别。本发明提升了深度学习在行人再识别领域的表现,使行人再识别技术可以更好地解决现实问题。
Description
技术领域
本发明涉及图像处理与模式识别在行人再识别场景中的应用领 域,特别是涉及一种基于MLP-Mixer的跨模态行人重识别方法。
背景技术
分布式多摄像机监视系统的基本任务是在不同位置和不同时间 将人与摄像机视图相关联。这被称为行人重识别问题,更具体而言, 行人重识别主要为了解决"目标行人之前在哪里出现过"或者"目 标行人在监控网络中被捕捉后去了哪里"的问题。它支持许多关键应 用,例如长时间多相机跟踪和取证搜索等。实际上,每一个摄像头可 以从不同的角度和距离,在不同的光照条件、遮挡度和不同的静态和 动态的背景下进行拍摄。这就给行人重识别任务带来了一些巨大的挑 战。同时由于在未知距离的摄像机观察到的行人可能存在拥挤的背景、 低的分辨率等条件限制,因此依赖于诸如面部识别的传统生物测量学 的行人重识别技术既不可行也不可靠。传统的行人重识别技术主要分 为两个方面:特征表达和相似性度量。常用的特征主要包括颜色特征、 纹理特征、形状特征以及更高层次的属性特征、行为语意特征等。而 对于相似性度量,欧式距离最先被使用的,随后一些有监督的相似性 判别方法也被提出。
红外图像与可见光图像跨模态识别是一项具有挑战性的基本任 务,即通过可见光图像和红外图像将同一个人关联起来。已有的大多 数研究集中在改进全局特征以解决跨模态问题,因此,一些有区别的 局部和显著特征被深度模型忽略。
然而,目前的大多数方法侧重于改进全局特性。一些有区别的局 部特征表示被大多数深层模型忽略,例如衣服的类型或鞋子的样式。 局部特征表示具有显著的可分辨性,且不受跨模态模式的影响。此外, 注意机制广泛应用于许多计算机视觉任务中。另一方面,大多数特征 提取方法都使用了卷积神经网络或者Vision Transformer模型,计 算复杂度较高,计算效率较低。
发明内容
本发明的目的是提供一种基于MLP-Mixer的跨模态行人重识别 方法,以解决上述现有技术存在的问题,提升了深度学习在行人再识 别领域的表现,使行人再识别技术可以更好地解决现实问题。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于 MLP-Mixer的跨模态行人重识别方法,包括以下步骤:
采集行人可见光图像和行人红外图像;
基于所述行人可见光图像和所述行人红外图像,利用MLP-Mixer 网络分别提取可见光模态人物特征和红外模态人物特征;
基于所述可见光模态人物特征和所述红外模态人物特征,利用基 于位置的自注意力引导学习模型提取模态共享特征;
利用损失函数优化所述模态共享特征,获得异质模态的区分性局 部特征表示,进行行人重识别。
可选地,所述MLP-Mixer网络包括若干Mixer-Layer,所述Mixer- Layer相互堆叠。
可选地,利用MLP-Mixer网络分别提取可见光模态人物特征和红 外模态人物特征包括:
MLP-Mixer分别将所述行人可见光图像和所述行人红外图像切分 为若干个可见光图像块和红外图像块;
将每个所述可见光图像块和所述红外图像块进行映射,获得对应 的向量;
将多个同类所述向量组成矩阵;
将所述矩阵输入所述Mixer-Layer,获得所述Mixer-Layer的最 终输出特征矩阵,即为可见光模态人物特征和红外模态人物特征。
可选地,所述Mixer-Layer为:
U*,i=X*,i+W2·σ(W1·LN(X)*,i)
Yj,*=Uj,*+W4·σ(W3·LN(U)j,*)
其中,σ为Sigmoid函数,LN为层标准化函数,X为输入特征矩 阵,W为网络参数矩阵,i、j分别表示特征矩阵两个维度的序号,U 为一层Mixer-Layer结构计算的中间结果,Y为一层Mixer-Layer的 输出结果。
可选地,所述MLP-Mixer网络包括Channel-mixing MLPs和 Token-mixing MLPs,其中,所述Channel-mixing MLPs用于学习不 同的通道之间的交叉信息,所述Token-mixing MLPs用于学习不同图 像块之间的交叉信息,所述Channel-mixing MLPs和所述Token- mixing MLPs交错叠加,并且利用层标准化机制和残差连接机制进行 不同维度的信息交叉处理。
可选地,所述利用基于位置的自注意力引导学习模型提取模态共 享特征包括:将所述基于位置的自注意力引导学习模型设置在所述MLP-Mixer网络中,利用所述基于位置的自注意力引导学习模型,分 别对所述可见光模态人物特征和所述红外模态人物特征进行局部特 征提取,获得所述模态共享特征。
可选地,所述损失函数包括交叉熵损失函数和异中心损失函数, 其中,所述交叉熵损失函数用于对特定模态的特征进行分类,所述异 中心损失函数用于进行跨模态约束。
可选地,所述交叉熵损失函数为:
其中,N表示批次大小,Wi表示第i列重量,b表示偏差项,I表 示身份的数量,xn表示属于第y类别的第n个可见光和红外特征。
可选地,所述异中心损失函数为:
其中,Cm,1和Cm,2分别为第i个类别中可见光图像和红外图像的 特征表示向量的中心,V为属于第i类的可见光图像的数量,I为属 于第i类的红外图像的数量,M是类的数量。
本发明公开了以下技术效果:
本发明提供的一种基于MLP-Mixer的跨模态行人重识别方法,采 用MLP-Mixer结构提取各模态图像特征,设计基于自注意力机制的学 习模块,用于学习共享特定的特征表示,并增强跨模态行人再识别任 务中异质模态的区分性局部特征表示。双路径局部信息结构有两个单 独的分支,其中包含一个可见流和一个红外流,用于提取模态共享特 征。该方法能够提取出具有鉴别能力的局部特征,并获得更好的性能, 形成最终的特征描述符。为了监督网络提取鉴别特征以缩小不同模式 的边缘,对交叉熵损失和异中心损失进行联合监督。所提出的方法在 两个标准数据集上得到了更高的表现,并且由于MLP-Mixer结构简单, 可迁移性强,训练成本(时间成本、算力成本)相较于卷积神经网络 都更低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。
图1为本事实例中跨模态行人重识别方法流程示意图;
图2为本实施例中双路径局部信息结构的示意图;
图3为本实施例中MLP-Mixer的总体结构示意图;
图4为本实施例中MLP-Mixer中的基本单元Mixer-Layer的结 构图;
图5为本实施例中基于位置的注意力引导学习模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结 合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供一种基于MLP-Mixer的跨模态行人重识别方法,包括 以下步骤,如图1所示:
S1、采集行人可见光图像和行人红外图像。
在本实施例中,使用到了两种数据集。SYSU-MM01是红外图像-可 见光图像双模态行人再识别任务领域中第一个由四个可见光摄像机 和两个红外摄像机组成的大规模数据集。图像采集自室内和室外环境。 另一个数据集RegDB由双摄像头系统捕获。
S2、利用MLP-Mixer网络对基于行人可见光图像和行人红外图像 进行处理,分别提取可见光模态人物特征和红外模态人物特征。MLP- Mixer是一种基于MLP模型的预训练模型,其优点是模型结构简单, 计算效率高,训练速度快,并且模型效果不输卷积神经网络,预训练 完成后可迁移能力强。
本实施例中,采用双路径局部信息模型来提取跨模态的图像特征, 具体为两个不同的模态分别经过一条独立的特征提取路径,即可见光 路径和红外路径,如图2所示,双路径结构最终得到两个模态下各自 的图像特征矩阵。虽然卷积神经网络在许多视觉任务中都能获得有竞 争力的性能,但是由于卷积计算效率不够高,因此,在本实施例中, 在每条路径中分别采用MLP-Mixer网络作为主干网络,分别提取特定 模态(可见光模态和红外模态)的人物特征。MLP-Mixer模型如图3 所示,其中包含12个如图4所示的Mixer-Layer结构。MLP-Mixer将 图像切分为若干个图像块,并将每个图像块映射为一个向量,多个图 像块所映射得到的向量组成一个矩阵,该特征矩阵通过连续堆叠12 层的Mixer-Layer结构,最终第12层的输出的特征矩阵用于后续的 特征距离度量或者损失函数的计算。如图4所示的Mixer-Layer结构 可以用如下公式表示,其中,σ为Sigmoid函数,LN为层标准化函 数。
U*,i=X*,i+W2·σ(W1·LN(X)*,i)
Yj,*=Uj,*+W4·σ(W3·LN(U)j,*)
其中,X为输入特征矩阵,W为网络参数矩阵,i、j分别表示特 征矩阵两个维度的序号,U为一层Mixer-Layer结构计算的中间结果, Y为一层Mixer-Layer的输出结果。
MLP-Mixer结构中包含两种类型的MLP,其一是Channel-mixing MLPs,它在每一个图像块上进行MLP操作,学习不同的通道之间的交 叉信息;其二是Token-mixing MLPs,token也就是图像块,在每一 个通道上进行MLP操作,学习不同图像块之间的交叉信息。两种类型 的MLP交错叠加,中间穿插层标准化机制和残差连接机制,实现两个 维度的信息交叉,两个维度包括通道维度和图像块维度。
由于每个模态对应一条特征提取路径,因此可以认为两个模态的 特征提取过程是相互独立的,互不影响的,这样提取特定于模态的人 物特征,可以解决跨模态变化问题。
全局特征表示学习是为每个人提取全局信息的主要选择。然而, 这些方法可能会导致显著和信息性特征丢失问题。本实施例中,采用 将特征矩阵横向切分为多个向量的方法,每一个向量代表行人的一部 分局部特征。
S3、基于可见光模态人物特征和红外模态人物特征,利用基于位 置的自注意力引导学习模型提取模态共享特征。该基于位置的自注意 力引导学习模型利用自注意力机制,进行模态间的局部特征学习,该 结构在两个模态下共享参数,可以有效防止在单一模态下的过拟合问 题,并且注意力机制可以有效学习局部特征之间的关系。
在本实施例中,设计一个新的注意学习模块,该模块可以接收高 维矩阵,也可以接收二维矩阵,名为位置注意引导学习模块(PALM)。 PALM可以捕获远程依赖项,并增强红外图像与可见光图像跨模态行 人再识别任务的本地表示能力。
PALM的详细信息如图5所示。PALM能够接收高维特征矩阵,如 果输入为高维矩阵C*H*W的高维特征矩阵可以经过Flatten操作转 化为C*(H*W)的二维矩阵。对于这个二维矩阵或者原本就输入的二维 矩阵,基于自注意力机制的学习过程可以用下面的公式表示,其中 Conv代表1*1卷积层,BN代表批标准化操作,Q、K、V三个函数都是 矩阵乘法操作,只是所用矩阵不同。PALM模块会穿插在MLP-Mixer结 构中最后一层Mixer-Layer和倒数第二层之间,以及倒数第二层和倒 数第三层之间,可见光模态和红外模态的MLP-Mixer均是如此。这种 基于注意力机制的学习模块,能够学习全局特征中各局部特征之间的 关系,另外,两个模态下的所用到的PALM模块均是同一个模块,它 们共享参数,该模块的学习过程受到了两个模态特征的共同影响,除 了能有效防止在单模态下的过拟合,也能学习到不同模态下局部特征 的共性。即本实施例中的注意力机制模型可以学习局部特征向量序列 之间的关系,共享参数体现了跨模态间的局部特征学习,区别于双路 径特征提取过程的模态独立性。
Y=X+BN(Conv(Attn(X)))
Attn(X)=BN(Softmax(Q(X)·K(X)))·V(X)
其中,Attn表示注意力机制的计算模块,Conv表示卷积层,BN 表示批标准化层,Softmax表示多分类函数,X表示输入矩阵,Q、K、 V分别表示由输入X分别计算查询矩阵、键矩阵和值矩阵的计算函数, 本质为一个矩阵乘法操作,Y为位置注意引导学习模块的输出结果。
最终输出的是一个二维矩阵,和输入该模块的二维矩阵维度相同。 原始输入如果是一个高维矩阵,那么按照Flatten的逆向操作,转化 为和原始输入矩阵维度完全相同的高维矩阵,如果原始输入为二维矩 阵,则不需要这一操作。即,假设高维特征矩阵是维度为C、H、W的 特征图,首先使用1×1卷积算子将特征映射送入卷积层,分别生成 新的特征映射θ、φ、g,其中然后将新的三个 特征图展平,便得到了二维矩阵。然后我们乘以张量θ和张量φ通过 矩阵乘法运算获得特征F。类似地,特征Y通过张量F和g之间的矩 阵乘法获得,最后对输入特征执行元素加法以获得输出特征。
在本实施例中,将基于位置注意力机制引导学习模块插入到MLP- Mixer中后面若干层Mixer-Layer之间,例如插入两个该模块,放置 于最后一层Mixer-Layer和倒数第二层Mixer-Layer之间,以及倒数 第二层Mixer-Layer和倒数第三层Mixer-Layer之间,将该模块的输 出和Mixer-Layer的输出,对应位置相加,再送入下一层Mixer-Layer 中。与特征提取模块不同是,基于自注意力机制引导学习的模块是跨 模态参数共享的,即两种模态共用同一个基于自注意力机制的学习模 块。最终的输出在水平方向上进行切割,M*N的特征矩阵被切分为M 个1*N的向量,将其视作一组特征向量,将两种模态下得到的两组特 征向量进行拼接,得到一组M个1*2N的向量组。
S4、利用损失函数优化模态共享特征,获得异质模态的区分性局 部特征表示,进行行人重识别。为了从多个角度优化,损失函数使用 两种函数的组合,其中交叉熵损失函数从分类问题的角度优化,让任 务识别的更准切,异中心损失函数从距离度量的角度优化,拉近同一 行人的在不同模态下的特征距离。
由于跨模态行人再识别任务可以看作是一个图像检索问题,因此 我们关注通过双路径结构学习的特征的相似性来提取模态共享特征。 因此,该模型在训练阶段的目的是弥合跨模态和模态内的差异,以捕 获模态共享特征并提高跨模态相似性。然而,大多数损失函数无法执 行模型以了解模态共享特征。对每条路径采用交叉熵损失(CE损失) 来学习特定于模态的特征进行分类。CE损失函数可以表示为
其中,N表示批次大小,Wi表示第i列重量,b表示偏差项。I表 示身份的数量。xn表示属于第y类别的第n个可见光和红外特征,T 为矩阵转置运算符,yn、yi均代表某一个类别。
然而,为了进一步缩小每个类别中不同模态的边缘,使用异中心 (HC)损失来监督模型提取鉴别特征表示,以提高跨模态相似性。异 中心(HC)损失可以惩罚中心距离并限制两个模态特征分布之间的间 隙。异中心(HC)损失公式如下:
对本发明所提出的冲识别方法进行效果验证。所有实验都是基于 PyTorh和两个TITAN XP GPU进行的。我们采用ResNet50预训练网 络作为主干网。所有图像的大小都调整为288×144。随机擦除和水平 随机翻转方法用于数据扩充。初始学习速率设置为0.01,动量设置为 0.9。在第30和第60个阶段,学习率降低了0.1。批次大小设置为 64,特征图平均分为六条条纹。一批中标识数量设置为四个,每个标 识包括八个可见光图像和八个红外图像。测试所用数据集包括SYSU- MM01和RegDB。其中,SYSU-MM01数据集包含287628幅可见光图像 和15792幅红外图像。训练集中有395个身份,包括22258个RGB图 像和11909个红外图像。该测试集包含96个不同行人,其中3803个 红外图像作为查询集,301个可见光图像作为候选集。另一个数据集 RegDB总共包含8240个图像和412个行人,其中206个行人用于训练,206个行人用于测试。每个行人包含10个不同的可见光图像和 10个不同的红外图像。所有测试均采用了包括累积匹配特征(CMC) 和平均精度(mAP)的评估指标。
在SYSU-MM01数据集上对本发明提出的方法进行了评估。表1显 示了本方法与SYSU-MM01上其他方法的Rank-n(n=1,10,20)精度和 映射图的比较结果。可以看出,所提出的方法可以达到Rank-1精度 59.03%、Rank-10精度93.03%、Rank-20精度97.7%和mAP指标57.21% 的性能。此外,XIV网络也采用双通道深度模型来提取鉴别特征,与 之相比,本方法在Rank-1精度方面有所提升,从49.92%提高到59.03%。
Methods | Publication | Rank-1 | Rank-10 | Rank-20 | mAP |
HOG | CVPR 2005 | 2.76 | 18.25 | 31.91 | 4.24 |
LOMO | CVPR 2015 | 3.64 | 23.18 | 37.28 | 4.53 |
Two-stream | ICCV 2017 | 11.65 | 47.99 | 65.50 | 12.85 |
Zero-Padding | ICCV 2017 | 14.80 | 54.12 | 71.33 | 15.95 |
TONE[23] | AAAI 2018 | 12.52 | 50.72 | 68.60 | 14.42 |
TONE+HCML | AAAI 2018 | 14.32 | 53.16 | 69.17 | 16.16 |
BCTR | IJCAI 2018 | 16.12 | 54.90 | 71.47 | 19.15 |
BDTR | IJCAI 2018 | 17.01 | 55.43 | 71.96 | 19.66 |
cmGAN | IJCAI 2018 | 26.97 | 67.51 | 80.56 | 27.80 |
D<sup>2</sup>RL | CVPR 2019 | 28.90 | 70.60 | 82.40 | 29.20 |
AlignGAN | ICCV 2019 | 42.40 | 85.00 | 93.70 | 40.70 |
CMGN | Neurocom2020 | 27.21 | 68.19 | 81.76 | 27.91 |
HC Loss | Neurocom2019 | 56.96 | 91.50 | 96.82 | 54.95 |
JSIA-ReID | AAAI 2020 | 38.10 | 80.70 | 89.90 | 36.90 |
XIV | AAAI 2020 | 49.92 | 89.79 | 95.96 | 50.73 |
Ours | 59.03 | 93.03 | 97.77 | 57.21 |
在RegDB数据集上做进一步评估了。如表2所示,本方法实现了 Rank-1准确率86.36%,Rank-10的准确率96.12%,以及mAP指标 76.10%的性能。
Methods | Publication | Rank-1 | Rank-10 | mAP |
HOG | CVPR 2005 | 13.49 | 33.22 | 10.31 |
LOMO | CVPR 2015 | 0.85 | 2.47 | 2.28 |
Two-stream | ICCV 2017 | 12.43 | 30.36 | 13.42 |
Zero-Padding | ICCV 2017 | 17.75 | 34.21 | 18.90 |
TONE | AAAI 2018 | 16.87 | 34.03 | 14.92 |
TONE+HCML | AAAI 2018 | 24.44 | 47.53 | 20.80 |
BCTR | IJCAI 2018 | 32.67 | 57.64 | 30.99 |
BDTR | IJCAI 2018 | 33.47 | 58.42 | 31.83 |
D<sup>2</sup>RL | CVPR 2019 | 43.40 | 66.10 | 44.10 |
AlignGAN | ICCV 2019 | 57.90 | -- | 53.60 |
CMGN | Neurocom2020 | 35.13 | 61.07 | 32.14 |
HC Loss | Neurocom2019 | 83.00 | -- | 72.00 |
JSIA-ReID | AAAI 2020 | 48.50 | -- | 49.30 |
XIV | AAAI 2020 | 62.21 | 83.13 | 60.18 |
Ours | 86.36 | 96.12 | 76.10 |
本发明提出了一种基于MLP-Mixer的跨模态行人重识别方法,采 用MLP-Mixer结构提取各模态图像特征,设计基于自注意力机制的学 习模块,用于学习共享特定的特征表示,并增强跨模态行人再识别任 务中异质模态的区分性局部特征表示。双路径局部信息结构有两个单 独的分支,其中包含一个可见流和一个红外流,用于提取模态共享特 征。该方法能够提取出具有鉴别能力的局部特征,并获得更好的性能, 形成最终的特征描述符。为了监督网络提取鉴别特征以缩小不同模式 的边缘,我们对交叉熵损失和异中心损失进行联合监督。所提出的方 法在两个标准数据集上得到了更高的表现。本发明提升了深度学习在 行人再识别领域的表现,使行人再识别技术可以更好地解决现实问题。 例如行人重识别技术可以帮助手机用户实现相册聚类、帮助零售或商 超经营者获取有效的顾客轨迹、挖掘商业价值。在现有数据集上提出 的有效方法,可以很好的移植到实际的数据集中,为行人的识别提供 了高效的方法,具有很强的实际应用价值。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式, 用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不 局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域 的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明 揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行 修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而 这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实 施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因 此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种基于MLP-Mixer的跨模态行人重识别方法,其特征在于,包括以下步骤:
采集行人可见光图像和行人红外图像;
基于所述行人可见光图像和所述行人红外图像,利用MLP-Mixer网络分别提取可见光模态人物特征和红外模态人物特征;
基于所述可见光模态人物特征和所述红外模态人物特征,利用基于位置的自注意力引导学习模型提取模态共享特征;
利用损失函数优化所述模态共享特征,获得异质模态的区分性局部特征表示,进行行人重识别。
2.根据权利要求1所述的基于MLP-Mixer的跨模态行人重识别方法,其特征在于,所述MLP-Mixer网络包括若干Mixer-Layer,所述Mixer-Layer相互堆叠。
3.根据权利要求2所述的基于MLP-Mixer的跨模态行人重识别方法,其特征在于,利用MLP-Mixer网络分别提取可见光模态人物特征和红外模态人物特征包括:
MLP-Mixer分别将所述行人可见光图像和所述行人红外图像切分为若干个可见光图像块和红外图像块;
将每个所述可见光图像块和所述红外图像块进行映射,获得对应的向量;
将多个同类所述向量组成矩阵;
将所述矩阵输入所述Mixer-Layer,获得所述Mixer-Layer的最终输出特征矩阵,即为可见光模态人物特征和红外模态人物特征。
4.根据权利要求2或3所述的基于MLP-Mixer的跨模态行人重识别方法,其特征在于,所述Mixer-Layer为:
U*,i=X*,i+W2·σ(W1·LN(X)*,i)
Yj,*=Uj,*+W4·σ(W3·LN(U)j,*)
其中,σ为Sigmoid函数,LN为层标准化函数,X为输入特征矩阵,W为网络参数矩阵,i、j分别表示特征矩阵两个维度的序号,U为一层Mixer-Layer结构计算的中间结果,Y为一层Mixer-Layer的输出结果。
5.根据权利要求1所述的基于MLP-Mixer的跨模态行人重识别方法,其特征在于,所述MLP-Mixer网络包括Channel-mixing MLPs和Token-mixing MLPs,其中,所述Channel-mixing MLPs用于学习不同的通道之间的交叉信息,所述Token-mixing MLPs用于学习不同图像块之间的交叉信息,所述Channel-mixing MLPs和所述Token-mixing MLPs交错叠加,并且利用层标准化机制和残差连接机制进行不同维度的信息交叉处理。
6.根据权利要求1所述的基于MLP-Mixer的跨模态行人重识别方法,其特征在于,所述利用基于位置的自注意力引导学习模型提取模态共享特征包括:将所述基于位置的自注意力引导学习模型设置在所述MLP-Mixer网络中,利用所述基于位置的自注意力引导学习模型,分别对所述可见光模态人物特征和所述红外模态人物特征进行局部特征提取,获得所述模态共享特征。
7.根据权利要求1所述的基于MLP-Mixer的跨模态行人重识别方法,其特征在于,所述损失函数包括交叉熵损失函数和异中心损失函数,其中,所述交叉熵损失函数用于对特定模态的特征进行分类,所述异中心损失函数用于进行跨模态约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210349736.4A CN115050044B (zh) | 2022-04-02 | 2022-04-02 | 一种基于MLP-Mixer的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210349736.4A CN115050044B (zh) | 2022-04-02 | 2022-04-02 | 一种基于MLP-Mixer的跨模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115050044A true CN115050044A (zh) | 2022-09-13 |
CN115050044B CN115050044B (zh) | 2023-06-23 |
Family
ID=83156940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210349736.4A Active CN115050044B (zh) | 2022-04-02 | 2022-04-02 | 一种基于MLP-Mixer的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115050044B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563584A (zh) * | 2023-07-10 | 2023-08-08 | 安徽启新明智科技有限公司 | 图像匹配方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259850A (zh) * | 2020-01-23 | 2020-06-09 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
CN112434796A (zh) * | 2020-12-09 | 2021-03-02 | 同济大学 | 一种基于局部信息学习的跨模态行人再识别方法 |
CN112818931A (zh) * | 2021-02-26 | 2021-05-18 | 中国矿业大学 | 基于多粒度深度特征融合的多尺度行人重识别方法 |
CN113743544A (zh) * | 2021-11-05 | 2021-12-03 | 中科智为科技(天津)有限公司 | 一种跨模态神经网络构建方法、行人检索方法及系统 |
CN114220124A (zh) * | 2021-12-16 | 2022-03-22 | 华南农业大学 | 一种近红外-可见光跨模态双流行人重识别方法及系统 |
-
2022
- 2022-04-02 CN CN202210349736.4A patent/CN115050044B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259850A (zh) * | 2020-01-23 | 2020-06-09 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
CN112434796A (zh) * | 2020-12-09 | 2021-03-02 | 同济大学 | 一种基于局部信息学习的跨模态行人再识别方法 |
CN112818931A (zh) * | 2021-02-26 | 2021-05-18 | 中国矿业大学 | 基于多粒度深度特征融合的多尺度行人重识别方法 |
CN113743544A (zh) * | 2021-11-05 | 2021-12-03 | 中科智为科技(天津)有限公司 | 一种跨模态神经网络构建方法、行人检索方法及系统 |
CN114220124A (zh) * | 2021-12-16 | 2022-03-22 | 华南农业大学 | 一种近红外-可见光跨模态双流行人重识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
SEUNG-HYUN KONG ET AL: ""GPS First Path Detection Network Based on MLP-Mixers"", 《IEEE》 * |
YONG WU ET AL: ""Position Attention-Guided Learning for Infrared-Visible Person Re-identification"", 《INTELLIGENT COMPUTING THEORIES AND APPLICATION》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563584A (zh) * | 2023-07-10 | 2023-08-08 | 安徽启新明智科技有限公司 | 图像匹配方法、装置及设备 |
CN116563584B (zh) * | 2023-07-10 | 2023-11-14 | 安徽启新明智科技有限公司 | 图像匹配方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115050044B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11195051B2 (en) | Method for person re-identification based on deep model with multi-loss fusion training strategy | |
Yan et al. | Learning context graph for person search | |
CN107506740B (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
Chang et al. | Rcaa: Relational context-aware agents for person search | |
CN111325115B (zh) | 带有三重约束损失的对抗跨模态行人重识别方法和系统 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Ye et al. | Human detection in images via piecewise linear support vector machines | |
Mo et al. | Vehicles detection in traffic flow | |
Wang et al. | S 3 d: scalable pedestrian detection via score scale surface discrimination | |
CN104050460B (zh) | 多特征融合的行人检测方法 | |
Fan | Research and realization of video target detection system based on deep learning | |
CN115063832A (zh) | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 | |
Yang et al. | Face recognition based on MTCNN and integrated application of FaceNet and LBP method | |
Yuan et al. | Learning discriminated and correlated patches for multi-view object detection using sparse coding | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
Rezatofighi et al. | Learn to predict sets using feed-forward neural networks | |
Villamizar et al. | Boosted random ferns for object detection | |
Jiang et al. | Human motion segmentation and recognition using machine vision for mechanical assembly operation | |
El‐Henawy et al. | Action recognition using fast HOG3D of integral videos and Smith–Waterman partial matching | |
Deng et al. | A deep multi-feature distance metric learning method for pedestrian re-identification | |
CN115050044B (zh) | 一种基于MLP-Mixer的跨模态行人重识别方法 | |
Peng | Combine color and shape in real-time detection of texture-less objects | |
Rodriguez-Serrano et al. | Data-driven detection of prominent objects | |
CN112446305A (zh) | 一种基于分类权重等距分布损失模型的行人重识别方法 | |
Wang et al. | Sture: Spatial–temporal mutual representation learning for robust data association in online multi-object tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |