CN115620342A - 跨模态行人重识别方法、系统及计算机 - Google Patents

跨模态行人重识别方法、系统及计算机 Download PDF

Info

Publication number
CN115620342A
CN115620342A CN202211328545.6A CN202211328545A CN115620342A CN 115620342 A CN115620342 A CN 115620342A CN 202211328545 A CN202211328545 A CN 202211328545A CN 115620342 A CN115620342 A CN 115620342A
Authority
CN
China
Prior art keywords
module
network
cross
capsule
capsule network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211328545.6A
Other languages
English (en)
Inventor
奚铮杰
刘晋
周宇杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202211328545.6A priority Critical patent/CN115620342A/zh
Publication of CN115620342A publication Critical patent/CN115620342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种跨模态行人重识别方法、系统及计算机,以解决传统行人重识别输入模态单一导致识别准确率低的问题。所述方法包括在深度学习框架下搭建胶囊网络模型,融入DenseNet代替胶囊网络中的卷积层、制作跨模态行人重识别数据集、在胶囊网络内部加入模态缓和模块、加入类内聚合模块和类间稀疏模块进行双约束、引入损失函数,并设计不同的评估指标,对模型结果进行消融实验等五个步骤。本发明使得模型可以适应不同模态下的数据对齐,并使用DenseNet替换卷积层提升性能;使用模态缓和模块提炼特征,提出了类内聚合模块和类间稀疏模块,提升了同一模态下相同对象的聚合程度,同时提升了同一模态下的不同对象的稀疏程度,降低了不同对象之间的干扰。

Description

跨模态行人重识别方法、系统及计算机
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种跨模态行人重识别方法、系统及计算机。
背景技术
随着社会信息化进程不断发展,我们的身边充斥着大量的摄像头,如何合理利用这些信息为社会提供服务成了新的热点。在不同的摄像头下进行人员的查找的问题称之为行人重识别。随着行人重识别技术的日渐成熟,其巨大的应用价值和市场潜力也得到了越来越多的关注。在公共安全领域,行人重识别不仅能够帮助定位可疑的、具有潜在危险的人员,还能够在老人小孩走失的情况下,进行快速查找,这对营造一个安全的社会环境有着至关重要的作用;在新零售领域,商家可以通过行人重识别技术获取顾客的行为轨迹,进而获得其数字化信息,挖掘更多的商业价值。
计算机视觉根据其主要任务由粗到细可以分为:图像级别的图像分类(imageclassification),物体级别的目标检测(object detection),以及像素级别的语义分割(semantic segmentation)。它们的具体含义分别为识别图中存在何种物体,给出图中存在物体的位置和边界,和确定图中每个像素属于何种物体。在计算机视觉领域,卷积神经网络是网络模型主要的特征提取网络,但是卷积神经网络训练难,过深的层次会使得网络梯度消失或者梯度爆炸。在目标检测领域,目标检测网络还有其他变体,例如使用胶囊网络使得网络具有推理能力并且输出向量。但是胶囊网络的主要应用下需要分类的数目一般为数十个,例如CIFAR10等数据集,在自然语言处理(NLP)领域中的分类预测也只有几个类别。在RegDB和SYSU数据集中,需要分类和学习的对象数量为几百个,部分行人之间有较高的重叠度,在大量人员下的特征学习是否符合预期是一个挑战。
综上所述,当前的行人检测方法仅针对单一的可见模态模块开发,跨模态特征无法对齐、存在模态内数据特征差异的问题,这限制了实际监视中的适用性。
发明内容
由于现有技术存在上述缺陷,本发明提供了一种基于双约束胶囊网络的跨模态行人重识别方法,以解决传统行人重识别输入模态单一导致识别准确率低的问题。
为实现上述目的,一方面,本发明提供一种基于双约束胶囊网络的跨模态行人重识别方法,其特征在于,包括以下步骤:
S1、在深度学习框架下搭建胶囊网络模型,融入DenseNet代替胶囊网络中的卷积层,实现通用分类模型;
S2、制作跨模态行人重识别数据集,使用跨模态行人重识别的两个主要数据集,得到数据集训练样本;
S3、引入细节增强模块:在胶囊网络内部加入模态缓和模块;
S4、固定步骤S3中模态缓和模块模型的结果,并在此基础上加入类内聚合模块(CAM)和类间稀疏模块(ISM)进行双约束;
S5、引入损失函数,并设计不同的评估指标,对模型结果进行消融实验验证其有效性。
所述行人重识别方法利用了胶囊网络使用向量代替标量进行处理数据的优势,使得模型可以适应不同模态下的数据对齐问题,并使用DenseNet替换胶囊网络的卷积层提升性能;使用模态缓和模块提炼特征,然后将这些特征送入胶囊网络中以向量的形式进行传递,通过路由机制获取目标对象;提出了类内聚合模块和类间稀疏模块,类内聚合模块有效的提升了同一模态下相同对象的聚合程度,将他们在空间中的表示更加紧密;同时,类间稀疏模块提升了同一模态下的不同对象的稀疏程度,降低了不同对象之间的干扰。所述方法有效地解决了目前主要存在的特征对齐问题和模态内特征稠密的问题,从而提升跨模态行人重识别的准确率。
优选地,所述步骤S1包括以下处理:将所述胶囊网络中的卷积层删除,使用DenseNet代替;所述DenseNet保留了低维度的特征,所述胶囊网络使得特征向量具有方向性。利用DenseNet更强的梯度流动能力、更少的参数计算使得模型的效率更高,同时DenseNet保留了低维度的特征,可以更好地提取特征,改进后的动态路由得到更好的分类效果。胶囊网络使得特征向量具有方向性,通过使用不同的方向来表示图片特征所处的模态,用特征向量的长度来表示对象,因此相比于原始的特征映射对不上的问题,可以更好的表示人员在不同模态下的信息,也可以更好的解释不同模态下的特征之间的关系。
优选地,所述步骤S3包括以下处理:
对于一个给定的输入图片x,假设通过卷积层获取到的特征为
Figure BDA0003910535190000031
其中h、w、c分别是它的高、宽、特征维数;使用的通道注意力模块可以用如下公式表述:
Figure BDA0003910535190000032
其中mc是通道注意力的掩膜;
Figure BDA0003910535190000041
是输入Z的归一化结果。输出F的结构与输入Z相同。然后我们生成一个通道注意力掩膜mc,mc的表达式如下:
mc=σ(W2σ(W1g(Z)))#
其中g(·)表示全局平均池化,δ表示ReLU激活函数,σ表示sigmoid激活函数,W1和W2分别是两个可学习的参数。W1和W2在两个无偏置的全连接层中,其中
Figure BDA0003910535190000042
参数实例归一化被定义为
Figure BDA0003910535190000043
公式如下:
Figure BDA0003910535190000044
其中
Figure BDA0003910535190000045
表示特征Z的第k维度,∈是为了避免被0除,每个维度计算均值E[·]和标准差Var[·]。
优选地,所述步骤S5中,选取交叉熵作为损失函数;损失函数定义为:
Figure BDA0003910535190000046
其中,γ1、γ2和γ3是分别用于平衡胶囊网络、类间稀疏模块和类内聚合模块之间贡献率的权重,
Figure BDA0003910535190000047
Figure BDA0003910535190000048
分别表示平衡胶囊网络、类间稀疏模块和类内聚合模块的损失。ISM和CAM都被用来增强特征提取的性能,这些学习性能好的特征将被高效用于向量网络层中。
优选地,所述步骤S4包括以下处理:
挤压激励网络紧跟胶囊网络的输出
Figure BDA0003910535190000049
胶囊网络通过卷积算子核心构造快使网络通过各层局部感受野构造空间和信道的信息特征;通过显示地构造模型通道之间的相互依赖性,自适应校准通道的特征相应,以改善胶囊网络的性能。
优选地,所述步骤S4中所述类内聚合模态通过在胶囊网络的输出
Figure BDA00039105351900000410
上使用神经符号认知代理模型(NSCA)来提高主干网的鉴别能力。此特征可突出
Figure BDA0003910535190000051
的信息特征,并抑制无用的特征。
优选地,所述步骤S4中所述类间稀疏模块在主干网上,使用全局平均池化来输出反馈,从而获得图像
Figure BDA0003910535190000052
的胶囊网络输入表示
Figure BDA0003910535190000053
Figure BDA0003910535190000054
其中H和W分别表示
Figure BDA0003910535190000055
的高和宽。
优选地,所述类间稀疏模块增强胶囊网络输出的泛化能力是通过Dropout机制使得
Figure BDA0003910535190000056
成为一个稀疏表示。众所周知,Dropout机制通过随机剔除神经元,证明了其防止CNN过拟合的有效性。
Figure BDA0003910535190000057
的泛化能力通过反向传播转移到提升整个网络鲁棒性的
Figure BDA0003910535190000058
中,从而影响整个网络的学习能力。
另一方面,本发明提供一种跨模态行人重识别系统,其特征在于,用以实现上述的跨模态行人重识别方法,包括DenseNet代替卷积层的胶囊网络、胶囊网络内部加入的模态缓和模块、对所述胶囊网络进行双约束的类内聚合模块和类间稀疏模块。
再一方面,本发明提供一种计算机终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器调用所述存储器存储的计算机程序,执行上述的跨模态行人重识别方法。
与现有技术相比,上述发明具有如下优点或者有益效果:
(1)利用DenseNet更强的梯度流动能力、更少的参数计算使得模型的效率更高,同时DenseNet保留了低维度的特征,可以更好地提取特征,改进后的动态路由得到更好的分类效果;
(2)胶囊网络通过使用不同的方向来表示图片特征所处的模态,用特征向量的长度来表示对象,相比于原始的特征映射对不上的问题,可以更好的表示人员在不同模态下的信息,也可以更好的解释不同模态下的特征之间的关系,使得模型可以适应不同模态下的数据对齐;
(3)通过构造类内特征聚合模块和类间特征稀疏模块,提出了一种基于双约束胶囊网络的跨模态行人重识别方法和模型,可以将模态内同一人员的特征聚合于空间中的更小区域,不同人员的特征稀疏于空间分布,使得模型的特征对齐能力得到提升,准确率得到了进一步的提升。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未可以按照比例绘制附图,重点在于示出本发明的主旨。
图1为本发明的跨模态行人重识别方法的流程图;
图2为本发明实施例中胶囊网络的网络结构图;
图3为本发明实施例中模态缓和模块的胶囊网络结构图;
图4为本发明实施例中挤压激励网络的结构图;
图5为本发明实施例的消融实验示意图;
图6为本发明实施例的Loss图。
具体实施方式
下面结合附图和具体的实施例对本发明中的结构作进一步的说明,但是不作为本发明的限定。
一种基于双约束胶囊网络的跨模态行人重识别方法,包括以下步骤:
S1、在深度学习框架下搭建胶囊网络模型,融入DenseNet代替胶囊网络中的卷积层,实现通用分类模型;所述深度学习框架可以是Pytorch深度学习框架。
S2、制作跨模态行人重识别数据集,使用跨模态行人重识别的两个主要数据集,得到数据集训练样本;所述数据集可以是数据集RegDB和SYSU-MM01。
S3、引入细节增强模块:在胶囊网络内部加入模态缓和模块;
S4、固定步骤S3中模态缓和模块模型的结果,并在此基础上加入类内聚合模块CAM和类间稀疏模块ISM进行双约束;
S5、引入损失函数,并设计不同的评估指标,对模型结果进行消融实验验证其有效性。
如图1所示,跨模态行人重识别模型可以分为三个部分:(1)特征提取与胶囊网络分类模块,主要是提取图像的特征,并对提取出的特征在不同模态上进行分类;(2)类内特征聚合模块CAM,将不同模态中的同一人的特征聚合到空间中的邻近位置;(3)类间特征稀疏模块ISM,将不同模态中的不同人的特征在特征空间中稀疏表示。
参见图2,胶囊网络的基本思路为使用不同层级的胶囊对图片进行层次划分,使胶囊具有一定的推理能力。对于输入图像,进行卷积操作得到卷积层,并将其作为向量输入到胶囊网络中。胶囊网络分为两层,分别是主胶囊层和数字胶囊层,主胶囊层是数字胶囊层的基础,通过投票机制将更有用的胶囊路由到更上一层的数字胶囊层。具体来说,首先是矩阵乘法,通过矩阵W来映射下层胶囊与上层胶囊的对应关系。通过加权相加,衡量下层特征胶囊对上层特征胶囊的重要程度。更新参数权重时,通过计算低层特征与输出特征的相似度,乘积为正,权重增加,乘积为负,权重减少。最后,将输出的结果通过squash非线性变化函数得到输出胶囊。所述步骤S1包括以下处理:将所述胶囊网络中的卷积层删除,使用DenseNet代替;所述DenseNet保留了低维度的特征,所述胶囊网络使得特征向量具有方向性。利用DenseNet更强的梯度流动能力、更少的参数计算使得模型的效率更高,同时DenseNet保留了低维度的特征,可以更好地提取特征,改进后的动态路由得到更好的分类效果。胶囊网络使得特征向量具有方向性,通过使用不同的方向来表示图片特征所处的模态,用特征向量的长度来表示对象,因此相比于原始的特征映射对不上的问题,可以更好的表示人员在不同模态下的信息,也可以更好的解释不同模态下的特征之间的关系。
参见图3,所述胶囊网络可在客户端运行,主要由三部分组成:1、视觉提取模块:使用DenseNet训练的模型来提取低维度的特征信息,并将这些特征信息传入胶囊网络中以丰富人物信息和模态信息。这一部分与胶囊网络通过CNN网络来提取视觉信息并喂入胶囊网络相似。2、人物与模态提取信息:我们使用胶囊层来感知图形的人物信息和模态信息。人物信息主要由每个VN的长度来感知,而模态信息由VN的方向决定。3、模态缓和模块:使用通道注意力机制,提升模型对于不同模态特征的注意力,关注更为重要的特征信息。为了获取不同模态下的特征信息,我们使用了两种不同的胶囊层,一个主胶囊层和一个分类胶囊层。两种网络都被提出用于识别数字,但我们修改了两个网络层的参数设置为了适应人员重识别的任务和基于ImageNet预训练的DenseNet结构。特别来说,对于给定的
Figure BDA0003910535190000081
8个32通道的卷积操作被用于构建主胶囊。此外,重构操作被用于连接各个模块在主胶囊中相对应的通道。在此之后,我们在主胶囊层中获得了288个8维向量胶囊。
对于一个给定的输入图片x,假设通过卷积层获取到的特征为
Figure BDA0003910535190000082
其中h、w、c分别是它的高、宽、特征维数;使用的通道注意力模块可以用如下公式表述:
Figure BDA0003910535190000083
其中mc是通道注意力的掩膜;
Figure BDA0003910535190000091
是输入Z的归一化结果。输出F的结构与输入Z相同。然后我们生成一个通道注意力掩膜mc,mc的表达式如下:
mc=σ(W2σ(W1g(Z)))#
其中g(·)表示全局平均池化,δ表示ReLU激活函数,σ表示sigmoid激活函数,W1和W2分别是两个可学习的参数。W1和W2在两个无偏置的全连接层中,其中
Figure BDA0003910535190000092
为了平衡性能与复杂度,我们将维度r设置为16。
参数实例归一化被定义为
Figure BDA0003910535190000093
公式如下:
Figure BDA0003910535190000094
其中
Figure BDA0003910535190000095
表示特征Z的第k维度,∈是为了避免被0除,每个维度计算均值E[·]和标准差Var[·]。
相比ResNet,使用基于ImageNet预训练的DenseNet结构,具有更激进的密集连接机制:即互相连接所有的层,具体来说就是每个层都会接受其前面所有层作为其额外的输入。DenseNet中,每个层都会与前面所有层在channel维度上concat在一起并作为下一层的输入,这可以实现特征重用,提升效率。在DenseBlock中,各个层的特征图大小一致,可以在channel维度上连接。DenseBlock中的非线性组合函数H(·)采用的是BN+ReLU+3x3 Conv的结构,所有DenseBlock中各个层卷积之后均输出k个特征图,即得到的特征图的channel数为k。
我们使用的DenseNet有三个密集块,每个块都有相等数量的层。在进入第一个密集块之前,对输入图像执行16个输出通道的卷积。对于内核大小为3×3的卷积层,输入的每一侧都被零填充一个像素,以保持特征图大小不变。我们使用1×1卷积和2×2平均池作为两个相邻致密块之间的过渡层。在最后一个密集块的末尾,执行全局平均池,然后附加softmax分类器。三个密集区块的特征图大小分别为32×32、16×16和8×8。我们选择了Densenet-121作为本实验的骨干网络,我们将骨干网络的输出表示为
Figure BDA0003910535190000101
最终,使用非线性压缩函数来确保每个VN胶囊的长度被归一化:其中
Figure BDA0003910535190000102
表示主胶囊层中第k个8维的向量胶囊。k∈[1,288]。
Figure BDA0003910535190000103
主胶囊层之后是分类胶囊层。该层包括N个人员胶囊,其中N表示人员在训练集中的数量。分类胶囊层中的人员胶囊链接了在主胶囊层中的所有向量胶囊。对于给定的在主胶囊层中的一个8维向量胶囊
Figure BDA0003910535190000104
首先通过如下公式将其维度映射到24维:其中
Figure BDA0003910535190000105
是权重矩阵,
Figure BDA0003910535190000106
是一个映射后的24维向量胶囊。分类胶囊层中的人员胶囊
Figure BDA0003910535190000107
可以被表述成如下的形式:
Figure BDA0003910535190000108
Figure BDA0003910535190000109
其中n∈[1,N],
Figure BDA00039105351900001010
表示耦合系数,该系数由主胶囊层和分类胶囊层之间的协议路由(R-by-A)过程确定。此外,所有
Figure BDA00039105351900001011
都被压缩函数归一化了。
R-by-A过程是建立在主胶囊层和分类胶囊层之间的关键技术。不同的是R-by-A过程的迭代次数由3次提升到5次,在实验中,我们发现5次迭代可以获得更好的重识别精度。
路由过程包括两层,即输入胶囊与输出胶囊,输入的胶囊由提取的特征进行表示,对于输出胶囊,每个输入胶囊Ωin都是一个有限制的投票向量,这些投票向量表示有多少信息从这个输入单元转换到相应的输出单元。他们之间的比例是基于投票向量和输出包之间的协议迭代更新的。对于给定的N个输出胶囊,每个输入胶囊分别支持N个投票向量,该过程可以被如下表示:
Figure BDA0003910535190000111
Figure BDA0003910535190000112
对于给定的图片输入
Figure BDA0003910535190000113
我们使用Margin损失来表示行人存在的可能性:
Figure BDA0003910535190000114
其中yn表示对于输入图片
Figure BDA0003910535190000115
行人存在的可能性;如果
Figure BDA0003910535190000116
输入行人n,则yn=1否则,yn=0,λ=0.5用于平衡
Figure BDA0003910535190000117
中两部分Loss的权重;m+和m-用于控制
Figure BDA0003910535190000118
的长度,如果人员在图片中存在,则期待
Figure BDA0003910535190000119
的长度更长,否则更短。我们设置
Figure BDA00039105351900001110
参见图4,挤压激励网络通过显示地构造模型通道之间的相互依赖性,自适应校准通道的特征相应,以改善网络的性能。挤压激励网络SE block的结构由两部分组成,其一是全局平均池化产生1*1*C大小的特征图;其二是生成两个全连接层,中间维度有缩减来产生每个通道的权重。c×h×w挤压激励网络方法中的维度缩减不利于通道注意力的特征学习。
参见图1,在类内聚合模块机制中,我们的目标是通过在
Figure BDA0003910535190000121
上使用NSCA来提高主干网的鉴别能力,通过该机制,我们能突出
Figure BDA0003910535190000122
的信息特征,并抑制无用的特征。这是基于CNN的结构和胶囊层之间的关键链接。此时,让Densenet网络学习到的先验知识输入胶囊模块中时,我们可以更有效地使用这些知识。我们首先在
Figure BDA0003910535190000123
后使用全局平均池化来获得
Figure BDA0003910535190000124
然后我们将
Figure BDA0003910535190000125
通过NSCA模块自适应的学习kernel的大小。
Figure BDA0003910535190000126
最终权重块通过将
Figure BDA0003910535190000127
Figure BDA0003910535190000128
缩放得到。其中
Figure BDA0003910535190000129
表示
Figure BDA00039105351900001210
Figure BDA00039105351900001211
之间的通道乘积。在类内聚合模块的全连接层后面使用分别使用ReLU和Sigmoid激活函数。最终,我们使用交叉熵损失函数在ISM和CAM分支后面用于在训练集上学习分类。
类间稀疏模块在主干网上,使用全局平均池化来输出反馈,来获得图像
Figure BDA00039105351900001212
的CNN输入表示
Figure BDA00039105351900001213
其中H和W分别表示
Figure BDA00039105351900001214
的高和宽,H=7,W=7。
Figure BDA00039105351900001215
在ISM机制中,我们期待增强CNN输出的泛化能力,从而影响整个网络的学习能力。众所周知,Dropout机制通过随机剔除神经元,证明了其防止CNN过拟合的有效性。我们通过Dropout机制使得
Figure BDA00039105351900001216
成为一个稀疏表示。
Figure BDA00039105351900001217
的泛化能力通过反向传播转移到提升整个网络鲁棒性的
Figure BDA00039105351900001218
中。在类间稀疏模块中,我们设置dropout为0.75。
损失函数定义如下:
Figure BDA00039105351900001219
其中γ1、γ2和γ3是分别用于平衡胶囊网络和辅助模块之间贡献率的权重,胶囊网络层、两个辅助模块ISM和CAM的loss分别表示为
Figure BDA0003910535190000131
Figure BDA0003910535190000132
ISM和CAM都是用来增强特征提取的性能的。这些学习性能好的特征将被高效用于向量网络层中。
表1、表2和表3分别为胶囊网络不同迭代次数和不同辅助网络的结果对比、胶囊网络和传统网络结果对比表和胶囊网络中模态缓和机制的消融对比结果。参见图5、图6和表1~3,跨模态行人重识别胶囊网络经过ISM和CAM双约束的准确度明显提高;跨模态行人重识别胶囊网络在迭代1次和10次的输出结果准确度明显高于传统网络;胶囊网络中引入模态缓和机制能在一定程度上提高网络输出准确度。
表1胶囊网络不同迭代次数和不同辅助网络的结果对比
Figure BDA0003910535190000133
表2胶囊网络和传统网络结果对比表
Figure BDA0003910535190000134
表3胶囊网络中模态缓和机制的消融对比结果
Figure BDA0003910535190000135
Figure BDA0003910535190000141
本发明实施例还提供一种跨模态行人重识别系统,用以实现上述的跨模态行人重识别方法,包括DenseNet代替卷积层的胶囊网络、胶囊网络内部加入的模态缓和模块、对所述胶囊网络进行双约束的类内聚合模块和类间稀疏模块。
本发明实施例还提供一种计算机终端,所述计算机终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序。所述处理器调用所述存储器存储的计算机程序,执行本发明实施例提供的跨模态行人重识别方法及其模型。
综上,本发明提供了一种跨模态行人重识别方法、系统及计算机,以解决传统行人重识别输入模态单一导致识别准确率低的问题。所述方法包括在深度学习框架下搭建胶囊网络模型,融入DenseNet代替胶囊网络中的卷积层、制作跨模态行人重识别数据集、在胶囊网络内部加入模态缓和模块、加入类内聚合模块CAM和类间稀疏模块ISM进行双约束、引入损失函数,并设计不同的评估指标,对模型结果进行消融实验等五个步骤。本发明使得模型可以适应不同模态下的数据对齐,并使用DenseNet替换卷积层提升性能;使用模态缓和模块提炼特征,提出了类内聚合模块和类间稀疏模块,提升了同一模态下相同对象的聚合程度,同时提升了同一模态下的不同对象的稀疏程度,降低了不同对象之间的干扰。
本领域技术人员应该理解,本领域技术人员在结合现有技术以及上述实施例可以实现变化例,在此不做赘述。这样的变化例并不影响本发明的实质内容,在此不予赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种跨模态行人重识别方法,其特征在于,包括以下步骤:
S1、在深度学习框架下搭建胶囊网络模型,融入DenseNet代替胶囊网络中的卷积层,实现通用分类模型;
S2、制作跨模态行人重识别数据集,使用跨模态行人重识别的两个主要数据集,得到数据集训练样本;
S3、引入细节增强模块:在胶囊网络内部加入模态缓和模块;
S4、固定步骤S3中模态缓和模块模型的结果,并在此基础上加入类内聚合模块和类间稀疏模块进行双约束;
S5、引入损失函数,并设计不同的评估指标,对模型结果进行消融实验验证其有效性。
2.根据权利要求1所述的一种跨模态行人重识别方法,其特征在于,所述步骤S1包括以下处理:将所述胶囊网络中的卷积层删除,使用DenseNet代替;所述DenseNet保留了低维度的特征,所述胶囊网络使得特征向量具有方向性。
3.根据权利要求1所述的一种跨模态行人重识别方法,其特征在于,所述步骤S3包括以下处理:
对于一个给定的输入图片x,假设通过卷积层获取到的特征为
Figure FDA0003910535180000011
其中h、w、c分别是它的高、宽、特征维数;使用的通道注意力模块可以用如下公式表述:
Figure FDA0003910535180000012
其中mc是通道注意力的掩膜;
Figure FDA0003910535180000013
是输入Z的归一化结果。输出F的结构与输入Z相同。然后我们生成一个通道注意力掩膜mc,mc的表达式如下:
mc=σ(W2δ(W1g(Z)))#
其中g(·)表示全局平均池化,δ表示ReLU激活函数,σ表示sigmoid激活函数,W1和W2分别是两个可学习的参数。W1和W2在两个无偏置的全连接层中,其中
Figure FDA0003910535180000021
参数实例归一化被定义为
Figure FDA0003910535180000022
公式如下:
Figure FDA0003910535180000023
其中
Figure FDA0003910535180000024
表示特征Z的第k维度,∈是为了避免被0除,每个维度计算均值E[·]和标准差Var[·]。
4.根据权利要求1所述的一种跨模态行人重识别方法,其特征在于,所述步骤S5中,选取交叉熵作为损失函数;损失函数定义为:
Figure FDA0003910535180000025
其中,γ1、γ2和γ3是分别用于平衡胶囊网络、类间稀疏模块和类内聚合模块之间贡献率的权重,
Figure FDA0003910535180000026
Figure FDA0003910535180000027
分别表示平衡胶囊网络、类间稀疏模块和类内聚合模块的损失。
5.根据权利要求1所述的一种跨模态行人重识别方法,其特征在于,所述步骤S4包括以下处理:
挤压激励网络紧跟胶囊网络的输出
Figure FDA0003910535180000028
胶囊网络通过卷积算子核心构造快使网络通过各层局部感受野构造空间和信道的信息特征;通过显示地构造模型通道之间的相互依赖性,自适应校准通道的特征相应,以改善胶囊网络的性能。
6.根据权利要求5所述的一种跨模态行人重识别方法,其特征在于,所述步骤S4中所述类内聚合模态通过在胶囊网络的输出
Figure FDA0003910535180000031
上使用神经符号认知代理模型来提高主干网的鉴别能力。
7.根据权利要求1或5所述的一种跨模态行人重识别方法,其特征在于,所述步骤S4中所述类间稀疏模块在主干网上,使用全局平均池化来输出反馈,从而获得图像
Figure FDA0003910535180000032
的胶囊网络输入表示
Figure FDA0003910535180000033
8.根据权利要求7所述的一种跨模态行人重识别方法,其特征在于,所述类间稀疏模块增强胶囊网络输出的泛化能力是通过Dropout机制使得
Figure FDA0003910535180000034
成为一个稀疏表示,
Figure FDA0003910535180000035
的泛化能力通过反向传播转移到提升整个网络鲁棒性的
Figure FDA0003910535180000036
中,从而影响整个网络的学习能力。
9.一种跨模态行人重识别系统,其特征在于,用以实现权利要求1至8任一项所述的跨模态行人重识别方法,包括DenseNet代替卷积层的胶囊网络、胶囊网络内部加入的模态缓和模块、对所述胶囊网络进行双约束的类内聚合模块和类间稀疏模块。
10.一种计算机终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器调用所述存储器存储的计算机程序,执行权利要求1至8任一项所述的跨模态行人重识别方法。
CN202211328545.6A 2022-10-26 2022-10-26 跨模态行人重识别方法、系统及计算机 Pending CN115620342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211328545.6A CN115620342A (zh) 2022-10-26 2022-10-26 跨模态行人重识别方法、系统及计算机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211328545.6A CN115620342A (zh) 2022-10-26 2022-10-26 跨模态行人重识别方法、系统及计算机

Publications (1)

Publication Number Publication Date
CN115620342A true CN115620342A (zh) 2023-01-17

Family

ID=84875977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211328545.6A Pending CN115620342A (zh) 2022-10-26 2022-10-26 跨模态行人重识别方法、系统及计算机

Country Status (1)

Country Link
CN (1) CN115620342A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311387A (zh) * 2023-05-25 2023-06-23 浙江工业大学 一种基于特征交集的跨模态行人重识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311387A (zh) * 2023-05-25 2023-06-23 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN116311387B (zh) * 2023-05-25 2023-09-01 浙江工业大学 一种基于特征交集的跨模态行人重识别方法

Similar Documents

Publication Publication Date Title
Thai et al. Image classification using support vector machine and artificial neural network
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
WO2021218471A1 (zh) 一种用于图像处理的神经网络以及相关设备
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成系统及方法
CN111460818B (zh) 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN109377532B (zh) 基于神经网络的图像处理方法及装置
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112861945B (zh) 一种多模态融合谎言检测方法
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN111325319A (zh) 一种神经网络模型的检测方法、装置、设备及存储介质
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN115221846A (zh) 一种数据处理方法及相关设备
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN114419351A (zh) 图文预训练模型训练、图文预测模型训练方法和装置
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN113537110A (zh) 一种融合帧内帧间差异的虚假视频检测方法
CN115222998A (zh) 一种图像分类方法
Wang et al. Suspect multifocus image fusion based on sparse denoising autoencoder neural network for police multimodal big data analysis
CN115620342A (zh) 跨模态行人重识别方法、系统及计算机
US11948090B2 (en) Method and apparatus for video coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination