CN115376159A - 一种基于多模态信息的跨外观行人重识别方法 - Google Patents

一种基于多模态信息的跨外观行人重识别方法 Download PDF

Info

Publication number
CN115376159A
CN115376159A CN202210820445.9A CN202210820445A CN115376159A CN 115376159 A CN115376159 A CN 115376159A CN 202210820445 A CN202210820445 A CN 202210820445A CN 115376159 A CN115376159 A CN 115376159A
Authority
CN
China
Prior art keywords
pedestrian
dimensional
image
semantic
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210820445.9A
Other languages
English (en)
Inventor
王恺
马志
刘蒙蒙
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202210820445.9A priority Critical patent/CN115376159A/zh
Publication of CN115376159A publication Critical patent/CN115376159A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Abstract

本发明提供了一种基于多模态信息的跨外观行人重识别方法,包括以下步骤:预处理跨外观行人重识别数据集;从视觉图像中获取行人的轮廓图像与部件语义图像;利用网络模型提取特征矩阵;将三个特征矩阵拼接为融合特征矩阵;对四个特征矩阵,分别进行池化下采样获取特征;再分别使用批次归一化和全连接层获取分类特征;计算损失;损失层梯度反向传播,更新网络模型及其全连接层的权值参数;重复上述步骤,直至网络模型收敛,或者达到最大迭代次数;使用融合推理特征作为行人特征表示进行检索,融合推理特征由融合特征采用批次归一化获取。本发明有效地缓解了网络过于关注行人外观信息的问题,提升了跨外观行人重识别模型的检索性能。

Description

一种基于多模态信息的跨外观行人重识别方法
技术领域
本发明属于神经网络技术领域,特别涉及一种基于多模态信息的跨外观行人重识别方法。
背景技术
行人重识别,也称为行人检索,其目标是解决跨时间、跨摄像头、跨场景的行人匹配问题。当给定一个感兴趣的行人目标之后,理想的行人重识别系统应该识别出不同时间、不同地点、不同设备中再次出现的该目标行人。现有的行人重识别任务主要集中于短时间内的同外观行人重识别,具备衣着、配饰等外观变化的长时间、跨外观行人重识别相关方法严重缺乏。事实上,跨外观行人重识别的应用极为普遍:长时间走失人员的对比识别、顾客的商业行为分析等。
目前监控环境中采集的跨外观行人重识别公开数据集主要包含NKUP+和PRCC,分别包含40217和33698张行人图像。而对于跨外观行人重识别研究,其中一部分工作专注于研究行人图像中不同部位之间的关联,如人脸、上衣、裤子等,通过调节不同部位局部特征与全局特征的特征融合形成鲁棒的跨外观特征,其典型方法比如CCAN、2S-IDE、3APF等。另一部分工作则尝试在网络中引入对外观变化鲁棒的轮廓、姿态等先验信息,其典型方法有SPT、FSAM等。如SPT算法通过将行人的轮廓图以人体中心为原点,从笛卡尔坐标系采样并转换到极坐标系中以获取更加精细的轮廓特征,最后加之ASE注意力机制就获得了较为完整鲁棒的行人身份特征。现有的行人重识别模型往往将注意力集中于衣着颜色、纹理等行人外观信息,模型的识别能力不够理想。
发明内容
本发明针对现有技术中存在的技术问题,提供一种基于多模态信息的跨外观行人重识别方法,通过降低模型对传统特征的依赖性来提升跨外观行人的可辨识度,并在网络中引入了经预训练网络提取的行人边缘和部件语义先验信息,三种不同模态的信息使得模型综合学习了视觉图像中的细节信息和对外观鲁棒的高层语义信息,有效地缓解了网络过于关注行人外观信息的问题,提升了跨外观行人重识别模型的检索性能。
本发明采用的技术方案是:一种基于多模态信息的跨外观行人重识别方法,包括以下步骤:
步骤1:利用数据增强策略预处理跨外观行人重识别数据集;数据增强策略包含:缩放、随机水平翻转、填充、随机裁切、减均值除方差和随机擦除。
步骤2:使用经过公开数据集预训练的轮廓识别网络和语义分割网络分别从预处理过的图像中获取行人的轮廓图像与部件语义图像。
使用预训练的轮廓识别网络和语义分割网络分别从预处理过的行人的视觉图像中分别提取出轮廓图像和部件语义图像,三种不同模态的图像均使用RGB彩色图像进行表示。
步骤3:利用三个非共享权重的轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型分别对应从轮廓图像、视觉图像和部件语义图像提取出行人的高维轮廓特征矩阵、高维视觉特征矩阵和高维语义特征矩阵。表现为将数据输入特征提取网络模型,获取网络模型分类层之前输出的特征图。
步骤4:将高维轮廓特征矩阵、高维视觉特征矩阵、高维语义特征矩阵拼接为融合特征矩阵。使用拼接(Concatenate)的方式对不同模态信息的特征进行融合,在没有添加诸如注意力机制等方法所需的额外参数以及训练时间的同时,即可融合不同模态特征在不同侧重方向的检索特点,综合提升模型的跨外观检索能力。
融合特征矩阵融合了多种对外观变化鲁棒的先验信息。对于长时间、跨外观的行人重识别问题而言,往往由于视觉图像中关于衣着、配饰等外观敏感的信息过多导致跨外观行人匹配失败。而行人的轮廓信息实际主要表现为行人的边缘信息,由于行人的体态一般不会发生剧烈变化,因此具有一定的鲁棒性。同时,人体部件语义信息可以获取细粒度的行人区域信息,以避免颜色、问题对提取跨外观行人特征的影响。本发明中综合考虑了图像中对行人外观变化鲁棒的轮廓和部件语义等先验知识,并改进了以往网络中仅使用单一视觉模态信息的问题,使得网络端到端地学习三种不同模态特征之间的关联性,提升跨外观的行人检索效果。
步骤5:对高维轮廓特征矩阵、高维视觉特征矩阵、高维语义特征矩阵和融合特征矩阵,分别进行池化下采样获取高维轮廓特征、高维视觉特征、高维语义特征和融合特征;使用广义均值池化对不同模态及其融合特征进行下采样操作,其融合了最大池化与平均池化的优点,使模型得以在不同模态图像中聚焦于显著特征,提升模型的检索效果。
步骤6:对高维轮廓特征、高维视觉特征、高维语义特征和融合特征,分别使用批次归一化和全连接层获取高维轮廓分类特征、高维视觉分类特征、高维语义分类特征和融合分类特征。
步骤7:分别计算高维轮廓特征、高维视觉特征、高维语义特征和融合特征的最难三元损失,再分别计算高维轮廓分类特征、高维视觉分类特征、高维语义分类特征和融合分类特征的身份分类损失,然后加权求和得到总损失。
其中,最难三元损失:
Figure BDA0003744097780000031
其中,α表示间隔参数,D表示距离度量,
Figure BDA0003744097780000032
表示批次中第p个人的第k张图像
Figure BDA0003744097780000033
的高维特征,1≤p≤P,1≤k≤K,p′为第p′个人的,k′为第k′张图像;
身份分类损失:
Figure BDA0003744097780000034
其中xi、yi分别表示图像及其身份类别,p(yI|xi)表示图像xi被模型识别为身份类别yi的概率,1≤i≤N。
多模态网络模型端到端地计算视觉、轮廓、部件语义、融合特征各个分支的损失,其中每一个分支均计算最难三元损失和身份分类损失。分支损失:
L=λ1LHardTri2LID
其中,λ1和λ2分别表示最难三元损失和身份分类损失的权重参数;λ1和λ2均为1.0。
总损失为轮廓、视觉、部件语义和融合特征的四个分支损失的和。
对行人的高维视觉、轮廓、部件语义特征和融合特征均计算行人身份分类损失和度量学习损失,从而强化损失函数对于不同分支特征的指导学习,使得每一种分支特征均具有一定的表征能力,并最终提升融合特征的鲁棒检索效果。
步骤8:损失层梯度反向传播,更新三个不共享权重的轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型及其全连接层的权值参数。轮廓识别网络和语义分割网络不参与权重更新。
步骤9:重复步骤2-8,直至轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型收敛,或者达到最大迭代次数,完成模型训练。
步骤10:查询图像和图库图像输入完成训练的模型中,使用融合推理特征作为行人特征表示进行检索,融合推理特征由融合特征使用批次归一化获取。完成行人重识别的评测和可视化,并计算前1、5、10位命中率(Rank1、Rank5、Rank10)和平均检索精度mAP,证明多模态信息对行人检索的促进作用。
与现有技术相比,本发明所具有的有益效果是:本发明提出的融合多模态先验信息策略可以降低单一视觉RGB图像中外观敏感型信息在特征中的权重,融合的两种对外观变化相对鲁棒的模态信息则可以促进网络学习对于外观鲁棒的行人特征, 最终促进模型在跨外观场景下的行人检索性能。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的融合分支损失的网络结构图;
图3为本发明实施例的测试时的流程图;
图4为本发明实施例中使用的三种不同模态的图像的展示示意图;
图5为本发明实施例的基准网络在NKUP+上的部分行人前十位检索结果示意图;
图6为本发明实施例的在NKUP+上的部分行人前十位检索结果示意图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施例对本发明作详细说明。
本发明的实施例提供了一种基于多模态信息的跨外观行人重识别方法,如图1 所示,其包括以下步骤:
步骤1:预处理跨外观行人重识别数据集,对于训练集的图像需经数据增强策略处理、归一化之后作为网络的输入,其预处理顺序依次为:1)调整图像尺寸为网络输入尺寸(256*128);2)以50%的概率随机对图像进行水平翻转;3)在图像周围填充10个值为0的像素;4)从图像中随机裁切出网络输入尺寸(256*128)的图像;
5)对图像进行减均值除方差以归一化输入图像,其中使用ImageNet中图像的均值(0.485,0.456,0.406)和方差(0.229,0.224,0.225);6)以50%的概率随机抹去图像中2%至40%面积大小的区域。而在模型测试时,仅使用上述操作1)和操作5) 对模型集的图像进行处理。
跨外观行人重识别数据集主要包含NKUP+和PRCC,分别包含40217和33698张行人图像。
表1 NKUP+数据集属性统计表
Figure BDA0003744097780000051
表2 PRCC数据集属性统计表
Figure BDA0003744097780000061
步骤2:使用公开轮廓识别数据集(BSDS500)和行人语义分割数据集(LIP)训练的轮廓识别网络R(RCF Net)和语义分割网络P(PSP Net)从行人的视觉图像XRGB中分别提取出轮廓图像XC和部件语义图像XP,三种不同模态的图像均使用RGB彩色图像进行表示,因此具有相同的维度,不同模态的示例图像如图4所示。
XC=R(XRGB),XP=P(XRGB)
步骤3:使用在公开数据集(ImageNet)训练的三个非共享权重的特征提取Densenet121网络模型:轮廓特征提取网络模型NC、视觉特征提取网络模型NRGB和语义特征提取网络模型NP分别从轮廓图像、视觉图像和部件语义图像提取行人视觉、轮廓和部件语义三种不同模态信息的高维特征矩阵:高维轮廓特征矩阵
Figure BDA0003744097780000062
高维视觉特征矩阵
Figure BDA0003744097780000063
和高维语义特征矩阵
Figure BDA0003744097780000064
Figure BDA0003744097780000065
步骤4:将行人视觉、轮廓和部件语义三种不同模态信息的高维特征矩阵拼接(Concatenate)为融合特征矩阵
Figure BDA0003744097780000066
Figure BDA0003744097780000067
步骤5:基于广义均值池化(Generalized Mean Pooling,GeM Pooling)将高维轮廓特征矩阵
Figure BDA0003744097780000068
高维视觉特征矩阵
Figure BDA0003744097780000069
高维语义特征矩阵
Figure BDA00037440977800000610
和融合特征矩阵
Figure BDA00037440977800000611
下采样为相应的高维特征:高维轮廓特征
Figure BDA00037440977800000612
高维视觉特征
Figure BDA00037440977800000613
高维语义特征
Figure BDA00037440977800000614
和融合特征
Figure BDA00037440977800000615
Figure BDA00037440977800000616
Figure BDA00037440977800000617
步骤6:对行人的高维轮廓特征
Figure BDA00037440977800000618
高维视觉特征
Figure BDA00037440977800000619
高维语义特征
Figure BDA00037440977800000620
和融合特征
Figure BDA00037440977800000621
分别首先采用批次归一化(Batch Normalization,BN)获取推理特征:
高维轮廓推理特征
Figure BDA0003744097780000071
高维视觉推理特征
Figure BDA0003744097780000072
高维语义推理特征
Figure BDA0003744097780000073
和融合推理特征
Figure BDA0003744097780000074
然后使用全连接层(Fully Connected layer,FC)获取身份分类特征:高维轮廓分类特征
Figure BDA0003744097780000075
高维视觉分类特征
Figure BDA0003744097780000076
高维语义分类特征
Figure BDA0003744097780000077
和融合分类特征
Figure BDA0003744097780000078
Figure BDA0003744097780000079
Figure BDA00037440977800000710
步骤7:计算视觉、轮廓、部件语义、融合特征各自的整体分支损失LRGB、LC、 LP、LF,然后对不同分支损失求和得到最终的总损失LAll
Figure BDA00037440977800000711
Figure BDA00037440977800000712
Figure BDA00037440977800000713
Figure BDA00037440977800000714
LAll=LRGB+LC+LP+LF
其中,λ1和λ2分别表示最难三元损失和身份分类损失的权重参数;λ1和λ2均为1.0。
最难三元损失:
Figure BDA00037440977800000715
其中,α表示间隔参数,D表示距离度量,
Figure BDA00037440977800000716
表示批次中第p个人的第k张图像
Figure BDA00037440977800000717
的高维特征,1≤p≤P,1≤k≤K,p′为第p′个人的,k′为第k′张图像;
身份分类损失:
Figure BDA00037440977800000718
其中xi、yi分别表示图像及其身份类别,p(yi|xi)表示图像xi被模型识别为身份类别yi的概率,1≤i≤N。
融合分支损失的网络结构如图2所示。视觉、轮廓、部件语义的分支损失的网络结构与之相似。
步骤8:损失层的梯度反向传播,更新轮廓特征提取网络模型NC、视觉特征提取网络模型NRGB和语义特征提取网络模型NP,及其对应的全连接层的权值参数。
步骤9:多模态模型在行人重识别数据集上优化训练120轮,网络初始学习率为3.5×10-6,在前10轮epoch网络学习率会从线性上升至3.5×10-4,随后,学习率将在31、61、91轮分别衰减为当前值的0.1倍以微调网络权重。完成模型训练,得到训练好的多模态模型。
步骤10:而对于网络的测试流程,如图3所示。将测试集中的所有查询图像和图库图像输入到多模态模型进行前向传播,并使用融合特征的归一化推理特征
Figure BDA0003744097780000081
作为最终的行人特征向量表示。假定查询图像的特征表示为fq,候选图像的特征表示为 fg,使用欧式距离计算二者之间的距离dq,g=||FQ-Fg||2,若其距离越小,则图像对之间的相似度越高,反之越低。计算每一张查询图像与所有的候选图像之间的距离并按照相似度从大到小进行排序,获得排序列表,最终计算前k位命中率Rank-k和平均检索精度mAP。分别在NKUP+和PRCC数据集上做对比试验,证明多模态融合特征的鲁棒性。
图5和图6展示了基准网络模型Densenet121和多模态模型M2Net在NKUP+跨外观子集的部分行人重识别结果,每一行中展示了一个待检索行人的前十位检索结果。其中最左侧的为检索图像,查询图像按照相似度从高到低进行排列,黑色和灰色边界框分别表示正确与错误的检索结果。从图示可以看出,基准网络模型(Densenet121) 的检索结果中行人的衣着、背包等外观信息极大程度影响了检索结果,而采用了多模态模型M2Net之后,部分行人外观变化明显的图像也被检索出来,印证了多模态信息可以提升跨外观行人重识别模型性能。
表3和表4中量化的列出了实验Rank-k和mAP指标,该指标是行人重识别领域的两个重要评价标准。在图像数量相对较少、外观变化不大的PRCC数据集中,多模态模型M2Net提取特征分别提升了同/跨外观子集的0.7%/7.5%的Rank1值和 1.7%/6.1%的mAP精度;而在图像数量较多、外观变化明显的NKUP+数据集中,多模态网络M2Net则在保持同外观检索能力基本不变的情况下,提升了跨外观子集上1.6%的Rank1值和0.7%的mAP,证明了多模态特征对于跨外观行人的检索能力。
表3各特征提取网络在PRCC数据集检索指标对比表
Figure BDA0003744097780000091
表4各特征特征提取网络在NKUP+数据集检索指标对比表
Figure BDA0003744097780000092
以上通过实施例对本发明进行了详细说明,但所述内容仅为本发明的示例性实施例,不能被认为用于限定本发明的实施范围。本发明的保护范围由权利要求书限定。凡利用本发明所述的技术方案,或本领域的技术人员在本发明技术方案的启发下,在本发明的实质和保护范围内,设计出类似的技术方案而达到上述技术效果的,或者对申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖保护范围之内。

Claims (6)

1.一种基于多模态信息的跨外观行人重识别方法,其特征在于:包括以下步骤:
步骤1:利用数据增强策略预处理跨外观行人重识别数据集;
步骤2:使用预训练的轮廓识别网络和语义分割网络分别从预处理过的图像中获取行人的轮廓图像与部件语义图像;
步骤3:利用非共享权重的轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型分别对应从轮廓图像、视觉图像和部件语义图像提取出行人的高维轮廓特征矩阵、高维视觉特征矩阵和高维语义特征矩阵;
步骤4:将高维轮廓特征矩阵、高维视觉特征矩阵、高维语义特征矩阵拼接为融合特征矩阵;
步骤5:对高维轮廓特征矩阵、高维视觉特征矩阵、高维语义特征矩阵和融合特征矩阵,分别进行池化下采样获取高维轮廓特征、高维视觉特征、高维语义特征和融合特征;
步骤6:对高维轮廓特征、高维视觉特征、高维语义特征和融合特征,分别使用批次归一化和全连接层获取高维轮廓分类特征、高维视觉分类特征、高维语义分类特征和融合分类特征;
步骤7:分别计算高维轮廓特征、高维视觉特征、高维语义特征和融合特征的最难三元损失,再分别计算高维轮廓分类特征、高维视觉分类特征、高维语义分类特征和融合分类特征的身份分类损失,然后加权求和得到总损失;
步骤8:损失层梯度反向传播,更新轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型及其全连接层的权值参数;
步骤9:重复步骤2-8,直至轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型收敛,或者达到最大迭代次数,完成模型训练;
步骤10:查询图像和图库图像输入完成训练的模型中,使用融合推理特征作为行人特征表示进行检索,融合推理特征由融合特征使用批次归一化获取。
2.如权利要求1所述的基于多模态信息的跨外观行人重识别方法,其特征在于:步骤1中,数据增强策略包含:缩放、随机水平翻转、填充、随机裁切、减均值除方差和随机擦除。
3.如权利要求1所述的基于多模态信息的跨外观行人重识别方法,其特征在于:步骤2中,使用预训练的轮廓识别网络和语义分割网络分别从预处理过的行人的视觉图像中分别提取出轮廓图像和部件语义图像,三种不同模态的图像均使用RGB彩色图像进行表示。
4.如权利要求1所述的基于多模态信息的跨外观行人重识别方法,其特征在于:步骤7中,最难三元损失:
Figure FDA0003744097770000021
其中,α表示间隔参数,D表示距离度量,
Figure FDA0003744097770000022
表示批次中第p个人的第k张图像
Figure FDA0003744097770000023
的高维特征,1≤p≤P,1≤k≤K,p′为第p′个人的,k′为第k′张图像;
身份分类损失:
Figure FDA0003744097770000024
其中xi、yi分别表示图像及其身份类别,p(yi|xi)表示图像xi被模型识别为身份类别yi的概率,1≤i≤N。
5.如权利要求4所述的基于多模态信息的跨外观行人重识别方法,其特征在于:分支损失:
L=λ1LHardTri2LID
其中,λ1和λ2分别表示最难三元损失和身份分类损失的权重参数;
总损失为轮廓、视觉、部件语义和融合特征的四个分支损失的和。
6.如权利要求5所述的基于多模态信息的跨外观行人重识别方法,其特征在于:λ1和λ2均为1.0。
CN202210820445.9A 2022-07-13 2022-07-13 一种基于多模态信息的跨外观行人重识别方法 Pending CN115376159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210820445.9A CN115376159A (zh) 2022-07-13 2022-07-13 一种基于多模态信息的跨外观行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210820445.9A CN115376159A (zh) 2022-07-13 2022-07-13 一种基于多模态信息的跨外观行人重识别方法

Publications (1)

Publication Number Publication Date
CN115376159A true CN115376159A (zh) 2022-11-22

Family

ID=84061590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210820445.9A Pending CN115376159A (zh) 2022-07-13 2022-07-13 一种基于多模态信息的跨外观行人重识别方法

Country Status (1)

Country Link
CN (1) CN115376159A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757874A (zh) * 2022-11-24 2023-03-07 中科天网(广东)科技有限公司 人脸与人体协同检索方法、装置、设备和介质
CN117831081A (zh) * 2024-03-06 2024-04-05 齐鲁工业大学(山东省科学院) 基于换衣数据和残差网络的换衣行人重识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757874A (zh) * 2022-11-24 2023-03-07 中科天网(广东)科技有限公司 人脸与人体协同检索方法、装置、设备和介质
CN115757874B (zh) * 2022-11-24 2023-11-03 中科天网(广东)科技有限公司 人脸与人体协同检索方法、装置、设备和介质
CN117831081A (zh) * 2024-03-06 2024-04-05 齐鲁工业大学(山东省科学院) 基于换衣数据和残差网络的换衣行人重识别方法及系统

Similar Documents

Publication Publication Date Title
CN110163110B (zh) 一种基于迁移学习和深度特征融合的行人重识别方法
Kim et al. Deep metric learning beyond binary supervision
US11809485B2 (en) Method for retrieving footprint images
CN111898736B (zh) 基于属性感知的高效行人重识别方法
CN112800876B (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN115376159A (zh) 一种基于多模态信息的跨外观行人重识别方法
CN112784728B (zh) 基于衣物脱敏网络的多粒度换衣行人重识别方法
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN111984817B (zh) 一种基于自注意力机制加权的细粒度图像检索方法
CN109344720B (zh) 一种基于自适应特征选择的情感状态检测方法
KR20210100592A (ko) 휴리스틱 가우스 클라우드 변환에 기반하는 얼굴인식 기술
CN113011253A (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
Zhang et al. Spatial–temporal gray-level co-occurrence aware CNN for SAR image change detection
Zhang et al. Dual-modality space-time memory network for RGBT tracking
CN113378620B (zh) 监控视频噪声环境下跨摄像头行人重识别方法
CN108428234B (zh) 基于图像分割结果评价的交互式分割性能优化方法
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN117333908A (zh) 基于姿态特征对齐的跨模态行人重识别方法
CN115761356A (zh) 图像识别方法、装置、电子设备和存储介质
CN114821632A (zh) 一种遮挡行人重识别方法
Gao et al. American Sign Language fingerspelling Recognition Using RGB-D and DFANet
CN111695507B (zh) 一种基于改进VGGNet网络和PCA的静态手势识别方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN115116095A (zh) 一种融合外观信息的行人重识别联合优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination