CN114612927A - 一种基于图像文本双通道联合的行人重识别方法 - Google Patents

一种基于图像文本双通道联合的行人重识别方法 Download PDF

Info

Publication number
CN114612927A
CN114612927A CN202011425821.1A CN202011425821A CN114612927A CN 114612927 A CN114612927 A CN 114612927A CN 202011425821 A CN202011425821 A CN 202011425821A CN 114612927 A CN114612927 A CN 114612927A
Authority
CN
China
Prior art keywords
features
text
loss
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011425821.1A
Other languages
English (en)
Other versions
CN114612927B (zh
Inventor
何小海
齐宝光
刘强
陈洪刚
吴晓红
吴小强
滕奇志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202011425821.1A priority Critical patent/CN114612927B/zh
Publication of CN114612927A publication Critical patent/CN114612927A/zh
Application granted granted Critical
Publication of CN114612927B publication Critical patent/CN114612927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于图像文本双通道联合的行人重识别方法,使用文本通道对图像通道进行辅助学习完成行人重识别的任务。在图像通道设计了局部特征分支和全局特征分支,使用局部特征注意到更多的细节信息,比如非遮挡区域,使用全局特征加强网络对图像整体的关注力;在文本通道提取出文本特征计算ID损失,并且将其与图像的全局特征进行联合训练,计算三元组损失,以实现文本特征对视觉特征的辅助。最后得到能够提取出更多细节信息的重识别网络,测试时仅使用图像通道即可得到较优的检索结果,证明了文本特征对视觉特征辅助的有效性。该方法适用于智能安防领域和智慧商业领域,例如人员追踪、顾客轨迹分析、景区人流分析。

Description

一种基于图像文本双通道联合的行人重识别方法
技术领域
本发明涉及一种基于图像文本双通道联合的行人重识别方法,属于计算机视觉与智能信息技术领域。
背景技术
2006年,Gheissari等人第一次提出了行人重识别的概念,其被当作跨摄像头多目标跟踪下的子问题进行研究,即如何在跨摄像头中利用行人特征的相似度进行轨迹关联。目前重识别的方法大都使用表征学习和度量学习。典型的重识别中通常使用全局特征表示行人特征表征,计算其ID损失,并通过度量特征之间的距离对行人进行排序。
在现实场景中,由于行人可能具有相似的外观,以及存在视角不同和遮挡的问题,导致检索的准确率并不高,为了提高模型性能,就要求行人重识别模型能够捕捉到充足的细节信息。然而基于全局特征的特征表征表现力有限,很难突出更具有价值的细节信息,面对遮挡、分辨率低等问题时检索效果通常不太理想,因此一些基于局部特征的方法被提出来解决这些问题。另外由于真实场景中,视角变化、配饰变化显著,需要更多额外的信息进行补充以实现对模型的优化,因此也有一些基于辅助学习的研究,比如属性信息辅助、文本信息辅助、视角信息辅助。但是属性信息通常不能像自然语言描述一样良好的覆盖整个图像信息,所以检索效果一般。另外目前数据集含有的多视角样本数量稀少,多视角建模比较困难,对视角信息的研究欠缺定量、稳定的分析手段。而文本描述覆盖了行人的整体信息,补充了视角变化和配饰变化的信息,表现出较好的性能。因此,为了在遮挡、视角变化、配饰变化等问题下,捕捉到更充足的细节信息,得到更可靠的特征表达,提出了图像文本双通道联合的行人重识别网络,将全局特征融合局部特征,并使用文本特征对全局特征进行辅助学习。
发明内容
本发明提出了一种基于图像文本双通道联合的行人重识别方法,目的在于设计一个图像文本双通道联合的网络,使用文本特征对视觉特征进行辅助训练,然后利用辅助优化过的视觉特征进行行人重识别。
本发明通过以下技术方案来实现上述目的:
(1)构建图像通道,使用Resnet50作为图像通道的骨架网络提取视觉特征,将骨架网络得到的最终特征分别送入全局特征分支和局部特征分支,提取全局特征和局部特征,最后对全局特征和局部特征分别计算ID Loss;
(2)构建文本通道,使用Simple Recurrent Units(SRU)作为文本通道的骨架网络提取文本特征,文本特征经过BN层归一化后用于ID损失的计算,并将图像通道的全局特征与文本特征共享ID Loss;
(3)将经过BN层前的文本特征与视觉特征进行Concat得到联合特征,并送入全连接层得到最后的融合特征,实现文本特征对视觉特征的辅助优化;
(4)联合多种任务的损失函数更新网络,利用局部特征增强图像通道对局部细节的关注度,使用文本特征辅助优化视觉特征,促进视觉特征学习到更多与文本特征互补的细节信息。不断训练迭代得到较优的模型,最终只使用图像通道进行检索。
附图说明
图1为本发明图像文本双通道联合的行人重识别方法框架图。
具体实施方式
下面结合附图对本发明作进一步说明:
构建图像通道的方法如下:
当行人图像通过骨架网络Resnet50的最后一层得到特征fh后,使用两个分支对特征fh进行后续处理,一个分支进行全局特征处理称为全局特征分支,另一个分支进行局部特征处理称为局部特征分支。
在全局特征分支,首先将特征fh通过全局平均池化得到特征fg,将fg用于三元组损失的计算,之后令fg进行归一化操作取得归一化特征fj用于全局特征的ID损失。采用归一化操作,使得ID损失和三元组损失在不同的嵌入空间中分别使用余弦距离和欧式距离进行模型优化,减少了ID损失对fg的约束,更利于三元组损失的收敛。对于输入图像及其标签
Figure BDA0002824797340000021
全局特征的ID损失由多分类交叉熵lce来表示,使用软交叉熵损失函数-qlogp进行监督,其计算公式为:
Figure BDA0002824797340000031
Figure BDA0002824797340000032
式中,F(xi∣θ)代表特征提取网络,C代表分类器。在局部特征分支,首先将特征fh分割为6块局部特征,并分别通过全连接层计算独自的ID损失
Figure BDA0002824797340000033
而不是采用权重共享的同一个ID损失。
构建文本通道的方法如下:
将文本输入使用Simple Recurrent Units(SRU)网络进行编码得到文本特征,将SRU网络提取出的文本特征fd通过BNNeck进行归一化操作得到特征ft。将fd和ft分别用于不同的任务。对于ft计算ID损失,对于fd将其与视觉特征进行关联计算三元组损失。对于输入文本及其标签
Figure BDA0002824797340000034
全局特征的ID损失由多分类交叉熵lce来表示,使用软交叉熵损失函数-qlogp进行监督,其计算公式为:
Figure BDA0002824797340000035
Figure BDA0002824797340000036
联合图像文本信息的新特征:
将视觉特征和相应的文本特征投影到相同的特征空间,并且使用图像三元组损失对新的融合特征fit进行学习。将给定图像的视觉特征fg和其对应的文本特征ft进行Concat操作,并送入全连接层得到最后的融合特征fit,其计算公式为:
m=Concat(fg,ft) (5)
Figure BDA0002824797340000037
式中,h(·)为激活函数,在全连接层采用激活函数并且使用了Dropout来防止网络过拟合,将丢弃率设置为0.5。
之后使用三元组损失训练融合特征fit,使得相同身份的图像样本距离更加接近并将不同身份的样本推远。三元组损失由固定图片(Anchor)、正样本图片(Positive)、负样本图片(Negative)三张图片组成,其中Anchor是数据集中随机抽取的图片,Positive是与Anchor相同类别的图片,Negative是与Anchor不同类别的图片。分别使用
Figure BDA0002824797340000041
Figure BDA0002824797340000042
表示
Figure BDA0002824797340000043
的正样本和负样本,‖·‖表示欧氏距离。其计算公式为:
Figure BDA0002824797340000044
式中,
Figure BDA0002824797340000045
为Positive与Anchor之间的欧式距离,
Figure BDA0002824797340000046
为Negative与Anchor之间的欧式距离,α为
Figure BDA0002824797340000047
Figure BDA0002824797340000048
距离与
Figure BDA0002824797340000049
Figure BDA00028247973400000410
距离的最小间隔。从目标函数可以看出,当
Figure BDA00028247973400000411
Figure BDA00028247973400000412
的距离小于
Figure BDA00028247973400000413
Figure BDA00028247973400000414
距离时,加上α损失为零,当
Figure BDA00028247973400000415
Figure BDA00028247973400000416
的距离大于
Figure BDA00028247973400000417
Figure BDA00028247973400000418
距离时,加上α就会产生损失,最终的目标就是将损失降低的越小越好,使得相同样本的距离更加接近并将不同样本推远。
最终联合多种任务的损失函数更新网络,得到较优的模型。图像通道通过融合局部特征增强了对局部细节的关注度,并且在文本特征的辅助下视觉特征会注意到更多被忽略掉的细节信息,使视觉特征提取网络更具有鲁棒性,得到更强的特征表征能力。多任务加权的总损失函数
Figure BDA00028247973400000419
的输出梯度受到局部特征和文本特征的影响,其计算公式为:
Figure BDA00028247973400000420
式中,
Figure BDA00028247973400000421
为全局特征的ID损失,
Figure BDA00028247973400000422
为局部特征的ID损失,
Figure BDA00028247973400000423
为文本特征的ID损失,
Figure BDA00028247973400000424
为三元组损失,λt,λpi是平衡参数,λt=0.2,λpi=0.1。这种多任务加权的训练方式更有利于得到较优的视觉特征提取网络。
为了验证本发明所述基于图像文本双通道联合的行人重识别方法的有效性,在Market1501、CUHK03数据集中开展实验。本文的实验平台为:Ubuntu 20.04,Nvidia RTX2080Ti GPU,Intel(R)Core(TM)i7-9700 CPU。采用的深度学习框架为Pytorch,采用的精度评价指标为mAP(mean average precision)和Rank-1,即首位准确率。Market1501数据集分为两部分,用于训练的具有751个身份的12936幅图像和用于测试的具有750个身份的19732幅图像。CUHK03包含1467个被标记人员的8765张图像,其中训练集具有767个身份,测试集具有700个身份。所有的实验在Resnet50基准网络中进行预训练。使用Cosine方式来调整学习率,即在前40epochs中学习率设置为10-2,随后80epochs中学习率分别设置为10-3。输入图片尺寸为256×128,训练时batch size设置为64,测试时batch size设置为128,GPU数量为1。本发明实验结果如表1和表2所示:
表1不同算法在Market1501数据集上的测试结果
Figure BDA0002824797340000051
表2不同算法在CUHK03数据集上的测试结果
Figure BDA0002824797340000052
Figure BDA0002824797340000061

Claims (5)

1.一种基于图像文本双通道联合的行人重识别方法,其特点包括以下步骤:
(1)构建图像通道,使用Resnet50作为基准网络提取特征,并在最后一层提取出特征后构建图像通道的全局分支和局部分支,分别计算全局分支和局部分支的ID损失;
(2)构建文本通道,使用Simple Recurrent Units(SRU)作为骨架网络提取文本特征,将文本特征经过BN层归一化后用于ID损失的计算;
(3)将经过BN层前的文本特征与视觉特征进行Concat得到联合特征,对联合特征进行优化,计算其三元组损失,实现文本特征对视觉特征的辅助优化;
(4)联合多种任务的损失函数更新网络,利用局部特征增强图像通道对局部细节的关注度,使用文本特征辅助优化视觉特征,促进视觉特征学习到更多与文本特征互补的细节信息。
2.根据权利要求1所述的方法,其特点在于步骤(1)中构建具有全局分支和局部分支的图像通道,构建方法如下:
使用在ImageNet上进行了预训练的CNN模型,CNN模型的主干网络由ResNet50网络构成,将Resnet50的最后一个下采样模块的步幅由2变为1,得到具有更多信息的特征fh,将特征fh送入局部特征分支进行分割得到六块局部特征,对这六块局部特征分别计算其ID损失;将fh送入全局特征分支,通过全局平均池化后得到用于计算三元组损失的特征fg,对fg进行归一化操作得到fj用于全局特征的ID损失计算。
3.根据权利要求1所述的方法,其特点在于步骤(2)中构建文本通道,构建方法如下:
使用Simple Recurrent Units(SRU)作为文本通道的骨架网络提取文本特征fd用于三元组损失的计算,之后对fd进行归一化操作得到ft用于文本特征的ID损失计算,对于输入图像或文本以及其标签使用
Figure FDA0002824797330000011
表示,ID损失由多分类交叉熵lce来表示,使用软交叉熵损失函数-qlogp进行监督,其计算公式为:
Figure FDA0002824797330000021
Figure FDA0002824797330000022
式中,F(xi∣θ)代表特征提取网络,C代表分类器。
4.根据权利要求1所述的方法,其特点在于步骤(3)中文本特征与视觉特征的联合操作,计算三元组损失,联合方法如下:
将给定图像的视觉特征fg和其对应的文本特征ft进行Concat操作,并送入全连接层得到最后的融合特征fit,其计算公式为:
m=Concat(fg,ft) (3)
Figure FDA0002824797330000023
式中,h(·)为激活函数,在全连接层采用激活函数,并且使用了Dropout来防止网络过拟合,将丢弃率设置为0.5,使用三元组损失训练融合特征fit,使得相同身份的图像样本距离更加接近并将不同身份的样本推远,其计算公式为:
Figure FDA0002824797330000024
式中,
Figure FDA0002824797330000025
表示从数据集中随机抽取的样本,
Figure FDA0002824797330000026
表示
Figure FDA0002824797330000027
的正样本,
Figure FDA0002824797330000028
表示
Figure FDA0002824797330000029
的负样本,α为
Figure FDA00028247973300000210
Figure FDA00028247973300000211
距离与
Figure FDA00028247973300000212
Figure FDA00028247973300000213
距离的最小间隔。
5.根据权利要求1所述的方法,其特点在于步骤(4)中图像通道通过局部信息得到了增强,并且在文本特征的辅助下视觉特征会注意到更多被忽略掉的细节信息,使视觉特征提取网络更具有鲁棒性,得到更强的特征表征能力,多任务加权的总损失函数
Figure FDA00028247973300000214
的输出梯度受到局部特征和文本特征的影响,其计算公式为:
Figure FDA00028247973300000215
式中,
Figure FDA00028247973300000216
为全局特征的ID损失,
Figure FDA00028247973300000217
为局部特征的ID损失,
Figure FDA00028247973300000218
为文本特征的ID损失,
Figure FDA00028247973300000219
为三元组损失,λt,λpi是平衡参数,λt=0.2,λpi=0.1,这种多任务加权的训练方式更有利于得到较优的视觉特征提取网络。
CN202011425821.1A 2020-12-09 2020-12-09 一种基于图像文本双通道联合的行人重识别方法 Active CN114612927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011425821.1A CN114612927B (zh) 2020-12-09 2020-12-09 一种基于图像文本双通道联合的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011425821.1A CN114612927B (zh) 2020-12-09 2020-12-09 一种基于图像文本双通道联合的行人重识别方法

Publications (2)

Publication Number Publication Date
CN114612927A true CN114612927A (zh) 2022-06-10
CN114612927B CN114612927B (zh) 2023-05-09

Family

ID=81856659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011425821.1A Active CN114612927B (zh) 2020-12-09 2020-12-09 一种基于图像文本双通道联合的行人重识别方法

Country Status (1)

Country Link
CN (1) CN114612927B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
CN110458215A (zh) * 2019-07-30 2019-11-15 天津大学 基于多时态注意力模型的行人属性识别方法
CN110728216A (zh) * 2019-09-27 2020-01-24 西北工业大学 一种基于行人属性自适应学习的无监督行人再识别方法
CN110968734A (zh) * 2019-11-21 2020-04-07 华东师范大学 一种基于深度度量学习的行人重识别方法及装置
CN111460914A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于全局和局部细粒度特征的行人重识别方法
CN111539370A (zh) * 2020-04-30 2020-08-14 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111931641A (zh) * 2020-08-07 2020-11-13 华南理工大学 基于权重多样性正则化的行人重识别方法及其应用
CN112001279A (zh) * 2020-08-12 2020-11-27 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
CN110458215A (zh) * 2019-07-30 2019-11-15 天津大学 基于多时态注意力模型的行人属性识别方法
CN110728216A (zh) * 2019-09-27 2020-01-24 西北工业大学 一种基于行人属性自适应学习的无监督行人再识别方法
CN110968734A (zh) * 2019-11-21 2020-04-07 华东师范大学 一种基于深度度量学习的行人重识别方法及装置
CN111460914A (zh) * 2020-03-13 2020-07-28 华南理工大学 一种基于全局和局部细粒度特征的行人重识别方法
CN111539370A (zh) * 2020-04-30 2020-08-14 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111931641A (zh) * 2020-08-07 2020-11-13 华南理工大学 基于权重多样性正则化的行人重识别方法及其应用
CN112001279A (zh) * 2020-08-12 2020-11-27 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FENG ZHENG ET AL: "Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training" *
SURBHI AGGARWAL ET AL: "Text-based Person Search via Attribute-aided Matching" *
刘康凝等: "基于多任务学习的行人重识别特征表示方法" *

Also Published As

Publication number Publication date
CN114612927B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN110781838B (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN110110642B (zh) 一种基于多通道注意力特征的行人重识别方法
CN105022835B (zh) 一种群智感知大数据公共安全识别方法及系统
CN110135295A (zh) 一种基于迁移学习的无监督行人重识别方法
CN108960184B (zh) 一种基于异构部件深度神经网络的行人再识别方法
CN109711463A (zh) 基于注意力的重要对象检测方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN111832615A (zh) 一种基于前景背景特征融合的样本扩充方法及系统
CN110598586A (zh) 一种目标检测方法及系统
CN109784288B (zh) 一种基于判别感知融合的行人再识别方法
CN105574489A (zh) 基于层次级联的暴力群体行为检测方法
CN107038400A (zh) 人脸识别装置及方法和利用其的目标人跟踪装置及方法
CN115131580B (zh) 基于注意力机制的空间目标小样本识别方法
CN109284668A (zh) 一种基于距离正则化投影和字典学习的行人重识别算法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN104778699A (zh) 一种自适应对象特征的跟踪方法
Bui et al. A part-aware attention neural network for cross-view geo-localization between uav and satellite
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
Shen et al. MCCG: A ConvNeXt-based Multiple-Classifier Method for Cross-view Geo-localization
Tsintotas et al. Visual place recognition for simultaneous localization and mapping
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
Feng et al. Embedded YOLO: A real-time object detector for small intelligent trajectory cars
Dong et al. ChangeCLIP: Remote sensing change detection with multimodal vision-language representation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant