CN114612927A - 一种基于图像文本双通道联合的行人重识别方法 - Google Patents
一种基于图像文本双通道联合的行人重识别方法 Download PDFInfo
- Publication number
- CN114612927A CN114612927A CN202011425821.1A CN202011425821A CN114612927A CN 114612927 A CN114612927 A CN 114612927A CN 202011425821 A CN202011425821 A CN 202011425821A CN 114612927 A CN114612927 A CN 114612927A
- Authority
- CN
- China
- Prior art keywords
- features
- text
- loss
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于图像文本双通道联合的行人重识别方法,使用文本通道对图像通道进行辅助学习完成行人重识别的任务。在图像通道设计了局部特征分支和全局特征分支,使用局部特征注意到更多的细节信息,比如非遮挡区域,使用全局特征加强网络对图像整体的关注力;在文本通道提取出文本特征计算ID损失,并且将其与图像的全局特征进行联合训练,计算三元组损失,以实现文本特征对视觉特征的辅助。最后得到能够提取出更多细节信息的重识别网络,测试时仅使用图像通道即可得到较优的检索结果,证明了文本特征对视觉特征辅助的有效性。该方法适用于智能安防领域和智慧商业领域,例如人员追踪、顾客轨迹分析、景区人流分析。
Description
技术领域
本发明涉及一种基于图像文本双通道联合的行人重识别方法,属于计算机视觉与智能信息技术领域。
背景技术
2006年,Gheissari等人第一次提出了行人重识别的概念,其被当作跨摄像头多目标跟踪下的子问题进行研究,即如何在跨摄像头中利用行人特征的相似度进行轨迹关联。目前重识别的方法大都使用表征学习和度量学习。典型的重识别中通常使用全局特征表示行人特征表征,计算其ID损失,并通过度量特征之间的距离对行人进行排序。
在现实场景中,由于行人可能具有相似的外观,以及存在视角不同和遮挡的问题,导致检索的准确率并不高,为了提高模型性能,就要求行人重识别模型能够捕捉到充足的细节信息。然而基于全局特征的特征表征表现力有限,很难突出更具有价值的细节信息,面对遮挡、分辨率低等问题时检索效果通常不太理想,因此一些基于局部特征的方法被提出来解决这些问题。另外由于真实场景中,视角变化、配饰变化显著,需要更多额外的信息进行补充以实现对模型的优化,因此也有一些基于辅助学习的研究,比如属性信息辅助、文本信息辅助、视角信息辅助。但是属性信息通常不能像自然语言描述一样良好的覆盖整个图像信息,所以检索效果一般。另外目前数据集含有的多视角样本数量稀少,多视角建模比较困难,对视角信息的研究欠缺定量、稳定的分析手段。而文本描述覆盖了行人的整体信息,补充了视角变化和配饰变化的信息,表现出较好的性能。因此,为了在遮挡、视角变化、配饰变化等问题下,捕捉到更充足的细节信息,得到更可靠的特征表达,提出了图像文本双通道联合的行人重识别网络,将全局特征融合局部特征,并使用文本特征对全局特征进行辅助学习。
发明内容
本发明提出了一种基于图像文本双通道联合的行人重识别方法,目的在于设计一个图像文本双通道联合的网络,使用文本特征对视觉特征进行辅助训练,然后利用辅助优化过的视觉特征进行行人重识别。
本发明通过以下技术方案来实现上述目的:
(1)构建图像通道,使用Resnet50作为图像通道的骨架网络提取视觉特征,将骨架网络得到的最终特征分别送入全局特征分支和局部特征分支,提取全局特征和局部特征,最后对全局特征和局部特征分别计算ID Loss;
(2)构建文本通道,使用Simple Recurrent Units(SRU)作为文本通道的骨架网络提取文本特征,文本特征经过BN层归一化后用于ID损失的计算,并将图像通道的全局特征与文本特征共享ID Loss;
(3)将经过BN层前的文本特征与视觉特征进行Concat得到联合特征,并送入全连接层得到最后的融合特征,实现文本特征对视觉特征的辅助优化;
(4)联合多种任务的损失函数更新网络,利用局部特征增强图像通道对局部细节的关注度,使用文本特征辅助优化视觉特征,促进视觉特征学习到更多与文本特征互补的细节信息。不断训练迭代得到较优的模型,最终只使用图像通道进行检索。
附图说明
图1为本发明图像文本双通道联合的行人重识别方法框架图。
具体实施方式
下面结合附图对本发明作进一步说明:
构建图像通道的方法如下:
当行人图像通过骨架网络Resnet50的最后一层得到特征fh后,使用两个分支对特征fh进行后续处理,一个分支进行全局特征处理称为全局特征分支,另一个分支进行局部特征处理称为局部特征分支。
在全局特征分支,首先将特征fh通过全局平均池化得到特征fg,将fg用于三元组损失的计算,之后令fg进行归一化操作取得归一化特征fj用于全局特征的ID损失。采用归一化操作,使得ID损失和三元组损失在不同的嵌入空间中分别使用余弦距离和欧式距离进行模型优化,减少了ID损失对fg的约束,更利于三元组损失的收敛。对于输入图像及其标签全局特征的ID损失由多分类交叉熵lce来表示,使用软交叉熵损失函数-qlogp进行监督,其计算公式为:
构建文本通道的方法如下:
将文本输入使用Simple Recurrent Units(SRU)网络进行编码得到文本特征,将SRU网络提取出的文本特征fd通过BNNeck进行归一化操作得到特征ft。将fd和ft分别用于不同的任务。对于ft计算ID损失,对于fd将其与视觉特征进行关联计算三元组损失。对于输入文本及其标签全局特征的ID损失由多分类交叉熵lce来表示,使用软交叉熵损失函数-qlogp进行监督,其计算公式为:
联合图像文本信息的新特征:
将视觉特征和相应的文本特征投影到相同的特征空间,并且使用图像三元组损失对新的融合特征fit进行学习。将给定图像的视觉特征fg和其对应的文本特征ft进行Concat操作,并送入全连接层得到最后的融合特征fit,其计算公式为:
m=Concat(fg,ft) (5)
式中,h(·)为激活函数,在全连接层采用激活函数并且使用了Dropout来防止网络过拟合,将丢弃率设置为0.5。
之后使用三元组损失训练融合特征fit,使得相同身份的图像样本距离更加接近并将不同身份的样本推远。三元组损失由固定图片(Anchor)、正样本图片(Positive)、负样本图片(Negative)三张图片组成,其中Anchor是数据集中随机抽取的图片,Positive是与Anchor相同类别的图片,Negative是与Anchor不同类别的图片。分别使用和表示的正样本和负样本,‖·‖表示欧氏距离。其计算公式为:
式中,为Positive与Anchor之间的欧式距离,为Negative与Anchor之间的欧式距离,α为和距离与和距离的最小间隔。从目标函数可以看出,当和的距离小于和距离时,加上α损失为零,当和的距离大于和距离时,加上α就会产生损失,最终的目标就是将损失降低的越小越好,使得相同样本的距离更加接近并将不同样本推远。
最终联合多种任务的损失函数更新网络,得到较优的模型。图像通道通过融合局部特征增强了对局部细节的关注度,并且在文本特征的辅助下视觉特征会注意到更多被忽略掉的细节信息,使视觉特征提取网络更具有鲁棒性,得到更强的特征表征能力。多任务加权的总损失函数的输出梯度受到局部特征和文本特征的影响,其计算公式为:
式中,为全局特征的ID损失,为局部特征的ID损失,为文本特征的ID损失,为三元组损失,λt,λpi是平衡参数,λt=0.2,λpi=0.1。这种多任务加权的训练方式更有利于得到较优的视觉特征提取网络。
为了验证本发明所述基于图像文本双通道联合的行人重识别方法的有效性,在Market1501、CUHK03数据集中开展实验。本文的实验平台为:Ubuntu 20.04,Nvidia RTX2080Ti GPU,Intel(R)Core(TM)i7-9700 CPU。采用的深度学习框架为Pytorch,采用的精度评价指标为mAP(mean average precision)和Rank-1,即首位准确率。Market1501数据集分为两部分,用于训练的具有751个身份的12936幅图像和用于测试的具有750个身份的19732幅图像。CUHK03包含1467个被标记人员的8765张图像,其中训练集具有767个身份,测试集具有700个身份。所有的实验在Resnet50基准网络中进行预训练。使用Cosine方式来调整学习率,即在前40epochs中学习率设置为10-2,随后80epochs中学习率分别设置为10-3。输入图片尺寸为256×128,训练时batch size设置为64,测试时batch size设置为128,GPU数量为1。本发明实验结果如表1和表2所示:
表1不同算法在Market1501数据集上的测试结果
表2不同算法在CUHK03数据集上的测试结果
Claims (5)
1.一种基于图像文本双通道联合的行人重识别方法,其特点包括以下步骤:
(1)构建图像通道,使用Resnet50作为基准网络提取特征,并在最后一层提取出特征后构建图像通道的全局分支和局部分支,分别计算全局分支和局部分支的ID损失;
(2)构建文本通道,使用Simple Recurrent Units(SRU)作为骨架网络提取文本特征,将文本特征经过BN层归一化后用于ID损失的计算;
(3)将经过BN层前的文本特征与视觉特征进行Concat得到联合特征,对联合特征进行优化,计算其三元组损失,实现文本特征对视觉特征的辅助优化;
(4)联合多种任务的损失函数更新网络,利用局部特征增强图像通道对局部细节的关注度,使用文本特征辅助优化视觉特征,促进视觉特征学习到更多与文本特征互补的细节信息。
2.根据权利要求1所述的方法,其特点在于步骤(1)中构建具有全局分支和局部分支的图像通道,构建方法如下:
使用在ImageNet上进行了预训练的CNN模型,CNN模型的主干网络由ResNet50网络构成,将Resnet50的最后一个下采样模块的步幅由2变为1,得到具有更多信息的特征fh,将特征fh送入局部特征分支进行分割得到六块局部特征,对这六块局部特征分别计算其ID损失;将fh送入全局特征分支,通过全局平均池化后得到用于计算三元组损失的特征fg,对fg进行归一化操作得到fj用于全局特征的ID损失计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011425821.1A CN114612927B (zh) | 2020-12-09 | 2020-12-09 | 一种基于图像文本双通道联合的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011425821.1A CN114612927B (zh) | 2020-12-09 | 2020-12-09 | 一种基于图像文本双通道联合的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114612927A true CN114612927A (zh) | 2022-06-10 |
CN114612927B CN114612927B (zh) | 2023-05-09 |
Family
ID=81856659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011425821.1A Active CN114612927B (zh) | 2020-12-09 | 2020-12-09 | 一种基于图像文本双通道联合的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114612927B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110458215A (zh) * | 2019-07-30 | 2019-11-15 | 天津大学 | 基于多时态注意力模型的行人属性识别方法 |
CN110728216A (zh) * | 2019-09-27 | 2020-01-24 | 西北工业大学 | 一种基于行人属性自适应学习的无监督行人再识别方法 |
CN110968734A (zh) * | 2019-11-21 | 2020-04-07 | 华东师范大学 | 一种基于深度度量学习的行人重识别方法及装置 |
CN111460914A (zh) * | 2020-03-13 | 2020-07-28 | 华南理工大学 | 一种基于全局和局部细粒度特征的行人重识别方法 |
CN111539370A (zh) * | 2020-04-30 | 2020-08-14 | 华中科技大学 | 一种基于多注意力联合学习的图像行人重识别方法和系统 |
CN111931641A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于权重多样性正则化的行人重识别方法及其应用 |
CN112001279A (zh) * | 2020-08-12 | 2020-11-27 | 山东省人工智能研究院 | 基于双重属性信息的跨模态行人重识别方法 |
-
2020
- 2020-12-09 CN CN202011425821.1A patent/CN114612927B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110458215A (zh) * | 2019-07-30 | 2019-11-15 | 天津大学 | 基于多时态注意力模型的行人属性识别方法 |
CN110728216A (zh) * | 2019-09-27 | 2020-01-24 | 西北工业大学 | 一种基于行人属性自适应学习的无监督行人再识别方法 |
CN110968734A (zh) * | 2019-11-21 | 2020-04-07 | 华东师范大学 | 一种基于深度度量学习的行人重识别方法及装置 |
CN111460914A (zh) * | 2020-03-13 | 2020-07-28 | 华南理工大学 | 一种基于全局和局部细粒度特征的行人重识别方法 |
CN111539370A (zh) * | 2020-04-30 | 2020-08-14 | 华中科技大学 | 一种基于多注意力联合学习的图像行人重识别方法和系统 |
CN111931641A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于权重多样性正则化的行人重识别方法及其应用 |
CN112001279A (zh) * | 2020-08-12 | 2020-11-27 | 山东省人工智能研究院 | 基于双重属性信息的跨模态行人重识别方法 |
Non-Patent Citations (3)
Title |
---|
FENG ZHENG ET AL: "Pyramidal Person Re-IDentification via Multi-Loss Dynamic Training" * |
SURBHI AGGARWAL ET AL: "Text-based Person Search via Attribute-aided Matching" * |
刘康凝等: "基于多任务学习的行人重识别特征表示方法" * |
Also Published As
Publication number | Publication date |
---|---|
CN114612927B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN110781838B (zh) | 一种复杂场景下行人的多模态轨迹预测方法 | |
CN110110642B (zh) | 一种基于多通道注意力特征的行人重识别方法 | |
CN105022835B (zh) | 一种群智感知大数据公共安全识别方法及系统 | |
CN110135295A (zh) | 一种基于迁移学习的无监督行人重识别方法 | |
CN108960184B (zh) | 一种基于异构部件深度神经网络的行人再识别方法 | |
CN109711463A (zh) | 基于注意力的重要对象检测方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN111832615A (zh) | 一种基于前景背景特征融合的样本扩充方法及系统 | |
CN110598586A (zh) | 一种目标检测方法及系统 | |
CN109784288B (zh) | 一种基于判别感知融合的行人再识别方法 | |
CN105574489A (zh) | 基于层次级联的暴力群体行为检测方法 | |
CN107038400A (zh) | 人脸识别装置及方法和利用其的目标人跟踪装置及方法 | |
CN115131580B (zh) | 基于注意力机制的空间目标小样本识别方法 | |
CN109284668A (zh) | 一种基于距离正则化投影和字典学习的行人重识别算法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN104778699A (zh) | 一种自适应对象特征的跟踪方法 | |
Bui et al. | A part-aware attention neural network for cross-view geo-localization between uav and satellite | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
Shen et al. | MCCG: A ConvNeXt-based Multiple-Classifier Method for Cross-view Geo-localization | |
Tsintotas et al. | Visual place recognition for simultaneous localization and mapping | |
CN117011883A (zh) | 一种基于金字塔卷积和Transformer双分支的行人重识别方法 | |
Feng et al. | Embedded YOLO: A real-time object detector for small intelligent trajectory cars | |
Dong et al. | ChangeCLIP: Remote sensing change detection with multimodal vision-language representation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |