CN114821770A - 文本到图像的跨模态行人再识别方法、系统、介质和设备 - Google Patents

文本到图像的跨模态行人再识别方法、系统、介质和设备 Download PDF

Info

Publication number
CN114821770A
CN114821770A CN202210371007.9A CN202210371007A CN114821770A CN 114821770 A CN114821770 A CN 114821770A CN 202210371007 A CN202210371007 A CN 202210371007A CN 114821770 A CN114821770 A CN 114821770A
Authority
CN
China
Prior art keywords
text
image
human body
body component
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210371007.9A
Other languages
English (en)
Other versions
CN114821770B (zh
Inventor
丁泽锋
丁长兴
邵智寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210371007.9A priority Critical patent/CN114821770B/zh
Publication of CN114821770A publication Critical patent/CN114821770A/zh
Application granted granted Critical
Publication of CN114821770B publication Critical patent/CN114821770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本到图像的跨模态行人再识别方法、系统、介质和设备,该方法包括下述步骤:构建基于人体组件的文本网络模型和图像网络模型,提取多个粗糙对齐的图像局部人体组件特征;将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;构建身份损失和排序损失进行训练;训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。本发明无需借助额外的工具或者手工标注,具有更好的泛化性能和更小的成本。

Description

文本到图像的跨模态行人再识别方法、系统、介质和设备
技术领域
本发明涉及文本描述的行人重识别技术领域,具体涉及一种文本到图像的跨模态行人再识别方法、系统、介质和设备。
背景技术
行人重识别(Person Re-Identification)指的是给定特定行人的图像、视频或者文本描述,算法模型在图像库或者视频库中寻找到该行人对应的图像或者视频。
根据给定的检索内容,行人重识别可分为:基于图像的行人重识别、基于属性的行人重识别和基于文本描述的行人重识别。在实际应用中,基于文本描述的行人重识别的效果往往比另外两种行人重识别技术好。一方面,由于现实场景中,目标对象实时的图像往往不容易获得,而目标对象的文本描述更容易获得。例如,有个小孩或者老人走丢时,寻人启事中往往只给了走丢时的衣着外貌的描述和过去的生活照,基于图像的行人重识别对于这种换衣的场景下往往难以有很好的效果,而此时基于文本描述的行人重识别在这种追踪场景下可以轻松使用文本描述进行检索并且保证性能不会明显下降。另一方面,虽然基于属性的行人重识别在上述场景同样也能发挥效果,但是基于属性的行人重识别往往受限于训练数据属性的设置,而基于文本描述的行人重识别具有更好的自由度和更丰富的信息,在实际中具有更好的性能。因此,基于文本描述的行人重识别技术具有更好的亲和性和灵活度。
主流的方法往往采取提取跨模态对齐的组件特征来建模该问题。然而,由于文本和图像存在模态间的差异,现有算法很难自动提取跨模态对齐的组件特征,往往存在以下两种问题:
1.提取文本组件特征的困难:现有算法使用额外的名词短语提取器或者手工标注的方式来提取文本组件特征,导致了模型的泛化性能下降和模型的成本增加。
2.跨模态组件特征对齐的困难:由于文本描述具有主观性,导致无法得知网络所得的文本组件属于人体哪个组件。因此,现有算法使用两个模态相互交互的方式或者手工标注的方式来提取到对齐的局部特征。然而,模态交互的做法在提升了算法有限的性能的同时带来了模型复杂度过高的问题,这和手工标注一样,使得模型的成本增加了。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种文本到图像的跨模态行人再识别方法,通过利用行人图像中粗对齐的人体组件作为监督,引导文本网络模型自动提取文本中关于人体组件的特征,进而提出一种交互训练策略,将文本中提取到的人体组件特征作为新的监督来引导图像网络模型提取更细粒度的图像中关于人体组件的特征,从而得到对齐的跨模态组件特征。
本发明的第二目的在于提供一种文本到图像的跨模态行人再识别系统。
本发明的第三目的在于提供一种计算机可读存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种文本到图像的跨模态行人再识别方法,包括下述步骤:
构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
作为优选的技术方案,所述以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,具体步骤包括:
将文本中的单词编码成词典,并构建随机初始化的单词编码嵌入矩阵;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码嵌入矩阵得到每个单词的嵌入特征xi
将所有单词的嵌入特征送入Bi-LSTM网络,从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理,具体表示为:
Figure BDA0003588633260000031
Figure BDA0003588633260000032
其中,
Figure BDA0003588633260000041
Figure BDA0003588633260000042
分别表示第i个单词的向前和向后的隐藏状态,用于表示第i个单词的特征,定义如下:
Figure BDA0003588633260000043
文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]。
作为优选的技术方案,所述以ResNet-50网络作为图像特征提取的主干网络,具体将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像特征提取的主干网络。
作为优选的技术方案,所述将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征,具体步骤包括:
通过给定文本特征向量输入到单词注意力模型,对单词特征按照其所属的行人组件进行分类,得到每个单词归属于第k个行人组件的概率
Figure BDA0003588633260000044
具体计算公式为:
Figure BDA0003588633260000045
其中,
Figure BDA0003588633260000046
表示卷积层,σ表示sigmoid函数,ei表示单词特征,
概率
Figure BDA0003588633260000047
加权文本特征向量得到参量Ek,具体表示为:
Figure BDA0003588633260000048
将参量Ek经过行向量最大池化和卷积层,得到文本局部人体组件特征。
作为优选的技术方案,所述将文本中提取到的人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征,具体步骤包括:
给定图像特征图输入到像素注意力模型,计算图像特征图上每个像素特征F(i,j)归属于第k个行人组件的概率
Figure BDA0003588633260000049
具体计算公式表示为:
Figure BDA0003588633260000051
其中,
Figure BDA0003588633260000052
表示卷积层,σ表示sigmoid函数;
概率
Figure BDA0003588633260000053
加权图像特征图得到参量Fk,具体表示为:
Figure BDA0003588633260000054
将参量Fk经过全局最大池化和卷积层,最终得到图像中更细粒度的人体组件特征。
作为优选的技术方案,所述构建身份损失和排序损失进行训练;
份损失具体表示如下:
Figure BDA0003588633260000055
Figure BDA0003588633260000056
Figure BDA0003588633260000057
其中,Lce表示交叉熵损失,
Figure BDA0003588633260000058
表示第k个组件特征共享的映射矩阵,
Figure BDA0003588633260000059
表示粗糙对齐的图像局部人体组件特征,tk表示文本局部人体组件特征,
Figure BDA00035886332600000510
表示图像中更细粒度的人体组件特征,
Figure BDA00035886332600000511
Figure BDA00035886332600000512
分别表示应用于粗糙对齐的图像局部人体组件特征、文本局部人体组件特征和图像中更细粒度的人体组件特征的身份损失;
排序损失具体计算公式表示为:
Figure BDA00035886332600000513
Figure BDA0003588633260000061
其中,
Figure BDA0003588633260000062
Figure BDA0003588633260000063
分别表示应用于文本局部人体组件特征和粗糙对齐的图像局部人体组件特征之间,以及文本局部人体组件特征和图像中更细粒度的人体组件特征之间的排序损失,Ip和Dp来自匹配的图像-文本对,Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像,S(·)表示将文本局部人体组件特征串联得到的文本特征和粗糙对齐的图像局部人体组件特征或图像中更细粒度的人体组件特征串联得到的图像特征的余弦相似度;
训练单词注意力模型时,训练损失为:
Figure BDA0003588633260000064
训练像素注意力模型时,训练损失为:
Figure BDA0003588633260000065
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
Figure BDA0003588633260000066
为了达到上述第二目的,本发明采用以下技术方案:
一种文本到图像的跨模态行人再识别系统,包括:文本网络模型和图像网络模型构建单元、图像局部人体组件特征提取单元、文本局部人体组件特征提取单元、细粒度人体组件特征提取单元、训练单元和识别结果输出单元;
所述文本网络模型和图像网络模型构建单元用于构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
所述图像局部人体组件特征提取单元用于将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
所述文本局部人体组件特征提取单元用于将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
所述细粒度人体组件特征提取单元用于使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
所述训练单元用于构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
所述识别结果输出单元用于在训练完成后输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现如上述文本到图像的跨模态行人再识别方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述文本到图像的跨模态行人再识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提出跨模态组件特征自对齐模型,利用图像存在的对齐先验知识作为引导,自动提取出文本中关于行人不同的组件描述的组件特征,由于无需借助额外的工具或者手工标注,本发明的提出的模型具有更好的泛化性能和更小的成本。
附图说明
图1为本发明文本到图像的跨模态行人再识别方法的流程示意图;
图2为本发明文本到图像的跨模态行人再识别方法的实现构架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1、图2所示,本实施例提供一种文本到图像的跨模态行人再识别方法,包括以下步骤:
S1:构建基于人体组件的文本网络模型和图像网络模型,用于提取两个模态的特征;
在本实施例中,以Bi-LSTM网络作为文本特征提取的主干网络,给定一个含有n个单词的文本,Bi-LSTM处理该文本得到文本特征E,其中每个单词的特征表示为ei;以ResNet-50网络作为图像特征提取的主干网络,给定一张行人图像,ResNet-50处理该图像得到图像特征图F。
具体步骤包括:
将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像的骨干网络;
将训练数据集中单词出现频次大于等于两次的单词进行编码成词典,并构建随机初始化的单词编码嵌入矩阵(维度为V和U,分别代表字典的长度和单词的嵌入特征的维数),并连接Bi-LSTM,作为文本的骨干网络;
给定一张行人图像,训练阶段进行随机裁剪和翻转(推理阶段不需要),并且将图像缩放至384×128像素大小,通过图像骨干网络运算得到该图像的特征图F;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码的嵌入矩阵得到每个单词的嵌入特征xi,接着所有单词的嵌入特征送入Bi-LSTM网络。该网络从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理。具体公式如下:
Figure BDA0003588633260000091
Figure BDA0003588633260000092
其中,
Figure BDA0003588633260000093
Figure BDA0003588633260000094
分别表示第i个单词的向前和向后的隐藏状态,用于表示第i个单词的特征,定义如下:
Figure BDA0003588633260000095
最后,文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]
S2:提取利用行人图像中粗对齐的人体组件作为监督,引导文本网络模型自动提取文本中关于人体组件的特征;
具体步骤包括:
利用行人图像之间具有粗对齐的特点,将图像经过步骤S1中的图像主干网络提取的特征图F水平划分为K份(通常K取值为6,第一个对应人体头部,第二、第三个对应上半身,第四、第五个对应下半身,第六个对应脚),再分别经过全局最大池化和1×1卷积层,得到P个粗糙对齐的图像局部人体组件特征
Figure BDA0003588633260000101
通过给定文本特征向量E到单词注意力模型,对单词特征ei按其所属的行人组件(如hair属于头部,shirt属于上半身)进行分类,得到每个单词归属于第k个行人组件的概率
Figure BDA0003588633260000102
具体公式如下:
Figure BDA0003588633260000103
其中
Figure BDA0003588633260000104
为1×1卷积层,σ表示sigmoid函数。则文本描述的第k个的人体组件特征则可通过
Figure BDA0003588633260000105
加权文本特征向量E得到,具体公式如下:
Figure BDA0003588633260000106
最终,将Ek经过行向量最大池化和1×1卷积层,得到第k个文本行人组件特征tk
将K个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型做出合理的分类,从而能得到K个文本局部人体组件特征。
在本实施例中,单词注意力模块由六个1×1卷积层构成的分类器实现。
S3:使用像素注意模型,结合交互训练策略,将文本中提取到的人体组件特征作为新的监督来引导图像网络模型提取图像中更细粒度的人体组件特征;
在本实施例中,像素注意力模型由六个1×1卷积层构成的分类器实现。
具体步骤包括:
提出像素注意力模型,给定图像骨干网络得到的定宽度为W,高度为H和通道数为C的特征图F,该像素注意力模型得到特征图上每个像素特征F(i,j)归属于第k个行人组件的概率,公式如下:
Figure BDA0003588633260000111
其中
Figure BDA0003588633260000112
为1×1卷积层,σ表示sigmoid函数。则一个行人图像的第k个的人体组件特征可通过
Figure BDA0003588633260000113
加权特征图F得到:
Figure BDA0003588633260000114
最终,将Fk经过全局最大池化和1×1卷积层,最终得到第k个细粒度的图像行人组件特征
Figure BDA0003588633260000115
S4:为避免单词注意力模型和像素注意模型退化成为提取全局特征的模型,提出交互训练的策略来训练单词注意力模型和像素注意注意力模型。
按步骤S2训练多轮,使得文本网络能够得到K个文本局部人体组件特征;
固定文本网络和单词注意力模型参数,利用文本网络提取的文本局部特征作为监督,通过约束
Figure BDA0003588633260000116
和tk相近,从而引导像素注意力模型做出合理的分类。通过上述操作,不同于水平划分特征图得到的粗糙人体组件特征
Figure BDA0003588633260000117
像素注意力模型能够从整个特征图上获取更完整的人体组件特征;
固定像素注意力模型参数,按步骤S2训练单词注意力模型,从而保证单词注意力模型获得的特征为文本中关于行人的组件特征表示;
重复多轮上述操作,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型。
S5:采用步骤S4的训练策略,构建身份损失和排序损失来训练模型。
具体步骤包括:
身份损失具体表示如下:
Figure BDA0003588633260000118
Figure BDA0003588633260000121
Figure BDA0003588633260000122
其中,Lce表示交叉熵损失,
Figure BDA0003588633260000123
表示第k个组件特征共享的映射矩阵,
Figure BDA0003588633260000124
Figure BDA0003588633260000125
Figure BDA0003588633260000126
分别表示应用于步骤S2和S3得到的粗糙图像组件特征、文本组件特征和细粒度图像组件特征的身份损失。
排序损失具体公式表示如下:
Figure BDA0003588633260000127
Figure BDA0003588633260000128
其中,
Figure BDA0003588633260000129
Figure BDA00035886332600001210
分别表示应用于步骤S2和S3得到的文本组件特征和粗糙图像组件特征之间,以及文本组件特征和细粒度图像组件特征之间的排序损失。α表示固定边距。Ip和Dp来自匹配的图像-文本对。Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像。S(·)表示将文本组件特征串联得到的文本特征和粗糙/细粒度图像组件特征串联得到的图像特征的余弦相似度。
训练单词注意力模型时,训练损失为:
Figure BDA00035886332600001211
训练像素注意力模型时,训练损失为:
Figure BDA00035886332600001212
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
Figure BDA0003588633260000131
S6:采用上述网络、训练策略和损失训练网络。具体设置为:超参数K和α取值为6和0.2。采用端对端的训练方式,批尺寸为64,采用随机翻转、随机裁剪的方式增强模型训练的鲁棒性。初始学习率设置为0.01,训练60个epoch。每20个epoch学习率下降为之前的0.1。交替训练策略中预训练单词注意力模型的epoch数为5。
S7:使用训练好的网络进行测试:对测试的全部图像和文本进行与训练集的图像和文本相同的预处理操作;将测试集中的文本(probe文本)和测试集图像库图像(gallery图像)分别通过训练好的网络得到6×1024维的特征,串联得到6144维特征;计算测试文本和图像库图像之间的余弦相似度;
具体的,将测试文本的特征向量表示为p,图像库图像的特征向量表示为q,则按照如下公式计算它们的余弦相似度为:
Figure BDA0003588633260000132
最终,判断方法为:余弦相似度数值分布在-1和1之间,数值越接近1说明测试文本和图像库图像越相似,越接近-1则说明越不相似。
为验证本发明方法的有效性,在CUHK-PDES和ICFG-PDES两个跨模态行人重识别数据集上进行了实验,进行了定量和定性的分析。
如下表1所示,表一中包含CUHK-PDES和ICFG-PDES两个数据集的部分训练结果。第一个模型的结果表示提取全局特征的基准模型的实验结果,后面若干模型的结果分别表示添加了WAM(单词注意力模型),PAM(像素注意力模型)和ISG(交互训练策略)这些模块的实验结果。实验结果表明了各部分的有效性。
表1 CUHK-PDES和ICFG-PDES上的自对比实验结果。
Figure BDA0003588633260000141
如表2所示,本发明与当前效果最好的已发表的方法在CUHK-PDES和ICFG-PDES的结果进行了比较。总体来说,本发明的方法明显高于其他方法的准确率。
表2本发明与其他方法在CUHK-PDES,ICFG-PDES的对比数据表
Figure BDA0003588633260000142
如表3所示,在相同实验设置下,本发明与当前效果最好的两个的已发表的基于组件提取三个个方法的推理速度进行比较。总体来说,一方面,本发明的方法高于跨模态交互的方法的速度,且本方法的速度在图像数目增长时基本保持不变。另一方面,本发明的方法与基于手工标注的组件提取方法ViTAA的速度相仿,但发明的方法无需额外的手工标注。
表3本发明与其他方法的速度对比数据表
Figure BDA0003588633260000143
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种文本到图像的跨模态行人再识别方法,其特征在于,包括下述步骤:
构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
2.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,具体步骤包括:
将文本中的单词编码成词典,并构建随机初始化的单词编码嵌入矩阵;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码嵌入矩阵得到每个单词的嵌入特征xi
将所有单词的嵌入特征送入Bi-LSTM网络,从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理,具体表示为:
Figure FDA0003588633250000021
Figure FDA0003588633250000022
其中,
Figure FDA0003588633250000023
Figure FDA0003588633250000024
分别表示第i个单词的向前和向后的隐藏状态,用于表示第i个单词的特征,定义如下:
Figure FDA0003588633250000025
文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]。
3.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述以ResNet-50网络作为图像特征提取的主干网络,具体将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像特征提取的主干网络。
4.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征,具体步骤包括:
通过给定文本特征向量输入到单词注意力模型,对单词特征按照其所属的行人组件进行分类,得到每个单词归属于第k个行人组件的概率
Figure FDA0003588633250000026
具体计算公式为:
Figure FDA0003588633250000027
其中,
Figure FDA0003588633250000028
表示卷积层,σ表示sigmoid函数,ei表示单词特征,
概率
Figure FDA0003588633250000031
加权文本特征向量得到参量Ek,具体表示为:
Figure FDA0003588633250000032
将参量Ek经过行向量最大池化和卷积层,得到文本局部人体组件特征。
5.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述将文本中提取到的人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征,具体步骤包括:
给定图像特征图输入到像素注意力模型,计算图像特征图上每个像素特征F(i,j)归属于第k个行人组件的概率
Figure FDA0003588633250000033
具体计算公式表示为:
Figure FDA0003588633250000034
其中,
Figure FDA0003588633250000035
表示卷积层,σ表示sigmoid函数;
概率
Figure FDA0003588633250000036
加权图像特征图得到参量Fk,具体表示为:
Figure FDA0003588633250000037
将参量Fk经过全局最大池化和卷积层,最终得到图像中更细粒度的人体组件特征。
6.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述构建身份损失和排序损失进行训练;
份损失具体表示如下:
Figure FDA0003588633250000038
Figure FDA0003588633250000039
Figure FDA0003588633250000041
其中,Lce表示交叉熵损失,
Figure FDA0003588633250000042
表示第k个组件特征共享的映射矩阵,
Figure FDA0003588633250000043
表示粗糙对齐的图像局部人体组件特征,tk表示文本局部人体组件特征,
Figure FDA0003588633250000044
表示图像中更细粒度的人体组件特征,
Figure FDA0003588633250000045
Figure FDA0003588633250000046
分别表示应用于粗糙对齐的图像局部人体组件特征、文本局部人体组件特征和图像中更细粒度的人体组件特征的身份损失;
排序损失具体计算公式表示为:
Figure FDA0003588633250000047
Figure FDA0003588633250000048
其中,
Figure FDA0003588633250000049
Figure FDA00035886332500000410
分别表示应用于文本局部人体组件特征和粗糙对齐的图像局部人体组件特征之间,以及文本局部人体组件特征和图像中更细粒度的人体组件特征之间的排序损失,Ip和Dp来自匹配的图像-文本对,Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像,S(·)表示将文本局部人体组件特征串联得到的文本特征和粗糙对齐的图像局部人体组件特征或图像中更细粒度的人体组件特征串联得到的图像特征的余弦相似度;
训练单词注意力模型时,训练损失为:
Figure FDA00035886332500000411
训练像素注意力模型时,训练损失为:
Figure FDA00035886332500000412
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
Figure FDA00035886332500000413
7.一种文本到图像的跨模态行人再识别系统,其特征在于,包括:文本网络模型和图像网络模型构建单元、图像局部人体组件特征提取单元、文本局部人体组件特征提取单元、细粒度人体组件特征提取单元、训练单元和识别结果输出单元;
所述文本网络模型和图像网络模型构建单元用于构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
所述图像局部人体组件特征提取单元用于将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
所述文本局部人体组件特征提取单元用于将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
所述细粒度人体组件特征提取单元用于使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
所述训练单元用于构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
所述识别结果输出单元用于在训练完成后输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
8.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一项所述文本到图像的跨模态行人再识别方法。
9.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-6任一项所述文本到图像的跨模态行人再识别方法。
CN202210371007.9A 2022-04-11 2022-04-11 文本到图像的跨模态行人再识别方法、系统、介质和设备 Active CN114821770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210371007.9A CN114821770B (zh) 2022-04-11 2022-04-11 文本到图像的跨模态行人再识别方法、系统、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210371007.9A CN114821770B (zh) 2022-04-11 2022-04-11 文本到图像的跨模态行人再识别方法、系统、介质和设备

Publications (2)

Publication Number Publication Date
CN114821770A true CN114821770A (zh) 2022-07-29
CN114821770B CN114821770B (zh) 2024-03-26

Family

ID=82533877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210371007.9A Active CN114821770B (zh) 2022-04-11 2022-04-11 文本到图像的跨模态行人再识别方法、系统、介质和设备

Country Status (1)

Country Link
CN (1) CN114821770B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226434A (zh) * 2023-05-04 2023-06-06 浪潮电子信息产业股份有限公司 一种多元异构模型训练及应用方法、设备及可读存储介质
CN116682144A (zh) * 2023-06-20 2023-09-01 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN114036336A (zh) * 2021-11-15 2022-02-11 上海交通大学 基于语义划分的视觉文本属性对齐的行人图像搜索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN114036336A (zh) * 2021-11-15 2022-02-11 上海交通大学 基于语义划分的视觉文本属性对齐的行人图像搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张伟信;刘斌;: "基于残差网络的特征加权行人重识别研究", 微电子学与计算机, no. 04, 5 April 2020 (2020-04-05), pages 30 - 35 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226434A (zh) * 2023-05-04 2023-06-06 浪潮电子信息产业股份有限公司 一种多元异构模型训练及应用方法、设备及可读存储介质
CN116682144A (zh) * 2023-06-20 2023-09-01 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN116682144B (zh) * 2023-06-20 2023-12-22 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法

Also Published As

Publication number Publication date
CN114821770B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
Hasani et al. Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields
CN110427867B (zh) 基于残差注意力机制的面部表情识别方法及系统
CN112085012B (zh) 项目名称和类别识别方法及装置
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN108960059A (zh) 一种视频动作识别方法及装置
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN114821770B (zh) 文本到图像的跨模态行人再识别方法、系统、介质和设备
CN109993100A (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN114358205B (zh) 模型训练方法、模型训练装置、终端设备及存储介质
CN110705490A (zh) 视觉情感识别方法
Uehara et al. Visual question generation for class acquisition of unknown objects
Lin et al. Joint learning of local and global context for temporal action proposal generation
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN110750673B (zh) 图像处理方法、装置、设备及存储介质
CN109492610A (zh) 一种行人重识别方法、装置及可读存储介质
CN109784295B (zh) 视频流特征识别方法、装置、设备及存储介质
CN114764941A (zh) 一种表情识别方法、装置以及电子设备
CN114581956A (zh) 一种多分支细粒度特征融合的行人重识别方法
CN113785304A (zh) 人脸识别方法和装置
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
US20080019595A1 (en) System And Method For Identifying Patterns
CN117079310A (zh) 一种图文多模态融合的行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant