CN114821770A - 文本到图像的跨模态行人再识别方法、系统、介质和设备 - Google Patents
文本到图像的跨模态行人再识别方法、系统、介质和设备 Download PDFInfo
- Publication number
- CN114821770A CN114821770A CN202210371007.9A CN202210371007A CN114821770A CN 114821770 A CN114821770 A CN 114821770A CN 202210371007 A CN202210371007 A CN 202210371007A CN 114821770 A CN114821770 A CN 114821770A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- human body
- body component
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 230000002452 interceptive effect Effects 0.000 claims abstract description 9
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 229920003199 poly(diethylsiloxane) Polymers 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文本到图像的跨模态行人再识别方法、系统、介质和设备,该方法包括下述步骤:构建基于人体组件的文本网络模型和图像网络模型,提取多个粗糙对齐的图像局部人体组件特征;将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;构建身份损失和排序损失进行训练;训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。本发明无需借助额外的工具或者手工标注,具有更好的泛化性能和更小的成本。
Description
技术领域
本发明涉及文本描述的行人重识别技术领域,具体涉及一种文本到图像的跨模态行人再识别方法、系统、介质和设备。
背景技术
行人重识别(Person Re-Identification)指的是给定特定行人的图像、视频或者文本描述,算法模型在图像库或者视频库中寻找到该行人对应的图像或者视频。
根据给定的检索内容,行人重识别可分为:基于图像的行人重识别、基于属性的行人重识别和基于文本描述的行人重识别。在实际应用中,基于文本描述的行人重识别的效果往往比另外两种行人重识别技术好。一方面,由于现实场景中,目标对象实时的图像往往不容易获得,而目标对象的文本描述更容易获得。例如,有个小孩或者老人走丢时,寻人启事中往往只给了走丢时的衣着外貌的描述和过去的生活照,基于图像的行人重识别对于这种换衣的场景下往往难以有很好的效果,而此时基于文本描述的行人重识别在这种追踪场景下可以轻松使用文本描述进行检索并且保证性能不会明显下降。另一方面,虽然基于属性的行人重识别在上述场景同样也能发挥效果,但是基于属性的行人重识别往往受限于训练数据属性的设置,而基于文本描述的行人重识别具有更好的自由度和更丰富的信息,在实际中具有更好的性能。因此,基于文本描述的行人重识别技术具有更好的亲和性和灵活度。
主流的方法往往采取提取跨模态对齐的组件特征来建模该问题。然而,由于文本和图像存在模态间的差异,现有算法很难自动提取跨模态对齐的组件特征,往往存在以下两种问题:
1.提取文本组件特征的困难:现有算法使用额外的名词短语提取器或者手工标注的方式来提取文本组件特征,导致了模型的泛化性能下降和模型的成本增加。
2.跨模态组件特征对齐的困难:由于文本描述具有主观性,导致无法得知网络所得的文本组件属于人体哪个组件。因此,现有算法使用两个模态相互交互的方式或者手工标注的方式来提取到对齐的局部特征。然而,模态交互的做法在提升了算法有限的性能的同时带来了模型复杂度过高的问题,这和手工标注一样,使得模型的成本增加了。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种文本到图像的跨模态行人再识别方法,通过利用行人图像中粗对齐的人体组件作为监督,引导文本网络模型自动提取文本中关于人体组件的特征,进而提出一种交互训练策略,将文本中提取到的人体组件特征作为新的监督来引导图像网络模型提取更细粒度的图像中关于人体组件的特征,从而得到对齐的跨模态组件特征。
本发明的第二目的在于提供一种文本到图像的跨模态行人再识别系统。
本发明的第三目的在于提供一种计算机可读存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种文本到图像的跨模态行人再识别方法,包括下述步骤:
构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
作为优选的技术方案,所述以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,具体步骤包括:
将文本中的单词编码成词典,并构建随机初始化的单词编码嵌入矩阵;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码嵌入矩阵得到每个单词的嵌入特征xi;
将所有单词的嵌入特征送入Bi-LSTM网络,从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理,具体表示为:
文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]。
作为优选的技术方案,所述以ResNet-50网络作为图像特征提取的主干网络,具体将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像特征提取的主干网络。
作为优选的技术方案,所述将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征,具体步骤包括:
将参量Ek经过行向量最大池化和卷积层,得到文本局部人体组件特征。
作为优选的技术方案,所述将文本中提取到的人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征,具体步骤包括:
将参量Fk经过全局最大池化和卷积层,最终得到图像中更细粒度的人体组件特征。
作为优选的技术方案,所述构建身份损失和排序损失进行训练;
份损失具体表示如下:
其中,Lce表示交叉熵损失,表示第k个组件特征共享的映射矩阵,表示粗糙对齐的图像局部人体组件特征,tk表示文本局部人体组件特征,表示图像中更细粒度的人体组件特征,和分别表示应用于粗糙对齐的图像局部人体组件特征、文本局部人体组件特征和图像中更细粒度的人体组件特征的身份损失;
排序损失具体计算公式表示为:
其中,和分别表示应用于文本局部人体组件特征和粗糙对齐的图像局部人体组件特征之间,以及文本局部人体组件特征和图像中更细粒度的人体组件特征之间的排序损失,Ip和Dp来自匹配的图像-文本对,Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像,S(·)表示将文本局部人体组件特征串联得到的文本特征和粗糙对齐的图像局部人体组件特征或图像中更细粒度的人体组件特征串联得到的图像特征的余弦相似度;
训练单词注意力模型时,训练损失为:
训练像素注意力模型时,训练损失为:
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
为了达到上述第二目的,本发明采用以下技术方案:
一种文本到图像的跨模态行人再识别系统,包括:文本网络模型和图像网络模型构建单元、图像局部人体组件特征提取单元、文本局部人体组件特征提取单元、细粒度人体组件特征提取单元、训练单元和识别结果输出单元;
所述文本网络模型和图像网络模型构建单元用于构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
所述图像局部人体组件特征提取单元用于将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
所述文本局部人体组件特征提取单元用于将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
所述细粒度人体组件特征提取单元用于使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
所述训练单元用于构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
所述识别结果输出单元用于在训练完成后输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现如上述文本到图像的跨模态行人再识别方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述文本到图像的跨模态行人再识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提出跨模态组件特征自对齐模型,利用图像存在的对齐先验知识作为引导,自动提取出文本中关于行人不同的组件描述的组件特征,由于无需借助额外的工具或者手工标注,本发明的提出的模型具有更好的泛化性能和更小的成本。
附图说明
图1为本发明文本到图像的跨模态行人再识别方法的流程示意图;
图2为本发明文本到图像的跨模态行人再识别方法的实现构架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1、图2所示,本实施例提供一种文本到图像的跨模态行人再识别方法,包括以下步骤:
S1:构建基于人体组件的文本网络模型和图像网络模型,用于提取两个模态的特征;
在本实施例中,以Bi-LSTM网络作为文本特征提取的主干网络,给定一个含有n个单词的文本,Bi-LSTM处理该文本得到文本特征E,其中每个单词的特征表示为ei;以ResNet-50网络作为图像特征提取的主干网络,给定一张行人图像,ResNet-50处理该图像得到图像特征图F。
具体步骤包括:
将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像的骨干网络;
将训练数据集中单词出现频次大于等于两次的单词进行编码成词典,并构建随机初始化的单词编码嵌入矩阵(维度为V和U,分别代表字典的长度和单词的嵌入特征的维数),并连接Bi-LSTM,作为文本的骨干网络;
给定一张行人图像,训练阶段进行随机裁剪和翻转(推理阶段不需要),并且将图像缩放至384×128像素大小,通过图像骨干网络运算得到该图像的特征图F;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码的嵌入矩阵得到每个单词的嵌入特征xi,接着所有单词的嵌入特征送入Bi-LSTM网络。该网络从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理。具体公式如下:
最后,文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]
S2:提取利用行人图像中粗对齐的人体组件作为监督,引导文本网络模型自动提取文本中关于人体组件的特征;
具体步骤包括:
利用行人图像之间具有粗对齐的特点,将图像经过步骤S1中的图像主干网络提取的特征图F水平划分为K份(通常K取值为6,第一个对应人体头部,第二、第三个对应上半身,第四、第五个对应下半身,第六个对应脚),再分别经过全局最大池化和1×1卷积层,得到P个粗糙对齐的图像局部人体组件特征
最终,将Ek经过行向量最大池化和1×1卷积层,得到第k个文本行人组件特征tk;
将K个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型做出合理的分类,从而能得到K个文本局部人体组件特征。
在本实施例中,单词注意力模块由六个1×1卷积层构成的分类器实现。
S3:使用像素注意模型,结合交互训练策略,将文本中提取到的人体组件特征作为新的监督来引导图像网络模型提取图像中更细粒度的人体组件特征;
在本实施例中,像素注意力模型由六个1×1卷积层构成的分类器实现。
具体步骤包括:
提出像素注意力模型,给定图像骨干网络得到的定宽度为W,高度为H和通道数为C的特征图F,该像素注意力模型得到特征图上每个像素特征F(i,j)归属于第k个行人组件的概率,公式如下:
S4:为避免单词注意力模型和像素注意模型退化成为提取全局特征的模型,提出交互训练的策略来训练单词注意力模型和像素注意注意力模型。
按步骤S2训练多轮,使得文本网络能够得到K个文本局部人体组件特征;
固定文本网络和单词注意力模型参数,利用文本网络提取的文本局部特征作为监督,通过约束和tk相近,从而引导像素注意力模型做出合理的分类。通过上述操作,不同于水平划分特征图得到的粗糙人体组件特征像素注意力模型能够从整个特征图上获取更完整的人体组件特征;
固定像素注意力模型参数,按步骤S2训练单词注意力模型,从而保证单词注意力模型获得的特征为文本中关于行人的组件特征表示;
重复多轮上述操作,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型。
S5:采用步骤S4的训练策略,构建身份损失和排序损失来训练模型。
具体步骤包括:
身份损失具体表示如下:
排序损失具体公式表示如下:
其中,和分别表示应用于步骤S2和S3得到的文本组件特征和粗糙图像组件特征之间,以及文本组件特征和细粒度图像组件特征之间的排序损失。α表示固定边距。Ip和Dp来自匹配的图像-文本对。Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像。S(·)表示将文本组件特征串联得到的文本特征和粗糙/细粒度图像组件特征串联得到的图像特征的余弦相似度。
训练单词注意力模型时,训练损失为:
训练像素注意力模型时,训练损失为:
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
S6:采用上述网络、训练策略和损失训练网络。具体设置为:超参数K和α取值为6和0.2。采用端对端的训练方式,批尺寸为64,采用随机翻转、随机裁剪的方式增强模型训练的鲁棒性。初始学习率设置为0.01,训练60个epoch。每20个epoch学习率下降为之前的0.1。交替训练策略中预训练单词注意力模型的epoch数为5。
S7:使用训练好的网络进行测试:对测试的全部图像和文本进行与训练集的图像和文本相同的预处理操作;将测试集中的文本(probe文本)和测试集图像库图像(gallery图像)分别通过训练好的网络得到6×1024维的特征,串联得到6144维特征;计算测试文本和图像库图像之间的余弦相似度;
具体的,将测试文本的特征向量表示为p,图像库图像的特征向量表示为q,则按照如下公式计算它们的余弦相似度为:
最终,判断方法为:余弦相似度数值分布在-1和1之间,数值越接近1说明测试文本和图像库图像越相似,越接近-1则说明越不相似。
为验证本发明方法的有效性,在CUHK-PDES和ICFG-PDES两个跨模态行人重识别数据集上进行了实验,进行了定量和定性的分析。
如下表1所示,表一中包含CUHK-PDES和ICFG-PDES两个数据集的部分训练结果。第一个模型的结果表示提取全局特征的基准模型的实验结果,后面若干模型的结果分别表示添加了WAM(单词注意力模型),PAM(像素注意力模型)和ISG(交互训练策略)这些模块的实验结果。实验结果表明了各部分的有效性。
表1 CUHK-PDES和ICFG-PDES上的自对比实验结果。
如表2所示,本发明与当前效果最好的已发表的方法在CUHK-PDES和ICFG-PDES的结果进行了比较。总体来说,本发明的方法明显高于其他方法的准确率。
表2本发明与其他方法在CUHK-PDES,ICFG-PDES的对比数据表
如表3所示,在相同实验设置下,本发明与当前效果最好的两个的已发表的基于组件提取三个个方法的推理速度进行比较。总体来说,一方面,本发明的方法高于跨模态交互的方法的速度,且本方法的速度在图像数目增长时基本保持不变。另一方面,本发明的方法与基于手工标注的组件提取方法ViTAA的速度相仿,但发明的方法无需额外的手工标注。
表3本发明与其他方法的速度对比数据表
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种文本到图像的跨模态行人再识别方法,其特征在于,包括下述步骤:
构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
2.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,具体步骤包括:
将文本中的单词编码成词典,并构建随机初始化的单词编码嵌入矩阵;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码嵌入矩阵得到每个单词的嵌入特征xi;
将所有单词的嵌入特征送入Bi-LSTM网络,从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理,具体表示为:
文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]。
3.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述以ResNet-50网络作为图像特征提取的主干网络,具体将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像特征提取的主干网络。
6.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述构建身份损失和排序损失进行训练;
份损失具体表示如下:
其中,Lce表示交叉熵损失,表示第k个组件特征共享的映射矩阵,表示粗糙对齐的图像局部人体组件特征,tk表示文本局部人体组件特征,表示图像中更细粒度的人体组件特征,和分别表示应用于粗糙对齐的图像局部人体组件特征、文本局部人体组件特征和图像中更细粒度的人体组件特征的身份损失;
排序损失具体计算公式表示为:
其中,和分别表示应用于文本局部人体组件特征和粗糙对齐的图像局部人体组件特征之间,以及文本局部人体组件特征和图像中更细粒度的人体组件特征之间的排序损失,Ip和Dp来自匹配的图像-文本对,Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像,S(·)表示将文本局部人体组件特征串联得到的文本特征和粗糙对齐的图像局部人体组件特征或图像中更细粒度的人体组件特征串联得到的图像特征的余弦相似度;
训练单词注意力模型时,训练损失为:
训练像素注意力模型时,训练损失为:
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
7.一种文本到图像的跨模态行人再识别系统,其特征在于,包括:文本网络模型和图像网络模型构建单元、图像局部人体组件特征提取单元、文本局部人体组件特征提取单元、细粒度人体组件特征提取单元、训练单元和识别结果输出单元;
所述文本网络模型和图像网络模型构建单元用于构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
所述图像局部人体组件特征提取单元用于将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
所述文本局部人体组件特征提取单元用于将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
所述细粒度人体组件特征提取单元用于使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
所述训练单元用于构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
所述识别结果输出单元用于在训练完成后输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
8.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一项所述文本到图像的跨模态行人再识别方法。
9.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-6任一项所述文本到图像的跨模态行人再识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210371007.9A CN114821770B (zh) | 2022-04-11 | 2022-04-11 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210371007.9A CN114821770B (zh) | 2022-04-11 | 2022-04-11 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821770A true CN114821770A (zh) | 2022-07-29 |
CN114821770B CN114821770B (zh) | 2024-03-26 |
Family
ID=82533877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210371007.9A Active CN114821770B (zh) | 2022-04-11 | 2022-04-11 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821770B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226434A (zh) * | 2023-05-04 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种多元异构模型训练及应用方法、设备及可读存储介质 |
CN116682144A (zh) * | 2023-06-20 | 2023-09-01 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829430A (zh) * | 2019-01-31 | 2019-05-31 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN114036336A (zh) * | 2021-11-15 | 2022-02-11 | 上海交通大学 | 基于语义划分的视觉文本属性对齐的行人图像搜索方法 |
-
2022
- 2022-04-11 CN CN202210371007.9A patent/CN114821770B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN109829430A (zh) * | 2019-01-31 | 2019-05-31 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN113220919A (zh) * | 2021-05-17 | 2021-08-06 | 河海大学 | 一种大坝缺陷图像文本跨模态检索方法及模型 |
CN114036336A (zh) * | 2021-11-15 | 2022-02-11 | 上海交通大学 | 基于语义划分的视觉文本属性对齐的行人图像搜索方法 |
Non-Patent Citations (1)
Title |
---|
张伟信;刘斌;: "基于残差网络的特征加权行人重识别研究", 微电子学与计算机, no. 04, 5 April 2020 (2020-04-05), pages 30 - 35 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226434A (zh) * | 2023-05-04 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种多元异构模型训练及应用方法、设备及可读存储介质 |
CN116682144A (zh) * | 2023-06-20 | 2023-09-01 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
CN116682144B (zh) * | 2023-06-20 | 2023-12-22 | 北京大学 | 一种基于多层次跨模态差异调和的多模态行人重识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114821770B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hasani et al. | Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields | |
CN110427867B (zh) | 基于残差注意力机制的面部表情识别方法及系统 | |
CN112085012B (zh) | 项目名称和类别识别方法及装置 | |
CN110851641B (zh) | 跨模态检索方法、装置和可读存储介质 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN114821770B (zh) | 文本到图像的跨模态行人再识别方法、系统、介质和设备 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
CN111860193B (zh) | 一种基于文本的行人检索自监督视觉表示学习系统及方法 | |
CN114358205B (zh) | 模型训练方法、模型训练装置、终端设备及存储介质 | |
CN110705490A (zh) | 视觉情感识别方法 | |
Uehara et al. | Visual question generation for class acquisition of unknown objects | |
Lin et al. | Joint learning of local and global context for temporal action proposal generation | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN110750673B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN109492610A (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN109784295B (zh) | 视频流特征识别方法、装置、设备及存储介质 | |
CN114764941A (zh) | 一种表情识别方法、装置以及电子设备 | |
CN114581956A (zh) | 一种多分支细粒度特征融合的行人重识别方法 | |
CN113785304A (zh) | 人脸识别方法和装置 | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
US20080019595A1 (en) | System And Method For Identifying Patterns | |
CN117079310A (zh) | 一种图文多模态融合的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |