CN112364197B - 一种基于文本描述的行人图像检索方法 - Google Patents

一种基于文本描述的行人图像检索方法 Download PDF

Info

Publication number
CN112364197B
CN112364197B CN202011262275.4A CN202011262275A CN112364197B CN 112364197 B CN112364197 B CN 112364197B CN 202011262275 A CN202011262275 A CN 202011262275A CN 112364197 B CN112364197 B CN 112364197B
Authority
CN
China
Prior art keywords
image
text
features
feature
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011262275.4A
Other languages
English (en)
Other versions
CN112364197A (zh
Inventor
邵杰
张鹏
欧阳德强
蒋春林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202011262275.4A priority Critical patent/CN112364197B/zh
Publication of CN112364197A publication Critical patent/CN112364197A/zh
Application granted granted Critical
Publication of CN112364197B publication Critical patent/CN112364197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于文本描述的行人图像检索方法,包括以下步骤:S1、构建行人图像检索模型,对行人图像检索模型进行训练,得到训练完成的行人图像检索模型;S2、采用训练完成的行人图像检索模型计算图像特征和文本特征之间的余弦相似度值,根据余弦相似度值,得到基于文本描述检索到的行人图像。本发明解决了现有技术中基于文本描述的行人图像检索任务中行人特征类内差异过大而类内差异过小的问题。

Description

一种基于文本描述的行人图像检索方法
技术领域
本发明涉及跨媒体信息检索领域,具体涉及一种基于文本描述的行人图像检索方法。
背景技术
给定一段以自然语言形式对行人外观进行描述的查询文本,基于文本描述的行人图像检索旨在从行人图像数据库中检索出最相关的行人图像。随着视频监控的逐步推广和普及,本任务在预防犯罪、天眼寻人、形迹追踪等领域有着重要的应用价值。该任务的主要难点在于文本特征和图像特征属于不同模态的特征,两者之间存在着异构语义鸿沟。在应用场景中,我们需要计算文本特征和图库中行人图像特征之间的相似度。然而,直接计算图像和文本的特征相似度是没有意义的。因为它们来自两个完全不同的语义空间,这意味着特征相似度可能与它们的匹配程度无关。为了解决这个问题,许多已提出的算法致力于在共享特征空间中为每个行人学习具有模态不变的和具有区分度的特征。
这些算法大多采用了多分类交叉熵损失函数来学习更具有区分度的图像与文本联合嵌入特征。交叉熵损失函数能够促进模型将同一行人的图像特征和文本特征分类为同一类别,从而间接提高匹配的图像文本对的相似度。直观来看,在共享语义特征空间中同时最大化相同类内部的紧凑性和不同类间的差异将有助于模型学习到更具有区分度的特征。在基于文本描述的行人图像检索研究的相关算法中,softmax损失函数被广泛应用。Softmax损失函数由一个全连接层,一个softmax函数和一个交叉熵损失函数组成。从softmax损失函数的数学表达式可以看出,它并且没有直接增加类内部的紧致度和类间的差异。由softmax损失函数训练出来的特征会存在一些问题,例如:类内特征的相似度反而小于类间特征相似度。Softmax损失函数中的完全连接层实际上起着线性分类器的作用,特征所属类的概率分布取决于该特征与完全连接层中每个类权重向量的内积。值得注意的是,内积的值可以被分解为向量的模和角度余弦的大小。因此,我们可以考虑增大特征与线性分类其中类权重向量的角度间隔来获得更具有区分度的特征。与人脸识别相比,如何将角度余量纳入softmax损失函数中并同时考虑视觉和文本特征的联合嵌入学习是挑战所在。
在行人相关任务领域,深度度量学习已得到广泛应用。在人脸识别和行人再识别等领域中,对比损失(ContrastiveLoss)和三元组损失(Triplet Loss)已显示出其令人印象深刻的改进模型性能的能力。但是,三元组损失对基于文本描述的行人图像检索却收效甚微。通过审视基于对的度量损失(如对比损失和三元组损失)的数学表达式,我们发现正对或负对的系数相等,这似乎是不合理的。例如,可能存在一些异常的图像文本对,它们匹配但余弦相似度分数低,或者不匹配但余弦相似度分数高。这些异常对总是提供更多信息和价值。显然,异常对应该比那些正常对受到更多的关注。基于这些分析,我们考虑在基于文本描述的行人图像检索研究中为异常图像文本对赋予更大的权重,以此提高模型的学习效率。
已有的算法大都采用全连接层形成的一个线性分类器对特征进行类别分类进而通过多分类交叉熵损失函数来促进模型学习更准确的行人特征。然而,这种直接采用线性分类器计算特征所属类别概率分布的方法却存在着明显的不足。它不能增大类内特征的相似度与此同时增大类间特征的差异,这就导致一个后果:尽管模型能够做好图像和文本特征所属行人类别的分类,但在推理过程中计算文本和数据库中图像相似度时却无法建立匹配度与相似度的正确关系。此外,在基于文本描述的行人图像检索任务中,模型主要处理的对象是图像文本对。这些图像文本对会存在一些不匹配然而相似度却较高,或者匹配然而相似度却较低的情况。这就要求我们对不同的图像文本对应该赋予不同的关注,对于一些匹配却相似度较低的图文对以及不匹配却具有较高相似度的图文对,模型应该赋予更多的关注从而提高模型学习的效率。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于文本描述的行人图像检索方法解决了现有技术中基于文本描述的行人图像检索任务中行人特征类内差异过大而类内差异过小的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于文本描述的行人图像检索方法,包括以下步骤:
S1、构建行人图像检索模型,对行人图像检索模型进行训练,得到训练完成的行人图像检索模型;
S2、采用训练完成的行人图像检索模型计算图像特征和文本特征之间的余弦相似度值,根据余弦相似度值,得到基于文本描述检索到的行人图像。
进一步地,所述步骤S1中行人图像检索模型包括:图像特征提取器、文本特征提取器和联合嵌入学习器;
所述图像特征提取器为去除最后全连接层的MobileNet模型;
所述文本特征提取器包括:词嵌入层和双向长短期记忆网络;
所述联合嵌入学习器包括:共享参数全连接层。
进一步地,所述步骤S1包括以下分步骤:
S11、采用文本特征提取器对输入文本进行特征提取,得到初始文本特征;
S12、采用图像特征提取器对输入的行人图像进行特征提取,得到初始图像特征;
S13、将初始文本特征和初始图像特征输入联合嵌入学习器,构建损失函数模型,并基于损失函数模型对联合嵌入学习器进行训练,得到训练完成的行人图像检索模型。
进一步地,所述步骤S13中联合嵌入学习器的共享参数全连接层的损失函数模型为:
L=Lmam+Lpsw+Lcmpm
其中,L为总体损失函数,Lmam为乘性角度余量损失函数,Lpsw为成对相似度加权损失函数,Lcmpm为跨模态投影匹配损失函数。
进一步地,所述乘性角度余量损失函数为:
Lmam=Ltpi+Lipt
Figure BDA0002775025480000041
Figure BDA0002775025480000042
Figure BDA0002775025480000043
Figure BDA0002775025480000044
其中,Lipt为图像分类损失函数,Ltpi为文本分类损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,zi为经联合嵌入学习器得到的文本特征,
Figure BDA0002775025480000045
为归一化的图像特征,
Figure BDA0002775025480000046
为归一化的文本特征,
Figure BDA0002775025480000047
为图像特征xi
Figure BDA0002775025480000048
上的投影图像特征,
Figure BDA0002775025480000049
为文本特征zi
Figure BDA00027750254800000410
上的投影文本特征,j为共享参数全连接层中的类别,yi为真实类别标签,
Figure BDA00027750254800000411
为全连接层中类别yi的归一化类权重向量与投影图像特征
Figure BDA00027750254800000412
的夹角,θj,i为全连接层中类别j的归一化权类权重向量与投影图像特征
Figure BDA00027750254800000413
的夹角,m为角度间隔系数。
上述进一步方案的有益效果为:本发明提出的乘性角度余量损失函数,通过将其中一个模态特征投影到另一个模态的标准化特征来融合文本和图像特征,并从文本和图像特征中获得了一个新的特征向量,这个向量的模来自其中一个特征向量,它的方向却与另外一个方向相同。通过这种方式,实现增强了匹配文本图像对的文本和图像特征的关联。
进一步地,所述成对相似度加权损失函数为:
Figure BDA0002775025480000051
其中,Lpsw为成对相似度加权损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,
Figure BDA0002775025480000052
为第一组超参数,
Figure BDA0002775025480000053
为第二组超参数,
Figure BDA0002775025480000054
为第
Figure BDA0002775025480000055
个图像文本特征对,Sii为图像特征xi与其匹配的文本特征zi的相似度,
Figure BDA0002775025480000056
为文本特征
Figure BDA0002775025480000057
与其匹配的图像特征
Figure BDA0002775025480000058
的相似度,
Figure BDA0002775025480000059
为Sii的p次方,
Figure BDA00027750254800000510
Figure BDA00027750254800000511
的q次方,p和q为次方数,
Figure BDA00027750254800000512
为图像特征xi与xi的负样本的相似度分数集合,
Figure BDA00027750254800000513
为文本特征
Figure BDA00027750254800000514
Figure BDA00027750254800000515
的负样本的相似度分数集合,
Figure BDA00027750254800000516
Figure BDA00027750254800000517
集合中最大值的q次方,
Figure BDA00027750254800000518
Figure BDA00027750254800000519
集合中最大值的q次方。
上述进一步方案的有益效果为:本发明设计的成对相似度加权损失函数具有:负对的权重与其相似度值成正比,从而确保为异常图文对分配更高的权重。
进一步地,所述跨模态投影匹配(CMPM)损失函数为:
Figure BDA0002775025480000061
其中,Lcmpm为跨模态投影匹配(CMPM)损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,
Figure BDA0002775025480000062
为第
Figure BDA0002775025480000063
个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,
Figure BDA0002775025480000064
为第k个归一化的文本特征,
Figure BDA0002775025480000065
为第
Figure BDA0002775025480000066
个归一化的文本特征,
Figure BDA0002775025480000067
Figure BDA0002775025480000068
为第
Figure BDA0002775025480000069
个文本特征,
Figure BDA00027750254800000610
为第i个图像特征与第
Figure BDA00027750254800000611
个文本特征是否匹配,匹配取1,不匹配取0,yi,k为第i个图像特征与第k个文本特征是否匹配,匹配取1,不匹配取0,∈为避免出现分母为0而设置的参数。
上述进一步方案的有益效果为:本发明设计的跨模态投影匹配(CMPM)损失函数本质上是一个相对熵的应用,这样设计能够促使xi
Figure BDA00027750254800000612
匹配的后验概率、xi
Figure BDA00027750254800000613
真实的匹配概率有尽可能相同的概率分布。
综上,本发明的有益效果为:本发明的方法可以直接提高属于同一行人的图文特征相似度,同时也能直接增大属于不同行人的图文特征之间的差异。这有助于模型在推理过程中,计算特征相似度时获得优异的性能。另外,本方法在模型学习的过程中,为不同图文对赋予不同权重。这有助于模型在学习参数的过程中更具有针对性,从而能从一些异常图文对中学习到更多的信息。本发明仅凭借对损失函数的设计与改进,就使得模型在基于文本描述的行人图像检索任务上获得了令人满意的性能。与现有技术相比,本发明的方法操作简单,对计算资源要求不高,性能稳定且优异。
附图说明
图1为一种基于文本描述的行人图像检索方法的流程图;
图2为行人图像检索模型的结构示意图;
图3为不匹配图文对的余弦相似度与成对相似度加权损失函数之间关系的图;
图4为消融实验结果图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于文本描述的行人图像检索方法,包括以下步骤:
S1、构建行人图像检索模型,对行人图像检索模型进行训练,得到训练完成的行人图像检索模型;
如图2所示,步骤S1中行人图像检索模型包括:图像特征提取器、文本特征提取器和联合嵌入学习器;
所述图像特征提取器为去除最后全连接层的MobileNet模型;
所述文本特征提取器包括:词嵌入层和双向长短期记忆网络;
所述联合嵌入学习器包括:共享参数全连接层。
所述步骤S1包括以下分步骤:
S11、采用文本特征提取器对输入文本进行特征提取,得到初始文本特征;
S12、采用图像特征提取器对输入的行人图像进行特征提取,得到初始图像特征;
S13、将初始文本特征和初始图像特征输入联合嵌入学习器,构建损失函数模型,并基于损失函数模型对联合嵌入学习器进行训练,得到训练完成的行人图像检索模型。
联合嵌入学习器的共享参数全连接层的损失函数模型为:
L=Lmam+Lpsw+Lcmpm
其中,L为享参数全连接层的损失函数,Lmam为乘性角度余量损失函数,Lpsw为成对相似度加权损失函数,Lcmpm为跨模态投影匹配损失函数。
所述乘性角度余量损失函数(MultiplicativeAngularMargin,简称MAM)为:
Lmam=Ltpi+Lipt
Figure BDA0002775025480000081
Figure BDA0002775025480000082
Figure BDA0002775025480000083
Figure BDA0002775025480000084
其中,Lipt为图像分类损失函数,Ltpi为文本分类损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,zi为经联合嵌入学习器得到的文本特征,
Figure BDA0002775025480000085
为归一化的图像特征,
Figure BDA0002775025480000086
为归一化的文本特征,
Figure BDA0002775025480000087
为图像特征xi
Figure BDA00027750254800000812
上的投影图像特征,
Figure BDA0002775025480000088
为文本特征zi
Figure BDA0002775025480000089
上的投影文本特征,j为共享参数全连接层中的类别,yi为真实类别标签,
Figure BDA00027750254800000813
为全连接层中类别yi的归一化类权重向量与投影图像特征
Figure BDA00027750254800000810
的夹角,θj,i为全连接层中类别j的归一化权类权重向量与投影图像特征
Figure BDA00027750254800000811
的夹角,m为角度间隔系数。
乘性角度余量损失函数的论证过程为:
一个小批量中有N个人图像和相应的描述。图像文本对被表示为
Figure BDA0002775025480000091
其中xi和zj为经联合嵌入学习模块获得的图像和文本特征。yi,j=1表示该文本图像对是匹配的,相应的yi,j=0表示不匹配。
首先介绍现有技术中基于文本描述的行人图像检索任务中常用的softmax损失函数。一个图像特征xi和它相应的真实类别标签yi,softmax损失函数如下所示:
Figure BDA0002775025480000092
其中Wj
Figure BDA0002775025480000093
代表着全连接层中类别j和yi的类权重向量,θj
Figure BDA0002775025480000094
分别代表Wj
Figure BDA0002775025480000095
和图像特征xi的夹角。Softmax损失函数尝试去最大化真实类别的后验概率来学习到正确的类别特征。为了更好地提升模型性能,本发明将Wj做了L2归一化。因此,
Figure BDA0002775025480000096
的余弦值成为影响类别后验概率的两个变量之一。本发明修改后的softmax损失函数Lms表示如下:
Figure BDA0002775025480000097
本发明提出的乘性角度余量损失函数,与仅涉及图像特征的人脸识别算法不同,基于文本描述的行人图像检索不仅关注图像特征,还涉及文本特征。本发明通过将其中一个模态特征投影到另一个模态的标准化特征来融合文本和图像特征。因此,可从文本和图像特征中获得了一个新的特征向量,这个向量的模来自其中一个特征向量,它的方向却与另外一个方向相同。通过这种方式,增强了匹配文本图像对的文本和图像特征的关联。更重要的是,在
Figure BDA0002775025480000098
前面乘以一个系数m从而为softmax损失函数增加了一个角度间隔。最终,得到本发明提出的乘性角度余量损失函数。
所述成对相似度加权损失函数(Pairwise Similarity Weighting,简称PSW)为:
Figure BDA0002775025480000101
其中,Lpsw为成对相似度加权损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,
Figure BDA0002775025480000102
为第一组超参数,
Figure BDA0002775025480000103
为第二组超参数,
Figure BDA0002775025480000104
为第
Figure BDA0002775025480000105
个图像文本特征对,Sii为图像特征xi与其匹配的文本特征zi的相似度,
Figure BDA0002775025480000106
为文本特征
Figure BDA0002775025480000107
与其匹配的图像特征
Figure BDA0002775025480000108
的相似度,
Figure BDA0002775025480000109
为Sii的p次方,
Figure BDA00027750254800001010
Figure BDA00027750254800001011
的q次方,p和q为次方数,
Figure BDA00027750254800001012
为图像特征xi与xi的负样本的相似度分数集合,
Figure BDA00027750254800001013
为文本特征
Figure BDA00027750254800001014
Figure BDA00027750254800001015
的负样本的相似度分数集合,
Figure BDA00027750254800001016
Figure BDA00027750254800001017
集合中最大值的q次方,
Figure BDA00027750254800001018
Figure BDA00027750254800001019
集合中最大值的q次方。
成对相似度加权损失函数的论证过程为:
在基于文本描述的行人图像检索任务中,每个行人匹配的图像文本对的数量要比不匹配的图像文本对少得多。同时,存在着一些图像文本对,他们的匹配程度与相似度有着不合常理的数值关系。但是,在现有的算法(例如三元组损失)中,所有匹配对和未匹配对都分配有相同的权重,这就使得模型不能关注于异常图像文本对,从而导致收敛速度慢和性能不佳。为了更好地利用信息对,许多深度度量学习文献中都提出了难负例样本挖掘策略和对加权方法。特别是在本发明技术方案中,有必要设计一种对加权机制,为信息丰富的图像文本对分配更高的权重。在图像文本样本对相似度与权重的关系上,正对的权重应与其相似度值成反比,而负对的权重与其相似度值成正比。本发明提出的成对相似度加权损失函数中,将图像文本对的权重定义为成对相似度加权损失函数相对于其余弦相似度的导数。为了方便和简单起见,并基于二次函数专门设计了成对相似度加权损失函数。
为了进一步解释本发明提出的成对相似度加权损失函数的工作原理,绘制了一幅有关不匹配图文对的余弦相似度与成对相似度加权损失函数之间关系的图,如图3所示。
根据图3可知,随着负对的相似度增加,其相关的成对相似度加权损失函数和对权重都增加。
首先,把一个不匹配的图像文本特征对的权重定义为
Figure BDA0002775025480000111
从图3可以清楚地推断出,随着负对的相似度增加,损失值也增加。此外,损失值相对于负对余弦相似度的导数,即权重wij随着其相似度值的增加而增加。因此,本申请提出的成对相似度加权损失函数具有以下性质:负对的权重与其相似度值成正比,从而确保为异常图文对分配更高的权重。
所述跨模态投影匹配(英文全称:Cross-Modal Projecting Matching,简称CMPM)损失函数为:
Figure BDA0002775025480000112
其中,Lcmpm为跨模态投影匹配(CMPM)损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,
Figure BDA0002775025480000113
为第
Figure BDA0002775025480000114
个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,
Figure BDA0002775025480000115
为第k个归一化的文本特征,
Figure BDA0002775025480000116
为第
Figure BDA0002775025480000117
个归一化的文本特征,
Figure BDA0002775025480000118
Figure BDA0002775025480000119
为第
Figure BDA00027750254800001110
个文本特征,
Figure BDA00027750254800001111
为第i个图像特征与第
Figure BDA00027750254800001112
个文本特征是否匹配,匹配取1,不匹配取0,yi,k为第i个图像特征与第k个文本特征是否匹配,匹配取1,不匹配取0,∈为避免出现分母为0而设置的参数。
S2、采用训练完成的行人图像检索模型计算图像特征和文本特征之间的余弦相似度值,根据余弦相似度值,得到基于文本描述检索到的行人图像。
采用数据集CUHK-PEDES对我们训练好的模型进行测试,测试方法为:采用文本特征提取器提取文本特征,采用图像特征提取器提取图像特征,将文本特征和图像特征输入联合嵌入学习器中,计算文本特征和图像特征之间的余弦相似度值,并对采用评测标准召回率Recall@K作为性能评价指标。Recall@K表示符号在前K个结果中,至少存在一个真实匹配行人图像的测试数据所占百分比。
表一实验性能结果
K Recall@K
K=1 0.542
K=5 0.748
K=10 0.823
此外,并进行了一系列消融实验,以验证本发明提出的损失函数的有效性。通过比较有无特定组件的模型性能,可以判断每个组件对模型性能的贡献。在实验中,主要评估乘性角度余量(MAM)损失函数和成对相似度加权(PSW)损失函数的影响,结果如图4所示。实验结果证明了本发明提出的乘性角度余量(MAM)损失函数以及成对相似度加权(PSW)损失函数的有效性。

Claims (1)

1.一种基于文本描述的行人图像检索方法,其特征在于,包括以下步骤:
S1、构建行人图像检索模型,对行人图像检索模型进行训练,得到训练完成的行人图像检索模型;
S2、采用训练完成的行人图像检索模型计算图像特征和文本特征之间的余弦相似度值,根据余弦相似度值,得到基于文本描述检索到的行人图像;
步骤S1中行人图像检索模型包括:图像特征提取器、文本特征提取器和联合嵌入学习器;
所述图像特征提取器为去除最后全连接层的MobileNet模型;
所述文本特征提取器包括:词嵌入层和双向长短期记忆网络;
所述联合嵌入学习器包括:共享参数全连接层;
步骤S1包括以下分步骤:
S11、采用文本特征提取器对输入文本进行特征提取,得到初始文本特征;
S12、采用图像特征提取器对输入的行人图像进行特征提取,得到初始图像特征;
S13、将初始文本特征和初始图像特征输入联合嵌入学习器,构建损失函数模型,并基于损失函数模型对联合嵌入学习器进行训练,得到训练完成的行人图像检索模型;
步骤S13中联合嵌入学习器的共享参数全连接层的损失函数模型为:
L=Lmam+Lpsw+Lcmpm
其中,L为总体损失函数,Lmam为乘性角度余量损失函数,Lpsw为成对相似度加权损失函数,Lcmpm为跨模态投影匹配损失函数;
乘性角度余量损失函数为:
Lmam=Ltpi+Lipt
Figure FDA0003005943400000021
Figure FDA0003005943400000022
Figure FDA0003005943400000023
Figure FDA0003005943400000024
其中,Lipt为图像分类损失函数,Ltpi为文本分类损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,zi为经联合嵌入学习器得到的文本特征,
Figure FDA0003005943400000025
为归一化的图像特征,
Figure FDA0003005943400000026
为归一化的文本特征,
Figure FDA0003005943400000027
为图像特征xi
Figure FDA0003005943400000028
上的投影图像特征,
Figure FDA0003005943400000029
为文本特征zi
Figure FDA00030059434000000210
上的投影文本特征,j为共享参数全连接层中的类别,yi为真实类别标签,
Figure FDA00030059434000000211
为全连接层中类别yi的归一化类权重向量与投影图像特征
Figure FDA00030059434000000212
的夹角,θj,i为全连接层中类别j的归一化权类权重向量与投影图像特征
Figure FDA00030059434000000213
的夹角,m为角度间隔系数;
成对相似度加权损失函数为:
Figure FDA00030059434000000214
其中,Lpsw为成对相似度加权损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,
Figure FDA00030059434000000215
为第一组超参数,
Figure FDA00030059434000000216
为第二组超参数,
Figure FDA00030059434000000217
为第
Figure FDA00030059434000000218
个图像文本特征对,Sii为图像特征xi与其匹配的文本特征zi的相似度,
Figure FDA00030059434000000219
为文本特征
Figure FDA00030059434000000220
与其匹配的图像特征
Figure FDA00030059434000000221
的相似度,
Figure FDA00030059434000000222
为Sii的p次方,
Figure FDA00030059434000000223
Figure FDA00030059434000000224
的p 次方,p和q为次方数,
Figure FDA0003005943400000031
为图像特征xi与xi的负样本的相似度分数集合,
Figure FDA0003005943400000032
为文本特征
Figure FDA0003005943400000033
Figure FDA0003005943400000034
的负样本的相似度分数集合,
Figure FDA0003005943400000035
Figure FDA0003005943400000036
集合中最大值的q次方,
Figure FDA0003005943400000037
Figure FDA0003005943400000038
集合中最大值的q次方;
跨模态投影匹配损失函数为:
Figure FDA0003005943400000039
其中,Lcmpm为跨模态投影匹配损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,
Figure FDA00030059434000000310
为第
Figure FDA00030059434000000311
个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,
Figure FDA00030059434000000312
为第k个归一化的文本特征,
Figure FDA00030059434000000313
为第
Figure FDA00030059434000000314
个归一化的文本特征,
Figure FDA00030059434000000315
Figure FDA00030059434000000316
为第
Figure FDA00030059434000000317
个文本特征,
Figure FDA00030059434000000318
为第i个图像特征与第
Figure FDA00030059434000000319
个文本特征是否匹配,匹配取1,不匹配取0,yi,k为第i个图像特征与第k个文本特征是否匹配,匹配取1,不匹配取0,∈为避免出现分母为0而设置的参数。
CN202011262275.4A 2020-11-12 2020-11-12 一种基于文本描述的行人图像检索方法 Active CN112364197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011262275.4A CN112364197B (zh) 2020-11-12 2020-11-12 一种基于文本描述的行人图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011262275.4A CN112364197B (zh) 2020-11-12 2020-11-12 一种基于文本描述的行人图像检索方法

Publications (2)

Publication Number Publication Date
CN112364197A CN112364197A (zh) 2021-02-12
CN112364197B true CN112364197B (zh) 2021-06-01

Family

ID=74514568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011262275.4A Active CN112364197B (zh) 2020-11-12 2020-11-12 一种基于文本描述的行人图像检索方法

Country Status (1)

Country Link
CN (1) CN112364197B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157974B (zh) * 2021-03-24 2023-05-26 西安维塑智能科技有限公司 一种基于文字表述的行人检索方法
CN114329034B (zh) * 2021-12-31 2024-08-09 武汉大学 基于细粒度语义特征差异的图像文本匹配判别方法及系统
CN115292533B (zh) * 2022-08-17 2023-06-27 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115470365B (zh) * 2022-11-09 2023-04-07 南京码极客科技有限公司 一种基于深度度量学习的细粒度跨媒体检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
CN103488713A (zh) * 2013-09-10 2014-01-01 浙江大学 一种可直接度量不同模态数据间相似性的跨模态检索方法
CN103559192A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于跨模态稀疏主题建模的跨媒体检索方法
US9563623B2 (en) * 2012-02-01 2017-02-07 Sri International Method and apparatus for correlating and viewing disparate data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273517B (zh) * 2017-06-21 2021-07-23 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN109147010B (zh) * 2018-08-22 2023-07-25 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
US20200349414A1 (en) * 2019-04-30 2020-11-05 The Regents Of The University Of California Systems and methods for neuronal networks for associative gestalt learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
US9563623B2 (en) * 2012-02-01 2017-02-07 Sri International Method and apparatus for correlating and viewing disparate data
CN103488713A (zh) * 2013-09-10 2014-01-01 浙江大学 一种可直接度量不同模态数据间相似性的跨模态检索方法
CN103559192A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于跨模态稀疏主题建模的跨媒体检索方法

Also Published As

Publication number Publication date
CN112364197A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112364197B (zh) 一种基于文本描述的行人图像检索方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN112182166B (zh) 一种文本匹配方法、装置、电子设备及存储介质
WO2020077895A1 (zh) 签约意向判断方法、装置、计算机设备和存储介质
Lin et al. Spec hashing: Similarity preserving algorithm for entropy-based coding
Dekhtyar et al. Re data challenge: Requirements identification with word2vec and tensorflow
CN112905827A (zh) 跨模态图文匹配的方法、装置及计算机可读存储介质
CN107526799A (zh) 一种基于深度学习的知识图谱构建方法
CN109308319B (zh) 文本分类方法、文本分类装置和计算机可读存储介质
CN114398961A (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
CN111414862A (zh) 基于神经网络融合关键点角度变化的表情识别方法
CN109933792B (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN111898550B (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN106845528A (zh) 一种基于K‑means与深度学习的图像分类算法
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
CN111582372B (zh) 图像分类方法、模型、存储介质及电子设备
EP3703061A1 (en) Image retrieval
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN111860193A (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN111160130A (zh) 一种多平台虚拟身份账号的多维碰撞识别方法
Dagher et al. Improving the SVM gender classification accuracy using clustering and incremental learning
CN112200260B (zh) 一种基于丢弃损失函数的人物属性识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant