CN112364197B - 一种基于文本描述的行人图像检索方法 - Google Patents
一种基于文本描述的行人图像检索方法 Download PDFInfo
- Publication number
- CN112364197B CN112364197B CN202011262275.4A CN202011262275A CN112364197B CN 112364197 B CN112364197 B CN 112364197B CN 202011262275 A CN202011262275 A CN 202011262275A CN 112364197 B CN112364197 B CN 112364197B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- features
- feature
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于文本描述的行人图像检索方法,包括以下步骤:S1、构建行人图像检索模型,对行人图像检索模型进行训练,得到训练完成的行人图像检索模型;S2、采用训练完成的行人图像检索模型计算图像特征和文本特征之间的余弦相似度值,根据余弦相似度值,得到基于文本描述检索到的行人图像。本发明解决了现有技术中基于文本描述的行人图像检索任务中行人特征类内差异过大而类内差异过小的问题。
Description
技术领域
本发明涉及跨媒体信息检索领域,具体涉及一种基于文本描述的行人图像检索方法。
背景技术
给定一段以自然语言形式对行人外观进行描述的查询文本,基于文本描述的行人图像检索旨在从行人图像数据库中检索出最相关的行人图像。随着视频监控的逐步推广和普及,本任务在预防犯罪、天眼寻人、形迹追踪等领域有着重要的应用价值。该任务的主要难点在于文本特征和图像特征属于不同模态的特征,两者之间存在着异构语义鸿沟。在应用场景中,我们需要计算文本特征和图库中行人图像特征之间的相似度。然而,直接计算图像和文本的特征相似度是没有意义的。因为它们来自两个完全不同的语义空间,这意味着特征相似度可能与它们的匹配程度无关。为了解决这个问题,许多已提出的算法致力于在共享特征空间中为每个行人学习具有模态不变的和具有区分度的特征。
这些算法大多采用了多分类交叉熵损失函数来学习更具有区分度的图像与文本联合嵌入特征。交叉熵损失函数能够促进模型将同一行人的图像特征和文本特征分类为同一类别,从而间接提高匹配的图像文本对的相似度。直观来看,在共享语义特征空间中同时最大化相同类内部的紧凑性和不同类间的差异将有助于模型学习到更具有区分度的特征。在基于文本描述的行人图像检索研究的相关算法中,softmax损失函数被广泛应用。Softmax损失函数由一个全连接层,一个softmax函数和一个交叉熵损失函数组成。从softmax损失函数的数学表达式可以看出,它并且没有直接增加类内部的紧致度和类间的差异。由softmax损失函数训练出来的特征会存在一些问题,例如:类内特征的相似度反而小于类间特征相似度。Softmax损失函数中的完全连接层实际上起着线性分类器的作用,特征所属类的概率分布取决于该特征与完全连接层中每个类权重向量的内积。值得注意的是,内积的值可以被分解为向量的模和角度余弦的大小。因此,我们可以考虑增大特征与线性分类其中类权重向量的角度间隔来获得更具有区分度的特征。与人脸识别相比,如何将角度余量纳入softmax损失函数中并同时考虑视觉和文本特征的联合嵌入学习是挑战所在。
在行人相关任务领域,深度度量学习已得到广泛应用。在人脸识别和行人再识别等领域中,对比损失(ContrastiveLoss)和三元组损失(Triplet Loss)已显示出其令人印象深刻的改进模型性能的能力。但是,三元组损失对基于文本描述的行人图像检索却收效甚微。通过审视基于对的度量损失(如对比损失和三元组损失)的数学表达式,我们发现正对或负对的系数相等,这似乎是不合理的。例如,可能存在一些异常的图像文本对,它们匹配但余弦相似度分数低,或者不匹配但余弦相似度分数高。这些异常对总是提供更多信息和价值。显然,异常对应该比那些正常对受到更多的关注。基于这些分析,我们考虑在基于文本描述的行人图像检索研究中为异常图像文本对赋予更大的权重,以此提高模型的学习效率。
已有的算法大都采用全连接层形成的一个线性分类器对特征进行类别分类进而通过多分类交叉熵损失函数来促进模型学习更准确的行人特征。然而,这种直接采用线性分类器计算特征所属类别概率分布的方法却存在着明显的不足。它不能增大类内特征的相似度与此同时增大类间特征的差异,这就导致一个后果:尽管模型能够做好图像和文本特征所属行人类别的分类,但在推理过程中计算文本和数据库中图像相似度时却无法建立匹配度与相似度的正确关系。此外,在基于文本描述的行人图像检索任务中,模型主要处理的对象是图像文本对。这些图像文本对会存在一些不匹配然而相似度却较高,或者匹配然而相似度却较低的情况。这就要求我们对不同的图像文本对应该赋予不同的关注,对于一些匹配却相似度较低的图文对以及不匹配却具有较高相似度的图文对,模型应该赋予更多的关注从而提高模型学习的效率。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于文本描述的行人图像检索方法解决了现有技术中基于文本描述的行人图像检索任务中行人特征类内差异过大而类内差异过小的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于文本描述的行人图像检索方法,包括以下步骤:
S1、构建行人图像检索模型,对行人图像检索模型进行训练,得到训练完成的行人图像检索模型;
S2、采用训练完成的行人图像检索模型计算图像特征和文本特征之间的余弦相似度值,根据余弦相似度值,得到基于文本描述检索到的行人图像。
进一步地,所述步骤S1中行人图像检索模型包括:图像特征提取器、文本特征提取器和联合嵌入学习器;
所述图像特征提取器为去除最后全连接层的MobileNet模型;
所述文本特征提取器包括:词嵌入层和双向长短期记忆网络;
所述联合嵌入学习器包括:共享参数全连接层。
进一步地,所述步骤S1包括以下分步骤:
S11、采用文本特征提取器对输入文本进行特征提取,得到初始文本特征;
S12、采用图像特征提取器对输入的行人图像进行特征提取,得到初始图像特征;
S13、将初始文本特征和初始图像特征输入联合嵌入学习器,构建损失函数模型,并基于损失函数模型对联合嵌入学习器进行训练,得到训练完成的行人图像检索模型。
进一步地,所述步骤S13中联合嵌入学习器的共享参数全连接层的损失函数模型为:
L=Lmam+Lpsw+Lcmpm
其中,L为总体损失函数,Lmam为乘性角度余量损失函数,Lpsw为成对相似度加权损失函数,Lcmpm为跨模态投影匹配损失函数。
进一步地,所述乘性角度余量损失函数为:
Lmam=Ltpi+Lipt
其中,Lipt为图像分类损失函数,Ltpi为文本分类损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,zi为经联合嵌入学习器得到的文本特征,为归一化的图像特征,为归一化的文本特征,为图像特征xi到上的投影图像特征,为文本特征zi到上的投影文本特征,j为共享参数全连接层中的类别,yi为真实类别标签,为全连接层中类别yi的归一化类权重向量与投影图像特征的夹角,θj,i为全连接层中类别j的归一化权类权重向量与投影图像特征的夹角,m为角度间隔系数。
上述进一步方案的有益效果为:本发明提出的乘性角度余量损失函数,通过将其中一个模态特征投影到另一个模态的标准化特征来融合文本和图像特征,并从文本和图像特征中获得了一个新的特征向量,这个向量的模来自其中一个特征向量,它的方向却与另外一个方向相同。通过这种方式,实现增强了匹配文本图像对的文本和图像特征的关联。
进一步地,所述成对相似度加权损失函数为:
其中,Lpsw为成对相似度加权损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,为第一组超参数,为第二组超参数,为第个图像文本特征对,Sii为图像特征xi与其匹配的文本特征zi的相似度,为文本特征与其匹配的图像特征的相似度,为Sii的p次方,为的q次方,p和q为次方数,为图像特征xi与xi的负样本的相似度分数集合,为文本特征与的负样本的相似度分数集合,为集合中最大值的q次方,为集合中最大值的q次方。
上述进一步方案的有益效果为:本发明设计的成对相似度加权损失函数具有:负对的权重与其相似度值成正比,从而确保为异常图文对分配更高的权重。
进一步地,所述跨模态投影匹配(CMPM)损失函数为:
其中,Lcmpm为跨模态投影匹配(CMPM)损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,为第个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,为第k个归一化的文本特征,为第个归一化的文本特征, 为第个文本特征,为第i个图像特征与第个文本特征是否匹配,匹配取1,不匹配取0,yi,k为第i个图像特征与第k个文本特征是否匹配,匹配取1,不匹配取0,∈为避免出现分母为0而设置的参数。
综上,本发明的有益效果为:本发明的方法可以直接提高属于同一行人的图文特征相似度,同时也能直接增大属于不同行人的图文特征之间的差异。这有助于模型在推理过程中,计算特征相似度时获得优异的性能。另外,本方法在模型学习的过程中,为不同图文对赋予不同权重。这有助于模型在学习参数的过程中更具有针对性,从而能从一些异常图文对中学习到更多的信息。本发明仅凭借对损失函数的设计与改进,就使得模型在基于文本描述的行人图像检索任务上获得了令人满意的性能。与现有技术相比,本发明的方法操作简单,对计算资源要求不高,性能稳定且优异。
附图说明
图1为一种基于文本描述的行人图像检索方法的流程图;
图2为行人图像检索模型的结构示意图;
图3为不匹配图文对的余弦相似度与成对相似度加权损失函数之间关系的图;
图4为消融实验结果图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于文本描述的行人图像检索方法,包括以下步骤:
S1、构建行人图像检索模型,对行人图像检索模型进行训练,得到训练完成的行人图像检索模型;
如图2所示,步骤S1中行人图像检索模型包括:图像特征提取器、文本特征提取器和联合嵌入学习器;
所述图像特征提取器为去除最后全连接层的MobileNet模型;
所述文本特征提取器包括:词嵌入层和双向长短期记忆网络;
所述联合嵌入学习器包括:共享参数全连接层。
所述步骤S1包括以下分步骤:
S11、采用文本特征提取器对输入文本进行特征提取,得到初始文本特征;
S12、采用图像特征提取器对输入的行人图像进行特征提取,得到初始图像特征;
S13、将初始文本特征和初始图像特征输入联合嵌入学习器,构建损失函数模型,并基于损失函数模型对联合嵌入学习器进行训练,得到训练完成的行人图像检索模型。
联合嵌入学习器的共享参数全连接层的损失函数模型为:
L=Lmam+Lpsw+Lcmpm
其中,L为享参数全连接层的损失函数,Lmam为乘性角度余量损失函数,Lpsw为成对相似度加权损失函数,Lcmpm为跨模态投影匹配损失函数。
所述乘性角度余量损失函数(MultiplicativeAngularMargin,简称MAM)为:
Lmam=Ltpi+Lipt
其中,Lipt为图像分类损失函数,Ltpi为文本分类损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,zi为经联合嵌入学习器得到的文本特征,为归一化的图像特征,为归一化的文本特征,为图像特征xi到上的投影图像特征,为文本特征zi到上的投影文本特征,j为共享参数全连接层中的类别,yi为真实类别标签,为全连接层中类别yi的归一化类权重向量与投影图像特征的夹角,θj,i为全连接层中类别j的归一化权类权重向量与投影图像特征的夹角,m为角度间隔系数。
乘性角度余量损失函数的论证过程为:
首先介绍现有技术中基于文本描述的行人图像检索任务中常用的softmax损失函数。一个图像特征xi和它相应的真实类别标签yi,softmax损失函数如下所示:
其中Wj和代表着全连接层中类别j和yi的类权重向量,θj和分别代表Wj和和图像特征xi的夹角。Softmax损失函数尝试去最大化真实类别的后验概率来学习到正确的类别特征。为了更好地提升模型性能,本发明将Wj做了L2归一化。因此,的余弦值成为影响类别后验概率的两个变量之一。本发明修改后的softmax损失函数Lms表示如下:
本发明提出的乘性角度余量损失函数,与仅涉及图像特征的人脸识别算法不同,基于文本描述的行人图像检索不仅关注图像特征,还涉及文本特征。本发明通过将其中一个模态特征投影到另一个模态的标准化特征来融合文本和图像特征。因此,可从文本和图像特征中获得了一个新的特征向量,这个向量的模来自其中一个特征向量,它的方向却与另外一个方向相同。通过这种方式,增强了匹配文本图像对的文本和图像特征的关联。更重要的是,在前面乘以一个系数m从而为softmax损失函数增加了一个角度间隔。最终,得到本发明提出的乘性角度余量损失函数。
所述成对相似度加权损失函数(Pairwise Similarity Weighting,简称PSW)为:
其中,Lpsw为成对相似度加权损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,为第一组超参数,为第二组超参数,为第个图像文本特征对,Sii为图像特征xi与其匹配的文本特征zi的相似度,为文本特征与其匹配的图像特征的相似度,为Sii的p次方,为的q次方,p和q为次方数,为图像特征xi与xi的负样本的相似度分数集合,为文本特征与的负样本的相似度分数集合,为集合中最大值的q次方,为集合中最大值的q次方。
成对相似度加权损失函数的论证过程为:
在基于文本描述的行人图像检索任务中,每个行人匹配的图像文本对的数量要比不匹配的图像文本对少得多。同时,存在着一些图像文本对,他们的匹配程度与相似度有着不合常理的数值关系。但是,在现有的算法(例如三元组损失)中,所有匹配对和未匹配对都分配有相同的权重,这就使得模型不能关注于异常图像文本对,从而导致收敛速度慢和性能不佳。为了更好地利用信息对,许多深度度量学习文献中都提出了难负例样本挖掘策略和对加权方法。特别是在本发明技术方案中,有必要设计一种对加权机制,为信息丰富的图像文本对分配更高的权重。在图像文本样本对相似度与权重的关系上,正对的权重应与其相似度值成反比,而负对的权重与其相似度值成正比。本发明提出的成对相似度加权损失函数中,将图像文本对的权重定义为成对相似度加权损失函数相对于其余弦相似度的导数。为了方便和简单起见,并基于二次函数专门设计了成对相似度加权损失函数。
为了进一步解释本发明提出的成对相似度加权损失函数的工作原理,绘制了一幅有关不匹配图文对的余弦相似度与成对相似度加权损失函数之间关系的图,如图3所示。
根据图3可知,随着负对的相似度增加,其相关的成对相似度加权损失函数和对权重都增加。
首先,把一个不匹配的图像文本特征对的权重定义为从图3可以清楚地推断出,随着负对的相似度增加,损失值也增加。此外,损失值相对于负对余弦相似度的导数,即权重wij随着其相似度值的增加而增加。因此,本申请提出的成对相似度加权损失函数具有以下性质:负对的权重与其相似度值成正比,从而确保为异常图文对分配更高的权重。
所述跨模态投影匹配(英文全称:Cross-Modal Projecting Matching,简称CMPM)损失函数为:
其中,Lcmpm为跨模态投影匹配(CMPM)损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,为第个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,为第k个归一化的文本特征,为第个归一化的文本特征, 为第个文本特征,为第i个图像特征与第个文本特征是否匹配,匹配取1,不匹配取0,yi,k为第i个图像特征与第k个文本特征是否匹配,匹配取1,不匹配取0,∈为避免出现分母为0而设置的参数。
S2、采用训练完成的行人图像检索模型计算图像特征和文本特征之间的余弦相似度值,根据余弦相似度值,得到基于文本描述检索到的行人图像。
采用数据集CUHK-PEDES对我们训练好的模型进行测试,测试方法为:采用文本特征提取器提取文本特征,采用图像特征提取器提取图像特征,将文本特征和图像特征输入联合嵌入学习器中,计算文本特征和图像特征之间的余弦相似度值,并对采用评测标准召回率Recall@K作为性能评价指标。Recall@K表示符号在前K个结果中,至少存在一个真实匹配行人图像的测试数据所占百分比。
表一实验性能结果
K | Recall@K |
K=1 | 0.542 |
K=5 | 0.748 |
K=10 | 0.823 |
此外,并进行了一系列消融实验,以验证本发明提出的损失函数的有效性。通过比较有无特定组件的模型性能,可以判断每个组件对模型性能的贡献。在实验中,主要评估乘性角度余量(MAM)损失函数和成对相似度加权(PSW)损失函数的影响,结果如图4所示。实验结果证明了本发明提出的乘性角度余量(MAM)损失函数以及成对相似度加权(PSW)损失函数的有效性。
Claims (1)
1.一种基于文本描述的行人图像检索方法,其特征在于,包括以下步骤:
S1、构建行人图像检索模型,对行人图像检索模型进行训练,得到训练完成的行人图像检索模型;
S2、采用训练完成的行人图像检索模型计算图像特征和文本特征之间的余弦相似度值,根据余弦相似度值,得到基于文本描述检索到的行人图像;
步骤S1中行人图像检索模型包括:图像特征提取器、文本特征提取器和联合嵌入学习器;
所述图像特征提取器为去除最后全连接层的MobileNet模型;
所述文本特征提取器包括:词嵌入层和双向长短期记忆网络;
所述联合嵌入学习器包括:共享参数全连接层;
步骤S1包括以下分步骤:
S11、采用文本特征提取器对输入文本进行特征提取,得到初始文本特征;
S12、采用图像特征提取器对输入的行人图像进行特征提取,得到初始图像特征;
S13、将初始文本特征和初始图像特征输入联合嵌入学习器,构建损失函数模型,并基于损失函数模型对联合嵌入学习器进行训练,得到训练完成的行人图像检索模型;
步骤S13中联合嵌入学习器的共享参数全连接层的损失函数模型为:
L=Lmam+Lpsw+Lcmpm
其中,L为总体损失函数,Lmam为乘性角度余量损失函数,Lpsw为成对相似度加权损失函数,Lcmpm为跨模态投影匹配损失函数;
乘性角度余量损失函数为:
Lmam=Ltpi+Lipt
其中,Lipt为图像分类损失函数,Ltpi为文本分类损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,xi为经联合嵌入学习器得到的图像特征,zi为经联合嵌入学习器得到的文本特征,为归一化的图像特征,为归一化的文本特征,为图像特征xi到上的投影图像特征,为文本特征zi到上的投影文本特征,j为共享参数全连接层中的类别,yi为真实类别标签,为全连接层中类别yi的归一化类权重向量与投影图像特征的夹角,θj,i为全连接层中类别j的归一化权类权重向量与投影图像特征的夹角,m为角度间隔系数;
成对相似度加权损失函数为:
其中,Lpsw为成对相似度加权损失函数,N为N个图像文本特征对,i为第i个图像文本特征对,为第一组超参数,为第二组超参数,为第个图像文本特征对,Sii为图像特征xi与其匹配的文本特征zi的相似度,为文本特征与其匹配的图像特征的相似度,为Sii的p次方,为的p 次方,p和q为次方数,为图像特征xi与xi的负样本的相似度分数集合,为文本特征与的负样本的相似度分数集合,为集合中最大值的q次方,为集合中最大值的q次方;
跨模态投影匹配损失函数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011262275.4A CN112364197B (zh) | 2020-11-12 | 2020-11-12 | 一种基于文本描述的行人图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011262275.4A CN112364197B (zh) | 2020-11-12 | 2020-11-12 | 一种基于文本描述的行人图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364197A CN112364197A (zh) | 2021-02-12 |
CN112364197B true CN112364197B (zh) | 2021-06-01 |
Family
ID=74514568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011262275.4A Active CN112364197B (zh) | 2020-11-12 | 2020-11-12 | 一种基于文本描述的行人图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364197B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157974B (zh) * | 2021-03-24 | 2023-05-26 | 西安维塑智能科技有限公司 | 一种基于文字表述的行人检索方法 |
CN114329034B (zh) * | 2021-12-31 | 2024-08-09 | 武汉大学 | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 |
CN115292533B (zh) * | 2022-08-17 | 2023-06-27 | 苏州大学 | 视觉定位驱动的跨模态行人检索方法 |
CN115470365B (zh) * | 2022-11-09 | 2023-04-07 | 南京码极客科技有限公司 | 一种基于深度度量学习的细粒度跨媒体检索方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334796A (zh) * | 2008-02-29 | 2008-12-31 | 浙江师范大学 | 一种个性化及协同化融合的网上多媒体检索与查询方法 |
CN103488713A (zh) * | 2013-09-10 | 2014-01-01 | 浙江大学 | 一种可直接度量不同模态数据间相似性的跨模态检索方法 |
CN103559192A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 一种基于跨模态稀疏主题建模的跨媒体检索方法 |
US9563623B2 (en) * | 2012-02-01 | 2017-02-07 | Sri International | Method and apparatus for correlating and viewing disparate data |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273517B (zh) * | 2017-06-21 | 2021-07-23 | 复旦大学 | 基于图嵌入学习的图文跨模态检索方法 |
CN108647350A (zh) * | 2018-05-16 | 2018-10-12 | 中国人民解放军陆军工程大学 | 一种基于双通道网络的图文关联检索方法 |
CN109147010B (zh) * | 2018-08-22 | 2023-07-25 | 广东工业大学 | 带属性人脸图像生成方法、装置、系统及可读存储介质 |
US20200349414A1 (en) * | 2019-04-30 | 2020-11-05 | The Regents Of The University Of California | Systems and methods for neuronal networks for associative gestalt learning |
-
2020
- 2020-11-12 CN CN202011262275.4A patent/CN112364197B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334796A (zh) * | 2008-02-29 | 2008-12-31 | 浙江师范大学 | 一种个性化及协同化融合的网上多媒体检索与查询方法 |
US9563623B2 (en) * | 2012-02-01 | 2017-02-07 | Sri International | Method and apparatus for correlating and viewing disparate data |
CN103488713A (zh) * | 2013-09-10 | 2014-01-01 | 浙江大学 | 一种可直接度量不同模态数据间相似性的跨模态检索方法 |
CN103559192A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 一种基于跨模态稀疏主题建模的跨媒体检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112364197A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364197B (zh) | 一种基于文本描述的行人图像检索方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN112182166B (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
WO2020077895A1 (zh) | 签约意向判断方法、装置、计算机设备和存储介质 | |
Lin et al. | Spec hashing: Similarity preserving algorithm for entropy-based coding | |
Dekhtyar et al. | Re data challenge: Requirements identification with word2vec and tensorflow | |
CN112905827A (zh) | 跨模态图文匹配的方法、装置及计算机可读存储介质 | |
CN107526799A (zh) | 一种基于深度学习的知识图谱构建方法 | |
CN109308319B (zh) | 文本分类方法、文本分类装置和计算机可读存储介质 | |
CN114398961A (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CN111414862A (zh) | 基于神经网络融合关键点角度变化的表情识别方法 | |
CN109933792B (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN111898550B (zh) | 建立表情识别模型方法、装置、计算机设备及存储介质 | |
CN106845528A (zh) | 一种基于K‑means与深度学习的图像分类算法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
CN111582372B (zh) | 图像分类方法、模型、存储介质及电子设备 | |
EP3703061A1 (en) | Image retrieval | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111860193A (zh) | 一种基于文本的行人检索自监督视觉表示学习系统及方法 | |
CN111160130A (zh) | 一种多平台虚拟身份账号的多维碰撞识别方法 | |
Dagher et al. | Improving the SVM gender classification accuracy using clustering and incremental learning | |
CN112200260B (zh) | 一种基于丢弃损失函数的人物属性识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |