CN110222560B - 一种嵌入相似性损失函数的文本人员搜索方法 - Google Patents

一种嵌入相似性损失函数的文本人员搜索方法 Download PDF

Info

Publication number
CN110222560B
CN110222560B CN201910339800.9A CN201910339800A CN110222560B CN 110222560 B CN110222560 B CN 110222560B CN 201910339800 A CN201910339800 A CN 201910339800A CN 110222560 B CN110222560 B CN 110222560B
Authority
CN
China
Prior art keywords
text
image
images
personnel
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910339800.9A
Other languages
English (en)
Other versions
CN110222560A (zh
Inventor
常晓军
郭军
李智
许鹏飞
陈�峰
郭凌
肖云
刘宝英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201910339800.9A priority Critical patent/CN110222560B/zh
Publication of CN110222560A publication Critical patent/CN110222560A/zh
Application granted granted Critical
Publication of CN110222560B publication Critical patent/CN110222560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种嵌入相似性损失函数的文本人员搜索方法,采用三通道神经网络对人员图像和描述文本的数据分别进行特征提取,并且利用余弦距离对正负图文样本对的相似性以及正负样本图像之间的相似性进行计算,然后结合相似性排名损失和实例损失,约束三通道神经网络的训练,提高了对人员搜索的匹配准确率。

Description

一种嵌入相似性损失函数的文本人员搜索方法
技术领域
本发明涉及视频监控和人员搜索领域,具体涉及一种嵌入相似性损失函数的文本人员搜索方法。
背景技术
随着摄像机的部署与普及,利用文本描述进行人员搜索的任务在视频监控领域内有着重要的作用和意义,它能够有效地应用在丢失人员搜索和嫌犯的追踪的实际问题之中。随着多通道神经网络的技术成熟,越来越多的多通道神经网络应用在人员搜索任务中。
目前一部分方法是基于文本和图像特征提取来完成这项任务,比如利用具有门控神经注意力的循环神经网络来进行人员搜索;而为了获得更符合文本描述地图像排名顺序,对于文本和图像之间的相似性度量显得十分重要,因此另外一些方法则依靠调整多通道神经网络的损失函数方法来进行人员搜索。传统的排名损失函数是用来约束网络模型中正图文样本对的距离最小,但是这种排名损失约束仅仅考虑了最小化正的图文样本对之间的相似性,而没有考虑其他的图像和文本的相似性距离。因此,探索文本描述和所有图像的相似性关系,进一步优化图像的排名顺序,才能够提高利用文本描述搜索人员的准确率。
发明内容
本发明的目的是提供一种嵌入相似性损失函数的文本人员搜索方法,以进一步提高利用文本描述进行人员搜索的准确率。
为了实现上述任务,本发明采用以下技术方案:
一种嵌入相似性损失函数的文本人员搜索方法,包括以下步骤:
步骤1,通过监控系统拍摄监控图像,从监控图像中将行人的图像截取出来以获取行人的图像数据,然后对截取出来的行人图像进行文本描述,使得每一张行人图像有对应的详细文本描述语句,利用描述后的行人图像建立数据集;
步骤2,构建三通道神经网络模型,并且将数据集中的数据按照三元组的方式输入到网络模型中,分别提取图像和文本的特征,并将这些文本和图像的特征映射到相同维度的特征空间之中;
步骤3,通过相同维度的图像和文本特征向量,计算正、负图文样本对的余弦距离,以及正负样本图像之间的余弦距离,从而构建相似性排名损失函数;
步骤4,将图像和文本特征分别映射到特征空间之中,并计算图像和文本的实例损失函数;
步骤5,通过相似性排名损失和实例损失的双重约束,完成三通道神经网络的训练过程,对模型进行评估,满足要求时保存网络模型用于人员搜索。
进一步地,步骤5所述的人员搜索的具体过程为:
对于一段文本描述语句,将监控系统拍摄的监控图像截取成不同的人员图像,然后将所有的人员图像与所述的文本描述语句输入到步骤5训练好的网络模型中,提取文本描述语句及人员图像的特征向量,分别计算文本描述的特征向量与每个人员图像的特征向量之间的余弦距离,其中与文本描述的特征向量的余弦距离最大的人员图像即为搜索得到的人员图像。
进一步地,步骤2所述的构建三通道神经网络模型,包括:
所述的三通道神经网络模型的其中两个通道用作提取正负图像样本的特征,使用优化的残差神经网络ResNet50作为图像特征的提取器,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层,在线性层之后增加一个BatchNormalization层;另一条通道用于提取文本描述的特征,使用长短时记忆网络作为文本特征的提取器,在进行文本特征提取之前,先对描述语句进行数据预处理。
进一步地,所述的数据预处理,包括:
首先利用所有行人图像的文本描述语句中所出现的单词的词频构建出词表,在构建词表的过程中,保留词频低于1的单词,然后利用词嵌入的方法将单词嵌入到向量空间中,最后通过长短时记忆网络的训练得到文本特征。
进一步地,步骤2所述的三元组表示为:
O=<T,Ip,In>
其中T表示一条文本描述语句,Ip和In分别是符合这条语句描述的图像以及不符合这条语句描述的图像,即正样本图像、负样本图像。
进一步地,所述的相似性排名损失函数,表示为:
Lr(T,I)=max[α-D(Tp,Ip)+(β-S(Ip,In))*D(Tp,In),0] 式2
其中,T和I分别表示文本和图像的特征,α表示间隔参数,β是表示相似性约束参数,D(Tp,Ip)表示了正图文样本对的余弦距离,D(Tp,In)表示了负图文样本对的余弦距离,S(Ip,In)表示了正负样本图像的余弦距离。
进一步地,所述的步骤4具体包括:
将步骤2中得到的相同维度空间下的图像和文本特征分别映射到维度为行人类别个数的特征空间之中,得到新的特征向量;然后分别对图像和文本新的特征向量计算其实例损失,实例损失的公式如如式3-式6所示:
Pi=softmax(Wt×fi) 式3
Li=-log(Pi(c)) 式4
Pt=softmax(Wt×ft) 式5
Lt=-log(Pt(c)) 式6
其中,fi和ft分别表示全连接层中图像和文本的特征,Wt表示权重矩阵,softmax()表示进行归一化操作,t、i分别表示文本、图像的类别,Pt(c)、Pi(c)分别代表了文本、图像预测正确的类别c的概率,Li和Lt分别代表了文本和图像的实例损失。
本发明与现有技术相比具有以下技术特点:
1.本发明提出了一种基于相似性排名损失函数的方法来进一步度量正负样本对之间的距离,能得到更加准确的人员搜索排名。
2.使用三通道神经网络对不同模态的数据特征进行分别提取,可以获得更优的图像和文本特征表示,有利于提升图像和文本特征的映射能力。
附图说明
图1为本发明方法的整体流程图;
图2为利用文本描述语句来进行人员搜索任务的示意图;
图3为具体的嵌入相似性排名损失的三通道神经网络框架图。
具体实施方式
本发明公开了一种基于相似性排名损失函数的人员搜索方法,包括以下步骤:
步骤1,通过监控系统拍摄监控图像,从监控图像中将行人的图像截取出来以获取行人的图像数据,然后通过人工方式对截取出来的行人图像进行文本描述,使得每一张行人图像有对应的详细文本描述语句,利用描述后的行人图像建立数据集,从而构成基于文本描述的人员搜索数据集;将数据集划分成训练集、验证集和测试集。
该步骤中,通过监控系统中的相机拍摄监控区域的图像,采用人工标记边界框地形式截取出行人的图像部分,并设定同一个行人的图像属于同一个类别。所述的边界框指包含该行人在内的最小矩形框。
采用人工标注的方法对每一张图像进行文本描述,每一张图像由两个人分别对其进行描述,然后结合行人图像和描述文本构成了基于文本的人员搜索数据集,其中每一条样本都包括了一张行人图像和一条描述语句;接着将人员搜索数据集划分为训练集、验证集和测试集。
本方法要确保使用边界框将行人的图像截取出来,这样可以减少背景的像素信息,突出人员在整个图像中的占比,保证行人图像具有有效的特征信息;另外同一个行人具有多张图像,并且每一张图像具有对应的文本描述语句,这样能够保证在神经网络训练的过程中,降低模型过拟合的风险。
步骤2,构建三通道神经网络模型,将数据集中的数据按照三元组的方式输入到神经网络模型中,分别提取图像和文本特征,并将这些文本和图像特征映射到相同维度的特征空间之中。
步骤2.1,首先构建三通道神经网络模型,其中两个通道用作提取正负图像样本的特征,使用优化的残差神经网络ResNet50作为图像特征的提取器,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层,在线性层之后增加一个BatchNormalization层;除此之外,使用Leaky ReLU作为网络的激活函数,设定Leaky ReLU的参数为0.01,设定网络的dropout的参数为0.5,并且模型的初始权重使用了在ImageNet上的训练参数。
步骤2.2,三通道神经网络模型的另一条通道用于提取文本描述的特征,使用长短时记忆网络作为文本特征的提取器,在进行文本特征提取之前,先对描述语句进行数据预处理,过程为:
首先利用所有行人图像的文本描述语句中所出现的单词的词频构建出词表,在构建词表的过程中,保留词频低于1的单词。本实施例所用的样本中,根据统计词典的规模是9408个单词;然后利用词嵌入的方法将单词嵌入到维度为512维的向量空间中,最后通过长短时记忆网络的训练得到文本特征,也就是最后一层中隐藏层的特征向量,我们设定其维数为128维。
步骤2.3,构建好三通道神经网络后,将数据集中的数据按照三元组的方式输入到网络中,每一条三元组样本由O=<T,Ip,In>表示,其中T表示一条文本描述语句,Ip和In分别是符合这条语句描述的图像以及不符合这条语句描述的图像,即对于一段文本描述来说,符合这条文本描述的图像为正样本图像,记作Ip;不符合这条文本描述的图像为负样本图像,记作In。另外,由一段文本描述和符合该文本描述的图像组成的样本对称作为正图文样本对,由一段文本描述和不符合该文本描述的图像组成的样本对称作为负图文样本对。
数据集中的每个样本是由文本描述语句以及符合该描述的图像组成的,考虑到数据集的规模,对于每一个文本描述语句,从数据集中随机提取t(1<t<10)张负样本图像,经过网络提取图像和文本特征,就可以获得三元组中图像和文本在相同维度空间下的特征表示。
该步骤中,通过Batch Normalization层可以减少模型在训练过程中出现过拟合的风险,另外Leaky ReLU也是一个弱化负神经元的比较好的激活函数,相比于ReLU会激活一些可能会对识别有帮助的负神经元。Dropout的设置可以在一定程度上缓解网络模型参数过大而产生的过拟合情况,设置0.5的比例可以在神经网络训练的过程中,控制50%的神经元关闭。此外,在进行文本描述语句特征提取时,我们确定不去除词频低于1的单词,而保证完整的词典中的单词分布,这样可以探索更加丰富的词向量信息,从而获得更优的文本特征表示;此外,对于文本和图像数据,三通道神经网络分别使用了不同的网络通道对两种模态的数据进行特征表示,可以使得获得的图像和文本特征向量在模型中具有更好的区分性。
步骤3,通过相同维度的图像和文本特征向量,计算正、负图文样本对的余弦距离,以及正负样本图像之间的余弦距离,然后构建相似性排名损失函数。
步骤3.1,通过步骤2可以获得具有相同维度的图像特征(In和Ip)和文本特征向量(Tp),然后使用余弦距离计算公式计算正图文样本对和负图文样本对的余弦距离,以及正样本图像、负样本图像的余弦距离,其中余弦距离的计算公式如式1所示:
Figure BDA0002040352210000061
其中,fa和fb分别表示样本a、b的特征向量,||·||2是代表L2范数(L2-norm),余弦距离则表示为D(fa,fb)∈[-1,1]。
每一个三元组样本输入到网络中后,三元组样本在不同通道的网络中分别得到三个特征向量,所述的正图文样本对和负图文样本对的余弦距离,是指以待搜索文本为中心的正图文样本对、负图文样本对的余弦距离。计算负样本图像和正样本图像之间的余弦距离是为了确定不符合文本描述的负样本与正样本是否相似性较高,如果相似性较高,则该负样本在搜索排名中的顺序也应该靠前,反之靠后。
步骤3.2,得到正图文样本对和负图文样本对的余弦距离,以及正负样本图像的余弦距离之后,接着构建图文样本对的相似性排名损失函数,其公式如式2所示:
Lr(T,I)=max[α-D(Tp,Ip)+(β-S(Ip,In))*D(Tp,In),0] 式2
其中,T和I分别表示文本和图像的特征,α表示间隔参数,β是表示相似性约束参数。D(Tp,Ip)表示了正图文样本对的余弦距离,D(Tp,In)表示了负图文样本对的余弦距离,S(Ip,In)表示了正负样本图像的余弦距离。
该步骤考虑到了正负样本图像之间的相似度,并将正负样本图像之间的余弦距离嵌入到标准的排名损失函数之中,进一步优化了图像和文本之间的排名顺序,提高了人员搜索的准确率。
步骤4,将图像和文本特征分别映射到特征空间之中,并计算图像和文本的实例损失函数。
将步骤2中得到的相同维度空间下的图像和文本特征分别映射到维度为行人类别个数的特征空间之中,得到新的特征向量;然后分别对图像和文本新的特征向量计算其实例损失,实例损失的公式如如式3-式6所示:
Pi=softmax(Wt×fi) 式3
Li=-log(Pi(c)) 式4
Pt=softmax(Wt×ft) 式5
Lt=-log(Pt(c)) 式6
其中,fi和ft分别表示全连接层中图像和文本的特征,Wt表示权重矩阵,通过网络训练得到,softmax()表示进行归一化操作,t、i分别表示文本、图像的类别,Pt(c)、Pi(c)分别代表了文本、图像预测正确的类别c的概率,Li和Lt分别代表了文本和图像的实例损失。
步骤5,通过相似性排名损失和实例损失的双重约束,完成三通道神经网络的训练过程,利用测试数据对该模型进行评估,计算人员搜索的Top-k准确率,准确率达到要求时保存训练好的网络模型用于人员搜索。
步骤5.1,将测试集中的样本放入到步骤2和步骤3中的网络中进行测试,得到相对应的文本特征和图像特征,然后将数据集中所有人员的图像集中的图像特征,按照与待测试的描述语句的文本特征进行相似度排序,如果在第k个前就匹配正确,则统计搜索正确的样本数目增加1,否则不变。
当所有的待测试的文本描述语句都完成搜索任务之后,统计所有搜索正确的样本数目,记作T;统计所有的测试文本语句数目,记作N。那么计算Top-k准确率的式7如下:
Figure BDA0002040352210000071
根据计算出来的Top-k准确率,对所述的三通道神经网络的参数(步骤3.2中的α和β,其中β的值一般为1,α的值在0-1之间)进行调整,以提升三通道神经网络的性能。
本实施例中,Top-10的准确率能够达到60%就表示网络性能符合要求。
在实际应用时,通过文本描述来搜索人员图像,具体过程为:
对于一段由群众提供或由其他方式获取的文本描述语句,将监控系统拍摄的监控图像截取成不同的人员图像,然后将所有的人员图像与所述的文本描述语句输入到步骤5训练好的网络模型中,提取文本描述语句及人员图像的特征向量,分别计算文本描述的特征向量与每个人员图像的特征向量之间的余弦距离,其中与文本描述的特征向量的余弦距离最大的人员图像即为搜索得到的人员图像;从而达到利用文本描述来进行人员搜索的目的。
CUHK-PEDES数据集介绍:CUHK-PEDES是一个标准的基于文本的人员搜索数据集,由香港中文大学公开的数据集。这个数据集里包括了40206张图片,13003个人员,以及80440条文本描述。我们按照公认的训练集/验证集/测试集切分方法对数据集进行分割,其中训练集具有34054张图片,11003个人员,以及68126条文本描述;验证集具有3078张图片,1000个人员,以及6158条文本描述;测试集具有3074张图片,1000个人员,以及6156条文本描述。
评价标准:按照我们的嵌入相似性排名损失的三通道神经网络算法具体实施步骤,完成基于文本的人员搜索任务。我们用Top-k准确率作为人员搜索的评估标准,下面简单介绍一下该评估标准。
Top-k:将数据集中所有人员的图片集中的图片,按照与待测试的文本描述语句进行相似度排序,如果在第p个前就匹配正确,则统计搜索正确的样本数目增加1,否则不变。当所有的待测试的文本描述语句都完成搜索任务之后,统计所有搜索正确的样本数目,记作T;统计所有的测试文本语句数目,记作N。那么计算Top-k准确率的式如下:
Figure BDA0002040352210000081
最后我们对该发明方法进行性能评估:
表1排名损失(RL)和嵌入相似性的排名损失(SRL)的比较
Methods Top-1 Top-5 Top-10 Top-20
RL 16.76 38.03 51.32 63.65
SRL 18.78 40.69 52.88 65.07
由表1可以看出,仅仅使用相似性排名损失函数要比仅仅使用标准的排名损失函数在网络中的Top-1人员搜索准确率提高了2.02%,证明嵌入相似性排名损失函数对于人员图像和描述文本之间的排名顺序具有提升作用。
表2不同的损失函数的比较
Methods Top-1 Top-5 Top-10 Top-20
RL 16.76 38.03 51.32 63.65
SRL 18.78 40.69 52.88 65.07
IL 19.52 41.08 53.63 65.86
RL+IL 20.42 42.85 55.36 67.39
SRL+IL 22.92 45.78 57.86 69.90
由表2可以看出,仅仅使用单一的损失函数并不能取得较好的性能,结合两种损失函数的方法在Top-1准确率上平均提高了3.32%。因此,在本发明方法中,采用了实例损失和排名损失(嵌入相似性的排名损失)的协同工作方法,这样可以在基准网络(ResNet50和LSTM)基础之上提高基于文本的人员搜索性能,两种类型的损失函数相辅相成。使用嵌入相似性排名损失函数和实例损失函数相结合的方法获得了最高的Top-1准确率22.92%。
表3本发明方法与前沿基于文本的人员搜索方法的比较
Methods Top-1 Top-5 Top-10
CNN-RNN 8.07 - 32.47
Neural Talk 13.66 - 41.72
GNA-RNN 19.05 - 53.64
Ours 22.92 45.78 57.86
由表3可以看出,相比于最先进的方法,本方法在Top-1精度上和国际上前沿的方法仍然具有竞争力,从解决问题的方法上来分析的话,本方法还更加侧重于对通用网络框架的基础性能提升且可移植性较强,也就是说,本方法不单单可以应用在基于文本的人员搜索任务中,在图文匹配、图像字幕生成等多种跨模态的任务中也可以使用。

Claims (5)

1.一种嵌入相似性损失函数的文本人员搜索方法,其特征在于,包括以下步骤:
步骤1,通过监控系统拍摄监控图像,从监控图像中将行人的图像截取出来以获取行人的图像数据,然后对截取出来的行人图像进行文本描述,使得每一张行人图像有对应的详细文本描述语句,利用描述后的行人图像建立数据集;
步骤2,构建三通道神经网络模型,并且将数据集中的数据按照三元组的方式输入到网络模型中,分别提取图像和文本的特征,并将这些文本和图像的特征映射到相同维度的特征空间之中;
所述的构建三通道神经网络模型,包括:
所述的三通道神经网络模型的其中两个通道用作提取正负图像样本的特征,使用优化的残差神经网络ResNet50作为图像特征的提取器,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层,在线性层之后增加一个Batch Normalization层;另一条通道用于提取文本描述的特征,使用长短时记忆网络作为文本特征的提取器,在进行文本特征提取之前,先对描述语句进行数据预处理;
步骤3,通过相同维度的图像和文本特征向量,计算正、负图文样本对的余弦距离,以及正负样本图像之间的余弦距离,从而构建相似性排名损失函数;
所述的相似性排名损失函数,表示为:
Lr(T,I)=max[α-D(Tp,Ip)+(β-S(Ip,In))*D(Tp,In),0]
其中,T和I分别表示文本和图像的特征,α表示间隔参数,β是表示相似性约束参数,D(Tp,Ip)表示了正图文样本对的余弦距离,D(Tp,In)表示了负图文样本对的余弦距离,S(Ip,In)表示了正负样本图像的余弦距离;
步骤4,将图像和文本特征分别映射到特征空间之中,并计算图像和文本的实例损失函数;
步骤5,通过相似性排名损失和实例损失的双重约束,完成三通道神经网络的训练过程,对模型进行评估,满足要求时保存网络模型用于人员搜索。
2.如权利要求1所述的嵌入相似性损失函数的文本人员搜索方法,其特征在于,步骤5所述的人员搜索的具体过程为:
对于一段文本描述语句,将监控系统拍摄的监控图像截取成不同的人员图像,然后将所有的人员图像与所述的文本描述语句输入到步骤5训练好的网络模型中,提取文本描述语句及人员图像的特征向量,分别计算文本描述的特征向量与每个人员图像的特征向量之间的余弦距离,其中与文本描述的特征向量的余弦距离最大的人员图像即为搜索得到的人员图像。
3.如权利要求1所述的嵌入相似性损失函数的文本人员搜索方法,其特征在于,所述的数据预处理,包括:
首先利用所有行人图像的文本描述语句中所出现的单词的词频构建出词表,在构建词表的过程中,保留词频低于1的单词,然后利用词嵌入的方法将单词嵌入到向量空间中,最后通过长短时记忆网络的训练得到文本特征。
4.如权利要求1所述的嵌入相似性损失函数的文本人员搜索方法,其特征在于,步骤2所述的三元组表示为:
O=<T,Ip,In>
其中T表示一条文本描述语句,Ip和In分别是符合这条语句描述的图像以及不符合这条语句描述的图像,即正样本图像、负样本图像。
5.如权利要求1所述的嵌入相似性损失函数的文本人员搜索方法,其特征在于,所述的步骤4具体包括:
将步骤2中得到的相同维度空间下的图像和文本特征分别映射到维度为行人类别个数的特征空间之中,得到新的特征向量;然后分别对图像和文本新的特征向量计算其实例损失,实例损失的公式如下:
Pi=softmax(Wt×fi)
Li=-log(Pi(c))
Pt=softmax(Wt×ft)
Lt=-log(Pt(c))
其中,fi和ft分别表示全连接层中图像和文本的特征,Wt表示权重矩阵,softmax()表示进行归一化操作,t、i分别表示文本、图像的类别,Pt(c)、Pi(c)分别代表了文本、图像预测正确的类别c的概率,Li和Lt分别代表了文本和图像的实例损失。
CN201910339800.9A 2019-04-25 2019-04-25 一种嵌入相似性损失函数的文本人员搜索方法 Active CN110222560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910339800.9A CN110222560B (zh) 2019-04-25 2019-04-25 一种嵌入相似性损失函数的文本人员搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910339800.9A CN110222560B (zh) 2019-04-25 2019-04-25 一种嵌入相似性损失函数的文本人员搜索方法

Publications (2)

Publication Number Publication Date
CN110222560A CN110222560A (zh) 2019-09-10
CN110222560B true CN110222560B (zh) 2022-12-23

Family

ID=67819853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910339800.9A Active CN110222560B (zh) 2019-04-25 2019-04-25 一种嵌入相似性损失函数的文本人员搜索方法

Country Status (1)

Country Link
CN (1) CN110222560B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909673B (zh) * 2019-11-21 2022-09-16 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111428801B (zh) * 2020-03-30 2022-09-27 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111950728A (zh) * 2020-08-17 2020-11-17 珠海格力电器股份有限公司 图像特征提取模型的构建方法、图像检索方法及存储介质
CN112990297B (zh) * 2021-03-10 2024-02-02 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN114067233B (zh) * 2021-09-26 2023-05-23 四川大学 一种跨模态匹配方法及系统
CN114494297B (zh) * 2022-01-28 2022-12-06 杭州电子科技大学 处理多种先验知识的自适应视频目标分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156750A (zh) * 2016-07-26 2016-11-23 浙江捷尚视觉科技股份有限公司 一种基于卷积神经网络的以图搜车方法
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN109190446A (zh) * 2018-07-06 2019-01-11 西北工业大学 基于三元组聚焦损失函数的行人再识别方法
CN109284414A (zh) * 2018-09-30 2019-01-29 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350336A1 (en) * 2015-05-31 2016-12-01 Allyke, Inc. Automated image searching, exploration and discovery
US20170083623A1 (en) * 2015-09-21 2017-03-23 Qualcomm Incorporated Semantic multisensory embeddings for video search by text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156750A (zh) * 2016-07-26 2016-11-23 浙江捷尚视觉科技股份有限公司 一种基于卷积神经网络的以图搜车方法
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN109190446A (zh) * 2018-07-06 2019-01-11 西北工业大学 基于三元组聚焦损失函数的行人再识别方法
CN109284414A (zh) * 2018-09-30 2019-01-29 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度特征聚类的海量人脸图像检索;李振东等;《哈尔滨工业大学学报》;20181024(第11期);第101-109页 *

Also Published As

Publication number Publication date
CN110222560A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110222560B (zh) 一种嵌入相似性损失函数的文本人员搜索方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN108399163B (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
CN109165692B (zh) 一种基于弱监督学习的用户性格预测装置及方法
CN111259625B (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN109918491B (zh) 一种基于知识库自学习的智能客服问句匹配方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
WO2019015246A1 (zh) 图像特征获取
CN100363938C (zh) 基于得分差加权融合的多模态身份识别方法
WO2016180308A1 (en) Video retrieval methods and apparatuses
CN110781829A (zh) 一种轻量级深度学习的智慧营业厅人脸识别方法
CN109213853B (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN110717324A (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN106203483A (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN109934251A (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN114519351A (zh) 一种基于用户意图嵌入图谱学习的主题文本快速检测方法
CN109886315A (zh) 一种基于核保持的图像相似性度量方法
CN111651660B (zh) 一种跨媒体检索困难样本的方法
CN113936317A (zh) 一种基于先验知识的人脸表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant