CN111860193B - 一种基于文本的行人检索自监督视觉表示学习系统及方法 - Google Patents

一种基于文本的行人检索自监督视觉表示学习系统及方法 Download PDF

Info

Publication number
CN111860193B
CN111860193B CN202010590313.2A CN202010590313A CN111860193B CN 111860193 B CN111860193 B CN 111860193B CN 202010590313 A CN202010590313 A CN 202010590313A CN 111860193 B CN111860193 B CN 111860193B
Authority
CN
China
Prior art keywords
loss function
text
picture
representing
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010590313.2A
Other languages
English (en)
Other versions
CN111860193A (zh
Inventor
高联丽
樊凯旋
宋井宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Guizhou University
Original Assignee
University of Electronic Science and Technology of China
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Guizhou University filed Critical University of Electronic Science and Technology of China
Priority to CN202010590313.2A priority Critical patent/CN111860193B/zh
Publication of CN111860193A publication Critical patent/CN111860193A/zh
Application granted granted Critical
Publication of CN111860193B publication Critical patent/CN111860193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于文本的行人检索自监督视觉表示学习系统及方法,其基本思想是通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人的细节信息,并且学习到具有鲁棒性的视觉特征,从而更加准确地检索目标人物的图片,其次,为了利用图片中的物体信息,本发明构建模型提取行人与物体之间的关系,并且对这些关系进行筛选和汇总。本发明通过以上设计,解决了现有的网络只关注图片和文本之间的相似度,却忽略了图片中行人的细节信息,以无法获取样本之间具体的相似度值,缺少监督信息的问题。

Description

一种基于文本的行人检索自监督视觉表示学习系统及方法
技术领域
本发明属于视觉技术领域,尤其涉及一种基于文本的行人检索自监督视觉表示学习系统及方法。
背景技术
传统的基于文本的行人检索模型利用两部分网络分别提取图像和文本的特征描述,通常,三元损失函数被用来监督网络的学习。这种方法已经取得不错的效果,但是仍然存在以下两种缺点:
首先,现有的网络只关注图片和文本之间的相似度,却忽略了图片中行人的细节信息,例如性别、服饰和动作等。这使得网络中学习到的视觉特征鲁棒性较低。其次,目前提出的方法中使用的损失函数利用的数据集标注为0或1的离散变量。给定一组图片-文本对,根据数据集标注,网络无法获取样本之间具体的相似度值,缺少监督信息。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于文本的行人检索自监督视觉表示学习系统及方法,解决了上述基于文本的行人检索问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于文本的行人检索自监督视觉表示学习系统,包括依次连接的文本-图像特征表示模块、物体特征关系模块、目标函数模块、辅助模块以及视觉表示学习模块;
所述文本-图像特征表示模块,用于提取文本特征以及初始图片特征;
所述物体特征关系模块,用于根据初始图片特征构建物体关系推理模型,并根据所述物体关系推理模型输出最终的图片特征;
所述目标函数模块,用于分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;
所述辅助模块,用于利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;以及用于利用行人重识别模型构建不同行人之间的相似度值,并根据所述相似度值构建相似度回归任务,以及利用图片特征构建图像描述生成任务;
所述视觉表示学习模块,根据相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型,并根据所述视觉表示学习模型完成对视觉表示的学习。
基于上述系统,本发明还提供了一种基于文本的行人检索自监督视觉表示学习方法,包括以下步骤:
S1、将文本的词嵌入向量输入至双向门控循环单元模型GRU,并利用最大池化处理模型生成两组隐藏状态,得到文本特征;
S2、利用自下而上的注意力模型提取图片的局部特征,利用预训练的行人重识别模型提取图片的全局特征,并根据图片的局部特征和全局特征得到初始图片特征;
S3、根据所述初始图片特征构建物体关系推理模型,并根据所述物体关系推理模型输出最终的图片特征;
S4、分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;
S5、利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;
S6、利用行人重识别模型构建不同行人之间的相似度值,根据所述相似度值构建相似度回归任务,并利用最终的图片特征构建图像描述生成任务;
S7、根据所述相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型,并根据所述视觉表示学习模型完成对视觉表示的学习。
进一步地,所述步骤S3包括以下步骤:
S301、利用全连接层将初始图片特征映射至语义空间,得到新的图片特征;
S302、根据所述新的图片特征计算得到弦相似度,构建全连接图;
S303、根据所述全连接图,利用图卷机模型GCN学习物体和行人之间的关系;
S304、将物体和行人之间的关系按顺序输入至双向门控循环单元模型GRU中,并对物体和行之间的关系进行筛选和汇总,完成物体关系推理模块的构建;
S305、根据所述物体关系推理模型输出最终的图片特征。
再进一步地,所述步骤S301中将图片特征映射至语义空间的表达式如下:
G0=WvV+bv
其中,G0表示将图片特征映射至语义空间,Wv和bv分别表示映射层中全连接层的参数,V表示初始的图片特征。
再进一步地,所述步骤S302中全连接图的边的权重表达式如下:
Figure BDA0002556094390000031
其中,e(i,j)表示全连接图中边的权重,
Figure BDA0002556094390000032
表示利用全连接层对初始图像特征进行映射的过程,
Figure BDA0002556094390000033
表示
Figure BDA0002556094390000034
的共轭转置。
再进一步地,所述步骤S303中利用图卷机模型GCN学习物体和行人之间的关系,其表达式如下:
G*=GCN(G0,E)+G0
其中,G*表示物体和行人之间的关系,GCN表示图卷机模型,G0表示将图片特征映射至语义空间,E表示全连接图。
再进一步地,所述步骤S4中三元损失函数的表达式如下:
Figure BDA0002556094390000041
其中,LTR表示三元损失函数,S(·)表示计算两个向量的相似度,VI表示电终的图片特征,VT表示文本特征,
Figure BDA0002556094390000042
表示与VI不属于同一个人的负样本的文本特征,
Figure BDA0002556094390000043
表示与VT标签不同的负样本的图片特征,α表示正样本和负样本之间相似度的最小差值;
所述图片分类损失函数的表达式如下:
LI=-log(PI(c))
Figure BDA0002556094390000044
其中,LI表示图片分类损失函数,PI(c)表示模型预测图片属于第c类的可能性,PI表示模型预测的分布,softmax(·)表示归一化指数函数,
Figure BDA0002556094390000045
表示分类损失函数部分全连接层的参数,VI表示最终的图片特征;
所述文本损失函数的表达式如下:
LT=-log(PT(c))
Figure BDA0002556094390000046
其中,LT表示文本损失函数,PT(c)表示模型预测文本属于第c类的可能性,
Figure BDA0002556094390000047
表示分类损失函数部分全连接层的参数,VT表示文本特征。
再进一步地,所述步骤S5中性别判断任务的损失函数的表达式如下:
LG=-log(PIG)
Figure BDA0002556094390000051
其中,LG表示性别判断任务的损失函数,
Figure BDA0002556094390000052
表示性别判断任务中全连接层的参数,
Figure BDA0002556094390000053
表示将G0输入到最大池化层得到的特征,G0表示将图片特征映射至语义空间。
再进一步地,所述步骤S6中相似度回归任务的损失函数的表达式如下:
Figure BDA0002556094390000054
其中,LR表示相似度回归任务的损失函数,
Figure BDA0002556094390000055
Figure BDA0002556094390000056
分别表示第i个人的图片特征和第j个人的文本特征,
Figure BDA0002556094390000057
分别表示第i个人和第j个人的全局图片特征,S(·)表示计算两个向量的相似度;
所述图像描述生成任务的损失函数的表达式如下:
Figure BDA0002556094390000058
其中,LC表示图像描述生成任务的损失函数,
Figure BDA0002556094390000059
表示第t-1时刻标注文本,G*表示物体和行人之间的关系,pθ表示模型预测的单词分布,T表示文本的长度。
再进一步地,所述步骤S7中视觉表示学习模型的损失函数的表达式如下:
L=LTR+LI+LT+LC+10*LG+LR
其中,L表示视觉表示学习模型的损失函数,LTR表示三元损失函数,LI表示图片分类损失函数,LT表示文本损失函数,LC表示图像描述生成任务的损失函数,LG表示性别判断任务的损失函数,LR表示相似度回归任务的损失函数。
本发明的有益效果:
(1)本发明通过设计一种自监督视觉表示学习系统与方法,解决基于文本的行人检索问题。其基本思想是通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人图片的细节信息,从而学习到具有鲁棒性的视觉特征。其次,为了利用图片中的物体信息,本发明构建模型提取行人与物体之间的关系,并且对这些关系进行筛选和汇总;
(2)本发明为了利用图片中的物体信息构建了物体关系推理的模块。模块构建了行人与物体之间的关系,并且利用网络对有效关系进行筛选和汇总;
(3)本发明构建了两个辅助任务,包括性别判断和行人相似度回归。这两个子任务的构建是为了使得模型关注行人的细节信息,并且学习到具有鲁棒性的视觉特征,从而更加准确地检索目标人物的图片。
附图说明
图1为本发明的系统结构图。
图2为本发明的方法流程图。
图3为本实施例中的方法框架图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
如图1所示,一种基于文本的行人检索自监督视觉表示学习系统,包括依次连接的文本-图像特征表示模块、物体特征关系模块、目标函数模块、辅助模块以及视觉表示学习模块;文本-图像特征表示模块,用于提取文本特征以及初始图片特征;物体特征关系模块,用于根据初始图片特征构建物体关系推理模型,并根据物体关系推理模型输出最终的图片特征;目标函数模块,用于分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;辅助模块,用于利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;以及用于利用行人重识别模型构建不同行人之间的相似度值,并根据所述相似度值构建相似度回归任务,以及利用图片特征构建图像描述生成任务;所述视觉表示学习模块,根据相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型,并根据所述视觉表示学习模型完成对视觉表示的学习。
本实施例中,本发明通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人图片的细节信息,从而学习到具有鲁棒性的视觉特征,其次,为了利用图片中的物体信息,本发明构建模型提取行人与物体之间的关系,并且对这些关系进行筛选和汇总。
如图2-图3所示,基于上述系统,本发明还提供了一种基于文本的行人检索自监督视觉表示学习方法,包括以下步骤:
S1、将文本的词嵌入向量输入至双向门控循环单元模型GRU,并利用最大池化处理模型生成两组隐藏状态,得到文本特征;
本实施例中,给定一段文本T,将文本的词嵌入向量输入双向门控循环单元模型GRU中,随后利用最大池化处理模型生成的两组隐藏状态,得到2048维的VT来表示文本的特征。
S2、利用bottom-up attention自下而上的注意力模型提取图片的局部特征,利用预训练的行人重识别模型提取图片的全局特征,并根据图片的局部特征和全局特征得到初始图片特征;
本实施例中,给定一章图片,首先利用在bottom-up attention自下而上的注意力模型提取图片的局部特征Vr={v1,...,v36},特征的维度是36*2048。然后,将Comp_ReID模型在CUHK-PEDS预训练。利用预训练的模型提取图片的全局特征v0,特征的维度是1*2048,图片特征用V表示。
S3、根据所述初始图片特征构建物体关系推理模型,并根据所述物体关系推理模型输出最终的图片特征,其实现方法如下:
S301、利用全连接层将初始图片特征映射至语义空间,得到新的图片特征;
所述将图片特征映射至语义空间的表达式如下:
G0=WvV+bv
其中,G0表示将图片特征映射至语义空间,Wv和bv分别表示映射层中全连接层的参数,V表示初始图片特征;
S302、根据新的图片特征计算得到弦相似度,构建全连接图;
所述全连接图的边的权重表达式如下:
Figure BDA0002556094390000081
其中,e(i,j)表示全连接图中边的权重,
Figure BDA0002556094390000082
表示利用全连接层对初始图像特征进行映射的过程,
Figure BDA0002556094390000083
表示
Figure BDA0002556094390000084
的共轭转置;
S303、根据所述全连接图,利用图卷机模型GCN学习物体和行人之间的关系,其表达式如下:
G*=GCN(G0,E)+G0
其中,G*表示物体和行人之间的关系,GCN表示图卷机模型,G0表示将图片特征映射至语义空间,E表示全连接图;
S304、将物体和行人之间的关系按顺序输入至双向门控循环单元模型GRU中,并对物体和行之间的关系进行筛选和汇总,完成物体关系推理模块的构建;
S305、根据所述物体关系推理模型输出最终的图片特征。
本实施例中,为了获取具有辨识度的图片特征,本申请利用GRU模型对物体和行人之间的关系进行筛选和汇总。将G*按照顺序输入到GRU模型中,取最后一步的输出作为图片特征,用VI表示。
S4、分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;
本实施例中,在本文提出的模型中,通过网络得到图片特征和文本特征。为了确保属于同一个行人的两种特征在语义空间具有较高的相似度,本文使用三种通用的损失函数。
首先,本文使用三元损失函数最大化正样本对之间的距离,同时最小化负样本之间的距离。三元损失函数的计算公式定义为:
Figure BDA0002556094390000091
其中,α是公式中的参数,被设置为正样本和负样本对之间距离的最小差距。
其次,本发明使用图片分类损失函数。本文将同一个人对应的所有图片认为属于同一类别。利用这个假设,构建分类任务。给定图片特征VI,损失函数计算如下:
LI=-log(PI(c))
Figure BDA0002556094390000092
其中,WI T表示分类损失函数部分全连接层的参数。
同理,给定文本图片VT,文本分类损失函数计算如下:
LT=-log(PT(c))
Figure BDA0002556094390000093
其中,WI T与图片分类中的参数相同,表示同一个全连接层的参数。
S5、利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;
S6、利用person re-id行人重识别模型构建不同行人之间的相似度值,并根据所述相似度值构建相似度回归任务,以及利用图片特征构建图像描述生成任务;
S7、根据所述相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型,并根据所述视觉表示学习模型完成对视觉表示的学习。
本实施例中,为了确保模型关注图片中行人的细节信息,并且生成具有鲁棒性的视觉特征,本发明以自监督的方式构建了两种辅助任务。
首先,考虑到行人的性别在行人检索任务中的重要性,本文利用文本信息构建行人性别的标签。具体的,通过统计文本中“he”,“his”等关键字,可以标注行人属于男性或者女性。利用这些标签构建性别判断任务。考虑到低层视觉特征包含图片的细节信息,本文利用模型生成的特征,通过最大池化处理后得到。
性别判断损失函数定义如下:
Figure BDA0002556094390000101
LG=-log(PIG)
其中,WG T为性别判断任务中全连接层的参数。
其次,本文利用person re-id行人重识别模型构建不同行人之间的相似度值。具体的,本文将Comp_ReID模型在CUHK-PEDES数据集中训练。利用模型提取到全局特征的相似度表示行人之间的相似度。再生成相似度值标签之后,本文构建了相似度回归的任务。相似度回归的损失函数定义如下:
Figure BDA0002556094390000111
其中,LR表示相似度回归任务的损失函数,
Figure BDA0002556094390000112
Figure BDA0002556094390000113
分别表示第i个人的图片特征和第j个人的文本特征,
Figure BDA0002556094390000114
分别表示第i个人和第j个人的全局图片特征,S(·)表示计算两个向量的相似度。
另外,本申请构建了图像描述生成的任务。为了优化模型,损失函数定义如下:
Figure BDA0002556094390000115
其中,θ表示图像描述生成模型的参数。w1 *,...,wt-1 *表示标注文本。
最终本文模型的损失定义如下:
L=LTR+LI+LT+LC+10*LG+LR
本实施例中,为了利用图片中的物体信息,构建了物体关系推理的模块。模块构建了行人与物体之间的关系,并且利用网络对有效关系进行筛选和汇总,其次,本发明构建了两个辅助任务,包括性别判断和行人相似度回归。这两个子任务的构建是为了使得模型关注行人的细节信息,并且学习到具有鲁棒性的视觉特征,从而更加准确地检索目标人物的图片。最后,本发明在CUHK-PEDS数据集上进行实验,实验结果证明本发明提出的方法检索准确性超过当前最好的模型。

Claims (9)

1.一种基于文本的行人检索自监督视觉表示学习系统,其特征在于,包括依次连接的文本-图像特征表示模块、物体特征关系模块、目标函数模块、辅助模块以及视觉表示学习模块;
所述文本-图像特征表示模块,用于提取文本特征以及初始图片特征;
所述物体特征关系模块,用于根据初始图片特征构建物体关系推理模型,并根据所述物体关系推理模型输出最终的图片特征;其具体为:
利用全连接层将初始图片特征映射至语义空间,得到新的图片特征;
根据所述新的图片特征计算得到弦相似度,构建全连接图;
根据所述全连接图,利用图卷机模型GCN学习物体和行人之间的关系;
将物体和行人之间的关系按顺序输入至双向门控循环单元模型GRU中,并对物体和行之间的关系进行筛选和汇总,完成物体关系推理模块的构建;
根据所述物体关系推理模型输出最终的图片特征;
所述目标函数模块,用于分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;
所述辅助模块,用于利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;以及用于利用行人重识别模型构建不同行人之间的相似度值,并根据所述相似度值构建相似度回归任务,以及利用图片特征构建图像描述生成任务;
所述视觉表示学习模块,根据相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型,并根据所述视觉表示学习模型完成对视觉表示的学习。
2.一种基于文本的行人检索自监督视觉表示学习方法,其特征在于,包括以下步骤:
S1、将文本的词嵌入向量输入至双向门控循环单元模型GRU,并利用最大池化处理模型生成两组隐藏状态,得到文本特征;
S2、利用自下而上的注意力模型提取图片的局部特征,利用预训练的行人重识别模型提取图片的全局特征,并根据图片的局部特征和全局特征得到初始图片特征;
S3、根据所述初始图片特征构建物体关系推理模型,并根据所述物体关系推理模型输出最终的图片特征;
所述步骤S3包括以下步骤:
S301、利用全连接层将初始图片特征映射至语义空间,得到新的图片特征;
S302、根据所述新的图片特征计算得到弦相似度,构建全连接图;
S303、根据所述全连接图,利用图卷机模型GCN学习物体和行人之间的关系;
S304、将物体和行人之间的关系按顺序输入至双向门控循环单元模型GRU中,并对物体和行之间的关系进行筛选和汇总,完成物体关系推理模块的构建;
S305、根据所述物体关系推理模型输出最终的图片特征;
S4、分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;
S5、利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;
S6、利用行人重识别模型构建不同行人之间的相似度值,根据所述相似度值构建相似度回归任务,并利用最终的图片特征构建图像描述生成任务;
S7、根据所述相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型,并根据所述视觉表示学习模型完成对视觉表示的学习。
3.根据权利要求2所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S301中将图片特征映射至语义空间的表达式如下:
G0=WvV+bv
其中,G0表示将图片特征映射至语义空间,Wv和bv分别表示映射层中全连接层的参数,V表示初始的图片特征。
4.根据权利要求2所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S302中全连接图的边的权重表达式如下:
Figure FDA0003721183070000031
其中,e(i,j)表示全连接图中边的权重,
Figure FDA0003721183070000032
表示利用全连接层对初始图像特征进行映射的过程,
Figure FDA0003721183070000033
表示
Figure FDA0003721183070000034
的共轭转置。
5.根据权利要求2所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S303中利用图卷机模型GCN学习物体和行人之间的关系,其表达式如下:
G*=GCN(G0,E)+G0
其中,G*表示物体和行人之间的关系,GCN表示图卷机模型,G0表示将图片特征映射至语义空间,E表示全连接图。
6.根据权利要求2所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S4中三元损失函数的表达式如下:
Figure FDA0003721183070000041
其中,LTR表示三元损失函数,S(·)表示计算两个向量的相似度,VI表示电终的图片特征,VT表示文本特征,
Figure FDA0003721183070000042
表示与VI不属于同一个人的负样本的文本特征,
Figure FDA0003721183070000043
表示与VT标签不同的负样本的图片特征,α表示正样本和负样本之间相似度的最小差值;
所述图片分类损失函数的表达式如下:
LI=-log(PI(c))
Figure FDA0003721183070000044
其中,LI表示图片分类损失函数,PI(c)表示模型预测图片属于第c类的可能性,PI表示模型预测的分布,softmax(·)表示归一化指数函数,
Figure FDA0003721183070000045
表示分类损失函数部分全连接层的参数,VI表示最终的图片特征;
所述文本损失函数的表达式如下:
LT=-log(PT(c))
Figure FDA0003721183070000046
其中,LT表示文本损失函数,PT(c)表示模型预测文本属于第c类的可能性,
Figure FDA0003721183070000047
表示分类损失函数部分全连接层的参数,VT表示文本特征。
7.根据权利要求2所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S5中性别判断任务的损失函数的表达式如下:
LG=-log(PIG)
Figure FDA0003721183070000048
其中,LG表示性别判断任务的损失函数,
Figure FDA0003721183070000049
表示性别判断任务中全连接层的参数,
Figure FDA00037211830700000410
表示将G0输入到最大池化层得到的特征,G0表示将图片特征映射至语义空间。
8.根据权利要求2所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S6中相似度回归任务的损失函数的表达式如下:
Figure FDA0003721183070000051
其中,LR表示相似度回归任务的损失函数,
Figure FDA0003721183070000052
Figure FDA0003721183070000053
分别表示第i个人的图片特征和第j个人的文本特征,
Figure FDA0003721183070000054
分别表示第i个人和第j个人的全局图片特征,S(·)表示计算两个向量的相似度;
所述图像描述生成任务的损失函数的表达式如下:
Figure FDA0003721183070000055
其中,LC表示图像描述生成任务的损失函数,
Figure FDA0003721183070000056
表示第t-1时刻标注文本,G*表示物体和行人之间的关系,pθ表示模型预测的单词分布,T表示文本的长度。
9.根据权利要求2所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S7中视觉表示学习模型的损失函数的表达式如下:
L=LTR+LI+LT+LC+10*LG+LR
其中,L表示视觉表示学习模型的损失函数,LTR表示三元损失函数,LI表示图片分类损失函数,LT表示文本损失函数,LC表示图像描述生成任务的损失函数,LG表示性别判断任务的损失函数,LR表示相似度回归任务的损失函数。
CN202010590313.2A 2020-06-24 2020-06-24 一种基于文本的行人检索自监督视觉表示学习系统及方法 Active CN111860193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010590313.2A CN111860193B (zh) 2020-06-24 2020-06-24 一种基于文本的行人检索自监督视觉表示学习系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010590313.2A CN111860193B (zh) 2020-06-24 2020-06-24 一种基于文本的行人检索自监督视觉表示学习系统及方法

Publications (2)

Publication Number Publication Date
CN111860193A CN111860193A (zh) 2020-10-30
CN111860193B true CN111860193B (zh) 2022-08-05

Family

ID=72989662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010590313.2A Active CN111860193B (zh) 2020-06-24 2020-06-24 一种基于文本的行人检索自监督视觉表示学习系统及方法

Country Status (1)

Country Link
CN (1) CN111860193B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348792A (zh) * 2020-11-04 2021-02-09 广东工业大学 一种基于小样本学习和自监督学习的x光胸片图像分类方法
CN112287159B (zh) * 2020-12-18 2021-04-09 北京世纪好未来教育科技有限公司 检索方法、电子设备及计算机可读介质
CN112926452B (zh) * 2021-02-25 2022-06-14 东北林业大学 一种基于GCN和GRU增强U-Net特征的高光谱分类方法及系统
CN114595780B (zh) * 2022-03-15 2022-12-20 百度在线网络技术(北京)有限公司 图文处理模型训练及图文处理方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8543521B2 (en) * 2011-03-30 2013-09-24 Microsoft Corporation Supervised re-ranking for visual search
US10373056B1 (en) * 2018-01-25 2019-08-06 SparkCognition, Inc. Unsupervised model building for clustering and anomaly detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
matching images and text with multi-modal tensor fusion and re-ranking;Wang,Tan et al;《proceedings of the 27th ACM international conference on multimedia(2019)》;20190812;全文 *
perceptual pyramid adversarial networks for text-to-image synthesis;Gao,Lianli et al;《The thirty-third AAAI conference on artificial intelligence(AAAI-19)》;20190812;全文 *
salience-guided cascaded suppression network for person re-identification;chen,xuesong et al;《2020 IEEE/CVF conference on computer vision and pattern recognition(CVPR)》;20200601;全文 *

Also Published As

Publication number Publication date
CN111860193A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110222140B (zh) 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110119786B (zh) 文本话题分类方法及装置
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN107944410B (zh) 一种基于卷积神经网络的跨领域面部特征解析方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN109214001A (zh) 一种中文语义匹配系统及方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN111476315A (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN114510939A (zh) 实体关系抽取方法、装置、电子设备及存储介质
CN112905762A (zh) 一种基于同等注意力图网络的视觉问答方法
CN111858878A (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN114612666A (zh) 一种基于多模态对比学习的rgb-d语义分割方法
CN117012370A (zh) 多模态疾病辅助推理系统、方法、终端及存储介质
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN111626291A (zh) 一种图像视觉关系检测方法、系统及终端
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114648005A (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置
CN114357166A (zh) 一种基于深度学习的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant