CN111860193B

CN111860193B - 一种基于文本的行人检索自监督视觉表示学习系统及方法

Info

Publication number: CN111860193B
Application number: CN202010590313.2A
Authority: CN
Inventors: 高联丽; 樊凯旋; 宋井宽
Original assignee: University of Electronic Science and Technology of China; Guizhou University
Current assignee: University of Electronic Science and Technology of China; Guizhou University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-08-05
Anticipated expiration: 2040-06-24
Also published as: CN111860193A

Abstract

本发明提供了一种基于文本的行人检索自监督视觉表示学习系统及方法，其基本思想是通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人的细节信息，并且学习到具有鲁棒性的视觉特征，从而更加准确地检索目标人物的图片，其次，为了利用图片中的物体信息，本发明构建模型提取行人与物体之间的关系，并且对这些关系进行筛选和汇总。本发明通过以上设计，解决了现有的网络只关注图片和文本之间的相似度，却忽略了图片中行人的细节信息，以无法获取样本之间具体的相似度值，缺少监督信息的问题。

Description

一种基于文本的行人检索自监督视觉表示学习系统及方法

技术领域

本发明属于视觉技术领域，尤其涉及一种基于文本的行人检索自监督视觉表示学习系统及方法。

背景技术

传统的基于文本的行人检索模型利用两部分网络分别提取图像和文本的特征描述，通常，三元损失函数被用来监督网络的学习。这种方法已经取得不错的效果，但是仍然存在以下两种缺点：

首先，现有的网络只关注图片和文本之间的相似度，却忽略了图片中行人的细节信息，例如性别、服饰和动作等。这使得网络中学习到的视觉特征鲁棒性较低。其次，目前提出的方法中使用的损失函数利用的数据集标注为0或1的离散变量。给定一组图片-文本对，根据数据集标注，网络无法获取样本之间具体的相似度值，缺少监督信息。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于文本的行人检索自监督视觉表示学习系统及方法，解决了上述基于文本的行人检索问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于文本的行人检索自监督视觉表示学习系统，包括依次连接的文本-图像特征表示模块、物体特征关系模块、目标函数模块、辅助模块以及视觉表示学习模块；

所述文本-图像特征表示模块，用于提取文本特征以及初始图片特征；

所述物体特征关系模块，用于根据初始图片特征构建物体关系推理模型，并根据所述物体关系推理模型输出最终的图片特征；

所述目标函数模块，用于分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数；

所述辅助模块，用于利用文本特征构建行人性别标签，并根据行人性别标签构建性别判断任务；以及用于利用行人重识别模型构建不同行人之间的相似度值，并根据所述相似度值构建相似度回归任务，以及利用图片特征构建图像描述生成任务；

所述视觉表示学习模块，根据相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型，并根据所述视觉表示学习模型完成对视觉表示的学习。

基于上述系统，本发明还提供了一种基于文本的行人检索自监督视觉表示学习方法，包括以下步骤：

S1、将文本的词嵌入向量输入至双向门控循环单元模型GRU，并利用最大池化处理模型生成两组隐藏状态，得到文本特征；

S2、利用自下而上的注意力模型提取图片的局部特征，利用预训练的行人重识别模型提取图片的全局特征，并根据图片的局部特征和全局特征得到初始图片特征；

S3、根据所述初始图片特征构建物体关系推理模型，并根据所述物体关系推理模型输出最终的图片特征；

S4、分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数；

S5、利用文本特征构建行人性别标签，并根据行人性别标签构建性别判断任务；

S6、利用行人重识别模型构建不同行人之间的相似度值，根据所述相似度值构建相似度回归任务，并利用最终的图片特征构建图像描述生成任务；

S7、根据所述相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型，并根据所述视觉表示学习模型完成对视觉表示的学习。

进一步地，所述步骤S3包括以下步骤：

S301、利用全连接层将初始图片特征映射至语义空间，得到新的图片特征；

S302、根据所述新的图片特征计算得到弦相似度，构建全连接图；

S303、根据所述全连接图，利用图卷机模型GCN学习物体和行人之间的关系；

S304、将物体和行人之间的关系按顺序输入至双向门控循环单元模型GRU中，并对物体和行之间的关系进行筛选和汇总，完成物体关系推理模块的构建；

S305、根据所述物体关系推理模型输出最终的图片特征。

再进一步地，所述步骤S301中将图片特征映射至语义空间的表达式如下：

G₀＝W_vV+b_v

其中，G₀表示将图片特征映射至语义空间，W_v和b_v分别表示映射层中全连接层的参数，V表示初始的图片特征。

再进一步地，所述步骤S302中全连接图的边的权重表达式如下：

其中，e(i,j)表示全连接图中边的权重，

表示利用全连接层对初始图像特征进行映射的过程，

表示

的共轭转置。

再进一步地，所述步骤S303中利用图卷机模型GCN学习物体和行人之间的关系，其表达式如下：

G^*＝GCN(G₀,E)+G₀

其中，G^*表示物体和行人之间的关系，GCN表示图卷机模型，G₀表示将图片特征映射至语义空间，E表示全连接图。

再进一步地，所述步骤S4中三元损失函数的表达式如下：

其中，L_TR表示三元损失函数，S(·)表示计算两个向量的相似度，V_I表示电终的图片特征，V_T表示文本特征，

表示与V_I不属于同一个人的负样本的文本特征，

表示与V_T标签不同的负样本的图片特征，α表示正样本和负样本之间相似度的最小差值；

所述图片分类损失函数的表达式如下：

L_I＝-log(P_I(c))

其中，L_I表示图片分类损失函数，P_I(c)表示模型预测图片属于第c类的可能性，P_I表示模型预测的分布，softmax(·)表示归一化指数函数，

表示分类损失函数部分全连接层的参数，V_I表示最终的图片特征；

所述文本损失函数的表达式如下：

L_T＝-log(P_T(c))

其中，L_T表示文本损失函数，P_T(c)表示模型预测文本属于第c类的可能性，

表示分类损失函数部分全连接层的参数，V_T表示文本特征。

再进一步地，所述步骤S5中性别判断任务的损失函数的表达式如下：

L_G＝-log(P_IG)

其中，L_G表示性别判断任务的损失函数，

表示性别判断任务中全连接层的参数，

表示将G₀输入到最大池化层得到的特征，G₀表示将图片特征映射至语义空间。

再进一步地，所述步骤S6中相似度回归任务的损失函数的表达式如下：

其中，L_R表示相似度回归任务的损失函数，

和

分别表示第i个人的图片特征和第j个人的文本特征，

分别表示第i个人和第j个人的全局图片特征，S(·)表示计算两个向量的相似度；

所述图像描述生成任务的损失函数的表达式如下：

其中，L_C表示图像描述生成任务的损失函数，

表示第t-1时刻标注文本，G^*表示物体和行人之间的关系，p_θ表示模型预测的单词分布，T表示文本的长度。

再进一步地，所述步骤S7中视觉表示学习模型的损失函数的表达式如下：

L＝L_TR+L_I+L_T+L_C+10*L_G+L_R

其中，L表示视觉表示学习模型的损失函数，L_TR表示三元损失函数，L_I表示图片分类损失函数，L_T表示文本损失函数，L_C表示图像描述生成任务的损失函数，L_G表示性别判断任务的损失函数，L_R表示相似度回归任务的损失函数。

本发明的有益效果：

(1)本发明通过设计一种自监督视觉表示学习系统与方法，解决基于文本的行人检索问题。其基本思想是通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人图片的细节信息，从而学习到具有鲁棒性的视觉特征。其次，为了利用图片中的物体信息，本发明构建模型提取行人与物体之间的关系，并且对这些关系进行筛选和汇总；

(2)本发明为了利用图片中的物体信息构建了物体关系推理的模块。模块构建了行人与物体之间的关系，并且利用网络对有效关系进行筛选和汇总；

(3)本发明构建了两个辅助任务，包括性别判断和行人相似度回归。这两个子任务的构建是为了使得模型关注行人的细节信息，并且学习到具有鲁棒性的视觉特征，从而更加准确地检索目标人物的图片。

附图说明

图1为本发明的系统结构图。

图2为本发明的方法流程图。

图3为本实施例中的方法框架图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

如图1所示，一种基于文本的行人检索自监督视觉表示学习系统，包括依次连接的文本-图像特征表示模块、物体特征关系模块、目标函数模块、辅助模块以及视觉表示学习模块；文本-图像特征表示模块，用于提取文本特征以及初始图片特征；物体特征关系模块，用于根据初始图片特征构建物体关系推理模型，并根据物体关系推理模型输出最终的图片特征；目标函数模块，用于分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数；辅助模块，用于利用文本特征构建行人性别标签，并根据行人性别标签构建性别判断任务；以及用于利用行人重识别模型构建不同行人之间的相似度值，并根据所述相似度值构建相似度回归任务，以及利用图片特征构建图像描述生成任务；所述视觉表示学习模块，根据相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型，并根据所述视觉表示学习模型完成对视觉表示的学习。

本实施例中，本发明通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人图片的细节信息，从而学习到具有鲁棒性的视觉特征，其次，为了利用图片中的物体信息，本发明构建模型提取行人与物体之间的关系，并且对这些关系进行筛选和汇总。

如图2-图3所示，基于上述系统，本发明还提供了一种基于文本的行人检索自监督视觉表示学习方法，包括以下步骤：

本实施例中，给定一段文本T，将文本的词嵌入向量输入双向门控循环单元模型GRU中，随后利用最大池化处理模型生成的两组隐藏状态，得到2048维的V_T来表示文本的特征。

S2、利用bottom-up attention自下而上的注意力模型提取图片的局部特征，利用预训练的行人重识别模型提取图片的全局特征，并根据图片的局部特征和全局特征得到初始图片特征；

本实施例中，给定一章图片，首先利用在bottom-up attention自下而上的注意力模型提取图片的局部特征V_r＝{v₁,...,v₃₆}，特征的维度是36*2048。然后，将Comp_ReID模型在CUHK-PEDS预训练。利用预训练的模型提取图片的全局特征v₀，特征的维度是1*2048，图片特征用V表示。

S3、根据所述初始图片特征构建物体关系推理模型，并根据所述物体关系推理模型输出最终的图片特征，其实现方法如下：

所述将图片特征映射至语义空间的表达式如下：

G₀＝W_vV+b_v

其中，G₀表示将图片特征映射至语义空间，W_v和b_v分别表示映射层中全连接层的参数，V表示初始图片特征；

S302、根据新的图片特征计算得到弦相似度，构建全连接图；

所述全连接图的边的权重表达式如下：

其中，e(i,j)表示全连接图中边的权重，

表示利用全连接层对初始图像特征进行映射的过程，

表示

的共轭转置；

S303、根据所述全连接图，利用图卷机模型GCN学习物体和行人之间的关系，其表达式如下：

G^*＝GCN(G₀,E)+G₀

其中，G^*表示物体和行人之间的关系，GCN表示图卷机模型，G₀表示将图片特征映射至语义空间，E表示全连接图；

S305、根据所述物体关系推理模型输出最终的图片特征。

本实施例中，为了获取具有辨识度的图片特征，本申请利用GRU模型对物体和行人之间的关系进行筛选和汇总。将G^*按照顺序输入到GRU模型中，取最后一步的输出作为图片特征，用V_I表示。

本实施例中，在本文提出的模型中，通过网络得到图片特征和文本特征。为了确保属于同一个行人的两种特征在语义空间具有较高的相似度，本文使用三种通用的损失函数。

首先，本文使用三元损失函数最大化正样本对之间的距离，同时最小化负样本之间的距离。三元损失函数的计算公式定义为：

其中，α是公式中的参数，被设置为正样本和负样本对之间距离的最小差距。

其次，本发明使用图片分类损失函数。本文将同一个人对应的所有图片认为属于同一类别。利用这个假设，构建分类任务。给定图片特征V_I，损失函数计算如下：

L_I＝-log(P_I(c))

其中，W_I ^T表示分类损失函数部分全连接层的参数。

同理，给定文本图片V_T，文本分类损失函数计算如下：

L_T＝-log(P_T(c))

其中，W_I ^T与图片分类中的参数相同，表示同一个全连接层的参数。

S6、利用person re-id行人重识别模型构建不同行人之间的相似度值，并根据所述相似度值构建相似度回归任务，以及利用图片特征构建图像描述生成任务；

本实施例中，为了确保模型关注图片中行人的细节信息，并且生成具有鲁棒性的视觉特征，本发明以自监督的方式构建了两种辅助任务。

首先，考虑到行人的性别在行人检索任务中的重要性，本文利用文本信息构建行人性别的标签。具体的，通过统计文本中“he”，“his”等关键字，可以标注行人属于男性或者女性。利用这些标签构建性别判断任务。考虑到低层视觉特征包含图片的细节信息，本文利用模型生成的特征，通过最大池化处理后得到。

性别判断损失函数定义如下：

L_G＝-log(P_IG)

其中，W_G ^T为性别判断任务中全连接层的参数。

其次，本文利用person re-id行人重识别模型构建不同行人之间的相似度值。具体的，本文将Comp_ReID模型在CUHK-PEDES数据集中训练。利用模型提取到全局特征的相似度表示行人之间的相似度。再生成相似度值标签之后，本文构建了相似度回归的任务。相似度回归的损失函数定义如下：

其中，L_R表示相似度回归任务的损失函数，

和

分别表示第i个人的图片特征和第j个人的文本特征，

分别表示第i个人和第j个人的全局图片特征，S(·)表示计算两个向量的相似度。

另外，本申请构建了图像描述生成的任务。为了优化模型，损失函数定义如下：

其中，θ表示图像描述生成模型的参数。w₁ ^*,...,w_t-1 ^*表示标注文本。

最终本文模型的损失定义如下：

L＝L_TR+L_I+L_T+L_C+10*L_G+L_R

本实施例中，为了利用图片中的物体信息，构建了物体关系推理的模块。模块构建了行人与物体之间的关系，并且利用网络对有效关系进行筛选和汇总，其次，本发明构建了两个辅助任务，包括性别判断和行人相似度回归。这两个子任务的构建是为了使得模型关注行人的细节信息，并且学习到具有鲁棒性的视觉特征，从而更加准确地检索目标人物的图片。最后，本发明在CUHK-PEDS数据集上进行实验，实验结果证明本发明提出的方法检索准确性超过当前最好的模型。