CN110222560B

CN110222560B - 一种嵌入相似性损失函数的文本人员搜索方法

Info

Publication number: CN110222560B
Application number: CN201910339800.9A
Authority: CN
Inventors: 常晓军; 郭军; 李智; 许鹏飞; 陈�峰; 郭凌; 肖云; 刘宝英
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2022-12-23
Anticipated expiration: 2039-04-25
Also published as: CN110222560A

Abstract

本发明公开了一种嵌入相似性损失函数的文本人员搜索方法，采用三通道神经网络对人员图像和描述文本的数据分别进行特征提取，并且利用余弦距离对正负图文样本对的相似性以及正负样本图像之间的相似性进行计算，然后结合相似性排名损失和实例损失，约束三通道神经网络的训练，提高了对人员搜索的匹配准确率。

Description

一种嵌入相似性损失函数的文本人员搜索方法

技术领域

本发明涉及视频监控和人员搜索领域，具体涉及一种嵌入相似性损失函数的文本人员搜索方法。

背景技术

随着摄像机的部署与普及，利用文本描述进行人员搜索的任务在视频监控领域内有着重要的作用和意义，它能够有效地应用在丢失人员搜索和嫌犯的追踪的实际问题之中。随着多通道神经网络的技术成熟，越来越多的多通道神经网络应用在人员搜索任务中。

目前一部分方法是基于文本和图像特征提取来完成这项任务，比如利用具有门控神经注意力的循环神经网络来进行人员搜索；而为了获得更符合文本描述地图像排名顺序，对于文本和图像之间的相似性度量显得十分重要，因此另外一些方法则依靠调整多通道神经网络的损失函数方法来进行人员搜索。传统的排名损失函数是用来约束网络模型中正图文样本对的距离最小，但是这种排名损失约束仅仅考虑了最小化正的图文样本对之间的相似性，而没有考虑其他的图像和文本的相似性距离。因此，探索文本描述和所有图像的相似性关系，进一步优化图像的排名顺序，才能够提高利用文本描述搜索人员的准确率。

发明内容

本发明的目的是提供一种嵌入相似性损失函数的文本人员搜索方法，以进一步提高利用文本描述进行人员搜索的准确率。

为了实现上述任务，本发明采用以下技术方案：

一种嵌入相似性损失函数的文本人员搜索方法，包括以下步骤：

步骤1，通过监控系统拍摄监控图像，从监控图像中将行人的图像截取出来以获取行人的图像数据，然后对截取出来的行人图像进行文本描述，使得每一张行人图像有对应的详细文本描述语句，利用描述后的行人图像建立数据集；

步骤2，构建三通道神经网络模型，并且将数据集中的数据按照三元组的方式输入到网络模型中，分别提取图像和文本的特征，并将这些文本和图像的特征映射到相同维度的特征空间之中；

步骤3，通过相同维度的图像和文本特征向量，计算正、负图文样本对的余弦距离，以及正负样本图像之间的余弦距离，从而构建相似性排名损失函数；

步骤4，将图像和文本特征分别映射到特征空间之中，并计算图像和文本的实例损失函数；

步骤5，通过相似性排名损失和实例损失的双重约束，完成三通道神经网络的训练过程，对模型进行评估，满足要求时保存网络模型用于人员搜索。

进一步地，步骤5所述的人员搜索的具体过程为：

对于一段文本描述语句，将监控系统拍摄的监控图像截取成不同的人员图像，然后将所有的人员图像与所述的文本描述语句输入到步骤5训练好的网络模型中，提取文本描述语句及人员图像的特征向量，分别计算文本描述的特征向量与每个人员图像的特征向量之间的余弦距离，其中与文本描述的特征向量的余弦距离最大的人员图像即为搜索得到的人员图像。

进一步地，步骤2所述的构建三通道神经网络模型，包括：

所述的三通道神经网络模型的其中两个通道用作提取正负图像样本的特征，使用优化的残差神经网络ResNet50作为图像特征的提取器，具体是在ResNet50网络的基础上，移除原有的全连接层，将全连接层替换为线性层，在线性层之后增加一个BatchNormalization层；另一条通道用于提取文本描述的特征，使用长短时记忆网络作为文本特征的提取器，在进行文本特征提取之前，先对描述语句进行数据预处理。

进一步地，所述的数据预处理，包括：

首先利用所有行人图像的文本描述语句中所出现的单词的词频构建出词表，在构建词表的过程中，保留词频低于1的单词，然后利用词嵌入的方法将单词嵌入到向量空间中，最后通过长短时记忆网络的训练得到文本特征。

进一步地，步骤2所述的三元组表示为：

O＝<T，I_p，I_n>

其中T表示一条文本描述语句，I_p和I_n分别是符合这条语句描述的图像以及不符合这条语句描述的图像，即正样本图像、负样本图像。

进一步地，所述的相似性排名损失函数，表示为：

Lr(T，I)＝max[α-D(Tp，Ip)+(β-S(Ip，In))*D(Tp，In)，0] 式2

其中，T和I分别表示文本和图像的特征，α表示间隔参数，β是表示相似性约束参数，D(Tp，Ip)表示了正图文样本对的余弦距离，D(Tp，In)表示了负图文样本对的余弦距离，S(Ip，In)表示了正负样本图像的余弦距离。

进一步地，所述的步骤4具体包括：

将步骤2中得到的相同维度空间下的图像和文本特征分别映射到维度为行人类别个数的特征空间之中，得到新的特征向量；然后分别对图像和文本新的特征向量计算其实例损失，实例损失的公式如如式3-式6所示：

P_i＝softmax(W_t×f_i) 式3

L_i＝-log(P_i(c)) 式4

P_t＝softmax(W_t×f_t) 式5

L_t＝-log(P_t(c)) 式6

其中，f_i和f_t分别表示全连接层中图像和文本的特征，W_t表示权重矩阵，softmax()表示进行归一化操作，t、i分别表示文本、图像的类别，P_t(c)、P_i(c)分别代表了文本、图像预测正确的类别c的概率，L_i和L_t分别代表了文本和图像的实例损失。

本发明与现有技术相比具有以下技术特点：

1.本发明提出了一种基于相似性排名损失函数的方法来进一步度量正负样本对之间的距离，能得到更加准确的人员搜索排名。

2.使用三通道神经网络对不同模态的数据特征进行分别提取，可以获得更优的图像和文本特征表示，有利于提升图像和文本特征的映射能力。

附图说明

图1为本发明方法的整体流程图；

图2为利用文本描述语句来进行人员搜索任务的示意图；

图3为具体的嵌入相似性排名损失的三通道神经网络框架图。

具体实施方式

本发明公开了一种基于相似性排名损失函数的人员搜索方法，包括以下步骤：

步骤1，通过监控系统拍摄监控图像，从监控图像中将行人的图像截取出来以获取行人的图像数据，然后通过人工方式对截取出来的行人图像进行文本描述，使得每一张行人图像有对应的详细文本描述语句，利用描述后的行人图像建立数据集，从而构成基于文本描述的人员搜索数据集；将数据集划分成训练集、验证集和测试集。

该步骤中，通过监控系统中的相机拍摄监控区域的图像，采用人工标记边界框地形式截取出行人的图像部分，并设定同一个行人的图像属于同一个类别。所述的边界框指包含该行人在内的最小矩形框。

采用人工标注的方法对每一张图像进行文本描述，每一张图像由两个人分别对其进行描述，然后结合行人图像和描述文本构成了基于文本的人员搜索数据集，其中每一条样本都包括了一张行人图像和一条描述语句；接着将人员搜索数据集划分为训练集、验证集和测试集。

本方法要确保使用边界框将行人的图像截取出来，这样可以减少背景的像素信息，突出人员在整个图像中的占比，保证行人图像具有有效的特征信息；另外同一个行人具有多张图像，并且每一张图像具有对应的文本描述语句，这样能够保证在神经网络训练的过程中，降低模型过拟合的风险。

步骤2，构建三通道神经网络模型，将数据集中的数据按照三元组的方式输入到神经网络模型中，分别提取图像和文本特征，并将这些文本和图像特征映射到相同维度的特征空间之中。

步骤2.1，首先构建三通道神经网络模型，其中两个通道用作提取正负图像样本的特征，使用优化的残差神经网络ResNet50作为图像特征的提取器，具体是在ResNet50网络的基础上，移除原有的全连接层，将全连接层替换为线性层，在线性层之后增加一个BatchNormalization层；除此之外，使用Leaky ReLU作为网络的激活函数，设定Leaky ReLU的参数为0.01，设定网络的dropout的参数为0.5，并且模型的初始权重使用了在ImageNet上的训练参数。

步骤2.2，三通道神经网络模型的另一条通道用于提取文本描述的特征，使用长短时记忆网络作为文本特征的提取器，在进行文本特征提取之前，先对描述语句进行数据预处理，过程为：

首先利用所有行人图像的文本描述语句中所出现的单词的词频构建出词表，在构建词表的过程中，保留词频低于1的单词。本实施例所用的样本中，根据统计词典的规模是9408个单词；然后利用词嵌入的方法将单词嵌入到维度为512维的向量空间中，最后通过长短时记忆网络的训练得到文本特征，也就是最后一层中隐藏层的特征向量，我们设定其维数为128维。

步骤2.3，构建好三通道神经网络后，将数据集中的数据按照三元组的方式输入到网络中，每一条三元组样本由O＝<T，I_p，I_n>表示，其中T表示一条文本描述语句，I_p和I_n分别是符合这条语句描述的图像以及不符合这条语句描述的图像，即对于一段文本描述来说，符合这条文本描述的图像为正样本图像，记作I_p；不符合这条文本描述的图像为负样本图像，记作I_n。另外，由一段文本描述和符合该文本描述的图像组成的样本对称作为正图文样本对，由一段文本描述和不符合该文本描述的图像组成的样本对称作为负图文样本对。

数据集中的每个样本是由文本描述语句以及符合该描述的图像组成的，考虑到数据集的规模，对于每一个文本描述语句，从数据集中随机提取t(1＜t＜10)张负样本图像，经过网络提取图像和文本特征，就可以获得三元组中图像和文本在相同维度空间下的特征表示。

该步骤中，通过Batch Normalization层可以减少模型在训练过程中出现过拟合的风险，另外Leaky ReLU也是一个弱化负神经元的比较好的激活函数，相比于ReLU会激活一些可能会对识别有帮助的负神经元。Dropout的设置可以在一定程度上缓解网络模型参数过大而产生的过拟合情况，设置0.5的比例可以在神经网络训练的过程中，控制50％的神经元关闭。此外，在进行文本描述语句特征提取时，我们确定不去除词频低于1的单词，而保证完整的词典中的单词分布，这样可以探索更加丰富的词向量信息，从而获得更优的文本特征表示；此外，对于文本和图像数据，三通道神经网络分别使用了不同的网络通道对两种模态的数据进行特征表示，可以使得获得的图像和文本特征向量在模型中具有更好的区分性。

步骤3，通过相同维度的图像和文本特征向量，计算正、负图文样本对的余弦距离，以及正负样本图像之间的余弦距离，然后构建相似性排名损失函数。

步骤3.1，通过步骤2可以获得具有相同维度的图像特征(In和Ip)和文本特征向量(Tp)，然后使用余弦距离计算公式计算正图文样本对和负图文样本对的余弦距离，以及正样本图像、负样本图像的余弦距离，其中余弦距离的计算公式如式1所示：

其中，f_a和f_b分别表示样本a、b的特征向量，||·||₂是代表L2范数(L2-norm)，余弦距离则表示为D(f_a，f_b)∈[-1，1]。

每一个三元组样本输入到网络中后，三元组样本在不同通道的网络中分别得到三个特征向量，所述的正图文样本对和负图文样本对的余弦距离，是指以待搜索文本为中心的正图文样本对、负图文样本对的余弦距离。计算负样本图像和正样本图像之间的余弦距离是为了确定不符合文本描述的负样本与正样本是否相似性较高，如果相似性较高，则该负样本在搜索排名中的顺序也应该靠前，反之靠后。

步骤3.2，得到正图文样本对和负图文样本对的余弦距离，以及正负样本图像的余弦距离之后，接着构建图文样本对的相似性排名损失函数，其公式如式2所示：

Lr(T，I)＝max[α-D(Tp，Ip)+(β-S(Ip，In))*D(Tp，In)，0] 式2

其中，T和I分别表示文本和图像的特征，α表示间隔参数，β是表示相似性约束参数。D(Tp，Ip)表示了正图文样本对的余弦距离，D(Tp，In)表示了负图文样本对的余弦距离，S(Ip，In)表示了正负样本图像的余弦距离。

该步骤考虑到了正负样本图像之间的相似度，并将正负样本图像之间的余弦距离嵌入到标准的排名损失函数之中，进一步优化了图像和文本之间的排名顺序，提高了人员搜索的准确率。

步骤4，将图像和文本特征分别映射到特征空间之中，并计算图像和文本的实例损失函数。

P_i＝softmax(W_t×f_i) 式3

L_i＝-log(P_i(c)) 式4

P_t＝softmax(W_t×f_t) 式5

L_t＝-log(P_t(c)) 式6

其中，f_i和f_t分别表示全连接层中图像和文本的特征，W_t表示权重矩阵，通过网络训练得到，softmax()表示进行归一化操作，t、i分别表示文本、图像的类别，P_t(c)、P_i(c)分别代表了文本、图像预测正确的类别c的概率，L_i和L_t分别代表了文本和图像的实例损失。

步骤5，通过相似性排名损失和实例损失的双重约束，完成三通道神经网络的训练过程，利用测试数据对该模型进行评估，计算人员搜索的Top-k准确率，准确率达到要求时保存训练好的网络模型用于人员搜索。

步骤5.1，将测试集中的样本放入到步骤2和步骤3中的网络中进行测试，得到相对应的文本特征和图像特征，然后将数据集中所有人员的图像集中的图像特征，按照与待测试的描述语句的文本特征进行相似度排序，如果在第k个前就匹配正确，则统计搜索正确的样本数目增加1，否则不变。

当所有的待测试的文本描述语句都完成搜索任务之后，统计所有搜索正确的样本数目，记作T；统计所有的测试文本语句数目，记作N。那么计算Top-k准确率的式7如下：

根据计算出来的Top-k准确率，对所述的三通道神经网络的参数(步骤3.2中的α和β，其中β的值一般为1，α的值在0-1之间)进行调整，以提升三通道神经网络的性能。

本实施例中，Top-10的准确率能够达到60％就表示网络性能符合要求。

在实际应用时，通过文本描述来搜索人员图像，具体过程为：

对于一段由群众提供或由其他方式获取的文本描述语句，将监控系统拍摄的监控图像截取成不同的人员图像，然后将所有的人员图像与所述的文本描述语句输入到步骤5训练好的网络模型中，提取文本描述语句及人员图像的特征向量，分别计算文本描述的特征向量与每个人员图像的特征向量之间的余弦距离，其中与文本描述的特征向量的余弦距离最大的人员图像即为搜索得到的人员图像；从而达到利用文本描述来进行人员搜索的目的。

CUHK-PEDES数据集介绍：CUHK-PEDES是一个标准的基于文本的人员搜索数据集，由香港中文大学公开的数据集。这个数据集里包括了40206张图片，13003个人员，以及80440条文本描述。我们按照公认的训练集/验证集/测试集切分方法对数据集进行分割，其中训练集具有34054张图片，11003个人员，以及68126条文本描述；验证集具有3078张图片，1000个人员，以及6158条文本描述；测试集具有3074张图片，1000个人员，以及6156条文本描述。

评价标准：按照我们的嵌入相似性排名损失的三通道神经网络算法具体实施步骤，完成基于文本的人员搜索任务。我们用Top-k准确率作为人员搜索的评估标准，下面简单介绍一下该评估标准。

Top-k：将数据集中所有人员的图片集中的图片，按照与待测试的文本描述语句进行相似度排序，如果在第p个前就匹配正确，则统计搜索正确的样本数目增加1，否则不变。当所有的待测试的文本描述语句都完成搜索任务之后，统计所有搜索正确的样本数目，记作T；统计所有的测试文本语句数目，记作N。那么计算Top-k准确率的式如下：

最后我们对该发明方法进行性能评估：

表1排名损失(RL)和嵌入相似性的排名损失(SRL)的比较

Methods	Top-1	Top-5	Top-10	Top-20
					RL	16.76	38.03	51.32	63.65
SRL	18.78	40.69	52.88	65.07

由表1可以看出，仅仅使用相似性排名损失函数要比仅仅使用标准的排名损失函数在网络中的Top-1人员搜索准确率提高了2.02％，证明嵌入相似性排名损失函数对于人员图像和描述文本之间的排名顺序具有提升作用。

表2不同的损失函数的比较

Methods	Top-1	Top-5	Top-10	Top-20
					RL	16.76	38.03	51.32	63.65
SRL	18.78	40.69	52.88	65.07
					IL	19.52	41.08	53.63	65.86
RL+IL	20.42	42.85	55.36	67.39
					SRL+IL	22.92	45.78	57.86	69.90

由表2可以看出，仅仅使用单一的损失函数并不能取得较好的性能，结合两种损失函数的方法在Top-1准确率上平均提高了3.32％。因此，在本发明方法中，采用了实例损失和排名损失(嵌入相似性的排名损失)的协同工作方法，这样可以在基准网络(ResNet50和LSTM)基础之上提高基于文本的人员搜索性能，两种类型的损失函数相辅相成。使用嵌入相似性排名损失函数和实例损失函数相结合的方法获得了最高的Top-1准确率22.92％。

表3本发明方法与前沿基于文本的人员搜索方法的比较

Methods	Top-1	Top-5	Top-10
				CNN-RNN	8.07	-	32.47
Neural Talk	13.66	-	41.72
				GNA-RNN	19.05	-	53.64
Ours	22.92	45.78	57.86

由表3可以看出，相比于最先进的方法，本方法在Top-1精度上和国际上前沿的方法仍然具有竞争力，从解决问题的方法上来分析的话，本方法还更加侧重于对通用网络框架的基础性能提升且可移植性较强，也就是说，本方法不单单可以应用在基于文本的人员搜索任务中，在图文匹配、图像字幕生成等多种跨模态的任务中也可以使用。

Claims

1.一种嵌入相似性损失函数的文本人员搜索方法，其特征在于，包括以下步骤：

所述的构建三通道神经网络模型，包括：

所述的三通道神经网络模型的其中两个通道用作提取正负图像样本的特征，使用优化的残差神经网络ResNet50作为图像特征的提取器，具体是在ResNet50网络的基础上，移除原有的全连接层，将全连接层替换为线性层，在线性层之后增加一个Batch Normalization层；另一条通道用于提取文本描述的特征，使用长短时记忆网络作为文本特征的提取器，在进行文本特征提取之前，先对描述语句进行数据预处理；

所述的相似性排名损失函数，表示为：

Lr(T,I)＝max[α-D(Tp,Ip)+(β-S(Ip,In))*D(Tp,In),0]

其中，T和I分别表示文本和图像的特征，α表示间隔参数,β是表示相似性约束参数，D(Tp,Ip)表示了正图文样本对的余弦距离，D(Tp,In)表示了负图文样本对的余弦距离，S(Ip,In)表示了正负样本图像的余弦距离；

2.如权利要求1所述的嵌入相似性损失函数的文本人员搜索方法，其特征在于，步骤5所述的人员搜索的具体过程为：

3.如权利要求1所述的嵌入相似性损失函数的文本人员搜索方法，其特征在于，所述的数据预处理，包括：

4.如权利要求1所述的嵌入相似性损失函数的文本人员搜索方法，其特征在于，步骤2所述的三元组表示为：

O＝<T,I_p,I_n>

5.如权利要求1所述的嵌入相似性损失函数的文本人员搜索方法，其特征在于，所述的步骤4具体包括：

将步骤2中得到的相同维度空间下的图像和文本特征分别映射到维度为行人类别个数的特征空间之中，得到新的特征向量；然后分别对图像和文本新的特征向量计算其实例损失，实例损失的公式如下：

P_i＝softmax(W_t×f_i)

L_i＝-log(P_i(c))

P_t＝softmax(W_t×f_t)

L_t＝-log(P_t(c))