CN110909673B

CN110909673B - 一种基于自然语言描述的行人再识别方法

Info

Publication number: CN110909673B
Application number: CN201911148055.6A
Authority: CN
Inventors: 于明; 霍昶伟; 师硕; 郝小可; 于洋; 阎刚; 朱叶; 刘依; 郭迎春
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2022-09-16
Anticipated expiration: 2039-11-21
Also published as: CN110909673A

Abstract

本发明一种基于自然语言描述的行人再识别方法，涉及用于识别图形记录载体的处理，具体说是设计图像和自然语言描述双分支网络结构，图像分支网络结构采用MobileNet卷积网络进行图像特征提取，自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取，对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练，用训练好的网络在待测图像集中搜索所包含的对应的行人图像，实现基于堆叠损失函数的自然语言描述的行人再识别，克服了现有技术中所存在的特征提取部分文本特征表征性不高，损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。

Description

一种基于自然语言描述的行人再识别方法

技术领域

本发明的技术方案涉及用于识别图形记录载体的处理，具体地说是一种基于自然语言描述的行人再识别方法。

背景技术

在监控视频中，因摄相机分辨率和拍摄角度的缘故，通常无法得到质量非常高的人脸图片。在人脸识别失效的情况下，行人再识别成为了一种十分重要的替代技术。借助于大量监控摄像头所摄的海量图像数据，行人再识别技术能够在一定范围内相对准确地实现行人再识别任务，甚至实时地发现和定位行人的当前位置，在公共安全领域中具有重要的意义。然而，在实际应用中，并不是所有需要进行行人再识别的任务中都有图像数据信息可供使用，但可能会有关于需要再识别行人特征的自然语言描述信息供使用，因此基于自然语言描述的行人再识别方法被人们提出并开始进行深入的研究。

基于自然语言描述的行人再识别多采用双分支结构框架，分别是文本编码分支和图像特征提取分支，然后对提取的特征再进行跨模态匹配，实现行人的图文匹配。文献“Cascade Attention Network for Person Search:Both Image and Text-ImageSimilarity Selection”，介绍了通过添加poseCNN提取图像的姿态信息与VGG16得到的特征共同作为图像特征，增加了特征的多样性。文献“Learning semantic concepts andorder for image and sentence matching”，介绍了通过提取LSTM网络的多个隐藏状态作为文本的特征表示，注重每个单词与图像的相似性。为了提高自然语言描述的文本和图像特征信息的有效性和准确性，需对初步特征进行进一步处理，近年来注意力机制在提高特征有效性上起到了关键作用。文献“Person search with natural languagedescription”提出了一种新颖的具有门控神经注意的递归神经网络(GNA-RNN)用于人员搜索，首先将文本描述的每个单词特征与图像特征结合，再通过软注意力机制得到权重分配，再结合文本特征和图像特征得到最终的相似性结果，但忽略了文本序列的时序性关系以及仍然存在较多的低相关性特征。

特征提取之后进行相似性度量是行人再识别技术的重要步骤。文献“Improvingdeep visual representation for person re-identification by global and localimage-language association”，介绍了使用二分类交叉熵函数作为损失函数对匹配结果进行二分类问题的研究，但是二分类问题分类过于简单和绝对化。文献“Dual-pathconvolutional image-text embedding”介绍了为输入的每一对图像和文本在mini-batch上选择出一个最相似的不同类图像或一个最相似的不同类文本组成两组三元组，让同类的图像和文本匹配结果好于不同类的图像和文本匹配结果，但每个batch输入的有限性以及三元组样本的选择，可能导致训练不稳定，而且随着训练集样本的增加，构建三元组的时间开销会明显增加。文献“Identity-aware textual-visual matching with latent co-attention”提出了跨模态交叉熵损失函数，该损失函数采用跨模态样本与身份标签的相似度进行类别预测，但这种策略需要分配额外的身份特征缓冲区，当数据集较大时，训练过程会消耗大量内存。

CN109993070A公开了一种基于全局距离尺度损失函数的行人再识别方法，是一种基于交叉熵损失函数和全局距离尺度损失函数的行人再识别方法，该方法存在每一个批次的数据需要额外的超参数以及交叉熵分类过于简单和绝对化的缺陷。CN109190446A公开了基于三元组聚焦损失函数的行人再识别方法和CN109635695A公开了基于三元组卷积神经网络的行人再识别方法，是一种聚集损失函数的行人再识别方法，该类方法存在限制每个批次行人类别数量以及每类行人的数量并且每个训练批次图像数量较大的缺陷。CN108960142A公开了基于全局特征损失函数的行人再识别方法，与上述专利技术同样是用的标准差和均值去做行人再识别，存在着在每一个批次的数据需要额外的超参数的缺陷。CN110321862A公开了一种基于紧致三元损失的行人再识别方法，该方法中存在难样本(即最相似的负样本)三元组损失函数训练结果不稳定的缺陷。CN109635636A公开了基于属性特征和加权的分块特征相融合的行人再识别方法，该方法运用传统特征和深度特征相结合，存在着在提高行人再识别准确率的情况下增大了网络结构影响了方法的实时性的缺陷。CN109190471A公开了基于自然语言描述的视频监控行人搜索的注意力模型方法，该方法存在主要去做单词与图像之间的相似性，忽略了文本以及图像之间的上下文信息的缺陷。CN109145763A公开了基于自然语言描述的视频监控行人搜索图像文本融合方法，该方法存在融合权重还是基于文本整体，对无关信息的干扰问题并没有解决的缺陷。

综上所述，基于自然语言描述的行人再识别方法的现有技术中，存在特征提取部分文本特征表征性不高，损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。

发明内容

本发明所要解决的技术问题是：提供一种基于自然语言描述的行人再识别方法，是设计图像和自然语言描述双分支网络结构，图像分支网络结构采用MobileNet卷积网络进行图像特征提取，自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取，对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练，得到的训练模型导入网络之后，在待测图像集中搜索所包含的对应的行人图像，实现基于堆叠损失函数的自然语言描述的行人再识别，克服了现有技术中所存在的特征提取部分文本特征表征性不高，损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。

本发明解决该技术问题所采用的技术方案是：一种基于自然语言描述的行人再识别方法，设计图像和自然语言描述双分支网络结构，图像分支网络结构采用MobileNet卷积网络进行图像特征提取，自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取，对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练，得到的训练模型导入网络之后，在待测图像集中搜索所包含的对应的行人图像，实现基于堆叠损失函数的自然语言描述的行人再识别，具体步骤如下：

第一步，设计图像分支网络结构：

设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取；

第二步，设计自然语言描述分支网络结构：

设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征；

第三步，构建堆叠损失函数L，进行网络训练：

上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数L_it和构建单模态分类损失函数L_id，将跨模态损失函数L_it和单模态分类损失函数L_id合并构建堆叠损失函数L，再进行基于堆叠损失函数L的网络训练，得到训练模型；

第四步，实现基于堆叠损失函数的自然语言描述的行人再识别：

将上述第三步得到的训练模型导入网络之后，在待测图像集中搜索所包含的对应的行人图像，实现基于堆叠损失函数的自然语言描述的行人再识别；

至此，完成基于自然语言描述的行人再识别。

上述一种基于自然语言描述的行人再识别方法，所述设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取，具体操作如下：

首先搭建如下的MobileNet卷积网络，MobileNet卷积网络由14层卷积层，1层池化层和1层全连接层组成，其中卷积层除了第一层为传统卷积层之外，其它卷积层均为深度可分离卷积层，由一层深度卷积层和一层点卷积层组成；

再进行图像特征提取，过程是，输入MobileNet卷积网络的图像大小为224×224像素，经过MobileNet卷积网络之后特征图大小变为输入图像大小的1/32，输入MobileNet卷积网络的图像经过第一层传统卷积层之后，卷积后的特征图大小为112×112像素，通道数为32；第二层深度可分离卷积层由参数为3×3×32的深度卷积层和参数为1×1×32×64的点卷积层组成，经过第二层卷积后的特征图大小为112×112像素，通道数为64；第三层深度可分离卷积层由参数为3×3×64的深度卷积层和参数为1×1×64×128的点卷积层组成，经过第三层卷积后的特征图大小为56×56像素，通道数为128；第四层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×128的点卷积层组成，经过第四层卷积后的特征图大小为56×56像素，通道数为128；第五层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×256的点卷积层组成，经过第五层卷积后的特征图大小为28×28像素，通道数为256；第六层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×256的点卷积层组成，经过第六层卷积后的特征图大小为28×28像素，通道数为256；第七层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×512的点卷积层组成，第八层至第十二层深度可分离卷积层均由参数为3×3×512深度卷积层和参数为1×1×512×512的点卷积层组成，经过第七层以及第八层至第十二层卷积后的特征图大小为14×14像素，通道数为512；第十三层深度可分离卷积层由参数为3×3×512的深度卷积层和参数为1×1×512×1024的点卷积层组成，经过第十三层卷积后的特征图大小为7×7像素，通道数为1024；第十四层深度可分离卷积层由参数为3×3×1024的深度卷积层和参数为1×1×1024×1024的点卷积层组成，经过第十四层卷积后的特征图大小为7×7像素，通道数为1024；再经过一层池化层，得到特征图大小为1×1像素，通道数为1024的图像特征；为保证图像特征和文本特征的维度相同，将得到的大小为1×1像素，通道数为1024的图像特征经过MobileNet卷积网络之外的一个1×1×1024×512卷积层处理，提取得到图像特征为I∈R^1×1×512，由此完成采用MobileNet卷积网络进行图像特征提取的操作。

上述一种基于自然语言描述的行人再识别方法，所述设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征的具体操作如下：

第(2.1)步，文本预处理操作：

通过文本预处理操作得到文本的预处理特征矩阵E，方法是将文本中的句子划分为单词，对每个单词依据词汇表进行one-hot编码，句子中第i个单词的one-hot编码经过词嵌入矩阵

得到一个d维特征向量e_di，如公式(1)所示，

公式(1)中，n是句子长度，v是词汇表的长度，d是e_di的维度，

长度为n的句子，其n×v维的one-hot编码经过v×d的词嵌入矩阵，由此完成文本预处理操作得到文本的预处理特征矩阵E；

第(2.2)步，BiLSTM网络提取文本特征：

将上述第(2.1)步得到的文本的预处理特征矩阵E，依据句子长度为n的文本序列顺序，依次通过BiLSTM网络的前向LSTM单元和反向LSTM单元，得到句子的隐藏状态矩阵H，隐藏状态矩阵H中任意时刻t的状态向量

由前向隐藏状态

和反向隐藏状态

合并得到，如公式(2)所示，

公式(2)中，t为句子中第t个位置，t∈(1,n)为t的取值范围，

由此通过BiLSTM网络获取到文本特征；

第(2.3)步，截断式注意力机制再处理文本特征：

对软注意力机制添加阈值进行筛选，称为截断式注意力机制，截断式注意力机制由两层全连接层和一层Softmax层组成，

采用截断式注意力机制处理文本特征的具体操作是，将上述第(2.2)步得到的句子的时序状态矩阵H通过截断式注意力机制，得到一个和句子长度n相同维数的权重向量M，如公式(3)所示，

M＝softmax(W_t2tanh(W_t1H+b₁)+b₂) (3)，

公式(3)中，W_t1和b₁为第一个全连接层的参数，W_t2和b₂为第二个全连接层的参数，再通过对得到的权重向量M进行筛选，将权重小于阈值τ的权重向量忽略掉，而其他的权重向量保持不变，得到截断式注意力机制的权重向量M_new，如公式(4)所示，

公式(4)中，x为权重向量M中第x个位置，M_x为权重向量M中第x个位置的权重，n为句子长度，将该截断式注意力机制的权重向量M_new与上述第(2.2)步得到的隐藏状态矩阵H对应做乘积运算后再求和，得到最终的文本特征T，完成截断式注意力机制处理文本特征，文本特征T定义为如下公式(5)，

T＝∑M_newH (5)，

由此完成截断式注意力机制再处理文本特征；

至此，完成进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征的操作。

上述一种基于自然语言描述的行人再识别方法，所述上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数L_it和构建单模态分类损失函数L_id，将跨模态损失函数L_it和单模态分类损失函数L_id合并构建堆叠损失函数L，再进行基于堆叠损失函数L的网络训练，其具体操作如下：

第(3.1)步，构建跨模态损失函数L_it：

将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分组成匹配图像文本特征对(I,T)，再将图像特征I与文本特征T在空间上进行相互映射，得到文本特征T空间下的图像特征

和图像特征I空间下的文本特征T，再将如此处理后的图像特征和文本特征作如下处理：

随机抽取训练集中部分图像和文本组成一组输入数据输入到神经网络中，将每一个图像特征和所有文本特征根据身份类别进行匹配，得到多个图像文本标签对(I_iid,T_jid)，其中I_iid为第i个图像的身份标签，T_jid为第j个文本的身份标签，判断自由组合的图像文本标签对(I_iid,T_jid)是否属于同类，当同属于一类时，结果标签Q_ij记为1，当不是一类时，结果标签Q_ij记为0，如公式(6)所示：

一组输入的数据大小为r，那么由r×r个结果标签Q_ij组成标签矩阵Q，结果标签Q_ij对应的概率分布记为

如下公式(7)所示，

r×r个

组成概率分布矩阵

同上，在每次输入数据中，将每一个图像特征和所有的文本特征进行匹配，得到多个图像文本特征对，得到r×r个图文特征匹配结果P_ij组成矩阵P；矩阵P经过Softmax层得到对应的r×r的概率分布结果矩阵

图文特征匹配结果P_ij对应的概率分布是

图文特征匹配结果的概率分布

和图文标签匹配结果的概率分布

之间的距离即是跨模态损失函数L_it，由公式(8)所示，

公式(8)中，r为一组输入数据的大小，

和

分别表示第i个图像和第j个文本组成的图像文本对的特征和标签匹配结果的概率分布，由此完成构建跨模态损失函数L_it；

第(3.2)步，构建单模态分类损失函数L_id：

通过如下公式(9)计算获得单模态图像交叉熵损失函数

通过如下公式(10)计算获得文本多分类交叉熵损失函数

公式(9)和公式(10)中，W_s为全连接层权重，ψ为线性变换函数，r为输入批次的大小，I_k为第k个图像文本对的图像特征向量，T_k为第k个图像文本对的文本特征向量；

将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T经过线性变换后通过一个全连接层和一个Softmax层，得到单模态图像

的预测结果P_I和文本多分类损失

的预测结果P_T，

用公式(11)计算图像文本概率分布之间的相对熵之和，

公式(11)中，

为P_I的第q个图像的分类预测结果，

为P_T的第q个文本的分类预测结果，r为输入批次的大小，L_itid为图像文本概率分布之间的损失函数，q为P_T和P_I中第q个图像或者文本；

通过单模态图像交叉熵损失函数

文本多分类交叉熵损失函数

和图像文本概率分布之间的损失函数L_itid求和，得到基于身份标签的单模态分类损失函数，如公式(12)所示，

公式(12)中，L_id为单模态分类损失函数，

由此完成构建单模态分类损失函数L_id；

第(3.3)步，构建堆叠损失函数L：

将上述第(3.1)步得到的跨模态损失函数L_it和上述第(3.2)步得到的单模态分类损失函数L_id合并构建得到最终的堆叠损失函数L，如公式(13)所示，

L＝L_it+L_id (13)，

至此完成了构建堆叠损失函数L；

第(3.4)步，基于堆叠损失函数L的网络训练：

基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练，具体操作如下：

对于整个训练集，随机抽取其中一部分图像和文本生成神经网络的一组输入数据，将不同次的输入数据分别输入到基于堆叠损失函数L的网络中进行训练，再通过堆叠损失函数L进行模型的优化，缩小跨模态匹配的概率分布差距和单模态分类的概率分布差距进行训练，其中堆叠损失函数L的反向传播算法为Adam，对堆叠损失函数L的梯度依次进行一阶矩估计记为n_z和二阶矩估计记为v_z，计算公式分别如下公式(14)和公式(15)所示，

n_z＝β₁n_z-1+(1-β₁)gz (14)，

v_z＝β₂v_z-1+(1-β₂)gz² (15)，

公式(14)和公式(15)中，β₁、β₂表示默认参数，z为更新的步数，gz表示损失函数L的当前梯度，

再分别对n_z、v_z进行校正，以将其近似为对期望的无偏估计，校正公式如下公式(16)和公式(17)所示，

公式(16)和公式(17)中，

表示校正后的结果，β₁、β₂表示默认参数，最后网络参数的优化公式为如下公式(18)所示，

公式(18)中，α为学习率，θ_z为当前的参数权重，θ_z+1为梯度方向下降后的参数权重，至此实现了基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练。

上述一种基于自然语言描述的行人再识别方法，所述将上述第三步得到的训练模型导入网络，之后在待测图像集中搜索所包含的对应的行人图像，实现基于堆叠损失函数的自然语言描述的行人再识别，其具体操作如下：

在待测图像集中搜索所包含的对应的行人图像，操作如下，

依据上述第(3.1)步得到文本特征T空间下的图像特征

和图像特征I空间下的文本特征T，用以下公式(19)计算余弦距离，

公式(19)中，

为待测图像集中的第k个图像，

为当前输入的自然语言描述文本，Score_k为

和

的余弦距离，即此时行人图像和自然语言描述文本之间的相似程度，

然后根据测试集图像与目标文本中的余弦距离进行排序，采用rank1，rank5，rank10的精度来进行性能评估，给定一个文本描述，构建待测图像集为

其中num表示待测图像集的总数，根据待测图像集里图像与当前输入的自然语言描述文本之间的余弦相似度对所有测试图像进行排序，当前面k个图像中包含对应的行人图像，则表示rank-k搜索成功；

至此，实现了基于堆叠损失函数的自然语言描述的行人再识别。

上述一种基于自然语言描述的行人再识别方法，所述MobileNet卷积网络，BiLSTM以及one-hot编码均是本技术领域的公知技术，其操作方法是本技术领域的技术人员能够掌握的。

本发明的有益效果是：与现有技术相比，本发明具有的突出的实质性特点和显著进步如下：

(1)本发明一种基于自然语言描述的行人再识别方法，是采用深度学习的方法提取图像特征和基于堆叠损失函数的自然语言描述文本的特征，再通过比较图像特征和文本特征之间的相似结果进而实现基于自然语言描述的行人再识别的方法，进一步说是，通过设计图像和自然语言描述双分支网络结构，图像分支网络结构采用MobileNet网络进行图像特征提取，自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取，以此保证图像特征与文本特征之间的特征分布相似，对于图像特征和文本特征不同模态特征的相似性度量部分进行构建堆叠损失函数，该堆叠损失函数分别用在跨模态匹配和单模态分类中，进行网络优化，进行跨模态匹配，区分同一身份的多模态特征，实现基于自然语言描述的行人图像的识别，克服了现有技术中所存在的特征提取部分文本特征表征性不高，损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。

(2)本发明还提出了一种基于软注意力的截断式注意力机制，对不同特征分配不同的权重，通过对文本特征权重筛选，忽略掉其无关部分，提高了文本特征的表征性。

(3)本发明提出了一种堆叠损失函数(即CLF)来度量交叉模式匹配的相似性。堆叠损失函数包括跨模态匹配损失和单模态分类损失，两次采用相对熵并充分利用身份级别信息，堆叠损失函数不仅保证了交叉模态的特征分布更加一致，而且使均匀分布在单模态分类中更加聚类。

(4)与现有技术CN109993070A相比，本发明通过设计堆叠损失函数，将相对熵函数同时使用在单模态分类以及多模态匹配当中，在没有引入额外超参数的同时也提高了分类效果。

(5)与现有技术CN109190446A、CN110321862A和CN109635695A相比，本发明两次使用了相对熵构造了堆叠损失函数，进行跨模态匹配的相似性度量，提高了训练的稳定性以及测试结果的准确性。

(6)与现有技术CN109635636A相比，本发明设计了一个双流网络框架，其中一个使用最少的参数的MobileNet网络提取视觉特征，另一个使用BiLSTM网络提取自然语言文本的特征，在保证了特征的表征性基础上简化了网络结构，减少了网络参数。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明方法流程示意图。

图2为本发明方法的结果效果示意图。

具体实施方式

图1所示实施例表明，本发明一种基于自然语言描述的行人再识别方法的流程是：设计图像分支网络结构；设计自然语言描述分支网络─文本预处理操作，BiLSTM网络的构建，截断式注意力机制处理文本特征→堆叠损失函数的构建及网络训练：构建跨模态损失函数L_it，构建单模态分类损失函数L_id，构建堆叠损失函数L，基于堆叠损失函数L的网络训练→实现基于堆叠损失函数的自然语言描述的行人再识别。

图2所示实施例显示，每一行行人图像图片均为与当前输入文本相似程度靠前的十张图片，第一行的前四张行人图像图片加上边框的行人图像图片为第一个输入文本描述为同一类的行人的图像图片；第二行行人图像图片为与第二个输入文本相似程度靠前的十张图片，此时，其中第2、3、4和9张行人图像图片为与文本描述所同一类的行人的图像图片；第三行行人图像图片为与第三个输入文本相似程度靠前的十张行人图像图片，其中第1、3、4张行人图像图片为与当前文本描述属于同一类的行人的图像图片。

实施例

本实施例一种基于自然语言描述的行人再识别方法，具体步骤如下：

第一步，设计图像分支网络结构：

设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取，具体操作如下：

第二步，设计自然语言描述分支网络结构：

设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征，具体操作如下：

第(2.1)步，文本预处理操作：

得到一个d维特征向量e_di，如公式(1)所示，

公式(1)中，n是句子长度，v是词汇表的长度，d是e_di的维度，

第(2.2)步，BiLSTM网络提取文本特征：

由前向隐藏状态

和反向隐藏状态

合并得到，如公式(2)所示，

公式(2)中，t为句子中第t个位置，t∈(1,n)为t的取值范围，

由此通过BiLSTM网络获取到文本特征；

第(2.3)步，截断式注意力机制再处理文本特征：

M＝softmax(W_t2tanh(W_t1H+b₁)+b₂) (3)，

T＝ΣM_newH (5)，

由此完成截断式注意力机制再处理文本特征；

第三步，构建堆叠损失函数L，进行网络训练：

上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数L_it和构建单模态分类损失函数L_id，将跨模态损失函数L_it和单模态分类损失函数L_id合并构建堆叠损失函数L，再进行基于堆叠损失函数L的网络训练，得到训练模型，其具体操作如下：

第(3.1)步，构建跨模态损失函数L_it：

随机抽取训练集中部分图像和文本组成一组输入数据输入到神经网络中，将每一个图像特征和所有文本特征根据身份类别进行匹配，得到多个图像文本标签对

其中

为第i个图像的身份标签，

为第j个文本的身份标签，判断自由组合的图像文本标签对

是否属于同类，当同属于一类时，结果标签Q_ij记为1，当不是一类时，结果标签Q_ij记为0，如公式(6)所示：

如下公式(7)所示，

r×r个

组成概率分布矩阵

图文特征匹配结果P_ij对应的概率分布是

图文特征匹配结果的概率分布

和图文标签匹配结果的概率分布

之间的距离即是跨模态损失函数L_it，由公式(8)所示，

公式(8)中，r为一组输入数据的大小，

和

第(3.2)步，构建单模态分类损失函数L_id：

通过如下公式(9)计算获得单模态图像交叉熵损失函数

通过如下公式(10)计算获得文本多分类交叉熵损失函数

的预测结果P_I和文本多分类损失

的预测结果P_T，

用公式(11)计算图像文本概率分布之间的相对熵之和，

公式(11)中，

为P_I的第q个图像的分类预测结果，

通过单模态图像交叉熵损失函数

文本多分类交叉熵损失函数

公式(12)中，L_id为单模态分类损失函数，

由此完成构建单模态分类损失函数L_id；

第(3.3)步，构建堆叠损失函数L：

L＝L_it+L_id (13)，

至此完成了构建堆叠损失函数L；

第(3.4)步，基于堆叠损失函数L的网络训练：

n_z＝β₁n_z-1+(1-β₁)gz (14)，

v_z＝β₂v_z-1+(1-β₂)gz² (15)，

公式(16)和公式(17)中，

将上述第三步得到的训练模型导入网络之后，在待测图像集中搜索所包含的对应的行人图像，实现基于堆叠损失函数的自然语言描述的行人再识别，其具体操作如下：

在待测图像集中搜索所包含的对应的行人图像，操作如下，

依据上述第(3.1)步得到文本特征T空间下的图像特征

公式(19)中，

为待测图像集中的第k个图像，

为当前输入的自然语言描述文本，Score_k为

和

至此，实现了基于堆叠损失函数的自然语言描述的行人再识别，即完成基于自然语言描述的行人再识别。

Claims

1.一种基于自然语言描述的行人再识别方法，其特征在于：设计图像和自然语言描述双分支网络结构，图像分支网络结构采用MobileNet卷积网络进行图像特征提取，自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取，对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练，得到的训练模型导入网络之后，在待测图像集中搜索所包含的对应的行人图像，实现基于堆叠损失函数的自然语言描述的行人再识别，具体步骤如下：

第一步，设计图像分支网络结构：

设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取，得到的图像特征I,具体操作如下：

再进行图像特征提取，过程是，输入MobileNet卷积网络的图像大小为224×224像素，经过MobileNet卷积网络之后特征图大小变为输入图像大小的1/32，输入MobileNet卷积网络的图像经过第一层传统卷积层之后，卷积后的特征图大小为112×112像素，通道数为32；第二层深度可分离卷积层由参数为3×3×32的深度卷积层和参数为1×1×32×64的点卷积层组成，经过第二层卷积后的特征图大小为112×112像素，通道数为64；第三层深度可分离卷积层由参数为3×3×64的深度卷积层和参数为1×1×64×128的点卷积层组成，经过第三层卷积后的特征图大小为56×56像素，通道数为128；第四层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×128的点卷积层组成，经过第四层卷积后的特征图大小为56×56像素，通道数为128；第五层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×256的点卷积层组成，经过第五层卷积后的特征图大小为28×28像素，通道数为256；第六层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×256的点卷积层组成，经过第六层卷积后的特征图大小为28×28像素，通道数为256；第七层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×512的点卷积层组成，第八层至第十二层深度可分离卷积层均由参数为3×3×512深度卷积层和参数为1×1×512×512的点卷积层组成，经过第七层以及第八层至第十二层卷积后的特征图大小为14×14像素，通道数为512；第十三层深度可分离卷积层由参数为3×3×512的深度卷积层和参数为1×1×512×1024的点卷积层组成，经过第十三层卷积后的特征图大小为7×7像素，通道数为1024；第十四层深度可分离卷积层由参数为3×3×1024的深度卷积层和参数为1×1×1024×1024的点卷积层组成，经过第十四层卷积后的特征图大小为7×7像素，通道数为1024；再经过一层池化层，得到特征图大小为1×1像素，通道数为1024的图像特征；为保证图像特征和文本特征的维度相同，将得到的大小为1×1像素，通道数为1024的图像特征经过MobileNet卷积网络之外的一个1×1×1024×512卷积层处理，提取得到图像特征为I∈R^1×1×512，由此完成采用MobileNet卷积网络进行图像特征提取的操作；

第二步，设计自然语言描述分支网络结构：

第(2.1)步，文本预处理操作；

得到一个d维特征向量e_di，如公式(1)所示，

公式(1)中，n是句子长度，v是词汇表的长度，d是e_di的维度，

第(2.2)步，BiLSTM网络提取文本特征，得到的文本特征T；

由前向隐藏状态

和反向隐藏状态

合并得到，如公式(2)所示，

公式(2)中，t为句子中第t个位置，t∈(1,n)为t的取值范围，

由此通过BiLSTM网络获取到文本特征T；

第(2.3)步，截断式注意力机制再处理文本特征；

M＝soft max(W_t2tanh(W_t1H+b₁)+b₂) (3)，

T＝ΣM_newH (5)，

由此完成截断式注意力机制再处理文本特征；

设计自然语言描述分支网络结构

由此，完成进行文本预处理操作、BiLSTM网络提取文本特征T和截断式注意力机制再处理文本特征的操作；

第三步，构建堆叠损失函数L，进行网络训练：

将上述第一步所提取得到的图像特征I和上述第二步的第(2.2)步所得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数L_it和构建单模态分类损失函数L_id，将跨模态损失函数L_it和单模态分类损失函数L_id合并构建堆叠损失函数L，再进行基于堆叠损失函数L的网络训练，得到训练模型，具体操作如下：

第(3.1)步，构建跨模态损失函数L_it：

将上述第一步所提取得到的图像特征I和上述第二步的第(2.2)步所提取得到的文本特征T的之间的相似性度量部分组成匹配图像文本特征对(I,T)，再将图像特征I与文本特征T在空间上进行相互映射，得到文本特征T空间下的图像特征