CN112132059B

CN112132059B - 一种基于深度条件随机场的行人重识别方法和系统

Info

Publication number: CN112132059B
Application number: CN202011020822.8A
Authority: CN
Inventors: 侯建华; 黄子源; 项俊; 王陈燕; 林俊杰
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-04-20
Anticipated expiration: 2040-09-25
Also published as: CN112132059A

Abstract

本发明公开了一种基于深度条件随机场的行人重识别方法，包括：获取行人重识别数据集，从行人重识别数据集中获取K个行人中每个行人对应的所有行人图片，针对K个行人中的每一个行人而言，从其对应的行人图片中任意获取一张行人图片作为目标行人图片，从其对应的行人图片中获取N张除目标行人图片之外的行人图片构成该行人对应的正样本图片集合，从行人重识别数据集中获取M张不与该行人对应的行人图片构成该行人对应的负样本图片集合，所有1+M+N张行人图片共同构成该行人对应的图片组。本发明能够解决现有图模型的行人重识别方法存在的行人重识别准确率低、图模型参数求解困难的技术问题。

Description

一种基于深度条件随机场的行人重识别方法和系统

技术领域

本发明属于模式识别领域，更具体地，涉及一种基于深度条件随机场的行人重识别方法和系统。

背景技术

行人重识别(Person Re-Identification，简称ReID)是计算机视觉领域中一个热门的研究主题，其旨在从无视角交叠区域的不同摄像头下检索出目标行人，因此在视频监督、社会安防等方面发挥着重要作用。

传统的行人重识别方法主要依次分为两个阶段，即特征提取阶段和距离度量阶段。其中在第一阶段，将裁剪好的行人图片送进网络模型来提取特征向量，该特征向量往往已具有一定的鲁棒性、区分性，能够粗略的辨别出不同的行人身份；紧接着在第二阶段，将上述的行人图片特征向量两两配对，送进度量函数来度量它们之间的距离，并期望经过此度量函数映射后，在新映射空间内，同身份行人图片特征向量之间的距离要小于不同身份行人图片特征向量之间的距离；最终，根据特征向量距离排序来锁定不同摄像头下的目标行人。

在近几年新提出的众多基于距离度量的方法中，基于图模型的行人重识别方法得到了业界的广泛关注，其核心在于挖掘潜在的数据相关性，并将此相关性在样本数据之间进行信息传递，以此获得一个整体上的全局最优解。

然而，现有传统的行人重识别方法或基于图模型的行人重识别方法仍存在一些显而易见的局限性：

(1)由于传统的行人重识别方法在训练阶段往往只考虑二元组或三元组样本，因此此方法只能够得到局部的优化，而并没有利用数据之间的相关性，这会降低行人重识别结果的准确率；

(2)由于传统的行人重识别方法在测试阶段往往只度量两张图片之间的相似度，过于简单绝对，忽略了其他行人图片之间蕴含的丰富信息，这会降低行人重识别的准确率；

(3)基于图模型的行人重识别方法未能结合神经网络以发挥出其自适应学习的能力，而是通常将数据建模为特定分布(如高斯分布等)，再通过手动求导、人工计算来得到近似解参数，因此存在图模型参数求解困难这一棘手问题；

(4)基于图模型的行人重识别方法实质上是一个各模块分裂开来的系统，未能真正形成一个端到端的完整系统，其在求解时仅优化更新图模型的参数，导致无法对前端模型的参数进行优化更新，从而会进一步降低行人重识别结果的准确率。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度条件随机场(Conditional Random Field，简称CRF)的行人重识别方法。其目的在于，通过图模型的构建，将传统的两两图片距离度量的行人重识别问题转化为CRF模型下的类别状态标记问题，以此挖掘数据间的相关性来获得一个全局最优解，从而解决传统的行人重识别方法存在的行人重识别准确率的技术问题；同时，本发明在求解CRF顶点类别过程中将CRF的势函数和状态推理嵌入神经网络中，利用神经网络强大的学习能力和自适应优化机制，解决现有图模型的行人重识别方法存在的行人重识别准确率低、图模型参数求解困难的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度条件随机场的行人重识别方法，包括以下步骤：

(1)获取行人重识别数据集；

(2)从步骤(1)获取的行人重识别数据集中获取K个行人中每个行人对应的所有行人图片，针对K个行人中的每一个行人而言，从其对应的行人图片中任意获取一张行人图片作为目标行人图片，从其对应的行人图片中获取N张除目标行人图片之外的行人图片构成该行人对应的正样本图片集合，从行人重识别数据集中获取M张不与该行人对应的行人图片构成该行人对应的负样本图片集合，该行人对应目标图片、该行人对应的正样本图片集合中的所有N张行人图片、以及该行人对应的负样本图片集合中的所有M张行人图片共同构成该行人对应的图片组(即1+M+N张图片)，所有K个行人对应的图片组构成图片组集合；其中K是大于等于1的自然数，M的取值是大于等于1，且小于(行人重识别数据集中行人图片总数-该行人对应的行人图片的总数)，N的取值是大于等于1，且小于该行人对应的行人图片的总数；

(3)针对步骤(2)中获得的图片组集合中的每一个图片组而言，将其中的目标图片、以及该图片组中除该目标图片外的每一张图片作为图片对输入训练好的双胞胎网络的两个分支中，以分别得到两个特征向量，并利用该双胞胎网络模型中的二分类神经元对这两个特征向量进行特征度量，以获取图片组中这一图片对之间的相似度与不相似度，图片组中所有图片对所对应的相似度与不相似度分别构成图片组对应的第一相似度集合和第一不相似度集合；

(4)针对步骤(2)中获得的图片组集合中的每一个图片组而言，取出其中的目标图片、以及该图片组中除该目标图片外的任意两张图片构成三元组，将其输入与步骤(3)相同的、训练好的双胞胎网络中，以获取这三元组对应的三个特征向量，并将这三个特征向量输入训练好的联合概率分布网络中，以获取三元组中两两图片之间的相似度、以及不相似度，图片组中的所有三元组所对应的相似度与不相似度分别构成图片组对应的第二相似度集合和第二不相似度集合；

(5)针对步骤(2)中获得的图片组集合中的每一个图片组而言，将其中的目标图片、以及该图片组中除该目标图片外的每一张图片作为图片对输入训练好的混合网络中，以得到每一对图片对在该图片组上对应的全局最优匹配解。

(6)将步骤(5)得到的所有图片组对应的全局最优匹配解按照其中的相似度从大到小进行排序，并将相似度最大的一个或多个目标图片所对应的图片组中的行人图片作为重识别结果输出。

优选地，步骤(3)是选择在ImageNet数据集上预训练好的ResNet-50卷积神经网络作为双胞胎网络两路输入的支干，每一图片对的两张图片分别输入两路支干，以提取对应的特征向量，再使用双胞胎网络中的二分类神经元对得到的两个特征向量进行特征度量，输出它们之间的相似度与不相似度。

优选地，步骤(3)中的双胞胎网络是通过以下步骤训练得到的：

(3-1)获取行人重识别数据集，按照7:3的比例将该行人重识别数据集划分为训练集和验证集，并使用与步骤(2)相同的方式分别对训练集和验证集进行采样，以获得多个训练图片组和多个验证图片组；

(3-2)对双胞胎网络的参数进行初始化：将其权重参数的初始值设置为使用标准差为0.1的截断正态分布输出的随机值，将偏置参数的初始值设为0。

(3-3)将步骤(3-1)获取的多个训练图片组输入经步骤(3-2)参数初始化后的双胞胎网络中，通过正向传播算法输出网络预测值，并计算该网络预测值与真实标签之间的损失值，其中双胞胎网络使用的损失函数Loss_Siamese为网络预测值与真实标签之间的交叉熵，其具体表示为：

其中m为每一个图片组中图片对的总数，n为每个图片对所对应的标签类别数，y_e，f表示第e对图片对属于第f个标签类别的真实标签，

表示第e对图片对属于第f个标签类别的网络预测值，且有f∈[1，n]，e∈[1，m]；

(3-4)根据步骤(3-3)得到的网络预测值与真实标签之间的损失值，并利用反向传播算法对双胞胎网络的所有权重参数进行更新和优化，并将步骤(3-1)获取的多组验证图片组输入参数更新优化后的双胞胎网络，以获取分类精度。

(3-5)重复迭代步骤(3-3)和步骤(3-4)，直至训练集对应的损失值不再下降且验证集对应的分类精度不再上升为止。从而得到训练好的双胞胎网络。

优选地，步骤(4)中的联合概率分布网络采用双向长短时记忆网络LSTM，步长设置为3；

步骤(4)中的双向LSTM网络是通过以下步骤训练得到的：

(4-1)获取行人重识别数据集，并按照7:3的比例将该行人重识别数据集划分为训练集和验证集，使用与步骤(2)相同的方式分别对训练集和验证集进行采样，以获得多个训练图片组和多个验证图片组；

(4-2)使用与步骤(4)相同的方式对每个训练图片组和每个验证图片组进行采样，以分别获得每个训练图片组对应的多个训练三元组、以及每个验证图片组对应的多个验证三元组，针对多个训练三元组和多个验证三元组中的每一个三元组而言，将其对应的三个特征向量融合成三元特征向量F_tri，训练图片组对应的所有三元特征向量构成三元特征向量训练组，验证图片组对应的所有三元特征向量构成三元特征向量验证组；

(4-3)对双向LSTM网络的参数进行初始化：将其权重参数的初始值设置为使用标准差为0.1的截断正态分布输出的随机值，将偏置参数的初始值设为0，将其时间步长设置为3。

(4-4)将步骤(4-2)获取的多个三元特征向量训练组输入经步骤(4-3)参数初始化后的双向LSTM网络模型中，通过正向传播算法输出网络预测值，并计算该网络预测值与真实标签之间的损失值；其中该双向LSTM网络使用的损失函数Loss_LSTM为网络预测值与真实标签之间的交叉熵，其具体表示为：

其中p为每一个图片组中三元组的总数，q为三元组中两两特征向量所属的标签类别数，y_{c，a，b，d}表示第c对三元组中第a个特征向量和第b个特征向量属于第d个标签类别的真实标签，

表示第c对三元组中第a个特征向量和第b个特征向量属于第d个标签类别的网络预测值，且有d∈[1，q]，c∈[1，p]，a和b均∈[1，三元组中特征向量的总数]。

(4-5)根据步骤(4-4)得到的网络预测值与真实标签之间的损失值，利用反向传播算法对双向LSTM网络的所有权重参数进行更新和优化，并将步骤(4-2)获取的多组三元特征向量验证组输入参数更新优化后的双向LSTM网络，以获取分类精度。

(4-6)重复迭代步骤(4-4)和步骤(4-5)，直至训练集对应的损失值不再下降且验证集对应的分类精度不再上升为止，从而得到训练好的双向LSTM网络。

优选地，步骤(5)中使用的混合网络包括顺次相连的双胞胎网络、联合概率分布网络、以及图模型，其中图模型是条件随机场CRF模型；

图模型G是根据步骤(3)得到的顶点集合V和步骤(4)得到的边集合E来构建的，其中步骤(3)中每一个图片对是图模型G＝(V，E)的顶点，所有图片对构成顶点集合V，该顶点集合V的数量等于M+N，步骤(4)中每一个三元组是图模型G＝(V，E)的边，所有三元组构成边集合E，该边集合E的数量等于(M+N)²。

优选地，步骤(5)中是使用梯度下降法来求解全局最优匹配解，其具体为：

首先，获取CRF能量函数E(x)：

其中i∈[1，M+N]，x_i表示图模型G中任一顶点V_i的类别标签，一元势函数

和二元势函数

分别等于：

其中w_u和w_p为CRF模型控制的可学习参数，

为步骤(3)中双胞胎网络针对顶点V_i的类别标签x_i所输出的第一相似度或第一不相似度，

和

为步骤(4)中双向LSTM网络针对顶点V_i和顶点V_j的类别标签x_i输出的第二相似度或第二不相似度，ε为预设的一个极小值；

然后，对原能量函数E(x)中的变量x进行独热编码转换，引入松弛变量q_i∈[0，1]对编码转换后的结果进行连续化处理，即以q_i值替代原来的离散二元x_i值，从而将原能量函数E(x)转化为E(q)，并对能量函数E(q)进行求导，以获得导数E′(q_i)；

最后，根据梯度下降法规则对q_i值进行迭代更新t次，直至q_i值收敛为止，其中更新是采用以下公式：

其中t为迭代次数，γ为学习率，迭代初始值

取自双胞胎网络的第一相似度或第一不相似度。

优选地，步骤(5)中的图网络是通过以下步骤训练得到的：

(5-1)获取行人重识别数据集，并按照7:3的比例将该行人重识别数据集划分为训练集和验证集，使用与步骤(2)相同的方式分别对训练集和验证集进行采样，以获得多个训练图片组和多个验证图片组；

(5-2)对CRF模型的参数进行初始化：将其权重参数的初始值设置为使用标准差为0.1的截断正态分布输出的随机值，将偏置参数的初始值设为0，同时将步骤(3)训练好的双胞胎网络参数和步骤(4)训练好的双向LSTM网络参数重新加载，三者联合形成一个混合网络；

(5-3)将步骤(5-1)获取的多个训练图片组输入经步骤(5-2)参数初始化后的混合网络中，通过正向传播算法输出网络预测值，并计算该网络预测值与真实标签之间的损失值。

(5-4)根据步骤(5-3)得到的网络预测值与真实标签之间的损失值，利用反向传播算法对混合网络的所有权重参数进行更新和优化，并将步骤(5-1)获取的多组验证图片组输入参数更新优化后的混合网络，以获取分类精度。

(5-5)重复迭代步骤(5-3)和步骤(5-4)，直至训练集对应的损失值不再下降且验证集对应的分类精度不再上升为止，从而得到训练好的混合网络。

优选地，混合网络的损失函数为三个网络损失函数的和值，具体为：

Loss＝Loss_Siamese+Loss_LSTM+Loss_CRF

CRF模型使用的损失函数Loss_CRF为网络预测值与真实标签之间的交叉熵，其具体表示为：

其中k为每一个图片组中图片对的总数，l为图片对对应的标签类别数，y_q,h表示第g对图片对属于第h个标签类别的真实标签，

表示第g对图片对属于第h个标签类别的网络预测值，且有h∈[1，l]，g∈[1，k]。

按照本发明的另一方面，提供了一种基于深度条件随机场的行人重识别系统，包括：

第一模块，用于获取行人重识别数据集；

第二模块，用于从第一模块获取的行人重识别数据集中获取K个行人中每个行人对应的所有行人图片，针对K个行人中的每一个行人而言，从其对应的行人图片中任意获取一张行人图片作为目标行人图片，从其对应的行人图片中获取N张除目标行人图片之外的行人图片构成该行人对应的正样本图片集合，从行人重识别数据集中获取M张不与该行人对应的行人图片构成该行人对应的负样本图片集合，该行人对应目标图片、该行人对应的正样本图片集合中的所有N张行人图片、以及该行人对应的负样本图片集合中的所有M张行人图片共同构成该行人对应的图片组(即1+M+N张图片)，所有K个行人对应的图片组构成图片组集合；其中K是大于等于1的自然数，M的取值是大于等于1，且小于(行人重识别数据集中行人图片总数-该行人对应的行人图片的总数)，N的取值是大于等于1，且小于该行人对应的行人图片的总数；

第三模块，用于针对第二模块中获得的图片组集合中的每一个图片组而言，将其中的目标图片、以及该图片组中除该目标图片外的每一张图片作为图片对输入训练好的双胞胎网络的两个分支中，以分别得到两个特征向量，并利用该双胞胎网络模型中的二分类神经元对这两个特征向量进行特征度量，以获取图片组中这一图片对之间的相似度与不相似度，图片组中所有图片对所对应的相似度与不相似度分别构成图片组对应的第一相似度集合和第一不相似度集合；

第四模块，用于针对第二模块中获得的图片组集合中的每一个图片组而言，取出其中的目标图片、以及该图片组中除该目标图片外的任意两张图片构成三元组，将其输入与第三模块相同的、训练好的双胞胎网络中，以获取这三元组对应的三个特征向量，并将这三个特征向量输入训练好的联合概率分布网络中，以获取三元组中两两图片之间的相似度、以及不相似度，图片组中的所有三元组所对应的相似度与不相似度分别构成图片组对应的第二相似度集合和第二不相似度集合；

第五模块，用于针对第二模块中获得的图片组集合中的每一个图片组而言，将其中的目标图片、以及该图片组中除该目标图片外的每一张图片作为图片对输入训练好的混合网络中，以得到每一对图片对在该图片组上对应的全局最优匹配解。

第六模块，用于将第五模块得到的所有图片组对应的全局最优匹配解按照其中的相似度从大到小进行排序，并将相似度最大的一个或多个目标图片所对应的图片组中的行人图片作为重识别结果输出。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤(2)，其采用针对性的采样策略，在每个训练批次中挑选K个目标行人，每个目标行人挑选(N+M)张正负样本组成的图片组。在后续步骤中一次性地考虑此(1+N+M)张图片组之间的数据关系，有效克服了二元组或三元组样本的局限性，有效利用了数据之间的关联性，从而提升了行人重识别结果的准确率。

(2)由于本发明采用了步骤(5)，将传统的两张图片距离度量的行人重识别问题转化为CRF图模型下的类别状态标记问题，有效地利用了图片组内所有图片蕴含的信息，避免了局部次优解，获得了一个在对应图片组上的全局最优解，从而提高了行人重识别结果的准确率。

(3)由于本发明采用了步骤(3)至步骤(5)，将CRF图模型的势函数建模为神经网络的输出，可以有效利用神经网络的反向传导来自动求解其参数，充分发挥了神经网络强大的自适应学习能力，规避了基于图模型的行人重识别方法存在的参数求解困难的棘手问题。

(4)由于本发明采用了步骤(5)，将求解CRF图模型最优解时使用的梯度下降法视作RNN，故实质上是将CRF的参数嵌入RNN网络中且与步骤(3)的CNN网络和步骤(4)双向LSTM网络进行联合参数更新，对三部分网络进行了同时优化，真正形成了一个端到端的完整系统，从而能够进一步提高行人重识别结果的准确率。

附图说明

图1是本发明基于深度条件随机场的行人重识别方法的流程示意图；

图2是本发明方法的步骤(3)中所构建的双胞胎网络结构示意图；

图3是本发明方法的步骤(4)中所构建的双向LSTM联合概率分布网络结构示意图；

图4是本发明方法的步骤(5)中所构建的基于梯度下降法的图模型顶点类别状态推理过程示意图；

图5是本发明方法的步骤(6)中根据相似度检索不同摄像头下行人这一过程的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于深度条件随机场的行人重识别方法，包括以下步骤：

(1)获取行人重识别数据集；

在本步骤中采用的行人重识别数据集是Market1501数据集。使用六个无交叠的摄像头在校园内拍摄(每个行人至少被两个摄像头拍摄到，保证了无交叠摄像头下检索的必要性)，共拍摄到1501个不同身份的行人，然后通过裁剪(手工标记或计算机检测)从原始视频中获取36036张行人图片组成行人重识别数据集。训练图片集涉及751个行人，共12936张行人图片；测试集涉及750个行人，共19732张行人图片。此外，剩余的3368张图片用作待检索的目标行人图片，从测试集中来检索行人。

(2)从步骤(1)获取的行人重识别数据集中获取K个行人中每个行人对应的所有行人图片，针对K个行人中的每一个行人而言，从其对应的行人图片中任意获取一张行人图片作为目标行人图片，从其对应的行人图片中获取N张除目标行人图片之外的行人图片构成该行人对应的正样本图片集合，从行人重识别数据集中获取M张不与该行人对应的行人图片构成该行人对应的负样本图片集合，该行人对应目标图片、该行人对应的正样本图片集合中的所有N张行人图片、以及该行人对应的负样本图片集合中的所有M张行人图片共同构成该行人对应的图片组(即1+M+N张图片)，所有K个行人对应的图片组构成图片组集合；

在本步骤中，K是大于等于1的自然数，M的取值是大于等于1，且小于(行人重识别数据集中行人图片总数-该行人对应的行人图片的总数)，N的取值是大于等于1，且小于该行人对应的行人图片的总数；

(3)针对步骤(2)中获得的图片组集合中的每一个图片组而言，将其中的目标图片、以及该图片组中除该目标图片外的每一张图片作为图片对输入训练好的双胞胎网络(Siamese Network)的两个分支中，以分别得到两个特征向量，并利用该双胞胎网络模型中的二分类神经元对这两个特征向量进行特征度量，以获取图片组中这一图片对之间的相似度与不相似度，图片组中所有图片对所对应的相似度与不相似度分别构成图片组对应的第一相似度集合和第一不相似度集合(如图2所示)；

本步骤中的每一个图片对是后续使用的图模型G＝(V，E)的顶点，所有图片对构成顶点集合V，该顶点集合V的数量等于M+N。

本发明选择在ImageNet数据集上预训练好的ResNet-50卷积神经网络(Convolutional Neural Network，简称CNN)作为双胞胎网络两路输入的支干，每一图片对的两张图片分别输入两路支干，以提取对应的特征向量，再使用双胞胎网络中的二分类神经元对得到的两个特征向量进行特征度量，输出它们之间的相似度与不相似度。

本步骤中的双胞胎网络是通过以下步骤训练得到的：

(3-3)将步骤(3-1)获取的多个训练图片组输入经步骤(3-2)参数初始化后的双胞胎网络中，通过正向传播算法输出网络预测值，并计算该网络预测值与真实标签之间的损失值。

该双胞胎网络使用的损失函数Loss_Siamese为网络预测值与真实标签之间的交叉熵，其具体表示为：

其中m为每一个图片组中图片对的总数(m值根据计算机内存而定，本实施方案中选择m＝8)，n为每个图片对所对应的标签类别数(这里具体的n＝2，即图片对只有两种标签类别：是同一个人或不是同一个人)。y_e，f表示第e对图片对属于第f个标签类别的真实标签，

表示第e对图片对属于第f个标签类别的网络预测值，且有f∈[1，n]，e∈[1，m]。

(3-4)根据步骤(3-3)得到的网络预测值与真实标签之间的损失值，利用反向传播算法对双胞胎网络的所有权重参数进行更新和优化，并将步骤(3-1)获取的多组验证图片组输入参数更新优化后的双胞胎网络，以获取分类精度。

具体而言，本网络的反向传播算法是采用Adam-Optimizer作为优化器，初始学习率设置为0.01。

(3-5)重复迭代步骤(3-3)和步骤(3-4)多次(在本发明实验中是迭代60次)，直至训练集对应的损失值不再下降且验证集对应的分类精度不再上升为止。从而得到训练好的双胞胎网络。

(4)针对步骤(2)中获得的图片组集合中的每一个图片组而言，取出其中的目标图片、以及该图片组中除该目标图片外的任意两张图片(这三张图片构成三元组)，将其输入与步骤(3)相同的、训练好的双胞胎网络中，以获取这三元组对应的三个特征向量，并将这三个特征向量输入训练好的联合概率分布网络中，以获取三元组中两两图片之间的相似度、以及不相似度，图片组中的所有三元组所对应的相似度与不相似度分别构成图片组对应的第二相似度集合和第二不相似度集合；

本步骤中的每一个三元组是后续使用的图模型G＝(V，E)的边，所有三元组构成边集合E，该边集合E的数量等于(M+N)²。

具体而言，本发明中的联合概率分布网络采用双向长短时记忆网络(Long Short-Term Memory，简称LSTM)，步长设置为3(如图3所示)。

本步骤中的双向LSTM网络是通过以下步骤训练得到的：

三元特征向量F_tri具体如下：

F_tri＝[F₁，F₂，F₃]

这里F₁代表构成三元组的目标图片对应的特征向量，F₂代表构成三元组的、除了目标图片之外的一张图片对应的特征向量，F₃代表构成三元组的、除了目标图片之外的另一张图片对应的特征向量。

(4-4)将步骤(4-2)获取的多个三元特征向量训练组输入经步骤(4-3)参数初始化后的双向LSTM网络模型中，通过正向传播算法输出网络预测值，并计算该网络预测值与真实标签之间的损失值。

该双向LSTM网络使用的损失函数Loss_LSTM为网络预测值与真实标签之间的交叉熵，其具体表示为：

其中p为每一个图片组中三元组的总数(p值根据计算机内存而定，本实施方案中选择p＝8)，q为三元组中两两特征向量所属的标签类别数(这里具体的q＝2，即三元组中两两特征向量只属于两种标签类别：是同一个人或不是同一个人)。y_{c，a，b，d}表示第c对三元组中第a个特征向量和第b个特征向量属于第d个标签类别的真实标签，

(4-6)重复迭代步骤(4-4)和步骤(4-5)多次(本发明实验中迭代60次)，直至训练集对应的损失值不再下降且验证集对应的分类精度不再上升为止，从而得到训练好的双向LSTM网络。

本步骤中使用的混合网络包括顺次相连的双胞胎网络、联合概率分布网络、以及图模型，其中图模型是条件随机场(Conditional random field，简称CRF)模型。

具体而言，本步骤根据步骤(3)得到的顶点集合V和步骤(4)得到的边集合E来构建一个图模型G＝(V，E)，并使用该图模型进行端到端的图顶点类别状态标记推理。该图模型旨在通过挖掘到的数据相关性(即图的边集合E)来进行图顶点之间的信息传递，不断更新优化模型参数，以得到一个在整个顶点集合V上的全局最优解，而非仅仅是顶点集合V中某一顶点V_i的独立最优解，其中i∈[1，M+N]。

具体而言，定义CRF任一顶点V_i的类别标签x_i为两类x_i∈{0，1}：x_i＝0表示同一个人以及x_i＝1表示不同一个人，分别对应上述步骤的相似度与不相似度，CRF能量函数由一元势函数和二元势函数构成如下：

具体而言，一元势函数

和二元势函数

分别定义如下：

这里的w_u和w_p为CRF模型耦控制的可学习参数，

和

为步骤(4)中双向LSTM网络针对顶点V_i和顶点V_j的类别标签x_i输出的第二相似度或第二不相似度，ε为预设的一个极小值(本实施方案中设为0.000001)，用于预防log运算出现问题。

求解全局最优匹配解等价于求解使得能量函数E(x)最小的分配标签x。其方法多种多样，常用的方法有极大似然估计法、近似均值场推理法，梯度下降法等。

本发明选择梯度下降法来求解全局最优匹配解，注意到此时能量函数E(x)的变量x为离散变量，即只有x_i＝0或x_i＝1，无法对E(x)进行求导。故首先对原能量函数E(x)中的变量x进行独热(one-hot)编码转换，再引入松弛变量q_i∈[0，1]对编码转换后的结果进行连续化处理，即以此连续q_i值替代原来的离散二元x_i值，则原能量函数E(x)转化为E(q)。此时对能量函数E(q)进行求导，求得其对连续变量q_i导数E′(q_i)后根据梯度下降法规则对q_i值进行迭代更新如下：

这里t为迭代次数，取值范围为1到5次，优选为5次。γ为学习率，取值范围为0.1到0.001，优选为0.001。梯度下降法的迭代初始值

取自双胞胎网络的第一相似度或第一不相似度，重复迭代t次直至q_i值收敛。

在本发明实施方案中，导数E′(q_i)可视为经过一个卷积操作所得到的结果，加之每次梯度下降迭代的输出新值

将作为下一次迭代的输入值

(T∈{1，t})，根据此特性可将其视作使用循环神经网络(RecurrentNeural Network，简称RNN)进行t次迭代，输出最终的网络迭代值

故本发明可视作将CRF网络的参数嵌入RNN网络中，且与步骤(3)的双胞胎网络和步骤(4)双向LSTM网络形成一个端到端的完整系统进行全局优化。

本步骤中的图网络是通过以下步骤训练得到的：

(5-2)对CRF模型的参数进行初始化：将其权重参数的初始值设置为使用标准差为0.1的截断正态分布输出的随机值，将偏置参数的初始值设为0，同时将步骤(3)训练好的双胞胎网络参数和步骤(4)训练好的双向LSTM参数重新加载，三者联合形成一个混合网络；

其中CRF使用的损失函数Loss_CRF为网络预测值与真实标签之间的交叉熵，其具体表示为：

其中k为每一个图片组中图片对的总数(k值根据计算机内存而定，本实施方案中选择k＝8)，l为图片对对应的标签类别数(这里具体的l＝2，即图片对只有两种标签类别：是同一个人或不是同一个人)。y_g，h表示第g对图片对属于第h个标签类别的真实标签，

混合网络的损失函数为三个网络损失函数的和值，具体为：

Loss＝Loss_Siamese+Loss_LSTM+Loss_CRF

具体而言，本混合网络的反向传播算法是采用Adam-Optimizer作为优化器，初始学习率设置为0.00001。

(5-5)重复迭代步骤(5-3)和步骤(5-4)多次(本发明实验中迭代5次)，直至训练集对应的损失值不再下降且验证集对应的分类精度不再上升为止，从而得到训练好的混合网络。

具体而言，本步骤的排序规则为，在步骤(5)得到的收敛

值中，取出其对应两张行人图片的相似度，按照此相似度从大到小进行排序，并根据排序结果来锁定与目标行人最为相似的、其他无交叠摄像头下的行人。

总而言之，本发明提出了一种基于深度条件随机场的行人重识别方法，将传统的两两图片距离度量的行人重识别问题转化为CRF模型下的类别状态标记问题。首先设计了两个网络模型来分别提取图片对之间的第一相似度和第一不相似度，第二相似度和第二不相似度。其次设计了一个基于图模型的方法并依据上述得到的两种相似度和不相似度进行图顶点类别状态推理，以求取一个全局最优匹配解。最后根据最优匹配解的相似度来检索与目标行人在其他无交叠摄像头下的行人。

实验结果

本节通过在Market1501数据集上的测试结果来说明本发明的实际效果。本测试使用到的评测指标包括：(1)Rank-n值：该值评估的是在最终排序列表按照相似度从大到小的前n个检索行人图片中，至少有一张行人图片与目标行人图片为同一个人，该值越大，方法效果越好。(2)平均精度均值(mean average precision，简称mAP)：该值评估的是与目标行人为同一个人的所有行人图片在最终排序列表中整体的排位情况，所有行人图片整体排位越靠前则该值越大，方法效果越好。

表1给出了是否采用图模型进行顶点类别状态推理的实验结果。

表1

从表1可以看出经过了图模型顶点类别状态推理后，Rank-1和Rank-5值分别提升了1.37％，0.35％，mAP值提升了5.50％。这说明相较于传统的基于二元组采样的双胞胎行人重识别方法，基于图模型的行人重识别方法能够挖掘更为丰富的数据依赖关系，得到一个全局最优解从而提升了重识别精度。

表2给出了是否对图模型进行端到端训练的实验结果。

表2

从表2可以看出，若是将图模型的顶点类别状态推理过程和前端提取绝对相似度的双胞胎网络以及提取相对相似度的联合概率分布网络分裂开来，重识别精度并无明显提升反而略有下降。反之若是三者联合起来进行端到端的训练，相较于分裂开Rank-1和Rank-5值分别提升了1.31％，0.44％，mAP值提升了5.50％。这说明端到端的系统各部分之间能够相互影响，联合优化，得到一个全局最优解从而提升了重识别精度。

表3给出了本发明在Market1501数据集上与其他主流方法的比较。

表3

表3给出的主流方法都是在基于双胞胎网络的基础上，建模具体的图模型来进行图顶点之间的信息传递和类别状态推理，旨在挖掘隐藏在数据集中的丰富的数据依赖关系，都提升了重识别精度。本发明构建的图模型为基于CRF图模型的端到端的完整系统，测评指标均略高于其他主流算法，获得了最优的重识别精度，表明了本发明的有效性和优越性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度条件随机场的行人重识别方法，其特征在于，包括以下步骤：

(1)获取行人重识别数据集；

(2)从步骤(1)获取的行人重识别数据集中获取K个行人中每个行人对应的所有行人图片，针对K个行人中的每一个行人而言，从其对应的行人图片中任意获取一张行人图片作为目标行人图片，从其对应的行人图片中获取N张除目标行人图片之外的行人图片构成该行人对应的正样本图片集合，从行人重识别数据集中获取M张不与该行人对应的行人图片构成该行人对应的负样本图片集合，该行人对应目标图片、该行人对应的正样本图片集合中的所有N张行人图片、以及该行人对应的负样本图片集合中的所有M张行人图片共同构成该行人对应的图片组，即1+M+N张图片，所有K个行人对应的图片组构成图片组集合；其中K是大于等于1的自然数，M的取值是大于等于1，且小于行人重识别数据集中行人图片总数减去该行人对应的行人图片的总数，N的取值是大于等于1，且小于该行人对应的行人图片的总数；

(4)针对步骤(2)中获得的图片组集合中的每一个图片组而言，取出其中的目标图片、以及该图片组中除该目标图片外的任意两张图片构成三元组，将其输入与步骤(3)相同的、训练好的双胞胎网络中，以获取这三元组对应的三个特征向量，并将这三个特征向量输入训练好的联合概率分布网络中，以获取三元组中两两图片之间的相似度、以及不相似度，图片组中的所有三元组所对应的相似度与不相似度分别构成图片组对应的第二相似度集合和第二不相似度集合；其中联合概率分布网络采用双向长短时记忆网络LSTM，步长设置为3；

(5)针对步骤(2)中获得的图片组集合中的每一个图片组而言，将其中的目标图片、以及该图片组中除该目标图片外的每一张图片作为图片对输入训练好的混合网络中，以得到每一对图片对在该图片组上对应的全局最优匹配解；混合网络包括顺次相连的双胞胎网络、联合概率分布网络、以及图模型，其中图模型是条件随机场CRF模型；

2.根据权利要求1所述的行人重识别方法，其特征在于，步骤(3)是选择在ImageNet数据集上预训练好的ResNet-50卷积神经网络作为双胞胎网络两路输入的支干，每一图片对的两张图片分别输入两路支干，以提取对应的特征向量，再使用双胞胎网络中的二分类神经元对得到的两个特征向量进行特征度量，输出它们之间的相似度与不相似度。

3.根据权利要求1所述的行人重识别方法，其特征在于，步骤(3)中的双胞胎网络是通过以下步骤训练得到的：

(3-1)获取行人重识别数据集，按照7∶3的比例将该行人重识别数据集划分为训练集和验证集，并使用与步骤(2)相同的方式分别对训练集和验证集进行采样，以获得多个训练图片组和多个验证图片组；

(3-2)对双胞胎网络的参数进行初始化：将其权重参数的初始值设置为使用标准差为0.1的截断正态分布输出的随机值，将偏置参数的初始值设为0；

(3-4)根据步骤(3-3)得到的网络预测值与真实标签之间的损失值，并利用反向传播算法对双胞胎网络的所有权重参数进行更新和优化，并将步骤(3-1)获取的多组验证图片组输入参数更新优化后的双胞胎网络，以获取分类精度；

(3-5)重复迭代步骤(3-3)和步骤(3-4)，直至训练集对应的损失值不再下降且验证集对应的分类精度不再上升为止；从而得到训练好的双胞胎网络。

4.根据权利要求1所述的行人重识别方法，其特征在于，

步骤(4)中的双向LSTM网络是通过以下步骤训练得到的：

(4-1)获取行人重识别数据集，并按照7∶3的比例将该行人重识别数据集划分为训练集和验证集，使用与步骤(2)相同的方式分别对训练集和验证集进行采样，以获得多个训练图片组和多个验证图片组；

(4-3)对双向LSTM网络的参数进行初始化：将其权重参数的初始值设置为使用标准差为0.1的截断正态分布输出的随机值，将偏置参数的初始值设为0，将其时间步长设置为3；

表示第c对三元组中第a个特征向量和第b个特征向量属于第d个标签类别的网络预测值，且有d∈[1，q]，c∈[1，p]，a和b均∈[1，三元组中特征向量的总数]；

(4-5)根据步骤(4-4)得到的网络预测值与真实标签之间的损失值，利用反向传播算法对双向LSTM网络的所有权重参数进行更新和优化，并将步骤(4-2)获取的多组三元特征向量验证组输入参数更新优化后的双向LSTM网络，以获取分类精度；

5.根据权利要求1所述的行人重识别方法，其特征在于，

6.根据权利要求5所述的行人重识别方法，其特征在于，步骤(5)中是使用梯度下降法来求解全局最优匹配解，其具体为：

首先，获取CRF能量函数E(x)：

和二元势函数

分别等于：

其中w_u和w_p为CRF模型控制的可学习参数，

和

其中t为迭代次数，γ为学习率，迭代初始值

取自双胞胎网络的第一相似度或第一不相似度。

7.根据权利要求6所述的行人重识别方法，其特征在于，步骤(5)中的图网络是通过以下步骤训练得到的：

(5-1)获取行人重识别数据集，并按照7∶3的比例将该行人重识别数据集划分为训练集和验证集，使用与步骤(2)相同的方式分别对训练集和验证集进行采样，以获得多个训练图片组和多个验证图片组；

(5-3)将步骤(5-1)获取的多个训练图片组输入经步骤(5-2)参数初始化后的混合网络中，通过正向传播算法输出网络预测值，并计算该网络预测值与真实标签之间的损失值；

(5-4)根据步骤(5-3)得到的网络预测值与真实标签之间的损失值，利用反向传播算法对混合网络的所有权重参数进行更新和优化，并将步骤(5-1)获取的多组验证图片组输入参数更新优化后的混合网络，以获取分类精度；

8.根据权利要求7所述的行人重识别方法，其特征在于，

混合网络的损失函数为三个网络损失函数的和值，具体为：

Loss＝Loss_Siamese+Loss_LSTM+Loss_CRF

其中k为每一个图片组中图片对的总数，l为图片对对应的标签类别数，y_g，h表示第g对图片对属于第h个标签类别的真实标签，

9.一种基于深度条件随机场的行人重识别系统，其特征在于，包括：

第一模块，用于获取行人重识别数据集；

第二模块，用于从第一模块获取的行人重识别数据集中获取K个行人中每个行人对应的所有行人图片，针对K个行人中的每一个行人而言，从其对应的行人图片中任意获取一张行人图片作为目标行人图片，从其对应的行人图片中获取N张除目标行人图片之外的行人图片构成该行人对应的正样本图片集合，从行人重识别数据集中获取M张不与该行人对应的行人图片构成该行人对应的负样本图片集合，该行人对应目标图片、该行人对应的正样本图片集合中的所有N张行人图片、以及该行人对应的负样本图片集合中的所有M张行人图片共同构成该行人对应的图片组，即1+M+N张图片，所有K个行人对应的图片组构成图片组集合；其中K是大于等于1的自然数，M的取值是大于等于1，且小于行人重识别数据集中行人图片总数减去该行人对应的行人图片的总数，N的取值是大于等于1，且小于该行人对应的行人图片的总数；

第四模块，用于针对第二模块中获得的图片组集合中的每一个图片组而言，取出其中的目标图片、以及该图片组中除该目标图片外的任意两张图片构成三元组，将其输入与第三模块相同的、训练好的双胞胎网络中，以获取这三元组对应的三个特征向量，并将这三个特征向量输入训练好的联合概率分布网络中，以获取三元组中两两图片之间的相似度、以及不相似度，图片组中的所有三元组所对应的相似度与不相似度分别构成图片组对应的第二相似度集合和第二不相似度集合；其中联合概率分布网络采用双向长短时记忆网络LSTM，步长设置为3；

第五模块，用于针对第二模块中获得的图片组集合中的每一个图片组而言，将其中的目标图片、以及该图片组中除该目标图片外的每一张图片作为图片对输入训练好的混合网络中，以得到每一对图片对在该图片组上对应的全局最优匹配解；混合网络包括顺次相连的双胞胎网络、联合概率分布网络、以及图模型，其中图模型是条件随机场CRF模型；