CN113688856A

CN113688856A - 基于多视角特征融合的行人重识别方法

Info

Publication number: CN113688856A
Application number: CN202110314091.6A
Authority: CN
Inventors: 姜竹青; 徐崟淞; 裴江波; 门爱东; 王海婴
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-11-23

Abstract

本发明涉及基于多图像特征融合的行人重识别方法，属于计算机视觉的图像检索领域。第一步，利用深度卷积网络对测试集行人图像进行原始的特征提取；第二步，计算特征间的相似度，利用k互近邻构造图；第三步，沿着图进行信息传递，将聚合的特征与原始特征相结合；第四步，计算检测图像与待检测集的相似度，排序得到重识别结果。本发明设计合理，考虑到了不同图像间的信息交互，提高了特征的鲁棒性，从而提高了识别的准确率。

Description

基于多视角特征融合的行人重识别方法

技术领域

本发明属于计算机视觉和行人重识别领域，特别是一种基于多图像特征融合的行人重识别方法。

背景技术

监控网络部署的逐步扩大造成了海量的视频数据需要分析和处理。使用传统人工方式进行处理需要大量的人力与时间。现在越来越多的研究人员将研究方向转移到了计算机视觉技术，尝试利用计算机技术辅助工作人员进行检索和分析，从而提高数据处理的速度与精度。近些年来，深度学习的迅速发展，计算机处理海量数据的能力不断提高。在各类计算机视觉的研究中，越来越多的研究人员将研究重点放在了卷积神经网络上。其中就包括对于监控视频的处理与分析，行人重识别作为图像检索的子问题之一就是其中的一个分支。

行人重识别是指在不同的摄像头视角下，检索指定的行人。实际场景的监控网络包含着处于不同位置的多个摄像头，这些摄像头的拍摄范围往往是不重叠的。其中目标行人的活动轨迹跨越多个摄像头，在时空上具有不连续性。传统的针对单一视角的目标检测和识别技术在这种场景中效果有限，因此需要可以处理跨视角图像的计算机视觉技术对监控视频进行分析。然而行人重识别的主要目的是检索在不重叠摄像头下的行人图像，所以其作为处理监控数据的重要技术得到了工业界与学术界的广泛关注。该技术可以利用行人在不同摄像头下的出现与否，建立移动轨迹，实现跨摄像头的跟踪。另外，行人重识别在智能商业领域也有广泛的应用前景，包括消费者行为分析，兴趣分析等，辅助商家进行商业决策。

除了在工业上具有应用价值，行人重识别在学术界也是一个具有挑战性的课题。许多研究人员在行人重识别课题的研究上投入大量的精力。与人脸识别关注面部不同，行人重识别更注重通过行人的整体外观(包括躯干、服饰等)进行信息提取。研究者通过更鲁棒的特征提取算法与度量算法，提高行人重识别的准确率，进而启发相关技术的研究，推动计算机视觉领域的发展。尽管目前通过深度学习网络与大规模数据集为行人重识别带来了巨大的进展，但是由于视角变化，遮挡等现象，行人重识别仍然是一项具有挑战的课题。

目前行人重识别的研究可以分为特征学习与度量学习两个部分。前者将行人重识别视作分类问题，设计深度神经网络，将行人身份作为标签训练模型，得到对身份具有鲁棒性的特征表示。后者主要将图像间的相似度作为度量，设计损失函数，如三元损失等，通过计算正负样本图像对的相似度，使得同身份的行人图像的相似度小于不同身份的行人图像。从本质上来说，两种方法均对于每一张图像生成一个描述符。

在实现本申请的过程中，发明人发现现有方法存在以下技术问题。目前的行人重识别方法使用卷积神经网络(CNN)生成描述符。然而，这些算法受到CNN的限制，提取的特征只包含单个图像的信息，然而行人重识别中，数据集采集自不同的摄像头视角。不同视角下对同一个人的观察不完全相同，比如背包只能从身后看到，所以即使是统一行人的后视图与正视图会被赋予较低的相似度。因此仅仅单个图像的信息的会使得生成的描述符鲁棒性不足。不同摄像头间的信息存在偏差，该偏差降低了模型的匹配结果的准确率。

发明内容

本发明的目的在于克服现有技术的不足，充分考虑不同摄像头之间信息的差异，提出一种基于多视角特征融合的行人重识别方法，利用消息传递，将同一个行人多个图像的信息相融合，减小信息偏差的影响,从而得到更加鲁棒的特征表示。

本发明解决其技术问题是采取以下技术方案实现的：

步骤1、将测试集全部图像输入深度卷积网络，经过全局池化，对行人图像进行初步的特征提取，输出原始视觉特征，该特征由单个图像提取得到，表示该行人在当前单个摄像头下的视觉信息；

步骤2、在主干网络学习到的特征空间中，数据按照其身份成簇，不同身份的样本相分离。因此，假设距离相近的样本属于同一身份的概率更大，计算全部特征之间的余弦距离，获得邻接矩阵。将每一个图像的特征当作节点，将属于k互近邻的点进行连接，边长设置为 1，由此得到一张无向的邻接图。

步骤3、将原始特征建模为消息，在每一次迭代中沿着邻接图进行消息传递。每一个节点接收到的消息来源于具有高相似度的样本，因此其中包含了该图像在其他摄像头视角下的视觉信息。将传递的消息与原始消息相结合经过多次迭代后，得到融合了周围节点信息的最终特征表示。该特征因此而具有行人在多个摄像头下的视觉信息，从而加强了特征表示的鲁棒性。

步骤4、计算检测图像与待检测集的相似度，排序得到重识别结果。

进一步，步骤1的特征提取的具体方法包括以下步骤：

⑴将Resnt50最后一个残差模块的步长设置为1，使生成的特征图的尺寸变为原来的两倍，以此获取原图中更多的语义信息；

⑵利用交叉熵与三元损失函数，将Resnet50在训练集上训练。其中交叉熵表示特征通过分类器后与标签one-hot编码后偏差。一个三元组包含锚样本，正样本与负样本。该损失函数使得锚与正样本的距离小于锚与负样本的距离；

⑶将query与gallary集分别输入训练好的Resnet50，得到2048维的特征，将两部分特征在batch维度上拼接，得到整个测试集的特征向量；

进一步，步骤3的消息传递的每一次迭代具体方法包括以下步骤：

⑴邻接图中的每个节点具有2048维的特征向量，在每一个迭代中，对于每一个节点，聚合其相连节点的特征并且求得均值。由于相邻接点中同时包含属于不同身份的节点，因此我们使用平均池化的方式，减少来源于负样本的噪声的干扰；

⑵为了保持数值的稳定，将代表聚合特征的均值乘以α，将代表单摄像头信息的原始特征乘以1-α，然后将两者相加，更新节点特征。；

本发明的优点和积极效果是：

1、本发明利用CNN提取出的特征构建邻接图，并且沿着图进行消息传播。使得不同图像间的信息相融合，由于相邻节点中包含不同摄像头拍摄的图片，因此融合的信息中包含了该行人在不同摄像头下的信息，从而得到了对于该行人多视角的完整的描述，提高了特征的鲁棒性，获得了更好的性能。

2、本发明设计合理，不改变网络的训练过程，只在测试中加入了无参数的消息传递，在不增加参数量的情况下极大地提高了准确率，并且该机制可以应用于任意深度学习网络。

附图说明

图1是本发明的特征基于多图像特征融合的行人重识别主干框图。

图2是本发明中消息传递的流程图。

具体实施方式

以下结合附图对本发明的实施做进一步详述。

一种基于多图像特征融合的行人重识别方法，如图1和图2所示，包括以下步骤：

步骤S1的具体实现方法如下：

步骤S1.1、将行人图像缩放为256×128，经过随机擦除，随机裁剪对数据进行增强。

步骤S1.2、使用的主干网络为Resnet50，将最后一个残差模块的步长设置为1，使生成的特征图的尺寸变为原来的两倍，获取更多的语义信息。以Mini-batch的形式向网络中输入训练图像，根据预测值计算与真实值的交叉熵作为损失函数，使用Adam优化器，初始学习率为3.5×10^-4，共训练70代。

步骤S1.3、将图片输入到训练好的网络中，对于每一个图像得到2048维的特征向量。

步骤S2的具体实现方法如下：

步骤S2.1、图像数量为N，计算图像间的余弦距离作为相似度的度量。

步骤S2.2、将每个图像视为顶点，计算每个顶点的K近邻，若两顶点互为K近邻，则将其连接。得到一个无向图G(V,E)，其中V为顶点集合，顶点数为N，E为边集合，每条边长度均为1。

步骤S3的在第t次迭代具体实现方法如下：

步骤S3.1、顶点v的输入特征为

表示通过主干网络学习到的单个摄像头下的视觉信息。其临域为N(v)，我们假设在临域中的样本以较大的概率与目标数据属于统一身份。

步骤S3.2、计算N(v)中所有顶点的特征的均值

表示该行人在多摄像头下的信息。

步骤S3.3、将

与

加权相加。

步骤S3.4、更新顶点v的特征作为输出，

输出的特征融合了多个摄像头下的信息特征

步骤S4、计算图像间的余弦距离作为相似度，排序后可得到识别结果。

通过多次迭代输出的特征即包含了多个图像的信息，对于行人有了更加完整的描述。

最后，我们使用CMC(Cumulative Matching Characteristics，累计匹配曲线)，mAP(mean Average Precision，平均正确率)评价匹配性能。方法如下：

测试环境：本发明的软件实现以Ubuntu16.04系统微平台，使用Python语言与Pytorch 深度学习框架，torch-geometric图网络框架开发；硬件环境为一台PC主机，内存16GB RAM, GPU为NVIDIA GTX 1080ti，GPU显存12GB。

测试数据：实验数据集为公共数据及，包括Market-1501与DukeMTMC-reID。

测试结果如下：

表1.本发明与其他算法在Market-1501数据集下的性能比较

表2.本发明与其他算法在DukeMTMC-reID数据集下的性能比较

算法	Rank-1	mAP
			MHN-6+IDE	87.8	75.2
CASN+IDE	84.5	67.0
			AANet-50	86.4	67.0
VPM	83.6	72.6
			IANet	87.1	73.4
本发明	86.5	75.7

通过以上对比数据可以看出，本发明的识别准确率效果超越了其他方法。并且，本方法不改变训练阶段，无需训练且不引入参数，可以用于任意的神经网络，证明了融合信息的有效性。

Claims

1.基于多图像特征融合的行人重识别方法，其特征包括以下步骤：

步骤1、将测试集全部图像输入深度卷积网络，经过全局池化，对行人图像进行初步的特征提取，输出原始视觉特征；

步骤2、计算全部特征之间的余弦距离，获得邻接矩阵。将每一个图像的特征当作节点，将属于k互近邻的点进行连接，边长设置为1，由此得到一张无向的邻接图。

步骤3、在每一次迭代中沿着邻接图进行消息传递，将传递的消息与原始消息相结合，经过多次迭代后，得到融合了周围节点信息的最终特征表示。

步骤4、计算图像间的余弦距离作为相似度，排序得到重识别结果。

2.根据权利要求1所述的基于多图像特征融合的行人重识别方法，其特征在于，所述步骤1的特征提取的具体方法包括以下步骤：

(1)将行人图像缩放为256×128，经过随机擦除，随机裁剪对数据进行增强。

(2)使用的主干网络为Resnet50，将最后一个残差模块的步长设置为1，使生成的特征图的尺寸变为原来的两倍，获取更多的语义信息。分Batch向网络中输入训练图像，根据预测值计算与真实值的交叉熵作为损失函数，使用Adam优化器，初始学习率为3.5×10^-4，共训练70代。

(3)将图片输入到训练好的网络中，对于每一个图像得到2048维的特征向量。

3.根据权利要求2所述的基于多图像特征融合的行人重识别方法，其特征在于，所述步骤2的特征提取的具体方法包括以下步骤：

(1)图像数量为N，计算图像间的余弦距离。

(2)将每个图像视为顶点，计算每个顶点的K近邻，若两顶点互为K近邻，则将其连接。得到一个无向图G(V,E)，其中V为顶点集合，顶点数为N，E为边集合，每条边长度均为1。

4.根据权利要求3所述的基于多图像特征融合的行人重识别方法，其特征在于，所述步骤3的特征提取的具体方法包括以下步骤：

(1)顶点v的输入特征为

其领域为N(v)。

(2)计算N(v)中所有顶点的特征的均值

(3)将

与

加权相加。

(4)更新顶点v的特征作为输出，