CN111259837A

CN111259837A - 一种基于部位注意力的行人重识别方法及系统

Info

Publication number: CN111259837A
Application number: CN202010067243.2A
Authority: CN
Inventors: 陈羽中; 黄腾达; 柯逍; 林洋洋
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-09
Anticipated expiration: 2040-01-20
Also published as: CN111259837B

Abstract

本发明涉及一种基于部位注意力的行人重识别方法及系统，该方法包括以下步骤：A、输入训练集各行人视频到特征提取深度网络，得到中间特征并输入部位推断深度网络，得到K个部位的注意力热力图；B、做哈达玛积运算得到局部中间特征，再输入K个局部提取深度网络得到K个部位的局部特征；C、计算各部位的有效系数，对局部特征进行加权融合得到融合局部特征；D、计算全局特征，拼接全局特征和融合局部特征得到视频特征，输入全连接层得到分类向量；E、计算联合损失，计算各网络参数的梯度，后更新各网络参数，完成各网络训练过程；F、输入查询视频和检索集各视频到训练完成的各网络进行行人重识别。该方法及系统有利于提高行人重识别的性能。

Description

一种基于部位注意力的行人重识别方法及系统

技术领域

本发明属于模式识别与计算机视觉领域，具体涉及一种基于部位注意力的行人重识别方法及系统。

背景技术

行人重识别是指在多个镜头组成的监控网络拍摄得到的行人视频数据集中检索出感兴趣目标行人的技术，可应用到安防、嫌疑人追踪、行人行为分析等领域中，具有较高的理论和应用价值。

要完成自动化的行人重识别系统，需要面对以下重要问题：第一，受行人姿态变化、摄像头角度不同等因素的影响，导致对比的视频出现空间错位的问题，即相同的空间位置对应不同的行人身体部位，该问题导致视频所提取特征的判别性不足，进一步降低了重识别的性能；第二，受物体遮挡的影响，行人遮挡部位所提取的局部特征往往是无效的，常用的行人重识别方法忽略了该问题，所以其提取的特征包含了较多的无关噪声，使得特征匹配的准确性降低；第三，常用的基于深度网络的行人重识别方法使用分类损失进行网络模型的训练，但该分类损失不考虑样本对之间的关联信息，容易导致难负样本分类准确性较低的问题，使得分类精度降低。

发明内容

本发明的目的在于提供一种基于部位注意力的行人重识别方法及系统，该方法及系统有利于提高行人重识别的性能。

为实现上述目的，本发明采用的技术方案是：一种基于部位注意力的行人重识别方法，包括以下步骤：

步骤A：输入训练集各行人视频到特征提取深度网络，得到中间特征，将中间特征输入到部位推断深度网络，得到K个部位对应的注意力热力图；

步骤B：将中间特征和K个部位对应的注意力热力图做哈达玛积运算，得到K个部位对应的局部中间特征，再输入K个局部提取深度网络，得到K个部位对应的局部特征；

步骤C：根据K个部位对应的注意力热力图计算各部位对应的有效系数，根据有效系数，对K个部位对应的局部特征进行加权融合，得到融合局部特征；

步骤D：将中间特征输入到全局提取深度网络，计算全局特征，拼接全局特征和融合局部特征得到视频特征，将视频特征输入到全连接层，得到分类向量；

步骤E：对视频特征计算三元组损失，对分类向量计算分类损失，然后使用不确定学习的方式计算联合损失，根据联合损失计算各网络参数的梯度，而后更新各网络参数，完成各网络训练过程；

步骤F：输入查询视频和检索集各视频到训练完成的各网络，得到视频特征，计算查询视频和检索集各视频的特征距离，按照特征距离进行递增排序，得到查询视频的近邻列表，完成行人重识别。

进一步地，所述步骤A具体包括以下步骤：

步骤A1：输入训练集各行人视频到特征提取深度网络，所述特征提取深度网络由若干个卷积层、最大池化层以及线性整流函数层组成，网络的输出为中间特征；

步骤A2：将中间特征输入到部位推断深度网络，所述部位推断深度网络由若干个卷积层、反卷积层以及线性整流函数层组成，网络的输出为K个部位对应的注意力热力图。

进一步地，所述步骤B具体包括以下步骤：

步骤B1：将中间特征和K个部位对应的注意力热力图做哈达玛积运算，得到K个部位对应的局部中间特征，公式如下：

E_i＝M°P_i

其中，M为中间特征，P_i为第i个部位对应的注意力热力图，°为哈达玛积，E_i为第i个部位对应的局部中间特征；

步骤B2：分别将K个部位对应的局部中间特征输入到K个局部提取深度网络，所述局部提取深度网络由若干个卷积层、最大池化层以及线性整流函数层组成，网络的输出为各部位对应的局部特征。

进一步地，所述步骤C具体包括以下步骤：

步骤C1：根据K个部位对应的注意力热力图计算各部位对应的有效系数，公式如下：

其中，λ为置信阈值，max(·)为最大值函数，||·||₀和||·||₁分别为L0范数和L1范数，v_i为第i个部位的注意力热力图均值，exp(·)为指数函数，ξ_i为第i个部位对应的有效系数；

步骤C2：根据有效系数，对K个部位对应的局部特征进行加权融合，得到融合局部特征，公式如下：

其中，L_i为第i个部位对应的局部特征，Q为融合局部特征。

进一步地，所述步骤D具体包括以下步骤：

步骤D1：将中间特征输入到全局提取深度网络，所述全局提取深度网络由若干个卷积层、最大池化层以及线性整流函数层组成，网络的输出为全局特征；

步骤D2：拼接全局特征和融合局部特征得到视频特征，将视频特征输入到全连接层，全连接层的输出为分类向量。

进一步地，所述步骤E具体包括以下步骤：

步骤E1：对视频特征计算三元组损失，公式如下：

Loss_TRI＝max(0,margin+||S_a-S_p||₂-||S_a-S_n||₂)

其中，S_a为三元组中锚样本的视频特征，S_p为三元组中负样本的视频特征，S_n为三元组中正样本的视频特征，||·||₂为向量的2范数，margin为三元组损失的边距，Loss_TRI为三元组损失；

步骤E2：对分类向量计算分类损失，公式如下：

Loss_CLS＝-log(c_y)

其中，c为分类向量，c_y表示分类向量中第y个元素，而y为行人视频对应的类标签，log(·)为对数函数，Loss_CLS为分类损失；

步骤E3：使用不确定学习的方式计算联合损失，公式如下：

其中，ε₁和ε₂分别是分类损失和三元组损失对应的观测误差，Loss为联合损失；

步骤E4：根据联合损失，使用误差逆向传播算法计算各网络参数的梯度，然后根据该梯度，使用随机梯度下降的方法更新各网络参数，当联合损失达到收敛条件后，完成各网络的训练过程。

本发明还提供了一种采用上述方法的行人重识别系统，包括：

特征提取深度网络模块，用于使用特征提取深度网络，利用卷积层、最大池化层以及线性整流函数层，提取待重识别视频的中间特征，用于后续的局部和全局特征提取；

部位推断深度网络模块，用于将中间特征输入到部位推断深度网络，利用卷积层、反卷积层以及线性整流函数层，计算K个部位对应的注意力热力图；

局部提取深度网络模块，用于将中间特征和K个部位对应的注意力热力图做哈达玛积运算，得到K个部位对应的局部中间特征，再输入K个局部提取深度网络，得到K个部位对应的局部特征；

局部特征融合模块，用于根据K个部位对应的注意力热力图计算各部位对应的有效系数，根据有效系数，对K个部位对应的局部特征进行加权融合，得到融合局部特征；

全局提取深度网络模块，用于将中间特征输入到全局提取深度网络，利用卷积层、最大池化层以及线性整流函数层，计算全局特征；

联合损失计算模块，用于对视频特征计算三元组损失，对分类向量计算分类损失，后使用不确定学习的方式计算联合损失，根据联合损失计算各网络参数的梯度，后更新各网络参数，完成各网络训练过程；以及

重识别模块，用于输入查询视频和检索集各视频到训练完成的各网络，得到视频特征，计算查询视频和检索集各视频的特征距离，按照特征距离进行递增排序，得到查询视频的近邻列表，完成行人重识别。

相较于现有技术，本发明具有以下有益效果：提供了一种基于部位注意力的行人重识别方法及系统，首先通过深度神经网络提取行人各身体部位的局部特征，以完成空间对齐，更好地解决了空间错位的问题。然后通过部位注意力热力图进行有效系数的计算，并根据该有效系数对各局部特征进行融合，从一定程度上解决由部位遮挡引起的误识别问题，获得噪声较少、更具判别性的特征。最后通过提出的不确定学习下的联合损失训练方法，结合三元组损失和分类损失进行网络模型的训练，既考虑了样本对之间的关联，又兼顾考虑了分类信息，使得网络可以学习到更鲁棒的特征空间，同时减小网络模型对于不同任务的输出不确定性。因此，本发明可进一步提升行人重识别的性能，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例的系统结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供一种基于部位注意力的行人重识别方法，如图1所示，包括以下步骤：

步骤A：输入训练集各行人视频到特征提取深度网络，得到中间特征，将中间特征输入到部位推断深度网络，得到K个部位对应的注意力热力图。具体包括以下步骤：

步骤B：将中间特征和K个部位对应的注意力热力图做哈达玛积运算，得到K个部位对应的局部中间特征，再输入K个局部提取深度网络，得到K个部位对应的局部特征。具体包括以下步骤：

E_i＝M°P_i

步骤C：根据K个部位对应的注意力热力图计算各部位对应的有效系数，根据有效系数，对K个部位对应的局部特征进行加权融合，得到融合局部特征。具体包括以下步骤：

其中，L_i为第i个部位对应的局部特征，Q为融合局部特征。

步骤D：将中间特征输入到全局提取深度网络，计算全局特征，拼接全局特征和融合局部特征得到视频特征，将视频特征输入到全连接层，得到分类向量。具体包括以下步骤：

步骤E：对视频特征计算三元组损失，对分类向量计算分类损失，然后使用不确定学习的方式计算联合损失，根据联合损失计算各网络参数的梯度，而后更新各网络参数，完成各网络训练过程。具体包括以下步骤：

步骤E1：对视频特征计算三元组损失，公式如下：

Loss_TRI＝max(0,margin+||S_a-S_p||₂-||S_a-S_n||₂)

步骤E2：对分类向量计算分类损失，公式如下：

Loss_CLS＝-log(c_y)

步骤E3：使用不确定学习的方式计算联合损失，公式如下：

本发明还提供了采用上述方法的行人重识别系统，如图2所示，包括：特征提取深度网络模块、部位推断深度网络模块、局部提取深度网络模块、局部特征融合模块、全局提取深度网络模块、联合损失计算模块和重识别模块。

所述特征提取深度网络模块用于使用特征提取深度网络，利用卷积层、最大池化层以及线性整流函数层，提取待重识别视频的中间特征，用于后续的局部和全局特征提取。

所述部位推断深度网络模块用于将中间特征输入到部位推断深度网络，利用卷积层、反卷积层以及线性整流函数层，计算K个部位对应的注意力热力图。

所述局部提取深度网络模块用于将中间特征和K个部位对应的注意力热力图做哈达玛积运算，得到K个部位对应的局部中间特征，再输入K个局部提取深度网络，得到K个部位对应的局部特征。

所述局部特征融合模块用于根据K个部位对应的注意力热力图计算各部位对应的有效系数，根据有效系数，对K个部位对应的局部特征进行加权融合，得到融合局部特征。

所述全局提取深度网络模块用于将中间特征输入到全局提取深度网络，利用卷积层、最大池化层以及线性整流函数层，计算全局特征。

所述联合损失计算模块用于对视频特征计算三元组损失，对分类向量计算分类损失，后使用不确定学习的方式计算联合损失，根据联合损失计算各网络参数的梯度，后更新各网络参数，完成各网络训练过程。

所述重识别模块用于输入查询视频和检索集各视频到训练完成的各网络，得到视频特征，计算查询视频和检索集各视频的特征距离，按照特征距离进行递增排序，得到查询视频的近邻列表，完成行人重识别。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。