CN109711316B

CN109711316B - 一种行人重识别方法、装置、设备及存储介质

Info

Publication number: CN109711316B
Application number: CN201811574174.3A
Authority: CN
Inventors: 黄国恒; 卢增
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2022-10-21
Anticipated expiration: 2038-12-21
Also published as: CN109711316A

Abstract

本申请公开了一种行人重识别方法、装置、设备及存储介质，包括：将每帧行人图片输入到残差网络中提取特征；将从相邻两帧提取出的特征输入到光流图预测网络中，获取一帧光流图；将前一帧的特征和光流图一起输入到特征融合器中进行融合；将每一帧的融合特征和光流图输入到带有光流图处理机制的长短期记忆网络中，并将获得的多帧数据输出特征输入到均匀卷积分块模型中进行水平分块处理，对每个分块进行分类损失训练，并将分类的得分作为权重；将每个分块的特征向量乘以权重求出对比损失函数，训练整个行人重识别非对称孪生网络模型，进行行人重识别。本申请可以将多帧图片互补信息融合生成完整的行人特征，去除噪声信息，节约成本，提高识别准确率。

Description

一种行人重识别方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉领域，特别是涉及一种行人重识别方法、装置、设备及存储介质。

背景技术

行人重识别(Person Reidentification，Person Re-ID)是公共安防方面的一项重要的技术。在平常的生活中，主要用来寻找公园中走失的儿童，在公安办案中，主要用来追踪嫌疑人员。深度学习在近几年高速发展，尤其是卷积神经网络(CNN)的出现，给图像处理的领域带来了很大的推动力，慢慢地又出现了目标检测的深度学习算法，由R-CNN类型的图像检测算法作为代表，目标检测技术是行人重识别的基础性工作，它可以训练出行人检测模型，应用于行人重识别的工作上。由于技术的推进，行人重识别技术开始推进，现在的行人重识别有基于表征的，但是仅仅依靠人的表征不足以形成一个足够精确的模型，网络模型简单，模型的表达能力较差；还有基于局部特征的行人重识别算法，但是这类算法的前提是需要每一个人体部位都对齐，不然会出现头和上半身比较的情况，出现差错，而且还会有噪音的干扰，导致识别结果依旧不准确。

最近，出现了利用姿态估计模型辅助提取出行人图片上感兴趣的区域，并按照一定的次序排列好人体每一个部分的特征向量，连接成一个特征向量，最后进行特征的对比来训练网络模型。但在这个算法中只是利用了迁移学习将姿态估计模型插入到行人重识别模型中起到生成人体局部特征的辅助作用。这个算法模型存在两个缺点：一个是姿态估计的数据集和行人重识别的数据集还是存在一定的误差的，会导致精度不准确；要是再在行人重识别的数据集上训练姿态估计的模型需要格外的标注，成本巨大；另一个是姿态估计模型的算法有很大的计算量，嵌入行人重识别模型会进一步增加模型的计算量，这样会使得检测的速度变得很慢，可能无法达到实时识别的要求，产生欠拟合的现象；而且这个算法只使用了单帧的行人图像进行训练模型，大部分的工作都只是在单帧图像上进行，单帧行人图像的信息总是匮乏的，在去除行人遮挡的问题上，不能提供太好的解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种行人重识别方法、装置、设备及存储介质，可以将多帧图片的互补信息融合生成完整的行人特征，去除噪声信息，节约训练时间和成本，提高识别准确率。其具体方案如下：

一种行人重识别方法，包括：

将每帧行人图片输入到残差网络中提取特征；

将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中，获取一帧光流图；

将输入所述光流图预测网络的前一帧行人图片的特征和所述光流图一起输入到特征融合器中进行融合，得到融合特征；

将每一帧的所述融合特征和所述光流图一起输入到带有光流图处理机制的长短期记忆网络中，并将获得的多帧数据输出特征输入到均匀卷积分块模型中；

通过所述均匀卷积分块模型将所述多帧数据输出特征进行水平分块处理，对每个分块进行分类损失训练，并将分类的得分作为权重；

将每个分块的特征向量乘以所述权重求出对比损失函数，训练整个带有光流图处理机制的长短期记忆网络结合水平分块多损失联合的行人重识别非对称孪生网络模型；

将目标行人图片输入到训练好的所述行人重识别非对称孪生网络模型中进行行人重识别。

优选地，在本发明实施例提供的上述行人重识别方法中，所述光流图预测网络采用漏斗模型，在所述光流图预测网络的前半部分利用卷积下采样，后半部分利用反卷积上采样。

优选地，在本发明实施例提供的上述行人重识别方法中，在所述光流图预测网络中，卷积层和反卷积层共有M个，前半部分排在第N位的卷积层与后半部分排在第M+1-N的反卷积层相对应且连接。

优选地，在本发明实施例提供的上述行人重识别方法中，在将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中之前，还包括：

从行人重识别数据集样本中提取出光流图样本；

通过所述光流图样本单独训练所述光流图预测网络。

优选地，在本发明实施例提供的上述行人重识别方法中，将输入所述光流图预测网络的前一帧行人图片的特征和所述光流图一起输入到特征融合器中进行融合，具体包括：

将输入所述光流图预测网络的前一帧行人图片的特征和所述光流图堆叠在一起并输入到特征融合器；

采用大小为1×1的卷积核进行降维操作，同时进行通道上的融合操作。

优选地，在本发明实施例提供的上述行人重识别方法中，通过所述均匀卷积分块模型将所述多帧数据输出特征进行水平分块处理，具体包括：

通过所述均匀卷积分块模型将所述多帧数据输出特征中的特征向量转化为三维特征图；

通过非对称卷积从所述三维特征图中提取特征，并利用非对称卷积核对提取的特征进行水平分割，获取多个分块；

采用全局平均池化层分别对每个分块进行池化操作。

优选地，在本发明实施例提供的上述行人重识别方法中，对每个分块均进行分类损失训练，并将分类的得分作为权重，具体包括：

通过交叉熵损失函数求出每个分块的损失；

将每个分块的损失加起来作为一个总的分类损失；

为每个分块分配一个类别标签，通过匹配模块选中每个分块中正确类别预测出来的分数；

将每个分块预测出来的分数回传作为权重。

本发明实施例还提供了一种行人重识别装置，包括：

特征提取模块，用于将每帧行人图片输入到残差网络中提取特征；

光流图获取模块，用于将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中，获取一帧光流图；

特征融合模块，用于将输入所述光流图预测网络的前一帧行人图片的特征和所述光流图一起输入到特征融合器中进行融合，得到融合特征；

光流记忆模块，用于将每一帧的所述融合特征和所述光流图一起输入到带有光流图处理机制的长短期记忆网络中，并将获得的多帧数据输出特征输入到均匀卷积分块模型中；

权重获取模块，用于通过所述均匀卷积分块模型将所述多帧数据输出特征进行水平分块处理，对每个分块进行分类损失训练，并将分类的得分作为权重；

模型训练模块，用于将每个分块的特征向量乘以所述权重求出对比损失函数，训练整个带有光流图处理机制的长短期记忆网络结合水平分块多损失联合的行人重识别非对称孪生网络模型；

行人重识别模块，用于将目标行人图片输入到训练好的所述行人重识别非对称孪生网络模型中进行行人重识别。

本发明实施例还提供了一种行人重识别设备，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述行人重识别方法。

本发明实施例还提供了一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如本发明实施例提供的上述行人重识别方法。

从上述技术方案可以看出，本发明所提供的一种行人重识别方法、装置、设备及存储介质，该方法包括：将每帧行人图片输入到残差网络中提取特征；将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中，获取一帧光流图；将输入光流图预测网络的前一帧行人图片的特征和光流图一起输入到特征融合器中进行融合，得到融合特征；将每一帧的融合特征和光流图一起输入到带有光流图处理机制的长短期记忆网络中，并将获得的多帧数据输出特征输入到均匀卷积分块模型中；通过均匀卷积分块模型将多帧数据输出特征进行水平分块处理，对每个分块进行分类损失训练，并将分类的得分作为权重；将每个分块的特征向量乘以权重求出对比损失函数，训练整个带有光流图处理机制的长短期记忆网络结合水平分块多损失联合的行人重识别非对称孪生网络模型；将目标行人图片输入到训练好的行人重识别非对称孪生网络模型中进行行人重识别。

本发明采用残差网络来提取图片的特征，不会发生退化，可以将提取出来效果优秀的深层特征用于之后的算法处理中；采用光流图预测网络可以提取出图片的深层语义信息和空间信息；光流图和图片特征进行融合在一定的程度上加深了特征图上的行人的轮廓特征，并带有运动信息，可以将行人和静止不动的背景噪声区别开来，减少了背景噪声对识别的影响；采用分类分数的回传再作为每一个分块的权重，不仅仅充分利用了预测出来分类的分数，还使得每一个分块在最后的对比损失的贡献中根据所提供的特征，分配到的权重有所不同，突出了显著特征，弱化了非显著特征，并且有一定的去除噪声信息的作用；利用对比损失函数训练网络，加快了利用局部特征进行行人重识别方法的速度，并且将局部特征充分应用在了分类损失和对比损失的计算中，将强关联类别和弱关联样本对之间的联系综合在了一起，加强了网络的收敛约束条件，加速了网络的收敛，节约了训练的时间和成本，提高识别准确率；在行人重识别过程中只需要输入一帧目标行人图片，就可以在一个视频当中搜索出置信度高的目标行人。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的行人重识别方法的流程图；

图2为本发明实施例提供的残差网络的原理示意图；

图3为本发明实施例提供的光流图预测网络的结构示意图；

图4为本发明实施例提供的通过残差网络和光流图预测网络生成融合特征的示意图；

图5为本发明实施例提供的将光流图和图片特征进行融合的流程图；

图6为本发明实施例提供的带有光流图处理机制的长短期记忆网络在输入阶段的流程图；

图7为本发明实施例提供的带有光流图处理机制的长短期记忆网络在图6的基础上的数据流动的流程图；

图8为本发明实施例提供的带有光流图处理机制的长短期记忆网络在图7的基础上的数据流动的流程图；

图9为本发明实施例提供的带有光流图处理机制的长短期记忆网络在输出阶段的流程图；

图10为本发明实施例提供的采用均匀卷积分块模型进行水平分块处理的流程图；

图11为本发明实施例提供的将特征图经PCB模块后再经过一层卷积层输出的流程图；

图12为本发明实施例提供的行人重识别方法的全局流程图；

图13为本发明实施例提供的行人重识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种行人重识别方法，如图1所示，包括以下步骤：

S101、将每帧行人图片输入到残差网络中提取特征；

S102、将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中，获得一帧光流图；

S103、将输入光流图预测网络的前一帧行人图片的特征和光流图一起输入到特征融合器中进行融合，得到融合特征；

S104、将每一帧的融合特征和光流图一起输入到带有光流图处理机制的长短期记忆网络中，并将获得的多帧数据输出特征输入到均匀卷积分块模型中；

S105、通过均匀卷积分块模型将多帧数据输出特征进行水平分块处理，对每个分块进行分类损失训练，并将分类的得分作为权重；

S106、将每个分块的特征向量乘以权重求出对比损失函数，训练整个带有光流图处理机制的长短期记忆网络结合水平分块多损失联合的行人重识别非对称孪生网络模型；

S107、将目标行人图片输入到训练好的行人重识别非对称孪生网络模型中进行行人重识别。

在本发明实施例提供的上述行人重识别方法中，采用残差网络来提取图片的特征，不会发生退化，可以将提取出来效果优秀的深层特征用于之后的算法处理中；采用光流图预测网络可以提取出图片的深层语义信息和空间信息；光流图和图片特征进行融合在一定的程度上加深了特征图上的行人的轮廓特征，并带有运动信息，可以将行人和静止不动的背景噪声区别开来，减少了背景噪声对识别的影响；采用分类分数的回传再作为每一个分块的权重，不仅仅充分利用了预测出来分类的分数，还使得每一个分块在最后的对比损失的贡献中根据所提供的特征，分配到的权重有所不同，突出了显著特征，弱化了非显著特征，并且有一定的去除噪声信息的作用；利用对比损失函数训练网络，加快了利用局部特征进行行人重识别方法的速度，并且将局部特征充分应用在了分类损失和对比损失的计算中，将强关联类别和弱关联样本对之间的联系综合在了一起，加强了网络的收敛约束条件，加速了网络的收敛，节约了训练的时间和成本，提高识别准确率；采用已经框出同一个行人图片的样本，再输入到训练好的行人重识别非对称孪生网络模型中进行训练，利用多帧行人图片的互补信息提取出一个较为完整行人信息作为基础特征，再对融合的特征进行水平均匀分块处理，每个分块都视为一个独立的单元，最终输入到行人重识别非对称孪生网络模型中将每个分块与从目标行人图片提取出的特征向量进行对比计算，实现行人重识别，需要注意的是，本发明可以运用在视频的领域，在行人重识别过程中只需要输入一帧目标行人图片，就可以在一个视频当中搜索出置信度高的目标行人。

下面对于各步骤进行详细说明：

在具体实施时，在步骤S101中将每帧行人图片输入到残差网络中提取特征，该残差网络(ResNet50)大部分的组成部分和其他的深度卷积网络没有什么区别，如图2所示，它的核心原理是加入了一个跳跃连接(skip connection)，将前一个模块的输出直接连接到当前模块的输出上，而跳过了当前模块的所有处理层，再和经过了当前模块的输出进行特征融合；

采用了跳跃连接(skip connection)的ResNet50可以解决建立过于深的卷积网络产生的梯度消失和爆炸的问题和退化问题。归一初始化(normalized initialization)和中间归一化(intermediate normalization)在很大程度上解决了这一问题，它使得数十层的网络在反向传播的随机梯度下降(SGD)上能够收敛；

随着网络深度的增加，准确率达到饱和之后迅速退化。意外的是，这种退化并不是由过拟合造成的，并且在一个合理的深度模型中增加更多的层却导致了更高的错误率。而残差网络的跳跃连接(skip connection)使得下一个模块输出的特征都融合了上一个模块的特征，导致提取的特征不会发生退化，只会越来越好，或者保持原样；

本发明在提取图片的特征的阶段采取的就是残差网络(ResNet50)，将提取出来效果优秀的深层特征用于之后的算法处理中。

在具体实施时，在步骤S102中将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中，获得一帧光流图，具体可以采用漏斗模型来设计光流图预测网络(FlowNet)；

漏斗模型顾名思义就是一类向外两边逐渐增大，中部小的模型，这个网络模块的形状就如同漏斗一般，只是单纯的采用卷积下采样的话，或许可以获得良好的深层的语义信息；但是光流图不仅仅反应了图片上的语义特征，更多的是反应了两张图片之间的关联，运动信息和物体轮廓，这个更多的需要依靠图像上的空间信息，但是并不是说语义信息也不需要了，在保证提取图片深层语义信息的同时，更需要提取出图片上像素点的空间位置信息；

下采样提取深层的语义信息，会导致特征图的尺寸缩小；故，在具体实施时，如图3所示，本发明中光流图预测网络采用漏斗模型，在网络的前半部分利用卷积下采样，而后半部分利用反卷积上采样；在光流图预测网络中，卷积层(cnn)和反卷积层(dcnn)共有M个，每一个卷积层都对应着后面的一个反卷积层，即前半部分排在第N位的卷积层与后半部分排在第M+1-N的反卷积层相对应且连接。反卷积层将被下采缩小的图片一步一步逐层的放大回到原来的图片尺寸上，并提取了图片的空间位置信息。考虑到网络的后半部分采用了反卷积，可能会导致之前卷积层提取的图片深层语义信息被影响了，所以，这里也采取残差网络的思想，采用跳跃连接，将与每一个反卷积层对应的前面的卷积层连接起来，使得图片的语义特征也不会被下采样所影响，之后越来越好，之后网络提取了图片的深层语义信息和空间信息，最后输出对两帧图片的光流图预测。

在具体实施时，在执行步骤S102将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中之前，还可以包括：从行人重识别数据集样本中提取出光流图样本；通过光流图样本单独训练光流图预测网络。

也就是说，光流预测的模块需要使用光流图样本单独训练这个模块，首先使用传统的方法提取行人重识别数据集(iLIDS-VID)样本中的光流图，该传统的方法可以是一些非深度学习的方法，然后将提取出来的光流图作为样本来单独训练光流预测网络(FlowNet)，训练好之后再将这个模型嵌入到行人重识别模型中，并将其中的网络参数设置为不可训练。训练光流图预测网络的数据集就采用行人重识别数据集(iLIDS-VID)，这样避免了光流图数据集和行人重识别数据集之间的误差。

在具体实施时，在步骤S103中将输入光流图预测网络的前一帧行人图片的特征和光流图一起输入到特征融合器中进行融合，得到融合特征，具体可以包括：将输入光流图预测网络的前一帧行人图片的特征和光流图堆叠在一起并输入到特征融合器；采用大小为1×1的卷积核进行降维操作，同时进行通道上的融合操作。

在实际应用中，如图4所示，将光流图和生成这帧光流图的两帧图片的前面那一帧的特征进行融合，得到融合特征(Fusion)，之前经过光流预测网络(FlowNet)生成的光流图和残差网络(ResNet50)生成的图片的特征图大小尺寸是一样的。这里并不是采用单纯的对应空间的像素点上的数值相加，而是如图5所示，采用大小为1×1的卷积核(conv)来对堆叠在一起的特征图和光流图进行降维操作，同时进行通道channel上的融合操作，这样的融合是网络的自适应融合，让卷积层自己来学习最好的融合方式：

其中，

是两帧连续的图片的特征经过光流图预测网络生成的光流图，+_c是将特征图和光流图在通道上进行叠加，W_y·()是1×1的卷积操作。y_i是融合之后的特征。

光流图和图片特征进行融合在一定的程度上加深了特征图上的行人的轮廓特征，可以将行人和静止不动的背景噪声区别开来，减少了背景噪声对识别的影响。

在具体实施时，在步骤S104中将每一帧的融合特征和光流图一起输入到带有光流图处理机制的长短期记忆网络中，并将获得的多帧数据输出特征输入到均匀卷积分块模型中，可以对长短期记忆网络(Long Short-Term Memory，LSTM)进行改进设计成带光流图处理机制的长短期记忆网络(FTM)。

在实际应用中，当每帧信息输入到LSTM中的时候会根据每次输入的新信息和上一个时序输入的信息，结合最后的样本进行训练，学习到对什么信息要留，什么信息要丢，更加准确的提取多个数据中的信息，并融合。长短期记忆网络只接收一种信息的输入，如果只是将融合之后的特征图输入到长短期记忆网络中，就不能充分的提取出光流图的时序信息了，所以，还需要将光流图单独作为一个输入信息输入到这类带有时序的网络中去。

以长短期记忆网络为基础，结合光流图的输入设计了带有光流图处理机制时序的记忆网络(FTM)模块。对这个模块，分为四个阶段来进行描述：

第一阶段是输入阶段，如图6所示，记μ_i为光流图，

是对应空间位置的像素相融合的操作，W_f是神经网络中可以训练的参数，σ是sigmod()函数，用来把数值控制在0～1的范围内，加速网络的收敛。h_i-1是上一个时序的信息输出，y_i是这个时序新输入的数据信息，f_i是这个时序的信息y_i融合光流图μ_i之后和上一个时序的数据信息h_i-1经过神经网络的映射输出。这段网络控制需要遗忘掉贡献低的数据信息。该阶段的输出f_i是一个0～1的控制数据，表示要丢弃的权重，具体计算公式如下：

第二阶段是在上一个阶段的基础上的数据的流动，如图7所示，当前帧输入的信息y_i继续向前流动，开始进新的神经网络和门控函数，进行进一步计算，

是用来选中上一个时序的信息中可以用来更新当前信息的控制参数，r_i是上一个时序的信息h_i-1经过神经网络产生的输出。两个结果相结合，控制上一个时序的信息中那些可以保留下来，用来更新当前的状态信息，具体计算公式如下：

r_i＝σ(W_r.[h_i-1,y_i]+b_r) (4)

第三阶段是在上一个阶段的基础上的数据的流动，这个部分主要是用当前时序所产生的数据来更新上一个时序网络的数据信息，如图8所示，先把这一帧的光流图数据μ_i通过一层神经网络和sigmod激活函数映射到U_i，再把控制信息C_i-1更新为C_i，

表示相乘操作，具体计算公式如下：

U_i＝σ(W_U·[h_i-1,μ_i]+b_U) (5)

把上一个时序的控制信息C_i-1和f_i相乘，忘记那些对识别贡献较低或者是噪声的数据信息，之后加上映射之后数值在0～1的光流图信息，最后附上对这个时序新输入的数据信息的候选值

在这个阶段，将光流信息也加入了对控制信息的计算，因为光流图本身就是采用连续的两帧图片生成的特征图，关联着这两帧图片信息，带有运动表征和时序特征的属性，所以加入光流信息参与控制可以更好的体现多帧图片其中关联的运动和时序信息。

第四阶段是FTM模块的最后一个阶段，数据输出的阶段，如图9所示，将新的输入信息y_i和上个时序的信息h_i-1经过一层神经网络，再采用激活函数sigmod(),将数值控制在0到1之间，输出结果O_i，之后的操作和传统的长短记忆网络一样，将信息数据和控制信息相乘之后输出h_i。在这里细节不做赘述，具体计算公式如下：

O_i＝σ(W_O·[h_i-1,y_i]+b_O) (7)

在具体实施时，在步骤S105中通过均匀卷积分块模型将多帧数据输出特征进行水平分块处理，具体可以包括：通过均匀卷积分块模型将多帧数据输出特征中的特征向量转化为三维特征图；通过非对称卷积从三维特征图中提取特征，并利用非对称卷积核对提取的特征进行水平分割，获取多个分块；采用全局平均池化层分别对每个分块进行池化操作。

具体地，均匀卷积分块模型接收来自最后的FTM模块的输出，注意，这个输出是一个多个特征的特征向量，是一维的，需要将其转化为三维的数据Tensor，大小记为F＝H×W×D，F是特征图，H×W×D分别对应着特征图的高、宽和深度也就是通道数。利用非对称卷积，就是卷积核的长宽不一样的卷积核来卷积特征图，提取特征。采用H/6×1大小的卷积核，在竖直方向的步长为H/6，在水平方向上的步长为1。卷积之后生成了和原来的特征图尺寸大小相同的特征图，并且利用非对称卷积核将原来的特征图从上到下划分成了6个部分。

为了使得每个分块之间的界限更加清晰，如图10所示，采用特殊的全局平均池化层分别对每一个分块进行池化操作，卷积核的大小为H/6×W，使得每一个分块的特征都转化为一个特征向量V_i，一共有6个分块，i表示第几个分块。最后的特征图的深度为n，n也表示最终分类的类别数，那么特征向量的元素也有n个。

在具体实施时，在步骤S105中对每个分块均进行分类损失训练，并将分类的得分作为权重，具体可以包括：通过交叉熵损失函数求出每个分块的损失；将每个分块的损失加起来作为一个总的分类损失；为每个分块分配一个类别标签，通过匹配模块选中每个分块中正确类别预测出来的分数；将每个分块预测出来的分数回传作为权重。

具体地，对行人的每一个分块都进行一次分类预测，分别经过softmax()函数之后，对每一个分块的分类都求一个损失，并将每一个分块的损失加起来做为一个总的分类损失，损失函数就采用传统的交叉熵损失函数(CrossentryLoss Function)，再用学习率可变的梯度下降优化器来训练整个网络的中卷积层和全连接层的参数。这里采用的是中继监督的方式来训练网络。

而且，这个网络预测出来的每一个分块的分类得分是用来生成每一分块在之后的对比中能发挥多大作用的权重的必要基本数据。之后利用标签label中的类别，作为下标通过匹配match模块来选中每每个分块中正确类别预测出来的分数S_i[·]，·表示下标，S_i表示第i个分块的得分向量，如下面的向量数组：

其中，CLoss是对6个分块的总分类的损失函数，i表示第i个分块，j表示第i个分块的类别预测向量中的第j个类别的预测分数，

表示真实的类别，真实值为第t类的时候，

其余的

是第i个分块类别预测分数中的第j个类别的预测值。

如图11所示，T是从行人中提取的每一个分块特征的经过增强的特征集合，可以看成一个列表T[6]，T中有6个特征向量分别对应于人体的每一个分块；G是PCB模块(将行人图片水平均匀分块的模块)后再经过一层卷积层输出的特征图。

采用分类分数的回传再作为每一个分块的权重的设计，不仅仅充分利用了预测出来分类的分数，还使得每一个分块在最后的对比损失的贡献中根据他们所提供的特征，分配到的权重有所不同。突出了显著特征，弱化了非显著特征，并且有一定的去除噪声信息的作用。

在具体实施时，在步骤S106中将每个分块的特征向量乘以权重求出对比损失函数，训练整个带有光流图处理机制的长短期记忆网络结合水平分块多损失联合的行人重识别非对称孪生网络模型，对比损失函数的计算公式如下：

VLoss是6个分块的总的对比损失函数，当两个对比的样本为正样本对的时候，其类别相同，a＝1，否则a＝0。m是一个尺度，是两个样本中对应分块之间的欧式距离

的上界。

采用本发明提供的上述行人重识别方法中的算法后，加快了利用局部特征进行行人重识别算法的速度，并且将局部特征充分应用在了分类损失和对比损失中的计算中，将强关联类别和弱关联样本对之间的联系综合在了一起，加强了网络的收敛约束条件，加速了网络的收敛，节约了训练的成本，时间。

如图12所示，query是需要查询的目标行人图片，Sigmod是一种激活函数，将所有数值归到0至1这个范围。从全局流程图中可以得出，将行人特征和两帧行人光流图融合之后有更加明显的轮廓，并带有运动信息；将光流图外加行人特征输入到时序网络FTM中可以充分利用多帧图片互补信息和图片之间的运动关联信息还有时序信息；单帧图片的信息总是匮乏的，尤其是在某个部位被遮挡的状态下，而多帧图片的互补信息可以让时序网络预测出一个比较完整的行人特征，用于水平分块模块；将对每一个水平分块的分类得分，回传到网络中，作为每一个分块的权重比，加在对比损失函数上，同样起到了避免噪声和去除遮挡影响的作用。但是这里和前部分的时序网络的去遮挡的原理不一样，循环网络是将多帧图片的互补信息融合生成完整的行人特征。而采用每个分块的权重比可以知道哪个分块中的正确类别的置信度高，之后就加强那个分块的特征，这样有噪声的分块的特征就相对被弱化了，达到了去燥的效果，提高了识别的准确率。

基于同一发明构思，本发明实施例还提供了一种行人重识别装置，由于该行人重识别装置解决问题的原理与前述一种行人重识别方法相似，因此该行人重识别装置的实施可以参见行人重识别方法的实施，重复之处不再赘述。

在具体实施时，本发明实施例提供的行人重识别装置，如图13所示，具体包括：

特征提取模块11，用于将每帧行人图片输入到残差网络中提取特征；

光流图获取模块12，用于将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中，获取一帧光流图；

特征融合模块13，用于将输入光流图预测网络的前一帧行人图片的特征和光流图一起输入到特征融合器中进行融合，得到融合特征；

光流记忆模块14，用于将每一帧的融合特征和光流图一起输入到带有光流图处理机制的长短期记忆网络中，并将获得的多帧数据输出特征输入到均匀卷积分块模型中；

权重获取模块15，用于通过均匀卷积分块模型将多帧数据输出特征进行水平分块处理，对每个分块进行分类损失训练，并将分类的得分作为权重；

模型训练模块16，用于将每个分块的特征向量乘以权重求出对比损失函数，训练整个带有光流图处理机制的长短期记忆网络结合水平分块多损失联合的行人重识别非对称孪生网络模型；

行人重识别模块17，用于将目标行人图片输入到训练好的行人重识别非对称孪生网络模型中进行行人重识别。

在本发明实施例提供的上述行人重识别装置中，可以通过上述七个模块的相互作用，将多帧图片的互补信息融合生成完整的行人特征，去除噪声信息，节约训练时间和成本，提高识别准确率。

关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

相应的，本发明实施例还公开了一种行人重识别设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现前述实施例公开的行人重识别方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本发明还公开了一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现前述公开的行人重识别方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

综上，本发明实施例提供的一种行人重识别方法、装置、设备及存储介质，该方法包括：将每帧行人图片输入到残差网络中提取特征；将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中，获取一帧光流图；将输入光流图预测网络的前一帧行人图片的特征和光流图一起输入到特征融合器中进行融合，得到融合特征；将每一帧的融合特征和光流图一起输入到带有光流图处理机制的长短期记忆网络中，并将获得的多帧数据输出特征输入到均匀卷积分块模型中；通过均匀卷积分块模型将多帧数据输出特征进行水平分块处理，对每个分块进行分类损失训练，并将分类的得分作为权重；将每个分块的特征向量乘以权重求出对比损失函数，训练整个带有光流图处理机制的长短期记忆网络结合水平分块多损失联合的行人重识别非对称孪生网络模型；将目标行人图片输入到训练好的行人重识别非对称孪生网络模型中进行行人重识别。这样采用残差网络来提取图片的特征，不会发生退化，可以将提取出来效果优秀的深层特征用于之后的算法处理中；采用光流图预测网络可以提取出图片的深层语义信息和空间信息；光流图和图片特征进行融合在一定的程度上加深了特征图上的行人的轮廓特征，并带有运动信息，可以将行人和静止不动的背景噪声区别开来，减少了背景噪声对识别的影响；采用分类分数的回传再作为每一个分块的权重，不仅仅充分利用了预测出来分类的分数，还使得每一个分块在最后的对比损失的贡献中根据所提供的特征，分配到的权重有所不同，突出了显著特征，弱化了非显著特征，并且有一定的去除噪声信息的作用；利用对比损失函数训练网络，加快了利用局部特征进行行人重识别方法的速度，并且将局部特征充分应用在了分类损失和对比损失的计算中，将强关联类别和弱关联样本对之间的联系综合在了一起，加强了网络的收敛约束条件，加速了网络的收敛，节约了训练的时间和成本，提高识别准确率，在行人重识别过程中只需要输入一帧目标行人图片，就可以在一个视频当中搜索出置信度高的目标行人。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的行人重识别方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种行人重识别方法，其特征在于，包括：

将每帧行人图片输入到残差网络中提取特征；

2.根据权利要求1所述的行人重识别方法，其特征在于，所述光流图预测网络采用漏斗模型，在所述光流图预测网络的前半部分利用卷积下采样，后半部分利用反卷积上采样。

3.根据权利要求2所述的行人重识别方法，其特征在于，在所述光流图预测网络中，卷积层和反卷积层共有M个，前半部分排在第N位的卷积层与后半部分排在第M+1-N的反卷积层相对应且连接。

4.根据权利要求3所述的行人重识别方法，其特征在于，在将从相邻的两帧行人图片提取出的特征输入到光流图预测网络中之前，还包括：

从行人重识别数据集样本中提取出光流图样本；

通过所述光流图样本单独训练所述光流图预测网络。

5.根据权利要求1所述的行人重识别方法，其特征在于，将输入所述光流图预测网络的前一帧行人图片的特征和所述光流图一起输入到特征融合器中进行融合，具体包括：

6.根据权利要求1所述的行人重识别方法，其特征在于，通过所述均匀卷积分块模型将所述多帧数据输出特征进行水平分块处理，具体包括：

采用全局平均池化层分别对每个分块进行池化操作。

7.根据权利要求6所述的行人重识别方法，其特征在于，对每个分块均进行分类损失训练，并将分类的得分作为权重，具体包括：

通过交叉熵损失函数求出每个分块的损失；

将每个分块的损失加起来作为一个总的分类损失；

将每个分块预测出来的分数回传作为权重。

8.一种行人重识别装置，其特征在于，包括：

9.一种行人重识别设备，其特征在于，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的行人重识别方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的行人重识别方法。