CN112232300A

CN112232300A - 全局遮挡自适应的行人训练/识别方法、系统、设备及介质

Info

Publication number: CN112232300A
Application number: CN202011254554.6A
Authority: CN
Inventors: 成西锋; 马卫民; 袁德胜; 游浩泉; 林治强; 党毅飞; 崔龙; 李伟超; 王海涛
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-01-15
Anticipated expiration: 2040-11-11
Also published as: CN112232300B

Abstract

本发明提供一种全局遮挡自适应的行人训练/识别方法、系统、设备及介质，行人训练方法包括：接收训练数据集；提取每一幅图片的属性特征图；将同一行人的所有属性特征图进行融合，获取若干行人的融合特征；从多张属性特征图中提取局部特征及从若干行人的融合特征提取全局特征；根据局部特征和全局特征，提取局部特征的注意力，以计算分别用于表征局部特征的局部特征注意力增强后的特征和用于表征全局特征的全局特征在屏蔽图片遮挡信息后的特征；对局部特征注意力增强后的特征和全局特征在屏蔽图片遮挡信息后的特征进行损失计算。本发明降低了人为操作偏差带来的模型误差；解决了常用的模型评判指标无法指导工程上设定阈值的问题。

Description

全局遮挡自适应的行人训练/识别方法、系统、设备及介质

技术领域

本发明属于图像识别技术领域，涉及一种训练/识别方法、系统，特别是涉及一种全局遮挡自适应的行人训练/识别方法、系统及介质。

背景技术

行人重识别指通过计算机视觉方法，描述与比对图像或视频序列中的行人，判断是否存在指定行人的技术。由于在不同图像或视频中环境条件，行人姿态与遮挡情况，摄像头角度各异，行人重识别为一个富有挑战性的课题。

早期的行人属性识别主要通过人为地选取行人图像颜色，纹理等信息，从而构建行人的表观特征，针对性地训练分类器。典型的例子有HOG，SIFT，SVM，CRF模型等。但这些传统算法远远不够满足实际应用的需求。

受现代深度学习的迅速发展影响，行人重识别现今发展主要依靠卷积神经网络技术，主要使用的方法包括表征学习，度量学习等，并结合图像序列，行人全局，部位注意力等手段提高识别能力。表征学习又称特征学习，表示的是通过计算机将原始数据编码为机器更容易理解和计算的特征。度量学习指的是通过学习相似度信息，改变特征分布空间的方法，使同一个行人的特征距离被拉近，不同行人的特征距离被拉远。两种方法往往放在一起使用。

行人重识别课题现今仍面临以下问题：

(1)行人存在不同程度的遮挡。遮挡可以分为两类：外部遮挡和内部遮挡。外部遮挡表示人体受到与之无关物体的遮挡，如车辆，消防栓等；内部遮挡指由于探头的角度，人体姿态等因素，某些特征受到自身遮挡，如从人体正面观察，无法看到人体背面衣服的logo，背包信息；

(2)评判行人重识别模型的指标与实际应用方式有所差距。行人重识别算法主要通过mAP和CMC曲线对算法的能力进行评判，但这两个指标仅考虑搜索的排序，而不考虑算法在实际场景下的应用，这实际上会给产品带来一定的不稳定性。

因此，如何提供一种全局遮挡自适应的行人训练/识别方法、系统、设备及介质，以解决现有技术行人不同方向，不同姿态，摄像头不同角度导致的遮挡现象，并提出新的评价指标，解决识别模型现有的评价指标在工程应用中没有直观应用体现的现象等缺陷，实已成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种全局遮挡自适应的行人训练/识别方法、系统及存储介质，用于解决现有技术中行人不同方向，不同姿态，摄像头不同角度导致的遮挡现象，并提出新的评价指标，解决识别模型现有的评价指标在工程应用中没有直观应用体现的现象的问题。

为实现上述目的及其他相关目的，本发明一方面提供一种全局遮挡自适应的行人训练方法，包括：接收训练数据集；所述训练数据集包括N个行人，每个行人具有M张图片；其中，N大于1，M大于1；提取每一幅图片的属性特征图，以输出NxM属性特征图；将同一行人的所有属性特征图进行融合，形成该行人的融合特征，并获取若干行人的融合特征；从所述多张属性特征图中提取局部特征及从所述若干行人的融合特征提取全局特征；根据所述局部特征和所述全局特征，提取局部特征的注意力，以计算分别用于表征所述局部特征的局部特征注意力增强后的特征和用于表征所述全局特征的全局特征在屏蔽图片遮挡信息后的特征；所述局部特征的注意力用于描述图片的遮挡信息；对所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征进行损失计算。

于本发明的一实施例中，所述提取每一幅图片的属性特征图，以输出多张属性特征图的步骤包括：利用预存的卷积神经网络，将每一幅图片转换成属性特征图；每一幅图片的图片维度为(3，H，W)，H表示高度，W表示宽度；属性特征图的维度为(C，H，W)，C表示卷积通道数。

于本发明的一实施例中，所述将同一行人的所有属性特征图进行融合，形成该行人的融合特征，并获取若干行人的融合特征的步骤包括：对每一副属性特征图进行重塑，使之成为维度为(1，CxH，W)的属性特征图；将所有的属性特征图进行拼接，使之成为维度为(M，CxH，W)的特征图；在所述特征图的第一维做全局最大池化处理；将拼接后的特征图重塑成维度为(C，H，W)的属性特征图，使之保留每一个行人的M张图片中每一张图片的显著特征，并将其进行融合，形成每一个行人的融合特征。

于本发明的一实施例中，所述从所述多张属性特征图中提取局部特征及从所述若干行人的融合特征提取全局特征的步骤包括：将所述多张属性特征图转换成为NxM条特征矢量；其中，每一张图片对应的每一条特征矢量表示局部特征；将若干行人的融合特征转换成为N条特征矢量；其中，每一条特征矢量表示全局特征。

于本发明的一实施例中，所述根据所述局部特征和所述全局特征，提取局部特征的注意力，以计算分别用于表征所述局部特征的局部特征注意力增强后的特征和用于表征所述全局特征的全局特征在屏蔽图片遮挡信息后的特征的步骤包括：所述局部特征和所述全局特征经过一卷积网络结构，建立关联矩阵；所述关联矩阵用于表达局部特征或全局特征的每个像素与所有像素之间的关系；通过所述关联矩阵，重构所述关联矩阵中横向的第一关系向量和纵向的第二关系向量；将局部特征、第一关系向量及进行拼接，再经过另一卷积网络结构后，提取出局部特征的注意力；将局部特征与局部特征的注意力相乘，获取局部特征注意力增强后的特征；将全局特征与局部特征的注意力相乘，获取全局特征在屏蔽图片遮挡信息后的特征。

于本发明的一实施例中，对所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征进行损失计算的步骤包括：从表征学习的角度出发，将所述局部特征注意力增强后的特征和全局特征在屏蔽图片遮挡信息后的特征输入至卷积神经网络的全连接层，使其映射到等同于训练数据集的行人数量的长度的特征上，计算用于反映分类问题的损失；从度量学习的角度出发，计算用于反馈拉近同类距离，推开异类距离的损失；及计算用于统一所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征的特征。

本发明另一方面提供一种全局遮挡自适应的行人识别方法，包括：接收待检测数据集；所述待检测数据集包括2副图片；提取每一幅图片的属性特征图，以输出每副图片的属性特征图；从所述属性特征图中提取局部特征；根据所述局部特征，提取局部特征的注意力，以获取每副图片的归一化特征；所述归一化特征包括用于表征所述局部特征的局部特征注意力增强后的特征；所述局部特征的注意力用于描述图片的遮挡信息；根据每副图片的归一化特征及局部特征的注意力，计算两幅图片之间的相识度。

本发明再一方面提供一种全局遮挡自适应的行人训练系统，包括：数据接收模块，用于接收训练数据集；所述训练数据集包括N个行人，每个行人具有M张图片；其中，N大于1，M大于1；第一特征提取模块，用于提取每一幅图片的属性特征图，以输出NxM属性特征图；融合模块，用于将同一行人的所有属性特征图进行融合，形成该行人的融合特征，并获取若干行人的融合特征；第二特征提取模块，用于从所述多张属性特征图中提取局部特征及从所述若干行人的融合特征提取全局特征；注意力提取模块，用于根据所述局部特征和所述全局特征，提取局部特征的注意力，以计算分别用于表征所述局部特征的局部特征注意力增强后的特征和用于表征所述全局特征的全局特征在屏蔽图片遮挡信息后的特征；所述局部特征的注意力用于描述图片的遮挡信息；损失计算模块，用于对所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征进行损失计算。

本发明又一方面提供一种全局遮挡自适应的行人识别系统，包括：数据接收单元，用于接收待检测数据集；所述待检测数据集包括2副图片；第一特征提取单元，用于提取每一幅图片的属性特征图，以输出每副图片的属性特征图；第二特征提取单元，用于从所述属性特征图中提取局部特征；注意力提取单元，用于根据所述局部特征，提取局部特征的注意力，以获取每副图片的归一化特征；所述归一化特征包括用于表征所述局部特征的局部特征注意力增强后的特征；所述局部特征的注意力用于描述图片的遮挡信息；相似度计算单元，用于根据每副图片的归一化特征及局部特征的注意力，计算两幅图片之间的相识度。

本发明还有一方面提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述全局遮挡自适应的行人训练方法或所述全局遮挡自适应的行人识别方法。

本发明最后一方面提供一种设备，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行所述所述全局遮挡自适应的行人训练方法或所述全局遮挡自适应的行人识别方法。

如上所述，本发明所述的全局遮挡自适应的行人训练/识别方法、系统、设备及介质，具有以下有益效果：

第一，本发明采用全局遮挡自适应检测的模型，在使用过程中不需要额外通过其他人体表观信息，如关键点等来表示行人的遮挡，简单易用，而且其可以表达人体不同朝向所带来的遮挡，如行人的正面图片无法看到该行人的背面信息，背面信息的遮挡是可以通过该模型表达出来的，对比起关键点的遮挡，具有更广泛且更实用的场景；

第二，本发明提出的模型评价指标对工程上对算法的整合和应用具有指导意义，即通过该指标可以极大地提高工程调参的效率，降低人工成本，可应用于各种各样的情景，如视频监控，刑事侦查，身份验证，客流分析等等，具有重要的应用价值。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

附图说明

图1显示为本发明的全局遮挡自适应的行人训练方法于一实施例中的流程示意图。

图2显示为本发明的全局遮挡自适应的行人训练方法中S15的流程图。

图3显示为本发明的全局遮挡自适应的行人识别方法于一实施例中的流程示意图。

图4显示为本发明的样本相似度直方图示例图。

图5显示为本发明的全局遮挡自适应的行人训练系统于一实施例中的原理结构示意图。

图6显示为本发明的全局遮挡自适应的行人识别系统于一实施例中的原理结构示意图。

元件标号说明

5 全局遮挡自适应的行人训练系统

51 数据接收模块

52 第一特征提取模块

53 融合模块

54 第二特征提取模块

55 注意力提取模块

56 损失计算模块

6 全局遮挡自适应的行人识别系统

61 数据接收单元

62 第一特征提取单元

63 第二特征提取单元

64 注意力提取单元

65 相似度计算单元

66 评价模块

S11～S16 步骤

S31～S36 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一

本实施例提供一种全局遮挡自适应的行人训练方法，包括：

接收训练数据集；所述训练数据集包括N个行人，每个行人具有M张图片；其中，N大于1，M大于1；

提取每一幅图片的属性特征图，以输出NxM属性特征图；

将同一行人的所有属性特征图进行融合，形成该行人的融合特征，并获取若干行人的融合特征；

从所述多张属性特征图中提取局部特征及从所述若干行人的融合特征提取全局特征；

根据所述局部特征和所述全局特征，提取局部特征的注意力，以计算分别用于表征所述局部特征的局部特征注意力增强后的特征和用于表征所述全局特征的全局特征在屏蔽图片遮挡信息后的特征；所述局部特征的注意力用于描述图片的遮挡信息；

对所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征进行损失计算。

以下将结合图示对本实施例所提供的全局遮挡自适应的行人训练方法进行详细描述。请参阅图1，显示为全局遮挡自适应的行人训练方法于一实施例中的流程示意图。如图1所示，所述全局遮挡自适应的行人训练方法具体包括以下步骤：

S11，接收训练数据集；所述训练数据集包括N个行人，每个行人具有M张图片；其中，N大于1，M大于1。

S12，提取每一幅图片的属性特征图，以输出NxM属性特征图。

具体地，S12包括利用预存的卷积神经网络，将每一幅图片转换成属性特征图；每一幅图片的图片维度为(3，H，W)，H表示高度，W表示宽度；属性特征图的维度为(C，H，W)，C表示卷积通道数。

S12使用的卷积神经网络也称为主干网络，可以使用现有的各种网络结构，如ResNet，VGG等。例如，在此使用了VGG16作为特征提取主干。

表1：VGG16

注:Conv-卷积核大小-输出通道数表示卷积层，MaxPooling表示最大值池化层，步长均为2。

假设输入中包含N个行人，每个行人有M张图片，则共有NxM张行人图片，设输入图片维度为(3,h,w)(h代表高度，w代表宽度)，则输出的特征图总维度为(NxM,512,h/16,w/16)。

S13，将同一行人的所有属性特征图进行融合，形成该行人的融合特征，并获取若干行人的融合特征。

所述S13使用全局上下文网络，采用注意力机制，将属于同一个行人的所有图片特征融合，形成一个全局特征，使其能够表达出比单张图更加丰富和全面的行人特征信息。最终总共输出N个融合特征。

具体地，所述S13包括以下步骤：

对每一副属性特征图进行重塑，使之成为维度为(1，CxH，W)的属性特征图；

将所有的属性特征图进行拼接，使之成为维度为(M，CxH，W)的特征图；

在所述特征图的第一维做全局最大池化处理；

将拼接后的特征图重塑成维度为(C，H，W)的属性特征图，使之保留每一个行人的M张图片中每一张图片的显著特征，并将其进行融合，形成每一个行人的融合特征。

S14，从所述多张属性特征图中提取局部特征及从所述若干行人的融合特征提取全局特征。

具体地，所述14包括以下步骤：

将所述多张属性特征图转换成为NxM条特征矢量；其中，每一张图片对应的每一条特征矢量表示局部特征；

将若干行人的融合特征转换成为N条特征矢量；其中，每一条特征矢量表示全局特征。

在本实施例中年，例如如下网络结构将特征图转换为特征矢量，缩小变量的大小，易于后续计算。其网络结构如表2所示：

Conv-3-1024
	BatchNorm
ReLU
	Conv-3-1024
BatchNorm
	ReLU
Conv-3-1024
	BatchNorm
ReLU
	Global Average Pooling

其中，BatchNorm代表批归一化层，ReLU表示线性整流函数(激活层)，GlobalAverage Pooling表示全局平均池化层，作用是将特征图在空间上的维度压缩至1。

已知S12和S13输出的特征图维度相同，均设为(C,H,W)，S14的作用就是将每张特征图转化为长度为1024的特征矢量，这样做不仅可以降低后续的计算量，还能够促进网络提取行人的语义信息(如行人属性等较为抽象的信息)。

一个行人的一张图片受到行人姿态，镜头视角，和环境遮挡的影响，难以表达其全部表观特征，而该行人的多张图片可以通过展现行人不同角度，姿态，遮挡下的模样而表现出行人更为全面的特征信息，因此，全局特征包含了局部特征，其较局部特征多出的信息，就等同于局部特征对应图片所缺少的信息。

S15，根据所述局部特征和所述全局特征，提取局部特征的注意力，以计算分别用于表征所述局部特征的局部特征注意力增强后的特征和用于表征所述全局特征的全局特征在屏蔽图片遮挡信息后的特征；所述局部特征的注意力用于描述图片的遮挡信息。于本实施例中，局部特征的注意力称为掩膜(Mask)。步骤S15从一个全局局部关系的角度出发，提出一个自适应解决遮挡，视角等问题的端对端模型，不需要刻意对行人的姿态进行检测，或是对行人图片进行裁剪，即可推理出行人的可见区域特征，降低了人为操作偏差带来的模型误差。

具体地，请参阅图2，显示为S15的流程图。如图2所示，所述S15包括以下步骤：

所述局部特征和所述全局特征经过一卷积网络结构(卷积网络结构，例如，Conv-1-L+BatchNorm+ReLU激活函数)，建立关联矩阵(L,L)；所述关联矩阵用于表达局部特征或全局特征的每个像素与所有像素之间的关系。

通过所述关联矩阵，重构所述关联矩阵中横向的第一关系向量和纵向的第二关系向量。在本实施例中，由于关联矩阵是基于一维特征矢量(局部特征)得来，横向关系向量即为关联矩阵，纵向关系向量为横向关系向量的转置。

将局部特征、第一关系向量及进行拼接，再经过另一卷积网络结构后(另一卷积网络结构，例如，Conv-1-L+ReLU+Sigmoid激活函数)，提取出局部特征的注意力，即局部特征的注意力掩膜Mask。

将局部特征与局部特征的注意力Mask相乘，获取局部特征注意力增强后的特征F1；

将全局特征与局部特征的注意力Mask相乘，获取全局特征在屏蔽图片遮挡信息后的特征F2。

S16，对所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征进行损失计算。

在本实施例中，神经网络通过计算损失和梯度反向传播来训练。因此，损失的计算非常重要。从三个点出发，我们分别计算对应损失用于帮助模型收敛：

从表征学习的角度出发，将所述局部特征注意力增强后的特征和全局特征在屏蔽图片遮挡信息后的特征输入至卷积神经网络的全连接层，使其映射到等同于训练数据集的行人数量的长度的特征上，计算用于反映分类问题的损失。

在本实施例中，通过计算交叉熵来反映分类问题的损失，交叉熵的计算公式如下：

其中，y表示真实类别，

表示预测类别概率，通过softmax函数计算出：

其中，x为网络输出的特征，下标表示特征的第几个值。

从度量学习的角度出发，计算用于反馈拉近同类距离，推开异类距离的损失；

在本实施例中，使用Triplet Loss损失函数反馈拉近同类距离，推开异类距离的损失，计算公式如下：

该损失函数的主要目的就是拉近同类之间的距离，推开不同类之间的距离。该函数会分别遍历特征F1和F2，其中，x^a表示遍历到的特征，其作为锚点，去搜索与其距离最大的同行人图片的特征x^p，和距离最小的不同行人图片的特征xⁿ，α是边界值，能够进一步拉开距离的分布。

在Triplet的基础上，本实施例提出Local Triplet Loss，其与Triplet Loss的唯一区别就在于特征距离的计算上：

如上公式，在计算特征距离之前，将两个特征对应的掩膜和另外一个特征交叉相乘。这样做的原因就是两张行人图像可能会有不同的遮挡区域，这样能够单纯地提取出两者的共同可见区域进行特征距离的评估，其结果会更具有解释性。

及计算用于统一所述局部特征注意力增强后的特征F1和所述全局特征在屏蔽图片遮挡信息后的特征的特征F2。

在本实施例中，用于统一F1和F2的特征的损失函数的计算公式如下：

本实施例还提供一种全局遮挡自适应的行人识别方法，请参阅图3，显示为全局遮挡自适应的行人识别方法的流程示意图。如图3所示，所述全局遮挡自适应的行人识别方法具体包括以下步骤：

S31，接收待检测数据集；所述待检测数据集包括2副图片，即输入1和输入2。

S32，提取每一幅图片的属性特征图，以输出每副图片的属性特征图。

具体地，利用预存的卷积神经网络，将每一幅图片转换成属性特征图；每一幅图片的图片维度为(3，H，W)，H表示高度，W表示宽度；属性特征图的维度为(C，H，W)，C表示卷积通道数。

S33，从所述属性特征图中提取局部特征。

具体地，所述33包括以下步骤：

将所述属性特征图转换成为特征矢量；其中，每一条特征矢量表示局部特征。

S34，根据所述局部特征，提取局部特征的注意力MASK1或MASK2，以获取每副图片的归一化特征X1或X2；所述归一化特征包括用于表征所述局部特征的局部特征注意力增强后的特征F1；

S35，根据每副图片的归一化特征及局部特征的注意力，计算两幅图片之间的相识度。

两幅图片相识度的计算公式如下：

S36，评价两幅图片相识度。

在本实施例中，行人重识别任务评判的指标一般为mAP和CMC曲线，这些指标的主要体现的就是行人图片搜索排序结果中同类的排位，因此在测试时，会将测试集所有图片分为query和gallery，用query去搜索gallery，根据gallery中和query属于同一行人的图片和query图片之间的相似度排列的位数，来计算最终的指标。

这些常用的指标可以表现出同类和不同类之间的区分程度，但往往不能表现出两种情况下相似度的分布，这会给模型在实际应用的时候带来一定困难：实际应用时往往需要一个预先定义好的阈值来判断两张图片是否属于同一个人，否则这种判断实际上还是需要人的参与，而这两个常用的指标并不能指导最佳的阈值选择。从这个角度出发，我们提出一个新的指标：难样本相似度直方图。

样本相似度直方图的计算方法如下：

1)对每个query，统计gallery中与其相似度最高的10个负样本的相似度，和相似度最低的10个正样本的相似度(相似度值范围为0-1)；

2)以0.05为步长，分别统计不同相似度下的负样本频数和正样本频数，并分别归一化；

3)以横轴表示相似度值，纵轴表示归一化后的频数，作图(以图4为示例，蓝色线表示难负样本相似度分布，绿色线表示难正样本相似度分布)。

样本直方图能够更好的表现出同类相似度的分布和不同类相似度的分布，使得模型在工程应用过程中更容易判断和设定匹配阈值。

本实施例所述全局遮挡自适应的行人训练方法或上述全局遮挡自适应的行人识别方法具有以下有益效果：

第一，本实施例采用全局遮挡自适应检测的模型，在使用过程中不需要额外通过其他人体表观信息，如关键点等来表示行人的遮挡，简单易用，而且其可以表达人体不同朝向所带来的遮挡，如行人的正面图片无法看到该行人的背面信息，背面信息的遮挡是可以通过该模型表达出来的，对比起关键点的遮挡，具有更广泛且更实用的场景；

第二，本实施例提出的模型评价指标对工程上对算法的整合和应用具有指导意义，即通过该指标可以极大地提高工程调参的效率，降低人工成本，可应用于各种各样的情景，如视频监控，刑事侦查，身份验证，客流分析等等，具有重要的应用价值。

本实施例还提供一种存储介质(亦称为计算机可读存储介质)，其上存储有计算机程序，该计算机程序被处理器执行时实现上述全局遮挡自适应的行人训练方法或上述全局遮挡自适应的行人识别方法。

本领域普通技术人员可以理解计算机可读存储介质为：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例二

本实施例提供一种全局遮挡自适应的行人训练系统，其特征在于，包括：

数据接收模块，用于接收训练数据集；所述训练数据集包括N个行人，每个行人具有M张图片；其中，N大于1，M大于1；

第一特征提取模块，用于提取每一幅图片的属性特征图，以输出NxM属性特征图；

融合模块，用于将同一行人的所有属性特征图进行融合，形成该行人的融合特征，并获取若干行人的融合特征；

第二特征提取模块，用于从所述多张属性特征图中提取局部特征及从所述若干行人的融合特征提取全局特征；

注意力提取模块，用于根据所述局部特征和所述全局特征，提取局部特征的注意力，以计算分别用于表征所述局部特征的局部特征注意力增强后的特征和用于表征所述全局特征的全局特征在屏蔽图片遮挡信息后的特征；所述局部特征的注意力用于描述图片的遮挡信息；

损失计算模块，用于对所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征进行损失计算。

以下将结合图示对本实施例所提供的全局遮挡自适应的行人训练系统进行详细描述。请参阅图5，显示为全局遮挡自适应的行人训练系统于一实施例中的原理结构示意图。如图5所示，所述全局遮挡自适应的行人训练系统5包括数据接收模块51、第一特征提取模块52、融合模块53、第二特征提取模块54、注意力提取模块55及损失计算模块56。

所述数据接收模块51用于接收训练数据集；所述训练数据集包括N个行人，每个行人具有M张图片；其中，N大于1，M大于1。

所述第一特征提取模块52用于提取每一幅图片的属性特征图，以输出NxM属性特征图。

具体地，所述第一特征提取模块52利用预存的卷积神经网络，将每一幅图片转换成属性特征图；每一幅图片的图片维度为(3，H，W)，H表示高度，W表示宽度；属性特征图的维度为(C，H，W)，C表示卷积通道数。

所述融合模块53用于将同一行人的所有属性特征图进行融合，形成该行人的融合特征，并获取若干行人的融合特征。

具体地，所述融合模块53使用全局上下文网络，采用注意力机制，将属于同一个行人的所有图片特征融合，形成一个全局特征，使其能够表达出比单张图更加丰富和全面的行人特征信息。最终总共输出N个融合特征。

具体地，所述融合模块53对每一副属性特征图进行重塑，使之成为维度为(1，CxH，W)的属性特征图；将所有的属性特征图进行拼接，使之成为维度为(M，CxH，W)的特征图；在所述特征图的第一维做全局最大池化处理；将拼接后的特征图重塑成维度为(C，H，W)的属性特征图，使之保留每一个行人的M张图片中每一张图片的显著特征，并将其进行融合，形成每一个行人的融合特征。

所述第二特征提取模块54用于从所述多张属性特征图中提取局部特征及从所述若干行人的融合特征提取全局特征。

具体地，所述所述第二特征提取模块54将所述多张属性特征图转换成为NxM条特征矢量；其中，每一张图片对应的每一条特征矢量表示局部特征；将若干行人的融合特征转换成为N条特征矢量；其中，每一条特征矢量表示全局特征。

所述注意力提取模块55用于根据所述局部特征和所述全局特征，提取局部特征的注意力，以计算分别用于表征所述局部特征的局部特征注意力增强后的特征和用于表征所述全局特征的全局特征在屏蔽图片遮挡信息后的特征；所述局部特征的注意力用于描述图片的遮挡信息。于本实施例中，局部特征的注意力称为掩膜(Mask)。

具体地，所述注意力提取模块55用于将所述局部特征和所述全局特征经过一卷积网络结构(卷积网络结构，例如，Conv-1-L+BatchNorm+ReLU激活函数)，建立关联矩阵(L,L)；所述关联矩阵用于表达局部特征或全局特征的每个像素与所有像素之间的关系。通过所述关联矩阵，重构所述关联矩阵中横向的第一关系向量和纵向的第二关系向量。在本实施例中，由于关联矩阵是基于一维特征矢量(局部特征)得来，横向关系向量即为关联矩阵，纵向关系向量为横向关系向量的转置。将局部特征、第一关系向量及进行拼接，再经过另一卷积网络结构后(另一卷积网络结构，例如，Conv-1-L+ReLU+Sigmoid激活函数)，提取出局部特征的注意力，即局部特征的注意力掩膜Mask。将局部特征与局部特征的注意力Mask相乘，获取局部特征注意力增强后的特征F1；将全局特征与局部特征的注意力Mask相乘，获取全局特征在屏蔽图片遮挡信息后的特征F2。

所述损失计算模块56用于对所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征进行损失计算。

所述损失计算模块56从表征学习的角度出发，将所述局部特征注意力增强后的特征和全局特征在屏蔽图片遮挡信息后的特征输入至卷积神经网络的全连接层，使其映射到等同于训练数据集的行人数量的长度的特征上，计算用于反映分类问题的损失；从度量学习的角度出发，计算用于反馈拉近同类距离，推开异类距离的损失；及计算用于统一所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征的特征。

以下为所述全局遮挡自适应的行人训练系统的一具体实施例：

步骤1：数据接收模块收集行人图像，或下载行人重识别的公开数据集；将数据集划分为训练集和测试集；该发明中使用Market1501公开数据集。

步骤2：第一特征提取模块载入VGG-16网络，初始权值为VGG-16在ImageNet上的预训练权重；对于第二特征提取模块和注意力提取模块中的卷积层，批归一化层和全连接层，权重采用均值为0，均方差为0.01的正态分布进行初始化，偏差采用0进行初始化。TripletLoss中的α参数值设定为0.3。

步骤3：输入数据，对网络进行训练。每一批数据包括16个行人，每个行人有4张图片。训练共进行100个epoch，初始学习率设定为0.002，在40和80个epoch的时候对学习率乘以一个衰减系数(设为0.1)。

步骤4：训练完成后，使用测试集评估模型。

本实施例还提供一种全局遮挡自适应的行人识别系统，请参阅图6，显示为全局遮挡自适应的行人识别系统于一实施例中的原理结构示意图。如图6所示，所述全局遮挡自适应的行人识别系统6包括：数据接收单元61、第一特征提取单元62、第二特征提取单元63、注意力提取单元64、相似度计算单元65及评价单元66。

所述数据接收单元61用于接收待检测数据集；所述待检测数据集包括2副图片。

所述第一特征提取单元62用于提取每一幅图片的属性特征图，以输出每副图片的属性特征图。

所述第二特征提取单元63用于从所述属性特征图中提取局部特征及。

所述注意力提取单元64用于根据所述局部特征，提取局部特征的注意力，以获取每副图片的归一化特征；所述归一化特征包括用于表征所述局部特征的局部特征注意力增强后的特征F1；所述局部特征的注意力用于描述图片的遮挡信息。

所述相似度计算单元65用于根据每副图片的归一化特征及局部特征的注意力，计算两幅图片之间的相识度。

所述评价单元66用于评价两幅图片相识度。

需要说明的是，应理解以上系统的各个模块和/或单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块和/或单元可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块和/或单元通过处理元件调用软件的形式实现，部分模块和/或单元通过硬件的形式实现。例如：x模块和/或单元可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现。此外，x模块和/或单元也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块和/或单元的功能。其它模块和/或单元的实现与之类似。这些模块和/或单元全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块和/或单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块和/或单元可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application SpecificIntegrated Circuit，简称ASIC)，一个或多个微处理器(Digital Singnal Processor，简称DSP)，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。当以上某个模块和/或单元通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。这些模块和/或单元可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

实施例三

本实施例提供一种设备，所述设备包括：处理器、存储器、收发器、通信接口或/和系统总线；存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于和其他设备进行通信，处理器和收发器用于运行计算机程序，使设备执行如上全局遮挡自适应的行人训练/识别方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明所述的全局遮挡自适应的行人训练/识别方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本发明还提供一种全局遮挡自适应的行人训练/识别系统，所述全局遮挡自适应的行人训练/识别系统可以实现本发明所述的全局遮挡自适应的行人训练/识别方法，但本发明所述的全局遮挡自适应的行人训练/识别方法的实现装置包括但不限于本实施例列举的全局遮挡自适应的行人训练/识别系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明全局遮挡自适应的行人训练/识别方法、系统、设备及介质具有以下有益效果：

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种全局遮挡自适应的行人训练方法，其特征在于，包括：

提取每一幅图片的属性特征图，以输出NxM属性特征图；

2.根据权利要求1所述的全局遮挡自适应的行人训练方法，其特征在于，所述提取每一幅图片的属性特征图，以输出多张属性特征图的步骤包括：

利用预存的卷积神经网络，将每一幅图片转换成属性特征图；每一幅图片的图片维度为(3，H，W)，H表示高度，W表示宽度；属性特征图的维度为(C，H，W)，C表示卷积通道数。

3.根据权利要求1所述的全局遮挡自适应的行人训练方法，其特征在于，所述将同一行人的所有属性特征图进行融合，形成该行人的融合特征，并获取若干行人的融合特征的步骤包括：

在所述特征图的第一维做全局最大池化处理；

4.根据权利要求1所述的全局遮挡自适应的行人训练方法，其特征在于，所述从所述多张属性特征图中提取局部特征及从所述若干行人的融合特征提取全局特征的步骤包括：

5.根据权利要求4所述的全局遮挡自适应的行人训练方法，其特征在于，所述根据所述局部特征和所述全局特征，提取局部特征的注意力，以计算分别用于表征所述局部特征的局部特征注意力增强后的特征和用于表征所述全局特征的全局特征在屏蔽图片遮挡信息后的特征的步骤包括：

所述局部特征和所述全局特征经过一卷积网络结构，建立关联矩阵；所述关联矩阵用于表达局部特征或全局特征的每个像素与所有像素之间的关系；

通过所述关联矩阵，重构所述关联矩阵中横向的第一关系向量和纵向的第二关系向量；

将局部特征、第一关系向量及进行拼接，再经过另一卷积网络结构后，提取出局部特征的注意力；

将局部特征与局部特征的注意力相乘，获取局部特征注意力增强后的特征；

将全局特征与局部特征的注意力相乘，获取全局特征在屏蔽图片遮挡信息后的特征。

6.根据权利要求5所述的全局遮挡自适应的行人训练方法，其特征在于，对所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征进行损失计算的步骤包括：

从表征学习的角度出发，将所述局部特征注意力增强后的特征和全局特征在屏蔽图片遮挡信息后的特征输入至卷积神经网络的全连接层，使其映射到等同于训练数据集的行人数量的长度的特征上，计算用于反映分类问题的损失；

从度量学习的角度出发，计算用于反馈拉近同类距离，推开异类距离的损失；及

计算用于统一所述局部特征注意力增强后的特征和所述全局特征在屏蔽图片遮挡信息后的特征的特征。

7.一种全局遮挡自适应的行人识别方法，其特征在于，包括：

接收待检测数据集；所述待检测数据集包括2副图片；

提取每一幅图片的属性特征图，以输出每副图片的属性特征图；

从所述属性特征图中提取局部特征；

根据所述局部特征，提取局部特征的注意力，以获取每副图片的归一化特征；所述归一化特征包括用于表征所述局部特征的局部特征注意力增强后的特征；所述局部特征的注意力用于描述图片的遮挡信息；

根据每副图片的归一化特征及局部特征的注意力，计算两幅图片之间的相识度。

8.一种全局遮挡自适应的行人训练系统，其特征在于，包括：

9.一种全局遮挡自适应的行人识别系统，其特征在于，包括：

数据接收单元，用于接收待检测数据集；所述待检测数据集包括2副图片；

第一特征提取单元，用于提取每一幅图片的属性特征图，以输出每副图片的属性特征图；

第二特征提取单元，用于从所述属性特征图中提取局部特征；

注意力提取单元，用于根据所述局部特征，提取局部特征的注意力，以获取每副图片的归一化特征；所述归一化特征包括用于表征所述局部特征的局部特征注意力增强后的特征；所述局部特征的注意力用于描述图片的遮挡信息；

相似度计算单元，用于根据每副图片的归一化特征及局部特征的注意力，计算两幅图片之间的相识度。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6中任一项所述全局遮挡自适应的行人训练方法或权利要求7所述全局遮挡自适应的行人识别方法。

11.一种设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行如权利要求1至6中任一项所述所述全局遮挡自适应的行人训练方法或权利要求7所述全局遮挡自适应的行人识别方法。