CN113033321A

CN113033321A - 目标行人属性识别模型的训练方法及行人属性识别方法

Info

Publication number: CN113033321A
Application number: CN202110231838.1A
Authority: CN
Inventors: 陈俭永; 闫潇宁; 陈晓艳
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-06-25

Abstract

本发明涉及人工智能技术领域，提供目标行人属性识别模型的训练方法及行人属性识别方法，训练方法包括：构建初始行人属性识别模型，通过初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图，混合卷积包括多个卷积块，各卷积块中插入有批标准化层，通过批标准化层对图像特征进行标准化处理；向初始行人属性识别模型引入多尺度门控多头注意力机制，对特征图进行筛选，并输出标准目标特征图；通过全局平均池化层将各通道的标准目标特征图输入预测层进行映射，以得到目标行人属性识别模型。能够提升对小物体的检测能力精简网络结构，且模型尺寸大幅降低，识别用时缩短，节省了硬件资源成本和时间成本。

Description

目标行人属性识别模型的训练方法及行人属性识别方法

技术领域

本发明涉及人工智能技术领域，尤其涉及目标行人属性识别模型的训练方法及行人属性识别方法。

背景技术

目前，行人属性识别已被广泛运用于侦查、广告精准投放与商业零售市场研究分析等领域。行人属性识别即对视频图像里的行人目标进行检测与特征提取，自动判定行人各种类型的特征。精准的人体属性信息，有助于各类基于人体照片的分析工作的进行。常用的行人属性方法主要是人工智能领域的卷积神经网络(CNN)方法，然而，为了获得较高的识别准确率，现有的卷积神经网络结构过于复杂，导致实际部署时的检测时间成本较高。

发明内容

本发明实施例提供一种目标行人属性识别模型的训练方法，能够在保证识别精度的同时，降低卷积神经网络结构的复杂度，从而降低资源消耗和实际部署时对行人进行属性识别的时间成本。

第一方面，本发明实施例提供一种目标行人属性识别模型的训练方法，包括以下步骤：

构建初始行人属性识别模型，通过所述初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图，所述混合卷积包括多个卷积块，各所述卷积块中插入有批标准化层，通过所述批标准化层对提取出的所述图像特征进行标准化处理；

向所述初始行人属性识别模型引入多尺度门控多头注意力机制，对所述特征图进行筛选，并输出标准目标特征图，其中，所述初始行人属性识别模型包括所述全局平均池化层与所述预测层；

通过所述全局平均池化层将各通道的所述标准目标特征图输入至所述预测层进行映射，以训练得到目标行人属性识别模型。

可选的，所述多个卷积块包括第一卷积块、第二卷积块、第三卷积块、第四卷积块以及第五卷积块，所述第一卷积块与所述第二卷积块的包括的卷积层相同，所述第三卷积块、所述第四卷积块以及所述第五卷积块的组成的卷积层相同。

可选的，所述第一卷积块与所述第二卷积块均包括第一深度可分离卷积层与第一最大池化层，所述第三卷积块、所述第四卷积块以及所述第五卷积块均包括第二深度可分离卷积层、逐点卷积层与第二最大池化层，所述每个第一深度可分离卷积层与所述第二深度可分离卷积层之后插入有所述批标准化层，

所述步骤通过所述初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图包括：

将所述行人属性识别数据集中的行人属性识别图像依次输入到所述第一卷积块与所述第二卷积块的所述第一深度可分离卷积层中进行初步特征提取，通过所述深度可分离卷积层中的每个卷积核对每个通道进行卷积；

将经过初步特征提取并标准化处理后得到的行人属性数据依次输入到所述第三卷积块、所述第四卷积块以及所述第五卷积块的所述第二深度可分离卷积层、所述逐点卷积层与所述第二最大池化层进行卷积计算，并通过每层所述第二深度可分离卷积层后的所述批标准化层对卷积后得到的所述图像特征进行标准化处理，以输出增加通道数后的所述特征图。

可选的，所述步骤向所述初始行人属性识别模型引入多尺度门控多头注意力机制，对所述特征图进行筛选，并输出标准目标特征图包括:

向所述初始行人属性识别模型引入所述多尺度门控多头注意力机制，所述多尺度门控多头注意力机制包括多个尺度方向、门控注意力通道以及注意力计算层，所述门控注意力通道与所述注意力计算层的数量对应；

通过所述注意力计算层在多个所述尺度方向及对应的所述门控注意力通道上对所述特征图进行通道键值注意力计算；

根据所述通道键值注意力对所述特征图进行筛选，输出所述标准目标特征图。

可选的，所述注意力计算层包括第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层，

所述步骤通过所述注意力计算层在多个所述尺度方向及对应的所述门控注意力通道上对经过所述逐点卷积层进行维度变换后的所述特征图进行通道键值注意力计算包括：

在所述多个尺度方向上，将经过逐点卷积层进行维度变换后的所述特征图依次输入到第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层进行所述通道键值注意力的计算，其中，所述相似性计算层采取缩放点积的计算方式。

第二方面，本发明实施例提供一种行人属性识别方法，包括：

获取待识别图像以及参考图像；

将所述待识别图像与所述参考图像输入到任一项实施例中所述的目标行人属性识别模型中进行行人属性识别比对；

根据识别比对结果判断所述待识别图像是否为所述参考图像，并输出判断结果。

第三方面，本发明实施例还提供一种目标行人属性识别模型的训练装置，包括：

提取模块，用于构建初始行人属性识别模型，通过所述初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图，所述混合卷积包括多个卷积块，各所述卷积块中插入有批标准化层，通过所述批标准化层对提取出的所述图像特征进行标准化处理；

整合模块，用于向所述初始行人属性识别模型引入多尺度门控多头注意力机制，对所述特征图进行筛选，并输出标准目标特征图，其中，所述初始行人属性识别模型包括所述全局平均池化层与所述预测层；

映射模块，用于通过所述全局平均池化层将各通道的所述标准目标特征图输入至所述预测层进行映射，以训练得到目标行人属性识别模型，所述初始行人属性识别模型包括所述全局平均池化层与所述预测层。

第四方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述实施例提供的目标行人属性识别模型的训练方法中的步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述实施例提供的目标行人属性识别模型的训练方法中的步骤。

在本发明实施例中，通过构建初始行人属性识别模型，通过所述初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图，所述混合卷积包括多个卷积块，各所述卷积块中插入有批标准化层，通过所述批标准化层对提取出的所述图像特征进行标准化处理；向所述初始行人属性识别模型引入多尺度门控多头注意力机制，对所述特征图进行筛选，并输出标准目标特征图，其中，所述初始行人属性识别模型包括所述全局平均池化层与所述预测层；通过所述全局平均池化层将各通道的所述标准目标特征图输入至所述预测层进行映射，以训练得到目标行人属性识别模型。本申请由于通过额外向所述标准卷积中引入多尺度门控多头注意力机制，将多尺度的特征图整合输出，能够提升浅层特征对预测结果的影响，且不引入额外的卷积和池化计算，避免深层的特征图中小目标的信息丢失，提升对小物体的检测能力；同时，对各个卷积块加入批标准化层，同时使用全局平均池化代替全连接层，在识别准确率没有降低的同时，精简网络结构，模型尺寸大幅降低，识别用时缩短，极大节省了硬件资源成本和时间成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种目标行人属性识别模型的训练方法的流程图；

图2是本发明实施例提供的另一种目标行人属性识别模型的训练方法的流程图；

图2a是本发明实施例提供的目标行人属性识别模型的结构示意图；

图2b是本发明实施例提供的多尺度门控多头注意力机制的示意图；

图2c为本发明实施例提供的注意力计算层的流程图；

图3是本发明实施例提供的一种行人属性识别方法的流程图；

图4是本发明实施例提供的一种目标行人属性识别模型的训练装置的结构示意图；

图5是本发明实施例提供的另一种目标行人属性识别模型的训练装置的结构示意图；

图6是本发明实施例提供的另一种目标行人属性识别模型的训练装置的结构示意图；

图7是本发明实施例提供的一种行人属性识别装置的结构示意图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，图1是本发明实施例提供的一种目标行人属性识别模型的训练方法的流程图，该目标行人属性识别模型的训练方法包括以下步骤：

101、构建初始行人属性识别模型，通过初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图，混合卷积包括多个卷积块，各卷积块中插入有批标准化层，通过批标准化层对提取出的图像特征进行标准化处理。

在本实施例中，提供的一种目标行人属性识别模型的训练方法可以运用在案件侦查、人员检测、行人追踪、广告精准投放与商业零售市场研究分析等等需要进行图像分类识别场景中。上述目标行人属性识别模型的训练方法运行于其上的电子设备可以通过有线连接方式或者无线连接方式进行网络连接，以对获取到的行人属性识别数据集进行输出以及实现特征提取过程中的通信连接。上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMAX(Worldwide Interoperability forMicrowave Access)连接、Zigbee(低功耗局域网协议，又称紫峰协议)连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中，初始行人属性识别模型经过训练之后，可以用于对采集到的行人所包含的多种类型的属性进行识别判断，例如：自动识别判定行人的性别、年龄等主要特征属性，是否留胡须、戴口罩、戴眼镜等头部特征属性；识别上衣、下衣、帽子等服饰特征属性以及是否有携带物等其他特征属性。精准的识别行人的属性，有助于各类基于行人照片的分析工作的进行。

其中，行人属性识别数据集中可以包括有大量的行人属性识别图像，每张图像可以不同，在图像上包括有行人不同类型的属性。上述行人属性识别图像也即是用于对上述初始行人属性识别模型进行训练的图像。上述采集行人属性识别数据集的采集方式可以是通过摄像头进行视频录制，对视频数据进行视频帧图像进行提取，也可以是使用已经离线获取到的人脸数据，还可以是实时采集。采集到的人脸属性数据集中可以包括多种属性类型的行人图像用于对初始行人属性识别模型进行训练。

上述的混合卷积中包括多个卷积块，在卷积块中可以包括深度可分离卷积(depthwise separable convolution))以及标准卷积。其中，标准卷积可以包括有逐点卷积、最大池化层。上述深度可分离卷积由depthwise(DW)和pointwise(PW)两个部分结合起来，两部分的参数之和为深度可分离卷积的参数，其用于特征提取。当需要进行多个特征属性的提取时，使用深度可分离卷积可以节省更多的参数。深度可分离卷积是使用n个卷积对n个通道分别卷积，以输出n个数，然后再通过1×1×n的卷积核(pointwise核)，输出一个数。若需要提取的属性特征越多，可以设计更多的卷积核进行实现。通过上述的深度可分离卷积以及标准卷积进行卷积计算之后可以对预先采集到的行人属性识别数据集中的行人属性识别数据进图像特征提取。

此外，在进行图像特征提取的过程中，在每一个卷积块中都插入有批标准化层，可以对图像特征进行标准化处理。具体的，批标准化层(Batch Normalization，BN)是CNN中的一种优化策略。批标准化层可以把混合卷积中的每层计算得到的数据(图像特征)转换为均值为零，方差为一的统一分布，能够加快网络的训练速度和收敛速度，避免梯度消失和梯度爆炸现象发生。同时，BN层将每一个批次中所有样本关联在一起，训练集中某个样本的输出取决于该样本及这个样本同一批次的其他样本，网络的学习方向是随机的，这在一定程度上避免了过拟合。

102、向初始行人属性识别模型引入多尺度门控多头注意力机制，对特征图进行筛选，并输出标准目标特征图，其中，初始行人属性识别模型包括全局平均池化层与预测层。

其中，上述多尺度门控多头注意力机制常用于图像处理、语音识别及自然语言处理等各种不同类型的任务中。多尺度门控多头注意力机制是在门控多头注意力机制的基础上增加了多个尺度。多尺度门控多头注意力机制在卷积神经网络的特征图的尺寸发生变换后(如最大池化层后，特征图尺寸减半)，在该尺寸变化层引出分支通道(尺度)。在每个独立的分支通道中，可以通过1×1的逐点卷积层将特征图提升(或降低)至注意力机制计算统一大小，然后进行门控多头注意力机制计算。最后，将各个分支通道输出的特征图进行求和加权融合，得到最终的全局特征图(标准目标特征图)。

更具体的，门控多头注意力机制的数量N与分支数相同。网络浅层的特征图的分辨率高，提取到的更多是细节特征。网络深层的特征图的分辨率低，提取到的更多是组合特征。将多个分支通道注意力运算的结果整合，能够提升网络浅层(低级特征)对预测结果的影响。当缺陷检测模型使用粗略标签训练时，一方面，在各个分支通道使用门控多头注意力机制来减少无关区域的干扰，填充缺失位置信息的空白。另一方面，提升了模型对不同尺寸目标的关注度。在多尺度门控多头注意力机制没有引入额外的卷积和池化计算的同时(1×1的逐点卷积计算量很低)，避免了整个网络中小目标特征信息丢失，提升了网络对小物体(低级特征)的检测能力。

103、通过全局平均池化层将各通道的标准目标特征图输入至预测层进行映射，以训练得到目标行人属性识别模型。

其中，初始行人属性识别模型包括全局平均池化层与预测层。常规使用全连接层进行输出，全连接层包括有多个结点，每一个结点都与上一层卷积块的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的，例如：在VGG16中，第一个全连接层FC1有4096个结点，上一层POOL2是7×7×512＝25088个结点，则该传输需要4096×25088个权值，需要耗很大的内存。

而本实施例提供的全局平均池化层(Golbal Average Pooling)可以是对输出的每一个通道的标准目标特征图的所有像素计算一个平均值，经过全局平均池化之后就得到一个维度等于类别数的特征向量，然后直接输入到预测层(softmax层)，例如：假设分成10类别，则最后全局平均池化输出时包括10个滤波器，然后按照上述全局池化平均定义，分别对每个通道的标准目标特征图累加所有像素值并求平均，最后得到10个数值，将这10个数值输入到softmax层中进行预测得到10个概率值，即对应的这张训练图像属于每个类别的概率值。因此，通过将全连接层替换为全局平均池化层，进而可以降低参数数量及计算量，减少过拟合问题的发生。

具体的，上述的softmax中包括一个softmax函数，相当于将输入通过softmax函数映射成一个概率值，例如：输入是3,1,-3，通过softmax函数作用，映射成在(0,1)范围的值，而这些值的累和为1(满足概率的性质)，在最后选取输出结点时，便可以选取概率最大(也就是值对应最大)结点作为我们的预测结果进行输出。上述通过将行人属性识别数据集对初始行人属性识别模型的全过程进行重复不断的多次训练之后，得到的目标行人属性识别模型不但不影响识别的准确率，且最终可以具备最优的行人属性识别能力，同时识别过程中参数少，计算量小，计算速度上得到提升。经过实测发现，目标行人属性识别模型尺寸大幅降低90％，识别用时缩短30％，极大节省了硬件资源成本和时间成本。

在本发明实施例中，通过构建初始行人属性识别模型，通过初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图，混合卷积包括多个卷积块，各卷积块中插入有批标准化层，通过批标准化层对提取出的图像特征进行标准化处理；向初始行人属性识别模型引入多尺度门控多头注意力机制，对特征图进行筛选，并输出标准目标特征图，其中，初始行人属性识别模型包括全局平均池化层与预测层；通过全局平均池化层将各通道的标准目标特征图输入至预测层进行映射，以训练得到目标行人属性识别模型。本申请由于通过额外向标准卷积中引入多尺度门控多头注意力机制，将多尺度的特征图整合输出，能够提升浅层特征对预测结果的影响，且不引入额外的卷积和池化计算，避免深层的特征图中小目标的信息丢失，提升对小物体的检测能力；同时，对各个卷积块加入批标准化层，同时使用全局平均池化代替全连接层，在识别准确率没有降低的同时，精简网络结构，模型尺寸大幅降低，识别用时缩短，极大节省了硬件资源成本和时间成本。

如图2所示，图2是本发明实施例提供的另一种目标行人属性识别模型的训练方法的流程图，具体包括以下步骤：

201、将行人属性识别数据集中的行人属性识别图像依次输入到第一卷积块与第二卷积块的第一深度可分离卷积层中进行初步特征提取，通过深度可分离卷积层中的每个卷积核对每个通道进行卷积。

其中，多个卷积块包括第一卷积块、第二卷积块、第三卷积块、第四卷积块以及第五卷积块，第一卷积块与第二卷积块的包括的卷积层相同，第三卷积块、第四卷积块以及第五卷积块的组成的卷积层相同。

其中，第一卷积块与第二卷积块均包括第一深度可分离卷积层与第一最大池化层，第三卷积块、第四卷积块以及第五卷积块均包括第二深度可分离卷积层、逐点卷积层与第二最大池化层，每个第一深度可分离卷积层与第二深度可分离卷积层之后插入有批标准化层。

具体的，参考图2a所示，初始行人属性识别模型的网络结构由五个卷积块和三个尺度方向的多尺度门控多头注意力机制组成。其中，1表示第一卷积块，2表示第二卷积块，3表示第三卷积块，4表示第四卷积块，5表示第五卷积块6表示多尺度门控多头注意力机制，7表示全局平均池化层，8表示预测层。第一卷积块与第二卷积块构成相同，均包含两个3×3的第一深度可分离卷积层和一个2×2的第一最大池化层。第三卷积块、第四卷积块以及第五卷积块构成相同：包括两个3×3的第二深度可分离卷积层，一个1×1的逐点卷积层和一个2×2的第二最大池化层。每个第一深度可分离卷积层与第二深度可分离卷积层后接着一个批标准化层，每个批标准化层结构相同。

因此，可以依次将行人属性识别数据集中的行人属性识别图像输入到第一卷积块与第二卷积块的第一深度可分离卷积层中进行初步特征提取，通过深度可分离卷积层中的每个卷积核对每个通道进行卷积。

202、将经过初步特征提取并标准化处理后得到的行人属性数据依次输入到第三卷积块、第四卷积块以及第五卷积块的第二深度可分离卷积层、逐点卷积层与第二最大池化层进行卷积计算，并通过每层第二深度可分离卷积层后的批标准化层对卷积后得到的图像特征进行标准化处理，以输出增加通道数后的特征图。

其中，将经过初步特征提取并标准化处理后得到的图像特征通过批标准化处理后，继续依次输入到第三卷积块、第四卷积块以及第五卷积块的第二深度可分离卷积层、逐点卷积层与第二最大池化层进行卷积计算，可以将三通道的行人属性识别图像的通道数由3增加到64，再逐渐增加至512。且上述最大池化层的步长为2，每经过一次最大池化，图像尺寸减半，图像的尺度逐渐降低，图像信息不断被压缩，最终输出通道数增加至512的特征图。且通过逐点卷积层可以进行维度变换。

其中，上述的逐点卷积层(Pointwise Convolution)通过执行1x1卷积，来进行单点上的特征提取。它的卷积核的尺寸为1×1×M，M为上一层的通道数。所以逐点卷积的运算会将上一步输出的特征图在深度方向上进行加权组合。经过逐点卷积之后，其特征图的数量不变。具体的，继续参考图2a所示，第三卷积块、第四卷积块以及第五卷积块的最后一层为第二最大池化层，经过后一个第二最大池化层进行特征的尺寸变换输出特征图后，可以将第三卷积块对应的第二最大池化层输出的特征图分别输入到对应的逐点卷积层进行维度变换。

203、向初始行人属性识别模型引入多尺度门控多头注意力机制，多尺度门控多头注意力机制包括多个尺度方向、门控注意力通道以及注意力计算层，门控注意力通道与注意力计算层的数量对应。

参考图2b所示，图2b为本发明实施例提供的多尺度门控多头注意力机制的示意图。其中，6表示多尺度门控多头注意力机制部分。在本发明实施例中，多尺度门控多头注意力机制包括三个尺度方向的注意力机制。图2b中，N为门控注意力通道的数量，A代表注意力计算层。在卷积神经网络中，随着网络的加深，使用最大池化层和步长为2的卷积层对输入的特征进行尺寸降维以降低运算。然而，过多的最大池化层会导致深层的特征图中小的特征信息丢失。为了解决这一问题，本发明实施例提供了在三个尺度方向上的多尺度门控多头注意力机制引入了额外的分支结构，整合了不同尺度方向上输出的特征图，能够聚合(Aggregation)输出网络在多个维度上的全局特征，以保证较小的特征信息不会丢失。

204、通过注意力计算层在多个尺度方向及对应的门控注意力通道上对经过逐点卷积层进行维度变换后的特征图进行通道键值注意力计算。

其中，经过逐点卷积处理后的特征图，可以从三个尺度方向分别输入到多尺度门控多头注意力机制的注意力计算层中进行特征提取。在注意力计算层中包括多个计算步骤，每个通道的特征图都会有都对应的通道键值注意力。具体的，参考图2c所示，图2c为本发明实施例提供的注意力计算层的流程图。注意力计算层依次包括：第一激活函数层(ReLU)、第一特征重组层(Reshape)、相似性计算层、预测函数层(Softmax)、求和层(Add)、第二激活函数层(ReLU)、第二特征重组层(Reshape)以及标准化层。在多个尺度方向上，可以将经过逐点卷积层进行维度变换并经过第二最大池化层处理后的特征图依次输入到第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层进行通道键值注意力计算后进行输出。其中，相似性计算层采取缩放点积的计算方式，计算的矩阵公式如下式子(1)所示：

其中，Q、K、V分别为query(查询)、key(键)、value(值)，K与V一一对应，Z是归一化因子，

是键向量维度的平方根，起调节作用。具体的，将输入的特征图经过第一次ReLU及Reshape后，输入到式子(1)，通过Q这个query，与各个k_id的内积来计算Q与各个V的相似度，然后在求和层进行加权求和，得到一个dv维(source的长度，特征图作为source)的向量(通道键值注意力)，并输入到softmax函数中进行数值转换。一方面可以进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布；另一方面也可以通过softmax的内在机制更加突出重要元素的权重，最后将多个通道提取到的特征经过一次重组后进行标准化输出。其中，因点积计算得到的内积越大，这样会导致经过softmax函数输出的结果非0即1)。因此添加归一化因子起到调节作用，使得内积不至于太大。

205、根据通道键值注意力对特征图进行筛选，输出标准目标特征图。

其中，根据通道键值注意力进行特征筛选以输出标准目标特征图。在上述的述注意力计算层中，浅层网络分辨率高，学习更多的是细节特征，深层网络分辨率低，学习更多的是语义特征。上述将多个通道的注意力特征提取的结果整合，能够提升浅层网络(浅层特征)对预测结果的影响。上述多尺度门控多头注意力机制不引入额外的卷积和池化计算，能够避免深层特征图中小目标的信息丢失，提升对小物体的检测能力。

206、通过全局平均池化层将各通道的标准目标特征图输入至预测层进行映射，以训练得到目标行人属性识别模型。

在本发明实施例中，由于引入多尺度门控多头注意力机制，将多尺度方向上的特征图整合输出，能够提升浅层特征对预测结果的影响，且不引入额外的卷积和池化计算，避免深层特征图中小目标的信息丢失，提升对小物体的检测能力。同时，在卷积块的多层第一深度可分离卷积与第二深度可分离卷积之后加入批标准化层，同时使用全局平均池化代替全连接层，得到的目标行人属性识别模型在识别准确率没有降低的同时，精简网络结构，使得模型尺寸大幅降低，识别用时缩短，极大节省了硬件资源成本和时间成本。

如图3所示，图3是本发明实施例提供的一种行人属性识别方法的流程图，具体包括以下步骤：

301、获取待识别图像以及参考图像。

其中，待识别图像可以包括通过摄像头实时采集到的行人图像，也可以包括预先存储的视行人视频图像或图片。在待识别图像中还可以包括其他障碍数据，如路边的指示牌、绿化道等等。上述参考图像可以是上层指定的目标行人图像。

302、将待识别图像与参考图像输入到上述任一实施例中的目标行人属性识别模型中进行行人属性识别比对。

其中，上述的目标行人属性识别模型可以是经过训练后得到的最优属性识别模型。可以将待识别图像与参考图像输入到上述任一实施例中的目标行人属性识别模型中进行行人属性识别比对，通过目标行人属性识别模型可以快速的锁定待识别图像中与参考图像之间的关系，例如：待识别图像中与参考图像之间的相似性。

303、根据识别比对结果判断待识别图像是否为参考图像，并输出判断结果。

其中，通过目标行人属性识别模型进行行人属性识别之后，输出识别比对结果，根据识别比对结果可以确定待识别图像中是否为上层需要锁定的参考图像，并输出判断结果，该判断结果中包括待识别图像中是/非上层需要锁定的参考图像。

在本发明实施例中，提供的一种行人属性识别方法用于了上述任一实施例中提供的目标行人属性识别模型的训练方法训练得到的目标行人属性识别模型。因此，通过该方法同样具备上述目标行人属性识别模型所能达到的技术效果，为避免重复，在此不再赘述。

如图4所示，图4是本发明实施例提供的一种目标行人属性识别模型的训练装置的结构示意图，上述一种目标行人属性识别模型的训练装置400包括：

提取模块401，用于构建初始行人属性识别模型，通过初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图，混合卷积包括多个卷积块，各卷积块中插入有批标准化层，通过批标准化层对提取出的图像特征进行标准化处理；

筛选模块402，用于向初始行人属性识别模型引入多尺度门控多头注意力机制，对特征图进行筛选，并输出标准目标特征图，其中，初始行人属性识别模型包括全局平均池化层与预测层；

映射模块403，用于通过全局平均池化层将各通道的标准目标特征图输入至预测层进行映射，以训练得到目标行人属性识别模型。

可选的，多个卷积块包括第一卷积块、第二卷积块、第三卷积块、第四卷积块以及第五卷积块，第一卷积块与第二卷积块的包括的卷积层相同，第三卷积块、第四卷积块以及第五卷积块的组成的卷积层相同。

可选的，第一卷积块与第二卷积块均包括第一深度可分离卷积层与第一最大池化层，第三卷积块、第四卷积块以及第五卷积块均包括第二深度可分离卷积层、逐点卷积层与第二最大池化层，每个第一深度可分离卷积层与第二深度可分离卷积层之后插入有批标准化层。如图5所示，图5是本发明实施例提供的另一种目标行人属性识别模型的训练装置的结构示意图，提取模块401包括：

第一提取单元4011，用于将行人属性识别数据集中的行人属性识别图像依次输入到第一卷积块与第二卷积块的第一深度可分离卷积层中进行初步特征提取，并通过插入到第一深度可分离卷积层后的批标准化层进行标准化处理；

第二提取单元4012，用于将经过初步特征提取并标准化处理后得到的行人属性数据依次输入到第三卷积块、第四卷积块以及第五卷积块的第二深度可分离卷积层、逐点卷积层与第二最大池化层进行卷积计算，并通过每层第二深度可分离卷积层后的批标准化层对卷积后得到的图像特征进行标准化处理，以输出增加通道数后的特征图。

可选的，如图6所示，图6是本发明实施例提供的另一种目标行人属性识别模型的训练装置的结构示意图，筛选模块402包括：

引入单元4021，用于向初始行人属性识别模型引入多尺度门控多头注意力机制，多尺度门控多头注意力机制包括多个尺度方向、门控注意力通道以及注意力计算层，门控注意力通道与注意力计算层的数量对应；

计算单元4022，用于通过注意力计算层在多个尺度方向及对应的门控注意力通道上对特征图进行通道键值注意力计算；

筛选单元4023，用于根据通道键值注意力对特征图进行筛选，输出标准目标特征图。

可选的，注意力计算层包括第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层。

筛选模块402还用于在多个尺度方向上，将特征图依次输入到第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层进行通道键值注意力的计算，其中，相似性计算层采取缩放点积的计算方式。

可选的，如图7所示，图7是本发明实施例提供的一种行人属性识别装置的结构示意图，一种行人属性识别装置700包括：

获取模块701，用于获取待识别图像以及参考图像；

识别模块702，用于将待识别图像与参考图像输入到上述任一实施例中的目标行人属性识别模型中进行行人属性识别比对；

判断模块703，用于根据识别比对结果判断待识别图像是否为参考图像，并输出判断结果。

如图8所示，图8是本发明实施例提供的一种电子设备的结构示意图，该电子设备800包括：处理器801、存储器802、网络接口803及存储在存储器802上并可在处理器801上运行的计算机程序，处理器801执行计算机程序时实现实施例提供的目标行人属性识别模型的训练方法中的步骤。

具体的，处理器801用于执行以下步骤：

在多个尺度方向上，将特征图依次输入到第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层进行通道键值注意力的计算，其中，相似性计算层采取缩放点积的计算方式。

可选的，第一卷积块与第二卷积块均包括第一深度可分离卷积层与第一最大池化层，第三卷积块、第四卷积块以及第五卷积块均包括第二深度可分离卷积层、逐点卷积层与第二最大池化层，每个第一深度可分离卷积层与第二深度可分离卷积层之后插入有批标准化层，处理器801执行的步骤通过初始行人属性识别模型中的混合卷积对采集到的行人属性识别数据集进行图像特征提取，得到特征图包括：

将行人属性识别数据集中的行人属性识别图像依次输入到第一卷积块与第二卷积块的第一深度可分离卷积层中进行初步特征提取，并通过插入到第一深度可分离卷积层后的批标准化层进行标准化处理；

将经过初步特征提取并标准化处理后得到的行人属性数据依次输入到第三卷积块、第四卷积块以及第五卷积块的第二深度可分离卷积层、逐点卷积层与第二最大池化层进行卷积计算，并通过每层第二深度可分离卷积层后的批标准化层对卷积后得到的图像特征进行标准化处理，以输出增加通道数后的特征图。

可选的，处理器801执行的步骤向初始行人属性识别模型引入多尺度门控多头注意力机制，对特征图进行筛选，并输出标准目标特征图包括:

向初始行人属性识别模型引入多尺度门控多头注意力机制，多尺度门控多头注意力机制包括多个尺度方向、门控注意力通道以及注意力计算层，门控注意力通道与注意力计算层的数量对应；

通过注意力计算层在多个尺度方向及对应的门控注意力通道上对特征图进行通道键值注意力计算；

根据通道键值注意力对特征图进行筛选，输出标准目标特征图。

可选的，注意力计算层包括第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层，处理器801执行的步骤通过注意力计算层在多个尺度方向及对应的门控注意力通道上对经过逐点卷积层进行维度变换后的特征图进行通道键值注意力计算包括：

本发明实施例提供的电子设备800能够实现上述目标行人属性识别模型的训练方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

可选的，处理器801还用于执行一种行人属性识别方法中包括的各个步骤，具体的，执行的步骤包括：

获取待识别图像以及参考图像；

将待识别图像与参考图像输入到上述任一实施例中的目标行人属性识别模型中进行行人属性识别比对；

根据识别比对结果判断待识别图像是否为参考图像，并输出判断结果。

本发明实施例提供的电子设备800能够实现上述一种行人属性识别方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

需要指出的是，图中仅示出了具有组件的801-803，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的电子设备800是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

上述的电子设备800包括但不限于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子设备可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器802至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器802可以是电子设备800的内部存储单元，例如该电子设备800的硬盘或内存。在另一些实施例中，存储器802也可以是电子设备800的外部存储设备，例如该电子设备800上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器802还可以既包括电子设备800的内部存储单元也包括其外部存储设备。本实施例中，存储器802通常用于存储安装于电子设备800的操作系统和各类应用软件，例如：目标行人属性识别模型的训练方法的程序代码等。此外，存储器802还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器801在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器801通常用于控制电子设备800的总体操作。本实施例中，处理器801用于运行存储器802中存储的程序代码或者处理数据，例如运行目标行人属性识别模型的训练方法的程序代码。

网络接口803可包括无线网络接口或有线网络接口，该网络接口803通常用于在电子设备与其他电子设备之间建立通信连接。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器801执行时实现实施例提供的目标行人属性识别模型的训练方法中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现实施例目标行人属性识别模型的训练方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(RandomAccess Memory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种目标行人属性识别模型的训练方法，其特征在于，包括以下步骤：

2.如权利要求1所述的目标行人属性识别模型的训练方法，其特征在于，所述多个卷积块包括第一卷积块、第二卷积块、第三卷积块、第四卷积块以及第五卷积块，所述第一卷积块与所述第二卷积块的包括的卷积层相同，所述第三卷积块、所述第四卷积块以及所述第五卷积块的组成的卷积层相同。

3.如权利要求2所述的目标行人属性识别模型的训练方法，其特征在于，所述第一卷积块与所述第二卷积块均包括第一深度可分离卷积层与第一最大池化层，所述第三卷积块、所述第四卷积块以及所述第五卷积块均包括第二深度可分离卷积层、逐点卷积层与第二最大池化层，所述每个第一深度可分离卷积层与所述第二深度可分离卷积层之后插入有所述批标准化层，

将所述行人属性识别数据集中的行人属性识别图像依次输入到所述第一卷积块与所述第二卷积块的所述第一深度可分离卷积层中进行初步特征提取，并通过插入到所述第一深度可分离卷积层后的所述批标准化层进行标准化处理；

4.如权利要求1所述的目标行人属性识别模型的训练方法，其特征在于，所述步骤向所述初始行人属性识别模型引入多尺度门控多头注意力机制，对所述特征图进行筛选，并输出标准目标特征图包括:

5.如权利要求4所述的目标行人属性识别模型的训练方法，其特征在于，所述注意力计算层包括第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层，

在所述多个尺度方向上，将所述特征图依次输入到第一激活函数层、第一特征重组层、相似性计算层、预测函数层、求和层、第二激活函数层、第二特征重组层以及标准化层进行所述通道键值注意力的计算，其中，所述相似性计算层采取缩放点积的计算方式。

6.一种行人属性识别方法，其特征在于，所述方法包括步骤：

获取待识别图像以及参考图像；

将所述待识别图像与所述参考图像输入到如权利要求1-5任一项所述的目标行人属性识别模型中进行行人属性识别比对；

7.一种目标行人属性识别模型的训练装置，其特征在于，包括：

筛选模块，用于向所述初始行人属性识别模型引入多尺度门控多头注意力机制，对所述特征图进行筛选，并输出标准目标特征图，其中，所述初始行人属性识别模型包括所述全局平均池化层与所述预测层；

映射模块，用于通过所述全局平均池化层将各通道的所述标准目标特征图输入至所述预测层进行映射，以训练得到目标行人属性识别模型。

8.如权利要求7所述的目标行人属性识别模型的训练装置，其特征在于，所述多个卷积块包括第一卷积块、第二卷积块、第三卷积块、第四卷积块以及第五卷积块，所述第一卷积块与所述第二卷积块的包括的卷积层相同，所述第三卷积块、所述第四卷积块以及所述第五卷积块的组成的卷积层相同。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的目标行人属性识别模型的训练方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的目标行人属性识别模型的训练方法中的步骤。