CN112418261B

CN112418261B - 一种基于先验原型注意力机制的人体图像多属性分类方法

Info

Publication number: CN112418261B
Application number: CN202010977999.0A
Authority: CN
Inventors: 段贵多; 许毅; 朱大勇; 罗光春; 候卫东; 鲁辰喜
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2022-05-03
Anticipated expiration: 2040-09-17
Also published as: CN112418261A

Abstract

本发明公开了一种基于先验原型注意力机制的人体图像多属性分类方法，属于图像处理技术领域。本发明的方案为：首先构建属性表和对应的人体图像数据集；然后构建多属性分类的神经网络模型：在惯用的多分类神经网络模型的尾部加入先验原型注意力机制插件，并将多分类神经网络的尾部改为多属性分类网络。接着训练所构建的神经网络模型；最后，基于训练好的神经网络模型对人体图像进行多属性的分类识别。本发明一方面保留了传统注意力机制的做法，用生成的注意力图与最后一个卷积特征进行逐点乘法运算，从而保留了传统注意力机制的强过滤性。另一方面通过先验原型注意力图线性组合的方式，增强了注意力图的集中性。因而极大地提升了模型的泛化能力。

Description

一种基于先验原型注意力机制的人体图像多属性分类方法

技术领域

本发明属于人体图像属性分类技术领域，具体涉及一种基于先验原型注意力机制的人体图像多属性分类方法。

背景技术

多分类任务在用于视觉对象识别的可视化数据库imagenet数据集上的表现越来越好，在这个数据集上，网络模型的分类能力已经超过了人的分类能力。相比来讲，现有的人体图像多属性分类任务的性能就不是很理想，该任务不同于普通的多分类任务，它的难点在于输入是人的整张图片，而要分析的却是一些只需要局部区域的属性，而现有的数据集上都没有关于属性的局部区域信息，这就会使网络会有很大程度的过拟合问题，而注意力机制的出现就是为了解决这类问题。

传统的注意力机制一般都是在最后一层卷积特征上进行的。首先通过一系列的1×1的Conv+ReLu生成一个适合注意力图的多通道特征，然后再用1×1的Conv+ReLu生成一个通道为1的注意力图。最后再通过将这个注意力图和网络的最后一层卷积特征做逐点乘法运算，得到最后的特征，从而达到挑选出属性相关特征去除属性不相关特征的目的。例如在视线追踪任务上通过上述注意力机制取得了比较好的效果。在传统的注意力机制中，注意力图会比较分散，比较散乱的注意力图会降低模型去除过拟合的能力，从而使得模型的表现效果不理想。

或者通过在类别激活图(class activation map，CAM)的基础上增加一个损失函数，该损失函数的作用是帮助网络得到一个更加集中的激活图，这种做法使得网络只关心该关心的一小部分，忽略掉其他不重要的部分。在某种意义上，这是注意力机制的另一种实现方法。这种方式可以得到一个比较集中的CAM，集中的CAM可以帮助模型将注意力放到属性相关的区域，进而帮助提升模型的泛化能力。相比于传统的注意力机制，这种方式没有将生成的注意力图直接作用于最后一个卷积特征，从而导致其去除不相关特征的能力会比较弱。

即传统的注意力机制，虽然可以直接用注意力图滤除掉不相关特征，但是通过这种方式产生的注意力图往往不集中。而基于CAM的注意力机制虽然可以得到比较集中的CAM，但是这种方式没有注意力图来帮助网络模型滤除掉不相关的特征。

发明内容

本发明的发明目的在于：为了解决传统的注意力机制和基于CAM的注意力机制中存在的技术问题，本发明提出了一种基于先验原型注意力机制的人体图像多属性分类方法。

本发明的基于先验原型注意力机制的人体图像多属性分类方法，包括如下步骤：

步骤S1：构建属性表和对应的人体图像数据集；

若图像中某个属性的位置被遮挡或没有被拍摄到，则将该属性的标签值设置为-1，即作为负样本；

若图像中存在某个属性，则将该属性的标签值设置为1，反之设置为0；

且人体图像数据集中的图像应该包含一个或多个属性的相关区域；

步骤S2：构建多属性分类的神经网络模型：

选择基于神经网络的多分类网络模型，所述基于神经网络的多分类网络模型包括输入层、隐藏层和分类层；多层的隐藏层用于提取输入图像的特征图；分类层(输出层)基于最后一层隐藏层输入的特征图，预测输入图像输入指定类别的预测概率；

去掉分类层的多分类网络模型作为多属性分类的神经网络模型的初级特征提取网络，并将初级特征提取网络输出的特征图定义为特征图F，且特征图F的形状为H×W×C，其中H×W表示特征图的大小，即高和宽；C表示特征图的通道数；

设置用于k个任务适用的先验注意力原型图A_i，且先验注意力原型图A_i的大小为H×W，其中i＝1,2,…,k，k的取值为预设值；

将特征提取网络输出的作为输入，添加L个分支，每个分支包括依次连接的三个子块；

其中，L表示进行分类的属性总数目；

每个分支的三个子块分别为：

第一子块包括依次连接的第一全局平均池化层、第一全连接层和第二全连接层；且第一子块的输入为特征图F，输出为原型系数C_j，所述原型系数C_j为长度为k的一维向量，其中j＝1,2,…,L；

第二子块：将k个先验注意力图A_i与当前支路的原型系数C_j进行加权求和，得到对应属性的注意力图

并将注意力图

与特征图F进行逐点乘法运算得到当前支路的新特征图

第三个子块包括依次连接的第二全局平均池化层、第三全连接层和第四全连接层；输入为新特征图

输出为当前支路对应的属性的预测概率；其中j＝1,2,…,L；

步骤S3：训练多属性分类的神经网络模型：

将训练图像做水平翻转并将其加入到训练图像中，按照步骤S1构建属性表；

将基于神经网络的多分类网络模型的已有训练过的网络参数作为初级特征提取网络的网络参数的初始值；

基于预设的损失函数和训练参数，对多属性分类的神经网络模型的网络参数进行迭代训练；

步骤S4：利用训练好的多属性分类的神经网络模型对图像进行属性分类处理：

基于训练好的多属性分类的神经网络模型的前向计算的输出，得到该图像中各个属性的预测概率，并基于各预测概率与预设阈值的匹配结果，确定图像中各个属性分类结果。通常设置为，若大于或等于预设阈值，则认为存在该属性。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明一方面保留了传统注意力机制的做法，用生成的注意力图与最后一个卷积特征进行逐点乘法运算，从而保留了传统注意力机制的强过滤性。另一方面通过先验原型注意力图线性组合的方式，增强了注意力图的集中性。因而极大地提升了模型的泛化能力。

附图说明

图1为具体实施方式中，先验原型注意力图的中心点所在的位置的示意图；

图2为具体实施方式中，本发明所采用的神经网络框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明所提供的一种基于先验原型注意力机制的人体图像多属性分类方法，一方面保留了传统注意力机制强大的去除过拟合的能力，另一方面也可以得到更加集中的注意力图，进而极大地提高网络模型的泛化能力。

在执行分类处理之前，需要根据具体场景对数据集和神经网络结构进行一些设置，本具体实施方式中，选取公开数据集Wider Attribute作为本实例的数据集，选择残差网络Resnet18作为骨干网。

本发明的具体步骤包括：

S1：构建属性表、并选择对应的人体图像数据集。

S2：构建神经网络模型。在惯用多分类神经网络模型的尾部加入先验原型注意力机制插件，并将多分类神经网络的尾部改为多属性分类网络模型。

S3：训练神经网络。为了避免过拟合现象，训练前需要加载在ImageNet上预训练过的参数。

S4：利用学习好(训练好)的网络模型对图像进行属性的分类识别。

步骤S1-S4的具体实现过程如下：

步骤S1中，基于所采集的人体图像数据集，设置属性标签：若图像中某属性的位置被遮挡或没有被拍摄到，则将该属性对应的属性标签设置为-1(即负样本)；否则，若图像中存在该属性则该属性对应的属性标签设置为1，若不存在则将属性标签设置为0。同时，人体图像数据集中的图像应该包含一个或多个属性的相关区域。

本具体实施方式中，选取公开数据集Wider Attribute作为数据集，因此该属性表应该有13项。

步骤S2中，选取ResNet18作为骨干网，之后在该模型的尾部加入先验原型注意力机制，并将该模型的尾部改为多属性分类网络模型，包括如下步骤：

S21：设置9个任务适用的先验注意力原型图A_i，其中i＝1,2,…,9。由于ResNet18最后一层卷积特征的维度为7×7×512，所以本具体实施方式中，将先验注意力原型图A_i的大小设置为7×7。为了保证最终生成的注意力图的集中性，本发明将这9个先验注意力图设置为中心点不同的高斯热图。同时为了保证最终得到的注意力图的多样性，本发明还将这9个中心点均匀地分布在7×7的网格上，最终的中心点如图1所示，图中的灰色的格子为中心点所在的位置。并基于公式(1)生成每个高斯热图：

其中，A_(x,y)表示每个高斯热图的像素值，(x,y)表示像素点，(col_i，row_i)表示第i个高斯热图的中心点坐标，σ表示高斯热图的方差，本具体实施方式中，设置σ＝1；

S22：以ResNet18的最后一层卷积特征F作为输入，另添加13个分支，输出为13组原型系数C_j，其中j＝1,2,…,13，C_j为长度为9的一维向量，F的形状为7×7×512，其中512表示通道数，13为Wider Attribute数据集中包含的属性总数目。如图2的虚线框中所示，本发明中，每个分支通过GAP层和两个FC层实现；

S23：用步骤S21中的9个先验注意力图A_i，分别与步骤S22中生成的13组原型系数C_j加权求和得到13组对应属性的注意力图

其中j＝1,2,…,13；

S24：用最后一层卷积特征F与步骤S23中生成的13组对应属性的注意力图

进行逐点乘法运算得到新的13组特征

其中j＝1,2,…,13，然后通过GAP层与FC层得到各个属性最终的概率值。

S3：训练神经网络。训练前要加载在ImageNet上预训练过的参数，包括以下步骤：

S31：将所有的图像划分为训练图像和测试图像，训练图像占70％；

S32：将训练图像做水平翻转并将其加入到训练图像中，按照S1的方法构建属性表；

S33：对神经网络没有改动的部分加载在ImageNet上预训练过的参数；

S34：用所有训练图像的均值对输入图像进行归一化处理；

S35：设置损失函数。定义如下所示的损失函数：

其中，N表示图片的数量，L表示属性的数量，x_ij表示第i张图片第j个属性的预测逻辑斯特值，x_ij之后会通过

被归一化。y_ij∈{0,1}表示第i张图片第j个属性的真实标签，p_j表示训练集中第j个属性正样本所占的比例，其用来定义权重w_ij，从而解决正负样本不平衡的问题。

S35：设置网络训练的各个参数。批大小batch size设置为128，网络优化器选用SGD，momentum设置为0.9，学习率的初始值为1e-3，训练过程中每增加5个epoch学习率下降到原来的10％。为了减少网络过拟合的可能性，将weight decay设置为1e-4。用输入图像和属性表对网络参数进行迭代训练。

S4：利用学习好的网络模型对图像进行人体属性的分类，包括以下步骤：

S41：用所有训练图像的均值对输入图像进行归一化处理，即与训练时的归一化处理方式相同；

S42：利用训练好的神经网络对输入图像进行预测，得到该图像各个属性的概率值。

综上所述，本发明提供了一种基于先验原型注意力机制的人体图像多属性分类方法，以上说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均有改变之处，综上所述，本说明书的内容不应该被理解为对本发明的限制。因此，在不偏离本发明的精神和范围的情况下，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附的权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。