CN110458215B

CN110458215B - 基于多时态注意力模型的行人属性识别方法

Info

Publication number: CN110458215B
Application number: CN201910699525.1A
Authority: CN
Inventors: 冀中; 贺二路
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2023-03-24
Anticipated expiration: 2039-07-30
Also published as: CN110458215A

Abstract

一种基于多时态注意力模型的行人属性识别方法，包括：获取图像特征和属性特征；构造文本监督特征，是将图像特征和属性特征的两种组合结果进行融合，并级联属性特征作为属性监督；构造多时态注意力机制，是利用两个时刻的隐藏层向量构造注意力机制的对齐模型，然后共同对图像特征进行权重优化；将文本监督特征和上下文向量作为长短期记忆模型的额外输入，获得含有行人属性信息的隐藏层向量；获取行人属性识别概率；对行人属性识别概率进行优化。本发明能够快速且有效识别真实监控场景下的不同行人的属性，对其他深度学习领域，比如行人检索和行人重识别有重要的推动作用，此外对于建成平安城市和城市监控系统的完善也有很多积极作用。

Description

基于多时态注意力模型的行人属性识别方法

技术领域

本发明涉及一种行人属性识别方法。特别是涉及一种基于多时态注意力模型的行人属性识别方法。

背景技术

现代城市中，每时每刻都有数以百万计的监控摄像头收集着行人和交通等视频和图片信息，为了保障人民的生命财产和城市安全，需要对这些海量数据进行实时的分析，早期的监控系统需要人工筛选数据，耗费大量的人力物力。随着机器学习的发展，尤其是深度学习的兴起，愈发方便处理海量数据。行人属性识别任务旨在给定一张含有行人的图像时，能够预测中行人所具有的属性，比如性别、年龄、衣服类型等，对于监控领域处理海量行人图像和行人重识别等任务有重要的作用。在监控领域中，行人属性识别任务能够从监控视频得到的图像中甄别可能对人民生命财产造成威胁的人或物品。此外行人属性识别任务对建成智慧城市有重要的促进作用，因此行人属性识别有着非常重要的研究价值和现实意义。

早期的行人属性识别任务利用人工提取的特征，并利用SVM分类器进行分类，该方法需要耗费相当高的人力物力，而且行人属性识别的性能也不能满足人们的要求，随着深度学习的兴起，利用卷积神经网络进行特征提取和循环神经网络进行属性识别，极大地促进了识别性能的提高。此外研究人员还提出了一种能够优化图像特征权重分配的注意力机制，能够让模型更多的关注与属性相关的图像特征，从而有效提升了属性识别的性能。

但是，目前利用LSTM进行属性识别的方法中，往往只在初始状态时输入一次图像，之后每个时刻都只输入属性信息，这样避免了多次利用图像的噪声造成模型过拟合的问题。然而，这种方式也造成了属性和图像的分离，在训练过程中不能有效的相互映射；此外，传统的注意力模型，只是考虑当前属性的隐藏层状态，忽略了下一个属性的隐藏层对性能的影响，下一个属性的隐藏层携带着即将预测的信息，能够有效的引导模型去关注图像与下一个属性相关的特征位置，增加对应特征的权重，如果预测的属性不正确，将进一步减少即将分配的权重。达到进一步优化模型的效果；最后，以往的基于属性的权重的目标函数认为属性占总比少的就一定是识别性别比较差的，进而设计目标函数。目前存在着行人属性识别任务中特殊的情况，即一些占整体比例较少的属性，识别精度也比较高，相反，一些占整体比例较多的属性，识别精度却比较低。

发明内容

本发明所要解决的技术问题是，提供一种能够快速且有效的识别出不同行人属性的基于多时态注意力模型的行人属性识别方法。

本发明所采用的技术方案是：一种基于多时态注意力模型的行人属性识别方法，包括如下步骤：

1)获取图像特征和属性特征；

2)构造文本监督特征，是将图像特征和属性特征的两种组合结果进行融合，并级联属性特征作为属性监督；

3)构造多时态注意力机制，是利用两个时刻的隐藏层向量构造注意力机制的对齐模型，然后共同对图像特征进行权重优化；

4)将文本监督特征和上下文向量作为长短期记忆模型的额外输入，获得含有行人属性信息的隐藏层向量；

5)获取行人属性识别概率p_t＝softmax(h_t-1)；

6)对行人属性识别概率p_t进行优化。

步骤1)中所述的获取图像特征，是将图像输入到卷积神经网络中获取图像特征V＝{v₁,…v_i,…v_N}。

步骤1)中所述的获取属性特征，是使用One-Hot的向量y_t来表示属性特征，设定行人属性的特征有L个，即图像的属性特征Y＝[y₁,y₂,…,y_t,…,y_L]。

步骤2)中所述的将图像特征和属性特征的两种组合结果进行特征融合，是采用如下公式：

m_t＝Φ(V⊙W₁y_t)+Ψ(V⊙W₂y_t) (1)

式中，m_t为图像和文本的融合特征，Ф和Ψ分别为线性整流函数和双曲正切函数，V为图像特征，为了利用属性信息，引入两个不同属性嵌入矩阵W₁和W₂与属性特征向量y_t构成两个不同的词向量，t表示时刻。

步骤2)中所述的级联属性特征作为属性监督，是利用属性嵌入矩阵W₃构造一个词向量W₃y_t，然后将词向量W₃y_t与融合特征m_t级联构成文本监督特征s_t，其中词向量W₃y_t起属性监督作用。

步骤3)是通过如下公式进行：

式中，

和/>

代表两个时刻解码端隐藏层向量和编码端图像特征的对齐模型，f_att为注意力函数，/>

和/>

表示两个时刻得到的权重分配系数，/>

为解码端在t-1时刻的隐藏层向量，/>

为解码端在t时刻的隐藏层向量，v_i为图像特征向量；

将权重分配系数

和/>

分别与图像特征进行相乘后融合，得到上下文向量z_t，计算公式如下：

/>

式中，N为图像特征向量的个数。

步骤4)是通过如下公式进行：

式中，不同下标的W表示训练学习到的不同参数，f_t表示遗忘门，i_t表示输入门，o_t表示输出门，c_t表示t时刻细胞状态，c_t-1表示t-1时刻细胞状态，h_t表示t时刻隐藏层，h_t-1表示t-1时刻隐藏层，σ表示Sigmoid函数，s_t表示文本监督特征，z_t表示上下文向量。

步骤6)包括对不同时刻的行人属性识别概率p_t根据数据集的属性顺序进行汇总，设定p_m表示汇总后的第m个行人属性的识别概率，采用如下目标函数对行人属性识别概率p_m进行优化：

ω_m＝exp(-a_m) (9)

式中，p_m表示输出第m个属性的概率，a_m表示第m个属性在所有属性中的占比，ω_m表示占比越多的属性，受关注程度越少，ω_m(1-p_m)表示如果第m个属性占比少，难以识别，则提高对该属性关注程度，L表示行人属性特征的个数；

优化后的p_m为行人属性识别的最佳结果。

本发明的基于多时态注意力模型的行人属性识别方法，优势主要体现在：

(1)有效性：通过在RAP和PETA两个行人属性识别数据集上进行实验，本发明的识别性能处于当下领先水平，能够快速且有效的识别出不同行人的属性。

(2)新颖性：该发明首次在行人属性识别方向加入下一个属性的隐藏层信息，利用下一个属性的隐藏层携带的属性信息与编码端特征进行映射，能够有效优化编码端的特征分布。

(3)实用性：该发明能够有效识别真实监控场景下的行人属性，对其他深度学习领域，比如行人检索和行人重识别有重要的推动作用，此外对于建成平安城市和城市监控系统的完善也有很多积极作用。

附图说明

图1是本发明基于多时态注意力模型的行人属性识别方法的示意图。

具体实施方式

下面结合实施例和附图对本发明的基于多时态注意力模型的行人属性识别方法做出详细说明。

如图1所示，本发明的基于多时态注意力模型的行人属性识别方法，包括如下步骤：

1)获取图像特征和属性特征；其中，

所述的获取图像特征，是将图像输入到卷积神经网络(CNN)中获取图像特征V＝{v₁,…v_i,…v_N}，例如使用VGGNet，GoogleNet，ResNet等卷积神经网络模型提取图像特征，本发明使用ResNet-152网络对图像特征进行提取。

所述的获取属性特征，是使用One-Hot的向量y_t来表示属性特征，设定行人属性的特征有L个，即图像的属性特征Y＝[y₁,y₂,…,y_t,…,y_L]。

2)构造文本监督特征，是将图像特征和属性特征的两种组合结果进行融合，并级联属性特征作为属性监督，避免因多次利用图像特征而引入噪声；其中，

所述的将图像特征和属性特征的两种组合结果进行特征融合，是采用如下公式：

m_t＝Φ(V⊙W₁y_t)+Ψ(V⊙W₂y_t) (1)

式中，m_t为图像和文本的融合特征，Φ和Ψ分别为线性整流函数(ReLU)和双曲正切函数(Tanh)，V为图像特征，为了利用属性信息，引入两个不同属性嵌入矩阵W₁和W₂与属性特征向量y_t构成两个不同的词向量，t表示时刻。

所述的级联属性特征作为属性监督，是利用属性嵌入矩阵W₃构造一个词向量W₃y_t，然后将词向量W₃y_t与融合特征m_t级联构成文本监督特征s_t，其中词向量W₃y_t起属性监督作用。

3)构造多时态注意力机制，是利用两个时刻的隐藏层向量构造注意力机制的对齐模型，然后共同对图像特征进行权重优化，是通过如下公式进行：

式中，

和/>

代表两个时刻解码端隐藏层向量和编码端图像特征的对齐模型，f_att为注意力函数，该发明使用Tanh函数，/>

和/>

表示两个时刻得到的权重分配系数，

为解码端在t-1时刻的隐藏层向量，/>

为解码端在t时刻的隐藏层向量，v_i为图像特征向量；

将权重分配系数

和/>

式中，N为图像特征向量的个数。

4)将文本监督特征和上下文向量作为长短期记忆模型(LSTM)的额外输入，获得含有行人属性信息的隐藏层向量；文本监督特征能够在避免引入噪声的情况下，多次利用图像特征。通过多时态注意力模型得到的上下文向量不但能够通过t-1时刻的隐藏层优化图像特征的权重分布，而且能够利用t时刻的隐藏层携带的下一个属性的信息进一步优化当前属性对应的特征分布。是通过如下公式获得含有行人属性信息的隐藏层向量：

5)获取行人属性识别概率p_t＝softmax(h_t-1)；

6)在PETA数据集中，通过对属性识别的结果的研究发现，一些属性占比较少，但是其识别精度也较好，例如“Plaid”占所有属性的2.7％，但是识别精度能够达到80％以上；相反，有些属性占比较高，但是识别精度却比较低。例如“CarryingOther”占所有属性的20％，但是识别精度只有60％-75％，以往的方法只考虑属性占比的问题，认为少的属性一定是难识别的，却忽略了某些属性占比多却难识别问题。该发明针对这一问题，综合考虑了属性占比少和属性难识别提出一种新的目标函数，能够同时缓解两种挑战导致的识别精度低的问题。所以，需要对行人属性识别概率p_t进行优化，包括对不同时刻的行人属性识别概率p_t根据数据集的属性顺序进行汇总，设定p_m表示汇总后的第m个行人属性的识别概率，采用如下目标函数对行人属性识别概率p_m进行优化，优化后的p_m为行人属性识别的最佳结果：

ω_m＝exp(-a_m) (9)

式中，p_m表示输出第m个属性的概率，a_m表示第m个属性在所有属性中的占比，ω_m表示占比越多的属性，受关注程度越少，ω_m(1-p_m)表示如果第m个属性占比少，难以识别，则提高对该属性关注程度，L表示行人属性特征的个数。

Claims

1.一种基于多时态注意力模型的行人属性识别方法，其特征在于，包括如下步骤：

1)获取图像特征和属性特征；

4)将文本监督特征和上下文向量作为长短期记忆模型的额外输入，获得含有行人属性信息的隐藏层向量；是通过如下公式进行：

式中，不同下标的W表示训练学习到的不同参数，f_t表示遗忘门，i_t表示输入门，o_t表示输出门，c_t表示t时刻细胞状态，c_t-1表示t-1时刻细胞状态，h_t表示t时刻隐藏层，h_t-1表示t-1时刻隐藏层，σ表示Sigmoid函数，s_t表示文本监督特征，z_t表示上下文向量；

5)获取行人属性识别概率p_t＝softmax(h_t-1)；

6)对行人属性识别概率p_t进行优化。

2.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法，其特征在于，步骤1)中所述的获取图像特征，是将图像输入到卷积神经网络中获取图像特征V＝{v₁，…v_t，…v_N}。

3.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法，其特征在于，步骤1)中所述的获取属性特征，是使用One-Hot的向量y_t来表示属性特征，设定行人属性的特征有L个，即图像的属性特征Y＝[y₁，y₂，…，y_t，…，y_L]。

4.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法，其特征在于，步骤2)中所述的将图像特征和属性特征的两种组合结果进行特征融合，是采用如下公式：

m_t＝Φ(V⊙W₁y_t)+Ψ(V⊙W₂y_t) (1)

式中，m_t为图像和文本的融合特征，Φ和Ψ分别为线性整流函数和双曲正切函数，V为图像特征，为了利用属性信息，引入两个不同属性嵌入矩阵W₁和W₂与属性特征向量y_t构成两个不同的词向量，t表示时刻。

5.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法，其特征在于，步骤2)中所述的级联属性特征作为属性监督，是利用属性嵌入矩阵W₃构造一个词向量W₃y_t，然后将词向量W₃y_t与融合特征m_t级联构成文本监督特征s_t，其中词向量W₃y_t起属性监督作用。

6.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法，其特征在于，步骤3)是通过如下公式进行：

式中，

和

代表两个时刻解码端隐藏层向量和编码端图像特征的对齐模型，f_att为注意力函数，

和

表示两个时刻得到的权重分配系数，

为解码端在t-1时刻的隐藏层向量，

为解码端在t时刻的隐藏层向量，v_i为图像特征向量；

将权重分配系数

和

式中，N为图像特征向量的个数。

7.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法，其特征在于，步骤6)包括对不同时刻的行人属性识别概率p_t根据数据集的属性顺序进行汇总，设定p_m表示汇总后的第m个行人属性的识别概率，采用如下目标函数对行人属性识别概率p_m进行优化：

ω_m＝exp(-a_m) (9)

优化后的p_m为行人属性识别的最佳结果。