CN111738074A

CN111738074A - 基于弱监督学习的行人属性识别方法、系统及装置

Info

Publication number: CN111738074A
Application number: CN202010417405.0A
Authority: CN
Inventors: 杨华; 孙铭君
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-10-02
Anticipated expiration: 2040-05-18
Also published as: CN111738074B

Abstract

本发明提供了一种基于弱监督学习的行人属性识别方法、系统及装置，包括：采用深度卷积神经网络提取目标行人不同层次的视觉特征；通过弱监督学习的方法在隐含属性空间学习隐含属性，同时获得隐含特征对应的空间约束，得到对应的隐含属性空间位置图；根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图，对目标行人的局部特征提取，得到目标行人不同层次的局部特征；通过自注意力的方法对行人属性间关系进行建模，利用全局平均池化层和全连接层作为分类器，得到不同层次下对目标行人属性的预测值；对每个属性投票得到最终识别结果。本发明将属性空间约束和属性间约束联合起来预测目标行人属性，提升了行人属性识别的性能。

Description

基于弱监督学习的行人属性识别方法、系统及装置

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种基于弱监督学习的行人属性识别方法、系统及装置。

背景技术

基于弱监督学习的行人属性识别研究目标是从监控数据中提取出行人的多尺度，多层次的特征抽象，对于监控场景理解和目标行人检索等任务都发挥着重要辅助作用，是构建智能监控系统的关键一环。

在真实监控场景下待识别属性具有多尺度，多层次的特点，多尺度即包括像素占比小的局部特征和占比较大的全身特征，多层次即包括抽象程度较低的外貌特征和抽象程度较高的动作特征等。同时由于光照，拍摄角度等的影响，在实际应用中行人属性识别技术仍有改进空间。

经检索，中国发明申请号为201910943815.6的发明专利申请，公开了一种行人属性识别方法和装置，该方法包括：根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，样本图像为预设行人属性样本集中的图像，预设行人属性样本集中包括的图像具有多个行人属性；对多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层；根据空间变换网络和多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块，从而可以提高行人属性识别的精度和效率。

但是上述专利存在以下不足：1.对所有特定行人属性均进行了空间变换参数的学习，运算量较大，同时在较高层级属性(如年龄，性别等行人属性)上难以学习到相对应的属性区域，因此提升效果不佳。2.没有对行人属性间内在的关系进行建模，例如可以从长发，帽子等属性推断得到更高层级的女性属性，通过对属性间内在关系进行建模约束可以进一步提升属性识别效果。

发明内容

本发明的目的在于克服现有技术的不足之处，提出了一种基于弱监督学习的行人属性识别方法、系统及装置，同时对行人属性识别问题施加空间约束和属性间关系约束，提升了属性识别的准确率。

根据本发明的第一方面，提供一种基于弱监督学习的行人属性识别方法，包括：

获取目标行人图像，采用深度卷积神经网络提取目标行人不同层次的视觉特征；

将目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性，同时获得隐含特征对应的空间约束，得到对应的隐含属性空间位置图；

根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图，对目标行人的局部特征提取，得到目标行人不同层次的局部特征；

根据目标行人不同层次的局部特征，通过自注意力的方法对行人属性间关系进行建模，利用全连接层作为分类器，得到不同层次下对目标行人属性的预测值；

根据不同层次下对目标行人属性的预测值，通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果。

可选地，所述采用深度卷积神经网络提取目标行人不同层次的视觉特征，包括：将目标行人图像通过Inception-V3网络，得到提取目标行人不同层次的视觉特征zⁱ。

可选地，所述将目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性，同时获得隐含特征对应的空间约束，包括：

将目标行人不同层次的视觉特征通过卷积网络得到特征Z，经过空间正则化获得隐含属性特征图a，空间正则化按以下计算公式进行：

其中a_c，h，w为隐含属性特征图在(c，h,w)处的值，z_c,h,w为特征Z在(c,h,w)处的值。

将目标行人通过另一路卷积网络和Sigmoid激活函数得到对隐含属性存在的推断图s,与隐含属性特征图a联合起来得到隐含属性空间位置图L,按如下公式计算：

L＝a·s

其中a是隐含属性特征图，s是隐含属性推断图，当隐含属性不存在时，隐含属性推断图中的值趋近于0。

可选地，所述根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图，对目标行人的局部特征提取，包括：

将所述隐含属性空间位置图L和目标行人不同层次的视觉特征结合起来，得到目标行人经过空间约束后的局部特征(f_n)_init，按如下公式计算：

其中(f_n)_init是提取到的局部特征，共有N个局部特征，即目标行人不同层次的局部特征；L_n是第n层的隐含属性空间位置图，F是目标行人视觉特征。

可选地，所述将目标行人不同层次的局部特征，通过自注意力的方法对行人属性间关系进行建模，其中：

为了将不同的目标行人局部特征分开，按如下公式叠加位置编码PE：

其中PE_i(p)代表对位置p处进行位置编码时第i个元素的值，d代表位置编码的长度，是一个超参数；叠加位置编码PE后得到局部特征f_n；

对局部特征f_n进行线性变换后通过施加权重描述局部特征间的关系，得到更新后的约束局部特征r_n，按如下公式计算：

其中φ_W代表可学习线性变换，w_mn代表第m个和第n个局部特征相互影响的可学习权重参数，其中w_mn按如下公式计算：

其中φ_K,φ_Q代表可学习线性变换，f_m,f_n代表第m和第n个局部特征，d_k代表局部特征维度；对(w_mn)_init进行归一化后得到局部特征间权重w_mn。

得到特征间权重w_mn后通过加权求和的方式即可得到经过属性间关系约束后的局部特r_n:

可选地，利用全连接层作为分类器，得到不同层次下对目标行人属性的预测值，其中：

对于Inception＝v3网络中不同inception-i运算后得到的卷积特征zⁱ都参与了所有目标行人属性的预测过程，采用中继监督的方式进行训练，对于每个层次预测出的目标行人属性预测结果y,都采用带权重的交叉熵损失函数进行计算，如下公式进行计算：

其中

代表对第c个目标属性的预测值，y^c代表第c个目标属性的真实值，p^c代表第c个属性在训练集中正样本的比例，C代表待预测的行人属性类别数；Loss代表待优化的目标损失函数。

可选地，所述通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果，包括：

对于不同层次对第c个属性的预测值，采用投票得出最大值的方式得到最终预测结果，如下公式计算：

其中

代表第i卷积层次后对第c个属性的预测值，y^c代表最终对第c个属性的最终预测值，

为不同层次的对第c个属性的预测值。

根据本发明第二方面，提供一种基于弱监督学习的行人属性识别系统，包括：

视觉特征提取模块，该模块提取输入的目标行人图像的目标行人不同层次的视觉特征；

隐空间属性定位模块，该模块将所述视觉特征提取模块得到的目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性，同时获得隐含特征对应的空间约束，得到对应的隐含属性空间位置图；

局部属性注意力模块，该模块根据将所述视觉特征提取模块得到得目标行人不同层次的视觉特征和所述隐空间属性定位模块得到的隐含属性空间位置图，对目标行人的局部特征提取，得到目标行人不同层次的局部特征；

目标识别模块，该模块根据所述局部属性注意力模块的目标行人不同层次的局部特征，通过自注意力的方法对行人属性间关系进行建模，利用全局平均池化层和全连接层作为分类器，得到不同层次下对目标行人属性的预测值，再通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果。

根据本发明第三方面，提供一种基于弱监督学习的行人属性识别装置，包括：包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的基于弱监督学习的行人属性识别方法。

与现有技术相比，本发明实施例具有以下至少一种有益效果：

本发明上述的基于弱监督学习的行人属性识别方法、系统和装置，采用弱监督学习地方法在隐含属性空间学习，可以得到更优的空间约束；基于卷积神经网络将属性空间约束和属性间约束联合起来预测目标行人属性，提升了行人属性识别的性能。

本发明上述的基于弱监督学习的行人属性识别方法、系统和装置，利用自注意力的方法对局部特征间的关系进行建模，提升结果准确率。

本发明上述的基于弱监督学习的行人属性识别方法、系统和装置，在多个卷积层次提取的特征后分别对目标行人属性进行预测，最后投票得出最终预测结果，在多层次的行人属性问题上表现良好。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的基于弱监督学习的行人属性识别方法原理示意图；

图2为本发明一实施例的基于弱监督学习的行人属性识别系统框图；

图3为本发明一实施例的在隐含空间学习属性位置图的原理示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

为了更好地说明本发明，本发明以下实施例基于卷积神经网络提取更具有分辨力的特征，采用了Inception-V3网络结构(参见：Szegedy C,Vanhoucke V,Ioffe S,etal.Rethinking the inception architecture for computer vision[C]//Proceedingsof the IEEE conference on computer vision and pattern recognition.2016:2818-2826.)络提取目标行人的多层次特征；并基于弱监督学习的方法在隐含空间学习空间位置关系；同时，通过自注意力的方法对特征间关系建模；最后，采用了不同层次卷积特征分别预测，然后投票融合的策略，提升了属性识别的准确率。

图1为本发明一实施例的基于弱监督学习的行人属性识别方法框架的原理示意图。参照图1所示，该实施例可以按照以下步骤进行：

S1,获取包含目标行人的图像I；根据目标行人图像I输入深度卷积神经网络即图1中的主体网络，通过多个卷积层(卷积层1、卷积层2、卷积层3)，提取目标行人不同层次的视觉特征F¹,F²,F³；

S2,根据目标行人视觉特征F¹,F²,F³，通过弱监督学习的方法在隐含属性空间学习隐含属性与行人结构间的空间约束关系，对目标行人的姿态结构进行初步的分析，得到隐含属性空间位置图L¹,L²,L³；

S3,根据目标行人视觉特征F¹,F²,F³和隐含属性空间位置图L¹,L²,L³，综合得到对目标行人的局部特征提取，得到目标行人的局部特征；

S4,根据不同卷积层次得到的目标行人局部特征，通过自注意力的方法对行人属性间关系进行建模，通过全局平均池化层和全连接层作为分类器，得到不同卷积层次下对目标行人属性的预测值y¹,y²,y³；

S5,根据不同卷积层次下得到的目标行人属性的预测值y¹,y²,y³，通过对每个属性投票得到最大值的方法得到最终目标行人属性预测结果y。

本发明上述实施例通过基于Inception的卷积神经网络将空间约束和卷积神经网络提取出的特征结合起来获得较为精确的局部特征，利用属性空间约束和属性间约束联合起来预测目标行人属性，提升了行人属性识别的性能。

在另一实施例中，本发明还提供一种基于弱监督学习的行人属性识别系统，可以实现图1所示的基于弱监督学习的行人属性识别方法。该实施例中，系统包括：视觉特征提取模块、隐空间属性定位模块、局部属性注意力模块和目标识别模块，其中：视觉特征提取模块提取输入的目标行人图像的目标行人不同层次的视觉特征；隐空间属性定位模块将视觉特征提取模块得到的目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性，同时获得隐含特征对应的空间约束，得到对应的隐含属性空间位置图；局部属性注意力模块根据将视觉特征提取模块得到得目标行人不同层次的视觉特征和隐空间属性定位模块得到的隐含属性空间位置图，对目标行人的局部特征提取，得到目标行人不同层次的局部特征；目标识别模块根据局部属性注意力模块的目标行人不同层次的局部特征，通过自注意力的方法对行人属性间关系进行建模，利用全局平均池化层和全连接层作为分类器，得到不同层次下对目标行人属性的预测值，再通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果。

本发明上述实施例中，隐空间属性定位模块、局部属性注意力模块构成约束模块，在不同层次上利用隐空间属性定位模块(LAL)对属性进行空间上的约束，利用局部属性注意力模块(LAA)进行属性间的关系约束，对输入的监控行人图像，利用卷积神经网络提取出不同层次的卷积特征图，对于每层的卷积特征图利用隐空间属性定位模块学习隐藏属性的空间特征,提取局部特征的位置图并提取出局部特征。在局部属性注意力模块中对局部属性之间的关系进行建模，通过自注意力的方法处理局部特征并预测目标特征。其中虚线部分为实际推断过程，最终结果由不同层次预测结果取较大概率进行投票预测。

图3为本发明一实施例的在隐含空间学习属性位置图的原理示意图。如图3所示，分别通过并联的卷积神经网络得到隐含属性特征图和隐含属性的存在推断图，通过点乘结合起来得到隐含属性推断，从而生成空间位置约束。

参照图1、3所示，在一优选实施例中，基于上述基于弱监督学习的行人属性识别方法、系统实现行人属性识别的过程可以包括：

S101、获取目标行人的图像I。

在本实施例中，目标行人图像为真实监控场景下经过裁剪，裁剪的仅包含目标行人的图像。

S102、将目标行人图像I通过Inception-V3网络，得到不同卷积层次下的目标行人视觉特征F¹,F²,F³。

S103、将目标行人视觉特征Fⁱ输入隐空间属性定位模块(LAL)，通过弱监督学习的方法在隐含属性空间学习隐含属性，对目标属性进行空间上的约束，得到不同卷积层次得到的目标行人局部特征，如图3所示。

本实施例中，将目标行人视觉特征Fⁱ通过卷积网络得到特征Zⁱ，卷积神经网络为堆叠的卷积核大小为1的网络，卷积核的个数等于隐含属性的个数N，属于手工设定的超参数。然后经过空间正则化获得隐含属性特征图aⁱ，空间正则化按以下计算公式进行：

其中

为隐含属性特征图在像素坐标(c,h,w)处的值，

为特征Zⁱ在像素坐标(c,h,w)处的值。

同时在另一分支上将目标行人视觉特征Fⁱ通过另一路卷积网络，同样的卷积神经网络为堆叠的卷积核大小为1的网络，卷积核的个数等于隐含属性的个数N。然后通过Sigoid激活函数得到对隐含属性存在的推断图s,与隐含属性特征图a联合起来得到隐含属性空间位置图L，此分支可以在隐含属性不存在时消除错误的推断影响。空间位置图的计算按如下公式计算：

L＝a·s

其中a是隐含属性特征图，s是隐含属性推断图。当隐含属性不存在时，隐含属性推断图中的值趋近于0。

将隐含属性空间位置图Lⁱ和目标行人视觉特征Fⁱ结合起来得到目标行人经过空间约束后的局部特征

按如下公式计算：

其中(f_n)_init是提取到的局部特征，共有N个局部特征,为大小是N×d的向量。L_n是第n层的隐含属性空间位置图，F是目标行人视觉特征。

S104、将目标行人局部特征和隐含属性位置图Lⁱ输入局部注意力模块(LAA)，对目标属性进行属性间关系的约束。

具体的，局部特征通过自注意力的方法对局部特征间关系进行建模。为了将不同的局部特征区分开，按如下公式叠加位置编码PE：

其中PE_i(p)代表对位置p处进行位置编码时第i个元素的值，d代表位置编码的长度，是一个超参数。叠加位置编码PE后得到局部特征f_n。

其中φ_K,φ_Q代表可学习线性变换，f_m,f_n代表第m和第n个局部特征，d_k代表局部特征维度。对(w_mn)_init进行归一化后得到局部特征间权重w_mn。

得到特征间权重w_mn后通过加权求和的方式即可得到经过属性间关系约束后的局部特征r_n:

S105、得到经过属性间关系约束后的局部特征(f_n)_new后，首先对于每个局部特征(f_i)_new经过全连接层进行降维,然后将局部特征拼接为一维特征，通过全连接层(输出维度记为待识别属性类别数)作为分类器，得到目标行人属性预测结果y。

对于每个层次预测出的目标行人属性预测结果y,都采用带权重的交叉熵损失函数进行计算，如下公式进行计算：

其中

代表对第c个目标属性的预测值，y^c代表第c个目标属性的真实值，p^c代表第c个属性在训练集中正样本的比例。通过权重P^c可以缓解属性数据集中正负样本不均衡的问题。

S106、对于不同层次的第c个属性的预测值，采用投票得出最大值的方式得到最终预测结果，如下公式计算：

其中

代表第i卷积层次后对第c个属性的预测值，y^c代表最终对第c个属性的最终预测值。通过投票取得最大值的方式对最终属性进行预测，利用了卷积网络中不同卷积层可以提取不同层次特征的特点，对解决行人属性识别这类含有多层次标签的问题表现效果较好。

在另一实施例中，本发明还提供一种基于弱监督学习的行人属性识别装置，包括：包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述基于弱监督学习的行人属性识别方法。

下面结合应用实例对本实施例进一步描述。

本应用实例采用的训练数据分别来自于RAP数据集和PETA数据集。其中RAP数据集包含了41585张目标行人图像，取33268张图像作为训练数据。PETA数据集包含了19000张目标行人图像，取9500张图像作为训练数据。

通过实验证明，本实施例方法能较好的对属性识别任务施加空间上的约束和属性间的关系约束，从而提升属性识别准确率。表1和表2为本实施例在不同数据集上的表现效果和不同模块的效果对比。

表1

表2

可以看出由本实施例得到的结果较大程度了提升了行人属性识别的性能。此外，本实施例采用单个网络端到端的训练方式，充分利用了图像级标签的标注，极大地降低了实际应用中的研究复杂度，提升了行人属性识别的性能。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于弱监督学习的行人属性识别方法，其特征在于，包括:

2.根据权利要求1所述的基于弱监督学习的行人属性识别方法，其特征在于，所述采用深度卷积神经网络提取目标行人不同层次的视觉特征，包括：

将目标行人图像通过Inception-V3网络，得到提取目标行人不同层次的视觉特征zⁱ。

3.根据权利要求1所述的基于弱监督学习的行人属性识别方法，其特征在于，所述将目标行人不同层次的视觉特征通过弱监督学习的方法在隐含属性空间学习隐含属性，同时获得隐含特征对应的空间约束，包括：

其中a_c,h,w为隐含属性特征图在(c，h，w)处的值，z_c，h，w为特征Z在(c，h，w)处的值。

L＝a·s

4.根据权利要求1所述的基于弱监督学习的行人属性识别方法，其特征在于，所述根据目标行人不同层次的视觉特征和对应的隐含属性空间位置图，对目标行人的局部特征提取，包括：

(f_n)_init＝∑_h，wL_n·F

其中(f_n)_init是提取到目标行人经过空间约束后的局部特征，共有N个局部特征，即目标行人不同层次的局部特征；L_n是第n层的隐含属性空间位置图，F是目标行人视觉特征。

5.根据权利要求4所述的基于弱监督学习的行人属性识别方法，其特征在于，所述将目标行人不同层次的局部特征，通过自注意力的方法对行人属性间关系进行建模，其中：

其中φ_K，φ_Q代表可学习线性变换，f_m，f_n代表第m和第n个局部特征，d_k代表局部特征维度；对(w_mn)_init进行归一化后得到局部特征间权重w_mn；

得到局部特征间权重w_mn后通过加权求和的方式得到经过属性间关系约束后的约束局部特征r_n:

6.根据权利要求5所述的基于弱监督学习的行人属性识别方法，其特征在于，所述利用全连接层作为分类器，得到不同层次下对目标行人属性的预测值，其中：

对于Inception-v3网络中不同inception-i运算后得到的卷积特征zⁱ都参与了所有目标行人属性的预测过程，采用中继监督的方式进行训练，对于每个层次预测出的目标行人属性预测结果y,都采用带权重的交叉熵损失函数进行计算，如下公式进行计算：

其中

7.根据权利要求1所述的基于弱监督学习的行人属性识别方法，其特征在于，所述通过对每个属性投票得到最大值的方法得到最终目标行人属性识别结果，包括：

其中

为不同层次的对第c个属性的预测值。

8.一种基于弱监督学习的行人属性识别系统，其特征在于，包括：

9.一种基于弱监督学习的行人属性识别装置，包括：包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-7任一所述的方法。