CN113688800B

CN113688800B - 一种显性状态引导的视频行人属性识别方法

Info

Publication number: CN113688800B
Application number: CN202111165456.XA
Authority: CN
Inventors: 胡海苗; 逯伟卿; 于金佐
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-07-18
Anticipated expiration: 2041-09-30
Also published as: CN113688800A

Abstract

本发明提供一种显性状态引导下的视频行人属性识别方法，其中，该方法包括以下步骤：(A)以残差神经网络提取图像特征，利用ROI机制对网络进行约束，将特征图与特征部位进行关联，并将特征图转化为与属性具有强关联的属性特征向量；(B)根据(A)生成的属性特征向量，引入自注意力机制，生成代表属性之间关系的关系矩阵；(C)连接行人的遮挡矢量和行人的朝向矢量连接得到行人的显状态矢量；(D)通过行人的显状态矢量引导各帧属性特征融合，评估有效性并融合各帧的特征，生成状态引导下的序列特征；(E)根据状态引导下的序列特征，通过分类网络进行属性推理预测；(F)将测试集输入到行人属性识别模型中进行识别，对实验结果进行评估。

Description

一种显性状态引导的视频行人属性识别方法

技术领域

本发明涉及显性状态引导的视频行人属性识别方法。

背景技术

近年来，随着监控视频的普及，基于模式识别与计算机视觉利用监控视频信息进行安防监控已成为社会主流，其中，行人作为视频监控中的主要成分，已经成为监控检测识别中的重点，挖掘行人相关属性具有很大的价值。行人的属性信息的内涵是对颜色、衣着、动作等进行描述，并可以作为中级特征信息辅助其他行人相关的任务。行人属性识别具有广泛的应用前景：行人属性信息可以帮助人们准确高效地完成从监控视频中搜寻特定人员；行人属性信息可以在行人重识别任务中进行预筛选，提高准确率。行人属性识别因其广泛的应用场景已经成为了研究的热点。

行人属性识别属于多标签多分类任务，行人属性识别方法采用该类任务的通法，即通过构建一个基于注意力机制的深度网络，可以将不同的属性按照图像的注意力分配规则进行学习，再利用深度或传统分类器对行人属性进行分类预测，实现目标准确的属性识别，从而能够得到图像非结构化数据的结构化描述。

行人属性识别大致分为以基于图片的方法以及基于视频序列的方法。其中于图片的方法可以进一步分为基于图片的无关系方法和基于图片和关系的方法。基于图片的无关系方法大多采用卷积神经网络(CNN)，通过分类器提取特征并识别属性。每个属性都等同于一个标签，并被平等对待。这类方法可以从给定数据的局部区域提取细粒度的特征。然而，这类方法有两个局限性。一个是无法对不可见的属性做出明确的判断。另一个是对细粒度属性和粗粒度属性的平等对待，这导致了识别不经常出现的属性和细粒度属性变得困难。此外，属性之间有许多约束关系可以很好地用于细粒度的属性推理。因此，基于关系的方法是当前研究的重点，尤其是在图卷积网络(GCN)出现之后。基于关系的方法考虑两个步骤。一个是对属性关系的挖掘。另一个是属性关系的表示和利用。然而，基于图片和关系的方法只利用了单一图像的属性关系，对于属性关系的描述不够稳定和健壮。基于视频序列的方法利用了多帧的信息。然而这类方法大多是无关系的，不仅基于图片的无关系方法的局限同样存在，而且当细粒度的属性在时间序列中传递时，波动会变大，可能导致属性识别中的错误传播。对于以上三类方法，在实际应用中，遮挡和摄像机视角变化成为了行人属性识别的主要挑战。

行人的状态与行人的属性有强烈的关系。行人的状态包含了行人的遮挡和朝向可以描述识别出的属性的有效性以及感知出的属性关系的有效性。在一些帧中被遮挡的属性可能在其他帧中找回，不同帧中行人属性识别的结果互相印证可以得到更准确的结果，在行人状态的指导下融合所有帧的属性特征关系进行属性识别可以充分利用视频序列的信息。

行人属性识别技术当前存在的三个主要问题：

1)在关系引导的属性识别中，缺乏对不可确定和可确定属性的区分，后者通过属性间关系给其他属性传递的反馈是无理的。

2)基于关系的方法虽然能很好地进行关系引导，但仍然是以单一图像为基础的。而单一图像上的属性关系没有考虑到时间信息。

3)基于序列的方法虽然结合了不同帧的识别结果，但只是传递了时间序列中数据的底层特征。而时间序列上的属性关系的传递仍然存在挖掘的空间。

发明内容

本发明针对上述行人属性识别的三个主要问题，提供了一种显性状态引导的视频行人属性识别方法，该方法与主流方法相比，具有普适性和可扩展性，可兼容不同类型的行人数据，具有较高的识别准确率，适用于实际的室内外监控场景中的行人属性识别。

根据本发明的一个实施例的关系引导的显性状态引导的视频行人属性识别方法包括如下步骤：

S1)以卷积神经网络提取图像特征，对网络进行约束，将特征图与属性进行关联，并将特征图转化为一维向量，该向量与属性具有强关联，简称为属性特征向量；

S2)根据S1)生成的属性特征向量，引入自注意力机制，生成二维矩阵，该矩阵代表属性之间关系，称为关系矩阵；

S3)根据S1)生成的属性特征向量，引入注意力网络，生成二维矢量，该矢量代表行人的遮挡情况，成为行人的遮挡矢量，根据S1)生成的属性特征向量，引入卷积网络，生成二维矢量，该矢量代表行人的朝向，成为行人的朝向矢量，行人的遮挡矢量和行人的朝向矢量连接得到的二维矢量称为行人的显状态矢量；

S4)根据S3)生成的行人的显状态矢量引导各帧属性特征融合，分别通过行人的遮挡矢量和行人的朝向矢量对每一帧的属性特征评估有效性，根据有效性融合各帧的特征，成为状态引导下的序列特征；

S5)根据S4)生成的状态引导下的序列特征，通过分类网络进行属性推理预测；

S6)选用加权交叉熵损失函数，解决正负样本不均匀问题，平衡正负样本；

S7)将测试集输入到行人属性识别模型中进行识别，对行人属性识别模型的实验结果进行评估。

根据本发明的一个进一步的实施例，所述步骤S1)包括：

S1.1)选取残差神经网络作为卷积神经网络；

S1.2)通过残差神经网络的最后层输出特征图，其形状为2048x7x4，将多个通道的特征图与行人的17个特征部位patch进行绑定，即进行ROI(region of interest)预测，从而将特征图与特征部位patch进行绑定，得到特征部位的特征图，其形状为17x2048x7x4，最后将特征图转化为一维向量，形成属性特征向量。

根据本发明的一个进一步的实施例，所述步骤S2)包括：

S2.1)使生成的属性特征向量数量与最后得出的属性数量保持一致；

S2.2)在关系矩阵的生成方式为将属性特征向量通过全连接神经网络转化为高维向量后，以自注意力的方式进行矩阵乘生成。

根据本发明的一个进一步的实施例，所述步骤S3)包括：

S3.1)依次通过一个池化层，两个卷积层，两个内积运算层和激活函数得到S3)所述注意力网络；

S3.2)根据S1.2)生成的属性特征向量，利用S3.1)所述注意力网络，得到大小与属性特征向量相同的一维矢量，将每一帧的一维向量连接得到对应于整个视频序列的二维矢量，成为行人的遮挡矢量；

S3.3)依次通过一个池化层，两个卷积层，两个全连接层和激活函数得到S3)所述卷积网络；

S3.3)根据S1.2)生成的属性特征向量，利用S3.3)所述卷积网络，得到大小与属性特征向量相同的一维矢量，将每一帧的一维向量连接得到对应于整个视频序列的二维矢量，再通过两个卷积层得到对应于行人的四个朝向(前，前侧，后侧，后)的二维向量，其形状为4xTxC，其中T为视频序列的帧数，该矢量表征各朝向的属性识别结果对于各属性的有效性。

根据本发明的一个进一步的实施例，所述步骤S4)包括：

S4.1)根据行人的显状态矢量，取S3.2)中所述行人的遮挡矢量与属性特征向量的点积，通过全连接神经网络转化为高维向量后，以自注意力的方式进行矩阵乘生成，成为去遮挡关系矩阵；

S4.2)将S2.2)所述关系矩阵和S4.1)所述去遮挡关系矩阵，以残差结构加权和的形式融合得到新的矩阵，成为融合关系矩阵；

S4.3)根据S4.2)所述融合关系矩阵和S1.2)所述属性特征向量，以图卷积的形式，将属性特征向量与融合关系矩阵进行运算，生成的预测结果，成为单帧预测结果，其中用关系矩阵的运算次数作为属性关系的传递跳数；

S4.4)根据S3.4)所述行人的遮挡矢量和S4.3)所述单帧预测结果，以矩阵乘的形式进行运算，再通过两个全连接层和分类层，对每一帧的属性特征评估有效性，以有效性作为参考权重，融合序列内各帧的特征，成为状态引导下的序列特征。

根据本发明的一个进一步的实施例，所述步骤S5)包括以下具体步骤：

S5.1)采用以子注意力层和双层全连接层构成的神经网络作为分类网络；

S5.2)将根据S4)生成的状态引导下的序列特征输入分类网络，通过子注意力层重新分配权重加强具有奇异性的特征信息。

根据本发明的一个进一步的实施例，所述步骤S6)包括以下具体步骤：

S6.1)采用以初始学习率为0.0001、指数式衰减学习率的Adam优化器和64的数据批次大小进行迭代训练；

S6.2)将输入图像的大小统一调整为224×224，然后应用随机旋转，随机调整大小和随机水平翻转等步骤进行图像增强方式来构建一个数据批次；

S6.3)不断迭代学习，直到损失函数值不再下降，行人属性识别模型收敛，保存行人外观属性识别模型参数,得到最终的行人属性识别模型。

本发明人把本发明的上述方法在两个公开的行人属性数据集MARS和DUKE上做了训练和测试，训练测试识别精度高，在现实生活中有切合实际的用途。

本发明的关系引导的行人属性识别方法与现有技术方法相比，具有以下优点和有益效果：

(1)本发明提高了单张图片的属性描述准确率；

(2)本发明基于视频序列，可以获得对属性更完整的描述，使得对于不可视区域的属性的完整描述成为可能；

(3)本发明使得各帧信息之间相互补充，可以得到对于不可视区域更可信的判断；

(4)本发明首创了基于视频序列的属性关系挖掘框架，可适用于不同的数据库和任务，具有扩展性。

附图说明

图1为根据本发明的一个实施例中采用的显状态引导下的视频行人属性识别示意图。

图2为根据本发明的一个实施例的显性状态引导的视频行人属性识别方法的网络框架图。

图3为选取MARS数据集行人示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步说明。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，通过行人状态指导行人的属性关系矩阵的去遮挡化以及不同朝向对各属性的有效性，本发明以状态指导为出发点，探索视频序列行人属性识别帧间融合的方式，提高行人属性识别的准确率。如图2所示，本发明人提出了一种显性状态引导的视频行人属性识别方法，该方法主要包含以下步骤：(1)行人图像特征提取，进行特征压缩，生成属性特征向量。(2)利用属性特征向量生成不同的关系矩阵。(3)根据属性特征向量生成行人的显状态矢量。(4)通过行人的显状态引导每一帧的属性特征之间的融合，根据所有帧的属性特征的有效性生成状态引导下的序列特征。(5)根据状态引导下的序列特征，通过分类网络进行属性推理预测。(6)将测试集输入到行人属性识别模型中进行识别，对行人属性识别模型的实验结果进行评估。

对各步骤具体说明如下：

(1)属性特征向量生成。

以残差神经网络的最后层输出特征图，将多个通道的特征图与行人的17个特征部位进行绑定，即进行ROI(region of interest)(感兴趣区域)预测，得到特征部位的特征图，最后将特征图转化为一维向量，形成属性特征向量。

(2)关系矩阵生成

根据生成的属性特征向量，生成的属性特征向量数量与最后得出的属性数量一致，关系矩阵的生成方式为将属性特征向量通过全连接神经网络转化为高维向量，引入自注意力机制，生成二维矩阵，该矩阵代表属性之间关系，矩阵中每个点的值代表对应两个属性之间关系程度的强弱。

(3)行人的显状态的生成

行人的显状态矢量是由行人的遮挡矢量和行人的朝向矢量连接得到的二维矢量，是行人在单帧图像上显式状态信息的总和，可以描述识别出的属性的有效性以及感知出的属性关系的有效性。其中，行人的遮挡矢量是由属性特征向量，注意力网络，得到大小与属性特征向量相同的一维矢量，将每一帧的一维向量连接得到对应于整个视频序列的二维矢量，遮挡矢量用来生成去遮挡关系矩阵。另一方面，根据属性特征向量，利用卷积网络，并通过两个卷积层得到对应于行人的四个朝向的行人的遮挡矢量。

(4)行人的显状态引导序列融合

通过遮挡矢量与属性特征向量的点积，通过全连接神经网络转化为高维向量后，以自注意力的方式进行矩阵乘可以生成遮挡关系矩阵，遮挡关系矩阵用来生成融合关系矩阵。遮挡关系矩阵和关系矩阵以残差结构加权和的形式融合得到融合关系矩阵，融合关系矩阵用来生成单帧预测结果。将属性特征向量与融合关系矩阵以图卷积的形式进行运算生成单帧预测结果。将遮挡矢量和单帧预测结果，以矩阵乘的形式进行运算，作为状态引导下的序列特征。

(5)属性推理预测

将状态引导下的序列特征通过自注意力层，增强奇异性特征的权重，再通过两层全连接层将特征与属性分类结果对齐，得到最后的预测结果。

(6)训练

将测试集输入到行人属性识别模型中进行识别，对行人属性识别模型的实验结果进行评估。采用以初始学习率为0.0001、指数式衰减学习率的Adam优化器和8的数据批次大小进行迭代训练；将输入图像的大小统一调整为224×112，然后应用随机旋转，随机调整大小和随机水平翻转等步骤进行图像增强来构建一个数据批次；不断迭代学习，直到损失函数值不再下降，行人属性识别模型收敛，保存行人外观属性识别模型参数,得到最终的行人属性识别模型。

图1为本发明的方法的实现样例，其中图片为MARS测试集中的一种图片。最下方是充分利用各帧信息融合得到的准确识别的结果。

图3为MARS数据库中的行人属性的一个例子。

以上公开的仅为本发明的具体实施例。在不脱离本发明的权利要求范围的前提下，本领域的技术人员，根据本发明提供的基本技术构思，能够进行各种相应的变化、修正。

Claims

1.显性状态引导的视频行人属性识别方法，其特征在于包括下列步骤：

S1)以残差神经网络提取图像特征，利用ROI机制对网络进行约束，将特征图与特征部位进行关联，并将特征图转化为一维向量，该向量与属性具有强关联，简称为属性特征向量；

S2)根据步骤S1)生成的属性特征向量，引入自注意力机制，生成二维矩阵，该矩阵代表属性之间关系，该二维矩阵为关系矩阵；

S3)根据步骤S1)生成的属性特征向量，引入注意力网络，生成行人的遮挡矢量，并根据步骤S1)生成的属性特征向量，引入卷积网络，生成行人的朝向矢量，将行人的遮挡矢量和行人的朝向矢量连接得到行人的显状态矢量；

S4)根据步骤S3)生成的行人的显状态矢量引导各帧属性特征融合，评估各帧的特征的有效性，融合成为状态引导下的序列特征；

S5)根据步骤S4)生成的状态引导下的序列特征，通过分类网络进行属性推理预测；

S7)将测试集输入到行人属性识别模型中进行识别，对行人属性识别模型的实验结果进行评估，

其中：

所述步骤S1)包括：

S1.1)选取残差神经网络作为卷积神经网络；

S1.2)通过残差神经网络的最后层输出特征图，将多个通道的特征图与行人的特征部位patch进行绑定，即进行ROI(region of interest)预测，得到特征部位的特征图，最后将特征图降维转化为属性特征向量，

所述步骤S2)包括：

S2.2)在关系矩阵的生成方式为将属性特征向量通过全连接神经网络转化为高维向量后，以自注意力的方式进行矩阵乘生成，

所述步骤S3)包括：

S3.1)依次通过一个池化层，两个卷积层，两个内积运算层和激活函数得到步骤S3)所述注意力网络；

S3.2)根据步骤S1.2)生成的属性特征向量，利用步骤S3.1)所述注意力网络，得到大小与属性特征向量相同的一维矢量，将每一帧的一维向量连接得到对应于整个视频序列的二维矢量，成为行人的遮挡矢量；

S3.3)依次通过一个池化层，两个卷积层，两个全连接层和激活函数得到步骤S3)所述卷积网络；

S3.3)根据步骤S1.2)生成的属性特征向量，利用步骤S3.3)所述卷积网络，得到对应于行人的朝向的有效性矢量，该矢量表征各朝向的属性识别结果对于各属性的有效性，

所述步骤S4)包括：

S4.1)根据行人的显状态矢量，取步骤S3.2)中所述行人的遮挡矢量与属性特征向量的点积，通过全连接神经网络转化为高维向量后，以自注意力的方式进行矩阵乘生成，成为去遮挡关系矩阵；

S4.2)将步骤S2.2)所述关系矩阵和步骤S4.1)所述去遮挡关系矩阵，以残差结构加权和的形式融合得到新的矩阵，成为融合关系矩阵；

S4.3)根据步骤S4.2)所述融合关系矩阵和步骤S1.2)所述属性特征向量，以图卷积的形式，将属性特征向量与融合关系矩阵进行运算，生成的预测结果，成为单帧预测结果，其中用关系矩阵的运算次数作为属性关系的传递跳数；

S4.4)根据步骤S3.4)所述行人的遮挡矢量和步骤S4.3)所述单帧预测结果，以矩阵乘的形式进行运算，再通过两个全连接层和分类层，对每一帧的属性特征评估有效性，以有效性作为参考权重，融合序列内各帧的特征，成为状态引导下的序列特征，所述步骤S5)包括：

S5.2)将根据步骤S4)生成的状态引导下的序列特征输入分类网络，通过子注意力层重新分配权重加强具有奇异性的特征信息。

2.根据权利要求1所述的显性状态引导的视频行人属性识别方法，其特征在于所述步骤S6)包括：