CN112560831A

CN112560831A - 一种基于多尺度空间校正的行人属性识别方法

Info

Publication number: CN112560831A
Application number: CN202110222454.3A
Authority: CN
Inventors: 尚天淇; 彭德中; 陈琳
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-03-26
Anticipated expiration: 2041-03-01
Also published as: CN112560831B

Abstract

本发明公开了一种基于多尺度空间校正的行人属性识别方法，该方法包括获取行人图像数据，并进行预处理；构建包含特征金字塔结构、空间校正模块和多尺度特征融合模块的行人属性识别网络模型，采用预处理后的行人图像数据进行模型训练；利用训练后的行人属性识别网络模型对待识别行人图像中的行人属性进行识别。本发明利用空间校正模块将特征金字塔中的相邻特征同时输入，利用小尺度的高层语义信息指导大尺度的低层进行特征转换；并利用特征融合模块，将特征金字塔中所有尺度的特征融合，建立多尺度空间关联依赖关系，显著提高小目标、低分辨率图像识别效果。

Description

一种基于多尺度空间校正的行人属性识别方法

技术领域

本发明涉及行人属性识别技术领域，具体涉及一种基于多尺度空间校正的行人属性识别方法。

背景技术

随着社会对安防领域的重视和安防领域的不断发展，安防和AI结合得日益紧密。其中，智能视频分析受到广泛的关注，视频图像是当今社会最广泛的信息载体，特别是在视频监控中，发挥着重要的信息采集和记录的作用。视频是典型的非结构化数据，需要智能化算法来辅助进行结构化分析。在视频监控中，人是安防工作的主体，在安防工作中实现对行人目标和其属性特征的有效识别，那将会极大提高安防工作的应对能力。

更具体来说，行人属性是一种关于人的可检索语义描述，可作为软生物特征应用在视频监控中。对于给定的人物图像，行人属性识别的目的是从预先定义的属性列表中预测一组描述该人物特征的属性。与方向梯度直方图、局部二值模式等低级特征不同，属性可以看作是高级语义信息，对视角变化和观察条件的变化具有更强的鲁棒性。因此，计算机视觉领域许多算法，如行人重识别、行人检测，都会集成行人的属性以提升算法的鲁棒性。

局部区域特征对于细粒度属性分类十分重要，但由于细粒度属性（例如鞋子、眼镜等）在图像中占比较小，识别比较困难。同时，高质量的监控摄像头价格昂贵，图像的分辨率通常很低，加之开放环境应用中存在人像遮挡、镜头模糊等问题，使得有效提取小区域的特征更加困难。因此在这种复杂场景低分辨率情况的图片下，有效提取小区域属性特征是一个关键问题。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于多尺度空间校正的行人属性识别方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于多尺度空间校正的行人属性识别方法，包括以下步骤：

S1、获取行人图像数据，并进行预处理；

S2、构建包含特征金字塔结构、空间校正模块和多尺度特征融合模块的行人属性识别网络模型，采用预处理后的行人图像数据进行模型训练；

S3、利用训练后的行人属性识别网络模型对待识别行人图像中的行人属性进行识别。

该方案的技术效果是：本发明利用空间校正模块将特征金字塔中的相邻特征同时输入，利用小尺度的高层语义信息指导大尺度的低层进行特征转换；并利用特征融合模块，将特征金字塔中所有尺度的特征融合，建立多尺度空间关联依赖关系，显著提高小目标、低分辨率图像识别效果。

进一步地，所述步骤S1具体包括以下分步骤：

S11、采集视频监控图像，并利用行人目标检测算法进行目标裁剪，得到行人图像数据；

S12、对行人图像数据进行人工标注；

S13、对标注后的行人图像数据进行归一化、尺度放缩、填充、随机裁剪、水平翻转或垂直翻转以及图片格式张量转换的图像预处理。

该进一步方案的有益效果是：对训练进行有效扩充，有效避免深度卷积网络过拟合，从而实现更好的泛化性能。

进一步地，所述步骤S2采用预处理后的行人图像数据进行模型训练具体包括以下分步骤：

S21、利用特征金字塔结构提取预处理后的行人图像数据的多尺度图像特征；

S22、利用空间校正模块将特征金字塔结构中相邻的不同尺度特征进行初步融合和空间校准；

S23、利用多尺度特征融合模块将经过空间校准后的多尺度图像特征进行多尺度特征融合；

S24、将经过多尺度特征融合的不同尺度输出特征和主分支输出特征通过SE-Net的通道注意力子网络进行分类预测。

该进一步方案的有益效果是：利用不同分辨率下特征进行卷积矫正和特征加强，从而提高深度网络对于小目标和低分辨率属性的特征提取能力。

进一步地，所述步骤S21具体包括以下分步骤：

S211、构建主网络对预处理后的行人图像数据提取不同尺度的图像特征

，i为尺度序号；

S212、分别对各个尺度的图像特征经过卷积层进行通道转换，得到转换后的特征

。

该进一步方案的有益效果是：提取不同尺度下特征，为下一步进行多尺度融合和特征增强提供多尺度输入基础。

进一步地，所述步骤S22具体包括以下分步骤：

S221、选取相邻的两个不同尺度特征

，将特征

进行上采样后再将两个特征进行初步融合，得到融合特征

，表示为

其中，

表示上采样操作，

表示Sigmoid激活函数；

S222、根据特征

和融合特征

进行特征变换，得到权重

，表示为

其中，

表示卷积操作，

表示逐元素乘运算；

S223、根据特征

和权重

进行特征聚合，得到权重

，表示为

其中，

表示卷积操作，

表示聚合函数；

S224、对最小尺度特征进行降维处理。

该进一步方案的有益效果是：针对深度卷积网络中不同层的输出结果进行上下文关联和卷积特征矫正，从而实现相邻两层之间的不同分辨率的特征融合。

进一步地，所述步骤S23具体包括：

利用Non-local自注意力机制将经过空间校准后的多尺度图像特征进行多尺度特征融合，表示为

其中，x表示输入特征图，

表示响应因子，

表示当前关注位置的信息，

表示全局信息，

表示输出位置，j表示特征图位置，

表示计算特征图在

和

位置的相似度函数，

表示计算特征图在

位置的表示函数。

该进一步方案的有益效果是：利用非局部（Non-local）注意力机制，建立多层特征间的关联能力，从而将多个分辨率结果进行了有效融合。

进一步地，所述步骤S24具体包括：

将经过多尺度特征融合的不同尺度输出和主分支输出通过SE-Net的通道注意力子网络的Squeeze操作对各个通道进行权重分配，得到全局描述特征；

再通过SE-Net的通道注意力子网络的Excitation操作抓取通道之间的关系，然后将学习到的各个通道的激活值乘以原始特征，再分别经过全连接层和批标准化，获得每个分支的输出；

最后对各个尺度输出和主分支输出通过取最大值进行投票，从各个分支中选择针对某一属性的最精确的区域进行分类预测。

该进一步方案的有益效果是：利用SE-NET的通道注意力机制，对不同属性敏感的通道进行选择，使不同属性能够获取到属于自身最优的特征通道，进一步提高识别率。

进一步地，所述模型训练还包括

将所有的属性分别进行one-hot编码，转换成多个二分类属性；

采用加权的Sigmoid交叉熵损失函数，将五个分支的损失之和作为最终的损失。

该进一步方案的有益效果是：利用多分辨率输出建立多个独立的损失函数，从而让不同分辨率下的分类器能够学习到该分辨率下的识别结果。进一步地，所述加权的Sigmoid交叉熵损失函数表示为

其中，M表示总的属性数目，

表示不同尺度输出和主分支输出，

表示第m个属性的不同尺度输出和主分支输出，

为第m个属性的真实标签值，

为真实标签值，

为第m个属性在损失函数中的权重，

，

表示第

个属性取正值时在训练样本中出现的概率。

该进一步方案的有益效果是：针对多分辨率识别结果，利用投票机制进一步进行多个属性识别结果融合，从而将不同分辨率识别信息进行了整合和加强，进一步提高小目标和低分辨率属性识别率。

附图说明

图1为本发明基于多尺度空间校正的行人属性识别方法流程示意图；

图2为本发明实施例中行人属性识别网络模型结构示意图；

图3为本发明实施例中空间校正模块结构示意图；

图4为本发明实施例中SE-Net的通道注意力子网络结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，本发明实施例提供了一种基于多尺度空间校正的行人属性识别方法，包括以下步骤S1至S3：

S1、获取行人图像数据，并进行预处理；

在本实施例中，步骤S1具体包括以下分步骤：

S11、采集视频监控图像，并利用行人目标检测算法进行目标裁剪，得到行人图像数据；其中行人目标检测算法可以采用常规目标识别算法来得到行人图像数据，这里不做赘述。

S12、采用人工筛选方式选择符合要求的行人图像数据并进行人工标注；

S13、对标注后的行人图像数据进行归一化、尺度放缩、填充、随机裁剪、水平翻转或垂直翻转以及图片格式张量转换的图像预处理，得到预处理后的行人图像I。

在本实施例中，本发明首先构建包含特征金字塔结构、空间校正模块和多尺度特征融合模块的行人属性识别网络模型，模型结构如图2所示。

本发明构建的行人属性识别网络模型由一个具有特征金字塔结构的主网络、空间校正模块(SCM)和多尺度特征融合模块(MSFF)组成。以采用ResNet50为骨干网络为例，自顶向下将网络层resnet_layer1、resnet_layer2、resnet_layer3、 resnet_layer4四个尺度的输出特征取出构建多尺度特征，这四个尺度的特征的空间尺寸相对于输入图片的步长stride分别为

。具体的实现为：在给定输入图像I的基础上，将自顶向下的特征表示为

,

，其中，

表示第i个尺度下的特征图，i为尺度序号，H _i 、W _i 、C _i分别对应于第i个尺度的特征图的高度、宽度和通道数。四个尺度的输出特征分别使用

的小卷积，将其通道数变为256，得到

。对于256×192的RGB输入图像，空间大小分别为

。此外，自上而下的路径包含四个横向连接和三个自上而下的连接，横向连接用于将自顶向下特征的通道降到

。更高级的特征通过自底向上的空间校正模块进行传输。相邻层的特征连接为：

，其中

是3x3卷积层，用于将维度降为

，

为空间校正变换，

为最近邻插值。由于最高层次的特征

没有自底向上的连接，只对它进行降维。

本发明采用预处理后的行人图像数据进行模型训练具体包括以下分步骤：

S21、利用特征金字塔结构提取预处理后的行人图像数据的多尺度图像特征，具体包括以下分步骤：

；

。

本发明先利用ResNet50作为骨干网络，提取四个不同尺度的特征，这四个尺度的特征的空间尺寸相对于输入图片的步长stride分别为

。将自顶向下的特征表示为

,

，

表示第i个尺度下的特征图。对四个尺度的输出特征分别使用

的小卷积，将其通道数变为256，得到

。对于256×192的RGB输入图像，空间大小分别为

。

S22、利用空间校正模块将特征金字塔结构中相邻的不同尺度特征进行初步融合和空间校准，如图3所示，具体包括以下分步骤：

S221、选取相邻的两个不同尺度特征

，将特征

进行上采样后再将两个特征进行初步融合，得到融合特征

，表示为

其中，

表示线性插值实现上采样操作，

表示Sigmoid激活函数；

该步骤中对于选择的相邻的两个不同尺度特征

，由于

的尺度为的

的两倍，故要先将

进行上采样，实现从小尺度空间映射到统一尺度空间的映射；再将两个特征进行初步融合，得到融合特征

。

S222、根据特征

和融合特征

进行特征变换，得到权重

，表示为

其中，

表示卷积操作，

表示逐元素乘运算；

该步骤通过特征变换来建立权重，用于进行上下级联的空间校准。

S223、根据特征

和权重

进行特征聚合，得到权重

，表示为

其中，

表示卷积操作，

表示聚合函数；

该步骤通过

保留原始的空间信息，再将输出结果进行特征聚合，得到输出权重

。

S224、对最小尺度特征进行降维处理。

该步骤中由于最小尺度特征，即底部最高层次的特征

没有自底向上的连接，只对特征

进行降维处理。

该步骤将经过空间校正模块处理的

以及

分别位于四个不同尺度的分支，每个分支通过多尺度特征融合模块建立多尺度空间关联依赖关系。

本发明利用非局部（Non-local）自注意力机制将经过空间校准后的多尺度图像特征进行多尺度特征融合，表示为

其中，x表示输入特征图，

表示响应因子，

表示当前关注位置的信息，

表示全局信息，

表示输出位置，如空间、时间或时空的索引，j表示特征图位置，

表示计算特征图在

和

位置的相似度函数，

表示计算特征图在

位置的表示函数。

本发明将相似度作为权重对特征图的所有位置表示进行加权求和，并通过响应因子

进行标准化处理得到

。

函数选择点乘（dot function）形式，具体公式为：

，其中

函数通过

卷积将通道维度减半。

S24、将经过多尺度特征融合的不同尺度输出特征和主分支输出特征通过SE-Net的通道注意力子网络进行分类预测，如图4所示，具体包括：

将经过多尺度特征融合的不同尺度输出和主分支输出通过SE-Net的通道注意力子网络的压缩（Squeeze）操作对各个通道进行权重分配，得到全局描述特征；

在该步骤中，本发明首先将输入特征图像进行映射，表示为

若卷积核为

，那么

，其中

代表一个3D卷积核。

然后通过Squeeze操作将一个通道上整个空间特征编码为一个全局特征，采用全局平均池化来实现，即

。

再通过SE-Net的通道注意力子网络的激活（Excitation）操作抓取通道之间的关系，然后将学习到的各个通道的激活值乘以原始特征，再分别经过全连接层和批标准化，获得每个分支的输出；

在该步骤中，本发明采用包含两个全连接层的瓶颈层（bottleneck）结构，即：

，其中

，

为降维系数。最后将学习到的各个通道的激活值乘以U上的原始特征，即：

。再分别经过全连接层和批标准化，获得每个分支的输出。

在该步骤中，本发明对四个尺度的输出和主分支输出

取最大值，通过取最大值进行投票，从五个分支中选择针对某一属性的最精确的区域。

本发明在模型训练过程中，还包括

将所有的属性分别进行一位有效（one-hot）编码，转换成多个二分类属性；

采用加权的Sigmoid交叉熵损失函数，表示为

其中，M表示总的属性数目，

表示不同尺度输出和主分支输出，

表示第m个属性的不同尺度输出和主分支输出，

为第m个属性的真实标签值，

为真实标签值，

为第m个属性在损失函数中的权重，权重计算公式为：

表示第

个属性取正值时在训练样本中出现的概率，权重越大，则该属性在训练时则获得更多的关注。

将五个分支的损失之和作为最终的损失，即

。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。