CN116188785A

CN116188785A - 运用弱标签的PolarMask老人轮廓分割方法

Info

Publication number: CN116188785A
Application number: CN202310484788.7A
Authority: CN
Inventors: 温廷羲; 童斌斌; 侯晴霏; 陈雨萍; 谢建华; 曾焕强
Original assignee: Fujian Huanyutong Technology Co ltd
Current assignee: Fujian Huanyutong Technology Co ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-05-30

Abstract

本发明运用弱标签的PolarMask老人轮廓分割方法，属于图像识别领域，采用基于PolarMask的极坐标建模方法设计老人的轮廓，并基于PolarMask模型构建老人轮廓分割模型，在老人轮廓分割模型的主干网络中引入注意力机制模块，使用弱标签数据集进行老人轮廓分割模型的预训练，在正式训练过程中，使用预训练出的预训练权重进行迁移学习，通过在老人轮廓分割模型中加入平滑约束损失函数，使得对预测出的老人的轮廓不断收敛，最终准确地识别出老人的轮廓和老人的姿态类型。本发明不仅可以极大程度地降低成本，同时也能节省训练的时间，加快推理速度。

Description

运用弱标签的PolarMask老人轮廓分割方法

技术领域

本发明属于图像识别领域，尤其涉及运用弱标签的PolarMask老人轮廓分割方法。

背景技术

针对老人行为识别与智能监控存在需求,现有视频图像中对老人行为识别与监控大多数基于目标识别方法，大致识别出老人所在位置以及老人当时的状态，这些状态包括直立或者跌倒。通过目标识别和姿态识别的方法，首先获取老人的目标框，通过人体骨骼节点的坐标识别老人的姿态。虽然目前的方法在一定程度上可以起到识别老人及其状态的效果，但是无法对老人的轮廓进行准确的识别。因此需要一种轮廓识别方法，不仅能够准确识别老人，还能对老人轮廓进行准确分割，为判断老人的姿态提供更多有用的信息，从而提高老人的姿态识别的准确性。

同时其他基于PolarMask的实例分割方法其精确度远远低于其他例如Mask R-CNN等实例分割方法。并且由于是深度学习模型，PolarMask需要大量的数据集进行训练才能达到预想的成果，而对一张图片进行分割类型的标记是十分费时费力的，平均标记一张图片需要1分钟的时间，因此训练模型也需要投入大量的成本。

发明内容

本发明的目的在于提供一种运用弱标签的PolarMask老人轮廓分割方法，实现老人的轮廓分割和姿态识别的目的，该方法不仅可以极大程度地降低成本，同时也能节省训练的时间，加快推理速度。

本发明运用弱标签的PolarMask老人轮廓分割方法，采用基于PolarMask的极坐标建模方法设计老人的轮廓，并基于PolarMask模型构建老人轮廓分割模型，在老人轮廓分割模型的主干网络中引入注意力机制模块，使用弱标签数据集进行老人轮廓分割模型的预训练，在正式训练过程中，使用预训练出的预训练权重进行迁移学习，通过在老人轮廓分割模型中加入平滑约束损失函数，使得对预测出的老人的轮廓不断收敛，最终准确地识别出老人的轮廓和老人的姿态类型。

具体包括如下步骤：

步骤1、基于PolarMask模型构建老人轮廓分割模型

基于Polarmask模型，将60根间隔相同角度的射线的端点连接在一起表示老人的轮廓，从而完成对老人的轮廓的极坐标建模；

所述老人轮廓分割模型以PolarMask为基础，由一个编码器和三个解码器组成，编码器采用ResNet18作为主干网络，使用特征金字塔FPN作为网络的neck，并且在每个残差块中加入了注意力机制模块，提高网络分割的准确率；三个解码器指的是三条分支，分别为Classification分支、Centerness分支和Polar Mask 分支，其中，Classification 分支使用4×4的Conv和1×1的Conv进行特征的提取，产生H×W×N的特征图进行老人的N种姿态的预测，实现对分割目标类别的预测，H、W分别代表输入的特征图的长和宽，N代表需要预测的老人姿态的种类；Centerness 分支使用4×4的Conv和1×1的Conv进行特征的提取，产生H×W×1的特征图进行极坐标中心点的预测；Polar Mask 分支使用4×4的Conv和1×1的Conv进行特征的提取，产生H×W×60的特征图对极坐标的60根射线的距离进行预测；

步骤2、设计损失函数

在预训练时，采用原本PolarMask中所使用的损失函数；在正式训练时对老人轮廓分割模型三条分支中的Polar Mask 分支的损失函数进行了改进，具体改进如下：

对Polar Mask分支的预测结果，保留PolarMask的损失函数Polar IoU loss，IoU是预测框与真实框两者间的交集区域和两者间的并集区域的比值，损失函数Polar IoUloss使用极坐标的60根射线距离的预测结果与真实射线的距离近似地表示出IoU的损失，损失函数Polar IoU loss的表达式如下所示：

（1）

其中，

为预测的n根射线中第i根射线长度，/>

为标签中n根射线中第i根真实射线的长度；

在原PolarMask的损失函数的基础上加入了平滑约束损失函数Smoothingconstraint loss，使得分割出的老人的轮廓更加平滑，其表达式如下所示：

（2）

其中，

为预测的n根射线中的第i根射线长度，/>

为平滑约束系数；

则Polar Mask分支的总损失函数loss表达式如下所示：

（3）；

步骤3、使用Box类型的弱标签数据集进行老人轮廓分割模型的预训练，用于训练出一个能够识别出老人信息位置的矩形框和老人的姿态类型的初级老人轮廓分割模型，在正式训练过程中，使用预训练出的预训练权重进行迁移学习，通过在老人轮廓分割模型中加入平滑约束损失函数，使得对预测出的老人的轮廓不断收敛，最终准确地识别出老人的轮廓和老人的姿态类型。

所述迁移学习的训练流程如下所示：

第一部分是使用Box类型的弱标签数据集进行老人轮廓分割模型的预训练，用于训练出一个能够识别出老人信息位置的矩形框和老人的姿态类型的初级老人轮廓分割模型：先制作用于预训练的弱标签数据集，将VOC格式的标签转化为COCO格式的标签，得到一个能够提供给模型进行初步分割老人轮廓的标签；预训练模型是在PolarMask中加入了之后要用于正式训练的模型相同的注意力机制模块，即用于预训练的模型要与正式训练的模型都采用了步骤1中的老人轮廓分割模型，只有模型中的Polar Mask分支的损失函数存在不同；

第二部分是使用预训练出的预训练权重的基础上继续进行正式训练，正式训练时，使用老人轮廓分割的非弱标签，该非弱标签为用于连接构成老人轮廓的多个点，在老人轮廓分割模型中加入平滑约束损失函数，使得对预测出的老人的轮廓不断收敛，最终准确地识别出老人的轮廓和老人的姿态类型。

所述注意力机制模块，选取属于通道注意力的SENet模型，该SENet 模型包括压缩和激励两个阶段，在压缩阶段对全局空间信息进行压缩，然后在通道维度进行特征学习，从而形成各个通道的注意力权重，最后通过激励阶段将压缩阶段生成的注意力权重作用于相应的通道上。

所述SENet 模型包括的压缩和激励两个阶段，具体为：先进行压缩阶段，使用Global pooling 将H×W×C的输入压缩为1×1×C的输出，随后进行激励阶段，激励阶段包括两个全连接层，第一个全连接层有C/r个神经元，输出为1×1×(C/r)，并使用ReLU激活函数；第二个全连接层有C个神经元，将输出恢复为1×1×C，并使用Sigmoid激活函数，其中r为第一个全连接层的压缩值，在激励阶段，通过学习每个通道的特征信息，并生成每个通道的注意力权重，最后将最终输出的1×1×C的通道注意力权重与原特征图相对应的通道相乘。

一种运用弱标签的PolarMask老人轮廓分割设备，所述设备包括处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于根据所述计算机程序执行上述任意一种运用弱标签的PolarMask老人轮廓分割方法。

一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述任意一种运用弱标签的PolarMask老人轮廓分割方法。

一种运行指令的芯片，该芯片用于执行上述任意一种运用弱标签的PolarMask老人轮廓分割方法。

本发明在PolarMask模型的基础上改进了损失函数，加入注意力机制模块，引入了基于弱标签的迁移学习，将该方法运用于老人轮廓实例分割以及姿态识别。采用Box类型的弱标签用于PolarMask模型的预训练，从而在老人轮廓分割模型中引入了迁移学习，与现有技术相比存在如下的技术效果：

本发明基于PolarMask对老人轮廓进行分割，通过计算36根射线的距离和角度等来辅助识别老人的姿态，采用标注简单的box类型的弱标签数据集进行PolarMask模型的预训练，之后对得到的预训练权重进行迁移学习。其他基于PolarMask的方法采用COCO类型的实例分割标签进行模型的训练，数据集的处理是十分的耗费时间的，这就会造成较高的成本。由于本发明采用Box类型的弱标签数据集进行模型预训练，通过Box类型的弱标签其标记的难度和花费的时间与实例分割类型的表现相比要少很多，因此所需的成本也会降低。在使用弱标签数据集进行模型预训练后，只需要使用少量的实例分割标签，进行修正就可以达到较好的效果。相较其他基于PolarMask的方法，本发明能够极大程度地节约成本。

本发明对原PolarMask模型中的损失函数进行了修改，在原PolarMask模型的损失函数的基础上加入了平滑约束损失函数，使得分割出的轮廓更加平滑。由于该损失函数能够学习相邻射线之间的关系，同时对轮廓起到一定的约束作用，因此能够提高模型分割的准确率。

（3）本发明在老人轮廓分割模型的主干网络中引入了注意力机制模块，也能在一定程度上提升网络的分割准确率。

（4）本发明采用了迁移学习，使得使用的预训练权重的值更加接近最优的收敛点，因此在之后的正式训练过程中只需要更短的训练时间就可以到达收敛点，使得网络更容易收敛到最优点，在提高准确度的同时，效率得到了提高，也在一定程度上提高了模型的泛化能力。

附图说明

图1为本发明的极坐标建模示意图；

图2为本发明的流程图；

图3为本发明基于弱标签的迁移训练方法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

本发明实施例一涉及一种运用弱标签的PolarMask老人轮廓分割方法，采用基于PolarMask的极坐标建模方法设计老人的轮廓，并基于PolarMask模型构建老人轮廓分割模型，在老人轮廓分割模型的主干网络中引入注意力机制模块，使用弱标签数据集进行老人轮廓分割模型的预训练，在正式训练过程中，使用预训练出的预训练权重进行迁移学习，通过在老人轮廓分割模型中加入平滑约束损失函数，使得对预测出的老人的轮廓不断收敛，最终准确地识别出老人的轮廓和老人的姿态类型，具体包括如下步骤：

步骤1、基于PolarMask模型构建老人轮廓分割模型

基于Polarmask模型，将60根间隔相同角度的射线的端点连接在一起表示老人的轮廓，从而完成对老人的轮廓的极坐标建模，如图1所示。

如图2所示，老人轮廓分割模型以PolarMask为基础，由一个编码器和三个解码器组成，编码器采用ResNet18作为主干网络，使用特征金字塔FPN作为网络的neck，并且在每个残差块中加入了注意力机制模块，提高网络分割的准确率；三个解码器指的是三条分支，分别为Classification分支、Centerness分支和Polar Mask 分支，其中，Classification分支使用4×4的Conv和1×1的Conv进行特征的提取，产生H×W×N的特征图进行老人的N种姿态的预测，实现对分割目标类别的预测，H、W分别代表输入的特征图的长和宽，N代表需要预测的老人姿态的种类；Centerness 分支使用4×4的Conv和1×1的Conv进行特征的提取，产生H×W×1的特征图进行极坐标中心点的预测；Polar Mask 分支使用4×4的Conv和1×1的Conv进行特征的提取，产生H×W×60的特征图对极坐标的60根射线的距离进行预测。

所述注意力机制模块，选取属于通道注意力的SENet模型（Squeeze-and-Excitation Networks），SENet 模型包括压缩和激励两个阶段，在压缩阶段对全局空间信息进行压缩，然后在通道维度进行特征学习，从而形成各个通道的注意力权重，最后通过激励阶段将压缩阶段生成的注意力权重作用于相应的通道上，具体为：

先进行压缩阶段，使用Global pooling 将H×W×C的输入压缩为1×1×C的输出，随后进行激励阶段，激励阶段包括两个全连接层，第一个全连接层有C/r个神经元，输出为1×1×(C/r)，并使用ReLU激活函数；第二个全连接层有C个神经元，将输出恢复为1×1×C，并使用Sigmoid激活函数，其中r为第一个全连接层的压缩值，一般取16效果较好。在激励阶段，通过学习每个通道的特征信息，并生成每个通道的注意力权重，最后将最终输出的1×1×C的通道注意力权重与原特征图相对应的通道相乘。

步骤2、设计损失函数

在预训练时，采用了原本PolarMask中所使用的损失函数。在正式训练时对如图2的三条分支中的Polar Mask 分支的损失函数进行了改进，具体改进如下：

（1）

其中，

为预测的n根射线中第i根射线长度，/>

为标签中n根射线中第i根真实射线的长度；

损失函数Polar IoU loss虽然能够有效地表示出极坐标的IoU loss，但是没有考虑相邻极坐标间的关系。在使用极坐标表示老人轮廓时，若相邻两根射线的长度十分相近并且相邻射线长度波动不大时，由其表示的老人轮廓就越平滑，因此，在原PolarMask的损失函数的基础上加入了平滑约束损失函数Smoothing constraint loss，使得分割出的老人的轮廓更加平滑，其表达式如下所示：

（2）

其中，

为预测的n根射线中的第i根射线长度，/>

为平滑约束系数；

因此，Polar Mask分支的总损失函数loss是对原PolarMask中的损失函数进行了修改，在原有的损失函数Polar IoU loss的基础上加入平滑约束损失函数Smoothingconstraint loss，使得老人轮廓分割模型不仅具备学习相邻射线间信息的能力，还能帮助模型快速收敛，最终预测出更加平滑的老人轮廓，Polar Mask分支的总损失函数loss表达式如下所示：

（3）

步骤3、使用Box类型的弱标签数据集进行老人轮廓分割模型的预训练，用于训练出一个能够识别出老人信息位置的矩形框和老人的姿态类型的初级老人轮廓分割模型，在正式训练过程中，使用预训练出的预训练权重进行迁移学习，通过在老人轮廓分割模型中加入平滑约束损失函数，使得对预测出的老人的轮廓不断收敛，最终准确地识别出老人的轮廓和老人的姿态类型；

由于一些图片中有多个人像，并且会有重叠，如果采用分割的标签进行标注，将消耗大量的人力。本发明使用Box类型的弱标签数据集进行老人轮廓分割模型的预训练。由于Box标签大多是VOC格式的弱标签，因此，先将VOC格式的弱标签转换为COCO格式的标签，得到一个能够提供给模型进行初步分割老人轮廓的标签，具体转换方法是：将由VOC格式中用来表示识别目标的矩形框的两个点，即boxes左上角的点minimum和boxes右下角的点maximum，转化为COCO格式中的“segmentation”的4个。

本发明使用Box类型的弱标签数据集的预训练权重。该数据集数量较多，相对分割类型的掩膜，使用bounding boxes更容易对老人轮廓进行标注。使用该数据集训练出的预训练权重进行迁移学习能够有效地提高模型的分割精度。该预训练权重更加适合用于训练老人轮廓的分割模型。因为该预训练权重已经提前学习了老人轮廓的相关信息，更有利于接下来分割模型收敛到最优点，从而提高了模型的分割的准确率。

使用非弱标签进行正式训练，在预训练模型的基础上加入平滑约束损失函数，从而达到更好的分割精度，以及更快的收敛速度。

具体迁移学习的训练流程如图3所示，可以分为两大部分。

第一部分是使用Box类型的弱标签数据集进行老人轮廓分割模型的预训练，用于训练出一个能够识别出老人信息位置的矩形框和老人的姿态类型的初级老人轮廓分割模型：先制作用于预训练的弱标签数据集，将VOC格式的标签转化为COCO格式的标签，得到一个能够提供给模型进行初步分割老人轮廓的标签。该数据集制作简单，同时数量较多，使用成本较低。预训练模型是在PolarMask中加入了之后要用于正式训练的模型相同的注意力机制模块，即用于预训练的模型要与正式训练的模型都采用了步骤1中的老人轮廓分割模型，只有模型中的Polar Mask分支的损失函数存在不同。第二部分是使用预训练出的预训练权重的基础上继续进行正式训练。正式训练时，使用成本较高的老人轮廓分割的非弱标签，该非弱标签为用于连接构成老人轮廓的多个点，为了提高老人轮廓分割的准确性和平滑程度，在老人轮廓分割模型中加入了平滑约束损失函数，这些操作使得对预测出的老人的轮廓不断收敛，最终准确地识别出老人的轮廓和老人的姿态类型。

实施例二

本发明实施例二提供一种运用弱标签的PolarMask老人轮廓分割设备，该设备可以为前述的终端设备或者服务器，也可以为与前述终端设备或者服务器连接的实现本发明实施例一方法的终端设备或服务器。

该设备可以包括：处理器(例如CPU)、存储器、数据采集装置；处理器连接并控制数据采集装置。存储器中可以存储各种指令，以用于完成各种处理功能以及实现前述实施例一方法描述的处理步骤。

实施例三

本发明实施例三还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例一方法所描述的处理步骤。

实施例四

本发明实施例四还提供一种运行指令的芯片，该芯片用于执行前述实施例一方法所描述的处理步骤。

专业人员应该还可以进一步意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.运用弱标签的PolarMask老人轮廓分割方法，其特征在于：采用基于PolarMask的极坐标建模方法设计老人的轮廓，并基于PolarMask模型构建老人轮廓分割模型，在老人轮廓分割模型的主干网络中引入注意力机制模块，使用弱标签数据集进行老人轮廓分割模型的预训练，在正式训练过程中，使用预训练出的预训练权重进行迁移学习，通过在老人轮廓分割模型中加入平滑约束损失函数，使得对预测出的老人的轮廓不断收敛，最终准确地识别出老人的轮廓和老人的姿态类型。

2.根据权利要求1所述的运用弱标签的PolarMask老人轮廓分割方法，其特征在于具体包括如下步骤：

步骤1、基于PolarMask模型构建老人轮廓分割模型

步骤2、设计损失函数

对Polar Mask分支的预测结果，保留PolarMask的损失函数Polar IoU loss，IoU是预测框与真实框两者间的交集区域和两者间的并集区域的比值，损失函数Polar IoU loss使用极坐标的60根射线距离的预测结果与真实射线的距离近似地表示出IoU的损失，损失函数Polar IoU loss的表达式如下所示：

，

其中，

为预测的n根射线中第i根射线长度，/>

为标签中n根射线中第i根真实射线的长度；

在原PolarMask的损失函数的基础上加入了平滑约束损失函数Smoothing constraintloss，使得分割出的老人的轮廓更加平滑，其表达式如下所示：

，

其中，

为预测的n根射线中的第i根射线长度，/>

为平滑约束系数；

则Polar Mask分支的总损失函数loss表达式如下所示：

；

3.根据权利要求2所述的运用弱标签的PolarMask老人轮廓分割方法，其特征在于所述迁移学习的训练流程如下所示：

4.根据权利要求2所述的运用弱标签的PolarMask老人轮廓分割方法，其特征在于：所述注意力机制模块，选取属于通道注意力的SENet模型，该SENet 模型包括压缩和激励两个阶段，在压缩阶段对全局空间信息进行压缩，然后在通道维度进行特征学习，从而形成各个通道的注意力权重，最后通过激励阶段将压缩阶段生成的注意力权重作用于相应的通道上。

5.根据权利要求4所述的运用弱标签的PolarMask老人轮廓分割方法，其特征在于所述SENet 模型包括的压缩和激励两个阶段，具体为：先进行压缩阶段，使用Global pooling将H×W×C的输入压缩为1×1×C的输出，随后进行激励阶段，激励阶段包括两个全连接层，第一个全连接层有C/r个神经元，输出为1×1×(C/r)，并使用ReLU激活函数；第二个全连接层有C个神经元，将输出恢复为1×1×C，并使用Sigmoid激活函数，其中r为第一个全连接层的压缩值，在激励阶段，通过学习每个通道的特征信息，并生成每个通道的注意力权重，最后将最终输出的1×1×C的通道注意力权重与原特征图相对应的通道相乘。

6.一种运用弱标签的PolarMask老人轮廓分割设备，其特征在于：所述设备包括处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于根据所述计算机程序执行权利要求1-5任意一种所述运用弱标签的PolarMask老人轮廓分割方法。

7.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-5任意一种所述运用弱标签的PolarMask老人轮廓分割方法。

8.一种运行指令的芯片，其特征在于：该芯片用于执行权利要求1-5任意一种所述运用弱标签的PolarMask老人轮廓分割方法。