CN115147893A

CN115147893A - 基于对比与一致学习的无监督人体解析方法及装置

Info

Publication number: CN115147893A
Application number: CN202210641926.3A
Authority: CN
Inventors: 张小梅; 朱翔昱; 范志鸿; 庞恺
Original assignee: Guangzhou Pixel Solutions Co ltd
Current assignee: Guangzhou Pixel Solutions Co ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-10-04

Abstract

本发明公开了一种基于对比与一致学习的无监督人体解析方法及装置，其中方法包括：将人体解析图像进行数据扩增，使每张图像生成两个视图；将两个视图分别输入到特征提取器，提取图像特征；将图像特征分别输入到部件对比模块和像素一致模块，其中，部件对比模块通过对比学习从部件中区分出相似部件，其将语义一致的部件拉近，语义不同的部件尽可能的远，像素一致模块对经过数据扩增得到的两个视图，鼓励同一位置像素的特征一致；通过K‑Means算法生成伪标签；将伪标签作为监督信号，训练上述网络；在测试过程中，通过网络预测出图像的解析结果。

Description

基于对比与一致学习的无监督人体解析方法及装置

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于对比与一致学习的无监督人体解析方法及装置。

背景技术

人体解析是计算机视觉中的热门研究课题之一，也是基于视觉的模式识别应用的一个重要研究方向。人体解析是一种像素级的精细语义分类任务，将图像中每个像素分类为具有不同语义的人体部件，比如头、躯干、手臂和腿等类别。其在人机交互、姿态识别、行人重识别和行为分析等领域具有广泛的应用价值和发展前景。当前人体解析研究以有监督学习方式为主，随着性能提升的同时，需要付出高昂的人工和时间成本对数据进行逐像素的标注。

随着深度学习技术的快速发展，很多需要大量分析图像的领域都引入了相关算法，人体解析任务性能也得到了大幅度提升。然而将人体解析应用到某个特殊场景是，常常面临需要大量标注数据的窘境，这大大增加了研发的时间和经济成本。近期无监督学习逐渐得到重视，其训练目标不引人任何标注信息，通过设计精巧的损失函数，融合相应约束条件，实现目标任务。2019年IEEE Conference on Computer Vision and PatternRecognition会议上收录的《SCOPS:Self-Supervised Co-Part Segmentation》通过无监督的方式，解决目标部件解析任务，其设计了三种自监督约束条件，几何一致性、同变性约束和语义一致性，使其在人脸解析、鸟类解析和绵羊解析等任务上取得了不错的结果，但是其忽略了外观相似但语义不同的部件。

为了实现无监督的人体解析任务，例如2021年IEEE Conference on ComputerVision and Pattern Recognition会议上收录的《Unsupervised Part Segmentationthrough Disentangling Appearance and Shape》解耦物体部件的形状和外观信息，并对图像进行重建。为了更加有效地解耦，提出了一个挤压和扩增模块。同时改进几何集中约束提升部件的语义一致性。但是，这种方法没有充分地利用部件的全局特征，而全局特征对于解析部件语义非常关键。

基于无监督的通用物体分割也广泛应用，例如发明专利《一种基于无监督或弱监督方式的图像分割数据标注方法及系统》，采用图像域适应模块对所述待标注图像数据在像素空间中进行域的变换，然后特征适应模块通过最大限度地利用学习的源和目标表示来欺骗域鉴别器，通过对抗的方式不同学习。但是这种方法，仍然需要对源数据进行标注。

但现有技术中缺少解决人体解析的两个关键问题：(1)难以区分外观相似但语义不同的部件；(2)没有充分利用部件的全局特征，影响解析精度。

发明内容

针对现有技术中的不足，本发明提供一种基于对比与一致学习的无监督人体解析方法及装置。

为实现上述目的，本发明可以采取以下技术方案：

一种基于对比与一致学习的无监督人体解析方法，其包括以下步骤：

步骤1：将包含人脸解析的图像数据进行数据扩增，其中，每一所述图像数据生成两个视图数据；

步骤2：将两个所述视图数据输入到特征提取器提取各自的图像特征；

步骤3：将所述图像特征分别依次输入到部件对比模块和像素一致模块，以区分相似部件和鼓励同一位置像素特征一致，同时，通过K-Means算法生成伪标签；

步骤4：将所述伪标签作为监督信号来训练网络，在测试过程中，通过网络预测出图像的解析结果。

如上所述的基于对比与一致学习的无监督人体解析方法，进一步地，在所述步骤1中，通过随机光度变换改变所述图像数据的浅层外观，从而生成一所述图像数据的两个视图数据，其中，生成过程表示为：

x¹＝P¹(x)

x²＝P²(x)

如上所述的基于对比与一致学习的无监督人体解析方法，进一步地，在所述步骤2中，提取所述图像特征的方法包括任何形式的全卷积神经网络。

如上所述的基于对比与一致学习的无监督人体解析方法，进一步地，在所述步骤3中，所述部件对比模块包括一全局池化层和两全连接层，

在所述部件对比模块内的处理过程具体包括：

对于每个编码的查询部件g，有一组编码的键部件t₀,t₁,…,t_n与之对应，其中，对于每个查询部件g，编码的键部件有一个正样本t₊和N-1个负样本t_-；

编码的查询和键部件分别来自输入所述视图数据的不同视图数据，且每个查询和键部件编码一个人体部件；

正样本t₊编码不同视图数据的相同部件，负样本t_-编码不同视图数据中的其他部件；

从而利用对比损失使g的特征和正样本t₊的特征更相似，同时和N-1个负样本t_-尽可能的不相同，其中，区别过程表示为：

其中，τ表示一个温度超参数。

如上所述的基于对比与一致学习的无监督人体解析方法，进一步地，在所述步骤3中，所述像素一致模块包括自监督模块和FFNs模块，

在所述自监督模块内的处理过程具体包括：

生成空间对应特征F∈R^HW×C过程表示为：

F＝multi(m),

其中，Q∈R^HW×C、K∈R^HW×C和V∈R^HW×C是自监督模块的三个输入，H、W和C分别表示特征提取网络输出m的高度、宽度和通道数；

在所述FFNs模块内的处理过程具体包括：

其中，F∈R^HW×C表示自监督模块的输出特征，D∈R^HW×k表示编码矩阵，λ表示正则化参数。通过L₁损失参数一个稀疏解α(α≥0)；

为了避免D任意大，当α无限接近0时，通过约束D的大小进行实现，具体的，

在FFNs模块上执行此稀疏编码，将自监督模块的输出F作为输入,其稀疏编码损失如下：

然后，Dα和F直接相连，作为网络的输出，像素一致模块的输出表示为：

如上所述的基于对比与一致学习的无监督人体解析方法，进一步地，在所述步骤3中，通过K-Means算法生成伪标签，具体过程表示为：

将z¹和z²作为伪标签存储起来。

如上所述的基于对比与一致学习的无监督人体解析方法，进一步地，在所述步骤4中，

以z¹和z²作为伪标签监督网络的训练，训练过程表示为：

一种无监督人体解析装置，其包括：

存储模块，其用于存储人体解析数据集；以及，

与所述存储模块耦合的处理模块，其用于执行所述的方法以处理所述人体解析数据集。

本发明与现有技术相比，其有益效果在于：

(1)基于对比与一致学习的无监督方法可以不依赖标注数据，实现人体图像像素级的解析；

(2)部件对比模块通过对比学习从部件中区分相似部件，其将语义一致的部件拉近，语义不同的部件尽可能远；

(3)像素一致模块鼓励一张图像两个视图在同一位置像素特征一致；

(4)稀疏编码对空间位置相关性进行选择，提升模式分析的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图进行简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的总体流程示意图；

图2为本发明实施例设计基于对比与一致学习的无监督人体解析网络总体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例：

需要说明的是，本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，本发明提出了利用无监督学习来解析人体，实现不依赖标注数据并且可以准确预测出部件类别的目标。使用无监督方式实现人体语义最细粒度的表达使得该任务非常具有挑战性，同时，在自然场景下，由于人体部件的尺度、遮挡、姿态和形态等状态的多样性，人体部件的表观特征变化较大。

因此，我们提出部件对比模块获取部件全局信息，区分相似部件，同时我们提出像素一致模块鼓励一张图像经过扩增得到的两个视图，在同一位置像素特征一致，从而，实现准确的基于无监督的人体解析。

参见图1，一种基于对比与一致学习的无监督人体解析方法，可以包括以下步骤：

步骤S1，将人脸解析图像进行数据扩增，每张图像生成两个视图；

步骤S2，将两个视图分别输入到特征提取器，提取图像特征；

步骤S3，将图像特征分别输入到部件对比模块和像素一致模块，来区分相似部件和鼓励同一位置像素特征一致，同时，通过K-Means算法生成伪标签；

步骤S4，将伪标签作为监督信号，训练网络。在测试过程中，通过网络预测出图像的解析结果。

作为一种可选的实施方式，在某些实施例中，在步骤S1中，通过随机光度变换(比如：亮度变化、灰度变化、色调变化)改变图像的浅层外观，获得一张图像x的两个视图(x¹和x²)，但两个视图的语义内容基本没变。其可以增强网络的鲁棒性，同时可以减少姿态和形态等状态多样性的干扰。其公式如下所示：

作为一种可选的实施方式，在某些实施例中，在步骤S2中，特征提取网络可以是任何形式的全卷积神经网络(比如：DeepLab系列、PSPNet)，本方法使用改进的ResNet18，并进一步采用FPN扩大网络的感受野。步骤S1中产生的两个视图，分别送入特征提取器f_θ，提取图像特征。

作为一种可选的实施方式，在某些实施例中，在步骤S3中，基于对比与一致学习的无监督人体解析方法包含部件对比和像素一致两个模块，具体步骤如下：

子步骤S31，部件对比模块由一个全局池化层和两个全连接层构成。对于每个编码的查询部件g，有一组编码的键部件t₀,t₁,…,t_n与之对应，其中，对于每个查询部件g，编码的键部件有一个正样本t₊和N-1个负样本t_-。编码的查询和键分别来自输入图像的不同视图，并且每个查询和键编码一个人体部件。正样本t₊编码不同视图的相同部件，负样本t_-编码不同视图中的其他部件。本方法使用对比损失使g的特征和正样本t₊的特征更相似，同时和N-1个负样本t_-尽可能的不相同，其公式如下所示：

其中，τ表示一个温度超参数。

子步骤S32，子步骤S31会丢失一些有用的信息，不能很好地满足稠密像素分类的需求。因此，像素一致模块参考了transformer编码部分，首先使用了multi-head自监督模块，其通过刻画每个元素的特征嵌入，同时考虑与其他元素的关联，从而获取每个像素的空间对应关系。具体地，我们将特征提取网络的输出，经过LN层生成自监督模块的三个输入，分别是Q∈R^HW×C、K∈R^HW×C和V∈R^HW×C，这里H、W和C分别表示特征提取网络输出m的高度、宽度和通道数。经过自监督模块生成空间对应特征F∈R^HW×C，整个过程可以描述为如下：

F＝multi(m), (3)

通过对人体语义解析数据集进行端到端地训练，获得空间相关性。对特征进行选择可以提高特征的有效性，是模式分析的关键。因此，本方法对transformer编码部分的FFNs模块执行稀疏操作。我们首先简要回顾稀疏代码算法。稀疏代码是一种用于学习任何给定数据的有用稀疏表示的算法。下面目标函数的数学表示可以帮助解决这个问题：

其中，F∈R^HW×C表示自监督模块的输出特征，D∈R^HW×k表示编码矩阵，λ表示正则化参数。通过L₁损失参数一个稀疏解α(α≥0)。为了避免D任意大，当α无限接近0时，通过约束D的大小进行实现，如下所示

本方法在FFNs上执行此稀疏编码，transformer编码部分的自监督模块的输出F作为输入,其稀疏编码损失如下：

然后，Dα和F直接相连，作为网络的输出。像素一致模块可以描述为如下所示：

子步骤S33，为了进一步获得网络的伪标签，我们采用K-Means的方式将特征聚类。其过程如下：

将z¹和z²作为伪标签存储起来。

一些实施例中,在步骤S4中，以z¹和z²作为伪标签监督网络的训练。其过程如下：

通过上述方法，我们依赖无标签数据，可以准确预测出像素的类别，整个过程的伪代码如下：

表1基于对比与一致学习的无监督人体解析示意图

可以理解的是，为了保证训练稳定，可以使用较小学习率训练几个epoch，然后再使用大学习率加速网络的收敛，逐步迭代训练。

同时，本发明也提供执行基于对比与一致学习的无监督人体解析方法的电子设备，其包括：图像增强模块、部件对比模块、像素一致模块以及伪标签存储模块，其中，图像增强模块通过数据扩增将每张图像扩增为两个视图，增强网络鲁棒性。部件对比模块通过对比学习从部件中区分相似部件，其将语义一致的部件拉近，语义不同的部件尽可能远。像素一致模块鼓励两个视图在同一位置像素具有特征一致性。伪标签存储模块用来存储通过K-Means算法聚类生成的伪标签，进而训练解析网络。

同时，本发明也提供执行基于对比与一致学习的无监督人体解析方法的装置，其包括：存储模块和与所述存储模块耦合的处理模块，其中，存储模块用于存储人体解析数据集；处理模块用于执行无监督人体解析方法转化的代码进而处理所述人体解析数据集。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰，都应涵盖在本发明的保护范围内。