CN113313173B

CN113313173B - 基于图表示和改进Transformer的人体解析方法

Info

Publication number: CN113313173B
Application number: CN202110608046.1A
Authority: CN
Inventors: 苏卓; 陈敏诗; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2023-05-30
Anticipated expiration: 2041-06-01
Also published as: CN113313173A

Abstract

本发明公开了一种基于图表示和改进Transformer的人体解析方法。本发明从高维的特征表示嵌入为低维的图特征，并以改进的Transformer来进行推理计算，捕捉上下文特征关系，生成新的图特征重新解码为精解析图，从而以高效的方式迭代训练整个模型得到最终的解析结果。本发明仅根据人体层次结构的先验知识，更高效率地进行推理计算；对图表示的人体部位特征进行推理，能够在后续的迭代推理中节约更多的计算成本；改进了Transformer的结构，对人体各个部位特征的上下文信息进行全局性提取和整合，从而全面地感知不同人体部位的关联度，使得解析结果的精度更高。

Description

基于图表示和改进Transformer的人体解析方法

技术领域

本发明涉及计算机视觉与图像处理技术领域，具体涉及一种基于图表示和改进Transformer的人体解析方法。

背景技术

人体解析是计算机视觉中一个重要且具有挑战性课题，它通过密集型预测每个像素点，由此划分多个语义来理解人体的各个部位。近年研究表明，人体解析被广泛应用于人体分析的任务，例如人体图像生成、虚拟试衣、姿态估计、行人重识别等。

人体解析是对人体进行语义分割，实际上是完成像素级的分类。由于每个像素点分别对应不同的语义标签，而这些不同类别的语义标签具有共享的特征和一定关联性。目前的方法分为三个方面：一是利用多种先验知识，根据多任务学习的方式，学习不同种类的特征，并尝试去挖掘这些特征之间的共享特征，由此逐步建立它们之间的关系，以达到好的解析效果；二是不直接通过先验数据，而从构建更好的特征表示的角度来开展工作，以新颖的网络结构的方式，如连接底层高分辨率特征和高层语义、扩大感受野、多尺度提取特征，通过加入跳跃连接、膨胀卷积、空洞空间金字塔池化等操作，或者以生成对抗网络设计对抗损失来获得增强的效果；三是从更接近人类视觉的角度，围绕注意力机制，提出通道注意力、自注意力等，而这些机制进一步被扩展为非局部网络、图卷积网络。

目前的现有技术之一，论文“Correlating Edge,Pose With Parsing”提出的基于人体姿势和边缘先验信息的人体解析方法，包括：基于骨干网络生成初始解析特征图，在骨干网络开设两个分支，分别用于姿势估计和边缘检测任务的训练，以大量的先验知识来捕捉丰富的结构信息。将这两个分支生成的特征，与初始解析特征在非局部网络中进行融合，最终输出人体解析结果。

该方法的缺点是：使用姿势和边缘特征，需要大量额外的先验数据来训练。另外，没有考虑标签的固有分类，即没有对人体部位的显式语义关联进行建模，这会在标签数目少且细粒度的情况下，识别效果难以令人满意。

目前的现有技术之二，论文“Feature Pyramid Transformer”提出的基于特征金字塔Transformer的人体解析方法，其由四个部分组成：特征提取的骨干网络；特征金字塔构造模块；用于特征交互的特征金字塔Transformer，通过三层尺度不同的特征图，构造出特征金字塔，将其输入Transformer进行计算；最后是具体任务的头网络。

该方法的缺点是：将三种特征图作为输入Transformer的序列，以近似逐像素来计算关联度，其对计算资源消耗非常大。

目前的现有技术之三，论文“Graph Pyramid Mutual Learning for Cross-Dataset Human Parsing”提出的基于图金字塔互学习的人体解析方法，包括：对输入的图片进行特征图提取，并转换为图特征，将这些图特征在图卷积神经网络中迭代训练，得到不同层次的图特征，并进行反变换，最终输出为解析特征图。

该方法的缺点是：该方法的图卷积神经网络需要不断迭代来弥补全局信息关联度获取不足的缺点，因为其在消息传递机制的过程中，不同人体结构层次间的共享信息难以并行计算，需要等待图结点信息的逐个更新。只考虑了特征级别的共享信息，而忽视了潜在的标签层次结构和语义上下文的关联性。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于图表示和改进Transformer的人体解析方法。本发明解决的主要问题，一是如何在不采用大量的先验数据的情况下高效地完成人体解析任务，减少计算复杂度；二是如何采用图表示的方式对图像特征进行嵌入表示从而降低计算成本；三是如何使用改进的Transformer的编解码结构来处理图表示的特征，从而获取不同的人体部位的上下文信息。

为了解决上述问题，本发明提出了一种基于图表示和改进Transformer的人体解析方法，所述方法包括：

第一步，从服装数据集输入原始人体图像和分割真值图，并做预处理；

第二步，对所述预处理后的原始人体图像，使用DeeplabV3+网络生成粗解析图，并计算得到各个部位的分割掩码；

第三步，根据人体层次结构的先验知识，定义出语义类别数目和标签层次结构信息，从而定义三种邻接矩阵，作为输入图-Transformer结构的掩膜；

第四步，利用所述各个部位的分割掩码，以及利用所述语义类别数目和标签层次结构信息，将高维的所述粗解析图嵌入表示为图特征；

第五步，利用所述图特征和所述三种邻接矩阵，通过图-Transformer结构对全局信息推理传播，计算出新的图特征；

第六步，使用所述新的图特征和所述各个部位的分割掩码，计算出中间解析图，将其与所述粗解析图进行融合得到精解析图；

第七步，利用所述预处理后的原始人体图像，在神经网络的编码解码结构中重复上述第二、四、五、六步进行训练，形成最终人体解析模型；

第八步，输入待处理人体图像到所述最终人体解析模型中，得到需要的精解析图。

优选地，所述从服装数据集输入原始人体图像和分割真值图，并做预处理，具体为：

原始人体图像指各种场景中，穿着不同样式服装的人体图像；

分割真值图指对应各个像素点分类好标签的图像；

对所述原始人体图像做颜色归一化处理，且对图像尺寸处理成统一大小；

为了更好地解析左右两个方位，需要做数据增强的操作，使图像的左右两边翻转，以达到处理左右两边部位位置的正确解析。

优选地，所述对所述预处理后的原始人体图像，使用DeeplabV3+网络生成粗解析图，并计算得到各个部位的分割掩码，具体为：

将所述预处理后的原始人体图像输入到DeeplabV3+网络中，由该网络中的卷积层处理后得到特征图；

所述DeeplabV3+网络中的空洞空间卷积池化金字塔层对所述特征图以不同采样率的空洞卷积并行采样，以不同比例捕捉所述特征图的上下文信息，从而生成的粗解析图具有较丰富的特征信息进入下一网络结构；

所述粗解析图表示为Z∈R^C×H×W，其中C，H和W分别是所述特征图的通道数、高和宽，R为实数域；

所述粗解析图，其含有18个图层，每个图层表示一类人体部位，通过对每一个图层的各个位置做类别匹配，若该位置存在人体部位的标签序号用1表示，背景部分的位置用0表示，再通过平均池化和最大池化得到各个部位的二进制分割掩码。

优选地，根据人体层次结构的先验知识，定义出语义类别数目和标签层次结构信息，从而定义三种邻接矩阵，作为输入图-Transformer结构的掩膜，具体为：

根据人体层次结构，定义三种层次的语义标签结构，再根据该语义标签结构，将标签序号转换成图结点的邻接矩阵A^(j)∈R^N×N，其中j∈[1,3]分别表示三个邻接矩阵，由此表示的无向图为G＝(V,E)，语义结点V表示标签类别，即结点数等于标签类别数N＝|V|，图的边E由类别间的关系决定，对于两个结点不存在边相连的矩阵元素定义为-inf，其余存在关系的位置设为0，使后续计算的注意力权重可以在(0,1)的数值范围内更新。

优选地，所述利用所述各个部位的分割掩码，以及利用所述语义类别数目和标签层次结构信息，将高维的所述粗解析图嵌入表示为图特征，具体为：

输入所述各个部位的分割掩码，即所述通过平均池化和最大池化得到的二进制掩码，记为M^(k)∈R^N×H×W，其中k为1、2时分别代表平均池化和最大池化操作的掩码，H，W和C分别为掩码图层的高、宽和通道数；

将两种分割掩码分别与所述粗解析图执行矩阵乘法再相加，将此过程表示为映射Z，即通过

得到嵌入表示的图特征Y∈R^N×D，其中D是每个图结点的特征维数，所述图结点的数目为N，即为人体部位的标签数目。

优选地，所述利用所述图特征和所述三种邻接矩阵，通过图-Transformer结构对全局信息推理传播，计算出新的图特征，具体为：

将所述图特征Y∈R^N×D作为图-Transformer的输入序列，设向量p＝[0,1,2,…,N-1]^T为各个人体部位的位置编码，其中N为人体部位的标签数，将所述位置编码与所述图特征做级联操作，组成图-Transformer的新的输入序列；

将所述新的输入序列通过多头注意力机制的部分计算，得到初始的兼容性得分，再将所述三种邻接矩阵作为掩膜输入，与初始的兼容性得分相加作为一种负向约束，以抑制不存在关系的结点的权重，从而得到更新的兼容性得分；

将所述更新的兼容性得分做softmax归一化处理，得到0到1之间的注意力掩码；

计算所述图结点之间的特征向量的余弦相似度，从而可得出图结点之间的关系矩阵B⁽ⁱ⁾∈R^N×N，其中i∈[1,3]分别表示三个关系矩阵；

将所述关系矩阵和所述注意力掩码做矩阵乘法，得到三种中间图特征；

将所述三种中间图特征与所述邻接矩阵A^(j)∈R^N×N计算L1损失；

将所述三种中间图特征做级联操作，得到融合图特征，融合后进行非线性变换，得到增强的图特征，其维度与输入图-Transformer时一致，迭代计算上述步骤一定次数，最终输出为新的图特征Y′∈R^N×D。

优选地，所述使用所述新的图特征和所述各个部位的分割掩码，计算出中间解析图，将其与所述粗解析图进行融合得到精解析图，具体为：

将所述二进制分割掩码M^(k)∈R^N×H×W与所述新的图特征Y′∈R^N×D做矩阵乘法，由此可以将图特征中每一个人体标签类别的图表示的特征向量转换为特征图，得到中间解析图；

对所述中间解析图做1*1的卷积操作，将其通道数设定为256个，以便与粗解析图进行相加融合，得到最终的精解析图Z′∈R^C×H×W。

优选地，所述利用所述预处理后的原始人体图像，在神经网络的编码解码结构中重复上述第二、四、五、六步进行训练，形成最终人体解析模型，具体为：

设计总体的训练目标函数如下：

L＝L_P+λL_G

其中L是总体损失值，L_P是解析图的损失值，L_G是图特征的损失值，λ为损失权重，训练直至目标函数的结果接近收敛，其中，对所述粗解析图和所述精解析图都应用交叉熵与分割真值图来计算像素级损失求和：

其中H和W表示图像的高和宽，m表示图像中的像素点，N表示人体部位的数目即标签数，n表示其中的一个部位，Z_mn表示解析结果图的像素值，

表示分割真值图的像素值。

实施本发明，具有如下有益效果：

本发明无需使用人体姿势、边缘等先验数据，而是仅根据人体层次结构的先验知识，更高效率地进行推理计算；对图表示的人体部位特征进行推理，通过高维数据嵌入到低维图表示的方式，能够在后续的迭代推理中节约更多的计算成本；改进了Transformer的结构，使其在人体解析的场景中，对人体各个部位特征的上下文信息进行全局性提取和整合，从而全面地感知不同人体部位的关联度，使得解析结果的精度更高。

附图说明

图1是本发明实施例的一种基于图表示和改进Transformer的人体解析方法的总体流程图；

图2是本发明实施例的图-Transformer的算法流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种基于图表示和改进Transformer的人体解析方法的总体流程图，如图1所示，该方法包括：

S1，从服装数据集输入原始人体图像和分割真值图，并做预处理；

S2，对所述预处理后的原始人体图像，使用DeeplabV3+网络生成粗解析图，并计算得到各个部位的分割掩码；

S3，根据人体层次结构的先验知识，定义出语义类别数目和标签层次结构信息，从而定义三种邻接矩阵，作为输入图-Transformer结构的掩膜；

S4，利用所述各个部位的分割掩码，以及利用所述语义类别数目和标签层次结构信息，将高维的所述粗解析图嵌入表示为图特征；

S5，利用所述图特征和所述三种邻接矩阵，通过图-Transformer结构对全局信息推理传播，计算出新的图特征；

S6，使用所述新的图特征和所述各个部位的分割掩码，计算出中间解析图，将其与所述粗解析图进行融合得到精解析图；

S7，利用所述预处理后的原始人体图像，在神经网络的编码解码结构中重复上述S2、S5、S5、S6进行训练，形成最终人体解析模型；

S8，输入待处理人体图像到所述最终人体解析模型中，得到需要的精解析图。

步骤S1，具体如下：

人体解析数据集来源于公开的研究平台。输入部分包括原始人体图像和分割真值图，其中原始人体图像指各种场景中，穿着不同样式服装的人体图像，分割真值图指对应各个像素点分类好标签的图像；

对原始人体图像做颜色归一化处理，且对图像尺寸统一处理成512×512的大小，方便做进一步的推理计算；

步骤S2，具体如下：

S2-1，将预处理后的原始人体图像输入到DeeplabV3+网络中，由该网络中的卷积层处理后得到特征图；

DeeplabV3+网络中的空洞空间卷积池化金字塔层对特征图以不同采样率的空洞卷积并行采样，以不同比例捕捉特征图的上下文信息，从而生成的粗解析图具有较丰富的特征信息进入下一网络结构。

S2-2，粗解析图表示为Z∈R^C×H×W，其中C，H和W分别是所述特征图的通道数、高和宽，R为实数域；粗解析图含有18个图层，每个图层表示一类人体部位，通过对每一个图层的各个位置做类别匹配，若该位置存在人体部位的标签序号用1表示，背景部分的位置用0表示，再通过平均池化和最大池化得到各个部位的二进制分割掩码。

步骤S3，具体如下：

S3-1，根据人体层次结构，定义三种层次的语义标签结构，本实施例中，以ATR数据集为例，0至17为其18种语义标签的序号。如下式(1)，对应的语义类别数目分别为2、5和18：

S3-2，根据S3-1定义的语义标签结构，将标签序号转换成图结点的邻接矩阵A^(j)∈R^N×N，其中j∈[1,3]分别表示三个邻接矩阵，由此表示的无向图为G＝(V,E)，语义结点V表示标签类别，即结点数等于标签类别数N＝|V|，图的边E由类别间的关系决定，对于两个结点不存在边相连的矩阵元素定义为-inf，这样在图-transformer中掩码的多头注意力机制的计算时，防止每个位置都关注未来的位置，从而避免了自回归，其余存在关系的位置设为0，使后续计算的注意力权重可以在(0,1)的数值范围内更新。

步骤S4，具体如下：

输入S2-2提取到的各个部位的分割掩码，即通过平均池化和最大池化得到的二进制掩码，记为M^(k)∈R^N×H×W，其中k为1、2时分别代表平均池化和最大池化操作的掩码，H，W和C分别为掩码图层的高、宽和通道数；

步骤S5，如图2所示，具体如下：

S5-1，将S4得到的图特征Y∈R^N×D作为图-Transformer的输入序列，设向量p＝[0,1，2，…，N-1]^T为各个人体部位的位置编码，其中N为人体部位的标签数，将位置编码与图特征做级联操作，组成图-Transformer的新的输入序列；

S5-2，将新的输入序列通过多头注意力机制的部分计算，得到初始的兼容性得分，再将S3-2中的三种邻接矩阵作为掩膜输入，与初始的兼容性得分相加作为一种负向约束，以抑制不存在关系的结点的权重，从而得到更新的兼容性得分；

S5-3，由于三种邻接矩阵中将不存在边的矩阵元素定义为-inf，施加强约束以避免自回归，因此需要将更新的兼容性得分做softmax归一化处理，得到0到1之间的注意力掩码，使得下一步的数值计算控制在合适的范围内；

S5-4，计算图结点之间的特征向量的余弦相似度，如式(2)，从而可得出图结点之间的关系矩阵B⁽ⁱ⁾∈R^N×N，其中i∈[1，3]分别表示三个关系矩阵；

将关系矩阵和注意力掩码做矩阵乘法，得到三种中间图特征；

将三种中间图特征与邻接矩阵A^(j)∈R^N×N计算L1损失用于训练，如式(3)；

L_G＝‖B⁽ⁱ⁾-A^(j)‖₁ (3)

将S5-4输出的三种中间图特征做级联操作，得到融合图特征

如式(4)，融合后进行非线性变换，得到增强的图特征，其维度与输入图-Transformer时一致，迭代计算上述步骤一定次数，最终输出为新的图特征Y′∈R^N×D。

步骤S6，具体如下：

S6-1，将S2-2的二进制分割掩码M^(k)∈R^N×H×W与S5生成的新的图特征Y′∈R^N×D做矩阵乘法，由此可以将图特征中每一个人体标签类别的图表示的特征向量转换为特征图，得到中间解析图；

S6-2，对所述中间解析图做1*1的卷积操作，将其通道数设定为256个，以便与粗解析图进行相加融合，得到最终的精解析图Z′∈R^C×H×W。

步骤S7，具体如下：

设计总体的训练目标函数如式(5)所示：

L＝L_P+λL_G (5)

其中L是总体损失值，L_P是解析图的损失值，L_G是图特征的损失值，λ为损失权重，训练直至目标函数的结果接近收敛，其中，对所述粗解析图和所述精解析图都应用交叉熵与分割真值图来计算像素级损失求和如式(6)：

表示分割真值图的像素值。

因此，本发明无需使用人体姿势、边缘等先验数据，而是仅根据人体层次结构的先验知识，更高效率地进行推理计算；对图表示的人体部位特征进行推理，通过高维数据嵌入到低维图表示的方式，能够在后续的迭代推理中节约更多的计算成本；改进了Transformer的结构，使其在人体解析的场景中，对人体各个部位特征的上下文信息进行全局性提取和整合，从而全面地感知不同人体部位的关联度，使得解析结果的精度更高。

以上对本发明实施例所提供的一种基于图表示和改进Transformer的人体解析方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于图表示和改进Transformer的人体解析方法，其特征在于，所述方法包括：

第八步，输入待处理人体图像到所述最终人体解析模型中，得到需要的精解析图；

其中，所述根据人体层次结构的先验知识，定义出语义类别数目和标签层次结构信息，从而定义三种邻接矩阵，作为输入图-Transformer结构的掩膜，具体为：

根据人体层次结构，定义三种层次的语义标签结构，再根据该语义标签结构，将标签序号转换成图结点的邻接矩阵A^(j)∈R^N×N，其中j∈[1，3]分别表示三个邻接矩阵，由此表示的无向图为G＝(V，E)，语义结点V表示标签类别，即结点数等于人体部位的标签类别数N＝|V|，图的边E由类别间的关系决定，对于两个结点不存在边相连的矩阵元素定义为-inf，其余存在关系的位置设为0，使后续计算的注意力权重在(0，1)的数值范围内更新；

其中，所述利用所述各个部位的分割掩码，以及利用所述语义类别数目和标签层次结构信息，将高维的所述粗解析图嵌入表示为图特征，具体为：

输入所述各个部位的分割掩码，即所述通过平均池化和最大池化得到的二进制掩码，记为M^(k)∈R^N×H×W，其中k为1、2时分别代表平均池化和最大池化操作的掩码，H，W分别为掩码图层的高、宽；

将两种分割掩码分别与所述粗解析图执行矩阵乘法再相加，将此过程表示为映射

即通过

得到嵌入表示的图特征Y∈R^N×D，其中D是每个图结点的特征维数，所述图结点的数目为N，即为人体部位的标签类别数目；

其中，所述利用所述图特征和所述三种邻接矩阵，通过图-Transformer结构对全局信息推理传播，计算出新的图特征，具体为：

将所述图特征Y∈R^N×D作为图-Transformer的输入序列，设向量p＝[0，1，2，…，N-1]^T为各个人体部位的位置编码，其中N为人体部位的标签类别数，将所述位置编码与所述图特征做级联操作，组成图-Transformer的新的输入序列；

计算所述图结点之间的特征向量的余弦相似度，从而得出图结点之间的关系矩阵B⁽ⁱ⁾∈R^N×N，其中i∈[1，3]分别表示三个关系矩阵；

将所述三种中间图特征做级联操作，得到融合图特征，融合后进行非线性变换，得到增强的图特征，其维度与输入图-Transformer时一致，迭代计算上述步骤一定次数，最终输出为新的图特征Y′∈R^N×D；

其中，所述使用所述新的图特征和所述各个部位的分割掩码，计算出中间解析图，将其与所述粗解析图进行融合得到精解析图，具体为：

将所述二进制分割掩码M^(k)∈R^N×H×W与所述新的图特征Y′∈R^N×D做矩阵乘法，由此将图特征中每一个人体标签类别的图表示的特征向量转换为特征图，得到中间解析图；

对所述中间解析图做1*1的卷积操作，将其通道数设定为256个，以便与粗解析图进行相加融合，得到最终的精解析图Z′∈R^C×H×W，其中C是通道数。

2.如权利要求1所述的基于图表示和改进Transformer的人体解析方法，其特征在于，所述从服装数据集输入原始人体图像和分割真值图，并做预处理，具体为：

分割真值图指对应各个像素点分类好标签的图像；

3.如权利要求1所述的基于图表示和改进Transforme_r的人体解析方法，其特征在于，所述对所述预处理后的原始人体图像，使用DeeplabV3+网络生成粗解析图，并计算得到各个部位的分割掩码，具体为：

4.如权利要求1所述的基于图表示和改进Transformer的人体解析方法，其特征在于，所述利用所述预处理后的原始人体图像，在神经网络的编码解码结构中重复上述第二、四、五、六步进行训练，形成最终人体解析模型，具体为：

设计总体的训练目标函数如下：

L＝L_P+λL_G

其中L是总体损失值，L_P是解析图的损失值，L_G是图特征的损失值，λ为损失权重，训练直至目标函数的结果收敛，其中，对所述粗解析图和所述精解析图都应用交叉熵与分割真值图来计算像素级损失求和：

其中H和W表示图像的高和宽，m表示图像中的像素点，N表示人体部位的数目即标签数，n表示其中的一个部位，Z_mn表示解析结果图的像素值,

表示分割真值图的像素值。