CN113313173B - 基于图表示和改进Transformer的人体解析方法 - Google Patents
基于图表示和改进Transformer的人体解析方法 Download PDFInfo
- Publication number
- CN113313173B CN113313173B CN202110608046.1A CN202110608046A CN113313173B CN 113313173 B CN113313173 B CN 113313173B CN 202110608046 A CN202110608046 A CN 202110608046A CN 113313173 B CN113313173 B CN 113313173B
- Authority
- CN
- China
- Prior art keywords
- graph
- human body
- analysis
- feature
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000006872 improvement Effects 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000007480 spreading Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于图表示和改进Transformer的人体解析方法。本发明从高维的特征表示嵌入为低维的图特征,并以改进的Transformer来进行推理计算,捕捉上下文特征关系,生成新的图特征重新解码为精解析图,从而以高效的方式迭代训练整个模型得到最终的解析结果。本发明仅根据人体层次结构的先验知识,更高效率地进行推理计算;对图表示的人体部位特征进行推理,能够在后续的迭代推理中节约更多的计算成本;改进了Transformer的结构,对人体各个部位特征的上下文信息进行全局性提取和整合,从而全面地感知不同人体部位的关联度,使得解析结果的精度更高。
Description
技术领域
本发明涉及计算机视觉与图像处理技术领域,具体涉及一种基于图表示和改进Transformer的人体解析方法。
背景技术
人体解析是计算机视觉中一个重要且具有挑战性课题,它通过密集型预测每个像素点,由此划分多个语义来理解人体的各个部位。近年研究表明,人体解析被广泛应用于人体分析的任务,例如人体图像生成、虚拟试衣、姿态估计、行人重识别等。
人体解析是对人体进行语义分割,实际上是完成像素级的分类。由于每个像素点分别对应不同的语义标签,而这些不同类别的语义标签具有共享的特征和一定关联性。目前的方法分为三个方面:一是利用多种先验知识,根据多任务学习的方式,学习不同种类的特征,并尝试去挖掘这些特征之间的共享特征,由此逐步建立它们之间的关系,以达到好的解析效果;二是不直接通过先验数据,而从构建更好的特征表示的角度来开展工作,以新颖的网络结构的方式,如连接底层高分辨率特征和高层语义、扩大感受野、多尺度提取特征,通过加入跳跃连接、膨胀卷积、空洞空间金字塔池化等操作,或者以生成对抗网络设计对抗损失来获得增强的效果;三是从更接近人类视觉的角度,围绕注意力机制,提出通道注意力、自注意力等,而这些机制进一步被扩展为非局部网络、图卷积网络。
目前的现有技术之一,论文“Correlating Edge,Pose With Parsing”提出的基于人体姿势和边缘先验信息的人体解析方法,包括:基于骨干网络生成初始解析特征图,在骨干网络开设两个分支,分别用于姿势估计和边缘检测任务的训练,以大量的先验知识来捕捉丰富的结构信息。将这两个分支生成的特征,与初始解析特征在非局部网络中进行融合,最终输出人体解析结果。
该方法的缺点是:使用姿势和边缘特征,需要大量额外的先验数据来训练。另外,没有考虑标签的固有分类,即没有对人体部位的显式语义关联进行建模,这会在标签数目少且细粒度的情况下,识别效果难以令人满意。
目前的现有技术之二,论文“Feature Pyramid Transformer”提出的基于特征金字塔Transformer的人体解析方法,其由四个部分组成:特征提取的骨干网络;特征金字塔构造模块;用于特征交互的特征金字塔Transformer,通过三层尺度不同的特征图,构造出特征金字塔,将其输入Transformer进行计算;最后是具体任务的头网络。
该方法的缺点是:将三种特征图作为输入Transformer的序列,以近似逐像素来计算关联度,其对计算资源消耗非常大。
目前的现有技术之三,论文“Graph Pyramid Mutual Learning for Cross-Dataset Human Parsing”提出的基于图金字塔互学习的人体解析方法,包括:对输入的图片进行特征图提取,并转换为图特征,将这些图特征在图卷积神经网络中迭代训练,得到不同层次的图特征,并进行反变换,最终输出为解析特征图。
该方法的缺点是:该方法的图卷积神经网络需要不断迭代来弥补全局信息关联度获取不足的缺点,因为其在消息传递机制的过程中,不同人体结构层次间的共享信息难以并行计算,需要等待图结点信息的逐个更新。只考虑了特征级别的共享信息,而忽视了潜在的标签层次结构和语义上下文的关联性。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于图表示和改进Transformer的人体解析方法。本发明解决的主要问题,一是如何在不采用大量的先验数据的情况下高效地完成人体解析任务,减少计算复杂度;二是如何采用图表示的方式对图像特征进行嵌入表示从而降低计算成本;三是如何使用改进的Transformer的编解码结构来处理图表示的特征,从而获取不同的人体部位的上下文信息。
为了解决上述问题,本发明提出了一种基于图表示和改进Transformer的人体解析方法,所述方法包括:
第一步,从服装数据集输入原始人体图像和分割真值图,并做预处理;
第二步,对所述预处理后的原始人体图像,使用DeeplabV3+网络生成粗解析图,并计算得到各个部位的分割掩码;
第三步,根据人体层次结构的先验知识,定义出语义类别数目和标签层次结构信息,从而定义三种邻接矩阵,作为输入图-Transformer结构的掩膜;
第四步,利用所述各个部位的分割掩码,以及利用所述语义类别数目和标签层次结构信息,将高维的所述粗解析图嵌入表示为图特征;
第五步,利用所述图特征和所述三种邻接矩阵,通过图-Transformer结构对全局信息推理传播,计算出新的图特征;
第六步,使用所述新的图特征和所述各个部位的分割掩码,计算出中间解析图,将其与所述粗解析图进行融合得到精解析图;
第七步,利用所述预处理后的原始人体图像,在神经网络的编码解码结构中重复上述第二、四、五、六步进行训练,形成最终人体解析模型;
第八步,输入待处理人体图像到所述最终人体解析模型中,得到需要的精解析图。
优选地,所述从服装数据集输入原始人体图像和分割真值图,并做预处理,具体为:
原始人体图像指各种场景中,穿着不同样式服装的人体图像;
分割真值图指对应各个像素点分类好标签的图像;
对所述原始人体图像做颜色归一化处理,且对图像尺寸处理成统一大小;
为了更好地解析左右两个方位,需要做数据增强的操作,使图像的左右两边翻转,以达到处理左右两边部位位置的正确解析。
优选地,所述对所述预处理后的原始人体图像,使用DeeplabV3+网络生成粗解析图,并计算得到各个部位的分割掩码,具体为:
将所述预处理后的原始人体图像输入到DeeplabV3+网络中,由该网络中的卷积层处理后得到特征图;
所述DeeplabV3+网络中的空洞空间卷积池化金字塔层对所述特征图以不同采样率的空洞卷积并行采样,以不同比例捕捉所述特征图的上下文信息,从而生成的粗解析图具有较丰富的特征信息进入下一网络结构;
所述粗解析图表示为Z∈RC×H×W,其中C,H和W分别是所述特征图的通道数、高和宽,R为实数域;
所述粗解析图,其含有18个图层,每个图层表示一类人体部位,通过对每一个图层的各个位置做类别匹配,若该位置存在人体部位的标签序号用1表示,背景部分的位置用0表示,再通过平均池化和最大池化得到各个部位的二进制分割掩码。
优选地,根据人体层次结构的先验知识,定义出语义类别数目和标签层次结构信息,从而定义三种邻接矩阵,作为输入图-Transformer结构的掩膜,具体为:
根据人体层次结构,定义三种层次的语义标签结构,再根据该语义标签结构,将标签序号转换成图结点的邻接矩阵A(j)∈RN×N,其中j∈[1,3]分别表示三个邻接矩阵,由此表示的无向图为G=(V,E),语义结点V表示标签类别,即结点数等于标签类别数N=|V|,图的边E由类别间的关系决定,对于两个结点不存在边相连的矩阵元素定义为-inf,其余存在关系的位置设为0,使后续计算的注意力权重可以在(0,1)的数值范围内更新。
优选地,所述利用所述各个部位的分割掩码,以及利用所述语义类别数目和标签层次结构信息,将高维的所述粗解析图嵌入表示为图特征,具体为:
输入所述各个部位的分割掩码,即所述通过平均池化和最大池化得到的二进制掩码,记为M(k)∈RN×H×W,其中k为1、2时分别代表平均池化和最大池化操作的掩码,H,W和C分别为掩码图层的高、宽和通道数;
优选地,所述利用所述图特征和所述三种邻接矩阵,通过图-Transformer结构对全局信息推理传播,计算出新的图特征,具体为:
将所述图特征Y∈RN×D作为图-Transformer的输入序列,设向量p=[0,1,2,…,N-1]T为各个人体部位的位置编码,其中N为人体部位的标签数,将所述位置编码与所述图特征做级联操作,组成图-Transformer的新的输入序列;
将所述新的输入序列通过多头注意力机制的部分计算,得到初始的兼容性得分,再将所述三种邻接矩阵作为掩膜输入,与初始的兼容性得分相加作为一种负向约束,以抑制不存在关系的结点的权重,从而得到更新的兼容性得分;
将所述更新的兼容性得分做softmax归一化处理,得到0到1之间的注意力掩码;
计算所述图结点之间的特征向量的余弦相似度,从而可得出图结点之间的关系矩阵B(i)∈RN×N,其中i∈[1,3]分别表示三个关系矩阵;
将所述关系矩阵和所述注意力掩码做矩阵乘法,得到三种中间图特征;
将所述三种中间图特征与所述邻接矩阵A(j)∈RN×N计算L1损失;
将所述三种中间图特征做级联操作,得到融合图特征,融合后进行非线性变换,得到增强的图特征,其维度与输入图-Transformer时一致,迭代计算上述步骤一定次数,最终输出为新的图特征Y′∈RN×D。
优选地,所述使用所述新的图特征和所述各个部位的分割掩码,计算出中间解析图,将其与所述粗解析图进行融合得到精解析图,具体为:
将所述二进制分割掩码M(k)∈RN×H×W与所述新的图特征Y′∈RN×D做矩阵乘法,由此可以将图特征中每一个人体标签类别的图表示的特征向量转换为特征图,得到中间解析图;
对所述中间解析图做1*1的卷积操作,将其通道数设定为256个,以便与粗解析图进行相加融合,得到最终的精解析图Z′∈RC×H×W。
优选地,所述利用所述预处理后的原始人体图像,在神经网络的编码解码结构中重复上述第二、四、五、六步进行训练,形成最终人体解析模型,具体为:
设计总体的训练目标函数如下:
L=LP+λLG
其中L是总体损失值,LP是解析图的损失值,LG是图特征的损失值,λ为损失权重,训练直至目标函数的结果接近收敛,其中,对所述粗解析图和所述精解析图都应用交叉熵与分割真值图来计算像素级损失求和:
实施本发明,具有如下有益效果:
本发明无需使用人体姿势、边缘等先验数据,而是仅根据人体层次结构的先验知识,更高效率地进行推理计算;对图表示的人体部位特征进行推理,通过高维数据嵌入到低维图表示的方式,能够在后续的迭代推理中节约更多的计算成本;改进了Transformer的结构,使其在人体解析的场景中,对人体各个部位特征的上下文信息进行全局性提取和整合,从而全面地感知不同人体部位的关联度,使得解析结果的精度更高。
附图说明
图1是本发明实施例的一种基于图表示和改进Transformer的人体解析方法的总体流程图;
图2是本发明实施例的图-Transformer的算法流程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的一种基于图表示和改进Transformer的人体解析方法的总体流程图,如图1所示,该方法包括:
S1,从服装数据集输入原始人体图像和分割真值图,并做预处理;
S2,对所述预处理后的原始人体图像,使用DeeplabV3+网络生成粗解析图,并计算得到各个部位的分割掩码;
S3,根据人体层次结构的先验知识,定义出语义类别数目和标签层次结构信息,从而定义三种邻接矩阵,作为输入图-Transformer结构的掩膜;
S4,利用所述各个部位的分割掩码,以及利用所述语义类别数目和标签层次结构信息,将高维的所述粗解析图嵌入表示为图特征;
S5,利用所述图特征和所述三种邻接矩阵,通过图-Transformer结构对全局信息推理传播,计算出新的图特征;
S6,使用所述新的图特征和所述各个部位的分割掩码,计算出中间解析图,将其与所述粗解析图进行融合得到精解析图;
S7,利用所述预处理后的原始人体图像,在神经网络的编码解码结构中重复上述S2、S5、S5、S6进行训练,形成最终人体解析模型;
S8,输入待处理人体图像到所述最终人体解析模型中,得到需要的精解析图。
步骤S1,具体如下:
人体解析数据集来源于公开的研究平台。输入部分包括原始人体图像和分割真值图,其中原始人体图像指各种场景中,穿着不同样式服装的人体图像,分割真值图指对应各个像素点分类好标签的图像;
对原始人体图像做颜色归一化处理,且对图像尺寸统一处理成512×512的大小,方便做进一步的推理计算;
为了更好地解析左右两个方位,需要做数据增强的操作,使图像的左右两边翻转,以达到处理左右两边部位位置的正确解析。
步骤S2,具体如下:
S2-1,将预处理后的原始人体图像输入到DeeplabV3+网络中,由该网络中的卷积层处理后得到特征图;
DeeplabV3+网络中的空洞空间卷积池化金字塔层对特征图以不同采样率的空洞卷积并行采样,以不同比例捕捉特征图的上下文信息,从而生成的粗解析图具有较丰富的特征信息进入下一网络结构。
S2-2,粗解析图表示为Z∈RC×H×W,其中C,H和W分别是所述特征图的通道数、高和宽,R为实数域;粗解析图含有18个图层,每个图层表示一类人体部位,通过对每一个图层的各个位置做类别匹配,若该位置存在人体部位的标签序号用1表示,背景部分的位置用0表示,再通过平均池化和最大池化得到各个部位的二进制分割掩码。
步骤S3,具体如下:
S3-1,根据人体层次结构,定义三种层次的语义标签结构,本实施例中,以ATR数据集为例,0至17为其18种语义标签的序号。如下式(1),对应的语义类别数目分别为2、5和18:
S3-2,根据S3-1定义的语义标签结构,将标签序号转换成图结点的邻接矩阵A(j)∈RN×N,其中j∈[1,3]分别表示三个邻接矩阵,由此表示的无向图为G=(V,E),语义结点V表示标签类别,即结点数等于标签类别数N=|V|,图的边E由类别间的关系决定,对于两个结点不存在边相连的矩阵元素定义为-inf,这样在图-transformer中掩码的多头注意力机制的计算时,防止每个位置都关注未来的位置,从而避免了自回归,其余存在关系的位置设为0,使后续计算的注意力权重可以在(0,1)的数值范围内更新。
步骤S4,具体如下:
输入S2-2提取到的各个部位的分割掩码,即通过平均池化和最大池化得到的二进制掩码,记为M(k)∈RN×H×W,其中k为1、2时分别代表平均池化和最大池化操作的掩码,H,W和C分别为掩码图层的高、宽和通道数;
步骤S5,如图2所示,具体如下:
S5-1,将S4得到的图特征Y∈RN×D作为图-Transformer的输入序列,设向量p=[0,1,2,…,N-1]T为各个人体部位的位置编码,其中N为人体部位的标签数,将位置编码与图特征做级联操作,组成图-Transformer的新的输入序列;
S5-2,将新的输入序列通过多头注意力机制的部分计算,得到初始的兼容性得分,再将S3-2中的三种邻接矩阵作为掩膜输入,与初始的兼容性得分相加作为一种负向约束,以抑制不存在关系的结点的权重,从而得到更新的兼容性得分;
S5-3,由于三种邻接矩阵中将不存在边的矩阵元素定义为-inf,施加强约束以避免自回归,因此需要将更新的兼容性得分做softmax归一化处理,得到0到1之间的注意力掩码,使得下一步的数值计算控制在合适的范围内;
S5-4,计算图结点之间的特征向量的余弦相似度,如式(2),从而可得出图结点之间的关系矩阵B(i)∈RN×N,其中i∈[1,3]分别表示三个关系矩阵;
将关系矩阵和注意力掩码做矩阵乘法,得到三种中间图特征;
将三种中间图特征与邻接矩阵A(j)∈RN×N计算L1损失用于训练,如式(3);
LG=‖B(i)-A(j)‖1 (3)
将S5-4输出的三种中间图特征做级联操作,得到融合图特征如式(4),融合后进行非线性变换,得到增强的图特征,其维度与输入图-Transformer时一致,迭代计算上述步骤一定次数,最终输出为新的图特征Y′∈RN×D。
步骤S6,具体如下:
S6-1,将S2-2的二进制分割掩码M(k)∈RN×H×W与S5生成的新的图特征Y′∈RN×D做矩阵乘法,由此可以将图特征中每一个人体标签类别的图表示的特征向量转换为特征图,得到中间解析图;
S6-2,对所述中间解析图做1*1的卷积操作,将其通道数设定为256个,以便与粗解析图进行相加融合,得到最终的精解析图Z′∈RC×H×W。
步骤S7,具体如下:
设计总体的训练目标函数如式(5)所示:
L=LP+λLG (5)
其中L是总体损失值,LP是解析图的损失值,LG是图特征的损失值,λ为损失权重,训练直至目标函数的结果接近收敛,其中,对所述粗解析图和所述精解析图都应用交叉熵与分割真值图来计算像素级损失求和如式(6):
因此,本发明无需使用人体姿势、边缘等先验数据,而是仅根据人体层次结构的先验知识,更高效率地进行推理计算;对图表示的人体部位特征进行推理,通过高维数据嵌入到低维图表示的方式,能够在后续的迭代推理中节约更多的计算成本;改进了Transformer的结构,使其在人体解析的场景中,对人体各个部位特征的上下文信息进行全局性提取和整合,从而全面地感知不同人体部位的关联度,使得解析结果的精度更高。
以上对本发明实施例所提供的一种基于图表示和改进Transformer的人体解析方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种基于图表示和改进Transformer的人体解析方法,其特征在于,所述方法包括:
第一步,从服装数据集输入原始人体图像和分割真值图,并做预处理;
第二步,对所述预处理后的原始人体图像,使用DeeplabV3+网络生成粗解析图,并计算得到各个部位的分割掩码;
第三步,根据人体层次结构的先验知识,定义出语义类别数目和标签层次结构信息,从而定义三种邻接矩阵,作为输入图-Transformer结构的掩膜;
第四步,利用所述各个部位的分割掩码,以及利用所述语义类别数目和标签层次结构信息,将高维的所述粗解析图嵌入表示为图特征;
第五步,利用所述图特征和所述三种邻接矩阵,通过图-Transformer结构对全局信息推理传播,计算出新的图特征;
第六步,使用所述新的图特征和所述各个部位的分割掩码,计算出中间解析图,将其与所述粗解析图进行融合得到精解析图;
第七步,利用所述预处理后的原始人体图像,在神经网络的编码解码结构中重复上述第二、四、五、六步进行训练,形成最终人体解析模型;
第八步,输入待处理人体图像到所述最终人体解析模型中,得到需要的精解析图;
其中,所述根据人体层次结构的先验知识,定义出语义类别数目和标签层次结构信息,从而定义三种邻接矩阵,作为输入图-Transformer结构的掩膜,具体为:
根据人体层次结构,定义三种层次的语义标签结构,再根据该语义标签结构,将标签序号转换成图结点的邻接矩阵A(j)∈RN×N,其中j∈[1,3]分别表示三个邻接矩阵,由此表示的无向图为G=(V,E),语义结点V表示标签类别,即结点数等于人体部位的标签类别数N=|V|,图的边E由类别间的关系决定,对于两个结点不存在边相连的矩阵元素定义为-inf,其余存在关系的位置设为0,使后续计算的注意力权重在(0,1)的数值范围内更新;
其中,所述利用所述各个部位的分割掩码,以及利用所述语义类别数目和标签层次结构信息,将高维的所述粗解析图嵌入表示为图特征,具体为:
输入所述各个部位的分割掩码,即所述通过平均池化和最大池化得到的二进制掩码,记为M(k)∈RN×H×W,其中k为1、2时分别代表平均池化和最大池化操作的掩码,H,W分别为掩码图层的高、宽;
其中,所述利用所述图特征和所述三种邻接矩阵,通过图-Transformer结构对全局信息推理传播,计算出新的图特征,具体为:
将所述图特征Y∈RN×D作为图-Transformer的输入序列,设向量p=[0,1,2,…,N-1]T为各个人体部位的位置编码,其中N为人体部位的标签类别数,将所述位置编码与所述图特征做级联操作,组成图-Transformer的新的输入序列;
将所述新的输入序列通过多头注意力机制的部分计算,得到初始的兼容性得分,再将所述三种邻接矩阵作为掩膜输入,与初始的兼容性得分相加作为一种负向约束,以抑制不存在关系的结点的权重,从而得到更新的兼容性得分;
将所述更新的兼容性得分做softmax归一化处理,得到0到1之间的注意力掩码;
计算所述图结点之间的特征向量的余弦相似度,从而得出图结点之间的关系矩阵B(i)∈RN×N,其中i∈[1,3]分别表示三个关系矩阵;
将所述关系矩阵和所述注意力掩码做矩阵乘法,得到三种中间图特征;
将所述三种中间图特征与所述邻接矩阵A(j)∈RN×N计算L1损失;
将所述三种中间图特征做级联操作,得到融合图特征,融合后进行非线性变换,得到增强的图特征,其维度与输入图-Transformer时一致,迭代计算上述步骤一定次数,最终输出为新的图特征Y′∈RN×D;
其中,所述使用所述新的图特征和所述各个部位的分割掩码,计算出中间解析图,将其与所述粗解析图进行融合得到精解析图,具体为:
将所述二进制分割掩码M(k)∈RN×H×W与所述新的图特征Y′∈RN×D做矩阵乘法,由此将图特征中每一个人体标签类别的图表示的特征向量转换为特征图,得到中间解析图;
对所述中间解析图做1*1的卷积操作,将其通道数设定为256个,以便与粗解析图进行相加融合,得到最终的精解析图Z′∈RC×H×W,其中C是通道数。
2.如权利要求1所述的基于图表示和改进Transformer的人体解析方法,其特征在于,所述从服装数据集输入原始人体图像和分割真值图,并做预处理,具体为:
原始人体图像指各种场景中,穿着不同样式服装的人体图像;
分割真值图指对应各个像素点分类好标签的图像;
对所述原始人体图像做颜色归一化处理,且对图像尺寸处理成统一大小;
为了更好地解析左右两个方位,需要做数据增强的操作,使图像的左右两边翻转,以达到处理左右两边部位位置的正确解析。
3.如权利要求1所述的基于图表示和改进Transformer的人体解析方法,其特征在于,所述对所述预处理后的原始人体图像,使用DeeplabV3+网络生成粗解析图,并计算得到各个部位的分割掩码,具体为:
将所述预处理后的原始人体图像输入到DeeplabV3+网络中,由该网络中的卷积层处理后得到特征图;
所述DeeplabV3+网络中的空洞空间卷积池化金字塔层对所述特征图以不同采样率的空洞卷积并行采样,以不同比例捕捉所述特征图的上下文信息,从而生成的粗解析图具有较丰富的特征信息进入下一网络结构;
所述粗解析图表示为Z∈RC×H×W,其中C,H和W分别是所述特征图的通道数、高和宽,R为实数域;
所述粗解析图,其含有18个图层,每个图层表示一类人体部位,通过对每一个图层的各个位置做类别匹配,若该位置存在人体部位的标签序号用1表示,背景部分的位置用0表示,再通过平均池化和最大池化得到各个部位的二进制分割掩码。
4.如权利要求1所述的基于图表示和改进Transformer的人体解析方法,其特征在于,所述利用所述预处理后的原始人体图像,在神经网络的编码解码结构中重复上述第二、四、五、六步进行训练,形成最终人体解析模型,具体为:
设计总体的训练目标函数如下:
L=LP+λLG
其中L是总体损失值,LP是解析图的损失值,LG是图特征的损失值,λ为损失权重,训练直至目标函数的结果收敛,其中,对所述粗解析图和所述精解析图都应用交叉熵与分割真值图来计算像素级损失求和:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110608046.1A CN113313173B (zh) | 2021-06-01 | 2021-06-01 | 基于图表示和改进Transformer的人体解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110608046.1A CN113313173B (zh) | 2021-06-01 | 2021-06-01 | 基于图表示和改进Transformer的人体解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313173A CN113313173A (zh) | 2021-08-27 |
CN113313173B true CN113313173B (zh) | 2023-05-30 |
Family
ID=77376790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110608046.1A Active CN113313173B (zh) | 2021-06-01 | 2021-06-01 | 基于图表示和改进Transformer的人体解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313173B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705575B (zh) * | 2021-10-27 | 2022-04-08 | 北京美摄网络科技有限公司 | 一种图像分割方法、装置、设备及存储介质 |
CN113870422B (zh) * | 2021-11-30 | 2022-02-08 | 华中科技大学 | 一种点云重建方法、装置、设备及介质 |
CN114119977B (zh) * | 2021-12-01 | 2022-12-30 | 昆明理工大学 | 一种基于图卷积的Transformer胃癌癌变区域图像分割方法 |
CN114511573B (zh) * | 2021-12-29 | 2023-06-09 | 电子科技大学 | 一种基于多层级边缘预测的人体解析装置及方法 |
CN115291864B (zh) * | 2022-06-30 | 2024-03-29 | 浙江大学 | 一种基于图神经网络的零碎图层检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520275A (zh) * | 2017-06-28 | 2018-09-11 | 浙江大学 | 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法 |
CN108932517A (zh) * | 2018-06-28 | 2018-12-04 | 中山大学 | 一种基于精细化网络模型的多标签服装解析方法 |
CN110111337A (zh) * | 2019-04-16 | 2019-08-09 | 中山大学 | 一种基于图迁移学习的通用人体解析框架及其解析方法 |
CN110852941B (zh) * | 2019-11-05 | 2023-08-01 | 中山大学 | 一种基于神经网络的二维虚拟试衣方法 |
-
2021
- 2021-06-01 CN CN202110608046.1A patent/CN113313173B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
Also Published As
Publication number | Publication date |
---|---|
CN113313173A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313173B (zh) | 基于图表示和改进Transformer的人体解析方法 | |
CN111462126B (zh) | 一种基于边缘增强的语义图像分割方法及系统 | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN113486708A (zh) | 人体姿态预估方法、模型训练方法、电子设备和存储介质 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN115082675B (zh) | 一种透明物体图像分割方法及系统 | |
CN112329801A (zh) | 一种卷积神经网络非局部信息构建方法 | |
CN114596589A (zh) | 一种基于交互级联轻量化transformers的域自适应行人重识别方法 | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
CN115035298A (zh) | 基于多维注意力机制的城市街景语义分割增强方法 | |
CN115482387A (zh) | 基于多尺度类别原型的弱监督图像语义分割方法及系统 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Zhu et al. | Semantic image segmentation with shared decomposition convolution and boundary reinforcement structure | |
CN112767277B (zh) | 一种基于参考图像的深度特征排序去模糊方法 | |
CN118135209A (zh) | 一种基于形状块语义关联度的弱监督语义分割方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN116612288B (zh) | 一种多尺度轻量级实时语义分割方法、系统 | |
CN117333672A (zh) | 基于空间细节和注意力的遥感图像分割网络结构及方法 | |
CN117475228A (zh) | 一种基于双域特征学习的三维点云分类和分割方法 | |
CN112528077A (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN111860668A (zh) | 一种针对原始3d点云处理的深度卷积网络的点云识别方法 | |
CN114155560B (zh) | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |