CN113379771A - 带有边缘约束的层次化人体解析语义分割方法 - Google Patents

带有边缘约束的层次化人体解析语义分割方法 Download PDF

Info

Publication number
CN113379771A
CN113379771A CN202110750094.4A CN202110750094A CN113379771A CN 113379771 A CN113379771 A CN 113379771A CN 202110750094 A CN202110750094 A CN 202110750094A CN 113379771 A CN113379771 A CN 113379771A
Authority
CN
China
Prior art keywords
human body
edge
module
hierarchical
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110750094.4A
Other languages
English (en)
Other versions
CN113379771B (zh
Inventor
韩红
李康
弋宁宁
鲁飞鸿
赵健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110750094.4A priority Critical patent/CN113379771B/zh
Publication of CN113379771A publication Critical patent/CN113379771A/zh
Application granted granted Critical
Publication of CN113379771B publication Critical patent/CN113379771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种带有边缘约束的层次化人体解析语义分割方法,主要解决现有在复杂解析场景下适应性较差,获取丰富的人体结构语义上下文信息不足的问题。其方案是:采集与标注人像数据,并对其中的训练数据进行预处理;构建带有边缘约束的层次化人体解析语义分割模型,用预处理后的训练数据对该模型进行训练并评价,将含有人体的图片输入经评价符合要求的训练后带有边缘约束的层次化人体解析语义分割模型中得到分割结果图。本发明可实现对人体解析语义分割任务边缘特征信息的约束,改善人体解析语义分割模型在复杂场景下对人体图像的错分、漏分现象,有效地提升了人体解析语义分割的效果,可用于智能安防系统的实时预警及电子商务的虚拟现实换装。

Description

带有边缘约束的层次化人体解析语义分割方法
技术领域
本发明属于图像处理技术领域,尤其涉及一种层次化人体解析语义分割方法,可用于智能安防系统的实时预警及电子商务的虚拟现实换装。
背景技术
随着智能安防、虚拟现实产业的快速发展,人体解析的业务需求也随之不断增长。近年来,随着安防产品智能化,以智慧社区、智慧街道等以人体为监控实体的安防体系因其自主判断、实时预警的特点,在打击违法犯罪,提升百姓安全感的过程中发挥着重要的作用。其主要运用人体解析技术对重点监控区域出现的人像进行分割,用于辅助监测街道社区中人群的异常行为,并能够利用分割出的人体组分进行变电站等危险区域内的人体监测与预警。但由于布控环境复杂多样,目标易产生遮挡,同时人体的姿态、观察的视角、尺度等都对智能安防下的人体理解提出了较高的要求。另一方面,由于电子商务的发展和疫情带来的影响,更多的人选择通过电商平台购买服装衣物。为了节约物流成本,并方便顾客进行挑选,电商平台利用虚拟现实技术开拓换装业务有着较好的发展前景。该业务通过人体解析模型区分人体组分,替换对应服饰所属分类为对应衣物,实现换装功能。这项应用需要模型能够较为准确地划分出人体各组分边缘。
语义分割是指对图像的逐像素分类,从而实现对整个图像区域的语义理解。人体解析是语义分割领域的重要方向之一,其是指在对含有人体的输入图像进行逐像素的分类,实现多语义区域的划分,以区分出不同的人体部位例如:头发、手臂和穿戴标签,例如:上衣、鞋子。作为人体结构理解的一项细粒度子任务,人体解析在人机交互、虚拟现实、服装检索等以人体为研究对象的多个领域有着广泛的运用。然而,由于人体姿态有多样性,且解析个体所处场景复杂多样,因此人体解析任务仍具有挑战性。
为增强人体解析标签间的约束关系,T.Ruan,T.Liu,Z.Huang,Y.Wei,S.Wei, andY.Zhao.Devil in the details:Towards accurate single and multiple humanparsing[C].Proceedings of the AAAI Conference on Artificial Intelligence,vol.33,2019,pp.4814–4821.利用提取边缘信息对分割的人体类别标签进行边缘约束;研究Zhang Z,Su C,Zheng L,et al.Correlating Edge,Pose with Parsing[C]. Proceedingsof the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020:8900-8909.添加了额外的姿态标注信息用于学习姿态特征。这些方法均是从人体形态约束和人体边缘的角度出发,采取特征融合的手段对骨干网络特征进行融合。虽然增强了边缘信息和人体骨架形态对解析任务的约束能力,但缺乏足够的上下文理解和有效的消息传递,其中,消息传递是指消息节点间的消息流通,致使上述模型无法很好地适应复杂场景。
为改善人体解析模型的适应性,现有工作多采用添加注意力机制提取特征注意力掩膜的方法提升性能,例如Luo Y,Zheng Z,Zheng L,et al.Macro-micro adversarialnetwork for human parsing[C].Proceedings of the European conference oncomputer vision.2018:418-434.提出了模型MMAN,添加了注意力模块后性能大幅提升。Gong K, Gao Y,Liang X,et al.Graphonomy:Universal human parsing via graphtransfer learning[C].Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:7450-7459.提出利用人体的拓扑结构映射图卷积神经网络进行消息传递模型,其将人体拓扑结构构成图结构,并将原始特征映射到这个图结构上进行特征节点间的信息传递。这些方法虽说可通过特征的消息传递很好地提升模型的适应性,但却由于层次单一,且没有足够地利用人体结构信息进行传递,无法获得更丰富的人体结构语义信息,分割效果不佳。
发明内容
本发明的目的在于针对上述现有方法的不足,提出一种带有边缘约束的层次化人体解析语义分割方法,以提高复杂解析场景下的适应能力,获取丰富的人体结构语义上下文信息,提升分割效果。
为实现上述目的,本发明的技术方案包括如下:
S1)数据的采集与标注:
采集含有人体的若干自然图片,并将每张含有人体的自然图片按照人体组分对应的语义信息进行像素级的标注;
将自然图片与其对应像素标注图片组成图片对,按照1:1的近似比随机将所有图片对划分为训练集和测试集;
S2)对训练数据做预处理:
对训练集的所有图片对依次进行随机剪裁、随机尺度缩放和随机翻转的增强;
根据边缘检测算子提取训练集真值数据的语义边缘,并根据人体分层情况,合并训练集的真值数据不同层次的语义标签;
S3)构建带有边缘约束的层次化人体解析语义分割模型,其包括骨干网络、边缘检测模块、层次空间金字塔模块和解码模块,该骨干网络的输出分别与边缘检测模块和层次空间金字塔模块的输入端连接,边缘检测模块与层次空间金字塔模块的输出与解码模块连接;
S4)设置模型超参数和训练规则,包括设置梯度下降方法、学习率、最大训练代数、损失函数,并将经过S2)预处理后的训练集批量输入到带有边缘约束的层次化人体解析语义分割模型中,进行带有边缘约束的层次化人体解析语义分割模型训练;
S5)将S4)训练后的模型参数保存,获得含参数的带有边缘约束的层次化人体解析语义分模型,将测试集输入带参数的人体解析语义分割模型中进行模型评价,得到其平均交并比指标;
S6)根据评价的平均交并比指标评价模型性能是否达到预期效果:
若达到,则执行S7),
否则,返回S4)调整网络超参数和训练规则,重新训练带有边缘约束的层次化人体解析语义分割模型;
S7)将包含人体的自然图像输入到S4)含参数的带有边缘约束的层次化人体解析语义分割模型中,得到边缘约束的人体解析图像。
本发明与现有技术相比,具如下优点:
第一,本发明所构建的带有边缘约束的层次化人体解析语义分割模型,因其具有边缘检测模块,可实现对人体解析语义分割任务边缘特征信息的约束,改善了原有人体解析语义分割模型在复杂场景下对人体图像的错分、漏分现象;
第二,本发明所构建的带有边缘约束的层次化人体解析语义分割模型,因其具有层次空间金字塔模块,可实现对不同层次人体结构的语义信息传递,从而获取了更为丰富的人体语义信息;
第三,本发明由于利用了人体的层次信息对数据集中的人体解析标签进行了划分,用划分后的数据集对模型进行训练,不仅改善了模型的泛化性能,也提升了人体解析语义分割的效果。
附图说明
图1为本发明的总体流程图;
图2为本发明中带有边缘约束的层次化人体解析语义分割模型的示意图;
图3为图2中的图结构推理子模块的结构示意图;
图4为本发明在人体解析语义分割通用数据集上的仿真分割结果。
具体实施方式
以下结合附图,对本发明的实施例和效果,做进一步详细描述。
参照图1:本实例的实现步骤包括如下:
步骤1数据的采集与标注。
采集含有人体的若干自然图片,并将每张含有人体的自然图片按照人体组分对应的语义信息进行像素级的标注;
将自然图片与其对应像素标注图片组成图片对,按照1:1的近似比随机将所有图片对划分为训练集和测试集。
本实例以PASCAL-Person-Part数据集为例,该数据集标签包含头、躯干、上臂、下臂、大腿、小腿和背景七类,则像素级的标注就是将属于背景的像素点被标记为0,属于头的像素点被标记为1,属于躯干的像素点被标记为2,属于上臂的像素点被标记为3,属于下臂的像素点被标记为4,属于大腿的像素点被标记为5,属于小腿的像素点被标记为6。将得到的标签图片和原图片组成图片对,按照1:1的近似比将PASCAL-Person-Part 数据集所有3533对图片对,随机划分为含1716对图片对的训练集和含1817对图片对的测试集。
步骤2对训练数据做预处理。
2.1)对训练集的所有图片对依次进行随机剪裁、随机尺度缩放和随机翻转的增强。本实例的随机缩放范围为原始图像的0.5~2.0倍,随机翻转的旋转方向是顺时针,其旋转的角度范围为0~180°;
2.2)根据边缘检测算子中的sobel算子提取训练集真值数据的语义边缘,利用两个卷积核在真值图像上遍历整幅真值图像,按照垂直坐标依次进行水平滑动,分别检测图像的水平梯度响应和垂直梯度响应,如果某像素在这两个卷积核下的响应值大于阈值0.5,则将其视为真值图像的边缘,标记该像素点为1;如果某像素在这两个卷积核下的响应值小于等于阈值0.5,则将其视为真值图像的背景,标记该像素点为0。
2.3)根据人体分层情况,先将人体解析标签由精细到粗糙划分为三层,再合并训练集的真值数据不同层次的语义标签。
所述三层结构如下:
第一层为最细节人体解析层,表达了人体标签最多的层次,标签数量与S1)中标注的人体组分数量保持一致,划分得到最细节真值图像
Figure RE-GDA0003179971740000041
第二层为上下半身人体解析层,其利用人体上下半身的语义信息对人体标签上下半身进行区分,其标签类别为上半身、下半身和背景;第三层为全身人体解析层,其为表达人体标签最少的层次,标签类别为全身人像和背景;
所述标签合并如下:
由第一层类别标签将同属于上半身的人体标签合并成一类,将同属于下半身的人体标签合并成为另一类,将背景被分为单独一类,划分得到上下半身真值图像
Figure RE-GDA0003179971740000052
由第二层类别标签进行合并,即上半身和下半身合并成一类,背景仍被分成单独的一类,划分得到全身真值图像
Figure RE-GDA0003179971740000051
本实例以PASCAL-Person-Part数据集为例:
第一层为最细节人体解析层,也即头、躯干、上臂、下臂、大腿、小腿和背景各为一类,表达了人体标签最多的层次;
第二层为上下半身人体解析层,其利用人体上下半身的语义信息对人体标签上下半身进行区分,也即将头、躯干、上臂和下臂视为上半身,大腿和小腿视为下半身;标签类别为上半身、下半身和背景三类标签。
第三层为全身人体解析层,其为表达人体标签最少的层次,标签类别为全身人像和背景两类标签。
步骤3构建带有边缘约束的层次化人体解析语义分割模型。
参照图2,带有边缘约束的层次化人体解析语义分割模型包括骨干网络、边缘检测模块、层次空间金字塔模块和解码模块,该骨干网络的输出分别与边缘检测模块和层次空间金字塔模块的输入端连接,边缘检测模块和层次空间金字塔模块的输出均与解码模块连接,各模块的结构如下:
3.1)构建骨干网络
所述骨干网络包括两个级联的残差神经网络模块和空洞空间卷积池化模块ASPP,该残差神经网络模块,作为通用的编码器,用于将输入的人体图像特征进行编码,得到高维度的人体特征信息,其由依次连接的7×7卷积模块C和四个特征编码模块:R1、R2、 R3、R4组成,这四个特征编码模块包含不同数目的残差块,以实现输入特征由浅层到深层、由高分辨率特征向低分辨率特征的转换,并通过第四特征编码模块R4与ASPP模块连接。该空洞空间卷积池化模块ASPP,用于对全局上下文的粗提取,其包含一个1×1 卷积模块和三个采样率分别为6,12,18的3×3空洞卷积模块。
3.2)构建边缘检测模块:
所述边缘检测模块是由三个并联的边缘特征块b1,b2,b3与融合特征块b4级联组成,这些特征块通过以下操作得到:第一边缘特征块b1由骨干网络中第一特征编码模块R1的输出特征,经过1×1卷积操作,再经过双线性插值下采样变换得到,其中变换的维度应与第三特征编码模块R3的输出特征维度保持一致;第二边缘特征块b2由骨干网络中第二特征编码模块R2的输出特征,经过1×1卷积操作,再经过双线性插值下采样变换得到,其中变换的维度应与第三特征编码模块R3的输出特征维度保持一致;第三边缘特征块b3由骨干网络中第三特征编码模块R3的输出特征,经过1×1卷积操作得到;第四边缘特征块b4由第一边缘特征块b1,第二边缘特征块b2与第三边缘特征块b3按照通道维度进行矩阵拼接得到。
3.3)构建层次空间金字塔模块:
所述层次空间金字塔模块,是一个空间金字塔模型架构,包括级联的最底层图结构推理模块G1,中间层图结构推理模块G2,最上层图结构推理模块G3,如图3所示。
该最底层图结构推理模块G1,用于最底层语义特征的消息传递,即将对应特征块的维度映射到由最细节人体解析层分组类别构成的最底层图结构的特征维度上,对最底层图结构特征进行消息传递,并将消息传递后的最底层图结构反映射回原特征块的维度;
该中间层图结构推理模块G2,用于中间层语义特征的消息传递,即将对应特征块的维度映射到由上下半身人体解析层分组类别构成的中间层图结构的特征维度上,对中间层图结构特征进行消息传递,并将消息传递后的中间层图结构反映射回原特征块的维度;
该最上层图结构推理模块G3,用于最上层语义特征的消息传递,即将对应特征块的维度映射到由全身人体解析层分组类别构成的最上层图结构的特征维度上,对最上层图结构特征进行消息传递,并将消息传递后的最上层图结构反映射回原特征块的维度。
本实例以PASCAL-Person-Part数据集为例:所述最底层图结构,也即利用上述对PASCAL-Person-Part数据集划分的最细节人体解析层分组类别,将头、躯干、上臂、下臂、大腿和小腿视为图的节点,头节点与躯干节点用边相连,上臂节点与躯干节点用边相连,大腿节点与躯干节点用边相连,大腿节点与小腿节点用边相连,上臂节点与下臂节点用边相连。所述中间层图结构,也即利用上述对PASCAL-Person-Part数据集划分的上下半身人体解析层分组类别,将上半身和下半身视为图的节点,上半身节点与下半身节点用边相连。所述最上层图结构,也即利用上述对PASCAL-Person-Part数据集划分的全身人体解析层分组类别,将全身视为图的节点。
所述层次空间金字塔模块的映射方式如下:
首先,将原始特征首先经过维度压缩,由C×H×W维变为C×K维,其中C为原始特征通道数,H为原始特征高度,W为原始特征宽度,K为原始特征的高度与宽度的乘积;
其次,将压缩矩阵和一个可学习的,大小为K×N的映射矩阵相乘,得到相应的图结构特征,其中N为图结构的节点数量。
所述层次空间金字塔模块的消息传递是通过三层图卷积层进行实现,得到推理后的图结构。
所述层次空间金字塔模块的反映射采用如下方式实现:
首先,将推理后的图特征与一个可学习的,大小为C×K的反映射矩阵相乘,得到大小N×K为的反映射特征;
然后,利用维度还原将其还原为大小为C×H×W的特征块,这个特征块即为图结构推理模块的输出。
3.4)建立融合解码模块:
解码模块由融合解码子模块,边缘解码子模块,最细节人体解码子模块,上下半身解码子模块与全身解码子模块并联组成,其中:
融合解码子模块,用于融合边缘检测模块的输出和层次空间金字塔模块的输出,并将融合结果进行解码得到带有边缘约束的层次化人体解析语义分割模型预测的边缘约束人体解析图像y;
边缘解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的人体边缘图像ye
最细节人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的最细节人体解析图像y1
上下半身人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的上下半身人体解析图像y2
全身人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的全身人体解析图像y3
步骤4对带有边缘约束的层次化人体解析语义分割模型进行训练。
4.1)设置带有边缘约束的层次化人体解析语义分割模型的训练规则和超参数:
包括设置梯度下降方法、损失函数、学习率和最大训练代数,其中:
梯度下降方法采用随机梯度下降算法SGD,将SGD中的动能系数设置为0.9,权重衰减系数设置为0.0005;
最大训练代数为150代;
学习率为
Figure RE-GDA0003179971740000081
式中p为指数系数,t为迭代代数,lt+1和lt分别表示第t+1 代和第t代迭代的学习率。第1代的学习率l1设置为0.01,指数系数p设置为0.01。
损失函数为:L=L+Le+L1+L2+L3,其中;
Figure RE-GDA0003179971740000082
为融合解码子模块输出的边缘约束人体解析图像y与最细节真值图像
Figure RE-GDA0003179971740000083
间的损失函数,LCE为交叉熵损失函数;
Figure RE-GDA0003179971740000084
为边缘检测模块输出的边缘约束人体解析图像ye与边缘真值图像
Figure RE-GDA0003179971740000085
间的损失函数;
Figure RE-GDA0003179971740000086
为解码模块最细节人体解码子模块输出的边缘约束人体解析图像y1与最细节真值图像
Figure RE-GDA0003179971740000087
间的损失函数;
Figure RE-GDA0003179971740000088
为解码模块上下半身人体解码子模块输出的边缘约束人体解析图像 y2与上下半身真值图像
Figure RE-GDA0003179971740000089
间的损失函数;
Figure RE-GDA00031799717400000810
为解码模块全身人体解码子模块输出的边缘约束人体解析图像y3与全身真值图像
Figure RE-GDA00031799717400000811
间的损失函数。
4.2)将步骤2预处理后训练集图片输入进带有边缘约束的层次化人体解析语义分割模型的骨干模块,将骨干网络中第一特征编码模块R1,第二特征编码模块R2,第三特征编码模块R3和空洞空间卷积池化模块ASPP的输出特征作为骨干网络的输出,并将其输出输入进边缘检测模块,得到边缘特征;
4.3)对骨干网络中第一特征编码模块R1的输出特征下采样,并与空洞空间卷积池化模块ASPP的输出进行特征融合,输入到层次空间金字塔模块,得到最上层原始特征、中间层推理特征和最底层推理特征;
4.4)将上述边缘特征,最上层推理特征,中间层推理特征,最底层推理特征,输入到解码模块,得到预测的边缘约束人体解析图像y、预测的人体边缘图像ye、预测的最细节人体解析图像y1、预测的上下半身人体解析图像y2和预测的全身人体解析图像y3
4.5)计算解码模块的输出与对应真值间的损失函数L,利用神经网络的反向传播机制更新带有边缘约束的层次化人体解析语义分割模型中各卷积核参数,完成一次训练;
4.6)训练次数加一,循环执行上述4.2)-4.5),并判断当前的训练次数是否达到最大训练次数:
若是,则训练完成,得到训练好的带有边缘约束的层次化人体解析语义分割模型,
否则,返回4.2)继续循环迭代网络参数。
步骤5对训练后带有边缘约束的层次化人体解析语义分割模型进行评价,
5.1)计算训练后带有边缘约束的层次化人体解析语义分割模型的评价指标:
将步骤4中训练得到的模型参数保存,获得训练后的带有边缘约束的层次化人体解析语义分模型,将测试集输入训练后的带有边缘约束的层次化人体解析语义分割模型中,根据其输出图像和对应真值图像计算其平均交并比指标mIoU:
Figure RE-GDA0003179971740000091
其中TP,FP,FN分别代表通过统计输出图像和真值图像之间的混淆矩阵得到的真阳性、假阳性、假阴性像素点;
5.2)根据平均交并比指标,对训练后带有边缘约束的层次化人体解析语义分割模型性能进行评价,判断训练后带有边缘约束的层次化人体解析语义分割模型是否达到预期效果:若达到,则执行步骤6,否则,返回步骤4调整带有边缘约束的层次化人体解析语义分割模型的超参数和训练规则重新进行训练。
步骤6输出带有边缘约束的层次化人体解析语义分割模型的结果图像:
将包含人体的自然图像输入到步骤4带有边缘约束的层次化人体解析语义分割模型中,得到带有边缘约束的人体解析图像。
本发明的效果可通过以下仿真进一步说明:
一、仿真条件
以PASCAL-Person-Part数据集的部分图片作为仿真图片进行仿真验证,仿真基于pytorch1.5软件进行。
二、仿真内容与结果
将仿真图片分别输入到现有训练好的Deeplabv2模型和训练好的CE2P模型,将仿真图片输入到本发明训练好的带有边缘约束的层次化人体解析语义分割模型,得到分割结果如图4,其中:
图4(a)为仿真图片;
图4(b)为真值图片;
图4(c)为用现有Deeplabv2方法的分割的结果;
图4(d)为用现有CE2P方法的分割结果;
图4(e)为用本发明带有边缘约束的层次化人体解析语义分割方法的分割结果。
从图4可以看出,本发明带有边缘约束的层次化人体解析语义分割方法与真值图像接近,且相较于现有Deeplabv2方法和CE2P方法,本发明可改善对人体图像的错分、漏分现象,表明本实例有着较好的分割效果。

Claims (9)

1.一种带有边缘约束的层次化人体解析语义分割方法,其特征在于,包括:
S1)数据的采集与标注:
采集含有人体的若干自然图片,并将每张含有人体的自然图片按照人体组分对应的语义信息进行像素级的标注;
将自然图片与其对应像素标注图片组成图片对,按照1:1的近似比随机将所有图片对划分为训练集和测试集;
S2)对训练数据做预处理:
对训练集的所有图片对依次进行随机剪裁、随机尺度缩放和随机翻转的增强;
根据边缘检测算子提取训练集真值数据的语义边缘,并根据人体分层情况,合并训练集的真值数据不同层次的语义标签;
S3)构建带有边缘约束的层次化人体解析语义分割模型,其包括骨干网络、边缘检测模块、层次空间金字塔模块和解码模块,该骨干网络的输出分别与边缘检测模块和层次空间金字塔模块的输入端连接,边缘检测模块与层次空间金字塔模块的输出与解码模块连接;
S4)设置模型超参数和训练规则,包括设置梯度下降方法、学习率、最大训练代数、损失函数,并将经过S2)预处理后的训练集批量输入到带有边缘约束的层次化人体解析语义分割模型中,进行带有边缘约束的层次化人体解析语义分割模型训练;
S5)将S4)训练后的模型参数保存,获得含参数的带有边缘约束的层次化人体解析语义分模型,将测试集输入带参数的人体解析语义分割模型中进行模型评价,得到其平均交并比指标;
S6)根据评价的平均交并比指标评价模型性能是否达到预期效果:
若达到,则执行S7),
否则,返回S4)调整网络超参数和训练规则,重新训练带有边缘约束的层次化人体解析语义分割模型;
S7)将包含人体的自然图像输入到S4)含参数的带有边缘约束的层次化人体解析语义分割模型中,得到边缘约束的人体解析图像。
2.根据权利要求1所述的方法,其特征在于,S2)中根据边缘检测算子提取训练集真值数据的语义边缘,是利用两个卷积核在真值图像上遍历整幅真值图像,即按照垂直坐标依次进行水平滑动,分别检测图像的水平梯度响应和垂直梯度响应,如果某像素在这两个卷积核下的响应值大于预先设定的阈值,则将其视为真值图像的边缘。
3.根据权利要求1所述的方法,其特征在于,S2)中根据人体分层情况,合并训练集的真值数据不同层次的语义标签,先是将人体解析标签由精细到粗糙划分为三层,再进行标签合并,其中:
所述三层结构如下:
第一层为最细节人体解析层,表达了人体标签最多的层次,标签数量与S1)中标注的人体组分数量保持一致,划分得到最细节真值图像
Figure FDA0003145826980000021
第二层为上下半身人体解析层,其利用人体上下半身的语义信息对人体标签上下半身进行区分,其标签类别为上半身、下半身和背景;
第三层为全身人体解析层,其为表达人体标签最少的层次,标签类别为全身人像和背景,
所述标签合并如下:
由第一层类别标签将同属于上半身的人体标签合并成一类,将同属于下半身的人体标签合并成为另一类,将背景被分为单独一类,划分得到上下半身真值图像
Figure FDA0003145826980000022
由第二层类别标签进行合并,即上半身和下半身合并成一类,背景仍被分成单独的一类,划分得到全身真值图像
Figure FDA0003145826980000023
4.根据权利要求1所述的方法,其特征在于,S3)中的骨干网络,包括两个级联的残差神经网络模块和空洞空间卷积池化模块ASPP,其中:
所述残差神经网络模块作为通用的编码器,用于将输入的人体图像特征进行编码,得到高维度的人体特征信息,该模块包括依次连接7×7卷积模块C和四个特征编码模块:R1、R2、R3、R4,这四个特征编码模块包含不同数目的残差块,以实现输入特征由浅层到深层、由高分辨率特征向低分辨率特征的转换,并通过第四特征编码模块R4与ASPP模块连接
所述空洞空间卷积池化模块ASPP,用于对全局上下文的粗提取,其包含一个1×1卷积模块和三个采样率分别为6,12,18的3×3空洞卷积模块。
5.根据权利要求1所述的方法,其特征在于,S3)中的边缘检测模块,是由三个并联的边缘特征块b1,b2,b3与融合特征块b4级联组成,这些特征块通过以下操作得到:
第一边缘特征块b1由骨干网络中第一特征编码模块R1的输出特征,经过1×1卷积操作,再经过下采样变换得到,其中变换的维度应与第三特征编码模块R3的输出特征维度保持一致;
第二边缘特征块b2由骨干网络中第二特征编码模块R2的输出特征,经过1×1卷积操作,再经过下采样变换得到,其中变换的维度应与第三特征编码模块R3的输出特征维度保持一致;
第三边缘特征块b3由骨干网络中第三特征编码模块R3的输出特征,经过1×1卷积操作得到;
第四边缘特征块b4由第一边缘特征块b1,第二边缘特征块b2与第三边缘特征块b3按照通道维度进行矩阵拼接得到。
6.根据权利要求1所述的方法,其特征在于,S3)中的层次空间金字塔模块,包括级联的最底层图结构推理模块G1,中间层图结构推理模块G2,最上层图结构推理模块G3,其中:
所述最底层图结构推理模块G1,用于最底层语义特征的消息传递,即将对应特征块的维度映射到由最细节人体解析层分组类别构成的最底层图结构的特征维度上,对最底层图结构特征进行消息传递,并将消息传递后的最底层图结构反映射回原特征块的维度;
所述中间层图结构推理模块G2,用于中间层语义特征的消息传递,即将对应特征块的维度映射到由上下半身人体解析层分组类别构成的中间层图结构的特征维度上,对中间层图结构特征进行消息传递,并将消息传递后的中间层图结构反映射回原特征块的维度;
所述最上层图结构推理模块G3,用于最上层语义特征的消息传递,即将对应特征块的维度映射到由全身人体解析层分组类别构成的最上层图结构的特征维度上,对最上层图结构特征进行消息传递,并将消息传递后的最上层图结构反映射回原特征块的维度。
7.根据权利要求1所述的方法,其特征在于,S3)中的解码模块由融合解码子模块,边缘解码子模块,最细节人体解码子模块,上下半身解码子模块与全身解码子模块并联组成,其中:
融合解码子模块,用于融合边缘检测模块的输出和层次空间金字塔模块的输出,并将融合结果进行解码得到带有边缘约束的层次化人体解析语义分割模型预测的边缘约束人体解析图像y;
边缘解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的人体边缘图像ye
最细节人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的最细节人体解析图像y1
上下半身人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的上下半身人体解析图像y2
全身人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的全身人体解析图像y3
8.根据权利要求1所述的方法,其特征在于,S4)中的损失函数,表示如下:
L=L+Le+L1+L2+L3
其中;
Figure FDA0003145826980000041
为融合解码子模块输出的边缘约束人体解析图像y与最细节真值图像
Figure FDA0003145826980000042
间的损失函数,LCE为交叉熵损失函数;
Figure FDA0003145826980000043
为边缘检测模块输出的边缘约束人体解析图像ye与边缘真值图像
Figure FDA0003145826980000044
间的损失函数;
Figure FDA0003145826980000045
为解码模块最细节人体解码子模块输出的边缘约束人体解析图像y1与最细节真值图像
Figure FDA0003145826980000046
间的损失函数;
Figure FDA0003145826980000047
为解码模块上下半身人体解码子模块输出的边缘约束人体解析图像y2与上下半身真值图像
Figure FDA0003145826980000051
间的损失函数;
Figure FDA0003145826980000052
为解码模块全身人体解码子模块输出的边缘约束人体解析图像y3与全身真值图像
Figure FDA0003145826980000053
间的损失函数。
9.根据权利要求1所述的方法,其特征在于,S4)中对带有边缘约束的层次化人体解析语义分割模型进行训练,实现如下:
S41)将S2)预处理后训练集图片输入进带有边缘约束的层次化人体解析语义分割模型的骨干模块,将骨干网络中第一特征编码模块R1,第二特征编码模块R2,第三特征编码模块R3和空洞空间卷积池化模块ASPP的输出特征作为骨干网络的输出,并将其输出输入进边缘检测模块,得到边缘特征;
S42)对骨干网络中第一特征编码模块R1的输出特征下采样,并与空洞空间卷积池化模块ASPP的输出进行特征融合,输入到层次空间金字塔模块,得到最上层原始特征、中间层推理特征和最底层推理特征;
S43)将上述边缘特征,最上层推理特征,中间层推理特征,最底层推理特征,输入到解码模块,得到预测的边缘约束人体解析图像y、预测的人体边缘图像ye、预测的最细节人体解析图像y1、预测的上下半身人体解析图像y2和预测的全身人体解析图像y3
S44)计算解码模块的输出与对应真值间的损失函数L,利用神经网络的反向传播机制更新带有边缘约束的层次化人体解析语义分割模型中各卷积核参数,完成一次训练;
S45)训练次数加一,循环执行上述步骤,并判断当前的训练次数是否达到最大训练次数:
若是,则训练完成,得到训练好的带有边缘约束的层次化人体解析语义分割模型,
否则,返回S41)继续循环迭代网络参数。
CN202110750094.4A 2021-07-02 2021-07-02 带有边缘约束的层次化人体解析语义分割方法 Active CN113379771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110750094.4A CN113379771B (zh) 2021-07-02 2021-07-02 带有边缘约束的层次化人体解析语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110750094.4A CN113379771B (zh) 2021-07-02 2021-07-02 带有边缘约束的层次化人体解析语义分割方法

Publications (2)

Publication Number Publication Date
CN113379771A true CN113379771A (zh) 2021-09-10
CN113379771B CN113379771B (zh) 2024-04-09

Family

ID=77580671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110750094.4A Active CN113379771B (zh) 2021-07-02 2021-07-02 带有边缘约束的层次化人体解析语义分割方法

Country Status (1)

Country Link
CN (1) CN113379771B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705575A (zh) * 2021-10-27 2021-11-26 北京美摄网络科技有限公司 一种图像分割方法、装置、设备及存储介质
CN114170250A (zh) * 2022-02-14 2022-03-11 阿里巴巴达摩院(杭州)科技有限公司 图像处理方法、装置和电子设备
CN114511573A (zh) * 2021-12-29 2022-05-17 电子科技大学 一种基于多层级边缘预测的人体解析模型及方法
CN114565770A (zh) * 2022-03-23 2022-05-31 中南大学 基于边缘辅助计算和掩模注意力的图像分割方法及系统
CN117409208A (zh) * 2023-12-14 2024-01-16 武汉纺织大学 一种实时服装图像语义分割方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564025A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN110674685A (zh) * 2019-08-19 2020-01-10 电子科技大学 一种基于边缘信息增强的人体解析分割模型及方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112396063A (zh) * 2020-12-07 2021-02-23 之江实验室 一种基于聚集激励上下文金字塔的人像语义解析方法
CN112508977A (zh) * 2020-12-29 2021-03-16 天津科技大学 一种面向自动驾驶场景的基于深度学习的语义分割方法
US20210089807A1 (en) * 2019-09-25 2021-03-25 Samsung Electronics Co., Ltd. System and method for boundary aware semantic segmentation
US20210117662A1 (en) * 2019-10-17 2021-04-22 Inception Institute of Artificial Intelligence, Ltd. Human parsing techniques utilizing neural network architectures

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564025A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN110674685A (zh) * 2019-08-19 2020-01-10 电子科技大学 一种基于边缘信息增强的人体解析分割模型及方法
US20210089807A1 (en) * 2019-09-25 2021-03-25 Samsung Electronics Co., Ltd. System and method for boundary aware semantic segmentation
US20210117662A1 (en) * 2019-10-17 2021-04-22 Inception Institute of Artificial Intelligence, Ltd. Human parsing techniques utilizing neural network architectures
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112396063A (zh) * 2020-12-07 2021-02-23 之江实验室 一种基于聚集激励上下文金字塔的人像语义解析方法
CN112508977A (zh) * 2020-12-29 2021-03-16 天津科技大学 一种面向自动驾驶场景的基于深度学习的语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张桂梅;潘国峰;刘建新;: "域自适应城市场景语义分割", 中国图象图形学报, no. 05 *
李博涵;许敏;王凯;孙翔;谭守标;: "结合编解码网络的人体解析方法", 小型微型计算机系统, no. 10 *
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705575A (zh) * 2021-10-27 2021-11-26 北京美摄网络科技有限公司 一种图像分割方法、装置、设备及存储介质
CN113705575B (zh) * 2021-10-27 2022-04-08 北京美摄网络科技有限公司 一种图像分割方法、装置、设备及存储介质
CN114511573A (zh) * 2021-12-29 2022-05-17 电子科技大学 一种基于多层级边缘预测的人体解析模型及方法
CN114511573B (zh) * 2021-12-29 2023-06-09 电子科技大学 一种基于多层级边缘预测的人体解析装置及方法
CN114170250A (zh) * 2022-02-14 2022-03-11 阿里巴巴达摩院(杭州)科技有限公司 图像处理方法、装置和电子设备
CN114565770A (zh) * 2022-03-23 2022-05-31 中南大学 基于边缘辅助计算和掩模注意力的图像分割方法及系统
CN117409208A (zh) * 2023-12-14 2024-01-16 武汉纺织大学 一种实时服装图像语义分割方法及系统
CN117409208B (zh) * 2023-12-14 2024-03-08 武汉纺织大学 一种实时服装图像语义分割方法及系统

Also Published As

Publication number Publication date
CN113379771B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN113379771A (zh) 带有边缘约束的层次化人体解析语义分割方法
Tao et al. Smoke detection based on deep convolutional neural networks
CN105678284B (zh) 一种固定位人体行为分析方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN110135319A (zh) 一种异常行为检测方法及其系统
CN110781838A (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN108520275A (zh) 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法
Pizzati et al. Enhanced free space detection in multiple lanes based on single CNN with scene identification
CN109241834A (zh) 一种基于隐变量的嵌入的群体行为识别方法
CN113850242B (zh) 一种基于深度学习算法的仓储异常目标检测方法及系统
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN111881731A (zh) 基于人体骨架的行为识别方法、系统、装置及介质
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN111461129B (zh) 一种基于上下文先验的场景分割方法和系统
CN115512103A (zh) 多尺度融合遥感图像语义分割方法及系统
CN113191204B (zh) 一种多尺度遮挡行人检测方法及系统
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
Xiong et al. Contextual Sa-attention convolutional LSTM for precipitation nowcasting: A spatiotemporal sequence forecasting view
CN112036379A (zh) 基于注意力时间池化图卷积的骨架动作识别方法
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant