CN113379771B - 带有边缘约束的层次化人体解析语义分割方法 - Google Patents
带有边缘约束的层次化人体解析语义分割方法 Download PDFInfo
- Publication number
- CN113379771B CN113379771B CN202110750094.4A CN202110750094A CN113379771B CN 113379771 B CN113379771 B CN 113379771B CN 202110750094 A CN202110750094 A CN 202110750094A CN 113379771 B CN113379771 B CN 113379771B
- Authority
- CN
- China
- Prior art keywords
- human body
- module
- edge
- hierarchical
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 108
- 230000011218 segmentation Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000003708 edge detection Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 11
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000003631 expected effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004088 simulation Methods 0.000 description 8
- 210000000689 upper leg Anatomy 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000012633 leachable Substances 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种带有边缘约束的层次化人体解析语义分割方法,主要解决现有在复杂解析场景下适应性较差,获取丰富的人体结构语义上下文信息不足的问题。其方案是:采集与标注人像数据,并对其中的训练数据进行预处理;构建带有边缘约束的层次化人体解析语义分割模型,用预处理后的训练数据对该模型进行训练并评价,将含有人体的图片输入经评价符合要求的训练后带有边缘约束的层次化人体解析语义分割模型中得到分割结果图。本发明可实现对人体解析语义分割任务边缘特征信息的约束,改善人体解析语义分割模型在复杂场景下对人体图像的错分、漏分现象,有效地提升了人体解析语义分割的效果,可用于智能安防系统的实时预警及电子商务的虚拟现实换装。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及一种层次化人体解析语义分割方法,可用于智能安防系统的实时预警及电子商务的虚拟现实换装。
背景技术
随着智能安防、虚拟现实产业的快速发展,人体解析的业务需求也随之不断增长。近年来,随着安防产品智能化,以智慧社区、智慧街道等以人体为监控实体的安防体系因其自主判断、实时预警的特点,在打击违法犯罪,提升百姓安全感的过程中发挥着重要的作用。其主要运用人体解析技术对重点监控区域出现的人像进行分割,用于辅助监测街道社区中人群的异常行为,并能够利用分割出的人体组分进行变电站等危险区域内的人体监测与预警。但由于布控环境复杂多样,目标易产生遮挡,同时人体的姿态、观察的视角、尺度等都对智能安防下的人体理解提出了较高的要求。另一方面,由于电子商务的发展和疫情带来的影响,更多的人选择通过电商平台购买服装衣物。为了节约物流成本,并方便顾客进行挑选,电商平台利用虚拟现实技术开拓换装业务有着较好的发展前景。该业务通过人体解析模型区分人体组分,替换对应服饰所属分类为对应衣物,实现换装功能。这项应用需要模型能够较为准确地划分出人体各组分边缘。
语义分割是指对图像的逐像素分类,从而实现对整个图像区域的语义理解。人体解析是语义分割领域的重要方向之一,其是指在对含有人体的输入图像进行逐像素的分类,实现多语义区域的划分,以区分出不同的人体部位例如:头发、手臂和穿戴标签,例如:上衣、鞋子。作为人体结构理解的一项细粒度子任务,人体解析在人机交互、虚拟现实、服装检索等以人体为研究对象的多个领域有着广泛的运用。然而,由于人体姿态有多样性,且解析个体所处场景复杂多样,因此人体解析任务仍具有挑战性。
为增强人体解析标签间的约束关系,T.Ruan,T.Liu,Z.Huang,Y.Wei,S.Wei,andY.Zhao.Devil in the details:Towards accurate single and multiple humanparsing[C].Proceedings of the AAAI Conference on Artificial Intelligence,vol.33,2019,pp.4814–4821.利用提取边缘信息对分割的人体类别标签进行边缘约束;研究Zhang Z,Su C,Zheng L,et al.Correlating Edge,Pose with Parsing[C].Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2020:8900-8909.添加了额外的姿态标注信息用于学习姿态特征。这些方法均是从人体形态约束和人体边缘的角度出发,采取特征融合的手段对骨干网络特征进行融合。虽然增强了边缘信息和人体骨架形态对解析任务的约束能力,但缺乏足够的上下文理解和有效的消息传递,其中,消息传递是指消息节点间的消息流通,致使上述模型无法很好地适应复杂场景。
为改善人体解析模型的适应性,现有工作多采用添加注意力机制提取特征注意力掩膜的方法提升性能,例如Luo Y,Zheng Z,Zheng L,et al.Macro-micro adversarialnetwork for human parsing[C].Proceedings of the European conference oncomputer vision.2018:418-434.提出了模型MMAN,添加了注意力模块后性能大幅提升。Gong K,Gao Y,Liang X,et al.Graphonomy:Universal human parsing via graphtransfer learning[C].Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:7450-7459.提出利用人体的拓扑结构映射图卷积神经网络进行消息传递模型,其将人体拓扑结构构成图结构,并将原始特征映射到这个图结构上进行特征节点间的信息传递。这些方法虽说可通过特征的消息传递很好地提升模型的适应性,但却由于层次单一,且没有足够地利用人体结构信息进行传递,无法获得更丰富的人体结构语义信息,分割效果不佳。
发明内容
本发明的目的在于针对上述现有方法的不足,提出一种带有边缘约束的层次化人体解析语义分割方法,以提高复杂解析场景下的适应能力,获取丰富的人体结构语义上下文信息,提升分割效果。
为实现上述目的,本发明的技术方案包括如下:
S1)数据的采集与标注:
采集含有人体的若干自然图片,并将每张含有人体的自然图片按照人体组分对应的语义信息进行像素级的标注;
将自然图片与其对应像素标注图片组成图片对,按照1:1的近似比随机将所有图片对划分为训练集和测试集;
S2)对训练数据做预处理:
对训练集的所有图片对依次进行随机剪裁、随机尺度缩放和随机翻转的增强;
根据边缘检测算子提取训练集真值数据的语义边缘,并根据人体分层情况,合并训练集的真值数据不同层次的语义标签;
S3)构建带有边缘约束的层次化人体解析语义分割模型,其包括骨干网络、边缘检测模块、层次空间金字塔模块和解码模块,该骨干网络的输出分别与边缘检测模块和层次空间金字塔模块的输入端连接,边缘检测模块与层次空间金字塔模块的输出与解码模块连接;
S4)设置模型超参数和训练规则,包括设置梯度下降方法、学习率、最大训练代数、损失函数,并将经过S2)预处理后的训练集批量输入到带有边缘约束的层次化人体解析语义分割模型中,进行带有边缘约束的层次化人体解析语义分割模型训练;
S5)将S4)训练后的模型参数保存,获得含参数的带有边缘约束的层次化人体解析语义分模型,将测试集输入带参数的人体解析语义分割模型中进行模型评价,得到其平均交并比指标;
S6)根据评价的平均交并比指标评价模型性能是否达到预期效果:
若达到,则执行S7),
否则,返回S4)调整网络超参数和训练规则,重新训练带有边缘约束的层次化人体解析语义分割模型;
S7)将包含人体的自然图像输入到S4)含参数的带有边缘约束的层次化人体解析语义分割模型中,得到边缘约束的人体解析图像。
本发明与现有技术相比,具如下优点:
第一,本发明所构建的带有边缘约束的层次化人体解析语义分割模型,因其具有边缘检测模块,可实现对人体解析语义分割任务边缘特征信息的约束,改善了原有人体解析语义分割模型在复杂场景下对人体图像的错分、漏分现象;
第二,本发明所构建的带有边缘约束的层次化人体解析语义分割模型,因其具有层次空间金字塔模块,可实现对不同层次人体结构的语义信息传递,从而获取了更为丰富的人体语义信息;
第三,本发明由于利用了人体的层次信息对数据集中的人体解析标签进行了划分,用划分后的数据集对模型进行训练,不仅改善了模型的泛化性能,也提升了人体解析语义分割的效果。
附图说明
图1为本发明的总体流程图;
图2为本发明中带有边缘约束的层次化人体解析语义分割模型的示意图;
图3为图2中的图结构推理子模块的结构示意图;
图4为本发明在人体解析语义分割通用数据集上的仿真分割结果。
具体实施方式
以下结合附图,对本发明的实施例和效果,做进一步详细描述。
参照图1:本实例的实现步骤包括如下:
步骤1数据的采集与标注。
采集含有人体的若干自然图片,并将每张含有人体的自然图片按照人体组分对应的语义信息进行像素级的标注;
将自然图片与其对应像素标注图片组成图片对,按照1:1的近似比随机将所有图片对划分为训练集和测试集。
本实例以PASCAL-Person-Part数据集为例,该数据集标签包含头、躯干、上臂、下臂、大腿、小腿和背景七类,则像素级的标注就是将属于背景的像素点被标记为0,属于头的像素点被标记为1,属于躯干的像素点被标记为2,属于上臂的像素点被标记为3,属于下臂的像素点被标记为4,属于大腿的像素点被标记为5,属于小腿的像素点被标记为6。将得到的标签图片和原图片组成图片对,按照1:1的近似比将PASCAL-Person-Part数据集所有3533对图片对,随机划分为含1716对图片对的训练集和含1817对图片对的测试集。
步骤2对训练数据做预处理。
2.1)对训练集的所有图片对依次进行随机剪裁、随机尺度缩放和随机翻转的增强。本实例的随机缩放范围为原始图像的0.5~2.0倍,随机翻转的旋转方向是顺时针,其旋转的角度范围为0~180°;
2.2)根据边缘检测算子中的sobel算子提取训练集真值数据的语义边缘,利用两个卷积核在真值图像上遍历整幅真值图像,按照垂直坐标依次进行水平滑动,分别检测图像的水平梯度响应和垂直梯度响应,如果某像素在这两个卷积核下的响应值大于阈值0.5,则将其视为真值图像的边缘,标记该像素点为1;如果某像素在这两个卷积核下的响应值小于等于阈值0.5,则将其视为真值图像的背景,标记该像素点为0。
2.3)根据人体分层情况,先将人体解析标签由精细到粗糙划分为三层,再合并训练集的真值数据不同层次的语义标签。
所述三层结构如下:
第一层为最细节人体解析层,表达了人体标签最多的层次,标签数量与S1)中标注的人体组分数量保持一致,划分得到最细节真值图像第二层为上下半身人体解析层,其利用人体上下半身的语义信息对人体标签上下半身进行区分,其标签类别为上半身、下半身和背景;第三层为全身人体解析层,其为表达人体标签最少的层次,标签类别为全身人像和背景;
所述标签合并如下:
由第一层类别标签将同属于上半身的人体标签合并成一类,将同属于下半身的人体标签合并成为另一类,将背景被分为单独一类,划分得到上下半身真值图像由第二层类别标签进行合并,即上半身和下半身合并成一类,背景仍被分成单独的一类,划分得到全身真值图像/>
本实例以PASCAL-Person-Part数据集为例:
第一层为最细节人体解析层,也即头、躯干、上臂、下臂、大腿、小腿和背景各为一类,表达了人体标签最多的层次;
第二层为上下半身人体解析层,其利用人体上下半身的语义信息对人体标签上下半身进行区分,也即将头、躯干、上臂和下臂视为上半身,大腿和小腿视为下半身;标签类别为上半身、下半身和背景三类标签。
第三层为全身人体解析层,其为表达人体标签最少的层次,标签类别为全身人像和背景两类标签。
步骤3构建带有边缘约束的层次化人体解析语义分割模型。
参照图2,带有边缘约束的层次化人体解析语义分割模型包括骨干网络、边缘检测模块、层次空间金字塔模块和解码模块,该骨干网络的输出分别与边缘检测模块和层次空间金字塔模块的输入端连接,边缘检测模块和层次空间金字塔模块的输出均与解码模块连接,各模块的结构如下:
3.1)构建骨干网络
所述骨干网络包括两个级联的残差神经网络模块和空洞空间卷积池化模块ASPP,该残差神经网络模块,作为通用的编码器,用于将输入的人体图像特征进行编码,得到高维度的人体特征信息,其由依次连接的7×7卷积模块C和四个特征编码模块:R1、R2、R3、R4组成,这四个特征编码模块包含不同数目的残差块,以实现输入特征由浅层到深层、由高分辨率特征向低分辨率特征的转换,并通过第四特征编码模块R4与ASPP模块连接。该空洞空间卷积池化模块ASPP,用于对全局上下文的粗提取,其包含一个1×1卷积模块和三个采样率分别为6,12,18的3×3空洞卷积模块。
3.2)构建边缘检测模块:
所述边缘检测模块是由三个并联的边缘特征块b1,b2,b3与融合特征块b4级联组成,这些特征块通过以下操作得到:第一边缘特征块b1由骨干网络中第一特征编码模块R1的输出特征,经过1×1卷积操作,再经过双线性插值下采样变换得到,其中变换的维度应与第三特征编码模块R3的输出特征维度保持一致;第二边缘特征块b2由骨干网络中第二特征编码模块R2的输出特征,经过1×1卷积操作,再经过双线性插值下采样变换得到,其中变换的维度应与第三特征编码模块R3的输出特征维度保持一致;第三边缘特征块b3由骨干网络中第三特征编码模块R3的输出特征,经过1×1卷积操作得到;第四边缘特征块b4由第一边缘特征块b1,第二边缘特征块b2与第三边缘特征块b3按照通道维度进行矩阵拼接得到。
3.3)构建层次空间金字塔模块:
所述层次空间金字塔模块,是一个空间金字塔模型架构,包括级联的最底层图结构推理模块G1,中间层图结构推理模块G2,最上层图结构推理模块G3,如图3所示。
该最底层图结构推理模块G1,用于最底层语义特征的消息传递,即将对应特征块的维度映射到由最细节人体解析层分组类别构成的最底层图结构的特征维度上,对最底层图结构特征进行消息传递,并将消息传递后的最底层图结构反映射回原特征块的维度;
该中间层图结构推理模块G2,用于中间层语义特征的消息传递,即将对应特征块的维度映射到由上下半身人体解析层分组类别构成的中间层图结构的特征维度上,对中间层图结构特征进行消息传递,并将消息传递后的中间层图结构反映射回原特征块的维度;
该最上层图结构推理模块G3,用于最上层语义特征的消息传递,即将对应特征块的维度映射到由全身人体解析层分组类别构成的最上层图结构的特征维度上,对最上层图结构特征进行消息传递,并将消息传递后的最上层图结构反映射回原特征块的维度。
本实例以PASCAL-Person-Part数据集为例:所述最底层图结构,也即利用上述对PASCAL-Person-Part数据集划分的最细节人体解析层分组类别,将头、躯干、上臂、下臂、大腿和小腿视为图的节点,头节点与躯干节点用边相连,上臂节点与躯干节点用边相连,大腿节点与躯干节点用边相连,大腿节点与小腿节点用边相连,上臂节点与下臂节点用边相连。所述中间层图结构,也即利用上述对PASCAL-Person-Part数据集划分的上下半身人体解析层分组类别,将上半身和下半身视为图的节点,上半身节点与下半身节点用边相连。所述最上层图结构,也即利用上述对PASCAL-Person-Part数据集划分的全身人体解析层分组类别,将全身视为图的节点。
所述层次空间金字塔模块的映射方式如下:
首先,将原始特征首先经过维度压缩,由C×H×W维变为C×K维,其中C为原始特征通道数,H为原始特征高度,W为原始特征宽度,K为原始特征的高度与宽度的乘积;
其次,将压缩矩阵和一个可学习的,大小为K×N的映射矩阵相乘,得到相应的图结构特征,其中N为图结构的节点数量。
所述层次空间金字塔模块的消息传递是通过三层图卷积层进行实现,得到推理后的图结构。
所述层次空间金字塔模块的反映射采用如下方式实现:
首先,将推理后的图特征与一个可学习的,大小为C×K的反映射矩阵相乘,得到大小N×K为的反映射特征;
然后,利用维度还原将其还原为大小为C×H×W的特征块,这个特征块即为图结构推理模块的输出。
3.4)建立融合解码模块:
解码模块由融合解码子模块,边缘解码子模块,最细节人体解码子模块,上下半身解码子模块与全身解码子模块并联组成,其中:
融合解码子模块,用于融合边缘检测模块的输出和层次空间金字塔模块的输出,并将融合结果进行解码得到带有边缘约束的层次化人体解析语义分割模型预测的边缘约束人体解析图像y;
边缘解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的人体边缘图像ye;
最细节人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的最细节人体解析图像y1;
上下半身人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的上下半身人体解析图像y2;
全身人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的全身人体解析图像y3。
步骤4对带有边缘约束的层次化人体解析语义分割模型进行训练。
4.1)设置带有边缘约束的层次化人体解析语义分割模型的训练规则和超参数:
包括设置梯度下降方法、损失函数、学习率和最大训练代数,其中:
梯度下降方法采用随机梯度下降算法SGD,将SGD中的动能系数设置为0.9,权重衰减系数设置为0.0005;
最大训练代数为150代;
学习率为式中p为指数系数,t为迭代代数,lt+1和lt分别表示第t+1代和第t代迭代的学习率。第1代的学习率l1设置为0.01,指数系数p设置为0.01。
损失函数为:L总=L+Le+L1+L2+L3,其中;
为融合解码子模块输出的边缘约束人体解析图像y与最细节真值图像/>间的损失函数,LCE为交叉熵损失函数;
为边缘检测模块输出的边缘约束人体解析图像ye与边缘真值图像间的损失函数;
为解码模块最细节人体解码子模块输出的边缘约束人体解析图像y1与最细节真值图像/>间的损失函数;
为解码模块上下半身人体解码子模块输出的边缘约束人体解析图像y2与上下半身真值图像/>间的损失函数;
为解码模块全身人体解码子模块输出的边缘约束人体解析图像y3与全身真值图像/>间的损失函数。
4.2)将步骤2预处理后训练集图片输入进带有边缘约束的层次化人体解析语义分割模型的骨干模块,将骨干网络中第一特征编码模块R1,第二特征编码模块R2,第三特征编码模块R3和空洞空间卷积池化模块ASPP的输出特征作为骨干网络的输出,并将其输出输入进边缘检测模块,得到边缘特征;
4.3)对骨干网络中第一特征编码模块R1的输出特征下采样,并与空洞空间卷积池化模块ASPP的输出进行特征融合,输入到层次空间金字塔模块,得到最上层原始特征、中间层推理特征和最底层推理特征;
4.4)将上述边缘特征,最上层推理特征,中间层推理特征,最底层推理特征,输入到解码模块,得到预测的边缘约束人体解析图像y、预测的人体边缘图像ye、预测的最细节人体解析图像y1、预测的上下半身人体解析图像y2和预测的全身人体解析图像y3;
4.5)计算解码模块的输出与对应真值间的损失函数L总,利用神经网络的反向传播机制更新带有边缘约束的层次化人体解析语义分割模型中各卷积核参数,完成一次训练;
4.6)训练次数加一,循环执行上述4.2)-4.5),并判断当前的训练次数是否达到最大训练次数:
若是,则训练完成,得到训练好的带有边缘约束的层次化人体解析语义分割模型,
否则,返回4.2)继续循环迭代网络参数。
步骤5对训练后带有边缘约束的层次化人体解析语义分割模型进行评价,
5.1)计算训练后带有边缘约束的层次化人体解析语义分割模型的评价指标:
将步骤4中训练得到的模型参数保存,获得训练后的带有边缘约束的层次化人体解析语义分模型,将测试集输入训练后的带有边缘约束的层次化人体解析语义分割模型中,根据其输出图像和对应真值图像计算其平均交并比指标mIoU:
其中TP,FP,FN分别代表通过统计输出图像和真值图像之间的混淆矩阵得到的真阳性、假阳性、假阴性像素点;
5.2)根据平均交并比指标,对训练后带有边缘约束的层次化人体解析语义分割模型性能进行评价,判断训练后带有边缘约束的层次化人体解析语义分割模型是否达到预期效果:若达到,则执行步骤6,否则,返回步骤4调整带有边缘约束的层次化人体解析语义分割模型的超参数和训练规则重新进行训练。
步骤6输出带有边缘约束的层次化人体解析语义分割模型的结果图像:
将包含人体的自然图像输入到步骤4带有边缘约束的层次化人体解析语义分割模型中,得到带有边缘约束的人体解析图像。
本发明的效果可通过以下仿真进一步说明:
一、仿真条件
以PASCAL-Person-Part数据集的部分图片作为仿真图片进行仿真验证,仿真基于pytorch1.5软件进行。
二、仿真内容与结果
将仿真图片分别输入到现有训练好的Deeplabv2模型和训练好的CE2P模型,将仿真图片输入到本发明训练好的带有边缘约束的层次化人体解析语义分割模型,得到分割结果如图4,其中:
图4(a)为仿真图片;
图4(b)为真值图片;
图4(c)为用现有Deeplabv2方法的分割的结果;
图4(d)为用现有CE2P方法的分割结果;
图4(e)为用本发明带有边缘约束的层次化人体解析语义分割方法的分割结果。
从图4可以看出,本发明带有边缘约束的层次化人体解析语义分割方法与真值图像接近,且相较于现有Deeplabv2方法和CE2P方法,本发明可改善对人体图像的错分、漏分现象,表明本实例有着较好的分割效果。
Claims (7)
1.一种带有边缘约束的层次化人体解析语义分割方法,其特征在于,包括:
S1)数据的采集与标注:
采集含有人体的若干自然图片,并将每张含有人体的自然图片按照人体组分对应的语义信息进行像素级的标注;
将自然图片与其对应像素标注图片组成图片对,按照1:1的近似比随机将所有图片对划分为训练集和测试集;
S2)对训练数据做预处理:
对训练集的所有图片对依次进行随机剪裁、随机尺度缩放和随机翻转的增强;
根据边缘检测算子提取训练集真值数据的语义边缘,并根据人体分层情况,合并训练集的真值数据不同层次的语义标签;
S3)构建带有边缘约束的层次化人体解析语义分割模型,其包括骨干网络、边缘检测模块、层次空间金字塔模块和解码模块,该骨干网络的输出分别与边缘检测模块和层次空间金字塔模块的输入端连接,边缘检测模块与层次空间金字塔模块的输出与解码模块连接;其中的边缘检测模块,是由三个并联的边缘特征块b1,b2,b3与融合特征块b4级联组成,这些特征块通过以下操作得到:
第一边缘特征块b1由骨干网络中第一特征编码模块R1的输出特征,经过1×1卷积操作,再经过下采样变换得到,其中变换的维度应与第三特征编码模块R3的输出特征维度保持一致;
第二边缘特征块b2由骨干网络中第二特征编码模块R2的输出特征,经过1×1卷积操作,再经过下采样变换得到,其中变换的维度应与第三特征编码模块R3的输出特征维度保持一致;
第三边缘特征块b3由骨干网络中第三特征编码模块R3的输出特征,经过1×1卷积操作得到;
第四边缘特征块b4由第一边缘特征块b1,第二边缘特征块b2与第三边缘特征块b3按照通道维度进行矩阵拼接得到;
其中的层次空间金字塔模块,包括级联的最底层图结构推理模块G1,中间层图结构推理模块G2,最上层图结构推理模块G3,其中:
所述最底层图结构推理模块G1,用于最底层语义特征的消息传递,即将对应特征块的维度映射到由最细节人体解析层分组类别构成的最底层图结构的特征维度上,对最底层图结构特征进行消息传递,并将消息传递后的最底层图结构反映射回原特征块的维度;
所述中间层图结构推理模块G2,用于中间层语义特征的消息传递,即将对应特征块的维度映射到由上下半身人体解析层分组类别构成的中间层图结构的特征维度上,对中间层图结构特征进行消息传递,并将消息传递后的中间层图结构反映射回原特征块的维度;
所述最上层图结构推理模块G3,用于最上层语义特征的消息传递,即将对应特征块的维度映射到由全身人体解析层分组类别构成的最上层图结构的特征维度上,对最上层图结构特征进行消息传递,并将消息传递后的最上层图结构反映射回原特征块的维度;
S4)设置模型超参数和训练规则,包括设置梯度下降方法、学习率、最大训练代数、损失函数,并将经过S2)预处理后的训练集批量输入到带有边缘约束的层次化人体解析语义分割模型中,进行带有边缘约束的层次化人体解析语义分割模型训练;
S5)将S4)训练后的模型参数保存,获得含参数的带有边缘约束的层次化人体解析语义分模型,将测试集输入带参数的人体解析语义分割模型中进行模型评价,得到其平均交并比指标;
S6)根据评价的平均交并比指标评价模型性能是否达到预期效果:
若达到,则执行S7),
否则,返回S4)调整网络超参数和训练规则,重新训练带有边缘约束的层次化人体解析语义分割模型;
S7)将包含人体的自然图像输入到S4)含参数的带有边缘约束的层次化人体解析语义分割模型中,得到边缘约束的人体解析图像。
2.根据权利要求1所述的方法,其特征在于,S2)中根据边缘检测算子提取训练集真值数据的语义边缘,是利用两个卷积核在真值图像上遍历整幅真值图像,即按照垂直坐标依次进行水平滑动,分别检测图像的水平梯度响应和垂直梯度响应,如果某像素在这两个卷积核下的响应值大于预先设定的阈值,则将其视为真值图像的边缘。
3.根据权利要求1所述的方法,其特征在于,S2)中根据人体分层情况,合并训练集的真值数据不同层次的语义标签,先是将人体解析标签由精细到粗糙划分为三层,再进行标签合并,其中:
所述三层结构如下:
第一层为最细节人体解析层,表达了人体标签最多的层次,标签数量与S1)中标注的人体组分数量保持一致,划分得到最细节真值图像
第二层为上下半身人体解析层,其利用人体上下半身的语义信息对人体标签上下半身进行区分,其标签类别为上半身、下半身和背景;
第三层为全身人体解析层,其为表达人体标签最少的层次,标签类别为全身人像和背景,
所述标签合并如下:
由第一层类别标签将同属于上半身的人体标签合并成一类,将同属于下半身的人体标签合并成为另一类,将背景被分为单独一类,划分得到上下半身真值图像
由第二层类别标签进行合并,即上半身和下半身合并成一类,背景仍被分成单独的一类,划分得到全身真值图像
4.根据权利要求1所述的方法,其特征在于,S3)中的骨干网络,包括两个级联的残差神经网络模块和空洞空间卷积池化模块ASPP,其中:
所述残差神经网络模块作为通用的编码器,用于将输入的人体图像特征进行编码,得到高维度的人体特征信息,该模块包括依次连接7×7卷积模块C和四个特征编码模块:R1、R2、R3、R4,这四个特征编码模块包含不同数目的残差块,以实现输入特征由浅层到深层、由高分辨率特征向低分辨率特征的转换,并通过第四特征编码模块R4与ASPP模块连接
所述空洞空间卷积池化模块ASPP,用于对全局上下文的粗提取,其包含一个1×1卷积模块和三个采样率分别为6,12,18的3×3空洞卷积模块。
5.根据权利要求1所述的方法,其特征在于,S3)中的解码模块由融合解码子模块,边缘解码子模块,最细节人体解码子模块,上下半身解码子模块与全身解码子模块并联组成,其中:
融合解码子模块,用于融合边缘检测模块的输出和层次空间金字塔模块的输出,并将融合结果进行解码得到带有边缘约束的层次化人体解析语义分割模型预测的边缘约束人体解析图像y;
边缘解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的人体边缘图像ye;
最细节人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的最细节人体解析图像y1;
上下半身人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的上下半身人体解析图像y2;
全身人体解码子模块,用于输出带有边缘约束的层次化人体解析语义分割模型预测的全身人体解析图像y3。
6.根据权利要求1所述的方法,其特征在于,S4)中的损失函数,表示如下:
L总=L+Le+L1+L2+L3
其中;为融合解码子模块输出的边缘约束人体解析图像y与最细节真值图像/>间的损失函数,LCE为交叉熵损失函数;
为边缘检测模块输出的边缘约束人体解析图像ye与边缘真值图像/>间的损失函数;
为解码模块最细节人体解码子模块输出的边缘约束人体解析图像y1与最细节真值图像/>间的损失函数;
为解码模块上下半身人体解码子模块输出的边缘约束人体解析图像y2与上下半身真值图像/>间的损失函数;
为解码模块全身人体解码子模块输出的边缘约束人体解析图像y3与全身真值图像/>间的损失函数。
7.根据权利要求1所述的方法,其特征在于,S4)中对带有边缘约束的层次化人体解析语义分割模型进行训练,实现如下:
S41)将S2)预处理后训练集图片输入进带有边缘约束的层次化人体解析语义分割模型的骨干模块,将骨干网络中第一特征编码模块R1,第二特征编码模块R2,第三特征编码模块R3和空洞空间卷积池化模块ASPP的输出特征作为骨干网络的输出,并将其输出输入进边缘检测模块,得到边缘特征;
S42)对骨干网络中第一特征编码模块R1的输出特征下采样,并与空洞空间卷积池化模块ASPP的输出进行特征融合,输入到层次空间金字塔模块,得到最上层原始特征、中间层推理特征和最底层推理特征;
S43)将上述边缘特征,最上层推理特征,中间层推理特征,最底层推理特征,输入到解码模块,得到预测的边缘约束人体解析图像y、预测的人体边缘图像ye、预测的最细节人体解析图像y1、预测的上下半身人体解析图像y2和预测的全身人体解析图像y3;
S44)计算解码模块的输出与对应真值间的损失函数L总,利用神经网络的反向传播机制更新带有边缘约束的层次化人体解析语义分割模型中各卷积核参数,完成一次训练;
S45)训练次数加一,循环执行上述步骤,并判断当前的训练次数是否达到最大训练次数:
若是,则训练完成,得到训练好的带有边缘约束的层次化人体解析语义分割模型,
否则,返回S41)继续循环迭代网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110750094.4A CN113379771B (zh) | 2021-07-02 | 2021-07-02 | 带有边缘约束的层次化人体解析语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110750094.4A CN113379771B (zh) | 2021-07-02 | 2021-07-02 | 带有边缘约束的层次化人体解析语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113379771A CN113379771A (zh) | 2021-09-10 |
CN113379771B true CN113379771B (zh) | 2024-04-09 |
Family
ID=77580671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110750094.4A Active CN113379771B (zh) | 2021-07-02 | 2021-07-02 | 带有边缘约束的层次化人体解析语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379771B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705575B (zh) * | 2021-10-27 | 2022-04-08 | 北京美摄网络科技有限公司 | 一种图像分割方法、装置、设备及存储介质 |
CN114511573B (zh) * | 2021-12-29 | 2023-06-09 | 电子科技大学 | 一种基于多层级边缘预测的人体解析装置及方法 |
CN114170250B (zh) * | 2022-02-14 | 2022-05-13 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、装置和电子设备 |
CN114565770B (zh) * | 2022-03-23 | 2022-09-13 | 中南大学 | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 |
CN117409208B (zh) * | 2023-12-14 | 2024-03-08 | 武汉纺织大学 | 一种实时服装图像语义分割方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107564025A (zh) * | 2017-08-09 | 2018-01-09 | 浙江大学 | 一种基于深度神经网络的电力设备红外图像语义分割方法 |
CN110674685A (zh) * | 2019-08-19 | 2020-01-10 | 电子科技大学 | 一种基于边缘信息增强的人体解析分割模型及方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112396063A (zh) * | 2020-12-07 | 2021-02-23 | 之江实验室 | 一种基于聚集激励上下文金字塔的人像语义解析方法 |
CN112508977A (zh) * | 2020-12-29 | 2021-03-16 | 天津科技大学 | 一种面向自动驾驶场景的基于深度学习的语义分割方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461998B2 (en) * | 2019-09-25 | 2022-10-04 | Samsung Electronics Co., Ltd. | System and method for boundary aware semantic segmentation |
US11410449B2 (en) * | 2019-10-17 | 2022-08-09 | Inception Institute of Artificial Intelligence, Ltd. | Human parsing techniques utilizing neural network architectures |
-
2021
- 2021-07-02 CN CN202110750094.4A patent/CN113379771B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107564025A (zh) * | 2017-08-09 | 2018-01-09 | 浙江大学 | 一种基于深度神经网络的电力设备红外图像语义分割方法 |
CN110674685A (zh) * | 2019-08-19 | 2020-01-10 | 电子科技大学 | 一种基于边缘信息增强的人体解析分割模型及方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112396063A (zh) * | 2020-12-07 | 2021-02-23 | 之江实验室 | 一种基于聚集激励上下文金字塔的人像语义解析方法 |
CN112508977A (zh) * | 2020-12-29 | 2021-03-16 | 天津科技大学 | 一种面向自动驾驶场景的基于深度学习的语义分割方法 |
Non-Patent Citations (3)
Title |
---|
张桂梅 ; 潘国峰 ; 刘建新 ; .域自适应城市场景语义分割.中国图象图形学报.2020,(第05期),全文. * |
李博涵 ; 许敏 ; 王凯 ; 孙翔 ; 谭守标 ; .结合编解码网络的人体解析方法.小型微型计算机系统.2020,(第10期),全文. * |
青晨 ; 禹晶 ; 肖创柏 ; 段娟 ; .深度卷积神经网络图像语义分割研究进展.中国图象图形学报.2020,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113379771A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113379771B (zh) | 带有边缘约束的层次化人体解析语义分割方法 | |
Lu et al. | Monocular semantic occupancy grid mapping with convolutional variational encoder–decoder networks | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN107506740B (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN110147743A (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN111598030A (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
CN109711413A (zh) | 基于深度学习的图像语义分割方法 | |
CN109344736A (zh) | 一种基于联合学习的静态图像人群计数方法 | |
CN111626128A (zh) | 一种基于改进YOLOv3的果园环境下行人检测方法 | |
CN110991444B (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN114005085B (zh) | 一种视频中密集人群分布检测与计数方法 | |
CN113205502A (zh) | 一种基于深度学习的绝缘子缺陷检测方法及其系统 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN113191204B (zh) | 一种多尺度遮挡行人检测方法及系统 | |
CN109063549A (zh) | 基于深度神经网络的高分辨率航拍视频运动目标检测方法 | |
CN115512103A (zh) | 多尺度融合遥感图像语义分割方法及系统 | |
CN111652240A (zh) | 一种基于cnn的图像局部特征检测与描述方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN114494699B (zh) | 基于语义传播与前背景感知的图像语义分割方法及系统 | |
CN111598140A (zh) | 一种基于胶囊网络的遥感图像分类方法 | |
CN113887455B (zh) | 一种基于改进fcos的人脸口罩检测系统及方法 | |
Ouyang et al. | Aerial target detection based on the improved YOLOv3 algorithm | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN112802048A (zh) | 具有不对称结构的图层生成对抗网络生成方法及装置 | |
CN109583584A (zh) | 可使具有全连接层的cnn接受不定形状输入的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |