CN112329511A - 基于残差特征金字塔的人像分割方法 - Google Patents
基于残差特征金字塔的人像分割方法 Download PDFInfo
- Publication number
- CN112329511A CN112329511A CN202010784216.7A CN202010784216A CN112329511A CN 112329511 A CN112329511 A CN 112329511A CN 202010784216 A CN202010784216 A CN 202010784216A CN 112329511 A CN112329511 A CN 112329511A
- Authority
- CN
- China
- Prior art keywords
- portrait
- output
- map
- group
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 230000004913 activation Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 101150077939 mapA gene Proteins 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于残差特征金字塔的人像分割方法,实现以人像图片为输入,输出该图像的人像区域显著性图。本发明首先设计了侧输出优化单元,减少了网络参数,然后利用特征金字塔整合相邻层间人像特征图,逐步提升了人像特征的分辨率,最后引入残差学习模块从背景区域重学习并补充人像特征边缘等细节,进一步提高整个网络的模型分辨率。本发明可以得到高分辨率的人像图,同时能更好的检测复杂场景下人像细节信息。
Description
技术领域
本发明属于计算机视觉与数字图像处理领域,具体为一种基于残差特征金字塔的人像分割方法。
背景技术
人像分割的目的是定位和分割出图像中的人像信息。人像分割被应用于后续的各种高级任务,例如背景替换或虚化,人像3D建模等。分割的准确性直接影响了背景替换的精确度,影响后续工作性能。传统的检测方法通常采用手工设计的低级特征(例如颜色,密度,对比度)或启发式先验,这些手工设计的特征很难捕捉到高级语意信息。
随着深度学习的快速发展,人像分割的性能也取得了大幅度提升。相比传统手工设计人像特征的方式,深度学习网络能够获得高级人像语意特征。观察到深层卷积特征具有高级语意信息,而浅层卷积特征具有空间细节信息,现有的人像分割方法都致力于研究如何更加有效地整合深层高级语意和浅层低级空间信息。然而这些方法只是简单的相加或合并,容易忽略背景区域与人像区域间的联系,从而影响复杂场景下人像分割。另外,人像分割方法都仅仅采用每个阶段的最后一层作为侧输出,这种方式直接忽略了前面卷积特征作用从而导致次优的侧输出,不利于之后人像边界的优化。
发明内容
本发明的目的在于提出了一种基于残差特征金字塔的人像分割方法。
实现本发明目的的技术解决方案为:一种基于残差特征金字塔的人像分割方法,包括:
构建基于残差特征金子塔的人像分割模型并对其进行训练;
将待分割图像输入训练好的人像分割模型获得分割结果;
其中,构建基于残差特征金子塔的人像分割模型的具体过程为:
S1:移除VGG-16网络最后的三个全连接层;
S2:在VGG-16网络中选取三组侧输出,每组侧输出包括3个卷积特征,将每组侧输出输入至一个侧输出优化单元,获得优化后的侧输出;
选取pool5直接作为第四组侧输出,在第四组侧输出后增加三个卷积层并在每个卷积层后增加一个非线性激活层,获得人像特征图;
S3:将人像特征图通过反卷积层上采样2倍;
S4:将上采样的人像特征图通过sigmoid层归一化到[0,1]得到显著性区域图,将显著性区域图与1相减得到非显著性区域图,将非显著性区域图与上一组侧输出的每个通道相乘,得到侧输出非显著性区域图;
S5:将侧输出非显著性区域图输入两个卷积层、一个非线性激活层,并将输出结果与上采样后人像特征图做元素相加,得到残差学习输出作为上一组侧输出的人像特征图;
S6:重复S3~S6,直至获得第一组侧输出的人像特征图,将第一组侧输出的人像特征图通过积核、反卷积操作上采样至原图像大小,通过一个sigmoid层归一化到[0,1]后作为最终输出的人像显著图结果。
优选地,选取的三组侧输出分别为:第一组侧输出{conv3_1,conv3_2,conv3_3},第二组侧输出{conv4_1,conv4_2,conv4_3},第三组侧输出{conv5_1,conv5_2,conv5_3}。
优选地,获得优化后的侧输出的具体过程为:在每个卷积特征后各自增加一个卷积层,在每一个卷积层后增加一个非线性激活层,并对非线性激活后的三个特征进行元素相加的操作整合,分别得到三组优化后的侧输出。
优选地,对人像分割模型进行训练的过程为:设置迭代次数,输入训练图像,在反向传播中利用批量梯度下降算法更新网络参数。
优选地,训练过程中利用交叉熵损失函数计算人像概率显著图与真实标注之间的误差,具体为:
其中,I(θ)和G(θ)分别表示输入图像和真实标签图第θ个像素值,pn表示图像总像素数,H(G(θ)=1|I(θ))表示预测为人像的概率,H(G(θ)=0|I(θ))表示预测为背景的概率。
本发明与现有技术相比,其显著优点为:
本发明通过侧输出优化单元,能够有效的提升侧输出特征的精确度,同时降低网络参数;
本发明通过整合相邻层间的低级和高级特征,能够不断地提高人像显著图的分辨率;
本发明通过学习背景区域与人像区域的残差特征,最终得到就高分辨率的人像显著图。
下面结合附图对本发明做进一步详细的描述。
附图说明
图1为本发明的流程图。
图2为本发明的侧输出优化单元示意图
图3为本发明的若干张分割结果图。
具体实施方式
如图1所示,一种基于残差特征金字塔的人像分割方法,包括:
构建基于残差特征金子塔的人像分割模型并对其进行训练;
将待分割图像输入训练好的人像分割模型获得分割结果;
其中,构建基于残差特征金子塔的人像分割模型的具体过程为:
S1:移除VGG-16网络最后的三个全连接层;
S2:在VGG-16网络中选取三组侧输出,每组侧输出包括3个卷积特征,将每组侧输出输入至一个侧输出优化单元,获得优化后的侧输出;本发明中,侧输出优化单元提高了人像侧输出特征图分辨率。
选取pool5直接作为第四组侧输出,在第四组侧输出后增加三个卷积层并在每个卷积层后增加一个非线性激活层,获得人像特征图;
S3:将人像特征图通过反卷积层上采样2倍;本步骤构建的反卷积层即为特征金字塔单元,利用特征金字塔单元自上而下地整合相邻层的人像显著图,融合高级语意信息和低级空间信息,逐步细化深层人像显著图;
S4:将上采样的人像特征图通过sigmoid层归一化到[0,1]得到显著性区域图,将显著性区域图与1相减得到非显著性区域图,将非显著性区域图与上一组侧输出的每个通道相乘,得到侧输出非显著性区域图;
S5:将侧输出非显著性区域图输入两个卷积层、一个非线性激活层,并将输出结果与上采样后人像特征图做元素相加,得到残差学习输出作为上一组侧输出的人像特征图;利用残差学习从背景区域二次学习人像边缘等细节内容,逐步提纯得到更高分辨率的人像显著性图。
S6:重复S3~S6,直至获得第一组侧输出的人像特征图,将第一组侧输出的人像特征图通过积核、反卷积操作上采样至原图像大小,通过一个sigmoid层归一化到[0,1]后作为最终输出的人像显著图结果。
进一步的实施例中,选取的三组侧输出分别为:第一组侧输出{conv3_1,conv3_2,conv3_3},第二组侧输出{conv4_1,conv4_2,conv4_3},第三组侧输出{conv5_1,conv5_2,conv5_3}。
进一步的实施例中,获得优化后的侧输出的具体过程为:在每个卷积特征后各自增加一个卷积层,在每一个卷积层后增加一个非线性激活层,并对非线性激活后的三个特征进行元素相加的操作整合,分别得到三组优化后的侧输出。
进一步的实施例中,对人像分割模型进行训练的过程为:设置迭代次数,输入训练图像,在反向传播中利用批量梯度下降算法更新网络参数。
进一步的实施例中,训练过程中利用交叉熵损失函数计算人像概率显著图与真实标注之间的误差,具体为:
其中,I(θ)和G(θ)分别表示输入图像和真实标签图第θ个像素值,pn表示图像总像素数,H(G(θ)=1|I(θ))表示预测为人像的概率,H(G(θ)=0|I(θ))表示预测为背景的概率。
实施例
如图1所示,一种基于残差特征金字塔的人像分割方法,包括如下步骤:
移除VGG-16网络最后的三个全连接层,选取四组(共十个)侧输出{conv3_1,conv3_2,conv3_3},{conv4_1,conv4_2,conv4_3},{conv5_1,conv5_2,conv5_3},{pool5};
选取第一组特征{conv3_1,conv3_2,conv3_3},每个卷积特征后各自增加一个卷积层{1x1x256},降低通道数至256,一是降低通道冗余减少参数,二是便于后续特征相加,卷积后都添加一个非线性激活层ReLU,用于去除响应小于零的特征响应值,卷积后的三个特征通过元素相加(element-wise addition)的操作整合,作为优化后的侧输出,并记为F3。
选取第二组特征{conv4_1,conv4_2,conv4_3},每个卷积特征后各自增加一个卷积层{1x1x256},卷积后都添加一个非线性激活层ReLU,卷积后的三个特征通过元素相加(element-wise addition)的操作整合,作为优化后的侧输出,并记为F4;
选取第三组特征{conv5_1,conv5_2,conv5_3},每个卷积特征后各自增加一个卷积层{1x1x256},卷积后都添加一个非线性激活层ReLU,卷积后的三个特征通过元素相加(element-wise addition)的操作整合,作为优化后的侧输出,并记为F5;
将pool5直接作为侧输出,记为F6;在F6后增加三个卷积层{1x1x256},{5x5x256},{5x5x256},卷积层后都附有一个非线性激活层ReLU,输出人像特征图记为S6;
如图3所示,将上采样的人像特征图通过sigmoid层归一化到[0,1]得到显著性区域图,然后与1相减得到非显著性区域图Wi,再将非显著性区域图与侧输出F3~F5每一个通道相乘,得到侧输出非显著性区域图,将其表示为:
在卷积特征后增加两个卷积层{3x3x256},每个卷积层后增加一个非线性激活ReLU,得到的结果记为Ri,将其与上采样特征做元素相加(element-wise addition),得到残差学习输出,将其表示为:
Claims (5)
1.一种基于残差特征金字塔的人像分割方法,其特征在于,包括:
构建基于残差特征金子塔的人像分割模型并对其进行训练;
将待分割图像输入训练好的人像分割模型获得分割结果;
其中,构建基于残差特征金子塔的人像分割模型的具体过程为:
S1:移除VGG-16网络最后的三个全连接层;
S2:在VGG-16网络中选取三组侧输出,每组侧输出包括3个卷积特征,将每组侧输出输入至一个侧输出优化单元,获得优化后的侧输出;
选取pool5直接作为第四组侧输出,在第四组侧输出后增加三个卷积层并在每个卷积层后增加一个非线性激活层,获得人像特征图;
S3:将人像特征图通过反卷积层上采样2倍;
S4:将上采样的人像特征图通过sigmoid层归一化到[0,1]得到显著性区域图,将显著性区域图与1相减得到非显著性区域图,将非显著性区域图与上一组侧输出的每个通道相乘,得到侧输出非显著性区域图;
S5:将侧输出非显著性区域图输入两个卷积层、一个非线性激活层,并将输出结果与上采样后人像特征图做元素相加,得到残差学习输出作为上一组侧输出的人像特征图;
S6:重复S3~S6,直至获得第一组侧输出的人像特征图,将第一组侧输出的人像特征图通过积核、反卷积操作上采样至原图像大小,通过一个sigmoid层归一化到[0,1]后作为最终输出的人像显著图结果。
2.根据权利要求1所述的基于残差特征金字塔的人像分割方法,其特征在于,选取的三组侧输出分别为:第一组侧输出{conv3_1,conv3_2,conv3_3},第二组侧输出{conv4_1,conv4_2,conv4_3},第三组侧输出{conv5_1,conv5_2,conv5_3}。
3.根据权利要求1所述的基于残差特征金字塔的人像分割方法,其特征在于,获得优化后的侧输出的具体过程为:在每个卷积特征后各自增加一个卷积层,在每一个卷积层后增加一个非线性激活层,并对非线性激活后的三个特征进行元素相加的操作整合,分别得到三组优化后的侧输出。
4.根据权利要求1所述的基于残差特征金字塔的人像分割方法,其特征在于,对人像分割模型进行训练的过程为:设置迭代次数,输入训练图像,在反向传播中利用批量梯度下降算法更新网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784216.7A CN112329511A (zh) | 2020-08-06 | 2020-08-06 | 基于残差特征金字塔的人像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784216.7A CN112329511A (zh) | 2020-08-06 | 2020-08-06 | 基于残差特征金字塔的人像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329511A true CN112329511A (zh) | 2021-02-05 |
Family
ID=74303814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010784216.7A Pending CN112329511A (zh) | 2020-08-06 | 2020-08-06 | 基于残差特征金字塔的人像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329511A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960261A (zh) * | 2018-07-25 | 2018-12-07 | 扬州万方电子技术有限责任公司 | 一种基于注意力机制的显著物体检测方法 |
CN109165660A (zh) * | 2018-06-20 | 2019-01-08 | 扬州大学 | 一种基于卷积神经网络的显著物体检测方法 |
CN110349082A (zh) * | 2019-06-28 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 图像区域的裁剪方法和装置、存储介质及电子装置 |
CN110472639A (zh) * | 2019-08-05 | 2019-11-19 | 山东工商学院 | 一种基于显著性先验信息的目标提取方法 |
CN110503157A (zh) * | 2019-08-27 | 2019-11-26 | 安徽大学 | 基于细粒度图像的多任务卷积神经网络的图像隐写分析方法 |
-
2020
- 2020-08-06 CN CN202010784216.7A patent/CN112329511A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165660A (zh) * | 2018-06-20 | 2019-01-08 | 扬州大学 | 一种基于卷积神经网络的显著物体检测方法 |
CN108960261A (zh) * | 2018-07-25 | 2018-12-07 | 扬州万方电子技术有限责任公司 | 一种基于注意力机制的显著物体检测方法 |
CN110349082A (zh) * | 2019-06-28 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 图像区域的裁剪方法和装置、存储介质及电子装置 |
CN110472639A (zh) * | 2019-08-05 | 2019-11-19 | 山东工商学院 | 一种基于显著性先验信息的目标提取方法 |
CN110503157A (zh) * | 2019-08-27 | 2019-11-26 | 安徽大学 | 基于细粒度图像的多任务卷积神经网络的图像隐写分析方法 |
Non-Patent Citations (1)
Title |
---|
BEN WANGETAL.: ""Residual feature pyramid networks for salient object detection"", 《SPRINGER》, 10 December 2019 (2019-12-10), pages 1897 - 1908 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN111275618B (zh) | 一种基于双支感知的深度图超分辨率重建网络构建方法 | |
CN111275713B (zh) | 一种基于对抗自集成网络的跨域语义分割方法 | |
CN111242288B (zh) | 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法 | |
CN108960261B (zh) | 一种基于注意力机制的显著物体检测方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN110969171A (zh) | 基于改进卷积神经网络的图像分类模型、方法及应用 | |
CN111062329B (zh) | 基于增广网络的无监督行人重识别方法 | |
CN112200029B (zh) | 基于改进型UNet++网络的遥感图像建筑物提取方法 | |
CN111861886B (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN111640116B (zh) | 基于深层卷积残差网络的航拍图建筑物分割方法及装置 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN113052775B (zh) | 一种图像去阴影方法及装置 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN115082928A (zh) | 面向复杂场景的不对称双分支实时语义分割网络的方法 | |
CN114626984A (zh) | 中文文本图像的超分辨率重建方法 | |
CN113436198A (zh) | 一种协同图像超分辨率重建的遥感图像语义分割方法 | |
CN110751271B (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN117952883A (zh) | 一种基于双边网格和显著性引导的逆光图像增强方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN112634168A (zh) | 一种结合边缘信息的图像修复方法 | |
CN117095172A (zh) | 一种基于内外部蒸馏的持续语义分割方法 | |
CN110796716A (zh) | 一种基于多重残差网络和正则化迁移学习的图像着色方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |