CN111914698B

CN111914698B - 图像中人体的分割方法、分割系统、电子设备及存储介质

Info

Publication number: CN111914698B
Application number: CN202010687066.8A
Authority: CN
Inventors: 李文国; 王伊飞; 杜建国
Original assignee: Beijing Ziguang Zhanrui Communication Technology Co Ltd
Current assignee: Beijing Ziguang Zhanrui Communication Technology Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2023-06-27
Anticipated expiration: 2040-07-16
Also published as: CN111914698A

Abstract

本发明公开了一种图像中人体的分割方法、分割系统、电子设备及存储介质，方法包括：使用预先训练的用于人体检测的深度神经网络回归出目标图像中所有的人体边界框；对所有的人体边界框进行区域聚合，以确定显著人体区域；从目标图像中裁剪出显著人体区域对应的部分作为显著人体区域图像；使用预先训练得到的人体分割网络模型对显著人体区域图像进行人体分割，以得到分割后的人体图像。本发明通过高效的人体检测网络获取目标图像中的所有的人体边界框，通过区域聚合获得相对于现有的人体实例分割更大的显著人体区域，起到突出人体特征，弱化背景信息的作用；直接裁剪显著人体区域用于人体分割，最大化利用了分割能力，得到了更加精细的分割结果。

Description

图像中人体的分割方法、分割系统、电子设备及存储介质

技术领域

本发明属于计算机视觉领域，特别涉及一种图像中人体的分割方法、分割系统、电子设备及存储介质。

背景技术

移动端上的人像模式，一般会将人体从图片中抠出来，然后做各种应用，如人像背景虚化，人像背景替换，人像光效等。将人体从图片中抠出来的过程一般认为属于人体分割的技术。人体分割可以看作二分类的语义分割，也可以看作人体实例分割。

语义分割技术是从像素级别理解图像内容，将图像中每一个像素关联到一个具体的类别标签，如人、车、沙发、树木等等，可以称为是像素级别的分类。人体分割属于二分类语义分割，把一幅图像分为人体和背景两类，目的是将人体区域从背景中分割出来。早期的语义分割根据灰度、色彩、空间纹理、几何形状等特征把图像化分为若干个互不相交的区域，使得目标与背景分离，主要的系统有马尔可夫随机场、条件随机场等系统，其思想是为每个特征和像素分配一个随机向量，通过计算每个像素属于每一类的概率来确定该像素的分类。现有的语义分割算法主要是通过深度神经网络实现，与传统算法最大的不同是深度神经网络自动学习图像特征，大大提升了语义分割的精准度，其处理主要过程为：将目标图像下采样至与深度学习神经网络输入尺寸对应的大小；然后通过深度神经网络对图像中人体区域进行识别，将人体区域从背景中分割出来；最后通过上采样与原图像进行融合。语义分割领域中较流行的深度神经网络架构是编码器-解码器(Encoder-Decoder)网络，编码器网络通常是由预训练分类网络构成，如VGG(Visual Geometry Group Network，视觉几何组网络)、ResNet(深度残差网络)、MobileNet(一种轻量级卷积神经网络)等，其主要任务是通过下采样系统降低输入空间的分辨率，从而生成低分辨率的特征映射；解码器网络对编码器学习到的特征进行上采样，并将其映射到较高分辨率的像素空间，不同网络架构之间的差异主要体现在解码器网络。Encoder-Decoder架构中较为典型的深度神经网络模型有全卷积神经网络(Fullly Convolution Network，FCN)，其利用基础的分类网络作为编码器，将全连接层替换为卷积层，解码器网络使用反卷积层实现上采样，实现了端到端的全卷积网络；U-Net(一种图像分割网络)通过增加skip-connection(跳跃式传递)将每一阶段编码器学习到的特征拼接至每一阶段解码器的上采样特征图，形成一个梯形网络结构，补充高层语义信息，细化低层分割轮廓，以获得更为精确的分割效果；尽管反卷积层可以弥补由于池化下采样操作带来的信息损失，但同时也会造成感受野变小，降低了模型的预测精度，由此引入了空洞卷积(Dilated Convolution)，在减少细节丢失的基础上增加感受野，从而确保语义分割精度，使用空洞卷积较为典型的模型有PSPNet、DeepLab系列等。

实例分割可以看作是像素级别的目标检测，相对于目标检测回归到的边界框，实例分割可以精确至目标的边缘；相对于语义分割预测到的像素类别，实例分割可以区分同一类别的不同实例。人体实例分割便是在二分类的语义分割基础上区分每个人体实例，更详细的描述人体活动。现有的实例分割技术可分为自上而下的基于检测的系统和自下而上的基于语义分割的系统。自上而下(Top-Down)的实例分割思路是：首先利用目标检测系统确定实例所在区域，再对区域内实例进行语义分割，每个分割结果都作为不同的实例输出。如Mask R-CNN(一种目标检测算法)，其网络结构是Faster R-CNN的两阶段目标检测网络模型，其中box-head分支用于目标检测任务，增加的mask-head分支用于语义分割任务。自下而上(Bottom-Up)的实例分割思路是：首先进行像素级的语义分割，再通过聚类、度量学习等手段区分不同的实例，这种系统虽然保持了细节和位置信息，但这类模型泛化能力较差，无法应对类别较多的复杂场景。

不管是二分类的语义分割，还是人体实例分割，当人体区域在原图中占比比较小的情况下，分割精度都会出现严重的下降，特别是发丝、手指等部位，精度下降尤为明显，这些不精确的分割将会造成明显的视觉瑕疵，影响用户体验。究其原因，直接的二分类语义分割将分割能力作用于目标图像的全部区域，在人体区域在原图中占比比较小的情况下分割精度下降明显；而人体实例分割只作用在经过多次下采样的特征图上，分辨率更低，使得分割很难做到精细，并且人体实例分割网络常常有更高的成本，很难在移动端部署使用。

发明内容

本发明要解决的技术问题是为了克服现有技术中对于人体区域在原图中占比比较小的情况下进行人体分割的精度存在严重下降，会造成明显的视觉瑕疵，影响用户体验的缺陷，提供一种能够提高人体分割结果的精度的图像中人体的分割方法、分割系统、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明第一方面提供了一种图像中人体的分割方法，包括以下步骤：

使用预先训练的用于人体检测的深度神经网络回归出目标图像中所有的人体边界框；

对所有的所述人体边界框进行区域聚合，以确定显著人体区域；

从所述目标图像中裁剪出所述显著人体区域对应的部分作为显著人体区域图像；

使用预先训练得到的人体分割网络模型对所述显著人体区域图像进行人体分割，以得到分割后的人体图像。

本方案公开了一种通过人体区域检测辅助实现图像中人体精细分割的方法，该方法主要包括三个阶段：在人体区域检测阶段，设计一个自动的预先训练过的用于人体检测的深度神经网络，回归出目标图像中所有的人体边界框；在人体区域聚合阶段，设计了一种人体边界框的区域聚合方法，锁定显著人体区域；在人体分割阶段，将从目标图像的原图中裁剪的显著人体区域作为人体分割网络的输入，得到最终的分割结果。

本方案出发点在于通过确定显著人体区域并从目标图像中裁剪下来作为人体分割网络的输入来提升感兴趣人体区域的分辨率，尤其对于移动端的后置人像模式拍照，当人体区域在原图中占比较小的情况下，能够获得比直接分割方法更加精细的分割结果。

本方案通过高效的人体检测网络获取图像中的所有的人体边界框，通过区域聚合获得相对于现有的人体实例分割更大的感兴趣人体区域即显著人体区域，起到突出人体特征，弱化背景信息的作用；然后，直接裁剪感兴趣人体区域用于人体分割，从而最大化利用了分割能力，得到了更加精细的分割结果。本方案利用人体区域检测技术提升感兴趣人体区域的分辨率，可以获得比直接分割方法更加精细的分割结果。

可选的，所述深度神经网络为轻量级深度神经网络。

本方案中的深度神经网络采用轻量化设计，可以快速准确的回归出目标图像中所有的人体边界框。

可选的，所述轻量级深度神经网络模型的轻量级特征提取模块为MobileNet，所述轻量级深度神经网络模型的检测模块为SSD(single shot multibox detector)；

和/或所述人体分割网络模型包括特征提取模块、带有注意力机制的ASPP模块和refine decoder模块。

本方案中，设计了一个自动的用于人体检测的轻量级深度神经网络，其目的是回归出目标图像中所有的人体边界框。该轻量级神经网络模型包括轻量级特征提取模块和检测模块，具体地，轻量级特征提取模块采用MobileNet实现，检测模块采用SSD实现，其中MobileNet由深度可分离卷积单元组成，可分解为深度卷积和点卷积两个运算，与传统的卷积单元相比其模型的参数和计算量均有显著地降低，常用于移动端模型部署；SSD模块是单阶段检测器，均匀地在目标图像不同位置进行的多尺度密集抽样，对MobileNet提取到的特征直接进行分类与回归，能够有效地提高检测速度和精度。

本方案中，人体分割网络模型采用端到端的设计，主要包含特征提取模块，带有注意力机制的ASPP(Atrous spatial pyramid pooling，孔洞空间金字塔池化)模块，refinedecoder(精细化解码)模块。其中特征提取模块，也可以称作encoder模块，采用轻量化设计，主要结构为带有SE(Squeeze and excite)模块的逆残差线性瓶颈结构，其主要作用是获取输入图像的多尺度的特征；带有注意力机制的ASPP模块，主要作用是在给定的输入上以不同采样率的空洞卷积并行采样，以多个比例捕捉图像的上下文，而引入的注意力机制更有利于特征的筛选，使得任务主要关注一些重点特征，忽略不重要特征，提高任务效率；refine decoder模块主要用来恢复在encoder阶段因下采样而丢失的空间分辨率，允许信息从可以推理出低级特征(颜色和边缘)的网络早期阶段轻易流向可以推理出高级特征(面部和身体)的网络后期阶段，这些阶段的结合对于我们准确的识别哪些像素属于人有着重要的作用。

可选的，对所有的所述人体边界框进行区域聚合，以确定显著人体区域的步骤包括：

循环遍历所有的所述人体边界框，以得到所有的有效人体边界框；

对所有的所述有效人体边界框进行区域聚合，以确定所述显著人体区域。

本方案中，人体区域聚合阶段通过分析和统计每一人体边界框的信息，挑选出有效的人体边界框，将属于背景的无效的人体边界框过滤掉后再进行区域聚合，从而确定出准确度更高的显著人体区域。

可选的，对所有的所述有效人体边界框进行区域聚合，以确定所述显著人体区域的步骤包括：

获取所述目标图像中每个所述有效人体边界框的两个对角的坐标；

根据所有的所述坐标确定所述显著人体区域。

本方案中，根据所有的有效人体边界框的两个对角的坐标所代表的位置确定显著人体区域。

可选的，所述两个对角为左上角和右下角，或，所述两个对角为左下角和右上角；

当所述两个对角为左上角和右下角时，根据所有的所述坐标确定所述显著人体区域的步骤包括：

在所有的所述有效人体边界框的左上角的坐标和右下角的坐标中确定处于最左上角的坐标和最右下角的坐标；

将所述最左上角的坐标和所述最右下角的坐标围成的方框区域作为所述显著人体区域；

当所述两个对角为左下角和右上角时，根据所有的所述坐标确定所述显著人体区域的步骤包括：

在所有的所述有效人体边界框的左下角的坐标和右上角的坐标中确定处于最左下角的坐标和最右上角的坐标；

将所述最左下角的坐标和所述最右上角的坐标围成的方框区域作为所述显著人体区域。

本方案中，统计目标图像中每一有效人体边界框的坐标大小，将处于两个对角的最值位置的坐标围成的区域作为聚合后的显著人体区域。

可选的，对所有的所述人体边界框进行区域聚合，以确定显著人体区域的步骤之后还包括：

计算所述显著人体区域在所述目标图像中的面积占比；

判断所述面积占比是否大于预设的显著人体区域面积占比阈值，若是，则将所述显著人体区域更新为所述目标图像的全部区域，若否，则保持所述显著人体区域不变；

所述预设的显著人体区域面积占比阈值的取值范围为0.7～0.9。

本方案中，提前设定显著人体区域面积占比阈值，计算显著人体区域在目标图像中的面积占比。若该面积占比大于所设的阈值，则将原始的目标图像直接输入至人像分割阶段，否则将显著人体区域输入至人像分割阶段。本方案能够根据人体区域在原图中占比的不同情况采用不同的图像输入至人体分割网络进行人体分割，能够更好的平衡计算量和图像中人体分割的精度。

分别计算所述显著人体区域的四个边中的每个边与所述目标图像对应的四个边中的每个边的边界距离；

逐一判断四个所述边界距离是否小于预设的边界阈值，若是，则将所述显著人体区域对应的边更新为所述目标图像对应的边，若否，则将所述显著人体区域对应的边扩充所述边界阈值；

所述边界阈值的取值范围为20～50个像素大小。

本方案中，考虑到人体区域检测阶段获取的人体边界框的位置可能并不十分精确，很可能存在人体边缘如手、发丝等缺失情况，提供了对显著人体区域的位置进行修正的实现方式，具体采用将显著人体区域沿上、下、左、右四个方向进行扩边处理，以补偿由于人体区域检测时性能不稳定造成的误差。

可选的，循环遍历所有的所述人体边界框，以得到所有的有效人体边界框的步骤包括：

计算每个所述人体边界框所在区域在所述目标图像中的面积占比；

逐一判断每个所述面积占比是否小于预设的人体边界框面积占比阈值，若否，则对应的所述人体边界框为所述有效人体边界框，若是，则对应的所述人体边界框为无效人体边界框；

所述预设的人体边界框面积占比阈值的取值范围为0.1～0.2。

本方案中，考虑到目标图像的原始尺度大小不一，故设定人体边界框面积占比阈值，将该阈值设为目标图像的面积大小的一定比例系数，该系数取值0.1～0.2是经过大量实验得来的。若人体边界框的面积占比大于所设阈值，则将其标记为有效人体边界框；否则将其标记为无效人体边界框，视其为图像中背景区域不再对其进行人体分割。由此能够排除掉目标图像中属于背景区域中的人体部分，使得确定的显著人体区域更加精确，为后续精细人体分割服务，从而进一步提高了人体分割网络模型的准确性。

可选的，使用预先训练得到的人体分割网络模型对所述显著人体区域图像进行人体分割，以得到分割后的人体图像的步骤包括：

使用预先训练得到的人体分割网络模型对所述显著人体区域图像进行人体分割以得到人体掩膜图像；

将所述人体掩膜图像对应到所述目标图像的原图位置，以得到分割后的人体图像。

本发明第二方面提供了一种图像中人体的分割系统，包括：

人体检测模块，用于使用预先训练的用于人体检测的深度神经网络回归出目标图像中所有的人体边界框；

人体区域聚合模块，用于对所有的所述人体边界框进行区域聚合，以确定显著人体区域；

裁剪模块，用于从所述目标图像中裁剪出所述显著人体区域对应的部分作为显著人体区域图像；

人体分割模块，用于使用预先训练得到的人体分割网络模型对所述显著人体区域图像进行人体分割，以得到分割后的人体图像。

可选的，所述深度神经网络为轻量级深度神经网络。

可选的，所述轻量级深度神经网络模型的轻量级特征提取模块为MobileNet，所述轻量级深度神经网络模型的检测模块为SSD；

可选的，所述人体区域聚合模块包括：

循环遍历单元，用于循环遍历所有的所述人体边界框，以得到所有的有效人体边界框；

区域聚合单元，用于对所有的所述有效人体边界框进行区域聚合，以确定所述显著人体区域。

可选的，所述区域聚合单元包括：

坐标获取子单元，用于获取所述目标图像中每个所述有效人体边界框的两个对角的坐标；

区域确定子单元，用于根据所有的所述坐标确定所述显著人体区域。

当所述两个对角为左上角和右下角时，所述区域确定子单元用于在所有的所述有效人体边界框的左上角的坐标和右下角的坐标中确定处于最左上角的坐标和最右下角的坐标；将所述最左上角的坐标和所述最右下角的坐标围成的方框区域作为所述显著人体区域；

当所述两个对角为左下角和右上角时，所述区域确定子单元用于在所有的所述有效人体边界框的左下角的坐标和右上角的坐标中确定处于最左下角的坐标和最右上角的坐标；将所述最左下角的坐标和所述最右上角的坐标围成的方框区域作为所述显著人体区域。

可选的，所述图像中人体的分割系统还包括第一计算模块和第一判断模块；

所述第一计算模块用于计算所述显著人体区域在所述目标图像中的面积占比；

所述第一判断模块用于判断所述面积占比是否大于预设的显著人体区域面积占比阈值，若是，则将所述显著人体区域更新为所述目标图像的全部区域，若否，则保持所述显著人体区域不变；

可选的，所述图像中人体的分割系统还包括第二计算模块和第二判断模块；

所述第二计算模块用于分别计算所述显著人体区域的四个边中的每个边与所述目标图像对应的四个边中的每个边的边界距离；

所述第二判断模块用于逐一判断四个所述边界距离是否小于预设的边界阈值，若是，则将所述显著人体区域对应的边更新为所述目标图像对应的边，若否，则将所述显著人体区域对应的边扩充所述边界阈值；

所述边界阈值的取值范围为20～50个像素大小。

可选的，所述循环遍历单元包括计算子单元和判断子单元；

所述计算子单元用于计算每个所述人体边界框所在区域在所述目标图像中的面积占比；

所述判断子单元用于逐一判断每个所述面积占比是否小于预设的人体边界框面积占比阈值，若否，则对应的所述人体边界框为所述有效人体边界框，若是，则对应的所述人体边界框为无效人体边界框；

所述预设的人体边界框面积占比阈值的取值范围为0.1～0.2。

可选的，所述人体分割模块包括：

人体分割单元，用于使用预先训练得到的人体分割网络模型对所述显著人体区域图像进行人体分割以得到人体掩膜图像；

结果获取单元，用于将所述人体掩膜图像对应到所述目标图像的原图位置，以得到分割后的人体图像。

本发明第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的图像中人体的分割方法。

本发明第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面所述的图像中人体的分割方法的步骤。

本发明的积极进步效果在于：与现有技术相比，本发明通过高效的人体检测网络获取目标图像中的所有的人体边界框，通过区域聚合获得相对于现有的人体实例分割更大的显著人体区域，起到突出人体特征，弱化背景信息的作用；直接裁剪显著人体区域用于人体分割，从而最大化利用了分割能力，得到了更加精细的分割结果。

附图说明

图1为本发明实施例1的图像中人体的分割方法的流程图。

图2为本发明实施例1中采用的人体区域检测阶段的流程图。

图3为本发明实施例1的步骤S₂的流程图。

图4为本发明实施例1的步骤S₂₄的一种对角情况的流程图。

图5为本发明实施例1的步骤S₂₄的另一种对角情况的流程图。

图6为本发明实施例1中采用的人体区域聚合阶段的流程图。

图7为本发明实施例1中采用的人体分割阶段的流程图。

图8为本发明实施例2的图像中人体的分割系统的模块示意图。

图9为本发明实施例2中的区域聚合单元的模块示意图。

图10为本发明实施例2中的循环遍历单元的模块示意图。

图11为本发明实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供了一种图像中人体的分割方法，分为三个阶段，分别为人体区域检测阶段、人体区域聚合阶段和人体分割阶段。如图1所示，分割方法具体包括以下步骤：

S₁、使用预先训练的用于人体检测的轻量级深度神经网络回归出目标图像中所有的人体边界框。该步骤属于人体区域检测阶段。

本实施例中，设计一个自动的预先训练的用于人体检测的轻量级深度神经网络，其目的是回归出目标图像中所有的人体边界框。本实施例中该轻量级神经网络模型包括轻量级特征提取模块和检测模块，该轻量级特征提取模块采用MobileNet实现，检测模块采用SSD实现其中MobileNet由深度可分离卷积单元组成，可分解为深度卷积和点卷积两个运算，与传统的卷积单元相比其模型的参数和计算量均有显著地降低，常用于移动端模型部署；SSD模块是单阶段检测器，均匀地在目标图像不同位置进行的多尺度密集抽样，对MobileNet提取到的多尺度特征直接进行分类和回归，有效地提高检测速度和精度。

本实施例中采用的人体区域检测阶段的流程如图2所示，首先获取待处理的初始图像即目标图像，并对其进行预处理，预处理为现有的实现方式，具体是将初始图像做缩放，调整到网络要求的输入大小，并作通道归一化。然后将经过预处理步骤的输入图像输入至预先训练得到的轻量级深度神经网络模型进行人体区域检测，判断是否存在人体边界框。如果不存在人体边界框则结束本次分割任务；反之存在人体边界框，则将其还原至初始图像中人体边界框位置，计算公式(1)、(2)如下：

[Y_min,X_min,Y_max,X_max]＝[s_y*y_min,s_x*x_max,s_y*y_min,s_x*x_max] (2)

其中s_y,s_x分别表示初始图像与输入图像垂直方向、水平方向的比例系数，H₁和W₁分别表示初始图像的高和宽，H₂和W₂分别表示输入图像的高和宽，(y_min,x_min)、(y_max,x_max)分别表示输入图像中人体边界框的左上角、右下角位置；(Y_min,X_min)、(Y_max,X_max)分别表示初始图像中人体边界框的左上角、右下角位置；最后初始图像中的人体边界框输入至人体区域聚合阶段。

S₂、对所有的人体边界框进行区域聚合，以确定显著人体区域。

S₃、计算显著人体区域在目标图像中的面积占比。

S₄、判断步骤S₃中的面积占比是否大于预设的显著人体区域面积占比阈值，若是，则将显著人体区域更新为目标图像的全部区域，若否，则保持显著人体区域不变。

S₅、分别计算显著人体区域的四个边中的每个边与目标图像对应的四个边中的每个边的边界距离。

S₆、逐一判断四个边界距离是否小于预设的边界阈值，若是，则将显著人体区域对应的边更新为目标图像对应的边，若否，则将显著人体区域对应的边扩充边界阈值。

S₇、从目标图像中裁剪出显著人体区域对应的部分作为显著人体区域图像。

S₈、使用预先训练得到的人体分割网络模型对显著人体区域图像进行人体分割以得到人体掩膜图像。

S₉、将人体掩膜图像对应到目标图像的原图位置，以得到分割后的人体图像。

本实施例中，步骤S_2～7属于人体区域聚合阶段，步骤S_8～9属于人体分割阶段。

本实施例中，如图3所示，步骤S₂包括：

S₂₁、计算每个人体边界框所在区域在目标图像中的面积占比。

S₂₂、逐一判断步骤S₂₁中的每个面积占比是否小于预设的人体边界框面积占比阈值，若否，则对应的人体边界框为有效人体边界框，若是，则对应的人体边界框为无效人体边界框。

S₂₃、获取目标图像中每个有效人体边界框的两个对角的坐标。

S₂₄、根据所有的坐标确定显著人体区域。

本实施例中，两个对角可以为左上角和右下角，也可以为左下角和右上角。

当两个对角为左上角和右下角时，如图4所示，步骤S₂₄包括：

S₂₄₀₁、在所有的有效人体边界框的左上角的坐标和右下角的坐标中确定处于最左上角的坐标和最右下角的坐标；

S₂₄₀₂、将最左上角的坐标和最右下角的坐标围成的方框区域作为显著人体区域。

当两个对角为左下角和右上角时，如图5所示，步骤S₂₄包括：

S₂₄₁₁、在所有的有效人体边界框的左下角的坐标和右上角的坐标中确定处于最左下角的坐标和最右上角的坐标；

S₂₄₁₂、将最左下角的坐标和最右上角的坐标围成的方框区域作为显著人体区域。

本发明中边界阈值的取值范围为20～50个像素大小。预设的显著人体区域面积占比阈值的取值范围为0.7～0.9，人体边界框面积占比阈值的取值范围为0.1～0.2。本实施例中，边界阈值的取值为30个像素大小，显著人体区域面积占比阈值的取值为0.75，人体边界框面积占比阈值的取值为0.15。

本实施例中，人体区域聚合阶段通过分析和统计每一人体边界框的信息，从而确定显著人体区域，其流程如图6所示。首先计算每一人体边界框面积占比s_area，计算公式(3)如下：

其中(Y_max-Y_min)*(X_max-X_min)表示人体边界框的面积，H₁*W₁表示初始图像面积。考虑到初始图像尺度大小不一，故设定人体边界框面积占比阈值area_threshold为初始图像面积大小的0.15倍，系数0.15是经过大量实验得来。若人体边界框面积占比大于所设阈值，则将其标记为有效人体边界框；否则将其标记为无效人体边界框，视其为图像中背景区域不再对其进行人体分割。循环遍历初始图像中每一人体边界框。然后统计初始图像中每一有效人体边界框坐标大小，聚合人体边界框获得初始显著人体区域，计算公式(4)如下：

其中(X₁,Y₁)、(X₂,Y₂)分别表示初始显著人体区域左上角、右下角位置。设定显著人体区域面积占比阈值Maxbbox_area_threshold为0.75，依公式(3)计算初始显著人体区域面积占比。若初始显著人体区域面积占比大于所设阈值，则将初始图像直接输入至人像分割阶段，否则需要调整初始显著人体区域位置。

考虑到人体区域检测阶段获取的人体边界框位置并不十分精确，可能存在人体边缘缺失情况，因此需要修正初始显著人体区域位置，以补偿由于人体区域检测器性能不稳定造成的误差，具体对应前述步骤S_5～6，实现将初始显著人体区域沿上、下、左、右四个方向进行扩边处理。

首先计算初始显著人体区域与初始图像边界距离，计算公式(5)如下：

其中Δ_top、Δ_bottom、Δ_left、Δ_right分别表示初始显著人体区域与初始图像顶边、底边、左边和右边的距离。设边界阈值edge_threshold为30个像素大小，当某一边界距离小于设定边界阈值edge_threshold时，将初始显著人体区域的相应边界调整至初始图像相对应的边界；否则将初始显著人体区域的相应边界沿对应方向扩充edge_threshold个像素点大小。最后将初始图像按调整后显著人体区域进行剪裁，并将剪裁后的图像输入至人体分割阶段。

本实施例中，人体分割网络模型采用端到端的设计，主要包含：特征提取模块，带有注意力(attention)机制的ASPP模块，refine decoder模块。其中特征提取模块，也可以称作encoder模块，采用轻量化设计，主要结构为带有SE模块的逆残差线性瓶颈结构，其主要作用是获取图像多尺度的特征；带有注意力机制的ASPP模块，主要作用是在给定的输入上以不同采样率的空洞卷积并行采样，以多个比例捕捉图像的上下文，而引入的注意力机制更有利于特征的筛选，使得任务主要关注一些重点特征，忽略不重要特征，提高任务效率；refine decoder模块主要用来恢复在encoder阶段因下采样而丢失的空间分辨率，允许信息从可以推理出低级特征(颜色和边缘)的网络早期阶段轻易流向可以推理出高级特征(面部和身体)的网络后期阶段，这些阶段的结合对于我们准确的识别哪些像素属于人有着重要的作用。

人体分割阶段流程如图7所示，首先将获取到的显著人体区域图像进行预处理得到输入图像，预处理操作包括调整图像分辨率以及归一化图像像素值；然后将输入图像输入至预先训练得到的人体分割网络模型进行人体分割；最后将输出的人体掩膜图像对应到原图位置，得到人体图像。

本实施例提供的图像中人体的分割方法与没有人体区域检测辅助的二分类的语义分割相比，通过快速聚焦显著人体区域，充分利用了人体分割网络的分割能力，没有能力的浪费。与实例分割相比，通过增加快速轻量的人体检测网络，只在有限增加开销的前提下，获取最大感兴趣人体区域，从而做到最大化的人体精细分割。本实施例中人体边界框的区域聚合设计，能起到过滤掉部分无效的前景信息，突出人体主体特征，弱化背景信息的作用，从而能进一步提高了人像分割模型的准确性。

实施例2

如图8所示，本实施例提供了一种图像中人体的分割系统，包括人体检测模块1、人体区域聚合模块2、第一计算模块3、第一判断模块4、第二计算模块5、第二判断模块6、裁剪模块7以及人体分割模块8。

其中，人体检测模块1用于使用预先训练的用于人体检测的轻量级深度神经网络回归出目标图像中所有的人体边界框。

本实施例中设计了一个自动的用于人体检测的轻量级深度神经网络，其目的是回归出目标图像中所有的人体边界框。该轻量级神经网络模型包括轻量级特征提取模块和检测模块，本实施例中该轻量级特征提取模块采用MobileNet实现，检测模块采用SSD实现，其中MobileNet由深度可分离卷积单元组成，可分解为深度卷积和点卷积两个运算，与传统的卷积单元相比其模型的参数和计算量均有显著地降低，常用于移动端模型部署；SSD模块是单阶段检测器，均匀地在目标图像不同位置进行的多尺度密集抽样，对MobileNet提取到的特征直接进行分类与回归，能够有效地提高检测速度和精度。

人体区域聚合模块2用于对所有的人体边界框进行区域聚合，以确定显著人体区域。该人体区域聚合模块2包括循环遍历单元201和区域聚合单元202。其中，循环遍历单元201用于循环遍历所有的人体边界框，以得到所有的有效人体边界框；区域聚合单元202用于对所有的有效人体边界框进行区域聚合，以确定显著人体区域。如图9所示，本实施例中区域聚合单元202包括坐标获取子单元2021和区域确定子单元2022。坐标获取子单元2021用于获取目标图像中每个有效人体边界框的两个对角的坐标；区域确定子单元2022用于根据所有的坐标确定显著人体区域。其中两个对角可以为左上角和右下角，也可以为左下角和右上角。

当两个对角为左上角和右下角时，本实施例中，区域确定子单元2022用于在所有的有效人体边界框的左上角的坐标和右下角的坐标中确定处于最左上角的坐标和最右下角的坐标；将最左上角的坐标和最右下角的坐标围成的方框区域作为显著人体区域；当两个对角为左下角和右上角时，区域确定子单元2022用于在所有的有效人体边界框的左下角的坐标和右上角的坐标中确定处于最左下角的坐标和最右上角的坐标；将最左下角的坐标和最右上角的坐标围成的方框区域作为显著人体区域。

如图10所示，本实施例中循环遍历单元201包括计算子单元2011和判断子单元2012。计算子单元2011用于计算每个人体边界框所在区域在目标图像中的面积占比；判断子单元2012用于逐一判断每个面积占比是否小于预设的人体边界框面积占比阈值，若否，则对应的人体边界框为有效人体边界框，若是，则对应的人体边界框为无效人体边界框。预设的人体边界框面积占比阈值的取值范围为0.1～0.2。

本实施例中，考虑到目标图像的原始尺度大小不一，故设定人体边界框面积占比阈值，将该阈值设为目标图像的面积大小的一定比例系数，该系数取值0.1～0.2是经过大量实验得来的。若人体边界框的面积占比大于所设阈值，则将其标记为有效人体边界框；否则将其标记为无效人体边界框，视其为图像中背景区域不再对其进行人体分割。由此能够排除掉目标图像中属于背景区域中的人体部分，使得确定的显著人体区域更加精确，为后续精细人体分割服务，从而进一步提高了人体分割网络模型的准确性。

第一计算模块3用于计算显著人体区域在目标图像中的面积占比。第一判断模块4用于判断面积占比是否大于预设的显著人体区域面积占比阈值，若是，则将显著人体区域更新为目标图像的全部区域，若否，则保持显著人体区域不变。预设的显著人体区域面积占比阈值的取值范围为0.7～0.9。第二计算模块5用于分别计算显著人体区域的四个边中的每个边与目标图像对应的四个边中的每个边的边界距离。第二判断模块6用于逐一判断四个边界距离是否小于预设的边界阈值，若是，则将显著人体区域对应的边更新为目标图像对应的边，若否，则将显著人体区域对应的边扩充边界阈值。边界阈值的取值范围为20～50个像素大小。裁剪模块7用于从目标图像中裁剪出显著人体区域对应的部分作为显著人体区域图像。

本实施例中，提前设定显著人体区域面积占比阈值，计算显著人体区域在目标图像中的面积占比。若该面积占比大于所设的阈值，则将原始的目标图像直接输入至人像分割阶段，否则将显著人体区域输入至人像分割阶段。本实施例能够根据人体区域在原图中占比的不同情况采用不同的图像输入至人体分割网络进行人体分割，能够更好的平衡计算量和图像中人体分割的精度。

本实施例中考虑到人体区域检测阶段获取的人体边界框的位置可能会存在一些偏差，因此需要对显著人体区域做一些简单的修正，具体采用将显著人体区域沿上、下、左、右四个方向进行扩边处理，适当扩大显著区域的范围，以补偿检测结果的可能偏差。

本实施例中，人体分割模块8用于使用预先训练得到的人体分割网络模型对显著人体区域图像进行人体分割，以得到分割后的人体图像。人体分割模块8包括人体分割单元801和结果获取单元802。人体分割单元801用于使用预先训练得到的人体分割网络模型对显著人体区域图像进行人体分割以得到人体掩膜图像；结果获取单元802用于将人体掩膜图像对应到目标图像的原图位置，以得到分割后的人体图像。人体分割网络模型包括特征提取模块、带有注意力机制的ASPP模块和refine decoder模块。

本实施例中，人体分割网络模型采用端到端的设计，主要包含特征提取模块，带有注意力机制的ASPP模块，refine decoder模块。其中特征提取模块，也可以称作encoder模块，采用轻量化设计，主要结构为带有SE模块的逆残差线性瓶颈结构，其主要作用是获取输入图像的多尺度的特征；带有注意力机制的ASPP模块，主要作用是在给定的输入上以不同采样率的空洞卷积并行采样，以多个比例捕捉图像的上下文，而引入的注意力机制更有利于特征的筛选，使得任务主要关注一些重点特征，忽略不重要特征，提高任务效率；refinedecoder模块主要用来恢复在encoder阶段因下采样而丢失的空间分辨率，允许信息从可以推理出低级特征的网络早期阶段轻易流向可以推理出高级特征的网络后期阶段，这些阶段的结合对于我们准确的识别哪些像素属于人有着重要的作用。

本实施例出发点在于通过确定显著人体区域并从目标图像中裁剪下来作为人体分割网络的输入来提升感兴趣人体区域的分辨率，尤其对于移动端的后置人像模式拍照，当人体区域在原图中占比较小的情况下，能够获得比直接分割方法更加精细的分割结果。

本实施例通过高效的人体检测网络获取图像中的所有的人体边界框，通过区域聚合获得相对于现有的人体实例分割更大的感兴趣人体区域即显著人体区域，起到突出人体特征，弱化背景信息的作用；然后，直接裁剪感兴趣人体区域用于人体分割，从而最大化利用了分割能力，得到了更加精细的分割结果。本实施例利用人体区域检测技术提升感兴趣人体区域的分辨率，可以获得比直接分割方法更加精细的分割结果。

本实施例提供的图像中人体的分割系统与没有人体区域检测辅助的二分类的语义分割相比，通过快速聚焦显著人体区域，充分利用了人体分割网络的分割能力，没有能力的浪费。与实例分割相比，通过增加快速轻量的人体检测网络，只在有限增加开销的前提下，获取最大感兴趣人体区域，从而做到最大化的人体精细分割。本实施例中人体边界框的区域聚合设计，能起到过滤掉部分无效的前景信息，突出人体主体特征，弱化背景信息的作用，从而能进一步提高了人像分割模型的准确性。

实施例3

图11为本发明实施例3提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现实施例1中图像中人体的分割方法。图11显示的电子设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备60可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备60的组件可以包括但不限于：上述至少一个处理器61、上述至少一个存储器62、连接不同系统组件(包括存储器62和处理器61)的总线63。

总线63包括数据总线、地址总线和控制总线。

存储器62可以包括易失性存储器，例如随机存取存储器(RAM)621和/或高速缓存存储器622，还可以进一步包括只读存储器(ROM)623。

存储器62还可以包括具有一组(至少一个)程序模块624的程序/实用工具625，这样的程序模块624包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器61通过运行存储在存储器62中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1中图像中人体的分割方法。

电子设备60也可以与一个或多个外部设备64(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口65进行。并且，模型生成的设备60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器66通过总线63与模型生成的设备60的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1中图像中人体的分割方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1中图像中人体的分割方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种图像中人体的分割方法，其特征在于，包括以下步骤：

循环遍历所有的所述人体边界框，以得到所有的有效人体边界框，对所有的所述有效人体边界框进行区域聚合，以确定显著人体区域；其中，所述有效人体边界框为所在区域在所述目标图像中面积占比大于等于预设的人体边界框面积占比阈值的人体边界框；

2.如权利要求1所述的图像中人体的分割方法，其特征在于，所述深度神经网络为轻量级深度神经网络。

3.如权利要求2所述的图像中人体的分割方法，其特征在于，所述轻量级深度神经网络模型的轻量级特征提取模块为MobileNet，所述轻量级深度神经网络模型的检测模块为SSD；

4.如权利要求1所述的图像中人体的分割方法，其特征在于，对所有的所述有效人体边界框进行区域聚合，以确定所述显著人体区域的步骤包括：

根据所有的所述坐标确定所述显著人体区域。

5.如权利要求4所述的图像中人体的分割方法，其特征在于，所述两个对角为左上角和右下角，或，所述两个对角为左下角和右上角；

6.如权利要求1所述的图像中人体的分割方法，其特征在于，对所有的所述人体边界框进行区域聚合，以确定显著人体区域的步骤之后还包括：

计算所述显著人体区域在所述目标图像中的面积占比；

所述预设的显著人体区域面积占比阈值的取值范围为0.7~0.9。

7.如权利要求1所述的图像中人体的分割方法，其特征在于，

所述边界阈值的取值范围为20~50个像素大小。

8.如权利要求1所述的图像中人体的分割方法，其特征在于，所述预设的人体边界框面积占比阈值的取值范围为0.1~0.2。

9.如权利要求1-8中任一项所述的图像中人体的分割方法，其特征在于，使用预先训练得到的人体分割网络模型对所述显著人体区域图像进行人体分割，以得到分割后的人体图像的步骤包括：

10.一种图像中人体的分割系统，其特征在于，包括：

人体区域聚合模块，包括循环遍历单元，用于循环遍历所有的所述人体边界框，以得到所有的有效人体边界框，以及区域聚合单元，用于对所有的所述有效人体边界框进行区域聚合，以确定显著人体区域；其中，所述有效人体边界框为所在区域在所述目标图像中面积占比大于等于预设的人体边界框面积占比阈值的人体边界框；

第二计算模块，用于分别计算所述显著人体区域的四个边中的每个边与所述目标图像对应的四个边中的每个边的边界距离；

第二判断模块，用于逐一判断四个所述边界距离是否小于预设的边界阈值，若是，则将所述显著人体区域对应的边更新为所述目标图像对应的边，若否，则将所述显著人体区域对应的边扩充所述边界阈值；

11.如权利要求10所述的图像中人体的分割系统，其特征在于，所述深度神经网络为轻量级深度神经网络。

12.如权利要求11所述的图像中人体的分割系统，其特征在于，所述轻量级深度神经网络模型的轻量级特征提取模块为MobileNet，所述轻量级深度神经网络模型的检测模块为SSD；

13.如权利要求10所述的图像中人体的分割系统，其特征在于，所述区域聚合单元包括：

14.如权利要求13所述的图像中人体的分割系统，其特征在于，所述两个对角为左上角和右下角，或，所述两个对角为左下角和右上角；

15.如权利要求10所述的图像中人体的分割系统，其特征在于，所述图像中人体的分割系统还包括第一计算模块和第一判断模块；

所述预设的显著人体区域面积占比阈值的取值范围为0.7~0.9。

16.如权利要求10所述的图像中人体的分割系统，其特征在于，所述边界阈值的取值范围为20~50个像素大小。

17.如权利要求10所述的图像中人体的分割系统，其特征在于，所述预设的人体边界框面积占比阈值的取值范围为0.1~0.2。

18.如权利要求10-17中任一项所述的图像中人体的分割系统，其特征在于，所述人体分割模块包括：

19.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的图像中人体的分割方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的图像中人体的分割方法的步骤。