CN111582278A - 人像分割方法、装置及电子设备 - Google Patents
人像分割方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111582278A CN111582278A CN201910123239.0A CN201910123239A CN111582278A CN 111582278 A CN111582278 A CN 111582278A CN 201910123239 A CN201910123239 A CN 201910123239A CN 111582278 A CN111582278 A CN 111582278A
- Authority
- CN
- China
- Prior art keywords
- portrait
- picture
- pixel
- area
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 109
- 238000009826 distribution Methods 0.000 claims abstract description 104
- 230000006870 function Effects 0.000 claims description 94
- 238000013135 deep learning Methods 0.000 claims description 40
- 238000001514 detection method Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000003708 edge detection Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000003709 image segmentation Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请提供了一种人像分割方法、装置及电子设备,该方法包括:获取目标人像图片;将目标人像图片输入预设的人像分割模型;其中,人像分割模型的训练方式包括基于人像边缘信息和全局人像概率分布信息的约束训练;通过人像分割模型对目标人像图片进行像素级分割;基于分割结果确定目标人像图片中的人像区域。通过基于人像边缘信息和全局人像概率分布信息的约束训练得到的人像分割模型,对目标人像图片进行像素级分割,可以将目标人像图片中的人像和背景进行精确的分割,提高图片的分割准确性。
Description
技术领域
本申请涉及行人重识别技术领域,尤其涉及一种人像分割方法、装置及电子设备。
背景技术
在很多对人像图片有要求的应用场景中,对人像分割的精度要求越来越高。现有的语义分割技术,都是粗糙地寻找对象在图像中大致像素,侧重点在于找到不同的对象实例,实现语义层面理解图像的内容信息,无法满足人像整体和边缘精细分割的要求。人视觉上对头发、耳朵、脸等部位比较敏感,分割不全或边缘不精细时会造成比较负面的观感体验。
发明内容
有鉴于此,本申请实施例提供一种人像分割方法、装置及电子设备,解决现有技术中人像分割精度不够的技术问题,提高用户的观感体验。
根据本申请的一个方面,提供一种人像分割方法,所述方法包括:获取目标人像图片;将所述目标人像图片输入预设的人像分割模型;其中,所述人像分割模型的训练方式包括基于人像边缘信息和全局人像概率分布信息的约束训练;通过所述人像分割模型对所述目标人像图片进行像素级分割;基于分割结果确定所述目标人像图片中的人像区域。
在一些实施例中,所述人像分割模型的训练过程,包括:获取人像图片样本集;其中,所述样本集中的每个人像样本图片均标注有像素标识;所述像素标识用于表征每个像素对应的人像区域标识或背景区域标识;根据每个人像样本图片标注的所述像素标识,确定每个人像样本图片对应的人像边缘信息及多个所述人像样本图片对应的全局人像概率分布信息;所述全局人像概率分布信息包括每个像素属于人像区域的概率值;应用所述人像图片样本集,并以所述全局人像概率分布信息和每个所述人像样本图片的人像边缘信息为约束条件,训练预设的深度学习语义分割初始模型,得到人像分割模型。
在一些实施例中,根据每个人像图片标注的所述像素标识,确定每个人像图片对应的人像边缘信息的步骤,包括:逐一将每个所述人像样本图片作为所述当前人像样本图片;基于当前人像样本图片的像素标识和边缘检测算子计算当前人像样本图片对应的人像边缘;将所述当前人像样本图片对应的人像边缘向内扩展预设个数的像素,得到所述当前人像样本图片的人像边缘区域;将所述人像边缘区域及所述人像边缘区域中每个像素对应的预设权重,作为所述当前人像样本图片对应的人像边缘信息。
在一些实施例中,根据每个人像样本图片标注的所述像素标识,确定多个所述人像样本图片对应的全局人像概率分布信息的步骤,包括:统计多个人像样本图片中每个相同像素位置对应的人像区域标识的数量;将每个相同像素位置对应的人像区域标识的数量除以所述人像图片的数量,得到每个像素位置对应的概率值;基于每个所述像素位置对应的概率值,得到多个所述人像图片对应的全局人像概率分布信息。
在一些实施例中,应用所述人像图片样本集,并以所述全局人像概率分布信息和每个所述人像样本图片的人像边缘信息为约束条件,训练预设的深度学习语义分割初始模型的步骤,包括:从所述人像图片样本集中选取人像样本图片组;将所述人像样本图片组输入所述深度学习语义分割初始模型进行预测,得到所述人像样本图片组中每个人像样本图片的预测结果;所述预测结果包括每个像素对应的像素预测标识;所述像素预测标识包括人像区域标识或背景区域标识;对于每个所述人像样本图片,判断所述人像样本图片的预测结果中是否存在有与所述人像样本图片的像素标识不相同的像素预测标识;如果存在,将所述像素预测标识对应的像素作为差异像素;基于差异像素、所述人像样本图片的人像边缘信息及所述全局人像概率分布信息调整所述深度学习语义分割模型的损失函数;基于调整后的损失函数计算所述人像样本图片对应的损失值;基于所述人像样本图片组中每个所述人像图片对应的损失值判断所述损失函数是否收敛;如果否,基于每个所述人像图片对应的损失值调整所述深度学习语义分割模型的参数继续训练;如果是,停止训练。
在一些实施例中,基于差异像素、所述人像样本图片的人像边缘信息及所述全局人像概率分布信息调整所述深度学习语义分割模型的损失函数的步骤,包括:从所述全局人像概率分布信息中查找所述差异像素对应的概率值,将所述差异像素对应的概率值作为全局人像概率分布信息的权重;判断所述差异像素是否在所述人像样本图片对应的人像边缘信息的人像边缘区域内;如果是,从所述人像边缘信息中查找到所述差异像素在人像边缘区域内对应的权重;基于所述全局人像概率分布信息的权重、所述差异像素在人像边缘区域内对应的权重,对所述损失函数进行调整;如果否,则基于所述全局人像概率分布信息的权重对所述损失函数进行调整。
在一些实施例中,所述损失函数为交叉熵损失函数;基于所述全局人像概率分布信息的权重、所述差异像素在人像边缘区域内对应的权重,对所述损失函数进行调整的步骤,包括:通过以下算式对所述损失函数进行调整:
CEL’=CEL*(1+W1+W2);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重;W2表示差异像素在人像边缘区域内对应的权重;
基于所述全局人像概率分布信息的权重对所述损失函数进行调整的步骤,包括:通过以下算式对所述损失函数进行调整:
CEL’=CEL*(1+W1);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重。
在一些实施例中,基于分割结果确定所述目标人像图片中的人像区域的步骤,包括:对分割后的所述目标人像图片进行单连通域检测;如果检测结果包括一个单连通域,则将所述单连通域作为所述目标人像图片的人像区域;如果检测结果包括多个单连通域,则将多个单连通域中面积最大的区域作为所述目标人像图片的人像区域。
在一些实施例中,基于分割结果确定所述目标人像图片的人像区域的步骤之后,还包括:将所述人像区域之外的区域确定为所述目标人像图片的背景区域;将所述背景区域中的像素值转换为预设的像素值。
在一些实施例中,所述人像分割模型的训练方式还包括以预设属性为约束的训练;所述预设属性包括以下:人像方向、人像性别和头发长度属性;所述人像分割模型的训练过程还包括:
获取所述人像图片样本集中每个所述人像样本图片的标签信息;所述标签信息包括以下:人像方向、人像性别和头发长度属性;
将包含所述标签信息的人像样本图片输入所述深度学习语义分割模型中进行多任务训练。
在一些实施例中,获取所述人像图片样本集中每个所述人像样本图片的标签信息的步骤,包括:逐一将每个所述人像样本图片作为所述当前人像样本图片;将所述当前人像样本图片中的人像调整为正向人像;对所述当前人像样本图片中的正向人像进行多个预设角度的旋转,得到每个所述预设角度对应的人像样本图片和包含有人像方向的标签信息。
在一些实施例中,基于分割结果确定所述目标人像图片的人像区域的步骤之后,还包括:从分割结果中提取所述目标人像图片对应的标签信息;根据提取到的所述标签信息中的人像方向判断所述人像区域是否为正向;如果否,将所述人像区域调整为正向。
在一些实施例中,所述方法还包括:判断所述人像区域是否在所述目标人像图片的中心区域;如果否,对所述人像区域进行居中处理。
在一些实施例中,对所述人像区域进行居中处理的步骤,包括:确定所述人像区域的人脸中心位置;以所述人脸中心位置为所述目标人像图片的中心位置,扩展和/或裁剪所述目标人像图片,以使所述人像区域在所述目标人像图片的中心区域。
根据本申请的另一方面,提供一种人像分割装置,包括:图片获取模块,用于获取目标人像图片;模型预测分割模块,用于将所述目标人像图片输入预设的人像分割模型;其中,所述人像分割模型的训练方式包括基于人像边缘信息和全局人像概率分布信息的约束训练;通过所述人像分割模型对所述目标人像图片进行像素级分割;人像区域确定模块,用于基于分割结果确定所述目标人像图片中的人像区域。
在一些实施例中,所述装置还包括:模型训练模块;所述模型训练模块具体包括:样本获取模块,用于获取人像图片样本集;其中,所述样本集中的每个人像样本图片均标注有像素标识;所述像素标识用于表征每个像素对应的人像区域标识或背景区域标识;
信息确定模块,用于根据每个人像样本图片标注的所述像素标识,确定每个人像样本图片对应的人像边缘信息及多个所述人像样本图片对应的全局人像概率分布信息;所述全局人像概率分布信息包括每个像素属于人像区域的概率值;约束训练模块,用于应用所述人像图片样本集,并以所述全局人像概率分布信息和每个所述人像样本图片的人像边缘信息为约束条件,训练预设的深度学习语义分割初始模型,得到人像分割模型。
在一些实施例中,所述信息确定模块,还用于:逐一将每个所述人像样本图片作为所述当前人像样本图片;基于当前人像样本图片的像素标识和边缘检测算子计算当前人像样本图片对应的人像边缘;将所述当前人像样本图片对应的人像边缘向内扩展预设个数的像素,得到所述当前人像样本图片的人像边缘区域;将所述人像边缘区域及所述人像边缘区域中每个像素对应的预设权重,作为所述当前人像样本图片对应的人像边缘信息。
在一些实施例中,所述信息确定模块,还用于:统计多个人像样本图片中每个相同像素位置对应的人像区域标识的数量;将每个相同像素位置对应的人像区域标识的数量除以所述人像图片的数量,得到每个像素位置对应的概率值;基于每个所述像素位置对应的概率值,得到多个所述人像图片对应的全局人像概率分布信息。
在一些实施例中,所述约束训练模块,还用于:从所述人像图片样本集中选取人像样本图片组;将所述人像样本图片组输入所述深度学习语义分割初始模型进行预测,得到所述人像样本图片组中每个人像样本图片的预测结果;所述预测结果包括每个像素对应的像素预测标识;所述像素预测标识包括人像区域标识或背景区域标识;对于每个所述人像样本图片,判断所述人像样本图片的预测结果中是否存在有与所述人像样本图片的像素标识不相同的像素预测标识;如果存在,将所述像素预测标识对应的像素作为差异像素;基于差异像素、所述人像样本图片的人像边缘信息及所述全局人像概率分布信息调整所述深度学习语义分割模型的损失函数;基于调整后的损失函数计算所述人像样本图片对应的损失值;基于所述人像样本图片组中每个所述人像图片对应的损失值判断所述损失函数是否收敛;如果否,基于每个所述人像图片对应的损失值调整所述深度学习语义分割模型的参数继续训练;如果是,停止训练。
在一些实施例中,所述约束训练模块,还用于:从所述全局人像概率分布信息中查找所述差异像素对应的概率值,将所述差异像素对应的概率值作为全局人像概率分布信息的权重;判断所述差异像素是否在所述人像样本图片对应的人像边缘信息的人像边缘区域内;如果是,从所述人像边缘信息中查找到所述差异像素在人像边缘区域内对应的权重;基于所述全局人像概率分布信息的权重、所述差异像素在人像边缘区域内对应的权重,对所述损失函数进行调整;如果否,则基于所述全局人像概率分布信息的权重对所述损失函数进行调整。
在一些实施例中,所述损失函数为交叉熵损失函数;所述约束训练模块,还用于:通过以下算式对所述损失函数进行调整:
CEL’=CEL*(1+W1+W2);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重;W2表示差异像素在人像边缘区域内对应的权重;
基于所述全局人像概率分布信息的权重对所述损失函数进行调整的步骤,包括:通过以下算式对所述损失函数进行调整:
CEL’=CEL*(1+W1);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重。
在一些实施例中,所述人像区域确定模块包括:单连通域检测模块,用于对分割后的所述目标人像图片进行单连通域检测;如果检测结果包括一个单连通域,则将所述单连通域作为所述目标人像图片的人像区域;如果检测结果包括多个单连通域,则将多个单连通域中面积最大的区域作为所述目标人像图片的人像区域。
在一些实施例中,所述装置还包括:背景区域调整模块,用于将所述人像区域之外的区域确定为所述目标人像图片的背景区域;将所述背景区域中的像素值转换为预设的像素值。
在一些实施例中,所述人像分割模型的训练方式还包括以预设属性为约束的训练;所述预设属性至少包括以下之一:人像方向、人像性别和头发长度属性;所述模型训练模块还包括:标签信息获取模块,用于获取所述人像图片样本集中每个所述人像样本图片的标签信息;所述标签信息至少包括以下之一:人像方向、人像性别和头发长度属性;多任务训练模块,用于将包含所述标签信息的人像样本图片输入所述深度学习语义分割模型中进行多任务训练。
在一些实施例中,所述标签信息获取模块,还用于:逐一将每个所述人像样本图片作为所述当前人像样本图片;将所述当前人像样本图片中的人像调整为正向人像;对所述当前人像样本图片中的正向人像进行多个预设角度的旋转,得到每个所述预设角度对应的人像样本图片和包含有人像方向的标签信息。
在一些实施例中,所述装置还包括:人像区域调整模块,用于从分割结果中提取所述目标人像图片对应的标签信息;根据提取到的所述标签信息中的人像方向判断所述人像区域是否为正向;如果否,将所述人像区域调整为正向。
在一些实施例中,所述装置还包括:居中处理模块,用于判断所述人像区域是否在所述目标人像图片的中心区域;如果否,对所述人像区域进行居中处理。
在一些实施例中,所述居中处理模块,还用于:确定所述人像区域的人脸中心位置;以所述人脸中心位置为所述目标人像图片的中心位置,扩展和/或裁剪所述目标人像图片,以使所述人像区域在所述目标人像图片的中心区域。
根据本申请的另一个方面,提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上述人像分割方法中的一个或多个方法的步骤。
根据本申请的另一个方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述人像分割方法中的一个或多个方法的步骤。
上述任一方面所述的人像分割方法和装置中,首先获取目标人像图片;然后将该目标人像图片输入预设的人像分割模型中,通过该人像分割模型对目标人像图片进行像素级分割;最后基于分割结果确定该目标人像图片中的人像区域。由于上述人像分割模型的训练方式为基于人像边缘信息和全局人像概率分布信息的约束训练,可以提高人像分割模型在像素级分割的精准度,即通过基于人像边缘信息和全局人像概率分布信息的约束训练得到的人像分割模型,对目标人像图片进行像素级分割,可以将目标人像图片中的人像和背景进行精确的分割,提高图片的分割准确性。
为使本申请实施例的上述目的、特征和优点能更明显易懂,下面将结合实施例,并配合所附附图,作详细说明。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种人像分割系统的框图;
图2示出了本申请实施例所提供的一种人像分割方法的流程图;
图3示出了本申请实施例所提供的一种人像分割方法中模型训练过程示意图;
图4示出了本申请实施例所提供的一种人像样本图片和像素标识示意图;
图5示出了本申请实施例所提供的一种全局人像概率分布信息示意图;
图6示出了本申请实施例所提供的一种人像样本图片分割前后及单连通域检测示意图;
图7示出了本申请实施例所提供的一种模型训练示意图;
图8示出了本申请实施例所提供的一种人像分割装置的结构示意图;
图9示出了本申请实施例所提供的另一种人像分割装置的结构示意图;
图10示出了本申请实施例所提供的一种电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“网约车服务场景”,给出以下实施方式。网约车司机在平台注册成功后需要上传头像图片,方便乘客上车后可以校验实际接客司机是否和注册司机是同一个人。而司机头像作为公司向乘客展示的窗口,要求其必须是白色背景的近期半身像才符合一个专业、安全、可靠的形象要求。为降低司机拍摄头像门槛且保障头像要求,本申请实施例可以采用人像分割方法,在司机人像图片中按像素级分割区分出人像和背景,并把背景像素自动填充成白色,最后再以人头部为中心,自动裁剪出标准的头像。这样对司机拍摄环境和人像位置要求极低,头像自动处理后又满足公司头像照片的要求。
对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕网约车服务场景中的司机头像照片进行描述,但是应该理解,这仅是一个示例性实施例。本申请可以应用于任何有头像要求的应用场景。例如,本申请可以应用于不同的图像识别场景,如警方嫌疑人识别系统、大数据图像分析平台系统等等。本申请的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等,或其任意组合。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
图1是本申请实施例提供的一种人像分割系统的框图。例如,人像分割系统可以包括服务器110、网络120、图片采集终端130、和数据库140中的一种或多种,服务器110中可以包括执行指令操作的处理器。
在一些实施例中,服务器110可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器110可以是分布式系统)。在一些实施例中,服务器110相对于终端,可以是本地的、也可以是远程的。例如,服务器110可以经由网络120访问存储在图像采集终端130(例如高空摄像头)、或数据库140、或其任意组合中的信息和/或数据。作为另一示例,服务器110可以直接连接到图像采集终端130、和数据库140中至少一个,以访问存储的信息和/或数据。在一些实施例中,服务器110可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。
在一些实施例中,服务器110可以包括处理器。处理器可以处理与特征提取或目标重识别有关的信息和/或数据,以执行本申请中描述的一个或多个功能。例如,处理器可以基于从图像采集终端130获取的视频或图像进行分析。处理器可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。
网络120可以用于信息和/或数据的交换。在一些实施例中,人像分割系统中的一个或多个组件可以向其他组件发送信息和/或数据。在一些实施例中,网络120可以是任何类型的有线或者无线网络,或者是它们的结合。
数据库140可以存储数据和/或指令。在一些实施例中,数据库140可以存储从图片采集终端130获得的数据。在一些实施例中,数据库140可以存储在本申请中描述的示例性方法的数据和/或指令。
基于上述系统,图2提供了一种人像分割方法的流程图,该方法可以应用于上述服务器中,该服务器可以是诸如车载监控系统中的服务器,该方法可以对司机人像图片进行像素级分割,得到更加精确的人像分割结果。参见图2,该人像分割方法具体包括以下步骤:
步骤S202,获取目标人像图片。
在具体实施时,服务器首先获取一张待进行分割的图片,也就是上述目标人像图片,该图片可以是通过图片采集终端所采集的,也可以是数据库中预先存储的,比如,车载图片采集终端所拍摄的司机当前人像图片。
步骤S204,将目标人像图片输入预设的人像分割模型。其中,人像分割模型的训练方式包括基于人像边缘信息和全局人像概率分布信息的约束训练。
在获取到目标人像图片后,将该图片输入至预设的人像分割模型中,该人像分割模型不同于常规的深度学习图像语义分割模型,而是在现有的深度学习图像语义分割模型的基础上,通过基于人像边缘信息和全局人像概率分布信息的约束训练而得到的。现有的深度学习图像语义分割模型采用的网络包括空洞卷积、DeepLab(v1和v2)、RefineNet、PSPNet和DeepLabv3等,本申请实施例中以DeepLab v3为例进行说明。
人像边缘信息是指每个人像样本图片的人像边缘区域及该区域中每个像素对应的预设权重,全局人像概率分布信息为通过多个人像样本图片的像素标识所计算得到的全局人像整体的概率分布,每个像素对应有该像素属于人像区域的概率值。基于上述两个信息的约束训练,可以使训练后的人像分割模型能够对人像图片进行准确地像素级分割。
步骤S206,通过人像分割模型对目标人像图片进行像素级分割。
通过以上述约束训练的方式得到的人像分割模型对上述目标人像图片进行像素级分割,从而得到分割结果,也就是模型的预测结果,该预测结果中包括该目标人像图片中每个像素属于人像或者背景的预测结果。
步骤S208,基于分割结果确定目标人像图片中的人像区域。
在得到分割结果后,进一步可以确定出目标人像图片中的人像区域,可以有多种方式,一种优选的方式是通过单连通域检测去掉误识别的区域。
本申请实施例提供的人像分割方法可以通过基于人像边缘信息和全局人像概率分布信息的约束训练得到的人像分割模型,对目标人像图片进行像素级分割,可以将目标人像图片中的人像和背景进行精确的分割,提高图片的分割准确性,从而得到准确的人像区域。
下面对上述人像分割模型的约束训练过程进行详细的阐述,具体包括以下步骤,参见图3所示:
步骤S302,获取人像图片样本集;其中,样本集中的每个人像样本图片均标注有像素标识;像素标识用于表征每个像素对应的人像区域标识或背景区域标识。
在具体实施中,可以收集大量的人像样本图片作为人像图片样本集。上述人像样本图片是经过预处理的具有统一大小的图片,如500像素*500像素。而且每个人像样本图片都预先进行像素标识标注,标注方式有多种,比如,通过人工PS抠图将图片中的人像区域选取出来,然后将人像区域中的每个像素标注为1,将背景区域中的每个像素标注为0。当然也可以通过A、B等来进行区分。如图4所示,左图为原人像样本图片,右图为原人像样本图片对应的像素标识示意图。图中黑白仅用于表示背景区域和人像区域的像素标识不一样,并不代表标注完像素后最终处理成黑白图片。
步骤S304,根据每个人像样本图片标注的像素标识,确定每个人像样本图片对应的人像边缘信息及多个人像样本图片对应的全局人像概率分布信息;全局人像概率分布信息包括每个像素属于人像区域的概率值。
上述根据每个人像图片标注的像素标识,确定每个人像图片对应的人像边缘信息的过程如下:
(1)逐一将每个人像样本图片作为当前人像样本图片。
(2)基于当前人像样本图片的像素标识和边缘检测算子计算当前人像样本图片对应的人像边缘。本申请实施例中采用Canny边缘检测算子进行人像边缘检测。Canny边缘检测算子是一个多级边缘检测算法,Canny的目标是找到一个最优的边缘检测算法,从而确定出最准确的人像边缘。
(3)将当前人像样本图片对应的人像边缘向内扩展预设个数的像素,得到当前人像样本图片的人像边缘区域。这里预设个数可以进行不同的设定,一种优选的实施方式为10个像素。
(4)将人像边缘区域及人像边缘区域中每个像素对应的预设权重,作为当前人像样本图片对应的人像边缘信息。这里的预设权重也可以针对不同的情况进行不同的设定,本申请实施例中预计权重为0.5。
上述根据每个人像样本图片标注的像素标识,确定多个人像样本图片对应的全局人像概率分布信息的过程如下:
(1)统计多个人像样本图片中每个相同像素位置对应的人像区域标识的数量。比如:有10个人像样本图片,其中,在同一像素位置处,有4张图片的像素标识为1,有6张图片的像素标识为0,那么统计得到的该像素位置处对应的人像区域标识有4个。
(2)将每个相同像素位置对应的人像区域标识的数量除以人像图片的数量,得到每个像素位置对应的概率值。即将上述得到的该像素位置处对应的人像区域标识的数量4除以人像样本图片的数量10,得到该像素位置处的概率值为0.4。
(3)基于每个像素位置对应的概率值,得到多个人像样本图片对应的全局人像概率分布信息。由于所有的人像样本图片都是预先处理好的大小一致的图片,因此具有相同的像素点,分别计算出每个像素位置上的概率值,即可得到多个人像样本图片对应的全局人像概率分布信息,如图5所示。同样,黑白仅是示意,表示概率从人像区域的1到背景区域0的渐变。
通过统计方式计算出全局人像概率分布信息,相对来说比较准确。
步骤S306,应用人像图片样本集,并以全局人像概率分布信息和每个人像样本图片的人像边缘信息为约束条件,训练预设的深度学习语义分割初始模型,得到人像分割模型。
具体的约束训练过程如下:
(1)从人像图片样本集中选取人像样本图片组。比如,人像图片样本集中有两万个人像样本图片,那么每次选取80个人像样本图片作为人像样本图片组,一组中的图片同时进行训练。
(2)将人像样本图片组输入深度学习语义分割初始模型进行预测,得到人像样本图片组中每个人像样本图片的预测结果;预测结果包括每个像素对应的像素预测标识;像素预测标识包括人像区域标识或背景区域标识。
(3)对于每个人像样本图片,判断人像样本图片的预测结果中是否存在有与人像样本图片的像素标识不相同的像素预测标识;如果存在,将像素预测标识对应的像素作为差异像素;基于差异像素、人像样本图片的人像边缘信息及全局人像概率分布信息调整深度学习语义分割模型的损失函数;基于调整后的损失函数计算人像样本图片对应的损失值。
具体实施时,将每个人像样本图片的预测结果与其像素标识进行比对,判断人像样本图片的预测结果中是否存在有与人像样本图片的像素标识不相同的像素预测标识,如果存在,将像素预测标识对应的像素作为差异像素,然后进一步基于差异像素、人像样本图片的人像边缘信息及全局人像概率分布信息调整深度学习语义分割模型的损失函数。
具体包括以下过程:
a.从全局人像概率分布信息中查找差异像素对应的概率值,将差异像素对应的概率值作为全局人像概率分布信息的权重;
b.判断差异像素是否在人像样本图片对应的人像边缘信息的人像边缘区域内;
c.如果差异像素在人像样本图片对应的人像边缘信息的人像边缘区域内,则从人像边缘信息中查找到差异像素在人像边缘区域内对应的权重;基于全局人像概率分布信息的权重、差异像素在人像边缘区域内对应的权重,对损失函数进行调整。
具体的,通过以下算式对损失函数进行调整:
CEL’=CEL*(1+W1+W2);
其中,CEL’表示调整后的损失函数;CEL(Cross Entropy Loss)表示交叉熵损失函数;W1表示全局人像概率分布信息的权重;W2表示差异像素在人像边缘区域内对应的权重。
d.如果差异像素是不在人像样本图片对应的人像边缘信息的人像边缘区域内,则基于全局人像概率分布信息的权重对损失函数进行调整。
具体的,通过以下算式对损失函数进行调整:
CEL’=CEL*(1+W1);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重。
(4)基于人像样本图片组中每个人像图片对应的损失值判断损失函数是否收敛;如果否,基于每个人像图片对应的损失值调整深度学习语义分割模型的参数继续训练;如果是,停止训练。
本申请实施例可以通过每个人像样本图片的预测结果和初始标注的像素标识的比对,判断存在差异像素时,基于人像边缘信息及全局人像概率分布信息调整深度学习语义分割模型的损失函数,即加大损失函数中,差异像素在上述两种信息处的权重,从而提高模型在这些差异像素的分辨能力。
由于通过上述人像分割方法进行分割后的图片中可能会存在背景区域中单个像素或者某几个像素的误识别,导致将其也识别为人像区域,因此,需要对分割后的结果进行一个单连通域检测,以去除误识别的区域。具体的过程如下:
(1)对分割后的目标人像图片进行单连通域检测。
(2)如果检测结果包括一个单连通域,则将单连通域作为目标人像图片的人像区域。
(3)如果检测结果包括多个单连通域,则将多个单连通域中面积最大的区域作为目标人像图片的人像区域。
图6示出了一种具体的实例应用图。左图为原人像样本图,中图为模型分割后的预测结果图,即像素标识图,其中两个小方框标出了误识别的人像区域,通过单连通域检测后,将面积相对小的两个区域去掉,得到最终的人像区域的像素标识图,如右图所示,为单连通域检测处理后的像素标识图。通过单连通域检测,可以去除误识别的人像区域,能够得到最准确的人像区域。
在一种优选的实施方式中,基于分割结果确定目标人像图片的人像区域的步骤之后,还包括对背景的处理过程,如下:
将人像区域之外的区域确定为目标人像图片的背景区域。将背景区域中的像素值转换为预设的像素值。
上述方式可以按照预设像素值对背景进行处理,得到满足需求的人像图片,比如,将背景设定为白色、蓝色或者红色等。
通过上述基于人像边缘信息和全局人像概率分布信息的约束训练得到的模型,尽管在一定程度上已经提高了模型的预测分割精准度,但只有这一方面的约束还不够,为了进一步提高模型的预测分割精准度,本实施例中还提供另一种模型的训练方式,即上述人像分割模型的训练方式还包括以预设属性为约束的训练;预设属性至少包括以下之一:人像方向、人像性别和头发长度属性。
上述人像分割模型的训练过程还包括:
(1)获取人像图片样本集中每个人像样本图片的标签信息;标签信息至少包括以下之一:人像方向、人像性别和头发长度属性。其中,人像方向如90度、180度等;人像性别如男、女;头发长度属性包括:长、中、短。这些标签可以通过人为标定方式得到,其中,人像方向的获取方式还可以通过服务器自身对图片旋转得到。
具体的,逐一将每个人像样本图片作为当前人像样本图片;将当前人像样本图片中的人像调整为正向人像;对当前人像样本图片中的正向人像进行多个预设角度的旋转,得到每个预设角度对应的人像样本图片和包含有人像方向的标签信息。预设角度可以包括0度、90度、180度、270度。
对于每个人像样本图片,获取其不同预设角度的人像样本图片和相应的人像方向标签,可以提高模型对图片人像方向识别的准确度。通过多方面标签的设置及标签和图片的同时训练,可以使模型从语义层面得到好的训练,进一步提高模型的识别精准度。
(2)将包含标签信息的人像样本图片输入深度学习语义分割初始模型中进行多任务训练。
本申请实施例,在基于人像边缘信息和全局人像概率分布信息的约束训练的基础上,还可以同时包括以预设属性为约束的训练,如图7所示,为一种人像分割模型训练示意图。以Deeplabv3+为预设的深度学习语义分割初始模型,同时进行强化像素权重的训练和多任务学习训练,强化像素权重的训练,首先需要通过Deeplabv3+得到人像样本图片的预测结果,然后基于和预先标注的像素标识的比对,确定出差异像素,最后再基于差异像素在全局人像概率分布信息和人像边缘信息中的权重,调整损失函数,并进一步调整模型的参数,从而实现对模型的第一种训练。与此同时,利用标签信息,如人像方向、人像性别和头发长度属性对模型进行多任务训练,即第二种训练。训练好的模型最终通过softmax函数输出概率最大的值,即预测结果。这样可以同时从语义层面和像素层面对图片进行准确地分割,提高模型的分割精度。
为了提高最后的成像效果,本申请实施例还提供一种优选方式,在基于分割结果确定目标人像图片的人像区域之后,还包括对目标人像图片中的人像区域进行调整的过程,如下:
从分割结果中提取目标人像图片对应的标签信息;根据提取到的标签信息中的人像方向判断人像区域是否为正向;如果否,将人像区域调整为正向。
如果图片分割的结果中人像方向不是正向,进行调整,以便生成标准的人像图片。
在另一种优选的实施方式中,为了提高图片的展示效果,提高人们对人像图片的观感体验,上述人像分割方法还包括图像居中处理过程,如下:
判断人像区域是否在目标人像图片的中心区域;如果否,对人像区域进行居中处理。具体的,首先确定人像区域的人脸中心位置;以人脸中心位置为目标人像图片的中心位置,扩展和/或裁剪目标人像图片,以使人像区域在目标人像图片的中心区域。
本申请实施例提供的人像分割方法,能够解决现有普通语义分割对人像图片分割过程中存在的以下问题:
(1)全局人像分割不准,使用本申请实施例的方法能够将全局IOU指标从90%提升至98.3%。其中,给定一张图像,IOU测量给出了在该图像中存在的对象的预测区域和实况区域之间的交叠率——即它们的交集与并集的比值,交叠率越高预测越好。
(2)人像边缘分割不精细,使用本申请实施例的方法能够使人像边缘(边缘附近10pixel)IOU指标从70%提升至95%。
基于上述方法实施例,图8求出了本申请实施例提供的一种人像分割装置的框图,该装置可以应用于上述服务器,该装置包括:图片获取模块802、模型预测分割模块804和人像区域确定模块806。
其中,图片获取模块802,用于获取目标人像图片;模型预测分割模块804,用于将目标人像图片输入预设的人像分割模型;其中,人像分割模型的训练方式包括基于人像边缘信息和全局人像概率分布信息的约束训练;通过人像分割模型对目标人像图片进行像素级分割;人像区域确定模块806,用于基于分割结果确定目标人像图片中的人像区域。
本申请实施例提供的人像分割装置中,首先通过图片获取模块802,获取目标人像图片;然后通过模块预测分割模块804,将该目标人像图片输入预设的人像分割模型中,通过该人像分割模型对目标人像图片进行像素级分割;最后再通过人像区域确定模块806,基于分割结果确定该目标人像图片中的人像区域。由于上述人像分割模型的训练方式为基于人像边缘信息和全局人像概率分布信息的约束训练,可以提高人像分割模型在像素级分割的精准度,即通过基于人像边缘信息和全局人像概率分布信息的约束训练得到的人像分割模型,对目标人像图片进行像素级分割,可以将目标人像图片中的人像和背景进行精确的分割,提高图片的分割准确性。
图9示出了本申请实施例提供的另一种人像分割装置的框图,该装置同样可以应用于上述服务器,该装置除了包括与上一实施例类似的图片获取模块902、模型预测分割模块904和人像区域确定模块906外,还包括:模型训练模块908。模型训练模块908具体包括:样本获取模块9081、信息确定模块9082和约束训练模块9083。
其中,样本获取模块9081,用于获取人像图片样本集;其中,样本集中的每个人像样本图片均标注有像素标识;像素标识用于表征每个像素对应的人像区域标识或背景区域标识;信息确定模块9082,用于根据每个人像样本图片标注的像素标识,确定每个人像样本图片对应的人像边缘信息及多个人像样本图片对应的全局人像概率分布信息;全局人像概率分布信息包括每个像素属于人像区域的概率值;约束训练模块9083,用于应用人像图片样本集,并以全局人像概率分布信息和每个人像样本图片的人像边缘信息为约束条件,训练预设的深度学习语义分割初始模型,得到人像分割模型。
在一些实施例中,上述信息确定模块9082还用于:逐一将每个人像样本图片作为当前人像样本图片;基于当前人像样本图片的像素标识和边缘检测算子计算当前人像样本图片对应的人像边缘;将当前人像样本图片对应的人像边缘向内扩展预设个数的像素,得到当前人像样本图片的人像边缘区域;将人像边缘区域及人像边缘区域中每个像素对应的预设权重,作为当前人像样本图片对应的人像边缘信息。
在一些实施例中,上述信息确定模块9082还用于:统计多个人像样本图片中每个相同像素位置对应的人像区域标识的数量;将每个相同像素位置对应的人像区域标识的数量除以人像图片的数量,得到每个像素位置对应的概率值;基于每个像素位置对应的概率值,得到多个人像样本图片对应的全局人像概率分布信息。
在一些实施例中,上述约束训练模块9083还用于:从人像图片样本集中选取人像样本图片组;将人像样本图片组输入深度学习语义分割初始模型进行预测,得到人像样本图片组中每个人像样本图片的预测结果;预测结果包括每个像素对应的像素预测标识;像素预测标识包括人像区域标识或背景区域标识;对于每个人像样本图片,判断人像样本图片的预测结果中是否存在有与人像样本图片的像素标识不相同的像素预测标识;如果存在,将像素预测标识对应的像素作为差异像素;基于差异像素、人像样本图片的人像边缘信息及全局人像概率分布信息调整深度学习语义分割初始模型的损失函数;基于调整后的损失函数计算人像样本图片对应的损失值;基于人像样本图片组中每个人像图片对应的损失值判断损失函数是否收敛;如果否,基于每个人像图片对应的损失值调整深度学习语义分割初始模型的参数继续训练;如果是,停止训练。
在一些实施例中,上述约束训练模块9083还用于:从全局人像概率分布信息中查找差异像素对应的概率值,将差异像素对应的概率值作为全局人像概率分布信息的权重;判断差异像素是否在人像样本图片对应的人像边缘信息的人像边缘区域内;如果是,从人像边缘信息中查找到差异像素在人像边缘区域内对应的权重;基于全局人像概率分布信息的权重、差异像素在人像边缘区域内对应的权重,对损失函数进行调整;如果否,则基于全局人像概率分布信息的权重对损失函数进行调整。
在一些实施例中,上述损失函数为交叉熵损失函数;上述约束训练模块9083还用于:通过以下算式对损失函数进行调整:
CEL’=CEL*(1+W1+W2);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重;W2表示差异像素在人像边缘区域内对应的权重;
上述约束训练模块9083还用于:基于全局人像概率分布信息的权重对损失函数进行调整:通过以下算式对损失函数进行调整:
CEL’=CEL*(1+W1);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重。
在一些实施例中,上述人像区域确定模块906包括:单连通域检测模块9062,用于对分割后的目标人像图片进行单连通域检测;如果检测结果包括一个单连通域,则将单连通域作为目标人像图片的人像区域;如果检测结果包括多个单连通域,则将多个单连通域中面积最大的区域作为目标人像图片的人像区域。
在一些实施例中,上述人像分割装置还包括:背景区域调整模块910,用于将人像区域之外的区域确定为目标人像图片的背景区域;将背景区域中的像素值转换为预设的像素值。
在一些实施例中,上述人像分割模型的训练方式还包括以预设属性为约束的训练;预设属性至少包括以下之一:人像方向、人像性别和头发长度属性;上述模型训练模块908还包括:标签信息获取模块9084和多任务训练模块9085。
其中,标签信息获取模块9084,用于获取人像图片样本集中每个人像样本图片的标签信息;标签信息至少包括以下之一:人像方向、人像性别和头发长度属性;多任务训练模块9085,用于将包含标签信息的人像样本图片输入深度学习语义分割初始模型中进行多任务训练。
在一些实施例中,上述标签信息获取模块9084,还用于:逐一将每个人像样本图片作为当前人像样本图片;将当前人像样本图片中的人像调整为正向人像;对当前人像样本图片中的正向人像进行多个预设角度的旋转,得到每个预设角度对应的人像样本图片和包含有人像方向的标签信息。
在一些实施例中,上述人像分割装置还包括:人像区域调整模块912,用于从分割结果中提取目标人像图片对应的标签信息;根据提取到的标签信息中的人像方向判断人像区域是否为正向;如果否,将人像区域调整为正向。
在一些实施例中,上述人像分割装置还包括:居中处理模块914,用于判断人像区域是否在目标人像图片的中心区域;如果否,对人像区域进行居中处理。
在一些实施例中,上述居中处理模块914,还用于:确定人像区域的人脸中心位置;以人脸中心位置为目标人像图片的中心位置,扩展和/或裁剪目标人像图片,以使人像区域在目标人像图片的中心区域。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
为便于理解,图10示出根据本申请的一些实施例的可以实现本申请思想的电子设备1000的示例性硬件和软件组件的示意图。例如,处理器1020可以用于电子设备1000上,并且用于执行本申请中的功能。
电子设备1000可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的人像分割方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备1000可以包括连接到网络的网络端口1010、用于执行程序指令的一个或多个处理器1020、通信总线1030和不同形式的存储介质1040,例如,磁盘、ROM或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM或其他类型的非暂时性存储介质或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备1000还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口1050。
为了便于说明,在电子设备1000中仅描述了一个处理器。然而,应当注意,本申请中的电子设备1000还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备1000的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述人像分割方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
另外,在本申请实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (30)
1.一种人像分割方法,其特征在于,包括:
获取目标人像图片;
将所述目标人像图片输入预设的人像分割模型;其中,所述人像分割模型的训练方式包括基于人像边缘信息和全局人像概率分布信息的约束训练;
通过所述人像分割模型对所述目标人像图片进行像素级分割;
基于分割结果确定所述目标人像图片中的人像区域。
2.根据权利要求1所述的方法,其特征在于,所述人像分割模型的训练过程,包括:
获取人像图片样本集;其中,所述样本集中的每个人像样本图片均标注有像素标识;所述像素标识用于表征每个像素对应的人像区域标识或背景区域标识;
根据每个人像样本图片标注的所述像素标识,确定每个人像样本图片对应的人像边缘信息及多个所述人像样本图片对应的全局人像概率分布信息;所述全局人像概率分布信息包括每个像素属于人像区域的概率值;
应用所述人像图片样本集,并以所述全局人像概率分布信息和每个所述人像样本图片的人像边缘信息为约束条件,训练预设的深度学习语义分割初始模型,得到人像分割模型。
3.根据权利要求2所述的方法,其特征在于,根据每个人像图片标注的所述像素标识,确定每个人像图片对应的人像边缘信息的步骤,包括:
逐一将每个所述人像样本图片作为当前人像样本图片;
基于当前人像样本图片的像素标识和边缘检测算子计算所述当前人像样本图片对应的人像边缘;
将所述当前人像样本图片对应的人像边缘向内扩展预设个数的像素,得到所述当前人像样本图片的人像边缘区域;
将所述人像边缘区域及所述人像边缘区域中每个像素对应的预设权重,作为所述当前人像样本图片对应的人像边缘信息。
4.根据权利要求2所述的方法,其特征在于,根据每个人像样本图片标注的所述像素标识,确定多个所述人像样本图片对应的全局人像概率分布信息的步骤,包括:
统计多个人像样本图片中每个相同像素位置对应的人像区域标识的数量;
将每个相同像素位置对应的人像区域标识的数量除以所述人像图片的数量,得到每个像素位置对应的概率值;
基于每个所述像素位置对应的概率值,得到多个所述人像图片对应的全局人像概率分布信息。
5.根据权利要求2所述的方法,其特征在于,应用所述人像图片样本集,并以所述全局人像概率分布信息和每个所述人像样本图片的人像边缘信息为约束条件,训练预设的深度学习语义分割初始模型的步骤,包括:
从所述人像图片样本集中选取人像样本图片组;
将所述人像样本图片组输入所述深度学习语义分割初始模型进行预测,得到所述人像样本图片组中每个人像样本图片的预测结果;所述预测结果包括每个像素对应的像素预测标识;所述像素预测标识包括人像区域标识或背景区域标识;
对于每个所述人像样本图片,判断所述人像样本图片的预测结果中是否存在有与所述人像样本图片的像素标识不相同的像素预测标识;如果存在,将所述像素预测标识对应的像素作为差异像素;基于差异像素、所述人像样本图片的人像边缘信息及所述全局人像概率分布信息调整所述深度学习语义分割模型的损失函数;基于调整后的损失函数计算所述人像样本图片对应的损失值;
基于所述人像样本图片组中每个所述人像图片对应的损失值判断所述损失函数是否收敛;如果否,基于每个所述人像图片对应的损失值调整所述深度学习语义分割模型的参数继续训练;如果是,停止训练。
6.根据权利要求5所述的方法,其特征在于,基于差异像素、所述人像样本图片的人像边缘信息及所述全局人像概率分布信息调整所述深度学习语义分割模型的损失函数的步骤,包括:
从所述全局人像概率分布信息中查找所述差异像素对应的概率值,将所述差异像素对应的概率值作为全局人像概率分布信息的权重;
判断所述差异像素是否在所述人像样本图片对应的人像边缘信息的人像边缘区域内;
如果是,从所述人像边缘信息中查找到所述差异像素在人像边缘区域内对应的权重;基于所述全局人像概率分布信息的权重、所述差异像素在人像边缘区域内对应的权重,对所述损失函数进行调整;
如果否,则基于所述全局人像概率分布信息的权重对所述损失函数进行调整。
7.根据权利要求6所述的方法,其特征在于,所述损失函数为交叉熵损失函数;
基于所述全局人像概率分布信息的权重、所述差异像素在人像边缘区域内对应的权重,对所述损失函数进行调整的步骤,包括:
通过以下算式对所述损失函数进行调整:
CEL’=CEL*(1+W1+W2);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重;W2表示差异像素在人像边缘区域内对应的权重;
基于所述全局人像概率分布信息的权重对所述损失函数进行调整的步骤,包括:
通过以下算式对所述损失函数进行调整:
CEL’=CEL*(1+W1);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重。
8.根据权利要求1所述的方法,其特征在于,基于分割结果确定所述目标人像图片中的人像区域的步骤,包括:
对分割后的所述目标人像图片进行单连通域检测;
如果检测结果包括一个单连通域,则将所述单连通域作为所述目标人像图片的人像区域;
如果检测结果包括多个单连通域,则将多个单连通域中面积最大的区域作为所述目标人像图片的人像区域。
9.根据权利要求1所述的方法,其特征在于,基于分割结果确定所述目标人像图片的人像区域的步骤之后,还包括:
将所述人像区域之外的区域确定为所述目标人像图片的背景区域;
将所述背景区域中的像素值转换为预设的像素值。
10.根据权利要求2所述的方法,其特征在于,所述人像分割模型的训练方式还包括以预设属性为约束的训练;所述预设属性至少包括以下之一:人像方向、人像性别和头发长度属性;
所述人像分割模型的训练过程还包括:
获取所述人像图片样本集中每个所述人像样本图片的标签信息;所述标签信息至少包括以下之一:人像方向、人像性别和头发长度属性;
将包含所述标签信息的人像样本图片输入所述深度学习语义分割模型中进行多任务训练。
11.根据权利要求10所述的方法,其特征在于,获取所述人像图片样本集中每个所述人像样本图片的标签信息的步骤,包括:
逐一将每个所述人像样本图片作为所述当前人像样本图片;
将所述当前人像样本图片中的人像调整为正向人像;
对所述当前人像样本图片中的正向人像进行多个预设角度的旋转,得到每个所述预设角度对应的人像样本图片和包含有人像方向的标签信息。
12.根据权利要求10所述的方法,其特征在于,基于分割结果确定所述目标人像图片的人像区域的步骤之后,还包括:
从分割结果中提取所述目标人像图片对应的标签信息;
根据提取到的所述标签信息中的人像方向判断所述人像区域是否为正向;
如果否,将所述人像区域调整为正向。
13.根据权利要求1-12任一项所述的方法,其特征在于,所述方法还包括:
判断所述人像区域是否在所述目标人像图片的中心区域;
如果否,对所述人像区域进行居中处理。
14.根据权利要求13所述的方法,其特征在于,对所述人像区域进行居中处理的步骤,包括:
确定所述人像区域的人脸中心位置;
以所述人脸中心位置为所述目标人像图片的中心位置,扩展和/或裁剪所述目标人像图片,以使所述人像区域在所述目标人像图片的中心区域。
15.一种人像分割装置,其特征在于,包括:
图片获取模块,用于获取目标人像图片;
模型预测分割模块,用于将所述目标人像图片输入预设的人像分割模型;其中,所述人像分割模型的训练方式包括基于人像边缘信息和全局人像概率分布信息的约束训练;通过所述人像分割模型对所述目标人像图片进行像素级分割;
人像区域确定模块,用于基于分割结果确定所述目标人像图片中的人像区域。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:模型训练模块;
所述模型训练模块具体包括:
样本获取模块,用于获取人像图片样本集;其中,所述样本集中的每个人像样本图片均标注有像素标识;所述像素标识用于表征每个像素对应的人像区域标识或背景区域标识;
信息确定模块,用于根据每个人像样本图片标注的所述像素标识,确定每个人像样本图片对应的人像边缘信息及多个所述人像样本图片对应的全局人像概率分布信息;所述全局人像概率分布信息包括每个像素属于人像区域的概率值;
约束训练模块,用于应用所述人像图片样本集,并以所述全局人像概率分布信息和每个所述人像样本图片的人像边缘信息为约束条件,训练预设的深度学习语义分割初始模型,得到人像分割模型。
17.根据权利要求16所述的装置,其特征在于,所述信息确定模块,还用于:
逐一将每个所述人像样本图片作为当前人像样本图片;
基于当前人像样本图片的像素标识和边缘检测算子计算所述当前人像样本图片对应的人像边缘;
将所述当前人像样本图片对应的人像边缘向内扩展预设个数的像素,得到所述当前人像样本图片的人像边缘区域;
将所述人像边缘区域及所述人像边缘区域中每个像素对应的预设权重,作为所述当前人像样本图片对应的人像边缘信息。
18.根据权利要求16所述的装置,其特征在于,所述信息确定模块,还用于:
统计多个人像样本图片中每个相同像素位置对应的人像区域标识的数量;
将每个相同像素位置对应的人像区域标识的数量除以所述人像图片的数量,得到每个像素位置对应的概率值;
基于每个所述像素位置对应的概率值,得到多个所述人像图片对应的全局人像概率分布信息。
19.根据权利要求16所述的装置,其特征在于,所述约束训练模块,还用于:
从所述人像图片样本集中选取人像样本图片组;
将所述人像样本图片组输入所述深度学习语义分割初始模型进行预测,得到所述人像样本图片组中每个人像样本图片的预测结果;所述预测结果包括每个像素对应的像素预测标识;所述像素预测标识包括人像区域标识或背景区域标识;
对于每个所述人像样本图片,判断所述人像样本图片的预测结果中是否存在有与所述人像样本图片的像素标识不相同的像素预测标识;如果存在,将所述像素预测标识对应的像素作为差异像素;基于差异像素、所述人像样本图片的人像边缘信息及所述全局人像概率分布信息调整所述深度学习语义分割模型的损失函数;基于调整后的损失函数计算所述人像样本图片对应的损失值;
基于所述人像样本图片组中每个所述人像图片对应的损失值判断所述损失函数是否收敛;如果否,基于每个所述人像图片对应的损失值调整所述深度学习语义分割模型的参数继续训练;如果是,停止训练。
20.根据权利要求19所述的装置,其特征在于,所述约束训练模块,还用于:
从所述全局人像概率分布信息中查找所述差异像素对应的概率值,将所述差异像素对应的概率值作为全局人像概率分布信息的权重;
判断所述差异像素是否在所述人像样本图片对应的人像边缘信息的人像边缘区域内;
如果是,从所述人像边缘信息中查找到所述差异像素在人像边缘区域内对应的权重;基于所述全局人像概率分布信息的权重、所述差异像素在人像边缘区域内对应的权重,对所述损失函数进行调整;
如果否,则基于所述全局人像概率分布信息的权重对所述损失函数进行调整。
21.根据权利要求20所述的装置,其特征在于,所述损失函数为交叉熵损失函数;
所述约束训练模块,还用于:
通过以下算式对所述损失函数进行调整:
CEL’=CEL*(1+W1+W2);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重;W2表示差异像素在人像边缘区域内对应的权重;
基于所述全局人像概率分布信息的权重对所述损失函数进行调整的步骤,包括:
通过以下算式对所述损失函数进行调整:
CEL’=CEL*(1+W1);
其中,CEL’表示调整后的损失函数;CEL表示交叉熵损失函数;W1表示全局人像概率分布信息的权重。
22.根据权利要求15所述的装置,其特征在于,所述人像区域确定模块包括:
单连通域检测模块,用于对分割后的所述目标人像图片进行单连通域检测;如果检测结果包括一个单连通域,则将所述单连通域作为所述目标人像图片的人像区域;如果检测结果包括多个单连通域,则将多个单连通域中面积最大的区域作为所述目标人像图片的人像区域。
23.根据权利要求15所述的装置,其特征在于,所述装置还包括:
背景区域调整模块,用于将所述人像区域之外的区域确定为所述目标人像图片的背景区域;将所述背景区域中的像素值转换为预设的像素值。
24.根据权利要求16所述的装置,其特征在于,所述人像分割模型的训练方式还包括以预设属性为约束的训练;所述预设属性至少包括以下之一:人像方向、人像性别和头发长度属性;
所述模型训练模块还包括:
标签信息获取模块,用于获取所述人像图片样本集中每个所述人像样本图片的标签信息;所述标签信息至少包括以下之一:人像方向、人像性别和头发长度属性;
多任务训练模块,用于将包含所述标签信息的人像样本图片输入所述深度学习语义分割模型中进行多任务训练。
25.根据权利要求24所述的装置,其特征在于,所述标签信息获取模块,还用于:
逐一将每个所述人像样本图片作为所述当前人像样本图片;
将所述当前人像样本图片中的人像调整为正向人像;
对所述当前人像样本图片中的正向人像进行多个预设角度的旋转,得到每个所述预设角度对应的人像样本图片和包含有人像方向的标签信息。
26.根据权利要求24所述的装置,其特征在于,所述装置还包括:
人像区域调整模块,用于从分割结果中提取所述目标人像图片对应的标签信息;根据提取到的所述标签信息中的人像方向判断所述人像区域是否为正向;如果否,将所述人像区域调整为正向。
27.根据权利要求15-26任一项所述的装置,其特征在于,所述装置还包括:
居中处理模块,用于判断所述人像区域是否在所述目标人像图片的中心区域;如果否,对所述人像区域进行居中处理。
28.根据权利要求27所述的装置,其特征在于,所述居中处理模块,还用于:
确定所述人像区域的人脸中心位置;
以所述人脸中心位置为所述目标人像图片的中心位置,扩展和/或裁剪所述目标人像图片,以使所述人像区域在所述目标人像图片的中心区域。
29.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至14任一所述的人像分割方法的步骤。
30.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至14任一所述的人像分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910123239.0A CN111582278B (zh) | 2019-02-19 | 2019-02-19 | 人像分割方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910123239.0A CN111582278B (zh) | 2019-02-19 | 2019-02-19 | 人像分割方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111582278A true CN111582278A (zh) | 2020-08-25 |
CN111582278B CN111582278B (zh) | 2023-12-08 |
Family
ID=72112876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910123239.0A Active CN111582278B (zh) | 2019-02-19 | 2019-02-19 | 人像分割方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111582278B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255561A (zh) * | 2021-06-10 | 2021-08-13 | 平安科技(深圳)有限公司 | 头发信息识别方法、装置、设备及存储介质 |
CN114612971A (zh) * | 2022-03-04 | 2022-06-10 | 北京百度网讯科技有限公司 | 人脸检测方法、模型训练方法、电子设备及程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914856A (zh) * | 2014-04-14 | 2014-07-09 | 贵州电网公司输电运行检修分公司 | 一种基于熵值的运动目标检测方法 |
CN107945204A (zh) * | 2017-10-27 | 2018-04-20 | 西安电子科技大学 | 一种基于生成对抗网络的像素级人像抠图方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
EP3343504A1 (en) * | 2016-12-30 | 2018-07-04 | Dassault Systèmes | Producing a segmented image using markov random field optimization |
-
2019
- 2019-02-19 CN CN201910123239.0A patent/CN111582278B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914856A (zh) * | 2014-04-14 | 2014-07-09 | 贵州电网公司输电运行检修分公司 | 一种基于熵值的运动目标检测方法 |
EP3343504A1 (en) * | 2016-12-30 | 2018-07-04 | Dassault Systèmes | Producing a segmented image using markov random field optimization |
CN107945204A (zh) * | 2017-10-27 | 2018-04-20 | 西安电子科技大学 | 一种基于生成对抗网络的像素级人像抠图方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
Non-Patent Citations (1)
Title |
---|
刘德建: "基于图割的闪光夜景人像自动分割方法", 《科技创新导报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255561A (zh) * | 2021-06-10 | 2021-08-13 | 平安科技(深圳)有限公司 | 头发信息识别方法、装置、设备及存储介质 |
WO2022257456A1 (zh) * | 2021-06-10 | 2022-12-15 | 平安科技(深圳)有限公司 | 头发信息识别方法、装置、设备及存储介质 |
CN114612971A (zh) * | 2022-03-04 | 2022-06-10 | 北京百度网讯科技有限公司 | 人脸检测方法、模型训练方法、电子设备及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111582278B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111242097B (zh) | 一种人脸识别方法、装置、计算机可读介质及电子设备 | |
CN109753928B (zh) | 违章建筑物识别方法和装置 | |
WO2020207423A1 (zh) | 肤质检测方法、肤质等级分类方法及肤质检测装置 | |
CN109145759B (zh) | 车辆属性识别方法、装置、服务器及存储介质 | |
CN108269254B (zh) | 图像质量评估方法和装置 | |
EP3101594A1 (en) | Saliency information acquisition device and saliency information acquisition method | |
CN112949710B (zh) | 一种图像的聚类方法和装置 | |
CN107622274B (zh) | 用于图像处理的神经网络训练方法、装置以及计算机设备 | |
CN109948476B (zh) | 一种基于计算机视觉的人脸皮肤检测系统及其实现方法 | |
KR102002024B1 (ko) | 객체 라벨링 처리 방법 및 객체 관리 서버 | |
CN113674421B (zh) | 3d目标检测方法、模型训练方法、相关装置及电子设备 | |
JP2021532434A (ja) | 顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 | |
WO2022105019A1 (zh) | 一种车辆卡口设备抓拍质量评估方法、装置及可读介质 | |
US11023714B2 (en) | Suspiciousness degree estimation model generation device | |
CN113128481A (zh) | 一种人脸活体检测方法、装置、设备及存储介质 | |
CN114279433A (zh) | 地图数据自动化生产方法、相关装置及计算机程序产品 | |
CN112633221A (zh) | 一种人脸方向的检测方法及相关装置 | |
CN111563398A (zh) | 用于确定目标物的信息的方法和装置 | |
CN111582278B (zh) | 人像分割方法、装置及电子设备 | |
CN105246149B (zh) | 地理位置的识别方法和装置 | |
CN113743378B (zh) | 一种基于视频的火情监测方法和装置 | |
CN108197563B (zh) | 用于获取信息的方法及装置 | |
US9286707B1 (en) | Removing transient objects to synthesize an unobstructed image | |
EP4080479A2 (en) | Method for identifying traffic light, device, cloud control platform and vehicle-road coordination system | |
CN116052090A (zh) | 图像质量评估方法、模型训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |