CN112330696B - 人脸分割方法、装置及计算机可读存储介质 - Google Patents
人脸分割方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112330696B CN112330696B CN202011392990.XA CN202011392990A CN112330696B CN 112330696 B CN112330696 B CN 112330696B CN 202011392990 A CN202011392990 A CN 202011392990A CN 112330696 B CN112330696 B CN 112330696B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- output
- face
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种人脸分割方法、装置及计算机可读存储介质。其中,方法包括利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征。将各语义特征和各细节特征输入至预先构建的注意力网络模型得到输出特征图;注意力网络模型用于将各语义特征和各细节特征的输出通道数调整为相同值,基于空间注意力和通道注意力、按照特征所属网络层数由高到低,对输出通道数相同的每两个特征进行处理,以将语义特征融合至细节特征中。对输出特征图进行预测处理得到人脸分割结果,从而可有效解决人脸图像中弧度较大的边缘分割精度不高的问题,显著提高人脸分割精度。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种人脸分割方法、装置及计算机可读存储介质。
背景技术
通俗来讲,人脸分割就是将一张图像中的人脸部分精确分割出来,专门将人脸部分抠图出来,对于不同发型等对人脸造成不同的遮挡情况,也能精确的分割。目前有很多基础方法可以应用于人脸识别、换脸、人脸修图等任务中来实现人脸分割的功能,人脸分割算法是很多任务的基础算法,可以应用到人脸识别、换脸、人脸修图等任务中。在众多方法中,深度学习方法由于其独特的优势而被广泛应用在人脸分割中。
对于现有的人脸分割方法来讲,可以理解的是,由于人脸发型的不同、服饰的不同、拍摄时角度光线的不同均会对人脸造成不同的遮挡,给人脸分割带来难度,尤其是在弧度较大的边缘分割不精确。例如对于人脸的发际线弧度来说,发际线的曲线弧度平缓比较好分割,曲线弧度较大时就无法精确分割,而且齐刘海和斜刘海对人脸会造成不同的遮挡不同。
发明内容
本申请提供了一种人脸分割方法、装置及计算机可读存储介质,解决了人脸图像中弧度较大的边缘分割精度不高的问题,有效提高人脸分割精度。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种人脸分割方法,包括:
利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征;
将各语义特征和各细节特征输入至预先构建的注意力网络模型,得到输出特征图;所述注意力网络模型用于将各语义特征和各细节特征的输出通道数调整为相同值,基于空间注意力和通道注意力、按照特征所属网络层数由高到低对输出通道数相同的每两个特征进行处理,以将各语义特征融合至各细节特征中;
对所述输出特征图进行预测处理,得到人脸分割结果。
可选的,所述将各语义特征和各细节特征的输出通道数调整为相同值包括:
利用第一预设尺寸卷积将各语义特征和各细节特征的输出通道数调整为相同值,得到各特征对应的初始特征图;
利用最邻近插值操作增大各初始特征图的图像尺寸。
可选的,所述将各语义特征和各细节特征的输出通道数调整为相同值包括:
利用第二预设尺寸卷积将各细节特征的输出通道数调整为相同值,得到各细节特征对应的初始特征图;
基于各输出通道的权重值将各语义特征的输出通道数调整为相同值。
可选的,所述对所述输出特征图进行预测处理,得到人脸分割结果包括:
基于所述框体截取特征区域方法,利用一次调整框截取所述输出特征图,预测所述输出特征图的分类和二次调整框;
基于所述框体截取特征区域方法,利用所述二次调整框截取所述输出特征图,预测三次调整框;
基于所述框体截取特征区域方法,利用所述三次调整框截取所述输出特征图,预测人脸分割并得到人脸分割结果。
可选的,所述基于所述框体截取特征区域方法,利用所述三次调整框截取所述输出特征图包括:
分别对所述三次调整框的4条边框向目标极值点的调整值进行预测。
可选的,所述基于空间注意力和通道注意力、按照特征所属网络层数由高到低,对输出通道数相同的每两个特征进行处理,以将各语义特征融合至细节特征中之后,还包括:
利用第二预设尺寸卷积对处理后的特征图进行处理。
可选的,所述利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征之前,还包括:
将所述待处理人脸图像的图像尺寸进行缩放处理。
本发明实施例另一方面提供了一种人脸分割装置,包括:
特征提取模块,用于利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征;
特征处理模块,用于将各语义特征和各细节特征输入至预先构建的注意力网络模型,得到输出特征图;所述注意力网络模型用于将各语义特征和各细节特征的输出通道数调整为相同值,基于空间注意力和通道注意力、按照特征所属网络层数由高到低对输出通道数相同的每两个特征进行处理,以将各语义特征融合至各细节特征中;
人脸分割模块,用于对所述输出特征图进行预测处理,得到人脸分割结果。
本发明实施例还提供了一种人脸分割装置,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述人脸分割方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有人脸分割程序,所述人脸分割程序被处理器执行时实现如前任一项所述人脸分割方法的步骤。
本申请提供的技术方案的优点在于,为了使不同层的特征能够进行逐像素的相加,可将待处理人脸图像的语义特征和细节特征的通道数调整到相同;因为简单的相邻像素复制操作生成的特征图在边界定位信息上是粗糙的,并且网络深层所有通道特征并不同等有利于浅层特征,基于空间注意力和通道注意力结合的整体注意力网络模型有侧重的将网络深层特征融入浅层特征,使浅层特征保持精确定位信息优势的同时,获得语义信息的补充,这样在进行人脸分割之前得到的边缘图像特征是非常精细准确的,利用准确、精细的图像特征进行后续人脸分割可提高边缘识别精度,从而解决现有技术中人脸图像中弧度较大的边缘分割精度不高的问题,可有效提高人脸分割准确度。
此外,本发明实施例还针对人脸分割方法提供了相应的实现装置及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种人脸分割方法的流程示意图;
图2为本发明实施例提供的一种输出通道数调整方法的流程示意图;
图3为本发明实施例提供的另一种输出通道数调整方法的流程示意图;
图4为本发明实施例提供的一种利用注意力网络模型进行数据处理的流程示意图;
图5为本发明实施例提供的另一种利用注意力网络模型进行数据处理的流程示意图;
图6为本发明实施例提供的一种利用三次调整框截取输出特征图的流程示意图;
图7为本发明实施例提供的一个示意性例子中的人脸分割方法的流程示意图;
图8为本发明实施例提供的人脸分割装置的一种具体实施方式结构图;
图9为本发明实施例提供的人脸分割装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种人脸分割方法的流程示意图,本发明实施例可包括以下内容:
S101:利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征。
本申请是用于解决相关技术中边缘切割不准确的问题,此处的特征提取网络可为所要解决的现有技术中所采用的特征提取网络也可为任何一种可实现将从人脸图像中提取人脸图像特征的现有网络。举例来说,若本申请解决利用Mask R-CNN进行人脸分割精度不高的现状,而若Mask R-CNN中利用resnet网络提取输入人脸图像的特征,则本步骤中的特征提取网络可为resnet网络。待处理人脸图像即为要进行人脸分割的原始图像,语义特征也即为利用特征提取网络提取待处理人脸图像的深层特征,细节特征也即为利用特征提取网络提取待处理人脸图像的浅层特征。
S102:将各语义特征和各细节特征输入至预先构建的注意力网络模型,得到输出特征图。
本步骤的注意力网络模型可用于将各语义特征和各细节特征的输出通道数调整为相同值,然后再基于空间注意力和通道注意力、按照特征所属网络层数由高到低对输出通道数相同的每两个特征进行处理,以将各语义特征融合至各细节特征中。也就是说,注意力网络模型具有两个功能,一个功能是为了使得不同层的特征能够进行逐像素的相加,将不同层的特征的输出通道数调整为相同数值,第二个功能为将空间注意力和通道注意力整合起来对特征进行处理,从而将深层特征融合至浅层特征中,使浅层特征保持精确定位信息优势的同时,获得语义信息的补充。
S103:对输出特征图进行预测处理,得到人脸分割信息。
本步骤可采用任何一种实现框体截取特征区域的方法和图像特征处理算法对S102得到的输出特征图进行处理,便可得到S101步骤中的人脸分割结果。实现框体截取特征区域的方法例如可为Mask R-CNN中所采用的RoIAlign方法,图像特征处理算法可为任何一种可实现特征识别的机器学习算法。
在本发明实施例提供的技术方案中,为了使不同层的特征能够进行逐像素的相加,可将待处理人脸图像的语义特征和细节特征的通道数调整到相同;因为简单的相邻像素复制操作生成的特征图在边界定位信息上是粗糙的,并且网络深层所有通道特征并不同等有利于浅层特征,基于空间注意力和通道注意力结合的整体注意力网络模型有侧重的将网络深层特征融入浅层特征,使浅层特征保持精确定位信息优势的同时,获得语义信息的补充,这样在进行人脸分割之前得到的边缘图像特征是非常精细准确的,利用准确、精细的图像特征进行后续人脸分割可提高边缘识别精度,从而解决现有技术中人脸图像中弧度较大的边缘分割精度不高的问题,可有效提高人脸分割准确度。
需要说明的是,本申请中各步骤之间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1只是一种示意方式,并不代表只能是这样的执行顺序。
可选的,为了进一步提高图像质量,在基于空间注意力和通道注意力、按照特征所属网络层数由高到低,对输出通道数相同的每两个特征进行处理,以将各语义特征融合至细节特征中之后,还可包括:利用第二预设尺寸卷积对处理后的特征图进行处理。
通过对输出特征图进行卷积操作,可将特征融合,消除特征图中的重影,提高图像质量。
为了提高整个人脸分割效率,在利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征之前,还可先将待处理人脸图像的图像尺寸进行缩放处理。缩放尺寸可根据实际需求进行选择,本申请对此不做任何限定。
在上述实施例中,对于如何执行步骤S102并不做限定,本实施例中给出一种可选的实施方式,包括如下步骤:
本实施例对于将各语义特征和各细节特征的输出通道数调整为相同值这个过程,提供两种实现方式,一种是直接通过卷积处理,另外一种是基于各输出通道的权重值进行处理,可包括如下内容:
作为本实施例的一种可选的实施方式,可先利用第一预设尺寸卷积将各语义特征和各细节特征的输出通道数调整为相同值,得到各特征对应的初始特征图;然后在利用最邻近插值操作增大各初始特征图的图像尺寸。
结合图2,举例来说,在Mask R-CNN中,FPN(Region Proposal Network,区域生成网络)可自上而下的结构能够将网络深层信息带到浅层,带来的好处是能够有效提升目标检测的效果,尤其是可以使小面积目标得到检测。在这个过程中为了使不同层的特征能够进行逐像素的相加,例如可采用1×1的卷积将每一层的通道数调整到相同,利用最邻近插值操作调整特征图尺寸,特征图尺寸放大倍数可过程如图2所示,其中Cn为S101步骤中特征提取网络提取的输出特征,Conv1×1代表1×1的卷积,256代表通道数,×2代表用最邻近插值的方法放大一倍特征图,Conv3×3代表3×3卷积,Pn为FPN的输出特征,1/2代表2倍下采样。
作为本实施例的另一种可选的实施方式,与上述实施例并列,可先利用第二预设尺寸卷积将各细节特征的输出通道数调整为相同值,得到各细节特征对应的初始特征图;然后基于各输出通道的权重值将各语义特征的输出通道数调整为相同值。
可以理解的是,上述实施例中采用1×1的卷积操作类似于通道维度的平均操作,这种方法不利于充分利用有利的通道特征。此外,使用最邻近插值方法放大深层特征,再把放大的特征加到浅层,带给浅层网络丰富的语义信息的同时,也会给浅层特征中的定位信息带入误差。结合图3,举例来说,对于resnet-101的深层特征,resnet的C4、C5层的输出通道数分别是1024、2048,通过1×1的卷积降维到256个通道,信息的损失是很大的,因此对于C4、C5层特征可采用本实施例提供的方法进行,为了便于描述,可将基于各输出通道的权重值将各语义特征的输出通道数调整为相同值的过程封装为一个功能模块,该功能模块可称为attention-A,利用attention-A替换普通的1×1的卷积来弱化平均操作对细节特征造成的不利影响,attention-A模块的结构可图3所示,基于各输出通道的权重值将各语义特征的输出通道数调整为相同值的具体过程可为:先对输入特征分别做全局平均池化Ave和全局最大池化Max,拼接两种池化的结果Concat,对拼接后的结果进行一层全连接Dense降维操作到128通道,并同时进行relu激活,再一层全连接Dense调整到与输入特征通道相同,同时进行sigmoid激活,得到各通道的权重。将各通道的权重值与输入特征对应通道相乘,再与输入特征相加。经过attention-A,有利的通道特征获得更大的权重,特征得到了增强,有利于进一步提高边缘图像特征的质量。
本实施例还对于将空间注意力和通道注意力整合起来对特征进行处理这个过程提供了一种可选的实施方式,可包括如下内容:为了便于描述,可将实现将空间注意力和通道注意力整合起来对特征进行处理的过程封装为一个功能模块,该功能模块可称为attention-B。结合如图4及图5,基于通道注意力机制和空间注意力机制为每个通道特征生成各自不同的注意力。对于输入特征Input,各并列的分支分别做上采样操作放大一倍尺寸即如图所示的up×2操作、全局平均池化操作Ave和全局最大池化操作Max。用上采样操作的结果做空间注意力模块的输入,先进行一层Depthwise3×3卷积操作和relu激活,再进行一层Depthwise3×3卷积操作和sigmoid激活,得到对应每个通道各自的空间注意力。全局平均池化操作和全局最大池化操作的结果用于获得通道注意力,过程与模块attention-A近似,拼接两种池化的结果Concat,一层全连接层Dense降维到128通道并同时进行relu激活,一层全连接层Dense恢复维度到256通道并同时进行sigmoid激活。将空间注意力模块的输出与通道注意力模块的输出相乘,得到上采样特征整体的注意力,与放大的2h×2w通道数256的特征相乘。再将相乘的结果与放大特征相加,得到经注意力机制引导的深层特征,加到浅层特征中。需要强调的是,并列的分支总数与S101提取的特征总数相关,attention-B是将每两个特征作为一组特征输入然后并输出一组特征,这可作为一个分支。且attention-B按照深层特征到浅层特征这个顺序处理这些特征,举例来说,若提取的特征从浅到深依次包括C2、C3、C4和C5,那么attention-B处理每两个特征的顺序为:第一组特征为C4和C5,C4和C5经attention-B处理后得到p4特征;第二组特征为p4和C3,C3和p4经attention-B处理后得到p3特征;第三组特征为C2和p3,C2和p3经attention-B处理后得到p2特征,依次类推。为了消除特征之间的重影,提高图像质量,还可对attention-B每组输出特征进行3*3卷积操作。
与现有注意力机制不同的是,本实施例结合通道注意力和空间注意力的整体注意力来处理图像特征,而已有的技术是通过结合特征获得整体注意力的。
现有的实例分割方法如Mask R-CNN,虽然可以用人脸数据集训练,得到人脸分割模型,但是边界分割不够精确。得益于FPN从网络深层带给网络浅层的语义信息,图像中的小人脸能够得到检测并且正确分类,但分割的效果并不好。原因是面积小的人脸是在网络浅层截取特征的,网络浅层的特征叠加深层特征,补充语义信息,但带给定位信息误差,产生了不准确的分割结果。因此在网络深层特征到浅层特征的融合过程中,加入attention-A和attention-B,深层特征经过注意力机制的引导,能够提取更有利的信息融合到浅层特征中,特征更有利于人脸分割。
可以理解的是,相关技术通过实例分割方法进行人脸分割,实例分割是指将一张图像中独立的物体都分割出来,根据训练集包含的种类可以实现多种物体的分割。现有的实例分割方法可以迁移到人脸分割任务中实现人脸分割,通过人脸数据集对模型进行训练,得到人脸分割模型,但分割并不准确。以实例分割方案Mask R-CNN为例来说,该方法整体步骤为:先对一张图中的物体进行目标检测,即用框体把每个物体框出来然后对框中的图像区域进行分割。详细计算流程为:图片经过resnet网络提取特征,提取的深层特征经过FPN融合到浅层,特征经过RPN网络得到物体检测框,并做第一次框体调整,用一次调整后的框体截取FPN的输出特征,然后预测框体类别,并做第二次框体调整再用二次调整后的框体截取FPN输出特征,预测分割结果。
这种基于检测的人脸分割方法先将一张包含人脸的图像中的人脸检测出来,然后用检测框标记人脸在图中的位置,最后对检测区域进行分割。检测结果的准确度就会直接影响分割效果,如果预测的检测框位置不准确,比如说只框住了半张脸,是无法正确分割人脸的。也即人脸检测阶段的检测结果不够准确会直接影响最后的分割效果。为了解决这一技术问题,本申请针对上述实施例的S103步骤进行进一步优化,可包括下述步骤:
基于框体截取特征区域方法,利用一次调整框截取输出特征图,预测输出特征图的分类和二次调整框。
基于框体截取特征区域方法,利用二次调整框截取输出特征图,预测三次调整框。
基于框体截取特征区域方法,利用三次调整框截取输出特征图,预测人脸分割并得到人脸分割结果。
其中,基于框体截取特征区域方法,利用三次调整框截取输出特征图的过程为分别对三次调整框的4条边框向目标极值点的调整值进行预测。结合见图6,以一个示意性例子阐述该步骤的实施过程:
可用第二次调整的框体截取到的7×7×256的特征,分别进行不做边界填充的7×7卷积操作、全局平局池化Ave和全局最大池化Max操作,拼接两种池化的结果,输出维度为1×1×512,一层1×1的卷积Conv1×1,同时进行relu激活;一层1×1的卷积Conv1×1,同时进行sigmoid激活获得通道感知。得到的通道感知与7×7的卷积结果相乘,加入7×7的结果分支。图中,h×w为特征图的高宽,256是通道数,rois是第二次调整得到的框体,RoIAlign为所采用的框体截取特征区域方法,BN是一种训练优化方法,num_c=2。
现有技术中先对框体的中心位置进行调整,再调整框体的边框位置,这种方式存在的问题是,在对宽高调整时,上下边框调整相同的数值,左右边框也调整相同的数值,调整结果并不准确。因此本实施例提出第三次框体调整方法,对框体4条边框分别调整,提高人脸检测的准确度,进而提高人脸分割的精确度。
为了使所属领域技术人员更加清楚明白本申请的技术方案,结合图7所示,本申请还提供了一个示意性的例子,人脸分割整体流程可为:
步骤1:获取待处理人脸图像也即原始图像或简称为原图,先将待处理人脸图像缩放到1024×1024大小,得到1024×1024大小通道数为3的缩放图像。
步骤2:缩放图像经过resnet网络提取特征,得到特征C1-C5。
步骤3:resnet输出的特征输入注意力网络模型Attention-FPN中。为了提高整个人脸分割效率,降低后续数据处理量和数据存储量,不对C1特征进行处理。C4、C5特征经过attention-A模块调整通道数量,C2、C3经过1×1卷积调整通道数量。深层特征经过attention-B模块计算,与浅层特征相加,得到p2-p5,在经过3×3卷积计算得到P2-P5,P6由P5特征2倍下采样计算得到。
步骤4:注意力网络模型Attention-FPN输出的特征输入RPN,预测第一次调整框。
步骤5:用一次调整框截取RoIAlign的Attention-FPN的输出特征图,预测分类和二次调整框。
步骤6:用二次调整框截取RoIAlign的Attention-FPN的输出特征图,预测三次调整框。
步骤7:用三次调整框截取RoIAlign的Attention-FPN的输出特征图,预测人脸分割。
综上,本实施例对于C4、C5层深层特征,先通过通道注意力机制获得通道权值,给予各通道不同的权重,再做1×1的卷积进行降维,可弱化平均操作对细节特征造成的不利影响。引入注意力机制,提出基于空间注意力和通道注意力结合的整体注意力模块attention-B,有侧重的将网络深层特征融入浅层特征,使浅层特征保持精确定位信息优势的同时,获得语义信息的补充。在分割任务中,检测阶段至关重要,准确的检测是精确分割的基础,通常将检测框紧贴实例的边界定义为好的检测结果。原有的检测采用两次相同的框体调整方法,先对框体的中心位置进行调整,再调整框体的宽高。这样的方法带来不错的效果,但存在的问题是,在中心位置没有得到准确调整时,再进行宽高调整并不能准确的框住目标。很有可能只能满足一个方向上的检测,这是因为这种方法对边框的上下/左右边界做的是相等的调整。因此提出第三次框体调整方法,能够提高人脸检测准确度,进而提高人脸分割的精确度。
本发明实施例还针对人脸分割方法提供了相应的装置,进一步使得所述方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的人脸分割装置进行介绍,下文描述的人脸分割装置与上文描述的人脸分割方法可相互对应参照。
基于功能模块的角度,参见图8,图8为本发明实施例提供的人脸分割装置在一种具体实施方式下的结构图,该装置可包括:
特征提取模块801,用于利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征。
特征处理模块802,用于将各语义特征和各细节特征输入至预先构建的注意力网络模型,得到输出特征图。注意力网络模型用于将各语义特征和各细节特征的输出通道数调整为相同值,基于空间注意力和通道注意力、按照特征所属网络层数由高到低对输出通道数相同的每两个特征进行处理,以将各语义特征融合至各细节特征中。
人脸分割模块803,用于对输出特征图进行预测处理,得到人脸分割信息。
可选的,在本实施例的一些实施方式中,上述特征处理模块802包括用于将各语义特征和各细节特征的输出通道数调整为相同值的子模块,该子模块可包括:
通道数调整单元,用于利用第一预设尺寸卷积将各语义特征和各细节特征的输出通道数调整为相同值,得到各特征对应的初始特征图;
图像放大单元,用于利用最邻近插值操作增大各初始特征图的图像尺寸。
作为另外一种可选的实施方式,上述特征处理模块802的通道数调整单元还可用于:
利用第二预设尺寸卷积将各细节特征的输出通道数调整为相同值,得到各细节特征对应的初始特征图;基于各输出通道的权重值将各语义特征的输出通道数调整为相同值。
作为本申请一种可选的实施方式,上述特征处理模块802中还可包括图像特征融合子模块,该模块在基于空间注意力和通道注意力、按照特征所属网络层数由高到低,对输出通道数相同的每两个特征进行处理,以将各语义特征融合至细节特征中之后,利用第二预设尺寸卷积对处理后的特征图进行处理。
作为本申请另一种可选的实施方式,上述装置例如还可包括图像缩放模块,图像缩放模块用于在利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征之前,将获取的待处理人脸图像的图像尺寸进行缩放处理。
可选的,在本实施例的另一些实施方式中,上述人脸分割模块803可包括:
初预测处理子模块,用于基于框体截取特征区域方法,利用一次调整框截取输出特征图,预测输出特征图的分类和二次调整框;
再预测处理子模块,用于基于框体截取特征区域方法,利用二次调整框截取输出特征图,预测三次调整框;
人脸分割结果获取子模块,用于基于框体截取特征区域方法,利用三次调整框截取输出特征图,预测人脸分割并得到人脸分割结果。
作为本实施例的一种可选的实施方式,人脸分割结果获取子模块进一步用于分别对三次调整框的4条边框向目标极值点的调整值进行预测。
本发明实施例所述人脸分割装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了人脸图像中弧度较大的边缘分割精度不高的问题,有效提高人脸分割精度。
上文中提到的人脸分割装置是从功能模块的角度描述,进一步的,本申请还提供一种人脸分割装置,是从硬件角度描述。图9为本申请实施例提供的另一种人脸分割装置的结构图。如图9所示,该装置包括存储器90,用于存储计算机程序;处理器91,用于执行计算机程序时实现如上述任一实施例提到的人脸分割方法的步骤。
其中,处理器91可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器91可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器91也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器91可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器91还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器90可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器90还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器90至少用于存储以下计算机程序901,其中,该计算机程序被处理器91加载并执行之后,能够实现前述任一实施例公开的人脸分割方法的相关步骤。另外,存储器90所存储的资源还可以包括操作系统902和数据903等,存储方式可以是短暂存储或者永久存储。其中,操作系统902可以包括Windows、Unix、Linux等。数据903可以包括但不限于人脸分割结果对应的数据等。
在一些实施例中,人脸分割装置还可包括有显示屏92、输入输出接口93、通信接口94、电源95以及通信总线96。
本领域技术人员可以理解,图9中示出的结构并不构成对人脸分割装置的限定,可以包括比图示更多或更少的组件,例如还可包括传感器97。
本发明实施例所述人脸分割装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了人脸图像中弧度较大的边缘分割精度不高的问题,有效提高人脸分割精度。
可以理解的是,如果上述实施例中的人脸分割方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,存储有人脸分割程序,所述人脸分割程序被处理器执行时如上任意一实施例所述人脸分割方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了人脸图像中弧度较大的边缘分割精度不高的问题,有效提高人脸分割精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种人脸分割方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (9)
1.一种人脸分割方法,其特征在于,包括:
利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征;
将各语义特征和各细节特征输入至预先构建的注意力网络模型,得到输出特征图;所述注意力网络模型用于将各语义特征和各细节特征的输出通道数调整为相同值,基于空间注意力和通道注意力、按照特征所属网络层数由高到低对输出通道数相同的每两个特征进行处理,以将各语义特征融合至各细节特征中;
对所述输出特征图进行预测处理,得到人脸分割结果,具体包括:
基于框体截取特征区域方法,利用一次调整框截取所述输出特征图,预测所述输出特征图的分类和二次调整框;
基于所述框体截取特征区域方法,利用所述二次调整框截取所述输出特征图,预测三次调整框;
基于所述框体截取特征区域方法,利用所述三次调整框截取所述输出特征图,预测人脸分割并得到所述人脸分割结果。
2.根据权利要求1所述的人脸分割方法,其特征在于,所述将各语义特征和各细节特征的输出通道数调整为相同值包括:
利用第一预设尺寸卷积将各语义特征和各细节特征的输出通道数调整为相同值,得到各特征对应的初始特征图;
利用最邻近插值操作增大各初始特征图的图像尺寸。
3.根据权利要求1所述的人脸分割方法,其特征在于,所述将各语义特征和各细节特征的输出通道数调整为相同值包括:
利用第二预设尺寸卷积将各细节特征的输出通道数调整为相同值,得到各细节特征对应的初始特征图;
基于各输出通道的权重值将各语义特征的输出通道数调整为相同值。
4.根据权利要求1所述的人脸分割方法,其特征在于,所述基于所述框体截取特征区域方法,利用所述三次调整框截取所述输出特征图包括:
分别对所述三次调整框的4条边框向目标极值点的调整值进行预测。
5.根据权利要求4所述的人脸分割方法,其特征在于,所述基于空间注意力和通道注意力、按照特征所属网络层数由高到低,对输出通道数相同的每两个特征进行处理,以将各语义特征融合至细节特征中之后,还包括:
利用第二预设尺寸卷积对处理后的特征图进行处理。
6.根据权利要求5所述的人脸分割方法,其特征在于,所述利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征之前,还包括:
将所述待处理人脸图像的图像尺寸进行缩放处理。
7.一种人脸分割装置,其特征在于,包括:
特征提取模块,用于利用特征提取网络提取待处理人脸图像的多个语义特征和多个细节特征;
特征处理模块,用于将各语义特征和各细节特征输入至预先构建的注意力网络模型,得到输出特征图;所述注意力网络模型用于将各语义特征和各细节特征的输出通道数调整为相同值,基于空间注意力和通道注意力、按照特征所属网络层数由高到低对输出通道数相同的每两个特征进行处理,以将各语义特征融合至各细节特征中;
人脸分割模块,用于对所述输出特征图进行预测处理,得到人脸分割结果,具体包括:
基于框体截取特征区域方法,利用一次调整框截取所述输出特征图,预测所述输出特征图的分类和二次调整框;
基于所述框体截取特征区域方法,利用所述二次调整框截取所述输出特征图,预测三次调整框;
基于所述框体截取特征区域方法,利用所述三次调整框截取所述输出特征图,预测人脸分割并得到所述人脸分割结果。
8.一种人脸分割装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6任一项所述人脸分割方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有人脸分割程序,所述人脸分割程序被处理器执行时实现如权利要求1至6任一项所述人脸分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011392990.XA CN112330696B (zh) | 2020-12-02 | 2020-12-02 | 人脸分割方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011392990.XA CN112330696B (zh) | 2020-12-02 | 2020-12-02 | 人脸分割方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112330696A CN112330696A (zh) | 2021-02-05 |
CN112330696B true CN112330696B (zh) | 2022-08-09 |
Family
ID=74301384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011392990.XA Active CN112330696B (zh) | 2020-12-02 | 2020-12-02 | 人脸分割方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330696B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907750A (zh) * | 2021-03-05 | 2021-06-04 | 齐鲁工业大学 | 一种基于卷积神经网络的室内场景布局估计方法及系统 |
CN112819841B (zh) * | 2021-03-19 | 2021-09-28 | 广东众聚人工智能科技有限公司 | 人脸区域分割方法、装置、计算机设备及存储介质 |
CN113239954B (zh) * | 2021-04-01 | 2022-10-25 | 河海大学 | 基于注意力机制的图像语义分割特征融合方法 |
CN113239784B (zh) * | 2021-05-11 | 2022-09-30 | 广西科学院 | 一种基于空间序列特征学习的行人重识别系统及方法 |
CN113379773B (zh) * | 2021-05-28 | 2023-04-28 | 陕西大智慧医疗科技股份有限公司 | 基于双重注意力机制的分割模型建立、分割方法及装置 |
KR102616980B1 (ko) * | 2022-03-31 | 2023-12-28 | 가천대학교 산학협력단 | 사용자 얼굴 형태 기반 헤어스타일 추천 장치 및 방법 |
CN114511636B (zh) * | 2022-04-20 | 2022-07-12 | 科大天工智能装备技术(天津)有限公司 | 一种基于双滤注意力模块的果实计数方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876793A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和系统及存储介质 |
CN108985181A (zh) * | 2018-06-22 | 2018-12-11 | 华中科技大学 | 一种基于检测分割的端对端人脸标注方法 |
CN111310732A (zh) * | 2020-03-19 | 2020-06-19 | 广东宜教通教育有限公司 | 高精度人脸认证方法、系统、计算机设备及存储介质 |
CN111401293A (zh) * | 2020-03-25 | 2020-07-10 | 东华大学 | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532955B (zh) * | 2019-08-30 | 2022-03-08 | 中国科学院宁波材料技术与工程研究所 | 基于特征注意力和子上采样的实例分割方法和装置 |
CN111783779B (zh) * | 2019-09-17 | 2023-12-05 | 北京沃东天骏信息技术有限公司 | 图像处理方法、装置和计算机可读存储介质 |
CN111178183B (zh) * | 2019-12-16 | 2023-05-23 | 深圳市华尊科技股份有限公司 | 人脸检测方法及相关装置 |
-
2020
- 2020-12-02 CN CN202011392990.XA patent/CN112330696B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876793A (zh) * | 2018-04-13 | 2018-11-23 | 北京迈格威科技有限公司 | 语义分割方法、装置和系统及存储介质 |
CN108985181A (zh) * | 2018-06-22 | 2018-12-11 | 华中科技大学 | 一种基于检测分割的端对端人脸标注方法 |
CN111310732A (zh) * | 2020-03-19 | 2020-06-19 | 广东宜教通教育有限公司 | 高精度人脸认证方法、系统、计算机设备及存储介质 |
CN111401293A (zh) * | 2020-03-25 | 2020-07-10 | 东华大学 | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112330696A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330696B (zh) | 人脸分割方法、装置及计算机可读存储介质 | |
CN109493350B (zh) | 人像分割方法及装置 | |
US11430205B2 (en) | Method and apparatus for detecting salient object in image | |
CN111507994B (zh) | 一种人像提取方法、人像提取装置及移动终端 | |
EP2706507B1 (en) | Method and apparatus for generating morphing animation | |
CN112016614B (zh) | 光学图像目标检测模型的构建方法、目标检测方法及装置 | |
US8290300B2 (en) | Seam-based reduction and expansion of images with color-weighted priority | |
CN107507217B (zh) | 证件照的制作方法、装置及存储介质 | |
US9076234B2 (en) | Super-resolution method and apparatus for video image | |
CN110610526B (zh) | 一种基于wnet对单目人像进行分割和景深渲染的方法 | |
CN103839223A (zh) | 图像处理方法及装置 | |
CN111524145A (zh) | 图片智能裁剪方法、系统、计算机设备及存储介质 | |
CN111489322B (zh) | 给静态图片加天空滤镜的方法及装置 | |
CN110163866A (zh) | 一种图像处理方法、电子设备及计算机可读存储介质 | |
CN114565508B (zh) | 虚拟换装方法及装置 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
CN113689436A (zh) | 图像语义分割方法、装置、设备及存储介质 | |
Luo et al. | Multi-operator image retargeting with automatic integration of direct and indirect seam carving | |
CN111597845A (zh) | 一种二维码检测方法、装置、设备及可读存储介质 | |
CN115270184A (zh) | 视频脱敏、车辆的视频脱敏方法、车载处理系统 | |
CN111860208A (zh) | 基于超像素的遥感影像地物分类方法、系统、装置及介质 | |
CN115294055A (zh) | 图像处理方法、装置、电子设备和可读存储介质 | |
CN113536971B (zh) | 一种基于增量学习的目标检测方法 | |
CN113870196A (zh) | 一种基于锚点切图的图像处理方法、装置、设备和介质 | |
CN114266901A (zh) | 文档轮廓提取模型构建方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |