CN108614994A

CN108614994A - 一种基于深度学习的人头部图像提取方法和装置

Info

Publication number: CN108614994A
Application number: CN201810255773.2A
Authority: CN
Inventors: 叶小凤; 谷也; 盛卫华
Original assignee: Shenzhen Intelligent Robot Research Institute
Current assignee: Shenzhen Intelligent Robot Research Institute
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2018-10-02

Abstract

本发明公开了一种基于深度学习的人头部图像提取方法和装置。所述方法包括将包含人像的待提取图片输入到经过预先训练的YOLO神经网络进行处理和输出头部区域图像，将头部区域图像输入到经过训练的HED神经网络进行处理和输出头部边缘轮廓图像，将头部区域图像作为内容图像、头部边缘轮廓图像作为风格图像输入到艺术风格迁移神经网络进行处理，从而输出合成图像等步骤；所述装置包括存储器和处理器。本发明能够从头部区域图像中提取出头部边缘轮廓图像，并将头部边缘轮廓图像的风格迁移到头部区域图像中，实现头部边缘轮廓、五官和头发等细节的融合，使得合成图像具有丰富的面部特征和清晰的边缘轮廓。本发明应用于图像识别处理技术领域。

Description

一种基于深度学习的人头部图像提取方法和装置

技术领域

本发明涉及图像识别处理技术领域，尤其是一种基于深度学习的人头部图像提取方法和装置。

背景技术

术语解释：

YOLO：You Only Look Once，是一种基于深度学习的目标检测方法，其可以用于训练神经网络，经过YOLO训练的神经网络可以用于解决目标区域预测和类别预测的回归问题，其优点是可以同时保证较高的检测速度和准确率；

HED：Holistically-nested Edge Detection，整体嵌入边缘检测，是一种深度神经网络模型，其用于图像边缘轮廓检测时，输入对象为图片，输出对象为图片中主要形状的边缘轮廓图像。

随着机器人技术的发展，机器人越来越广泛地应用于各个领域。机器人的其中一种应用是肖像机器人，其可以对包含人像的图片进行检测，从整幅图片中提取出仅包含头部图像的区域，然后从这个区域内的图像中提取出头部图像的主要特征，包括图像中头部的边缘轮廓等，根据这些主要特征，驱动画笔等机构进行头像的绘制。肖像机器人可以用于艺术创作，而其效果除了与画笔驱动质量有关外，主要取决于对头部图像的识别、检测和提取的质量。

现有的肖像机器人主要使用基于Haar特征的人脸检测技术进行头部图像所在区域的识别，然后使用Canny边缘检测、全局二值化和局部二值化等方法来进行边缘轮廓的提取。这些现有的检测方法需要人工参与调整检测结果，而且过于关注头部图像的面部细节，容易造成识别结果中面部边缘断裂，这影响了肖像机器人的画像效果。

发明内容

为了解决上述技术问题，本发明的第一目的在于提供一种基于深度学习的人头部图像提取方法，第二目的在于提供一种基于深度学习的人头部图像提取装置。

本发明所采取的第一技术方案是：

一种基于深度学习的人头部图像提取方法，包括以下步骤：

S1.将包含人像的待提取图片输入到经过预先训练的YOLO神经网络进行处理，从而输出头部区域图像，所述头部区域图像为待提取图片的一部分且包含所述人像的头像；

S2.将头部区域图像输入到经过训练的HED神经网络进行处理，从而输出头部边缘轮廓图像；

S3.将头部区域图像作为内容图像、头部边缘轮廓图像作为风格图像输入到艺术风格迁移神经网络进行处理，从而输出合成图像，所述艺术风格迁移神经网络用于将头部边缘轮廓图像的风格迁移到头部区域图像。

进一步地，本发明一种基于深度学习的人头部图像提取方法还包括以下步骤：

S4.将合成图像依次进行二值化和矢量化，从而得到矢量图像。

S5.根据矢量图像，驱动绘画机构进行绘画。

进一步地，所述步骤S1具体包括：

S101.获取待提取图片的特征图，所述特征图具有多个网格单元；

S102.使用YOLO神经网络学习每个网格单元对应的多组参数(t_x,t_y,t_w,t_h)；

S103.根据所述每组参数(t_x,t_y,t_w,t_h)，分别生成对应的预测边界框；

S104.针对每个网格单元，使用非极大值抑制算法在所有预测边界框中选出最优预测边界框；

S105.以最优预测边界框内所包括的图像作为头部区域图像输出。

进一步地，所述步骤S103具体包括：

S10301.使用下式计算参数(b_x,b_y,b_w,b_h)：

式中，σ(·)为sigmoid函数，c_x为对应网格单元左上角距离特征图片左上角的水平边距，c_y为对应网格单元左上角距离特征图片左上角的垂直边距，p_w为对应真实边界框的宽度，p_h为对应真实边界框的高度，所述真实边界框为人头部所在区域手工标注的边界框；

S10302.以b_x为中心点横坐标、b_y为中心点纵坐标、b_w为宽度、b_h为高度生成对应的预测边界框。

进一步地，所述HED神经网络包括多个阶段、多个卷积层和一个加权融合层；

所述每个阶段分别包括卷积层和分类器，所述每个阶段中的卷积层和分类器相关联形成侧输出层，所述侧输出层用于生成并输出此阶段对应的头部边缘轮廓图像；

所述加权融合层用于组合来自不同阶段输出的头部边缘轮廓图像，从而生成并输出作为最终结果的头部边缘轮廓图像。

进一步地，通过下式计算HED神经网络对应的加权融合层损失函数和侧输出层损失函数：

L_fuse(W,w_s,w_f)＝Dist(Y,F_fuse)，

式中，W为HED神经网络所有网络参数的集合，L_fuse为加权融合层损失函数，L_side为侧输出层损失函数，为第m层侧输出层损失函数，β为类平衡参数，Y₊为HED神经网络的边缘标签集合，Y_-为HED神经网络的非边缘标签集合，y_j表示与原图像相对应的二值边缘图，Dist(·)为预测值与真实值之间的距离，w_s为侧输出层模型参数，α_m为每个侧输出层的损失权重，w_f为加权融合层模型参数，侧输出层模型参数和加权融合层模型参数可以通过下列目标函数进行求解：

(W，w_s,w_f)^*＝argmin(L_side(W,w_s)+L_fuse(W,w_s,w_f))，

所述HED神经网络通过下式对所输入的头部区域图像进行处理：

式中，X为头部区域图像，为第m层侧输出层的输出值，Y_fuse为加权融合层的输出值。

进一步地，所述步骤S3具体包括：

S301.生成内容图像的特征图和风格图像的特征图；

S302.分别从内容图像的特征图和风格图像的特征图中提取多个局部块；

S303.在风格图像的特征图中匹配所述多个局部块中最佳的局部块，从而生成并输出合成图像。

进一步地，所述步骤S303中，利用下列公式生成合成图像：

式中，x为合成图像，Φ(x)为x的特征图，Ψ(Φ(x))为从x的特征图中提取出的局部块，Ψ_NN(i)(Φ(x_s))表示Φ(x_s)中与Ψ_i(Φ(x))最匹配的局部块，x_c为内容图像，x_s为风格图像，γ(x)为平滑参数，m为Ψ(Φ(x))的基数，α₁和α₂为自定义常数。

本发明所采取的第二技术方案是：

一种基于深度学习的人头部图像提取装置，包括：

存储器，用于存储至少一个程序；

处理器，用于加载所述至少一个程序以执行第一技术方案所述一种基于深度学习的人头部图像提取方法。

本发明的有益效果是：本发明YOLO神经网络能够将头部区域图像从待提取图片中提取出来，使得后续处理步骤只需要关注头部区域图像，无需关注待提取图片的其他部分，减少数据处理量，提高工作效率。HED神经网络能够从头部区域图像中提取出头部边缘轮廓图像，艺术风格迁移神经网络将头部边缘轮廓图像的风格迁移到头部区域图像中，由于头部区域图像本身还包含五官和头发等面部细节图像信息，因此艺术风格迁移神经网络的风格迁移作用的效果便是实现头部边缘轮廓、五官和头发等细节的融合，使得最后所得的合成图像同时具有丰富的面部特征和清晰的边缘轮廓。根据合成图像得到的矢量图像适用于肖像机器人绘画，克服了传统肖像机器人绘画面临的面部边缘断裂等问题。

附图说明

图1为本发明方法流程图；

图2为本发明方法所生成的一个预测边界框的示意图。

具体实施方式

实施例1

一种基于深度学习的人头部图像提取方法，如图1所示，包括以下步骤：

本实施例中所用的YOLO神经网络，可以先通过现有技术来进行训练，使得其能够从输入到YOLO神经网络的图像中将含有人头部图像的区域提取出来。训练YOLO神经网络时，使用包含人头部图像的图片作为训练所用的数据集。待提取图片可以是事先拍摄或现场拍摄的照片，其包含人像。利用经过训练的YOLO神经网络，便可以从待提取图片的头部区域图像提取出来。

HED神经网络可以使用一个具有5个阶段的16层的VGG16网络。HED神经网络可以先通过现有技术来进行训练，使得其能够从输入到HED神经网络的图像中将人头部边缘轮廓提取出来。经过训练后的HED神经网络的输入对象为头部区域图像，输出对象为头部边缘轮廓图像。

艺术风格迁移神经网络可以使用VGG19网络，其具有5个阶段的19层网络。艺术风格迁移神经网络的输入对象包括内容图像和风格图像，输出对象为合成图像，艺术风格迁移神经网络利用Markov Random Field(MRF)技术使得合成图像的局部块信息与风格图像的局部块信息类似，因此，艺术风格迁移神经网络能够将风格图像的风格迁移到内容图像布局，使得合成图像具有风格图像的风格。

本发明方法中，YOLO神经网络能够将头部区域图像从待提取图片中提取出来，使得后续处理步骤只需要关注头部区域图像，无需关注待提取图片的其他部分，减少数据处理量，提高工作效率。HED神经网络能够从头部区域图像中提取出头部边缘轮廓图像，艺术风格迁移神经网络将头部边缘轮廓图像的风格迁移到头部区域图像中，由于头部区域图像本身还包含五官和头发等面部细节图像信息，因此艺术风格迁移神经网络的风格迁移作用的效果便是实现头部边缘轮廓、五官和头发等细节的融合，使得最后所得的合成图像同时具有丰富的面部特征和清晰的边缘轮廓。

进一步作为优选的实施方式，本发明一种基于深度学习的人头部图像提取方法还包括以下步骤：

S5.根据矢量图像，驱动绘画机构进行绘画。

由于肖像机器人进行绘画时所用的图像格式是矢量图像，因此，为了将本发明方法应用到肖像机器人上，在得到合成图像后，先将其二值化，再将其矢量化，肖像机器人可以根据所得的矢量图像来驱动其绘画机构进行绘画。由于矢量图像来自于用本发明方法得到的合成图像，其适用于肖像机器人绘画，克服了传统肖像机器人绘画面临的面部边缘断裂等问题。

进一步作为优选的实施方式，所述步骤S1具体包括：

在步骤S1，即YOLO神经网络对待提取图片进行处理的步骤中，YOLO神经网络提取输入的待提取图片的特征图，所述特征图具有多个网格单元。图2所示是一个待提取图片特征图的左上角部分，各条实线所划分的方格即为所述网格单元。优选地网络可以为每个网格单元学习5组参数，每组参数分别包括(t_x,t_y,t_w,t_h)等参数，每组参数分别对应生成一个预测边界框，各预测边界框用于作为最优预测边界框的候选对象。其中，t_x，t_y，t_w和t_h是与预测边界框位置相关的参数，根据(t_x,t_y,t_w,t_h)便可以确定一个预测边界框。

使用非极大值抑制算法可以从所有预测边界框中选出一个作为最优预测边界框，这个最优预测边界框内所包含的图像便是待处理图片中包含头像的部分，而且最优预测边界框所划定的范围是最优的。

每组参数中还可以包括t_o，t_o是与预测边界框的置信度相关的参数，所述置信度信息可以通过下式计算出来：σ(t_o)＝P_r(object)*IOU(b,object)，式中，σ(·)为sigmoid函数，P_r(object)为对应单元内包含头像的概率，IOU(b,object)为对应网格单元对应的真实边界框与预测边界框的交集与并集的面积之比。

进一步作为优选的实施方式，所述步骤S103具体包括：

S10301.使用下式计算参数(b_x,b_y,b_w,b_h)：

σ(·)为sigmoid函数可以将t_x和t_y约束到[0,1]。如图2所示，针对的网格单元为位于第二行第二列的网格单元，虚线框为所检测对象的真实边界框，其宽度为p_w，高度为p_h。所计算出来的一个预测边界框为矩形，其宽度为b_w，高度为b_h，该预测边界框的中心点，即矩形的对角线交点，以待提取图片左上角为原点，其坐标为(b_x,b_y)。

上述过程是一个预测边界框的生成过程，对不同网格单元依次执行上述过程，便能得到多个预测边界框。

进一步作为优选的实施方式，所述HED神经网络包括多个阶段、多个卷积层和一个加权融合层；

进一步作为优选的实施方式，通过下式计算HED神经网络对应的加权融合层损失函数和侧输出层损失函数：

L_fuse(W,w_s,w_f)＝Dist(Y,F_fuse)，

式中，W为网络参数的集合，L_fuse为加权融合层损失函数，L_side为侧输出层损失函数，为第m层侧输出层损失函数，β为类平衡参数，Y₊，Y_-分别为边缘与非边缘标签集合，y_j表示与原图像相对应的二值边缘图。Dist(·)为预测值与真实值之间的距离，w_s为侧输出层模型参数，α_m为每个侧输出层的损失权重，w_f为加权融合层模型参数，侧输出层模型参数和加权融合层模型参数可以通过下列目标函数进行求解：

(W，w_s,w_f)^*＝argmin(L_side(W,w_s)+L_fuse(W,w_s,w_f))，

进一步作为优选的实施方式，所述步骤S3具体包括：

S301.生成内容图像的特征图和风格图像的特征图；

在步骤S3，即艺术风格迁移神经网络对头部区域图像和头部边缘轮廓图像进行处理的步骤中，艺术风格迁移神经网络对头部区域图像和头部边缘轮廓图像各自的特征图进行处理，首先分别从中提取出多个局部块，然后在风格图像的块集合中寻找合成图像的最佳匹配的局部块，组合得到合成图像，然后进行输出。

进一步作为优选的实施方式，所述步骤S303中，利用下列公式生成合成图像：

式中，x为合成图像，Φ(x)为x的特征图，Ψ(Φ(x))为从x的特征图中提取出的局部块，Ψ_NN(i)(Φ(x_s))表示Φ(x_s)中与Ψ_i(Φ(x))最匹配的局部块。x_c为内容图像，x_s为风格图像，γ(x)为平滑参数，m为Ψ(Φ(x))的基数，α₁和α₂为自定义常数。

实施例2

本实施例中，一种基于深度学习的人头部图像提取装置，包括：

存储器，用于存储至少一个程序；

处理器，用于加载所述至少一个程序以执行实施例1所述一种基于深度学习的人头部图像提取方法。

以上是对本发明的较佳实施进行了具体说明，但对本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于深度学习的人头部图像提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的人头部图像提取方法，其特征在于，还包括以下步骤：

3.根据权利要求2所述的一种基于深度学习的人头部图像提取方法，其特征在于，还包括以下步骤：

S5.根据矢量图像，驱动绘画机构进行绘画。

4.根据权利要求1-3任一项所述的一种基于深度学习的人头部图像提取方法，其特征在于，所述步骤S1具体包括：

5.根据权利要求4所述的一种基于深度学习的人头部图像提取方法，其特征在于，所述步骤S103具体包括：

S10301.使用下式计算参数(b_x,b_y,b_w,b_h)：

式中，σ(·)为sigmoid函数，c_x为对应网格单元左上角距离特征图左上角的水平边距，c_y为对应网格单元左上角距离特征图左上角的垂直边距，p_w为对应真实边界框的宽度，p_h为对应真实边界框的高度，所述真实边界框为人头部所在区域手工标注的边界框；

6.根据权利要求1-3任一项所述的一种基于深度学习的人头部图像提取方法，其特征在于，所述HED神经网络包括多个阶段、多个卷积层和一个加权融合层；

7.根据权利要求6所述的一种基于深度学习的人头部图像提取方法，其特征在于：

通过下式计算HED神经网络对应的加权融合层损失函数和侧输出层损失函数：

L_fuse(W,w_s,w_f)＝Dist(Y,F_fuse)，

(W，w_s,w_f)^*＝argmin(L_side(W,w_s)+L_fuse(W,w_s,w_f))，

8.根据权利要求1-3任一项所述的一种基于深度学习的人头部图像提取方法，其特征在于，所述步骤S3具体包括：

S301.生成内容图像的特征图和风格图像的特征图；

9.根据权利要求8所述的一种基于深度学习的人头部图像提取方法，其特征在于，所述步骤S303中，利用下列公式生成合成图像：

式中，x为合成图像，x_c为内容图像，x_s为风格图像。Φ(x)为x的特征图，Ψ(Φ(x))为从x的特征图中提取出的局部块，Ψ_NN(i)(Φ(x_s))表示Φ(x_s)中与Ψ_i(Φ(x))最匹配的局部块，γ(x)为平滑参数，m为Ψ(Φ(x))的基数，α₁和α₂为自定义常数。

10.一种基于深度学习的人头部图像提取装置，其特征在于，包括：

存储器，用于存储至少一个程序；

处理器，用于加载所述至少一个程序以执行权利要求1-9任一项所述一种基于深度学习的人头部图像提取方法。