发明内容
本发明提出了一种肖像简笔画生成方法、系统及绘画机器人,旨在解决现有技术的简笔画生成方法不能很好地应用于绘画机器人绘画出生动形象的肖像简笔画的问题。
根据本申请实施例的第一个方面,提供了一种肖像简笔画生成方法,包括以下步骤:
根据肖像照片进行图像预处理得到预处理肖像图像;
根据预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像,卷积神经网络模型具体为:
根据预处理肖像图像以及简笔画风格照片通过VGG编码器得到预处理肖像图像以及简笔画风格照片的高层语义特征;
输入高层语义特征至自适应实例化AdaIN模块得到统计特征;
输入统计特征至解码器得到具有简笔画风格的图像。
可选地,根据肖像照片进行图像预处理得到预处理肖像图像,图像预处理具体包括:
根据肖像照片进行面部框图以及面部五官关键点检测,得到面部边界框信息以及面部五官关键点的位置坐标;
根据面部边界框信息以及面部五官关键点的位置坐标得到人脸对齐肖像图像;
根据人脸对齐肖像图像得到肖像照片解析掩码图;
根据肖像照片解析掩码图得到去背景的肖像图像。
可选地,
编码器采用VGG编码器;
自适应实例化模块采用AdaIN网络结构;
解码器采用AdaIN网络结构。
可选地,卷积神经网络模型进行优化采用的损失函数包括内容损失函数、风格损失函数、局部稀疏损失函数以及一致性损失函数。
可选地,在根据预处理肖像图像通过卷积神经网络模型得到简笔画图像后,还包括:
根据简笔画图像进行简笔画后处理得到绘画机器人适用的最终简笔画图像。
可选地,简笔画后处理包括高斯模糊处理、自适应二值化处理以及线条膨胀处理。
可选地,简笔画后处理具体包括:
输入简笔画图像至低通滤波器进行高斯模糊处理得到高斯模糊图像;
根据高斯模糊图像采用直方图均衡化的自适应二值化方法得到二值图像;
根据二值图像进行线条膨胀处理得到最终简笔画图像。
根据本申请实施例的第二个方面,提供了一种肖像简笔画生成系统,具体包括:
肖像照片预处理模块:用于根据肖像照片进行图像预处理得到预处理肖像图像;
简笔画生成模块:用于根据预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像。
可选地,肖像照片预处理模块包括:
人脸关键点检测模型:用于根据肖像照片进行面部框图以及面部五官关键点检测,得到面部边界框信息以及面部五官关键点的位置坐标;
人脸对齐单元:用于根据面部边界框信息以及面部五官关键点的位置坐标得到人脸对齐肖像图像;
人脸解析模型:用于根据人脸对齐肖像图像得到肖像照片解析掩码图;
图像去背景单元:用于根据肖像照片解析掩码图得到去背景的肖像图像。
根据本申请实施例的第三个方面,提供了一种绘画机器人,具体包括:处理器、通信模块、摄像模块和画像执行模块,其中,处理器可以执行以上的肖像简笔画生成方法。
采用本申请实施例中的肖像简笔画生成方法、系统及绘画机器人,通过根据肖像照片进行图像预处理得到预处理肖像图像;然后根据预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像,所述卷积神经网络模型为:根据所述预处理肖像图像以及简笔画风格照片通过编码器得到所述预处理肖像图像以及简笔画风格照片的高层语义特征;输入所述高层语义特征至自适应实例化模块得到统计特征;输入所述统计特征至解码器得到具有简笔画风格的图像。本申请实现了能够快速将肖像照片生成高质量的简笔画,并适用于绘画机器人,可在短的时间内绘制出肖像简笔画。解决了现有技术的简笔画生成方法不能很好地应用于绘画机器人绘画出生动形象的肖像简笔画的问题。
具体实施方式
在实现本申请的过程中,发明人发现随着人工智能技术的不断发展,绘画机器人越来越多的应用于人类生活中,肖像绘制在虚拟现实、增强现实以及机器人肖像绘制系统等多媒体、个性化娱乐以及互联网等有广泛应用。由于实际人脸肖像内容复杂,人脸部件所需要呈现的细节也存在差异,且目前的绘画机器人还具有一定局限性,使得基于绘画机器人的人脸肖像简笔画算法应用于绘画机器人面临巨大挑战。因此,亟需一种可以转换得到高质量、生动形象的肖像简笔画的生成方法,并适用于绘画机器人进行绘制。
针对上述问题,本申请实施例中提供了一种肖像简笔画生成方法,通过根据肖像照片进行图像预处理得到预处理肖像图像;然后根据所述预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像,实现了能够快速将肖像照片生成高质量的简笔画,并适用于绘画机器人,可在短的时间内绘制出肖像简笔画。解决了现有技术的简笔画生成方法不能很好地应用于绘画机器人绘画出生动形象的肖像简笔画的问题。
本申请与现有技术相比,公开了一种面向绘画机器人的多风格人物肖像简笔画生成方法,可以通过肖像照片进行人脸识别、人脸切割等操作,然后进行肖像-简笔画风格转换,本申请采用的简笔画生成模型生成的各个部分的细节更加丰富。
具体的,肖像-简笔画风格转换的过程中,本申请采用的简笔画生成模型适用于多种简笔画风格,具备适应多个简笔画风格和保留人物身份信息细节的鲁棒性;
在肖像-简笔画风格转换后,进行展示时,本申请将算法集成在绘画机器人中可快速生成人物肖像简笔画图像,满足家庭陪伴的需求。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
图1中示出了根据本申请实施例的一种肖像简笔画生成方法的步骤流程图。
如图1所示,本实施例的肖像简笔画生成方法,具体包括以下步骤:
S101:根据肖像照片进行图像预处理得到预处理肖像图像;
S102:根据预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像。
S101中,根据肖像照片进行图像预处理得到预处理肖像图像,图像预处理具体包括:
1)根据肖像照片进行面部框图以及面部五官关键点检测,得到面部边界框信息以及面部五官关键点的位置坐标。
具体的,对于给定的肖像照片,通过人脸关键点预测模型进行面部框图以及关键点检测,得到肖像照片的面部边界框信息以及五官关键点相应的位置坐标。五官关键点为左眼中心、右眼中心、鼻尖以及嘴角。
本实施例中,从CelebA和CelebA-HQ数据集中随机选取各1000张人脸图像,尺寸分别为178*218和1024*1024,并对这2000张人脸图像进行数据增广,对其分别做高斯模糊、水平翻转以及镜像翻转操作,得到6000张训练集中的内容图像IC。随机挑选n张简笔画风格的图像作为训练集中的风格图像IS。本发明用手机拍摄的人物照片IT作为测试集。
具体的,本实施例中,基于MTCNN对内容图像IT进行关键点检测,MTCNN(Multi-task convolutional neural network)大致分为快速生成候选窗口(Candidate BoundingBox)的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与五个人脸关键点的O-Net三部分网络结构,最终得到的五个关键点分别为左眼中心、右眼中心、鼻尖、左嘴角及右嘴角位置:Landmark={pleye,preye,pnose,plmouth,prmouth}。
2)根据面部边界框信息以及面部五官关键点的位置坐标得到人脸对齐肖像图像。
这步属于人脸对齐步骤,通过人脸关键点中的左右眼中心的位置坐标经过仿射变换操作以人脸对齐。
首先,通过纵轴坐标的值计算两眼中心的水平偏差角度,旋转图像使两眼中心保持水平;然后,.通过缩放使两眼之间距离保持固定。
利用左右眼中心关键点,通过仿射变换和图像切割操作使两个关键点保持在水平位置且与图像上边界保持固定距离从而进行人脸对齐。
3)根据人脸对齐肖像图像得到肖像照片解析掩码图。
4)根据肖像照片解析掩码图得到去背景的肖像图像。这步中,利用掩码中类别为背景的区域,将肖像照片在其区域内的颜色变为白色以达到肖像照片去背景操作。
具体的,基于肖像照片解析掩码方法检测人脸对齐肖像图像得到具有标签的解析掩码图Mm×n={ki,j=0,1,...,n},其中m×n为与检测的人脸图像相同的尺寸,ki,j=0,1,...,n为每个像素所属类别,包括背景、脸部、左右眼睛等类别。
根据检测到的背景区域,将人脸图像的颜色设置为白色从而做到去背景操作,得到处理好的的内容图像ITT。
训练时,本实施例将所有图像{ITT,IS}统一缩放到宽为512的等比例尺寸,并随机裁剪出256*256的patch;测试时将所有图像统一缩放到宽为512的等比例尺寸。
S102中,根据预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像。
图2中示出了根据本申请实施例的深度卷积神经网络模型网络结构示意图。
如图2所示,卷积神经网络模型具体为:根据预处理肖像图像以及简笔画风格照片通过VGG编码器得到预处理肖像图像以及简笔画风格照片的高层语义特征;
输入高层语义特征至自适应实例化AdaIN模块得到统计特征;
输入统计特征至解码器得到具有简笔画风格的图像。
其中,卷积神经网络模型进行优化采用的损失函数包括内容损失函数、风格损失函数、局部稀疏损失函数以及一致性损失函数。
具体的:
卷积神经网络模型生成步骤:首先,深度卷积神经网络模型基于AdaIN网络结构启发,通过编码器得到内容图像和风格图像的高层语义特征;然后,由编码器中的最后一个特征图作为自适应实例化AdaIN(Adaptive Instance Normalization)模块的输入,通过学习特征统计将S101得到的预处理肖像图像的内容特征与简笔画风格照片的风格特征相结合;最后,将统计特征经过解码器后输出反向转换为图像空间,得到具有简笔画风格的图像。
图3中示出了根据本申请实施例的深度卷积神经网络模型中编码器和解码器的具体网络结构示意图。
如图3所示,在编码器中,由于训练一个编码器需要消耗大量的时间和计算能力,我们采取现有的VGG网络并加载其预先训练好的模型作为编码器,将预处理肖像图像以及简笔画风格照片分别投入到VGG编码器中,编码公式如下:
gc=v(ITT) 公式(1)
gs=v(IS) 公式(2)
其中v(·)为模型参数已预先训练好的VGG编码器,gc为内容图像输入到VGG编码器得到的高层语义特征,gs为风格图像输入到VGG编码器得到的高层语义特征。
将VGG模型的VGG网络前几层的网络结构,如Relu4_1的结果作为编码器的输出特征,并将输出特征输入AdaIN模块中进行学习特征统计,学习特征统计o公式为:
o=AdaIN(gc,gs) 公式(3)
其中AdaIN为自适应实例化模块,通过均值与标准差的结合学习特征统计,AdaIN具体公式如下:
其中μ(·)为计算特征均值,σ(·)为计算特征标准差。
将自适应实例化AdaIN模块得到的统计特征经过解码输出反向转换为图像空间。
如图3所示的解码器网络结构,解码器共分为12个模块(block),第2、7、10个模块为上采样层(Upsampling Layer),最后一个模块为镜像填充(Reflection Padding)和卷积(Convolutional Neural Networks,CNN),其余模块有3种运算组成分别为镜像填充、卷积和修正线性单元(Rectified Linear Units,ReLU))。
通过解码器得到具有简笔画风格的图像:
cs=d(o) 公式(5)
其中d(·)为解码器,cs为经过编码器得到的图像。
关于损失函数具体计算:优化神经网络模型的采用多种损失函数进行组合。具体如下:
对于内容损失,内容损失函数Lcontent计算公式为:
Lcontent=||v(cs)-o||2 公式(6)
其中v(cs)表示经解码器得到的颜色空间图像输入到VGG编码器得到的特征,o为VGG编码器的特征统计,||·||1表示计算计算目标特征与输出图像特征之间的欧式距离。
对于风格损失,通过优化传输样式特征的平均值和标准偏差的统计数据,风格损失函数Lstyle公式为:
其中,每个φi(·)表示用VGG-19的其中一层来计算风格损失。本申请实施例使用了等权重的relu1_1、relu2_1、relu3_1、relu4_1层特征。
对于局部稀疏损失,在已有人脸结构解析掩码的基础上,分别对每个部件进行优化,局部稀疏损失函数Llsparse公式为:
Llsparse=||M′Θ(1-d(o))||1 公式(8)
其中Θ表示对应元素点相乘,M′为将M更新后的标签掩码,M共有n个类别。
本申请实施例将其眉毛、眼睛、眼镜、鼻子、嘴巴、脸部提取轮廓、背景提取轮廓的区域全标记为0,其余区域全标记为1,得到与M具有共同尺寸的M′m×n,目的在于稀疏标签为1的区域,使生成结果更加贴合绘画机器人绘制轨迹。
对于一致性损失,一致性损失函数公式为:
Lconsist=||d(AdaIN(gs,gs)-Is||1 公式(9)
其中,||·||1表示计算两者之间的欧式距离,欧式距离使全局生成器生成图和简笔画风格照片像素相一致。
最终得到神经网络总损失函数为:
L=λ1Lcontent+λ2Lstyle+λ3Llsparse+λ4Lconsist 公式(10)
其中,λ1,λ2,λ3,λ4为自定义权重。
实施例2
本实施例2在实施例1的S102中根据预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像之后,增加了以下步骤:
S103:根据简笔画图像进行简笔画后处理得到绘画机器人适用的最终简笔画图像。
具体的,S103中,简笔画后处理包括高斯模糊处理、自适应二值化处理以及线条膨胀处理。
其中,简笔画后处理具体包括:
输入简笔画图像至低通滤波器进行高斯模糊处理得到高斯模糊图像;
根据高斯模糊图像采用直方图均衡化的自适应二值化方法得到二值图像;
根据二值图像进行线条膨胀处理得到最终简笔画图像。
为了减少简笔画图像中多余的不必要杂边,简笔画后处理实现了简笔画的生成结果到绘画机器人绘制结果的过渡优化。
具体的,首先采用高斯模糊操作,高斯模糊本质上是低通滤波器,即输出图像的每个像素点是原图像上对应像素点与周围像素点的加权和,低通滤波器公式为:
用高斯分布权值矩阵与原始图像矩阵做卷积运算得到高斯模糊图像,因为采用指定阈值二值化会导致不必要的黑斑,本实施例采用直方图均衡化(Otsu)的自适应二值化方法找到最佳阈值并二值化,具体如下过程:
①计算输入图像的归一化直方图,使用pi,i=0,1,...,l-1表示该直方图的各个分量;
②对于k=0,1,...,l-1,计算累积和P1(k)和累积均值m(k);
③计算全局灰度均值mG;
④对于k=0,1,...,l-1,计算类间方差
⑤得到Otsu阈值k*,即使得最大的k值。如果最大值不唯一,用相应检测到的各个最大值k的平均得到k*,从而得到可分性测度η*;
经过直方图均衡化的自适应二值化方法得到了前景为黑色像素,后景为白色像素的二值图像。
最后根据热值图像做线条膨胀处理,线条膨胀公式为:
其中f为我们的二值图像,b为卷积模板,模板的值定义为且b在任何位置处(x,y)对图像的膨胀,定义为图像中f与重合区域b的最大值。
经过简笔画生成后处理操作,最终得到了绘画机器人能绘制出连续顺畅且不空洞的线条的简笔画图像。
实施例3
图4示出了根据本申请实施例的一种肖像简笔画生成系统的结构示意图。
如图4所示,一种基于肖像照片的简笔画生成系统,具体包括:
肖像照片预处理模块10:用于根据肖像照片进行图像预处理得到预处理肖像图像;
简笔画生成模块20:用于根据预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像。
具体的,肖像照片预处理模块10包括:
人脸关键点检测模型:用于根据肖像照片进行面部框图以及面部五官关键点检测,得到面部边界框信息以及面部五官关键点的位置坐标;
人脸对齐单元:用于根据面部边界框信息以及面部五官关键点的位置坐标得到人脸对齐肖像图像;
人脸解析模型:用于根据人脸对齐肖像图像得到肖像照片解析掩码图;
图像去背景单元:用于根据肖像照片解析掩码图得到去背景的肖像图像。
图5中示出了根据本申请另一实施例的一种肖像简笔画生成系统的设计流程示意图。
如图5所示实施例的肖像简笔画生成系统,增加了简笔画后处理模块。
具体的,简笔画后处理模块根据简笔画图像进行简笔画后处理得到最终简笔画图像,简笔画后处理包括高斯模糊处理、自适应二值化处理以及线条膨胀处理。
本申请实施例中的肖像简笔画生成方法、系统及绘画机器人,通过根据肖像照片进行图像预处理得到预处理肖像图像;然后根据预处理肖像图像以及简笔画风格照片通过卷积神经网络模型得到简笔画图像,实现了能够快速将肖像照片生成高质量的简笔画,并适用于绘画机器人,可在短的时间内绘制出肖像简笔画。解决了现有技术的简笔画生成方法不能很好地应用于绘画机器人绘画出生动形象的肖像简笔画的问题。
可以通过肖像照片进行人脸识别、人脸切割等操作,然后进行肖像-简笔画风格转换,本申请采用的简笔画生成模型生成的各个部分的细节更加丰富。具体地,通过内容图像和风格图像之间的特征统计、局部稀疏的约束以及后期的处理,使得生成的人物肖像简笔画的各个细节相比于基于规则生成或者直接全局生成的方法更加丰富。
具体的,肖像-简笔画风格转换的过程中,本申请采用的简笔画生成模型适用于多种简笔画风格,具备适应多个简笔画风格和保留人物身份信息细节的鲁棒性;
在肖像-简笔画风格转换后,进行展示时,本申请将算法集成在绘画机器人中可快速生成人物肖像简笔画图像,满足家庭陪伴的需求。
本实施例还提供了一种绘画机器人,具体包括:处理器、通信模块、摄像模块和画像执行模块,其中,处理器可以执行以上的肖像简笔画生成方法。
基于同一发明构思,本申请实施例中还提供了一种计算机程序产品,由于该计算机程序产品解决问题的原理与本申请实施例一所提供的方法相似,因此该计算机程序产品的实施可以参见方法的实施,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。