CN112633288B - 一种基于绘画笔触指导的人脸素描生成方法 - Google Patents
一种基于绘画笔触指导的人脸素描生成方法 Download PDFInfo
- Publication number
- CN112633288B CN112633288B CN202011593350.5A CN202011593350A CN112633288B CN 112633288 B CN112633288 B CN 112633288B CN 202011593350 A CN202011593350 A CN 202011593350A CN 112633288 B CN112633288 B CN 112633288B
- Authority
- CN
- China
- Prior art keywords
- face
- label
- loss
- sketch
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000010422 painting Methods 0.000 title claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000010276 construction Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000004913 activation Effects 0.000 claims description 13
- 210000004209 hair Anatomy 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013441 quality evaluation Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 3
- 239000012467 final product Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/95—Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于绘画笔触指导的人脸素描生成方法。本发明步骤如下:步骤(1)数据预处理,将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小;步骤(2)笔触分类器模型的构建及预训练,自定义笔触标签,构建笔触分类器网络模型,完成模型的预训练,保留训练好的模型参数;步骤(3)生成对抗网络模型的构建,分别构建生成器和判别器两个网络模型;步骤(4)生成对抗网络模型的训练,定义损失函数,训练生成对抗网络模型;步骤(5)人脸素描的生成及质量评价。本发明提出了利用笔触分类器辅助指导人脸素描生成的方法,并完成了人脸素描的高质量生成。
Description
技术领域
本发明提到了一种基于绘画笔触指导的人脸素描生成(Face2Sketch GenerationBased on Brushstroke Instruction)的新方法,主要涉及一种利用卷积神经网络进行分类训练得到的深层特征即绘画笔触构图信息和全局信息,以构建一个与人工绘画效果更加一致的人脸素描生成模型。
背景技术
图像处理的很多问题都是将一张输入的图片转变为一张对应的输出图片,比如灰度图、梯度图、彩色图之间的转换等。人脸素描生成的本质就是图像间的转换问题,最终目的是希望完成一张人脸照片到对应的素描图像的高质量转换。
目前比较流行的算法是pix2pix,他能够较好地实现人脸素描的生成,但是其生成的素描图像质量不高,特别是生成素描的线条笔触非常的模糊,此外,其在人脸局部细节的生成效果依然有很大的提升空间。
发明内容
本发明的目的是针对人脸素描生成精度的问题,提供一种基于绘画笔触指导的人脸素描生成方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)数据预处理
将所有数据集的图像经过调整尺寸和裁剪的操作缩放到统一大小;
步骤(2)笔触分类器网络模型的构建及预训练
自定义笔触标签,构建笔触分类器网络模型,完成模型的预训练,保留训练好的模型参数;
步骤(3)生成对抗网络模型的构建
分别构建生成器和判别器两个网络模型;
步骤(4)生成对抗网络模型的训练
定义损失函数,训练生成对抗网络模型;
步骤(5)人脸素描的生成及质量评价
依次将待处理的人脸图像输入到训练后的生成对抗网络模型中,得到对应的人脸素描画图像,并根据指标完成质量评价;
进一步的,步骤(1)所述的数据预处理:
1-1选择CUFS数据集,按照标准数据集划分方法,随机取168张人脸图像和对应的素描画图像作为训练集,其余143张的人脸图像和对应的素描画图像作为测试集;
1-2对图像(包括人脸图像和素描画图像)进行预处理,先将图像填充到286*286大小,然后对图像进行随机裁剪并做数据标准化处理,最终得到的图像大小变为256*256,其中图像中的人脸图像的通道数为3,素描画图像的通道数为1;
进一步的,步骤(2)所述的笔触分类器网络模型的构建及预训练具体实现如下:
2-1使用人脸分割网络BiseNet生成Mask数据集
通过人脸分割网络BiseNet对预处理后数据集中的人脸图像做语义解析,为每个语义成分分配一个像素级标签并进行标注。
所述的语义成分包括头发、面部皮肤、眼睛、鼻子、嘴巴等。
最后获得的20个人脸语义标签如下:
atts=[1'skin',2'l_brow',3'r_brow',4'l_eye',5'r_eye',6'eye_g',7'l_ear',8'r_ear',9'ear_r',10'nose',11'mouth',12'u_lip',13'l_lip',14'neck',15'neck_l',16'cloth',17'hair',18'hat',20'mustache']
2-2根据20个人脸语义标签自定义人脸素描笔触标签:
平滑笔触:patch块最大值为1or 6or 11or 14or 15or 16,则label为1;
毛发笔触:patch块最大值为2or 3or 17or 20,则label为2;
强结构笔触:patch块最大值为7or 8or 9or 10or 12or 13,则label为3;
边界笔触:提取块[1and 0]or[(20or 1)and 14]or[6和(1or 2or 3or 10)]or4or 5or/>[(4or 5)and(1or 9or 17)]or/>[14and 16]or/>[0and 16],则label为4;
其余为背景0。
针对上述笔触标签的定义标准可能出现的错误,使用标签平滑技术,设置错误率为ε,则对应的标签更新为:
label=((1-ε)*label)+(ε/class_num)
其中,class_num表示分类的标签数,这里是5。
2-3构建笔触分类器网络;
使用DenseNet网络构建笔触分类器,其中设置的growthRate=6,depth=10,reduction=0.5;
笔触分类器网络的构建如下:
Bottleneck:先使用BatchNorm2d做标准化,后面采用激活函数‘relu’,再做一个1*1的卷积操作;输出向量继续进行BatchNorm2d标准化、激活函数‘relu’,再做一个3*3的卷积操作后输出;
Transition:先使用BatchNorm2d做标准化,后面采用激活函数‘relu’,再做一个1*1的卷积操作,最后接一个‘avg_pool2d’完成平均池化并输出;
DenseNet:主体使用3个BottleNet,中间使用2个Transition做过渡连接;输出向量使用BatchNorm2d做标准化,再做2*2的卷积操作,最后做log_softmax运算输出;
针对上述网络构建过程中使用的卷积操作,使用动态区域感知卷积(DynamicRegion-Aware Convolution)代替标准卷积。动态区域感知卷积的具体实现过程如下:首先通过标准卷积来生成guided feature,根据guided feature将空间维度分成多个区域,卷积核生成模块G根据输入图片动态生成每个区域对应的卷积核。这样简单地替换,能在笔触分类的任务上达到很好的性能。
2-4训练笔触分类器网络模型并保存
对于笔触分类器网络模型,使用nll_loss作为损失函数,使用Adam优化器完成梯度更新;每隔20个epoch保存一次模型,总共训练800epoch;
进一步的,步骤(3)所述的生成对抗网络模型的构建:
生成对抗网络模型包括生成器和判别器,生成器采用编码器-解码器结构,判别器为卷积神经网络;
3-1生成器构建
生成器的编码器与解码器之间添加了连接,参考了U-Net’网络模型的结构;生成器使用的卷积层的卷积核大小为4*4,步长为2;使用下采样的激活函数‘LeakyRelu’,上采样激活函数‘Relu’和‘Tanh’;
3-2判别器构建
判别器采用3个级联的Conv-BN-LReLu网络结构,最后采用1层全连接神经网络;所述判别器使用patch判别器,patch判别器以输入图像的每一小块的patch单元来进行,即将生成器生成的“假”素描划分为N*N个patch单元后,对每一单元进行判别真假;最后一层将输入图像的每个像素通过sigmoid函数激活,输出为真的概率值,再对所有patch单元的判别结果取平均得到最终的判别器损失函数;
进一步的,步骤(4)所述的生成对抗网络模型的训练:
4-1对生成对抗网络进行训练时,当损失函数达到最小时,生成对抗网络训练完成;所述损失函数如下:
Lossclass=||labelfake,labelreal||2
Loss=λ1×LossGan+λ2×LossL1+λ3×Lossclass
其中,x表示人脸照片,y表示真实的人脸素描画图像,D(x,y)表示输入为x和y时判别器的输出结果,G(x)表示输入为x时生成的人脸素描画图像,LossGan表示输入为x和y时对应的条件生成对抗损失函数;表示通过生成对抗网络得到的人脸素描画图像,LossL1由/>和y之间的L1距离得到;labelfake表示通过生成对抗网络得到的人脸素描画图像对应的笔触标签,labelreal表示真实的人脸素描画图像对应的笔触标签,Lossclass表示笔触损失函数,它由labelfake和labelreal之间的L2距离得到;Loss表示总的损失函数,它由LossGan、LossL1、Lossclass三个损失函数分别乘权重λ1、λ2、λ3求和得到。
进一步的,步骤(5)所述的人脸素描的生成及质量评价:
依次将测试集中的人脸照片输入到训练后的对抗生成网络中,得到生成的人脸素描画图像,并将生成的图像与真实的素描做FID指标的计算,完成生成素描的质量评价。
本发明有益效果如下:
与现有的人脸素描生成方法相比,使用本发明所述的的一种基于绘画笔触指导的人脸素描生成方法,在人脸素描生成的质量上有了一定程度的提高,特别是在一些局部的笔触细节上能够生成更真实的效果。下表是目前生成效果最好的pix2pix方法和本发明所述方法在生成人脸素描画结果上计算的FID指标对比:
Pix2pix | ours | |
FID | 42.61 | 41.70 |
附图说明
图1是笔触分类器网络模型的体系结构图;
图2是人脸素描生成网络模型的体系结构图;
图3是动态区域感知卷积的框架示意图;
具体实施细节
下面结合附图对本发明做进一步说明。
如图1、图2和图3所示,一种基于绘画笔触指导的人脸素描生成方法,具体包括如下步骤:
步骤(1)数据预处理
将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小;
步骤(2)笔触分类器模型的构建及预训练
自定义笔触标签,构建笔触分类器网络模型,完成模型的预训练,保留训练好的模型参数;
步骤(3)生成对抗网络模型的构建
分别构建生成器和判别器两个网络模型;
步骤(4)生成对抗网络模型的训练
定义损失函数,训练生成对抗网络模型;
步骤(5)人脸素描的生成及质量评价
依次将待处理的人脸图像输入到训练后的对抗生成网络中,得到对应人脸素描画图像,并根据指标完成质量评价;
进一步的,所述的步骤(1)所述的数据预处理:
1-1选择CUFS数据集,按照标准数据集划分方法,随机取168张人脸图像和对应的素描画图像作为训练集,其余143张的人脸图像和对应的素描画图像作为测试集;
1-2对图像(包括人脸图像和素描画图像)进行预处理,先将图像填充到286*286大小,然后对图像进行随机裁剪并做数据标准化处理,最终得到的图像大小变为256*256,其中图像中的人脸图像的通道数为3,素描画图像的通道数为1;
进一步的,步骤(2)所述的笔触分类器网络模型的构建及预训练具体实现如下:
2-1使用人脸分割网络BiseNet生成Mask数据集
通过人脸分割网络BiseNet对预处理后数据集中的人脸图像做语义解析,为每个语义成分分配一个像素级标签并进行标注。
所述的语义成分包括头发、面部皮肤、眼睛、鼻子、嘴巴等。
最后获得的20个人脸语义标签如下:
atts=[1'skin',2'l_brow',3'r_brow',4'l_eye',5'r_eye',6'eye_g',7'l_ear',8'r_ear',9'ear_r',10'nose',11'mouth',12'u_lip',13'l_lip',14'neck',15'neck_l',16'cloth',17'hair',18'hat',20'mustache']
2-2根据20个人脸语义标签自定义人脸素描笔触标签:
平滑笔触:patch块最大值为1or 6or 11or 14or 15or 16,则label为1;
毛发笔触:patch块最大值为2or 3or 17or 20,则label为2;
强结构笔触:patch块最大值为7or 8or 9or 10or 12or 13,则label为3;
边界笔触:提取块[1and 0]or[(20or 1)and 14]or[6和(1or 2or 3or 10)]or4or 5or/>[(4or 5)and(1or 9or 17)]or/>[14and 16]or/>[0and 16],则label为4
其余为背景0;
对于一张Mask数据集中的人脸图像,首先划分为n个k*k大小的patch,对每个patch,分别根据其内部各像素值的分布情况赋予对应的笔触标签。例如,在人脸眉毛的区域有一个k*k大小的patch,统计其内部各像素值得到最大值为2,因此可判定该patch对应的标签为毛发标签,即赋值label=2。
针对上述笔触标签的定义标准可能出现的错误,我们还使用了标签平滑技术,设置错误率为ε,则对应的标签更新为:
label=((1-ε)*label)+(ε/class_num)
其中,class_num表示分类的标签数,这里是5
2-3构建笔触分类器网络
使用DenseNet网络构建笔触分类器,其中设置的growthRate=6,depth=10,reduction=0.5;
笔触分类器网络的构建如下:
Bottleneck:先使用BatchNorm2d做标准化,后面采用激活函数‘relu’,再做一个1*1的卷积操作;输出向量继续进行BatchNorm2d标准化、激活函数‘relu’,再做一个3*3的卷积操作后输出;
SingleLayer:先使用BatchNorm2d做标准化,后面采用激活函数‘relu’,再做一个3*3的卷积操作,把输出向量与输入的x做拼接后输出;
Transition:先使用BatchNorm2d做标准化,后面采用激活函数‘relu’,再做一个1*1的卷积操作,最后接一个‘avg_pool2d’完成平均池化并输出;
DenseNet:主体使用3个BottleNet,中间使用2个Transition做过渡连接;输出向量使用BatchNorm2d做标准化,再做2*2的卷积操作,最后做log_softmax运算输出;
针对上述网络构建过程中使用的卷积操作,使用动态区域感知卷积(DynamicRegion-Aware Convolution)代替标准卷积。动态区域感知卷积的具体实现过程如下:首先通过标准卷积来生成guided feature,根据guided feature将空间维度分成多个区域,卷积核生成模块G根据输入图片动态生成每个区域对应的卷积核。这样简单地替换,能在笔触分类的任务上达到很好的性能。
2-4训练笔触分类器网络模型并保存
对于笔触分类器网络,我们使用nll_loss作为损失函数,使用Adam优化器完成梯度更新;每隔20个epoch保存一次模型,总共训练800epoch;
进一步的,所述的步骤(3)所述的生成对抗网络模型的构建:
生成对抗网络包括生成器和判别器,生成器采用编码器-解码器结构,判别器为卷积神经网络,且生成器的编码器与解码器之间添加了连接,参考了‘U-Net’网络模型的结构;
3-1生成器构建
生成器使用的卷积层的卷积核大小为4*4,步长为2;使用下采样的激活函数‘LeakyRelu’,上采样激活函数‘Relu’和‘Tanh’;
3-2判别器构建
判别器采用3个级联的Conv-BN-LReLu网络结构,最后采用1层全连接神经网络;所述判别器使用patch判别器,patch判别器以输入图像的每一小块的patch单元来进行,即将生成器生成的“假”素描划分为N*N个patch单元后,对每一单元进行判别真假;最后一层将输入图像的每个像素通过sigmoid函数激活,输出为真的概率值,再对所有patch单元的判别结果取平均得到最终的判别器损失函数;
进一步的,所述的步骤(4)所述的生成对抗网络模型的训练:
4-1对生成对抗网络进行训练时,当损失函数达到最小时,生成对抗网络训练完成;所述损失函数如下:
Lossclass=||labelfake,labelreal||2
Loss=λ1×LossGan+λ2×LossL1+λ3×Lossclass
其中,x表示人脸照片,y表示真实的人脸素描画图像,D(x,y)表示输入为x和y时判别器的输出结果,G(x)表示输入为x时生成的人脸素描画图像,LossGan表示输入为x和y时对应的条件生成对抗损失函数;表示通过生成对抗网络得到的人脸素描画图像,LossL1由/>和y之间的L1距离得到;labelfake表示通过生成对抗网络得到的人脸素描画图像对应的笔触标签,labelreal表示真实的人脸素描画图像对应的笔触标签,Lossclass表示笔触损失函数,它由labelfake和labelreal之间的L2距离得到;Loss表示总的损失函数,它由LossGan、LossL1、Lossclass三个损失函数分别乘权重λ1、λ2、λ3求和得到。
进一步的,步骤(5)所述的人脸素描的生成及质量评价:
依次将测试集中的人脸照片输入到训练后的对抗生成网络中,得到生成的人脸素描画图像,并将生成的图像与真实的素描做FID指标的计算,完成生成素描的质量评价。
Claims (5)
1.一种基于绘画笔触指导的人脸素描生成方法,其特征在于包括如下步骤:
步骤(1)数据预处理
将所有数据集的图像经过调整尺寸和裁剪的操作缩放到统一大小;
步骤(2)笔触分类器网络模型的构建及预训练
自定义笔触标签,构建笔触分类器网络模型,完成模型的预训练,保留训练好的模型参数;
步骤(3)生成对抗网络模型的构建
分别构建生成器和判别器两个网络模型;
步骤(4)生成对抗网络模型的训练
定义损失函数,训练生成对抗网络模型;
步骤(5)人脸素描的生成及质量评价
依次将待处理的人脸图像输入到训练后的生成对抗网络模型中,得到对应的人脸素描画图像,并根据指标完成质量评价;
步骤(2)所述的笔触分类器模型的构建及预训练:
2-1使用人脸分割网络BiseNet生成Mask数据集
通过人脸分割网络BiseNet对预处理后数据集中的人脸图像做语义解析,为每个语义成分分配一个像素级标签并进行标注;
最后获得的20个人脸语义标签如下:
atts=[1'skin',2'l_brow',3'r_brow',4'l_eye',5'r_eye',6'eye_g',7'l_ear',8'r_ear',9'ear_r',10'nose',11'mouth',12'u_lip',13'l_lip',14'neck',15'neck_l',16'cloth',17'hair',18'hat',20'mustache'];
2-2根据20个人脸语义标签自定义人脸素描笔触标签:
平滑笔触:patch块最大值为1or 6or 11or 14or 15or 16,则label为1;
毛发笔触:patch块最大值为2or 3or 17or 20,则label为2;
强结构笔触:patch块最大值为7or 8or 9or 10or 12or 13,则label为3;
边界笔触:提取块or[(20or 1)and 14]or[6和(1or 2or 3or 10)]or4or 5or/>and(1or 9or 17)]or/>or/>则label为4;
其余为背景0;
针对上述笔触标签的定义标准可能出现的错误,使用标签平滑技术,设置错误率为ε,则对应的标签更新为:
label=((1-ε)*label)+(ε/class_num)
其中,class_num表示分类的标签数5;
2-3构建笔触分类器网络;
使用DenseNet网络构建笔触分类器,其中设置的growthRate=6,depth=10,reduction=0.5;
2-4训练笔触分类器网络模型并保存
对于笔触分类器网络模型,使用nll_loss作为损失函数,使用Adam优化器完成梯度更新;每隔20个epoch保存一次模型,总共训练800epoch;
所述的笔触分类器网络的构建如下:
Bottleneck:先使用BatchNorm2d做标准化,后面采用激活函数‘relu’,再做一个1*1的卷积操作;输出向量继续进行BatchNorm2d标准化、激活函数‘relu’,再做一个3*3的卷积操作后输出;
Transition:先使用BatchNorm2d做标准化,后面采用激活函数‘relu’,再做一个1*1的卷积操作,最后接一个‘avg_pool2d’完成平均池化并输出;
DenseNet:主体使用3个BottleNet,中间使用2个Transition做过渡连接;输出向量使用BatchNorm2d做标准化,再做2*2的卷积操作,最后做log_softmax运算输出;
针对上述网络构建过程中使用的卷积操作,使用动态区域感知卷积代替标准卷积;动态区域感知卷积的具体实现过程如下:首先通过标准卷积来生成guided feature,根据guided feature将空间维度分成多个区域,卷积核生成模块G根据输入图片动态生成每个区域对应的卷积核。
2.根据权利要求1所述的一种基于绘画笔触指导的人脸素描生成方法,其特征在于步骤(1)所述的数据预处理:
1-1选择CUFS数据集,按照标准数据集划分方法,随机取168张人脸图像和对应的素描画图像作为训练集,其余143张的人脸图像和对应的素描画图像作为测试集;
1-2对图像进行预处理,先将图像填充到286*286大小,然后对图像进行随机裁剪并做数据标准化处理,最终得到的图像大小变为256*256,其中图像中的人脸图像的通道数为3,素描画图像的通道数为1。
3.根据权利要求1所述的一种基于绘画笔触指导的人脸素描生成方法,其特征在于步骤(3)所述的生成对抗网络模型包括生成器和判别器,生成器采用编码器-解码器结构,判别器为卷积神经网络,具体实现如下:
3-1生成器构建
生成器的编码器与解码器之间添加了连接,参考了U-Net’网络模型的结构;生成器使用的卷积层的卷积核大小为4*4,步长为2;使用下采样的激活函数‘LeakyRelu’,上采样激活函数‘Relu’和‘Tanh’;
3-2判别器构建
判别器采用3个级联的Conv-BN-LReLu网络结构,最后采用1层全连接神经网络;所述判别器使用patch判别器,patch判别器以输入图像的每一小块的patch单元来进行,即将生成器生成的“假”素描划分为N*N个patch单元后,对每一单元进行判别真假;最后一层将输入图像的每个像素通过sigmoid函数激活,输出为真的概率值,再对所有patch单元的判别结果取平均得到最终的判别器损失函数。
4.根据权利要求1所述的一种基于绘画笔触指导的人脸素描生成方法,其特征在于步骤(4)所述的生成对抗网络模型的训练:当损失函数达到最小时,生成对抗网络训练完成;所述损失函数如下:
Lossclass=||labelfake,labelreal||2
Loss=λ1×LossGan+λ2×LossL1+λ3×Lossclass
其中,x表示人脸照片,y表示真实的人脸素描画图像,D(x,y)表示输入为x和y时判别器的输出结果,G(x)表示输入为x时生成的人脸素描画图像,LossGan表示输入为x和y时对应的条件生成对抗损失函数;表示通过生成对抗网络得到的人脸素描画图像,LossL1由/>和y之间的L1距离得到;labelfake表示通过生成对抗网络得到的人脸素描画图像对应的笔触标签,labelreal表示真实的人脸素描画图像对应的笔触标签,Lossclass表示笔触损失函数,它由labelfake和labelreal之间的L2距离得到;Loss表示总的损失函数,它由LossGan、LossL1、Lossclass三个损失函数分别乘权重λ1、λ2、λ3求和得到。
5.根据权利要求1所述的一种基于绘画笔触指导的人脸素描生成方法,其特征在于步骤(4)所述的人脸素描的生成及质量评价:
依次将测试集中的人脸照片输入到训练后的对抗生成网络中,得到生成的人脸素描画图像,并将生成的图像与真实的素描做FID指标的计算,完成生成素描的质量评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011593350.5A CN112633288B (zh) | 2020-12-29 | 2020-12-29 | 一种基于绘画笔触指导的人脸素描生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011593350.5A CN112633288B (zh) | 2020-12-29 | 2020-12-29 | 一种基于绘画笔触指导的人脸素描生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633288A CN112633288A (zh) | 2021-04-09 |
CN112633288B true CN112633288B (zh) | 2024-02-13 |
Family
ID=75286257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011593350.5A Active CN112633288B (zh) | 2020-12-29 | 2020-12-29 | 一种基于绘画笔触指导的人脸素描生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633288B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160179A (zh) * | 2021-04-23 | 2021-07-23 | 杭州电子科技大学 | 一种基于动态区域卷积的图像去模糊方法 |
CN113658285B (zh) * | 2021-06-28 | 2024-05-31 | 华南师范大学 | 一种人脸照片到艺术素描的生成方法 |
CN113345058B (zh) * | 2021-06-30 | 2022-06-10 | 杭州妙绘科技有限公司 | 漫画人脸生成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596024A (zh) * | 2018-03-13 | 2018-09-28 | 杭州电子科技大学 | 一种基于人脸结构信息的肖像生成方法 |
CN109359541A (zh) * | 2018-09-17 | 2019-02-19 | 南京邮电大学 | 一种基于深度迁移学习的素描人脸识别方法 |
CN110659582A (zh) * | 2019-08-29 | 2020-01-07 | 深圳云天励飞技术有限公司 | 图像转换模型训练方法、异质人脸识别方法、装置及设备 |
CN111667007A (zh) * | 2020-06-08 | 2020-09-15 | 大连民族大学 | 一种基于对抗生成网络的人脸铅笔画图像生成方法 |
CN112132741A (zh) * | 2020-08-18 | 2020-12-25 | 山东大学 | 一种人脸照片图像和素描图像的转换方法及系统 |
-
2020
- 2020-12-29 CN CN202011593350.5A patent/CN112633288B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596024A (zh) * | 2018-03-13 | 2018-09-28 | 杭州电子科技大学 | 一种基于人脸结构信息的肖像生成方法 |
CN109359541A (zh) * | 2018-09-17 | 2019-02-19 | 南京邮电大学 | 一种基于深度迁移学习的素描人脸识别方法 |
CN110659582A (zh) * | 2019-08-29 | 2020-01-07 | 深圳云天励飞技术有限公司 | 图像转换模型训练方法、异质人脸识别方法、装置及设备 |
CN111667007A (zh) * | 2020-06-08 | 2020-09-15 | 大连民族大学 | 一种基于对抗生成网络的人脸铅笔画图像生成方法 |
CN112132741A (zh) * | 2020-08-18 | 2020-12-25 | 山东大学 | 一种人脸照片图像和素描图像的转换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112633288A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919830B (zh) | 一种基于美学评价的带参考人眼图像修复方法 | |
CN112633288B (zh) | 一种基于绘画笔触指导的人脸素描生成方法 | |
Rahman et al. | A new benchmark on american sign language recognition using convolutional neural network | |
CN112990097B (zh) | 一种基于对抗消除的人脸表情识别方法 | |
CN108629338B (zh) | 一种基于lbp和卷积神经网络的人脸美丽预测方法 | |
JP6788264B2 (ja) | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム | |
CN104361316B (zh) | 一种基于多尺度时序建模的维度情感识别方法 | |
CN110276402B (zh) | 一种基于深度学习语义边界增强的盐体识别方法 | |
CN111563902A (zh) | 一种基于三维卷积神经网络的肺叶分割方法及系统 | |
WO2021139557A1 (zh) | 肖像简笔画生成方法、系统及绘画机器人 | |
CN109815826A (zh) | 人脸属性模型的生成方法及装置 | |
US20230044644A1 (en) | Large-scale generation of photorealistic 3d models | |
CN112800903A (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN111931908B (zh) | 一种基于人脸轮廓的人脸图像自动生成方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN110853119A (zh) | 一种鲁棒的基于参考图片的妆容迁移方法 | |
CN111241963A (zh) | 基于交互建模的第一人称视角视频交互行为识别方法 | |
CN113486944A (zh) | 人脸融合方法、装置、设备及存储介质 | |
CN113903063A (zh) | 基于深度时空网络决策融合的人脸表情识别方法及系统 | |
CN113763498A (zh) | 一种面向工业制造的肖像简笔画区域自适应颜色匹配方法及系统 | |
CN113076918A (zh) | 基于视频的人脸表情克隆方法 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
Verma et al. | Hmm-based convolutional lstm for visual scanpath prediction | |
CN116258627A (zh) | 一种极端退化人脸图像超分辨率恢复系统和方法 | |
CN115393930A (zh) | 一种基于三分支卷积神经网络的表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |