CN115393176A - 一种人像卡通化方法、系统及电子设备 - Google Patents
一种人像卡通化方法、系统及电子设备 Download PDFInfo
- Publication number
- CN115393176A CN115393176A CN202210822284.7A CN202210822284A CN115393176A CN 115393176 A CN115393176 A CN 115393176A CN 202210822284 A CN202210822284 A CN 202210822284A CN 115393176 A CN115393176 A CN 115393176A
- Authority
- CN
- China
- Prior art keywords
- portrait
- cartoon
- feature
- module
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- KHMVXSQLPUNRCF-UHFFFAOYSA-N DL-Adalin Natural products C1CCC2CC(=O)CC1(CCCCC)N2 KHMVXSQLPUNRCF-UHFFFAOYSA-N 0.000 claims abstract description 15
- OPNPQXLQERQBBV-UHFFFAOYSA-N carbromal Chemical compound CCC(Br)(CC)C(=O)NC(N)=O OPNPQXLQERQBBV-UHFFFAOYSA-N 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000010606 normalization Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims description 2
- 238000003709 image segmentation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种人像卡通化方法,包括:1)获取包含待检测人员的图像数据;2)将已获取的所述图像数据输入至已完成训练的人脸预处理模型中;3)预处理后的人像数据在下采样前,上采样后经过堆叠的Hourglass模块,以提取并结合不同尺度下的特征信息,渐进地提升人像卡通化模型特征抽象和重建能力;4)在标准化前先组合人像特征图与卡通图特征图,通过辅助分类器学习到的权重来加权平均人像图特征和卡通图特征的统计量;5)按AdaLIN方法进行反标准化对特征进行解码,使得输出的卡通图能更好地保留原图的语义信息;6)引入特征差异损失函数Ldis,使输出卡通图与输入原始人像图的身份特征信息尽可能相似。本发明还包括使用一种人像卡通化方法的系统和电子设备。
Description
技术领域
本发明提供一种人像卡通化方法、系统及电子设备,涉及计算机视觉中图像处理的技术领域。
背景技术
卡通化的风格迁移算法研究旨在通过一种方式保留图像的内容,而将其风格转变为卡通风格。当今时代,数字娱乐产品和社交软件层出不穷,卡通设计的重要性也日渐突出。动漫、卡通、网络游戏等娱乐产品的制作离不开卡通形象的设计。但在传统的卡通画的制作中,稿图、效果图都是需要进行手工绘制以及修改,这对绘画的技能要求是非常高的,同时也是非常耗时的。当今市面上虽然也存在一些计算机辅助动画制作软件(如RETAS,一款动画上色合成软件)但它要求使用者熟练软件的操作技能。面对如此之大的市场需求,传统的卡通和漫画作品制作方式显然已经很难满足市场的需求。为了顺应市场的发展,越来越多的公司开始挖掘其潜在的商业价值,相继推出了一些如“Faceu激萌”、“B612咔叽”等卡通化生成软件,引来了全民“一键漫画”风潮。由此可见,开展对人像的卡通化方法的研究极具现实意义和商业价值。
目前,人像卡通化是一个域转换问题,即保留图像的细节完整性和语义完整性的同时将真实图像域中的图像转换到卡通图像域中。有监督的跨域转换算法有pix2pix;无监督的跨域转换算法有CycleGAN;scGAN算法借助循环一致性损失实现图像的跨域映射,为了生成更详细的面部特征和保留图像的边缘,scGAN算法分别提出了作用于局部区域的循环一致性损失和全变差损失;还有一种分层的GAN网络结构,采用有监督的数据集进行素描头像的转化,全局网络用于生成脸部整体结构,局部网络学习局部人脸的绘制风格,最后通过融合网络进行融合;使用人脸关键点标记辅助卡通化方法通过添加人脸关键点一致性约束,明确了真实头像与卡通头像的面部关键点的对应关系,从而产生高质量的卡通头像;引入注意力模块和AdaLIN(自适应归一化),注意力模块指导模型关注源域与目标域中有显著差异的部分,AdaLIN采用参数调节层归一化和实例归一化,在源域与目标域差异较大的情况下依然能取得较好的转化效果;CartoonGAN算法借助于内容一致性损失和边缘保护对抗损失实现了具有清晰边缘的人像卡通化。
申请号为CN109583362B的专利所公开的技术方案,利用语义分割网络得到图像之间对应的特征标识和每个像素对应的语义标签,从而建立图像块之间的映射关系进一步对图像卡通化。申请号为CN101458821A的专利所公开的技术方案,利用转灰度图,查找并简化轮廓,利用卷积器实现反走样等图像处理方法实现初步但简陋的卡通化目标。申请号为CN107577985B的专利所公开的技术方案,是基于循环生成对抗网络的人脸头像卡通化方法,将真实人脸头像和卡通人脸头像作为输入,训练循环生成对抗网络来最小化损失函数,但上述方法均没有考虑到需要保护图像语义信息,导致生成的卡通图容易出现失真和伪影。我们的方法在循环生成对抗网络的基础上做出优化,考虑到了保留语义细节和全局风格转换的平衡,先结合特征图再进行反标准化,同时添加堆叠的Hourglass网络,提升模型特征抽象和重建能力,还引入了特征差异损失函数,使输出卡通图最大程度保留输入原始人像图的身份特征信息,且卡通化后的人像又不会轻易地泄露隐私。
发明内容
本发明要克服现有卡通化技术不能自适应地处理复杂的光照和纹理的难题,在对人像进行全局风格转换的同时,保留必要的语义信息,提供一种泛化性能更优的人像卡通化方法、系统及电子设备。本发明解决了坐姿检测中儿童隐私保护的问题,实现了坐姿检测中儿童人像的卡通化,不影响检测实施的同时起到保护隐私的效果。
本发明实现上述发明目的所采用的技术方案如下:
第一方面,本发明提供了一种人像卡通化方法,包括以下步骤:
S1:获取包含待检测人员的图像数据;
S2:将已获取的所述图像数据输入至已完成训练的人脸预处理模型中;其中,所述人脸预处理模型依次检测人脸及关键点,根据关键点结合仿射变换校正人脸,将关键点边界框按固定的比例扩张并裁剪出人脸区域,使用人像分割模型去除背景;
S3:预处理后的人像数据在下采样前,上采样后经过堆叠的Hourglass模块,以提取并结合不同尺度下的特征信息,渐进地提升人像卡通化模型特征抽象和重建能力;
S4:在标准化前先组合人像特征图与卡通图特征图,通过辅助分类器学习到的权重来加权平均人像图特征和卡通图特征的统计量;
S5:按AdaLIN方法进行反标准化对特征进行解码,使得输出的卡通图能更好地保留原图的语义信息;
S6:引入特征差异损失函数Ldis,使输出卡通图与输入人像图的身份特征信息尽可能相似。
进一步的,步骤S1所述的获取包含待检测人员的图像数据的步骤之前,所述方法包括:
S1.1:判断待检测人员的获取区域中是否有人存在。
S1.2:如果有,启动视频摄录设备获取视频数据;如果否,停止视频摄录设备的工作。
S1.3:将摄录到的视频数据逐帧转换为图像数据,去除相似帧用于后续预处理。
进一步的,步骤S3所述的堆叠的Hourglass模块:
S3.1:用于人体姿态检测的Hourglass模块能够在一个单一的统一结构中捕获全局和局部特征。Hourglass模块首先通过一系列卷积和最大池化层对输入特征进行向下采样。然后通过一系列的上采样和卷积层将特征上采样回原始分辨率。通过增加跳转层将在最大池化层中丢失的细节带回上采样特征中。
S3.2:采用四阶递归的Hourglass模块,将一阶Hourglass模块中间的残差模块替换成一个一阶Hourglass模块构成了二阶Hourglass模块,将二阶Hourglass模块最中间的残差模块替换成一个一阶Hourglass模块就构成了三阶Hourglass模块,以此类推得到四阶递归的Hourglass模块。
S3.3:当多个Hourglass模块堆叠在网络中,Hourglass模块可以对特征进行再处理,进一步捕获更高级别的信息。因此,往UGATIT网络添加堆叠的Hourglass网络,能够帮助模型在局部和全局上下文中提取特征信息,并将它们组合在一起输出预测。
进一步的,步骤S4所述的结合人像特征图与卡通图特征图:
S4.1:由堆叠的Hourglass网络,两次下采样和四个残差模块一起构成的编码器编码特征并提取人像特征统计量μo,σo;
S4.2:接着依次通过全局平均池化(GAP),辅助分类器(CAM)和多层感知器(MLP),输出卡通图的特征统计量μc,σc;
S4.3:通过辅助分类器学习得到的权重wμ和wσ来加权平均人像图特征和卡通图特征的统计量:
其中,β和γ由多层感知器(MLP)的全连接层动态计算得到,wμ和wσ分别是权重的均值和方差。
进一步的,步骤S5所述的按AdaLIN方法进行反标准化对特征进行解码:
AdaLIN方法如下所示:
ρ←clip[0,1](ρ-τΔρ) (2)
其中,a是解码器中四个残差模块提取的解码特征图,μI,μL,σI,σL分别是channel-wise和layer-wise的均值和方差,τ是学习率,Δρ是由网络优化器得到到底梯度,ρ是限制在[0,1]之间的值,当ρ接近1时,Instance Normalization占据更大比重,当ρ接近0时,Layer Normalization更为重要,∈是防止除零的常数。残差模块的初始化ρ为1,上采样模块初始化ρ为0。
进一步的,步骤S6所述的引入特征差异损失函数:
为了使输出卡通图的身份特征信息与输入人像图尽可能相似,除了UGATIT本身的对抗损失,循环损失,一致损失与CAM损失外,特别地引入了一个新的特征差异损失函数。具体来说,使用人脸识别模型F来提取人脸的深度嵌入,并最大化它们的余弦相似度:
Ldis(pI,pO)=min(1,cos(F(pI),F(pO))) (3)
其中,cos是余弦相似度,pI和pO分别是输入人像图和输出卡通图。
第二方面,本发明提供了一种人像卡通化系统,该系统包括以下模块:
数据采集模块,用于获取包含待检测人员的图像数据;
特征提取模块,将获取到的图像数据输入训练完成的人脸预处理模型后,经过堆叠两个四阶递归hourglass模型,提取并结合不同尺度下的特征信息,然后通过下采样模型以及四个残差块对特征进行编码;
特征融合模块,先融合人像图特征信息和卡通图特征信息,后对特征进行解码进行反标准化,用到四次AdaLIN操作使得输出的卡通图能更好地保留原图的语义信息;
特征重建模块,与特征提取模块相对称,分别经过四个残差块对特征进行解码,然后通过上采样模型和堆叠两个四阶递归的hourglass模型,最终生成卡通图。
第三方面,本发明提供了一种电子设备,该电子设备包括:
处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如第一方面提供的人像卡通化方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时实现上述第一方面提供的人像卡通化方法的步骤。
本发明的技术构思为:
本发明提供一种人像卡通化方法、系统及电子设备,该方法利用堆叠的Hourglass模块捕捉每个尺度下的特征信息,使人像卡通化网络能够在特征提取的同时保持语义信息位置不变,渐进地提升人像图片卡通化网络特征抽象和重建能力。为了捕获图片在多个尺度下的特征,通常的做法是使用多个pipeline分别单独处理不同尺度下的信息,然后在网络的后面部分再组合这些特征,而Hourglass模块用带有跳转层的单个pipeline来保存每个尺度下的空间信息。在标准化前先结合人像特征图与卡通图的特征图,通过辅助分类器学习到的权重来加权平均人像图特征和卡通图特征的统计量。增加一个新的特征差异损失函数,使输出卡通图的身份特征信息与输入原始人像图尽可能相似。
本发明的有益效果为:1)本发明堆叠的Hourglass模块,有利于提取并结合多尺度特征,渐进地提升人像图片卡通化网络特征抽象和重建能力;2)在标准化前对人像图与卡通图的特征图进行融合,再按照AdaLIN方法反标准化对特征进行解码,能够使得输出的卡通图能更好地保留原人像图的语义信息;3)经过全局平均池化,送入辅助分类器学习权重,从而能进一步加权平均人像图特征和卡通图特征的统计量;4)引入了一个新的特征差异损失函数,使输出卡通图最大程度保留输入原始人像图的身份特征信息,卡通化后的人像又不会轻易地泄露隐私;5)本发明的人像卡通化方法能够自适应地处理复杂的光照和纹理,保留必要的细节信息;6)本发明的人像卡通化方法平衡了全局风格转换与局部语义保留,大大提高了泛化能力。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明实施例提供的一种人像卡通化方法的网络示意图。
图2为本发明实施例提供的一种人像卡通化方法中所用的四阶递归Hourglass模块示意图。
图3为本发明实施例提供的一种人像卡通化方法中所用的标准化Instance Norm和Layer Norm的示意图。
图4为本发明实施例提供的一种人像卡通化系统的结构示意图。
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细描述。
参照图1~图3,首先对本发明实施例所公开的一种人像卡通化方法进行详细介绍,步骤如下:
1)获取包含待检测人员的图像数据:
视频数据的获取过程可利用带有摄像头的电子设备或相机来实现,具体可利用智能手机、平板电脑、USB(Universal Serial Bus,通用串行总线)接口的摄像头、Lan(LocalArea Network,局域网)接口的摄像头直接获取,也可使用相关工业相机直接获取。视频数据为数字图像领域中的范畴,主要包括视频流、视频帧等数字图像相关数据。
1.1)判断待检测人员的获取区域中是否有人存在。
待检测人员的获取区域可理解为获取视频数据的相机的视角下包含的区域。判断该区域中是否有人存在可直接利用相机进行相应的移动检测算法或人员检测算法得以实现。
1.2)如果有,启动视频摄录设备获取视频数据;如果否,停止视频摄录设备的工作。
当有人员存在时,再启动视频摄录设备开始工作,以获取视频数据;如果不存在时,停止视频摄录设备的工作,并可关闭该设备,从而节省能源。
1.3)将摄录到的视频数据逐帧转换为图像数据,去除相似帧用于后续预处理。
2)将已获取的所述图像数据输入至已完成训练的人脸预处理模型中;其中,所述人脸预处理模型依次检测人脸及关键点,根据关键点结合仿射变换校正人脸,将关键点边界框按固定的比例扩张并裁剪出人脸区域,使用人像分割模型去除背景。所述的人脸预处理模型包括:
2.1)人脸关键点检测,获得人脸的68个关键点坐标。
2.2)人脸校正,通过68个人脸关键点的第37、46两个点(即眼角的两个点)的坐标结合仿射变换,将倾斜的人脸转正。
2.3)人脸截取,根据68个关键点中最左边,最右边,最上边,最下边的四个点的坐标位置按固定比例来截取出人脸。
2.4)人脸分割,利用语义分割模型去除掉背景。
3)预处理后的人像数据在下采样前,上采样后经过堆叠的Hourglass模块,以提取并结合不同尺度下的特征信息,渐进地提升人像卡通化模型特征抽象和重建能力:
3.1)用于人体姿态检测的Hourglass模块能够在一个单一的统一结构中捕获全局和局部特征。如图2所示,Hourglass模块首先通过一系列卷积和最大池化层对输入特征进行向下采样。然后通过一系列的上采样和卷积层将特征上采样回原始分辨率。通过增加跳转层将在最大池化层中丢失的细节带回上采样特征中。
3.2)采用四阶递归的Hourglass模块,将一阶Hourglass模块中间的残差模块替换成一个一阶Hourglass模块构成了二阶Hourglass模块,将二阶Hourglass模块最中间的残差模块替换成一个一阶Hourglass模块就构成了三阶Hourglass模块,以此类推得到四阶递归的Hourglass模块。
3.3)当多个Hourglass模块堆叠在网络中,Hourglass模块可以对特征进行再处理,进一步捕获更高级别的信息。因此,往UGATIT网络添加堆叠的Hourglass网络,能够帮助模型在局部和全局上下文中提取特征信息,并将它们组合在一起输出预测。实验中堆叠了2个四阶递归的Hourglass模块。
4)在标准化前先组合人像特征图与卡通图特征图,通过辅助分类器学习到的权重来加权平均人像图特征和卡通图特征的统计量:
4.1)由堆叠的Hourglass网络,两次下采样和四个残差模块一起构成的编码器(如图1所示)编码特征并提取原人像特征统计量μo,σo。
4.2)如图1所示依次通过全局平均池化(GAP),辅助分类器(CAM)和多层感知器(MLP),输出卡通图的特征统计量μc,σc。
全局平均池化将某一个卷积层的n个特征图进行整张图的一个均值池化,形成一个特征点,将这n个特征点组成一个n维特征向量。用全局平均池化代替全连接层,不仅可以减少参数,防止过拟合,还可以建立特征图到类别之间的关联。
4.3)通过辅助分类器学习得到的权重wμ和wσ来加权平均原人像图特征和卡通图特征的统计量:
其中,β和γ由多层感知器(MLP)的全连接层动态计算得到,wμ和wσ分别是权重的均值和方差。
假设经过四个残差模块提取的特征有n个特征图(核),将这些特征进行全局平均池化处理,得到一个n维的向量,送入UGATIT的辅助分类器ηs学习权重ω,ω也为n维的。
其中,k为第k个特征图,ij为激活值的位置,σ为sigmoid激活函数。
5)按AdaLIN方法进行反标准化对特征进行解码,使得输出的卡通图能更好地保留原图的语义信息。
AdaLIN方法如下所示:
ρ←clip[0,1](ρ-τΔρ) (2)
其中,a是解码器中四个残差模块提取的解码特征图,μI,μL,σI,σL分别是channel-wise和layer-wise的均值和方差,τ是学习率,Δρ是由网络优化器得到到底梯度,ρ是限制在[0,1]之间的值,当ρ接近1时,Instance Normalization占据更大比重,当ρ接近0时,Layer Normalization更为重要,∈是防止除零的常数。残差模块的初始化ρ为1,上采样模块初始化ρ为0。
如图3所示,Instance Norm对每个样例以及每个通道都独立计算均值、方差,而Layer Norm是对整个通道的每个样例分别进行归一化。
6)引入特征差异损失函数Ldis,使输出卡通图与输入原始人像图的身份特征信息尽可能相似。
为了使输出卡通图的身份特征信息与输入原始人像图尽可能相似,除了UGATIT本身的对抗损失,循环损失,一致损失与CAM损失外,特别地引入了一个新的特征差异损失函数。具体来说,使用人脸识别模型F来提取人脸的深度嵌入,并最大化它们的余弦相似度:
Ldis(pI,pO)=min(1,cos(F(pI),F(pO))) (3)
其中,cos是余弦相似度,pI和pO分别是输入原始人像图和输出卡通图。
本发明实施例还提供一种人像卡通化系统,如图4所示,该系统包括以下模块:
数据采集模块401,用于获取包含待检测人员的图像数据;
特征提取模块402,将获取到的图像数据输入训练完成的人脸预处理模型后,经过堆叠两个四阶递归hourglass模型,提取并结合不同尺度下的特征信息,然后通过下采样模型以及四个残差块对特征进行编码;
特征融合模块403,先融合人像图特征信息和卡通图特征信息,后对特征进行解码进行反标准化,用到四次AdaLIN操作使得输出的卡通图能更好地保留原图的语义信息;
特征重建模块404,与特征提取模块相对称,分别经过四个残差块对特征进行解码,然后通过上采样模型和堆叠两个四阶递归的hourglass模型,最终生成卡通图。
本发明实施例所提供的人像卡通化系统,其实现原理及产生的技术效果和前述人像卡通化方法的实施例相同,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
本发明实施例还提供一种电子设备,如图5所示,该设备包括处理器501和存储器502,存储器502用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述人像卡通化方法。
图5所示的服务器还包括总线503和通信接口504,处理器501、通信接口504和存储器502通过总线503连接。
其中,存储器502可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线503可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
通信接口504用于通过网络接口与至少一个用户终端及其它网络单元连接,将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。
处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述实施例的方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (8)
1.一种人像卡通化方法,其特征在于,包括以下步骤:
S1:获取包含待检测人员的图像数据;
S2:将已获取的所述图像数据输入至已完成训练的人脸预处理模型中;其中,所述人脸预处理模型依次检测人脸及关键点,根据关键点结合仿射变换校正人脸,将关键点边界框按固定的比例扩张并裁剪出人脸区域,使用人像分割模型去除背景;
S3:预处理后的人像数据在下采样前,上采样后经过堆叠的Hourglass模块,以提取并结合不同尺度下的特征信息,渐进地提升人像卡通化模型特征抽象和重建能力;
S4:在标准化前先组合人像特征图与卡通图特征图,通过辅助分类器学习到的权重来加权平均人像图特征和卡通图特征的统计量;
S5:按AdaLIN方法进行反标准化对特征进行解码,使得输出的卡通图能更好地保留原图的语义信息;
S6:引入特征差异损失函数Ldis,使输出卡通图与输入人像图的身份特征信息尽可能相似。
2.根据权利要求1所述的一种人像卡通化方法,其特征在于:步骤S1所述的获取包含待检测人员的图像数据的步骤之前,所述方法包括:
S1.1:判断待检测人员的获取区域中是否有人存在;
S1.2:如果有,启动视频摄录设备获取视频数据;如果否,停止视频摄录设备的工作;
S1.3:将摄录到的视频数据逐帧转换为图像数据,去除相似帧用于后续预处理。
3.根据权利要求1所述的一种人像卡通化方法,其特征在于:步骤S3所述的堆叠的Hourglass模块:
S3.1:用于人体姿态检测的Hourglass模块能够在一个单一的统一结构中捕获全局和局部特征。Hourglass模块首先通过一系列卷积和最大池化层对输入特征进行向下采样。然后通过一系列的上采样和卷积层将特征上采样回原始分辨率。通过增加跳转层将在最大池化层中丢失的细节带回上采样特征中;
S3.2:采用四阶递归的Hourglass模块,将一阶Hourglass模块中间的残差模块替换成一个一阶Hourglass模块构成了二阶Hourglass模块,将二阶Hourglass模块最中间的残差模块替换成一个一阶Hourglass模块就构成了三阶Hourglass模块,以此类推得到四阶递归的Hourglass模块;
S3.3:当多个Hourglass模块堆叠在网络中,Hourglass模块可以对特征进行再处理,进一步捕获更高级别的信息。因此,往UGATIT网络添加堆叠的Hourglass网络,能够帮助模型在局部和全局上下文中提取特征信息,并将它们组合在一起输出预测。
5.根据权利要求1所述的一种人像卡通化方法5,其特征在于:步骤S5所述的按AdaLIN方法进行反标准化对特征进行解码:
AdaLIN方法如下所示:
ρ←clip[0,1](ρ-τΔρ) (2)
其中,a是解码器中四个残差模块提取的解码特征图,μI,μL,σI,σL分别是channel-wise和layer-wise的均值和方差,τ是学习率,Δρ是由网络优化器得到到底梯度,ρ是限制在[0,1]之间的值,当ρ接近1时,Instance Normalization占据更大比重,当ρ接近0时,LayerNormalization更为重要,∈是防止除零的常数;残差模块的初始化ρ为1,上采样模块初始化ρ为0。
6.根据权利要求1所述的一种人像卡通化方法,其特征在于:步骤S6所述的引入特征差异损失函数:
为了使输出卡通图的身份特征信息与输入原始人像图尽可能相似,除了UGATIT本身的对抗损失,循环损失,一致损失与CAM损失外,特别地引入了一个新的特征差异损失函数;具体来说,使用人脸识别模型F来提取人脸的深度嵌入,并最大化它们的余弦相似度:
Ldis(pI,pO)=min(1,cos(F(pI),F(pO))) (3)
其中,cos是余弦相似度,pI和pO分别是输入原始人像图和输出卡通图。
7.一种人像卡通化系统,其特征在于,所述系统包括以下模块:
数据采集模块,用于获取包含待检测人员的图像数据;
特征提取模块,将获取到的图像数据输入训练完成的人脸预处理模型后,经过堆叠两个四阶递归hourglass模型,提取并结合不同尺度下的特征信息,然后通过下采样模型以及四个残差块对特征进行编码;
特征融合模块,先融合人像图特征信息和卡通图特征信息,后对特征进行解码进行反标准化,用到四次AdaLIN操作使得输出的卡通图能更好地保留原图的语义信息;
特征重建模块,与特征提取模块相对称,分别经过四个残差块对特征进行解码,然后通过上采样模型和堆叠两个四阶递归的hourglass模型,最终生成卡通图。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时实现如权利要求1至6任一项所述的人像卡通化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210822284.7A CN115393176A (zh) | 2022-07-12 | 2022-07-12 | 一种人像卡通化方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210822284.7A CN115393176A (zh) | 2022-07-12 | 2022-07-12 | 一种人像卡通化方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393176A true CN115393176A (zh) | 2022-11-25 |
Family
ID=84116933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210822284.7A Withdrawn CN115393176A (zh) | 2022-07-12 | 2022-07-12 | 一种人像卡通化方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393176A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168348A (zh) * | 2023-04-21 | 2023-05-26 | 成都睿瞳科技有限责任公司 | 基于图像处理的安全监控方法、系统及存储介质 |
-
2022
- 2022-07-12 CN CN202210822284.7A patent/CN115393176A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168348A (zh) * | 2023-04-21 | 2023-05-26 | 成都睿瞳科技有限责任公司 | 基于图像处理的安全监控方法、系统及存储介质 |
CN116168348B (zh) * | 2023-04-21 | 2024-01-30 | 成都睿瞳科技有限责任公司 | 基于图像处理的安全监控方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Deep spatial–spectral representation learning for hyperspectral image denoising | |
Ning et al. | Multi‐view frontal face image generation: a survey | |
Dong et al. | Model-guided deep hyperspectral image super-resolution | |
US11645835B2 (en) | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications | |
CN112766160A (zh) | 基于多级属性编码器和注意力机制的人脸替换方法 | |
CN110348330B (zh) | 基于vae-acgan的人脸姿态虚拟视图生成方法 | |
CN104361328B (zh) | 一种基于自适应多列深度模型的人脸图像正规化方法 | |
CN112950661B (zh) | 一种基于注意力生成对抗网络人脸卡通画生成方法 | |
AU2014368997B2 (en) | System and method for identifying faces in unconstrained media | |
Yu et al. | Semantic face hallucination: Super-resolving very low-resolution face images with supplementary attributes | |
CN113780249B (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
Du et al. | Age factor removal network based on transfer learning and adversarial learning for cross-age face recognition | |
CN111898571A (zh) | 动作识别系统及方法 | |
CN113781324A (zh) | 一种老照片修复方法 | |
CN115393176A (zh) | 一种人像卡通化方法、系统及电子设备 | |
CN118570054B (zh) | 图像生成模型的训练方法、相关装置和介质 | |
CN112990123B (zh) | 图像处理方法、装置、计算机设备和介质 | |
CN116964643A (zh) | 面部表情识别 | |
CN114202460A (zh) | 面对不同损伤图像的超分辨率高清重建方法和系统及设备 | |
CN117576755A (zh) | 一种超光谱人脸融合与识别方法、电子设备及存储介质 | |
WO2023250223A1 (en) | View dependent three-dimensional morphable models | |
US20230093827A1 (en) | Image processing framework for performing object depth estimation | |
US11977979B2 (en) | Adaptive bounding for three-dimensional morphable models | |
Ezekiel et al. | Investigating GAN and VAE to train DCNN | |
CN114519678A (zh) | 一种扫描透射图像恢复方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221125 |