CN112489173A - 人像照片漫画生成的方法和系统 - Google Patents

人像照片漫画生成的方法和系统 Download PDF

Info

Publication number
CN112489173A
CN112489173A CN202011457431.2A CN202011457431A CN112489173A CN 112489173 A CN112489173 A CN 112489173A CN 202011457431 A CN202011457431 A CN 202011457431A CN 112489173 A CN112489173 A CN 112489173A
Authority
CN
China
Prior art keywords
portrait
cartoon
normalization
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011457431.2A
Other languages
English (en)
Inventor
王鼎
谢衍涛
宋娜
陈继
梅启鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Gexiang Technology Co ltd
Original Assignee
Hangzhou Gexiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Gexiang Technology Co ltd filed Critical Hangzhou Gexiang Technology Co ltd
Priority to CN202011457431.2A priority Critical patent/CN112489173A/zh
Publication of CN112489173A publication Critical patent/CN112489173A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种人像照片漫画生成的方法和系统,其中,该人像照片漫画生成的方法包括:通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;接着对人像特征和漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;然后对人像图对应的人像语义分割图和漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算人像归一化特征和漫画归一化特征间的相似度矩阵,并通过相似度矩阵对漫画归一特征进行重新组合,生成人像重建特征;最后对人像重建特征进行解码,生成人像漫画图,完成人像漫画生成模型的预测。通过本申请,提升了纹理匹配的精度和图像生成的效果,降低了开发成本。

Description

人像照片漫画生成的方法和系统
技术领域
本申请涉及图像处理领域,特别是涉及人像照片漫画生成的方法和系统。
背景技术
随着漫画行业的快速发展,如今也成为了一种流行的娱乐方式受到各个阶层人们的喜爱,在图像处理领域中,将一张普通的人像照片在内容不变的情况下生成另一种具有漫画风格的图像,既有漫画的风格又有原人物的辨识度,这种人像照片漫画风格化的应用在消费电子领域已受到越来越多的关注,具有很大的实际应用价值。
在相关技术中,人像照片的漫画生成方法有纹理合成、风格迁移和深度对抗神经网络等。纹理合成技术在纹理特征的语义匹配上存在不足,容易发生误匹配生成错误的纹理,生成质量不稳定;风格迁移技术无法针对人像纹理进行专门处理,尤其在面部区域容易产生令人不快的瑕疵;深度对抗神经网络技术可以生成优质的漫画图像,但是需要较多的同一风格的漫画素材作为样本,存在开发成本高的问题。此外,还有相关技术利用人脸特征点绘制人脸某些部位的曲线,如眉毛头发等部分利用各种人工设计的特征到数据库中与提前绘制好的漫画模板进行匹配,然后用合成的方式生成漫画,效率比较低。
目前针对相关技术中,对人像照片进行漫画生成时,存在的漫画纹理特征匹配不足,人像生成质量不稳定和开发成本高的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了人像照片漫画生成的方法和系统,至少解决相关技术中对人像照片进行漫画生成过程中,可能产生的漫画纹理特征匹配不足,人像生成质量不稳定和开发成本高的问题。
第一方面,本申请实施例提供了一种人像照片漫画生成的方法,所述方法包括:
通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;
对所述人像特征和所述漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;
对所述人像图对应的人像语义分割图和所述漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算所述人像归一化特征和所述漫画归一化特征间的相似度矩阵;
通过所述相似度矩阵对所述漫画归一特征进行重新组合,生成人像重建特征;
对所述人像重建特征进行解码,生成人像漫画图,完成人像漫画生成模型的预测。
在其中一些实施例中,所述对所述人像语义分割图和所述漫画风格语义分割图进行采样和扩展包括:
使所述人像语义分割图的分辨率与所述人像归一特征的分辨率相同,所述漫画风格语义分割图的分辨率与所述漫画归一特征的分辨率相同;
通过热独向量表示每个像素位置的分类属性。
在其中一些实施例中,所述计算所述人像归一化特征和所述漫画归一化特征间的相似度矩阵SIC
计算所述人像归一化特征和所述漫画归一化特征间的距离矩阵LIC
Figure BDA0002829855670000021
其中,
Figure BDA0002829855670000022
是LIC中的具体元素,
Figure BDA0002829855670000023
表示矩阵NI位置x的向量与NC矩阵位置y的向量间的距离,LIC与SIC同尺寸,EXI是人像扩展分割图,EXc是漫画风格扩展分割图,NI是像归一化特征,NC是漫画归一化特征;
计算SIC矩阵的行向量
Figure BDA0002829855670000024
Figure BDA0002829855670000025
其中,
Figure BDA0002829855670000026
即为SIC的行向量,
Figure BDA0002829855670000027
是LIC的行向量,表示矩阵NI位置x的向量与NC矩阵中所有向量的距离。
在实施例中,由于模型中的参数初始时是未知的,需要经过训练学习得到收敛的模型参数之后,才能进行人像漫画生成预测,因此,在进行人像漫画生成模型的预测之前,所述方法包括:
通过人像图训练样本、漫画风格图训练样本及对应的人像语义分割图训练样本和漫画风格语义分割图训练样本,对所述人像漫画生成模型进行训练,得到网络参数。
在其中一些实施例中,所述对所述人像漫画生成模型进行训练,得到网络参数包括:
通过随机梯度下降算法训练模型,得到所述网络参数。
第二方面,本申请实施例提供了一种人像照片漫画生成的系统,所述系统包括:
编码模块,用于通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;
特征归一化模块,用于对所述人像特征和所述漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;
相似度计算模块,用于对所述人像图对应的人像语义分割图和所述漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算所述人像归一化特征和所述漫画归一化特征间的相似度矩阵;
特征重建模块,用于通过所述相似度矩阵对所述漫画归一特征进行重新组合,生成人像重建特征;
解码模块,用于对所述人像重建特征进行解码,生成人像漫画图,完成人像漫画生成模型的预测。
在其中一些实施例中,所述相似度计算模块还用于使所述人像语义分割图的分辨率与所述人像归一特征的分辨率相同,所述漫画风格语义分割图的分辨率与所述漫画归一特征的分辨率相同,
通过热独向量表示每个像素位置的分类属性。
在其中一些实施例中,所述相似度计算模块还用于计算所述人像归一化特征和所述漫画归一化特征间的距离矩阵LIC
Figure BDA0002829855670000031
其中,
Figure BDA0002829855670000032
是LIC中的具体元素,
Figure BDA0002829855670000033
表示矩阵NI位置x的向量与NC矩阵位置y的向量间的距离,LIC与SIC同尺寸,EXI是人像扩展分割图,EXc是漫画风格扩展分割图,NI是像归一化特征,NC是漫画归一化特征;
计算SIC矩阵的行向量
Figure BDA0002829855670000034
Figure BDA0002829855670000035
其中,
Figure BDA0002829855670000036
即为SIC的行向量,
Figure BDA0002829855670000037
是LIC的行向量,表示矩阵NI位置x的向量与NC矩阵中所有向量的距离。
所述系统还包括模型训练模块,在进行人像漫画生成模型的预测之前,
所述模型训练模块,用于通过人像图训练样本、漫画风格图训练样本及对应的人像语义分割图训练样本和漫画风格语义分割图训练样本,对所述人像漫画生成模型进行训练,得到网络参数。
在其中一些实施例中,所述模型训练模块还用于通过随机梯度下降算法训练模型,得到所述网络参数。
相比于相关技术,本申请实施例提供的一种人像照片漫画生成的方法,通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;接着对人像特征和漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;然后对人像图对应的人像语义分割图和漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算人像归一化特征和漫画归一化特征间的相似度矩阵,并通过相似度矩阵对漫画归一特征进行重新组合,生成人像重建特征;最后对人像重建特征进行解码,生成人像漫画图,完成人像漫画生成模型的预测,解决了现有技术中对人像照片进行漫画生成时,产生的漫画纹理特征匹配不足,人像生成质量不稳定和开发成本高的问题,有效改善了人像漫画纹理匹配精度和人像漫画图生成质量,并降低了开发成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种人像照片漫画生成的方法的应用环境示意图;
图2是根据本申请实施例的人像照片漫画生成方法的流程图;
图3是根据本申请实施例的语义分割示意图;
图4是根据本申请实施例生成的人像漫画图的示意图;
图5是根据本申请实施例的人像照片漫画生成系统的结构框图;
图6是根据本申请实施例的人像照片漫画生成系统的另一种结构框图;
图7是根据本申请实施例的人像照片漫画生成方法的算法流程框图;
图8是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的人像照片漫画生成的方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的一种人像照片漫画生成的方法的应用环境示意图,如图1所示,其中,该应用环境的系统包括服务器10和智能终端设备11,具体是实现方式为:将图片输入服务器10中,其中,输入的图片包括:人像图及相应的人像语义分割图,漫画风格图及对应的漫画风格语义分割图,通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;接着对得到的人像特征和漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;然后对人像图对应的人像语义分割图和漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算人像归一化特征和漫画归一化特征间的相似度矩阵,通过该相似度矩阵对漫画归一特征进行重新组合,生成人像重建特征;最后对得到的人像重建特征进行解码,生成人像漫画图,显示在智能终端设备11上,完成整个人像漫画生成模型的预测,解决了现有技术中对人像照片进行漫画生成时,产生的漫画纹理特征匹配不足,人像生成质量不稳定和开发成本高的问题,有效改善了人像漫画纹理匹配精度和人像漫画图生成质量,并降低了开发成本。
本实施例提供了一种人像照片漫画生成的方法,图2是根据本申请实施例的人像照片漫画生成方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征,其中,人像图和漫画风格图均为RGB三通道的图像,编码器由降分辨率的多层卷积神经网络组成,例如VGG和RESNET卷积网络。可选的,本实施例中通过编码器E分别对人像图I和漫画风格图C进行特征分解,得到人像特征FI和漫画特征FC,其中,特征分解的公式如下式(1)所示:
FI=E(I),FC =E(C) (1)
对比传统的漫画纹理合成技术,本实施例采用深度神经网络进行编码,不仅能提取图像浅层的纹理,还能提取图像中的高层语义特征,有效改善了纹理匹配的精度和生成质量;
步骤S202,对人像特征和漫画特征进行特征归一化,得到人像归一特征和漫画归一特征。可选的,经编码器E生成的人像特征FI和漫画特征FC可能属于不同的特征空间,两者无法直接进行比较,需要经过特征归一化模块N将其转换到统一特征空间,其中,特征归一化模块N采用两层卷积网络构成,将人像特征FI和漫画特征FC映射到同一可比较空间中,分别得到人像归一特征NI和漫画归一特征NC,如下式(2)所示:
NI=N(FI),NC=N(FC) (2)
步骤S203,对人像图对应的人像语义分割图和漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算人像归一化特征和漫画归一化特征间的相似度矩阵,其中,语义分割图可以手动标注,也可以通过语义分割神经网络得到。图3是根据本申请实施例的语义分割示意图,如图3所示,语义分割内部区域图总共分为8类,分别为:头发,眉毛,眼睛,鼻子,皮肤,嘴巴,衣服,背景,可选的,本实施例中先对语义分割图进行采样和扩展,得到人像扩展分割图EXI和漫画风格扩展分割图EXC,然后计算人像归一化特征NI和漫画归一化特征NC间的相似度矩阵SIC,其中,人像归一化特征NI和漫画归一化特征NC是三维特征图,尺寸分别为wI*hI*cI和wC*hC*cC,这里的w和h分别是NI和NC特征矩阵的宽和高,c为NI和NC中矩阵元素向量的宽,且NI和NC两个矩阵的c相同。此外,相似矩阵SIC用来度量NI和NC之间的相似度,相似矩阵SIC的尺寸为hS*wS,其中,hS=wI*hI,wS=wC*hC。本实施例利用语义分割图进行相似矩阵的计算,能有效提高漫画纹理匹配的精度和生成的图片质量;
步骤S204,通过相似度矩阵对漫画归一特征进行重新组合,生成人像重建特征,可选的,本实施例通过计算得到的相似度矩阵SIC对漫画归一特征NC进行重新组合,重建人像特征,生成人像重建特征矩阵RNI,如下式(3)所示:
RNI=SIC*row2col(NC) (3)
其中,row2col()指的是将矩阵NC中所有元素向量排列成一行,此外,得到的人像重建特征矩阵RNI的尺寸与人像归一化特征NI相同。
对比普通风格迁移方法,本实施例对图像区域进行语义分割,只利用对应语义区域的漫画特征重建人像特征,避免了不同语义纹理给人像面部带来的瑕疵;
步骤S205,对人像重建特征进行解码,生成人像漫画图,完成人像漫画生成模型的预测。图4是根据本申请实施例生成的人像漫画图的示意图,如图4所示,可选的,本实施例采用级联的若干卷积层,对输入的人像重建特征RNI进行卷积和上采样,输出与人像图同分辨率的RGB人像漫画图DI,如下式(4)所示:
DI=D(RNI) (4)
本实施例采用深度神经网络对人像重建特征进行解码,能有效提升输出图片的精度。
通过上述步骤S201至步骤S205,相对于现有技术中,纹理合成技术在纹理特征的语义匹配上存在容易发生误匹配,生成错误的纹理,风格迁移技术无法针对人像纹理进行专门处理,尤其在面部区域容易产生令人不快的瑕疵,以及深度对抗神经网络技术需要较多的同一风格的漫画素材作为样本,存在开发成本高的问题。针对上述问题,本实施例利用深度学习改进纹理合成方法,将图片输入服务器10中,其中,输入的图片包括:人像图及相应的人像语义分割图,漫画风格图及对应的漫画风格语义分割图,通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;接着对得到的人像特征和漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;然后对人像图对应的人像语义分割图和漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算人像归一化特征和漫画归一化特征间的相似度矩阵,通过该相似度矩阵对漫画归一特征进行重新组合,生成人像重建特征;最后对得到的人像重建特征进行解码,生成人像漫画图,显示在智能终端设备11上,完成整个人像漫画生成模型的预测,解决了现有技术中对人像照片进行漫画生成时,存在的漫画纹理特征匹配不足,人像生成质量不稳定和开发成本高的问题,提升了漫画纹理匹配的精度和人像漫画图生成的效果,并降低了开发成本,此外,由于本实施例采用端到端的神经网络方案,因此也提高了图像生成效率。
在其中一些实施例中,对人像语义分割图和漫画风格语义分割图进行采样和扩展包括:使人像语义分割图的分辨率与人像归一特征的分辨率相同,漫画风格语义分割图的分辨率与漫画归一特征的分辨率相同,再通过热独向量表示每个像素位置的分类属性。可选的,本实施例对人像语义分割图和漫画风格语义分割图进行采样,使人像语义分割图的分辨率与人像归一特征的分辨率相同,漫画风格语义分割图的分辨率与漫画归一特征的分辨率相同,然后通过热独向量表示每个像素位置的分类属性,完成对人像语义分割图和漫画风格语义分割图的扩展。
在其中一些实施例中,计算人像归一化特征和漫画归一化特征间的相似度矩阵SIC
计算人像归一化特征NI和漫画归一化特征NC间的距离矩阵LIC,如下式(5)所示:
Figure BDA0002829855670000081
其中,
Figure BDA0002829855670000082
是LIC中的具体元素,
Figure BDA0002829855670000083
表示矩阵NI位置x的向量与NC矩阵位置y的向量间的距离,LIC与SIC同尺寸,EXI是人像扩展分割图,EXc是漫画风格扩展分割图,·表示向量內积,*表示标量积;
如果扩展分割图
Figure BDA0002829855670000084
Figure BDA0002829855670000085
属不同类,则两者正交其內积为0,如果两者属同类则其內积为1,这样能确保不同类彼此之间没有贡献,避免匹配错误;
接下来计算SIC矩阵的行向量
Figure BDA0002829855670000086
如下式(6)所示:
Figure BDA0002829855670000087
其中,
Figure BDA0002829855670000088
即为SIC的行向量,
Figure BDA0002829855670000089
是LIC的行向量,表示矩阵NI位置x的向量与NC矩阵中所有向量的距离,softmax函数保证行向量
Figure BDA00028298556700000810
各元素之和为1;
至此完成相似性矩阵SIC的计算。
在实施例中,由于模型中的参数初始时是未知的,需要经过训练学习得到收敛的模型参数之后,才能进行人像漫画生成预测,因此,在进行人像漫画生成模型的预测之前,通过人像图训练样本、漫画风格图训练样本及对应的人像语义分割图训练样本和漫画风格语义分割图训练样本,对人像漫画生成模型进行训练,得到网络参数。其中,作为训练样本的漫画风格图不需要与预测时的漫画风格一致,降低了样本收集成本。可选的,人像漫画生成模型的预测过程,可以如下式(7)所示:
DIIC=Style(I,IM,C,CM) (7)
其中,DIIC表示用漫画图重建人像图;
定义内容损失函数Lcon,如下式(8)所示:
Lcon(DI,I)=∑h‖Eh(DI)-Eh(I)‖2 (8)
其中,式(8)计算的是输出的人像漫画图与输入的人像图的L2范数,Eh()表示编码模块E中深层网络的输出特征;
定义风格损失函数Lsty,如下式(9)所示:
Figure BDA0002829855670000091
其中,式(9)计算的是输出的人像漫画图与输入的漫画风格图之间的风格距离,为了测度更加准确,按照人像分割区域分别统计风格损失。i表示分割区域,
Figure BDA0002829855670000092
是编码模块中的浅层特征,
Figure BDA0002829855670000093
计算的是人像漫画图与漫画风格图两个特征间均值与方差的L2范数;
定义重建损失Lresc,如下式(10)所示:
Lresc=α1*(‖DIII-I‖2+‖DICC-C‖2)+α2*(∑h‖Eh(DIII)-
Eh(I)‖2+∑h‖Eh(DICC)-Eh(C)‖2) (10)
其中,DIII=Style(I,IM,I,IM),DICC=Style(C,CM,C,CM),式(10)中DIII表示用人像图重建人像图,DICC表示用漫画图重建漫画图;
定义总的损失函数Ltotal,如下式(11)所示:
Ltotal=ω0*Lcon1*Lsty2*Lresc (11)
其中,α12012为各损失权重系数,可以由经验确定;
相比于深度对抗神经网络方法,本实施例在实现某种漫画风格时,不需要人工绘制或采集同一风格的大量样本,只需要预测时的一张漫画图片即可输出该漫画风格的人像,大大降低了样本搜集的成本。
在其中一些实施例中,对人像漫画生成模型进行训练,得到网络参数包括:通过随机梯度下降算法训练模型,得到网络参数,其中,随机梯度下降算法(Stochastic gradientdescent)每次只随机选择若干样本来学习,更新模型参数,因此每次的学习速度很快,且支持在线更新,多用于支持向量机、逻辑回归等凸损失函数下的线性分类器的学习。可选的,本实施例通过随机梯度下降算法训练模型,在样本集上使目标函数Ltotal最小,训练求解得到算法中未知的网络参数,提高模型的分类学习准确率。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种人像照片漫画生成的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的人像照片漫画生成系统的结构框图,如图5所示,该系统包括编码模块51、特征归一化模块52、相似度计算模块53、特征重建模块54和解码模块55:
编码模块51,用于通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;特征归一化模块52,用于对人像特征和漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;相似度计算模块53,用于对人像图对应的人像语义分割图和漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算人像归一化特征和漫画归一化特征间的相似度矩阵;特征重建模块54,用于通过相似度矩阵对漫画归一特征进行重新组合,生成人像重建特征;解码模块55,用于对人像重建特征进行解码,生成人像漫画图,完成人像漫画生成模型的预测。
通过上述系统,编码模块51对比传统的漫画纹理合成技术,采用深度神经网络进行编码,不仅能提取图像浅层的纹理,还能提取图像中的高层语义特征,有效改善了纹理匹配的精度和生成质量;特征归一化模块52中经编码器E生成的人像特征FI和漫画特征FC可能属于不同的特征空间,两者无法直接进行比较,需要经过特征归一化模块N将其转换到统一特征空间,其中,特征归一化模块N采用两层卷积网络构成,将人像特征FI和漫画特征FC映射到同一可比较空间中,分别得到人像归一特征NI和漫画归一特征NC;相似度计算模块53利用语义分割图进行相似矩阵的计算,能有效提高漫画纹理匹配的精度和生成的图片质量;特征重建模块54对比普通风格迁移方法,对图像区域进行语义分割,只利用对应语义区域的漫画特征重建人像特征,避免了不同语义纹理给人像面部带来的瑕疵;解码模块55采用深度神经网络对人像重建特征进行解码,能有效提升输出图片的精度。整个系统解决了现有技术中对人像照片进行漫画生成时,存在的漫画纹理特征匹配不足,人像生成质量不稳定和开发成本高的问题,提升了漫画纹理匹配的精度和人像漫画图生成的效果,并降低了开发成本。
在其中一些实施例中,相似度计算模块53还用于使人像语义分割图的分辨率与人像归一特征的分辨率相同,漫画风格语义分割图的分辨率与漫画归一特征的分辨率相同,再通过热独向量表示每个像素位置的分类属性。可选的,本实施例对人像语义分割图和漫画风格语义分割图进行采样,使人像语义分割图的分辨率与人像归一特征的分辨率相同,漫画风格语义分割图的分辨率与漫画归一特征的分辨率相同,然后通过热独向量表示每个像素位置的分类属性,完成对人像语义分割图和漫画风格语义分割图的扩展。
在其中一些实施例中,相似度计算模块53还用于计算人像归一化特征和漫画归一化特征间的相似度矩阵SIC
计算人像归一化特征NI和漫画归一化特征NC间的距离矩阵LIC,如下式(5)所示:
Figure BDA0002829855670000111
其中,其中,
Figure BDA0002829855670000112
是LIC中的具体元素,
Figure BDA0002829855670000113
表示矩阵NI位置x的向量与NC矩阵位置y的向量间的距离,LIC与SIC同尺寸,EXI是人像扩展分割图,EXc是漫画风格扩展分割图,·表示向量內积,*表示标量积;
如果扩展分割图
Figure BDA0002829855670000114
Figure BDA0002829855670000115
属不同类,则两者正交其內积为0,如果两者属同类则其內积为1,这样能确保不同类彼此之间没有贡献,避免匹配错误;
接下来计算SIC矩阵的行向量
Figure BDA0002829855670000116
如下式(6)所示:
Figure BDA0002829855670000117
其中,
Figure BDA0002829855670000118
即为SIC的行向量,
Figure BDA0002829855670000119
是LIC的行向量,表示矩阵NI位置x的向量与NC矩阵中所有向量的距离,softmax函数保证行向量
Figure BDA00028298556700001110
各元素之和为1;
至此完成相似性矩阵SIC的计算。
系统还包括模型训练模块61,图6是根据本申请实施例的人像照片漫画生成系统的另一种结构框图,如图6所示,在进行人像漫画生成模型的预测之前,模型训练模块通过人像图训练样本、漫画风格图训练样本及对应的人像语义分割图训练样本和漫画风格语义分割图训练样本,对人像漫画生成模型进行训练,得到网络参数。其中,作为训练样本的漫画风格图不需要与预测时的漫画风格一致,降低了样本收集成本。可选的,人像漫画生成模型的预测过程,可以如下式(7)所示:
DIIC=Style(I,IM,C,CM) (7)
其中,DIIC表示用漫画图重建人像图;
定义内容损失函数Lcon,如下式(8)所示:
Lcon(DI,I)=∑h‖Eh(DI)-Eh(I)‖2 (8)
其中,式(8)计算的是输出的人像漫画图与输入的人像图的L2范数,Eh()表示编码模块E中深层网络的输出特征;
定义风格损失函数Lsty,如下式(9)所示:
Figure BDA0002829855670000121
其中,式(9)计算的是输出的人像漫画图与输入的漫画风格图之间的风格距离,为了测度更加准确,按照人像分割区域分别统计风格损失。i表示分割区域,
Figure BDA0002829855670000122
是编码模块中的浅层特征,
Figure BDA0002829855670000123
计算的是人像漫画图与漫画风格图两个特征间均值与方差的L2范数;
定义重建损失Lresc,如下式(10)所示:
Lresc=α1*(‖DIII-I‖2+‖DICC-C‖2)+α2*(∑h‖Eh(DIII)-
Eh(I)‖2+∑h‖Eh(DICC)-Eh(C)‖2) (10)
其中,DIII=Style(I,IM,I,IM),DICC=Style(C,CM,C,CM),式(10)中DIII表示用人像图重建人像图,DICC表示用漫画图重建漫画图;
定义总的损失函数Ltotal,如下式(11)所示:
Ltotal=ω0*Lcon1*Lsty2*Lresc (11)
其中,α12012为各损失权重系数,可以由经验确定;
相比于深度对抗神经网络方法,本实施例在实现某种漫画风格时,不需要人工绘制或采集同一风格的大量样本,只需要预测时的一张漫画图片即可输出该漫画风格的人像,大大降低了样本搜集的成本。
在其中一些实施例中,模型训练模块61还用于通过随机梯度下降算法训练模型,得到网络参数,其中,随机梯度下降算法(Stochastic gradient descent)每次只随机选择若干样本来学习,更新模型参数,因此每次的学习速度很快,且支持在线更新,多用于支持向量机、逻辑回归等凸损失函数下的线性分类器的学习。可选的,本实施例通过随机梯度下降算法训练模型,在样本集上使目标函数Ltotal最小,训练求解得到算法中未知的网络参数,提高模型的分类学习准确率。
下面结合应用场景对本发明进行详细的说明。
本发明的目的是提供一种人像照片漫画生成的方法和系统,图7是根据本申请实施例的人像照片漫画生成方法的算法流程框图,如图7所示,本发明从传统的纹理合成思路出发,利用深度学习改进纹理合成方案的不足,提升了纹理匹配的精度和图像生成的效果。
本实施例中的人像照片漫画生成方法的技术方案的流程步骤包括:
S1,通过编码器E分别对人像图I和漫画风格图C进行特征分解,得到人像特征FI和漫画特征FC
S2,通过特征归一化模块N,将人像特征FI和漫画特征FC映射到同一可比较空间中,分别得到人像归一特征NI和漫画归一特征NC
S3,对人像图对应的人像语义分割图和漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图EXI和漫画风格扩展分割图EXC,然后计算人像归一化特征NI和漫画归一化特征NC间的相似度矩阵SIC
S4,R模块通过计算得到的相似度矩阵SIC对漫画归一特征NC进行重新组合,重建人像特征,生成人像重建特征矩阵RNI
S5,D模块对人像重建特征RNI进行解码,生成RGB人像漫画图DI,完成人像漫画生成模型的预测。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
另外,结合上述实施例中的人像照片漫画生成的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种人像照片漫画生成的方法。
在一个实施例中,图8是根据本申请实施例的电子设备的内部结构示意图,如图8所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人像照片漫画生成的方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种人像照片漫画生成的方法,其特征在于,所述方法包括:
通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;
对所述人像特征和所述漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;
对所述人像图对应的人像语义分割图和所述漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算所述人像归一化特征和所述漫画归一化特征间的相似度矩阵;
通过所述相似度矩阵对所述漫画归一特征进行重新组合,生成人像重建特征;
对所述人像重建特征进行解码,生成人像漫画图,完成人像漫画生成模型的预测。
2.根据权利要求1所述的方法,其特征在于,所述对所述人像语义分割图和所述漫画风格语义分割图进行采样和扩展包括:
使所述人像语义分割图的分辨率与所述人像归一特征的分辨率相同,所述漫画风格语义分割图的分辨率与所述漫画归一特征的分辨率相同;
通过热独向量表示每个像素位置的分类属性。
3.根据权利要求1所述的方法,其特征在于,所述计算所述人像归一化特征和所述漫画归一化特征间的相似度矩阵SIC
计算所述人像归一化特征和所述漫画归一化特征间的距离矩阵LIC
Figure FDA0002829855660000011
其中,
Figure FDA0002829855660000012
是LIC中的具体元素,
Figure FDA0002829855660000013
表示矩阵NI位置x的向量与NC矩阵位置y的向量间的距离,LIC与SIC同尺寸,EXI是人像扩展分割图,EXc是漫画风格扩展分割图,NI是像归一化特征,NC是漫画归一化特征;
计算SIC矩阵的行向量
Figure FDA0002829855660000014
Figure FDA0002829855660000015
其中,
Figure FDA0002829855660000016
是SIC的行向量,
Figure FDA0002829855660000017
是LIC的行向量,表示矩阵NI位置x的向量与NC矩阵中所有向量的距离。
4.根据权利要求1所述的方法,其特征在于,在进行人像漫画生成模型的预测之前,所述方法包括:
通过人像图训练样本、漫画风格图训练样本及对应的人像语义分割图训练样本和漫画风格语义分割图训练样本,对所述人像漫画生成模型进行训练,得到网络参数。
5.根据权利要求4所述的方法,其特征在于,所述对所述人像漫画生成模型进行训练,得到网络参数包括:
通过随机梯度下降算法训练模型,得到所述网络参数。
6.一种人像照片漫画生成的系统,其特征在于,所述系统包括:
编码模块,用于通过编码器分别对人像图和漫画风格图进行特征分解,得到人像特征和漫画特征;
特征归一化模块,用于对所述人像特征和所述漫画特征进行特征归一化,得到人像归一特征和漫画归一特征;
相似度计算模块,用于对所述人像图对应的人像语义分割图和所述漫画风格图对应的漫画风格语义分割图进行采样和扩展,得到人像扩展分割图和漫画风格扩展分割图,并计算所述人像归一化特征和所述漫画归一化特征间的相似度矩阵;
特征重建模块,用于通过所述相似度矩阵对所述漫画归一特征进行重新组合,生成人像重建特征;
解码模块,用于对所述人像重建特征进行解码,生成人像漫画图,完成人像漫画生成模型的预测。
7.根据权利要求6所述的系统,其特征在于,
所述相似度计算模块还用于使所述人像语义分割图的分辨率与所述人像归一特征的分辨率相同,所述漫画风格语义分割图的分辨率与所述漫画归一特征的分辨率相同,
通过热独向量表示每个像素位置的分类属性。
8.根据权利要求6所述的系统,其特征在于,
所述相似度计算模块还用于计算所述人像归一化特征和所述漫画归一化特征间的距离矩阵LIC
Figure FDA0002829855660000021
其中,
Figure FDA0002829855660000022
是LIC中的具体元素,
Figure FDA0002829855660000023
表示矩阵NI位置x的向量与NC矩阵位置y的向量间的距离,LIC与SIC同尺寸,EXI是人像扩展分割图,EXc是漫画风格扩展分割图,NI是像归一化特征,NC是漫画归一化特征;
计算SIC矩阵的行向量
Figure FDA0002829855660000024
Figure FDA0002829855660000025
其中,
Figure FDA0002829855660000026
即为SIC的行向量,
Figure FDA0002829855660000027
是LIC的行向量,表示矩阵NI位置x的向量与NC矩阵中所有向量的距离。
9.根据权利要求6所述的系统,其特征在于,所述系统还包括模型训练模块,在进行人像漫画生成模型的预测之前,
所述模型训练模块,用于通过人像图训练样本、漫画风格图训练样本及对应的人像语义分割图训练样本和漫画风格语义分割图训练样本,对所述人像漫画生成模型进行训练,得到网络参数。
10.根据权利要求9所述的系统,其特征在于,
所述模型训练模块还用于通过随机梯度下降算法训练模型,得到所述网络参数。
CN202011457431.2A 2020-12-11 2020-12-11 人像照片漫画生成的方法和系统 Pending CN112489173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011457431.2A CN112489173A (zh) 2020-12-11 2020-12-11 人像照片漫画生成的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011457431.2A CN112489173A (zh) 2020-12-11 2020-12-11 人像照片漫画生成的方法和系统

Publications (1)

Publication Number Publication Date
CN112489173A true CN112489173A (zh) 2021-03-12

Family

ID=74916340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011457431.2A Pending CN112489173A (zh) 2020-12-11 2020-12-11 人像照片漫画生成的方法和系统

Country Status (1)

Country Link
CN (1) CN112489173A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507573A (zh) * 2021-08-13 2021-10-15 维沃移动通信(杭州)有限公司 视频生成方法、视频生成装置、电子设备和可读存储介质
CN115239549A (zh) * 2022-07-12 2022-10-25 同济大学 一种表情可编辑的人脸照片夸张化漫画的智能生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507573A (zh) * 2021-08-13 2021-10-15 维沃移动通信(杭州)有限公司 视频生成方法、视频生成装置、电子设备和可读存储介质
CN115239549A (zh) * 2022-07-12 2022-10-25 同济大学 一种表情可编辑的人脸照片夸张化漫画的智能生成方法

Similar Documents

Publication Publication Date Title
US11556581B2 (en) Sketch-based image retrieval techniques using generative domain migration hashing
JP7373554B2 (ja) クロスドメイン画像変換
CN111242841B (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
WO2018214713A1 (zh) 人脸检测方法、装置、计算机设备及存储介质
US20160364633A1 (en) Font recognition and font similarity learning using a deep neural network
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN111275057B (zh) 图像处理方法、装置及设备
CN111210382B (zh) 图像处理方法、装置、计算机设备和存储介质
CN112489173A (zh) 人像照片漫画生成的方法和系统
CN113538608B (zh) 基于生成对抗网络的可控人物图像生成方法
CN108830782B (zh) 图像处理方法、装置、计算机设备和存储介质
Duong et al. Learning from longitudinal face demonstration—where tractable deep modeling meets inverse reinforcement learning
US20230146676A1 (en) Portrait stylization framework to control the similarity between stylized portraits and original photo
CN115862120B (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
US20240161355A1 (en) Generation of stylized drawing of three-dimensional shapes using neural networks
Sun et al. Facial age and expression synthesis using ordinal ranking adversarial networks
Zhou et al. Personalized and occupational-aware age progression by generative adversarial networks
CN114821736A (zh) 基于对比学习的多模态人脸识别方法、装置、设备及介质
Duan et al. DEF-Net: A face aging model by using different emotional learnings
US20220148244A1 (en) Method and apparatus with generation of transformed image
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN112464839A (zh) 人像分割方法、装置、机器人及存储介质
CN116977714A (zh) 图像分类方法、装置、设备、存储介质和程序产品
US20240062441A1 (en) System and method for photorealistic image synthesis using unsupervised semantic feature disentanglement
CN116152399A (zh) 三维人脸形状生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination