CN116310113A - 风格数字人生成方法、装置、设备和可读存储介质 - Google Patents
风格数字人生成方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN116310113A CN116310113A CN202310260556.3A CN202310260556A CN116310113A CN 116310113 A CN116310113 A CN 116310113A CN 202310260556 A CN202310260556 A CN 202310260556A CN 116310113 A CN116310113 A CN 116310113A
- Authority
- CN
- China
- Prior art keywords
- map
- inputting
- human body
- image
- character image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 230000000007 visual effect Effects 0.000 claims abstract description 31
- 239000003086 colorant Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003706 image smoothing Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000010428 oil painting Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G06T3/04—
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及人工智能技术领域,尤其涉及一种风格数字人生成方法、装置、设备和可读存储介质,将图像的风格化引入金融知识普及的教育行业中,方法包括:获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;将所述真实人物图像输入生成器中生成人体表面图形;将所述人体表面图形进行UV展开得到可视区域的UV贴图;将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。本申请的风格数字人生成方法,将人体表面图形从UV展开中剥离出来,可有效将人物以及背景进行有效剥离,通过对人物的虚拟化设定以及根据相应的风格调整再根据背景的不同参数进行设定,使不同的设定风格得到充分生成,根据已训练的神经网络中得到风格化数字人。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种风格数字人生成方法、装置和计算机设备。
背景技术
金融是指在经济生活中,银行、证券或保险业者从市场主体募集资金,并借贷给其它市场主体的经济活动,通过将图像的风格化引入金融的教育行业中,可通过生成漫画风格的图像对金融的教育领域,其中,图像风格化又可以叫做图像风格迁移,是一种可以将具有特色(如艺术特色)的图像风格迁移到另一张图像上的技术,使原有的图像保留原始内容的同时,具有独特的艺术风格,如卡通、漫画、油画、水彩、水墨等风格。例如,在图像风格化技术的一种典型的应用场景中,可以将用户输入的一张人脸图片进行风格化转换后输出一张特定风格的人脸图片,例如,可以将用户输入的人脸图片进行风格化转换后输出迪士尼风格、漫威风格、动漫风格等的人脸图片,为风格化虚拟数字人。目前针对风格数字人的生成,没有成熟的技术。
发明内容
本申请的主要目的为提供一种风格数字人生成方法、装置、设备和可读存储介质,旨在解决如何实现风格数字人生成的技术问题。
为了实现上述发明目的,本申请提出一种风格数字人生成方法,所述方法包括:
获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;
将所述真实人物图像输入生成器中生成人体表面图形;
将所述人体表面图形进行UV展开得到可视区域的UV贴图;
将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。
进一步地,所述获取输入的文本,将所述文本输入文本编辑器得到真实人物图像的步骤之后,包括:
获取原始人物图像,将所述原始人物图像进行预处理得到第一特征向量,将所述真实人物图像进行预处理得到第二特征向量;
对所述第一特征向量和第二特征向量输入判别器中进行真假预测,得到鉴别结果,其中所述鉴别结果包括真实结果和虚假结果;
若所述鉴别结果为真实结果,则将所述真实人物图像输入所述生成器中生成人体表面图形。
进一步地,所述将所述人体表面图形进行UV展开得到可视区域的UV贴图的步骤,包括:
获取三维人体模型,得到人体网格投影;
将所述人体网格投影投映到所述原始人物图像上获取网格各顶点的RGB色彩;
将所述RGB色彩映射到SMPL模型中获取可视区域的UV贴图。
进一步地,所述将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人的步骤,包括:
将所述可视区域的UV贴图输入UV贴图补全网络中获取所述可视区域的UV贴图的表面色彩信息;
将所述可视区域的UV贴图和表面色彩信息输入已训练神经网络中得到风格化数字人。
进一步地,所述若所述鉴别结果为真实结果,则将所述真实人物图像输入生成器中生成人体表面图形的步骤之前,包括:
根据所述第一特征向量与第二特征向量构造损失函数,根据所述损失函数训练神经网络,得到所述已训练神经网络。
进一步地,所述将所述原始人物图像进行预处理得到第一特征向量的步骤,包括:
将所述原始人物图像进行元素和元素关系的识别;
将识别的所述元素和元素关系进行处理得到第一特征向量。
进一步地,所述获取三维人体模型的步骤包括:
将所述人体表面图形进行目标的框选锁定;
将锁定的所述目标进行超像素分割得到三维人体模型。
本申请实施例还提供一种风格数字人生成装置,包括:
获取模块,用于获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;
生成模块,用于将所述真实人物图像输入生成器中生成人体表面图形;
展开模块,用于将所述人体表面图形进行UV展开得到可视区域的UV贴图;
输入模块,用于将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的风格数字人生成方法、装置、设备和可读存储介质,通过输入的参数文本到文本编辑器中,利用文本编辑器处理相应文本,从而得到真实的人物图像,由于文本编辑器可对相应的文本进行训练,通过训练生成对抗网络,渐进式学习待训练文本到其真实图像之间的关联,使得每一生成式对抗网络的生成图像的分辨率逐渐优化,避免产生突变的纹理信息,从而使得获得的文本图像生成真实人物图像能够生成高分辨率图像,再将真实人物图像输入生成器当中,可得到该真实人物图像相应的人体表面图像,其中生成器可根据用户预设的风格进行设定,生成器将会根据用户设定的风格将该真实人物图像生成相应设定的风格的人体表面图像,再将人体表面图形进行UV展开可得到可使区域的UV贴图,将可视区域的UV贴图输入已训练的神经网络当中进行处理可得到风格化数字人,从而实现基于参数化模型生成风格化人体的方法。
附图说明
图1为本申请一实施例的风格数字人生成方法一实施例中的流程示意图;
图2为本申请一实施例的风格数字人生成方法另一实施例中的流程示意图;
图3为本申请一实施例的风格数字人生成方法另一实施例中的流程示意图;
图4为本申请一实施例的风格数字人生成方法另一实施例中的流程示意图;
图5为本申请一实施例的风格数字人生成方法另一实施例中的流程示意图;
图6为本申请一实施例的风格数字人生成装置的结构示意框图;
图7为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种风格数字人生成方法,所述方法包括:
S1、获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;
S2、将所述真实人物图像输入生成器中生成人体表面图形;
S3、将所述人体表面图形进行UV展开得到可视区域的UV贴图;
S4、将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。
如上述步骤S1所述,通过确定待成像的相应文本,利用文本编辑器处理相应文本,从而得到真实的人物图像,其中真实人物的图像根据文本编辑器获得,由于文本编辑器可对相应的文本进行训练,通过训练生成对抗网络,渐进式学习待训练文本到其真实图像之间的关联,使得每一生成式对抗网络的生成图像的分辨率逐渐优化,避免产生突变的纹理信息,从而使得获得的文本图像生成真实人物图像能够生成高分辨率图像,其中文本编辑器是一种行编辑器,它运行在打字机型的终端上,这种编辑器并不具备在窗口和屏幕中显示的功能。它包含了一些非常短的命令(为了减少打字量)。其中一个命令能够把文件的指定部分通过呈现出来。编辑光标是想象中的一个插入点,通过特殊命令,可以把它移动到特定内容字符串所在的行,内容字符串又被扩展成正则表达式。
如上述步骤S2所述,将通过文本编辑器生成的真实人物图像输入生成器当中,可得到该真实人物图像相应的人体表面图像,其中生成器可根据用户预设的风格进行设定,若用户所设定的人物风格为动漫风格,则生成器将会根据用户设定的漫画风格将该真实人物图像生成漫画风格的人体表面图像,其中人体表面图像为二维的漫画风格,其中真实人物图像所显示的为三维真实图像,则生成二维的漫画风格图像则需对三维真实图像的可视范围内图像进行提取,将可使的图像包括曲面图像进行合理优化,从而以得到人体表面图形。
如上述步骤S3所述,将通过生成器生成的人体表面图形进行UV展开可得到可使区域的UV贴图,其中UV展开的应用来源于UV编辑器,将图像的表面一部分一部分的剥离下来,将剥离下来的模型表面平铺在UV贴图区域。但是两者又是通过UV坐标关联在一起,一个在UV贴图里平面显示,通过使用UV展开将图像的表面一部分一部分的剥离下来可有效将人物以及背景进行有效剥离,通过对人物的虚拟化设定以及根据相应的风格调整再根据背景的不同参数进行设定,使不同的设定风格得到充分生成,其中UV为3ds max中的几何体模型是通过“UVW贴图”修改器来赋予贴图;对于复杂的人物角色模型,则需要“UVW展开”这个修改器来完成UV贴图的处理,并且"UV"这里是指U,V纹理贴图坐标的简称(它和空间模型的X,Y,Z轴是类似的)它定义了图片上每个点的位置的信息这些点与3D模型是相互联系的,以决定表面纹理贴图的位置就好像虚拟的“创可贴”,UV就是将图像上每一个点精确对应到模型物体的表面在点与点之间的间隙位置由软件进行图像光滑插值处理的为UV贴图。
如上述步骤S4所述,将可视区域的UV贴图输入已训练的神经网络当中进行处理可得到风格化数字人,其中风格化可根据用户的需求进行变化,例如,漫画风格的数字人,根据虚拟的风格进行设定,将真实的人物图像进行设定变化规格以得到虚拟的风格化数字人,从而实现基于参数化模型生成风格化人体的方法。
在一实施例中,已训练的神经网络可通过计算损失函数值进行反向传播,更新待训练的神经网络参数,其中更新的网络参数又包括有待训练图神经网络的学习率和权重矩阵,训练待训练图神经网络的过程包括多次迭代,相邻两次迭代计算得到的最终损失函数值之间的差值越大,待训练图神经网络的网络参数的更新越快。
如上述步骤所述,通过输入的参数文本到文本编辑器中,利用文本编辑器处理相应文本,从而得到真实的人物图像,由于文本编辑器可对相应的文本进行训练,通过训练生成对抗网络,渐进式学习待训练文本到其真实图像之间的关联,使得每一生成式对抗网络的生成图像的分辨率逐渐优化,避免产生突变的纹理信息,从而使得获得的文本图像生成真实人物图像能够生成高分辨率图像,再将真实人物图像输入生成器当中,可得到该真实人物图像相应的人体表面图像,其中生成器可根据用户预设的风格进行设定,生成器将会根据用户设定的风格将该真实人物图像生成相应设定的风格的人体表面图像,再将人体表面图形进行UV展开可得到可使区域的UV贴图,将可视区域的UV贴图输入已训练的神经网络当中进行处理可得到风格化数字人,从而实现基于参数化模型生成风格化人体的方法。
本实施例中,本申请的风格数字人生成方法,为风格化数字人提供了统一解决方案,将人体表面图形从UV展开中剥离出来,可有效将人物以及背景进行有效剥离,通过对人物的虚拟化设定以及根据相应的风格调整再根据背景的不同参数进行设定,使不同的设定风格得到充分生成,根据已训练的神经网络中得到风格化数字人,可以使UV贴图在神经网络当中不断被优化,提高风格化数字人所成型的效率。
值得一提的是,由于金融知识的普及是经济发展的一个标志,也是推动时代进步的知识力量。特别是广大的农村,农民朋友对金融知识的了解还是比较的匮乏,金融是指在经济生活中,银行、证券或保险业者从市场主体募集资金,并借贷给其它市场主体的经济活动,从而通过将金融的知识课程通过将图像的风格化引入金融的教育行业中,可帮助金融知识的普及以及教育。
参照图2,在一个实施例中,所述获取输入的文本,将所述文本输入文本编辑器得到真实人物图像的步骤之后,包括:
S11、获取原始人物图像,将所述原始人物图像进行预处理得到第一特征向量,将所述真实人物图像进行预处理得到第二特征向量;
S12、对所述第一特征向量和第二特征向量输入判别器中进行真假预测,得到鉴别结果,其中所述鉴别结果包括真实结果和虚假结果;
S13、若所述鉴别结果为真实结果,则将所述真实人物图像输入所述生成器中生成人体表面图形。
如上述步骤S11所述,由于真实人物图像通过文本编辑器所生成的,并且通过数据的处理,则先生成真实人物图像之后可获取文本所对应的原本图像,由于文本所对应的图像为预先设定的,在预先设定文本所对应的人物图像需输入原始的人物图像库进行识别获取,根据原始人物图像进行预处理得到第一特征向量,以及对真实人物图像进行预处理得到第二特征向量,根据获取得到的第一特征向量以及第二特征向量之间进行对比识别。
如上述步骤S12所述,根据获取得到的第一特征向量以及第二特征向量之间进行真假预测,从而可判断原始的人物图像和真实人物图像之间是否存在较大的区别,或者判断文本是否与原本的原始图像的关键因数存在区别,其中真假预设的鉴别结果包括有真实结果以及虚假结果,其中,判别器所执行的任务可以看成是一个自顶向下(从复杂到简单)的过程,其只需要对于输入的高维度的数据进行特征提取得到低维度的判别信息即可,比如分类,检测等等,而与之相对的则是生成器,其是自底向上(有简单到复杂的),比如给出低维度的随机噪声,要求生成一张具有较大维度的图片等。
如上述步骤S13所述,当鉴别结果为真实结果,则表示真实结果所对应的真实人物图像与原始人物图像相对应,则真实人物图像输入生成器中生成人体表面图形。
在另一实施例中,当鉴别的结果为虚假结果,则表示虚假结果中所对应的真实人物图像与原始人物图像不对应,或者文本输入出错,则需根据正确的待成像的文本重新输入文本编辑器中进行重新获取真实人物图像。
参照图3,在一个实施例中,所述将所述人体表面图形进行UV展开得到可视区域的UV贴图的步骤,包括:
S31、获取三维人体模型,得到人体网格投影;
S32、将所述人体网格投影投映到所述原始人物图像上获取网格各顶点的RGB色彩;
S33、将所述RGB色彩映射到SMPL模型中获取可视区域的UV贴图。
如上述步骤S31所述,将人体表面图形进行提取出三维人体模型,由于人体表面的图形包括有人物以及背景部分,而人体的图像又包括曲面部分,比如人体的头部部分,需对人体的头部相应的曲面特征进行识别,可通过一分为二将耳朵的轮廓曲面先提取,再根据鼻子两边的曲面轮廓进行相应划分,因此需对曲面的部分进行识别,识别之后通过使用曲线的方式进行部分特征锁定,再将所有的部分特征进行合成得到人体的网格投影图像。
如上述步骤S32所述,将人体网格投影到原始人物图像上进行对比,可完善两者未对应的轮廓以及颜色,通过获取原始图像的各顶点的RGB色彩,其中,RGB色彩模式(也翻译为“红绿蓝”)是工业界的一种颜色标准,是通过对红(Red)、绿(Green)、蓝(Blue)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色。
如上述步骤S33所述,将原始人物图像上各顶点的RGB色彩映射到SMPL模型中可以获取UV贴图,由于UV贴图未对色彩进行相适配,则先对色彩进行适配到SMPL模型中,其中,SMPL模型为构建的人体参数化三维模型,SMPL模型,其全称是Skinned Multi-PersonLinear(SMPL)Model,Skinned表示这个模型不仅仅是骨架点了,其是有蒙皮的,其蒙皮通过3D mesh表示。3D mesh指的是在立体空间里面用三个点表示一个面,可以视为是对真实几何的采样,其中采样的点越多,3D mesh就越密,建模的精确度就越高,人体可以理解为是一个基础模型和在该模型基础上进行形变的总和。
参照图4,在一实施例中,所述将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人的步骤,包括:
S41、将所述可视区域的UV贴图输入UV贴图补全网络中获取所述可视区域的UV贴图的表面色彩信息;
S41、将所述可视区域的UV贴图和表面色彩信息输入已训练神经网络中得到风格化数字人。
如上所述,由于可视区域的UV贴图为一个未进行拼接的区块图,例如将人体的可视区域的UV贴图分成24个部分,并且24个部分同时排布在一个UV贴图当中,从而需将可视区域的UV贴图输入UV贴图补全网络中获取可视区域的UV贴图的表面色彩信息,最后将UV贴图的表面色彩信息输入已训练好的神经网络当中进行对可视区域的UV贴图的拼接合成,以及色彩信息的位置选定,从而得到完整的风格化数字人。
在一个具体的实施例中,所述若所述鉴别结果为真实结果,则将所述真实人物图像输入生成器中生成人体表面图形的步骤之前,包括:
S211、根据所述第一特征向量与第二特征向量构造损失函数,根据所述损失函数训练神经网络,得到所述已训练神经网络。
如上所述,根据第一特征向量与第二特征向量构造损失函数,而根据构造的损失函数来一次或者多次训练神经网络,从而得到已训练的神经网络,已训练的神经网络可通过计算损失函数值进行反向传播,更新待训练的神经网络参数,其中更新的网络参数又包括有待训练图神经网络的学习率和权重矩阵,训练待训练图神经网络的过程包括多次迭代,相邻两次迭代计算得到的最终损失函数值之间的差值越大,待训练图神经网络的网络参数的更新越快。
在一个实施例中,所述将所述原始人物图像进行预处理得到第一特征向量的步骤,包括:
S110、将所述原始人物图像进行元素和元素关系的识别;
S111、将识别的所述元素和元素关系进行处理得到第一特征向量。
如上所述,终端将原始人物图像进行元素和元素关系的识别,再将识别到的元素和元素关系进行处理,并且对前述关系进行追踪和调节,从而得到原始人物图像的第一特征向量。
参照图5,在一个实施例中,所述获取三维人体模型的步骤,包括:
S311、将所述人体表面图形进行目标的框选锁定;
S312、将锁定的所述目标进行超像素分割得到三维人体模型。
如上所述,在本实施例中,由于人体表面的图形包括有人物以及背景部分,而人体的图像又包括曲面部分,因此需对目标进行框选锁定,再将框选锁定的目标进行超像素分割,例如,比如人体的头部部分,需对人体的头部相应的曲面特征进行识别,可通过一分为二将耳朵的轮廓曲面先提取,再根据鼻子两边的曲面轮廓进行相应划分,因此需对曲面的部分进行识别,识别之后通过使用曲线的方式进行部分特征进行框选锁定,识别之后通过使用曲线的方式进行部分特征进行超像素分割,通过使用超像素分割以实现分割误差最小的方式得到三维人体模型。
本申请的风格数字人生成方法,通过输入的参数文本到文本编辑器中,利用文本编辑器处理相应文本,从而得到真实的人物图像,由于文本编辑器可对相应的文本进行训练,通过训练生成对抗网络,渐进式学习待训练文本到其真实图像之间的关联,使得每一生成式对抗网络的生成图像的分辨率逐渐优化,避免产生突变的纹理信息,从而使得获得的文本图像生成真实人物图像能够生成高分辨率图像,再将真实人物图像输入生成器当中,可得到该真实人物图像相应的人体表面图像,其中生成器可根据用户预设的风格进行设定,生成器将会根据用户设定的风格将该真实人物图像生成相应设定的风格的人体表面图像,再将人体表面图形进行UV展开可得到可使区域的UV贴图,将可视区域的UV贴图输入已训练的神经网络当中进行处理可得到风格化数字人,从而实现基于参数化模型生成风格化人体的方法。
参照图6,本申请实施例中还提供一种风格数字人生成装置,包括:
获取模块1,用于获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;
生成模块2,用于将所述真实人物图像输入生成器中生成人体表面图形;
展开模块3,用于将所述人体表面图形进行UV展开得到可视区域的UV贴图;
输入模块4,用于将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。
在一个实施例中,所述获取模块1包括:
第一获取图像处理单元,用于获取原始人物图像,将所述原始人物图像进行预处理得到第一特征向量,将所述真实人物图像进行预处理得到第二特征向量;
输入预测单元,用于对所述第一特征向量和第二特征向量输入判别器中进行真假预测,得到鉴别结果,其中所述鉴别结果包括真实结果和虚假结果;
输入生成单元,用于若所述鉴别结果为真实结果,则将所述真实人物图像输入生成器中生成人体表面图形。
在一个实施例中,所述展开模块3包括:
获取得到单元,用于获取三维人体模型,得到人体网格投影;
投影获取单元,用于将人体网格投影投映到所述原始人物图像上获取网格各顶点的RGB色彩;
色彩映射获取单元,用于将所述RGB色彩映射到SMPL模型中获取可视区域的UV贴图。
在一个实施例中,所述输入生成单元包括:
构造得到子单元,用于根据所述第一特征向量与第二特征向量构造损失函数,根据所述损失函数训练神经网络,得到所述已训练神经网络。
在一个实施例中,所述输入模块4包括:
获取表面色彩信息单元,用于将所述可视区域的UV贴图输入UV贴图补全网络中获取所述可视区域的UV贴图的表面色彩信息;
输入得到单元,用于将所述可视区域的UV贴图和表面色彩信息输入已训练神经网络中得到风格化数字人。
在一个实施例中,所述获取得到单元包括:
识别子单元,用于将所述原始人物图像进行元素和元素关系的识别;
识别处理子单元,用于将识别的所述元素和元素关系进行处理得到第一特征向量。
在一个实施例中,所述获取得到单元还包括:
获取模型子单元,用于获取三维人体模型,得到人体网格投影;
投影子单元,用于将人体网格投影投映到所述原始人物图像上获取网格各顶点的RGB色彩;
映射获取子单元,用于将所述RGB色彩映射到SMPL模型中获取可视区域的UV贴图。
如上所述,可以理解地,本申请中提出的所述风格数字人生成装置的各组成部分可以实现如上所述风格数字人生成方法任一项的功能,具体结构不再赘述。
参照图7,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存监控数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风格数字人生成方法。
上述处理器执行上述的风格数字人生成方法,包括:
获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;
将所述真实人物图像输入生成器中生成人体表面图形;
将所述人体表面图形进行UV展开得到可视区域的UV贴图;
将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。
上述的风格数字人生成方法,通过输入的参数文本到文本编辑器中,利用文本编辑器处理相应文本,从而得到真实的人物图像,由于文本编辑器可对相应的文本进行训练,通过训练生成对抗网络,渐进式学习待训练文本到其真实图像之间的关联,使得每一生成式对抗网络的生成图像的分辨率逐渐优化,避免产生突变的纹理信息,从而使得获得的文本图像生成真实人物图像能够生成高分辨率图像,再将真实人物图像输入生成器当中,可得到该真实人物图像相应的人体表面图像,其中生成器可根据用户预设的风格进行设定,生成器将会根据用户设定的风格将该真实人物图像生成相应设定的风格的人体表面图像,再将人体表面图形进行UV展开可得到可使区域的UV贴图,将可视区域的UV贴图输入已训练的神经网络当中进行处理可得到风格化数字人,从而实现基于参数化模型生成风格化人体的方法。
在一个实施例中,所述获取输入的文本,将所述文本输入文本编辑器得到真实人物图像的步骤之后,包括:
获取原始人物图像,将所述原始人物图像进行预处理得到第一特征向量,将所述真实人物图像进行预处理得到第二特征向量;
对所述第一特征向量和第二特征向量输入判别器中进行真假预测,得到鉴别结果,其中所述鉴别结果包括真实结果和虚假结果;
若所述鉴别结果为真实结果,则将所述真实人物图像输入所述生成器中生成人体表面图形。
在一个实施例中,所述将所述人体表面图形进行UV展开得到可视区域的UV贴图的步骤,包括:
获取三维人体模型,得到人体网格投影;
将所述人体网格投影投映到所述原始人物图像上获取网格各顶点的RGB色彩;
将所述RGB色彩映射到SMPL模型中获取可视区域的UV贴图。
在一个实施例中,所述将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人的步骤,包括:
将所述可视区域的UV贴图输入UV贴图补全网络中获取所述可视区域的UV贴图的表面色彩信息;
将所述可视区域的UV贴图和表面色彩信息输入已训练神经网络中得到风格化数字人。
在一个实施例中,所述若所述鉴别结果为真实结果,则将所述真实人物图像输入生成器中生成人体表面图形的步骤之前,包括:
根据所述第一特征向量与第二特征向量构造损失函数,根据所述损失函数训练神经网络,得到所述已训练神经网络。
在一个实施例中,所述将所述原始人物图像进行预处理得到第一特征向量的步骤,包括:
将所述原始人物图像进行元素和元素关系的识别;
将识别的所述元素和元素关系进行处理得到第一特征向量。
在一个实施例中,所述获取三维人体模型的步骤包括:
将所述人体表面图形进行目标的框选锁定;
将锁定的所述目标进行超像素分割得到三维人体模型。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种风格数字人生成方法,包括步骤:
获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;
将所述真实人物图像输入生成器中生成人体表面图形;
将所述人体表面图形进行UV展开得到可视区域的UV贴图;
将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。
上述的风格数字人生成方法,通过输入的参数文本到文本编辑器中,利用文本编辑器处理相应文本,从而得到真实的人物图像,由于文本编辑器可对相应的文本进行训练,通过训练生成对抗网络,渐进式学习待训练文本到其真实图像之间的关联,使得每一生成式对抗网络的生成图像的分辨率逐渐优化,避免产生突变的纹理信息,从而使得获得的文本图像生成真实人物图像能够生成高分辨率图像,再将真实人物图像输入生成器当中,可得到该真实人物图像相应的人体表面图像,其中生成器可根据用户预设的风格进行设定,生成器将会根据用户设定的风格将该真实人物图像生成相应设定的风格的人体表面图像,再将人体表面图形进行UV展开可得到可使区域的UV贴图,将可视区域的UV贴图输入已训练的神经网络当中进行处理可得到风格化数字人,从而实现基于参数化模型生成风格化人体的方法。
在一个实施例中,所述获取输入的文本,将所述文本输入文本编辑器得到真实人物图像的步骤之后,包括:
获取原始人物图像,将所述原始人物图像进行预处理得到第一特征向量,将所述真实人物图像进行预处理得到第二特征向量;
对所述第一特征向量和第二特征向量输入判别器中进行真假预测,得到鉴别结果,其中所述鉴别结果包括真实结果和虚假结果;
若所述鉴别结果为真实结果,则将所述真实人物图像输入所述生成器中生成人体表面图形。
在一个实施例中,所述将所述人体表面图形进行UV展开得到可视区域的UV贴图的步骤,包括:
获取三维人体模型,得到人体网格投影;
将所述人体网格投影投映到所述原始人物图像上获取网格各顶点的RGB色彩;
将所述RGB色彩映射到SMPL模型中获取可视区域的UV贴图。
在一个实施例中,所述将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人的步骤,包括:
将所述可视区域的UV贴图输入UV贴图补全网络中获取所述可视区域的UV贴图的表面色彩信息;
将所述可视区域的UV贴图和表面色彩信息输入已训练神经网络中得到风格化数字人。
在一个实施例中,所述若所述鉴别结果为真实结果,则将所述真实人物图像输入生成器中生成人体表面图形的步骤之前,包括:
根据所述第一特征向量与第二特征向量构造损失函数,根据所述损失函数训练神经网络,得到所述已训练神经网络。
在一个实施例中,所述将所述原始人物图像进行预处理得到第一特征向量的步骤,包括:
将所述原始人物图像进行元素和元素关系的识别;
将识别的所述元素和元素关系进行处理得到第一特征向量。
在一个实施例中,所述获取三维人体模型的步骤包括:
将所述人体表面图形进行目标的框选锁定;
将锁定的所述目标进行超像素分割得到三维人体模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种风格数字人生成方法,其特征在于,所述方法包括:
获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;
将所述真实人物图像输入生成器中生成人体表面图形;
将所述人体表面图形进行UV展开得到可视区域的UV贴图;
将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。
2.根据权利要求1所述的风格数字人生成方法,其特征在于,所述获取输入的文本,将所述文本输入文本编辑器得到真实人物图像的步骤之后,包括:
获取原始人物图像,将所述原始人物图像进行预处理得到第一特征向量,将所述真实人物图像进行预处理得到第二特征向量;
对所述第一特征向量和第二特征向量输入判别器中进行真假预测,得到鉴别结果,其中所述鉴别结果包括真实结果和虚假结果;
若所述鉴别结果为真实结果,则将所述真实人物图像输入所述生成器中生成人体表面图形。
3.根据权利要求2所述的风格数字人生成方法,其特征在于,所述将所述人体表面图形进行UV展开得到可视区域的UV贴图的步骤,包括:
获取三维人体模型,得到人体网格投影;
将所述人体网格投影投映到所述原始人物图像上获取网格各顶点的RGB色彩;
将所述RGB色彩映射到SMPL模型中获取可视区域的UV贴图。
4.根据权利要求1所述的风格数字人生成方法,其特征在于,所述将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人的步骤,包括:
将所述可视区域的UV贴图输入UV贴图补全网络中获取所述可视区域的UV贴图的表面色彩信息;
将所述可视区域的UV贴图和表面色彩信息输入已训练神经网络中得到风格化数字人。
5.根据权利要求2所述的风格数字人生成方法,其特征在于,所述若所述鉴别结果为真实结果,则将所述真实人物图像输入生成器中生成人体表面图形的步骤之前,包括:
根据所述第一特征向量与第二特征向量构造损失函数,根据所述损失函数训练神经网络,得到所述已训练神经网络。
6.根据权利要求2所述的风格数字人生成方法,其特征在于,所述将所述原始人物图像进行预处理得到第一特征向量的步骤,包括:
将所述原始人物图像进行元素和元素关系的识别;
将识别的所述元素和元素关系进行处理得到第一特征向量。
7.根据权利要求3所述的风格数字人生成方法,其特征在于,所述获取三维人体模型的步骤,包括:
将所述人体表面图形进行目标的框选锁定;
将锁定的所述目标进行超像素分割得到三维人体模型。
8.一种风格数字人生成装置,其特征在于,包括:
获取模块,用于获取输入的文本,将所述文本输入文本编辑器得到真实人物图像;
生成模块,用于将所述真实人物图像输入生成器中生成人体表面图形;
展开模块,用于将所述人体表面图形进行UV展开得到可视区域的UV贴图;
输入模块,用于将所述可视区域的UV贴图输入已训练神经网络中得到风格化数字人。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310260556.3A CN116310113A (zh) | 2023-03-09 | 2023-03-09 | 风格数字人生成方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310260556.3A CN116310113A (zh) | 2023-03-09 | 2023-03-09 | 风格数字人生成方法、装置、设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310113A true CN116310113A (zh) | 2023-06-23 |
Family
ID=86788313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310260556.3A Pending CN116310113A (zh) | 2023-03-09 | 2023-03-09 | 风格数字人生成方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310113A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011435A (zh) * | 2023-09-28 | 2023-11-07 | 世优(北京)科技有限公司 | 数字人形象ai生成方法及装置 |
-
2023
- 2023-03-09 CN CN202310260556.3A patent/CN116310113A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011435A (zh) * | 2023-09-28 | 2023-11-07 | 世优(北京)科技有限公司 | 数字人形象ai生成方法及装置 |
CN117011435B (zh) * | 2023-09-28 | 2024-01-09 | 世优(北京)科技有限公司 | 数字人形象ai生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325437B (zh) | 图像处理方法、装置和系统 | |
US10535163B2 (en) | Avatar digitization from a single image for real-time rendering | |
US9734613B2 (en) | Apparatus and method for generating facial composite image, recording medium for performing the method | |
US10949649B2 (en) | Real-time tracking of facial features in unconstrained video | |
US20210174072A1 (en) | Microexpression-based image recognition method and apparatus, and related device | |
US10755145B2 (en) | 3D spatial transformer network | |
US20240037852A1 (en) | Method and device for reconstructing three-dimensional faces and storage medium | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
WO2022095721A1 (zh) | 参数估算模型的训练方法、装置、设备和存储介质 | |
WO2019050808A1 (en) | SCANNING AVATAR FROM A SINGLE IMAGE FOR REAL TIME REALIZATION | |
CN105518744A (zh) | 行人再识别方法及设备 | |
CN109635752B (zh) | 人脸关键点的定位方法、人脸图像处理方法和相关装置 | |
CN113570684A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN103425964A (zh) | 图像处理设备、图像处理方法及计算机程序 | |
CN103279936A (zh) | 基于画像的人脸伪照片自动合成及修正方法 | |
KR20230097157A (ko) | 개인화된 3d 헤드 모델 변형을 위한 방법 및 시스템 | |
CN113850169B (zh) | 一种基于图像分割和生成对抗网络的人脸属性迁移方法 | |
US20240029345A1 (en) | Methods and system for generating 3d virtual objects | |
KR20230085931A (ko) | 얼굴 이미지에서 색상을 추출하기 위한 방법 및 시스템 | |
CN116310113A (zh) | 风格数字人生成方法、装置、设备和可读存储介质 | |
CN112699857A (zh) | 基于人脸姿态的活体验证方法、装置及电子设备 | |
CN112581518A (zh) | 基于三维卡通模型的眼球配准方法、装置、服务器和介质 | |
Lanitis et al. | Virtual restoration of faces appearing in byzantine icons | |
Riaz et al. | Age-invariant face recognition using gender specific 3D aging modeling | |
Luo et al. | Facial metamorphosis using geometrical methods for biometric applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |