CN115908657A - 虚拟形象的生成方法、装置、设备及存储介质 - Google Patents

虚拟形象的生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115908657A
CN115908657A CN202211435654.8A CN202211435654A CN115908657A CN 115908657 A CN115908657 A CN 115908657A CN 202211435654 A CN202211435654 A CN 202211435654A CN 115908657 A CN115908657 A CN 115908657A
Authority
CN
China
Prior art keywords
texture
image
text
text data
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211435654.8A
Other languages
English (en)
Inventor
吴小燕
何山
殷兵
刘聪
周良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202211435654.8A priority Critical patent/CN115908657A/zh
Publication of CN115908657A publication Critical patent/CN115908657A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请提供了一种虚拟形象的生成方法、装置、设备及存储介质,具体实现方案为:利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;基于所述语义特征生成虚拟形象。根据本申请的技术方案,能够降低虚拟形象的生成难度,提升虚拟形象的生成效率。

Description

虚拟形象的生成方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种虚拟形象的生成方法、装置、设备及存储介质。
背景技术
随着元宇宙的发展,虚拟形象将是人机交互的主要承载方式。目前虚拟形象的生成依赖拍摄对象情绪状态,对拍摄对象要求高,使得生成虚拟形象的难度较大,而且生成过程也比较复杂,使得生成虚拟形象的效率较低。
发明内容
为了解决上述问题,本申请提出一种虚拟形象的生成方法、装置、设备及存储介质。能够降低虚拟形象的生成难度,提升虚拟形象的生成效率。
根据本申请实施例的第一方面,提供了一种虚拟形象的生成方法,包括:
获取待处理文本数据;
利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;
基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;
基于所述语义特征生成虚拟形象。
根据本申请实施例的第二方面,提供了一种虚拟形象的生成装置,包括:
获取模块,用于获取待处理文本数据;
第一处理模块,用于利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;
第二处理模块,用于基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;
生成模块,用于基于所述语义特征生成虚拟形象。
本申请第三方面提供了一种电子设备,包括:
存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器,通过运行所述存储器中的程序,实现上述的虚拟形象的生成方法。
本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程度被处理器运行时,实现上述的虚拟形象的生成方法。
上述申请中的一个实施例具有如下优点或有益效果:
利用文本与纹理的特征库,确定获取到的待处理文本数据对应的纹理特征,基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征,再根据语义特征生成虚拟形象,这样,实现了仅根据文本数据就可以生成个性化的虚拟形象,降低了虚拟形象的生成难度,同时提高了生成效率。进一步地,由于文本与纹理的特征库中记录有文本以及与文本对应的纹理特征,因此,根据待处理文本数据在文本与纹理的特征库中可以查找到对应的纹理特征,引入纹理特征生成虚拟形象,进一步提高了虚拟形象生成的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请一实施例提供的一种虚拟形象的生成方法的流程示意图;
图2为本申请一实施例提供的一种虚拟形象的生成方法的流程示意图;
图3为本申请一实施例提供的一种编码器-解码器的训练示意图;
图4为本申请一实施例提供的一种虚拟形象的生成方法的流程示意图;
图5为本申请实施例提供的编码器-解码器结合扩散模型训练的示意图;
图6为本申请另一实施例提供的编码器-解码器结合扩散模型训练示意图;
图7为本申请实施例提供的另一种虚拟形象的生成装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
示例性方法
图1是根据本申请一实施例的虚拟形象的生成方法的流程图。在一示例性实施例中,提供了一种虚拟形象的生成方法,包括:
S110、获取待处理文本数据;
S120、利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;
S130、基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;
S140、基于所述语义特征生成虚拟形象。
在步骤S110中,示例性地,待处理文本数据用于表示用户输入的生成虚拟形象的相关指令。可选地,虚拟形象可以是通过技术手段生成的任何形象,包括但不限于虚拟的人/动物/物体,或者动漫人物/动物/物体的形象,比如可以是人物的虚拟形象,也可以是动物的虚拟形象,在此不作限定。可选地,该相关指令可以是语音数据,也可以是文本数据。例如,当接收到用户输入的语音数据时,将语音数据转换为对应的文本数据。待处理文本数据可以包括:虚拟形象的五官、姿态信息和外貌信息等,其中,外貌信息可以包括服装、发型等。例如,待处理文本数据可以是“一个扎着马尾,穿白色衬衫的女生”。
在步骤S120中,示例性地,文本与纹理的特征库用于表示文本与纹理特征之间的关系。纹理特征用于表示图像的空间颜色分布和光强分布。纹理特征可以包括:服装纹理、面部纹理、头部纹理等,其中,面部纹理可以包括五官,如嘴、鼻子、眼睛等。头部纹理可以包括头发状态等。服装纹理可以是在图像上分割出的服装区域,并对服装区域加入一定程度的扭曲和随机遮罩得到的,如此可以得到不同情况的服装纹路。可选地,服装纹理还可以根据应用场景进行进一步的区分,例如,客服服装,正装,衬衫,夹克,T恤等。文本与纹理的特征库可以是预先将文本数据与图像的纹理特征匹配得到的,其中,图像的纹理特征可以是根据预设的神经网络模型对图像进行提取得到的。可选地,文本与纹理的特征库中每个文本可以对应一个纹理特征,也可以对应多个纹理特征。
具体地,在得到待处理文本数据后,可以对待处理文本数据进行特征提取,得到文本特征。由于文本与纹理的特征库中记录有文本以及与文本对应的纹理特征,因此,根据文本特征在文本与纹理的特征库中可以查找到对应的纹理特征。例如,待处理文本数据为穿绿色衬衫的女孩,则可以根据“绿色衬衫”在文本与纹理的特征库中搜索出相关的服装纹理。以及根据“女孩”在文本与纹理的特征库中搜索出相关的面部纹理等。
在步骤S130中,示例性地,语义特征用于表示文本数据与纹理数据结合的特征,其中,语义特征可以通过向量进行表示。具体地,可以是对待处理文本数据进行特征提取得到文本特征,将文本特征与纹理特征进行融合得到语义特征;还可以是根据编码器等模型对待处理文本数据和纹理特征进行融合生成对应的语义特征。
在步骤S140中,示例性地,生成的虚拟形象可以是半身的形象,还可以是全身的形象。可选地,若需要生成半身的形象,那么在文本与纹理的特征库中可以只保存上半身相关的纹理特征,例如,上衣等。若需要生成全身的形象,那么在文本与纹理的特征库中保存上半身和下半身相关的纹理特征,例如,上衣、下装(如裤子)等。
可选地,可以是预先根据语义特征对神经网络模型进行训练,使得训练好的神经网络模型可以根据语义特征生成虚拟形象。
可选地,还可以是利用解码器对所述语义特征进行解码,得到所述虚拟形象。具体地,在编码器-解码器训练时,根据编码器-解码器对图像进行训练以实现图像重建。在使用训练好的编码器-解码器时,编码器将文本特征与纹理特征进行融合得到语义特征,解码器根据语义特征重建图像,从而得到虚拟形象。
在本申请的技术方案中,利用文本与纹理的特征库,确定获取到的待处理文本数据对应的纹理特征,基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征,再根据语义特征生成虚拟形象,这样,实现了仅根据文本数据就可以生成个性化的虚拟形象,降低了虚拟形象的生成难度,同时提高了生成效率。进一步地,由于文本与纹理的特征库中记录有文本以及与文本对应的纹理特征,因此,根据待处理文本数据在文本与纹理的特征库中可以查找到对应的纹理特征,引入纹理特征生成虚拟形象,进一步提高了生成的虚拟形象的准确性。
在一种实施方式中,所述利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征,步骤S120包括:
S210、计算所述待处理文本数据与所述文本与纹理的特征库中的各个纹理特征的相似度;
S220、将与所述待处理文本数据的相似度高于预设阈值的纹理特征,确定为所述待处理文本数据对应的纹理特征。
示例性地,由于各个用户的语言习惯不同,因此输入的文本或语音可能是多种多样的。因此将待处理文本数据和特征库中的代表各个特征的文本进行相似度计算。具体地,相似度计算可以是余弦相似度计算。将相似度高于预设阈值的文本所对应的纹理特征,确定为待处理文本数据对应的纹理特征。
具体地,对待处理文本数据进行特征提取,可以提取出多个文本特征。将每个文本特征与文本与纹理的特征库中的文本进行余弦相似度计算。将相似度高于预设阈值的文本所对应纹理特征,确定为文本特征对应的纹理特征,从而得到多个文本特征对应的多个纹理特征。
在一种实施方式中,所述文本与纹理的特征库的获取方法包括:
基于训练图像数据和所述训练图像数据对应的训练文本数据中的至少一项,确定所述训练图像数据对应的纹理特征;
将所述纹理特征存储至文本与纹理的特征库。
示例性地,训练图像数据是用于生成文本与纹理的特征库的图像数据,其可以来源于任何的开源数据,如购买的随机拍摄的图像数据、网页上的图像集等。训练文本数据是用于生成文本与纹理的特征库的与训练图像相对应的文本数据,其可以是来源于任何的开源数据,还可以是根据训练图像数据对应输入的描述图像的文本数据。
可选地,当只存在训练图像数据时,则提取训练图像数据中的纹理特征,将纹理特征保存至文本与纹理的特征库中。可选地,当只存在训练文本数据时,将训练文本数据与文本与纹理的特征库中的文本进行相似度对比,将相似度最高的文本所对应的纹理特征确定为训练文本数据对应的纹理特征。
可选地,在训练图像数据存在训练文本数据的情况下,获取训练图像数据及其对应的训练文本数据。在训练时为了使得图像与文本的关系更加准确,因此根据特征提取器(CLIP)提起训练文本数据中的特定特征,其中,特定特征包括:服装特征、面部特征、发型特征等,这样拉近了文本空间和图像空间,从而弥补文本空间难以捕捉细粒度信息的缺陷。再提取训练图像数据中的纹理特征,将纹理特征与文本特征关联并保存至文本与纹理的特征库中。如此,文本与纹理的特征库中保存了精确度较高的纹理特征与文本特征的对应关系,使得文本与纹理的特征库可以为虚拟形象生成阶段提供如服装、面部等纹理参考,有效降低生成虚拟形象的难度,使得最终生成的虚拟形象的服装纹理等细节更加真实。
优选地,所述基于训练图像数据和所述训练图像数据对应的训练文本数据中的至少一项,确定所述训练图像数据对应的纹理特征,包括:
利用编码器对所述训练图像数据和所述训练图像数据对应的训练文本数据进行编码,得到纹理特征。
具体地,提取训练文本数据中的文本特征,根据文本特征约束训练图像数据,以通过编码器将文本特征与其对应的纹理特征进行拼接,得到携带文本特征的纹理特征。使得纹理特征与文本相关,从而根据文本可以在文本与纹理的特征库中确定纹理特征,进而可以提升生成虚拟形象的效率。
优选地,将所述纹理特征存储至文本与纹理的特征库,包括:
基于所述纹理特征与所述文本与纹理的特征库中各个类别的相似度,确定所述纹理特征对应的类别。
示例性地,文本与纹理的特征库中可以包括多个类别的子集,子集的类别可以是按照性别、服装、面部、头部等进行划分,还可以是根据场景(如医院场景、学校场景等)进行划分。每个子集存储有多个相似度较高的纹理特征,这样便于维护层次相关的纹理特征,而且方便后续检索。因此,在存储纹理特征时,需要计算该纹理特征和文本与纹理的特征库中各个子集的余弦相似度,将该纹理特征保存至相似度最高的子集中。
进一步地,在调用文本与纹理的特征库时,可以利用top-k文本检索算法,在文本与纹理的特征库中检索文本特征,以确定文本特征对应的子集。再计算文本特征与子集中各个文本的余弦相似度,从而可以降低计算压力,进而更快速的确定纹理特征。
在本实施例中,生成虚拟形象可以采用编码器-解码器,例如,变分自编码器(Variational Autoencoder,VAE)、矢量量化的生成对抗网络(Vector Quantization-Generative Adversial Network,VQ-GAN)模型等。可选地,由于VAE得到的图像质量不高,因此,在训练VAE时,将KL散度损失正则损失降低,这样即保证了重建质量,同时可以对分布起到一定限制作用。可选地,VQ-GAN网络推理时间和训练难度较大,因此,在训练VQ-GAN网络时,将直接预测离散值改为预测前一层的连续语义空间,这样可有效规避预测长度随着分辨率增加线性增加的难点,又能更好的保证重建效果。
进一步地,为了便于处理纹理更复杂(如几何结构)、类别信息模糊的服装等,在编码器-解码器中增加了原型(prototype)机制,假设有1000个类别,每个类别特征向量为512,随机初始化1000*512个特征向量,每个特征向量相当于一个类别中心,训练过程中对于输入的批量向量与原型计算余弦相似度,并采用指数移动平均(EMA)更新距离最近的原型,如此,实现对纹理特征的分类。
例如,如图3所示,在训练编码器-解码器时,提取训练文本数据中的文本特征,例如,关键词提取。将训练图像数据及其对应的文本特征输入至编码器进行编码,得到文本特征与纹理特征的数据对,根据原型机制在文本与纹理的特征库中查找与文本特征相关的类别,将文本特征与纹理特征的数据对存储至查找到的类别中。根据文本特征与纹理特征生成语义特征,根据解码器对语义特征进行解码,以重建图像,使得重建图像不断接近原图像,如此循环进行训练,得到训练好的编码器-解码器。
在使用训练好的编码器-解码器时,只需根据输入的待处理文本数据在文本与纹理的特征库中确定对应的纹理特征,根据文本特征与纹理特征生成语义特征,根据解码器对语义特征进行解码,生成虚拟形象。
在一种实施方式中,所述基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征,步骤S130包括:
利用所述待处理文本数据和所述纹理特征对预设噪声图像进行去噪处理,并基于去噪后的噪声图像得到所述虚拟形象的语义特征。
示例性地,预设噪声图像可以是随机噪声图像,还可以是预先选定的噪声图像。可选地,噪声图像可以是任意图像进行不断加噪后得到的图像,例如,可以利用马尔可夫高斯模型对图像逐步加噪。
具体地,根据文本驱动语义特征生成可以采用自回归模型,流模型以及扩散模型等,在本实施例中,由于扩散模型完备的数学理论推导,训练稳定,效果较好等因素,因此采用扩散模型。可以根据待处理文本数据、纹理特征作为扩散模型的引导条件对预设噪声图像进行去噪处理,得到去噪后的图像,可以是直接将去噪后的图像作为虚拟形象的语义特征。还可以是对去噪后的图像进行特征提取,得到虚拟形象的语义特征,再将语义特征进行解码,从而得到虚拟形象。如此,实现根据纹理特征和文本数据生成虚拟形象。
在一种实施方式中,如图4所示,所述利用所述待处理文本数据和所述纹理特征对预设噪声图像进行去噪处理,并基于去噪后的噪声图像得到所述虚拟形象的语义特征,包括:
S410、根据时间信息确定所述预设噪声图像;
S420、利用所述待处理文本数据、所述纹理特征以及去噪约束信息对预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征;其中,所述去噪约束信息包括所述时间信息和/或预设的姿态信息。
示例性地,时间信息用于表示当前时刻。姿态信息用于表示虚拟形象的姿态。姿态信息可以是用户根据需要输入的。例如,站立状态等。
可选地,由于光照会影响虚拟形象的生成,因此,根据时间信息选择对应的噪声图像。再获取姿态信息,利用待处理文本数据、纹理特征和姿态信息预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征。
可选地,根据时间信息选择对应的噪声图像。利用待处理文本数据、纹理特征和时间信息预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征。
可选地,根据时间信息选择对应的噪声图像。利用待处理文本数据、纹理特征、姿态信息和时间信息预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征。
由此可见,在文本数据和纹理特征的基础上增加时间信息和/或姿态信息,可以实现虚拟形象的姿态、脸部、服装等动态编辑,从而更准确地控制虚拟形象的生成。
在一种实施方式中,所述利用所述待处理文本数据、所述纹理特征以及所述去噪约束信息对预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征,步骤S420包括:
基于预设的纹理引导系数、所述预设噪声图像、所述纹理特征以及所述去噪约束信息,确定纹理噪声;
基于预设的文本引导系数、所述预设噪声图像、所述待处理文本数据以及所述去噪约束信息,确定文本噪声;
基于所述纹理噪声和文本噪声对所述预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征。其中,预设的文本引导系数和预设的纹理引导系数是根据经验设置的数值,可以根据实际需要设置系数,在此不作限定。
在本实施例中,如图5所示,采用扩散模型生成语义特征,扩散模型其利用马尔可夫高斯模型逐步加噪,最后收敛到标准高斯分布,而测试过程是去噪过程(即噪声预测网络),去噪过程采用了u-net结构。在训练扩散模型时,利用马尔可夫高斯模型对训练图像数据进行逐步加噪,得到当前时刻(即时间信息)的噪声图像。将编码器-解码器中编码器得到的纹理特征、文本特征(如“扎着马尾,穿着绿色衬衫的职业女性”)、姿态信息以及时间信息作为引导条件输入至u-net结构对噪声图像进行去噪,从而得到语义特征,语义特征输入至编码器-解码器中的解码器,进行图像重建,如此不断对模型进行训练,得到训练好的扩散模型和编码器-解码器。其中,文本特征是对训练文本数据进行关键词提取得到的。
当使用训练好的扩散模型和编码器-解码器时,根据输入的待处理文本数据在文本与纹理的特征库中确定对应的纹理特征,根据文本特征、纹理特征、姿态信息作为噪声预测网络的引导条件,以使噪声预测网络进行去噪输出语义特征,再将语义特征输入至编码器-解码器的解码器,对语义特征进行解码生成虚拟形象,如此能够快速生成虚拟形象。
例如,根据预设的纹理引导系数、预设噪声图像、纹理特征以及时间信息,确定纹理噪声;根据预设的文本引导系数、预设噪声图像、待处理文本数据以及时间信息,确定文本噪声,具体参见如下公式:
texture=wt*∈θ(Xt,Ctexture,Ctext,t)-(wt-1)*∈θ(Xt,Ctexture,t)
text=wtext*∈θ(Xt,Ctexture,Ctext,t)-(wtext-1)*∈θ(Xt,Ctext,t)
其中,Ctexture表示纹理引导(即纹理特征),Ctext表示文本引导(即文本特征),t表示时间信息,wtext表示文本引导系数,wt表示纹理引导系数,Xt表示噪声图像,∈θ表示噪声预测网络,∈texture表示纹理噪声,∈text表示文本噪声。
在一种实施方式中,在所述基于虚拟形象的语义特征生成虚拟形象之后,还包括:
基于调整文本数据确定所述虚拟形象的待编辑区域;所述调整文本数据包括用于对生成的虚拟形象进行调整的文本;
基于所述调整文本数据以及所述调整文本数据对应的调整纹理特征对所述虚拟形象的待编辑区域进行调整,得到目标虚拟形象。
示例性地,调整文本数据用于表示用户输入的对生成的虚拟图像进行调整的文本数据或语音数据。待编辑区域用于表示需要进行调整的区域。可选地,可以直接将用户输入的文本数据或语音数据作为调整文本数据。还可以是将用户输入的待处理文本数据与第二次输入的文本数据或语音数据进行对比,将上述两者之间的区别作为调整文本数据。例如,待处理文本数据(即原始描述)为:“一个扎着马尾,穿白色衬衫的女生”,生成虚拟形象后再次输入:“一个扎着马尾,穿白色衬衫的女生,眼睛大一点”,则调整文本数据为“眼睛大一点”,那么待编辑区域定位到“眼睛”。
具体地,在确定调整文本数据后,根据调整文本数据确定待编辑区域,根据调整文本数据在文本与纹理的特征库中确定对应的调整纹理特征,只根据调整纹理特征和调整文本数据调整待编辑区域,从而实现虚拟形象的局部二次编辑。
在一种实施方式中,所述基于所述调整文本数据以及所述调整文本数据对应的调整纹理特征对所述虚拟形象的待编辑区域进行调整,得到目标虚拟形象,包括:
基于所述待编辑区域确定所述虚拟形象的部分噪声图像;
利用所述待编辑区域在所述虚拟形象对应的掩码图像中定位保留掩码区域图像;
基于所述部分噪声图像和所述保留掩码区域图像生成融合图像;
基于所述调整文本数据以及所述调整文本数据对应的调整纹理特征对对所述融合图像进行去噪处理,得到目标语义特征;
基于所述目标语义特征生成所述目标虚拟形象。
示例性地,在需要对虚拟形象进行调整(即二次编辑)时,可以基于扩散模型可采用DDIM类确定性反向采样到具体噪声,采样某一个时间T的噪声图像。如此可以根据时间信息反向采样到对应虚拟形象的噪声图像。根据待编辑区域在噪声图像中选择对应的部分噪声图像,并确定虚拟形象对应的掩码图像,在掩码图像中确定待编辑区域对应的掩码区域图像。在掩码图像中去除掩码区域图像得到保留掩码区域图像。再将部分噪声图像和保留掩码区域图像生成融合图像。根据调整文本数据在文本与纹理的特征库中确定对应的调整纹理特征,将调整文本数据和调整纹理特征作为扩散模型的引导条件对融合图像进行去噪处理。如此,可以保证在调整待编辑区域时不改变其他区域,从而提升二次编辑的效果。
优选地,基于所述待编辑区域确定所述虚拟形象的部分噪声图像,包括:
根据所述待编辑区域确定对应的待编辑掩码区域图像;
根据所述虚拟形象对应的噪声图像和所述待编辑掩码区域图像得到所述部分噪声图像。
示例性地,确定虚拟形象对应的掩码图像,根据人体解析方法对掩码图像进行解析,将掩码图像解析为多个掩码区域图像,利用待编辑区域在多个掩码区域图像中选择对应的目标掩码区域图像,在掩码图像中去除目标掩码区域图像得到保留掩码区域图像。再将部分噪声图像和保留掩码区域图像生成融合图像。具体公式如下:
Xt=M*Xori+(1-M)*Xnew
其中,M表示掩码区域图像,Xori表示虚拟形象在t时候的加噪图像,Xnew表示在t时刻虚拟形象对应的掩码图像。
在本实施例中,如图6所示,在训练编码器-解码器时,由于需要支持虚拟形象额二次编辑,可以将训练图像数据以及训练图像数据的掩码图像输入至编码器进行训练,这样可以根据掩码区域图像提取虚拟形象的部件特征,可随机改变虚拟形象具体某一区域,而保证其他区域维持原始信息,比如“眼睛再大一点”,则可抽取眼睛区域,进行二次编辑。
示例性装置
相应的,图7是根据本申请一实施例的虚拟形象的生成装置的结构示意图。在一示例性实施例中,提供了一种虚拟形象的生成装置,包括:
获取模块,用于获取待处理文本数据;
第一处理模块,用于利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;
第二处理模块,用于基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;
生成模块,用于基于所述语义特征生成虚拟形象。
在一种实施方式中,第二处理模块,还用于:
利用所述待处理文本数据和所述纹理特征对预设噪声图像进行去噪处理,并基于去噪后的噪声图像得到所述虚拟形象的语义特征。
在一种实施方式中,所述利用所述待处理文本数据和所述纹理特征对预设噪声图像进行去噪处理,并基于去噪后的噪声图像得到所述虚拟形象的语义特征,包括:
根据时间信息确定所述预设噪声图像;
利用所述待处理文本数据、所述纹理特征以及去噪约束信息对预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征。所述去噪约束信息包括所述时间信息和/或预设的姿态信息;
在一种实施方式中,所述利用所述待处理文本数据、所述纹理特征以及所述去噪约束信息对预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征,包括:
基于预设的纹理引导系数、所述预设噪声图像、所述纹理特征以及所述去噪约束信息,确定纹理噪声;
基于预设的文本引导系数、所述预设噪声图像、所述待处理文本数据以及所述去噪约束信息,确定文本噪声;
基于所述纹理噪声和文本噪声对所述预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征。
在一种实施方式中,所述装置,还包括:
待编辑区域确定模块,用于基于调整文本数据确定所述虚拟形象的待编辑区域;所述调整文本数据包括用于对生成的虚拟形象进行调整的文本;
调整模块,用于基于所述调整文本数据以及所述调整文本数据对应的调整纹理特征对所述虚拟形象的待编辑区域进行调整,得到目标虚拟形象。
在一种实施方式中,所述调整模块,还用于:
基于所述待编辑区域确定所述虚拟形象的部分噪声图像;
利用所述待编辑区域在所述虚拟形象对应的掩码图像中定位保留掩码区域图像;
基于所述部分噪声图像和所述保留掩码区域图像生成融合图像;
基于所述调整文本数据以及所述调整文本数据对应的调整纹理特征对对所述融合图像进行去噪处理,得到目标语义特征;
基于所述目标语义特征生成所述目标虚拟形象。
在一种实施方式中,基于所述待编辑区域确定所述虚拟形象的部分噪声图像,包括:
根据所述待编辑区域确定对应的待编辑掩码区域图像;
根据所述虚拟形象对应的噪声图像和所述待编辑掩码区域图像得到所述部分噪声图像。
在一种实施方式中,所述第一处理模块,包括:
计算模块,用于计算所述待处理文本数据与所述文本与纹理的特征库中的各个纹理特征的相似度;
执行模型,用于将与所述待处理文本数据的相似度高于预设阈值的纹理特征,确定为所述待处理文本数据对应的纹理特征。
在一种实施方式中,所述文本与纹理的特征库的获取方法包括:
基于训练图像数据和所述训练图像数据对应的训练文本数据中的至少一项,确定所述训练图像数据对应的纹理特征;
将所述纹理特征存储至文本与纹理的特征库。
在一种实施方式中,所述基于训练图像数据和所述训练图像数据对应的训练文本数据中的至少一项,确定所述训练图像数据对应的纹理特征,包括:
利用编码器对所述训练图像数据和所述训练图像数据对应的训练文本数据,得到纹理特征。
在一种实施方式中,将所述纹理特征存储至文本与纹理的特征库,包括:
基于所述纹理特征与所述文本与纹理的特征库中各个类别的相似度,确定所述纹理特征对应的类别。
在一种实施方式中,所述生成模块,还用于:
利用解码器对所述语义特征进行解码,得到所述虚拟形象。
本实施例提供的虚拟形象的生成装置,与本申请上述实施例所提供的虚拟形象的生成方法属于同一申请构思,可执行本申请上述任意实施例所提供的虚拟形象的生成方法,具备执行虚拟形象的生成方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的虚拟形象的生成方法的具体处理内容,此处不再加以赘述。
示例性电子设备
本申请另一实施例还提出一种电子设备,参见图8所示,该设备包括:
存储器800和处理器810;
其中,所述存储器800与所述处理器810连接,用于存储程序;
所述处理器810,用于通过运行所述存储器800中存储的程序,实现上述任一实施例公开的虚拟形象的生成方法。
具体的,上述电子设备还可以包括:总线、通信接口820、输入设备830和输出设备840。
处理器810、存储器800、通信接口880、输入设备830和输出设备840通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器810可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器810可包括主处理器,还可包括基带芯片、调制解调器等。
存储器800中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器800可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备830可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备840可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口820可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器810执行存储器800中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的任意一种虚拟形象的生成方法的各个步骤。
示例性计算机程序产品和存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的虚拟形象的生成方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的虚拟形象的生成方法中的步骤。
上述的电子设备的具体工作内容,以及上述的计算机程序产品和存储介质上的计算机程序被处理器运行时的具体工作内容,均可以参见上述的方法实施例的内容,此处不再赘述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种虚拟形象的生成方法,其特征在于,包括:
获取待处理文本数据;
利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;
基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;
基于所述语义特征生成虚拟形象。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征,包括:
利用所述待处理文本数据和所述纹理特征对预设噪声图像进行去噪处理,并基于去噪后的噪声图像得到所述虚拟形象的语义特征。
3.根据权利要求2所述的方法,其特征在于,所述利用所述待处理文本数据和所述纹理特征对预设噪声图像进行去噪处理,并基于去噪后的噪声图像得到所述虚拟形象的语义特征,包括:
根据时间信息确定所述预设噪声图像;
利用所述待处理文本数据、所述纹理特征以及去噪约束信息对预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征;其中,所述去噪约束信息包括所述时间信息和/或预设的姿态信息。
4.根据权利要求3所述的方法,其特征在于,所述利用所述待处理文本数据、所述纹理特征以及所述去噪约束信息对预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征,包括:
基于预设的纹理引导系数、所述预设噪声图像、所述纹理特征以及所述去噪约束信息,确定纹理噪声;
基于预设的文本引导系数、所述预设噪声图像、所述待处理文本数据以及所述去噪约束信息,确定文本噪声;
基于所述纹理噪声和文本噪声对所述预设噪声图像进行去噪处理,得到所述虚拟形象的语义特征。
5.根据权利要求1所述的方法,其特征在于,在所述基于虚拟形象的语义特征生成虚拟形象之后,还包括:
基于调整文本数据确定所述虚拟形象的待编辑区域;所述调整文本数据包括用于对生成的虚拟形象进行调整的文本;
基于所述调整文本数据以及所述调整文本数据对应的调整纹理特征对所述虚拟形象的待编辑区域进行调整,得到目标虚拟形象。
6.根据权利要求5所述的方法,其特征在于,所述基于所述调整文本数据以及所述调整文本数据对应的调整纹理特征对所述虚拟形象的待编辑区域进行调整,得到目标虚拟形象,包括:
基于所述待编辑区域确定所述虚拟形象的部分噪声图像;
利用所述待编辑区域在所述虚拟形象对应的掩码图像中定位保留掩码区域图像;
基于所述部分噪声图像和所述保留掩码区域图像生成融合图像;
基于所述调整文本数据以及所述调整文本数据对应的调整纹理特征对对所述融合图像进行去噪处理,得到目标语义特征;
基于所述目标语义特征生成所述目标虚拟形象。
7.根据权利要求6所述的方法,其特征在于,基于所述待编辑区域确定所述虚拟形象的部分噪声图像,包括:
根据所述待编辑区域确定对应的待编辑掩码区域图像;
根据所述虚拟形象对应的噪声图像和所述待编辑掩码区域图像得到所述部分噪声图像。
8.根据权利要求1所述的方法,其特征在于,所述利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征,包括:
计算所述待处理文本数据与所述文本与纹理的特征库中的各个纹理特征的相似度;
将与所述待处理文本数据的相似度高于预设阈值的纹理特征,确定为所述待处理文本数据对应的纹理特征。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述文本与纹理的特征库的获取方法包括:
基于训练图像数据和所述训练图像数据对应的训练文本数据中的至少一项,确定所述训练图像数据对应的纹理特征;
将所述纹理特征存储至文本与纹理的特征库。
10.根据权利要求9所述的方法,其特征在于,所述基于训练图像数据和所述训练图像数据对应的训练文本数据中的至少一项,确定所述训练图像数据对应的纹理特征,包括:
利用编码器对所述训练图像数据和所述训练图像数据对应的训练文本数据进行编码,得到纹理特征。
11.根据权利要求9所述的方法,其特征在于,将所述纹理特征存储至文本与纹理的特征库,包括:
基于所述纹理特征与所述文本与纹理的特征库中各个类别的相似度,确定所述纹理特征对应的类别。
12.根据权利要求1或10所述的方法,其特征在于,所述基于所述语义特征生成虚拟形象,包括:
利用解码器对所述语义特征进行解码,得到所述虚拟形象。
13.一种虚拟形象的生成装置,其特征在于,包括:
获取模块,用于获取待处理文本数据;
第一处理模块,用于利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;
第二处理模块,用于基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;
生成模块,用于基于所述语义特征生成虚拟形象。
14.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器,通过运行所述存储器中的程序,实现如权利要求1至12中任意一项虚拟形象的生成方法。
15.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程度被处理器运行时,实现如权利要求1至12中任意一项虚拟形象的生成方法。
CN202211435654.8A 2022-11-16 2022-11-16 虚拟形象的生成方法、装置、设备及存储介质 Pending CN115908657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211435654.8A CN115908657A (zh) 2022-11-16 2022-11-16 虚拟形象的生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211435654.8A CN115908657A (zh) 2022-11-16 2022-11-16 虚拟形象的生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115908657A true CN115908657A (zh) 2023-04-04

Family

ID=86487366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211435654.8A Pending CN115908657A (zh) 2022-11-16 2022-11-16 虚拟形象的生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115908657A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701692A (zh) * 2023-08-04 2023-09-05 浪潮(北京)电子信息产业有限公司 一种图像生成方法、装置、设备及介质
CN116993876A (zh) * 2023-09-28 2023-11-03 世优(北京)科技有限公司 生成数字人形象的方法、装置、电子设备及存储介质
CN117152283A (zh) * 2023-07-28 2023-12-01 华院计算技术(上海)股份有限公司 一种利用扩散模型的语音驱动人脸图像生成方法及系统
CN117274450A (zh) * 2023-11-21 2023-12-22 长春职业技术学院 基于人工智能的动画形象生成系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152283A (zh) * 2023-07-28 2023-12-01 华院计算技术(上海)股份有限公司 一种利用扩散模型的语音驱动人脸图像生成方法及系统
CN116701692A (zh) * 2023-08-04 2023-09-05 浪潮(北京)电子信息产业有限公司 一种图像生成方法、装置、设备及介质
CN116701692B (zh) * 2023-08-04 2023-11-03 浪潮(北京)电子信息产业有限公司 一种图像生成方法、装置、设备及介质
CN116993876A (zh) * 2023-09-28 2023-11-03 世优(北京)科技有限公司 生成数字人形象的方法、装置、电子设备及存储介质
CN116993876B (zh) * 2023-09-28 2023-12-29 世优(北京)科技有限公司 生成数字人形象的方法、装置、电子设备及存储介质
CN117274450A (zh) * 2023-11-21 2023-12-22 长春职业技术学院 基于人工智能的动画形象生成系统及方法
CN117274450B (zh) * 2023-11-21 2024-01-26 长春职业技术学院 基于人工智能的动画形象生成系统及方法

Similar Documents

Publication Publication Date Title
US10489683B1 (en) Methods and systems for automatic generation of massive training data sets from 3D models for training deep learning networks
CN115908657A (zh) 虚拟形象的生成方法、装置、设备及存储介质
Kucer et al. Leveraging expert feature knowledge for predicting image aesthetics
CN108846792B (zh) 图像处理方法、装置、电子设备及计算机可读介质
Singh et al. Neural style transfer: A critical review
Liu et al. A 3 GAN: an attribute-aware attentive generative adversarial network for face aging
US11507781B2 (en) Methods and systems for automatic generation of massive training data sets from 3D models for training deep learning networks
EP3408836A1 (en) Crowdshaping realistic 3d avatars with words
CN108182232A (zh) 基于电子书的人物展示方法、电子设备及计算机存储介质
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
Cheng et al. Controllable image synthesis via segvae
CN116977774A (zh) 图像生成方法、装置、设备和介质
Hukkelås et al. Image inpainting with learnable feature imputation
Nickabadi et al. A comprehensive survey on semantic facial attribute editing using generative adversarial networks
CN117726897B (zh) 训练数据生成方法、装置、电子设备和存储介质
Brown et al. End-to-end visual editing with a generatively pre-trained artist
Galatolo et al. TeTIm-Eval: a novel curated evaluation data set for comparing text-to-image models
Fernandes et al. Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs
Zhang et al. MMGInpainting: Multi-Modality Guided Image Inpainting Based On Diffusion Models
Huang et al. Caripainter: Sketch guided interactive caricature generation
Liu et al. A3GAN: An attribute-aware attentive generative adversarial network for face aging
CN113538214B (zh) 一种妆容迁移的控制方法、系统和存储介质
Donoso et al. Survey on Sketch-to-photo Translation
Mathew An Overview of Text to Visual Generation Using GAN
He Exploring style transfer algorithms in Animation: Enhancing visual

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination