CN115392216A

CN115392216A - 一种虚拟形象生成方法、装置、电子设备及存储介质

Info

Publication number: CN115392216A
Application number: CN202211326587.6A
Authority: CN
Inventors: 左童春; 周良; 何山; 胡金水; 刘聪; 殷兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2022-11-25
Anticipated expiration: 2042-10-27
Also published as: CN115392216B

Abstract

本申请提供一种虚拟形象生成方法、装置、电子设备及存储介质，所述虚拟形象生成方法，在生成虚拟形象的过程中，基于对期望虚拟形象的描述文本的分析，获得了期望虚拟形象的整体形象描述文本和局部形象描述文本，实现了对所述描述文本的细粒度解耦，有利于从整体到局部的更全面把握虚拟形象的特征。之后，基于对整体形象描述文本和局部形象描述文本的联合预测，得到了参考了整体形象特征的、与所述局部形象描述文本对应的预测形象特征，即可以实现对预测虚拟形象的局部形象的控制，同时也考虑了预测虚拟形象的整体形象，提高了虚拟形象的局部形象与整体形象之间的关联，同时也提高了生成的虚拟形象的质量。

Description

一种虚拟形象生成方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种虚拟形象生成方法、装置、电子设备及存储介质。

背景技术

文字与图像作为两种不同类型的信息载体，在人们的日常生活中起着重要的作用。在日常生活中，通过给定文本生成虚拟形象的应用十分广泛，例如：游戏中人物、场景的设计，元宇宙虚拟世界的设计，以及艺术创作、室内装修等领域。

现有技术中，通常使用基于生成对抗网络的文图生成算法和基于扩散模型的文图生成算法实现通过给定文本生成虚拟形象。但在通过上述两种算法生成虚拟形象的过程中，存在难以控制虚拟形象局部区域的生成的问题，且生成的虚拟形象质量较差。

因此，如何根据给定文本生成对应的高质量虚拟形象成为本领域技术人员亟需解决的技术问题。

发明内容

本申请提供一种虚拟形象的生成方法、装置、电子设备及存储介质，以解决如何根据给定文本生成对应的高质量虚拟形象的问题。

根据本申请实施例的第一方面，提供了一种虚拟形象生成方法，包括：

从用户对期望虚拟形象的描述文本中，获得对所述期望虚拟形象的整体形象描述文本和局部形象描述文本；

将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征；

基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象。

在本申请的一种可选实施方式中，所述从用户对期望虚拟形象的描述文本中，获得对所述期望虚拟形象的整体形象描述文本和局部形象描述文本，包括：

对所述描述文本进行分词处理，获得所述描述文本的各分词文本；

对所述各分词文本进行整体形象关键词匹配，确定所述期望虚拟形象的整体形象描述文本；

对所述各分词文本进行局部形象关键词匹配，确定所述期望虚拟形象的局部形象描述文本。

在本申请的一种可选实施方式中，所述基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象，包括：

将与每个局部形象描述文本对应的预测形象特征进行融合处理，得到融合形象特征图；

基于所述融合形象特征图生成虚拟形象。

在本申请的一种可选实施方式中，将局部形象描述文本与所述整体形象描述文本进行联合形象预测，得到与所述局部形象对应的预测形象特征，包括：

将局部形象描述文本和所述整体形象描述文本输入与该局部形象对应的特征生成器，以使该特征生成器基于获得的文本进行联合形象预测，得到与所述局部形象描述文本对应的预测形象特征。

在本申请的一种可选实施方式中，所述将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征；以及，基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象，包括：

将各个局部形象描述文本和所述整体形象描述文本输入预先训练的虚拟形象生成模型，以使所述虚拟形象生成模型将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征；以及，基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象。

在本申请的一种可选实施方式中，所述将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征，包括：

将整体形象描述文本分别输入虚拟形象生成模型的每个特征生成器，以及将各局部形象描述文本输入对应的各个特征生成器，以使各个特征生成器分别对获得的整体形象描述文本和局部形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征。

在本申请的一种可选实施方式中，所述虚拟形象生成模型的各特征生成器通过以下方式得到：

对所述虚拟形象生成模型的隐空间进行语义分割，得到用于分析不同躯体部位的语义特征的特征生成器。

在本申请的一种可选实施方式中，所述虚拟形象生成模型通过以下方式训练得到：

获得样本描述文本，以及所述虚拟生成模型基于所述样本描述文本生成的虚拟形象的图像和遮罩图；

将所述虚拟形象的图像和遮罩图，输入预先训练的判别器，以使所述判别器分析得到所述虚拟形象的整体形象与所述样本描述文本的整体形象描述文本之间的第一相关性，以及，分析得到所述虚拟形象的局部形象与所述样本描述文本的局部形象描述文本之间的第二相关性；

根据所述第一相关性和所述第二相关性，训练所述虚拟形象生成模型。

在本申请的一种可选实施方式中，所述判别器通过以下方式训练得到：

获取样本形象的样本图像和所述样本图像的遮罩图；其中，所述样本图像标注有所述样本形象的描述文本；

将所述样本图像和所述样本图像的遮罩图输入预先构建的判别器，以使所述判别器对所述样本图像和所述样本图像的遮罩图进行整体形象特征分析，获得所述样本图像的整体图像特征；以及，对所述样本图像和所述样本图像的遮罩图进行局部形象特征分析，获得所述样本图像的局部图像特征；

从所述样本形象的描述文本中获得所述样本形象的整体形象描述文本和局部形象描述文本；

确定所述样本图像的整体图像特征与所述样本图像的整体形象描述文本之间的第三相关性；以及，确定所述样本图像的局部图像特征与所述样本图像的局部形象描述文本之间的第四相关性；

根据所述第三相关性和所述第四相关性，训练所述预先构建的判别器。

在本申请的一种可选实施方式中，还包括：

获取针对所述虚拟形象的调整文本；

根据所述调整文本，对生成的与所述描述文本对应的虚拟形象进行调整，获得调整后的虚拟形象。

根据本申请实施例的第二方面，提供了一种虚拟形象生成装置，包括：

获得单元，用于从用户对期望虚拟形象的描述文本中，获得对所述期望虚拟形象的整体形象描述文本和局部形象描述文本；

预测单元，用于将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征；

生成单元，用于基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象。

根据本申请实施例的第三方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于通过运行所述存储器中的指令，执行上述虚拟形象生成方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器运行时，执行上述虚拟形象生成方法。

与现有技术相比，本申请具有以下优点：

本申请提供的虚拟形象生成方法、装置、电子设备及存储介质，本申请在生成虚拟形象的过程中，基于对期望虚拟形象的描述文本的分析，获得了期望虚拟形象的整体形象描述文本和局部形象描述文本，实现了对所述描述文本的细粒度解耦，有利于从整体到局部的更全面把握虚拟形象的特征。之后，基于对整体形象描述文本和局部形象描述文本的联合预测，得到了参考了整体形象特征的、与所述局部形象描述文本对应的预测形象特征，即可以实现对预测虚拟形象的局部形象的控制，同时也考虑了预测虚拟形象的整体形象，提高了虚拟形象的局部形象与整体形象之间的关联，同时也提高了生成的虚拟形象的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请一实施例提供的虚拟形象处理方法应用场景示意图；

图2为本申请另一实施例提供的虚拟形象生成方法流程图；

图3为本申请另一实施例提供的通过预设的文本库进行关键词匹配的匹配示意图；

图4为本申请另一实施例提供的虚拟形象生成模型的结构示意图；

图5为本申请另一实施例提供的虚拟形象生成装置结构示意图；

图6为本申请另一实施例提供的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决上述技术问题，本申请提供一种虚拟形象生成方法、装置、电子设备及存储介质，在以下的实施例中将逐一进行详细说明。

示例性实施环境

首先，为了便于理解本申请提供的虚拟形象处理方法的具体应用场景，以下结合所述虚拟形象处理方法的具体应用场景对该方法进行介绍。

请参考图1，图1为本申请一实施例提供的虚拟形象处理方法应用场景示意图。

本申请实施例描述了一种基于用户在游戏角色创建界面输入的对虚拟人物形象的描述文本，生成对应的虚拟游戏角色的过程。

图1中包括：用户101、计算机102、虚拟角色103，其中，计算机102中配置有描述文本获得单元102-1、角色形象预测单元102-2、角色形象生成单元102-3。

用户101可以理解为正在计算机102展示的游戏界面中进行游戏角色创建的游戏玩家。

进一步的，待用户101在计算机102中输入针对虚拟游戏角色的形象描述文本后，计算机102通过描述文本获得单元102-1，接收所述针对虚拟游戏人物的描述文本，并从所述描述文本中获得对所述虚拟游戏角色的整体形象描述文本和局部形象描述文本，并将上述文本发送至角色形象预测单元102-2。

比如说，假设用户101在计算机102中输入的针对虚拟游戏人物的描述文本为“圆眼睛、长发、气质的美女”时，计算机102的文本描述获得单元102-1可以根据上述描述文本，获得“圆眼睛”、“长发”两个局部形象描述文本，以及获得“气质的美女”这一个整体形象描述文本。

进一步的，角色形象预测单元102-2接收所述整体形象描述文本和所述局部形象描述文本后，对所述整体形象描述文本和所述局部形象描述文本进行联合预测，获得针对所述虚拟游戏人物的每个局部形象的预测形象特征，并将所述预测形象特征发送至角色生成单元102-3。

最后，通过角色形象生成单元102-3，生成虚拟角色103，并将虚拟角色103发送至计算机102的显示界面。

可以理解的，以上对本申请场景实施例的介绍只是为了便于更好的理解本申请提供的所述虚拟形象处理方法，而非用于对所述虚拟形象处理方法的应用场景进行限定，所述虚拟形象处理方法还可以应用于其他场景，比如说，用于创建虚拟主播、虚拟动物等等。

示例性方法

在本申请的一示例性实施例中，提供一种虚拟形象生成方法，其核心在于：基于对期望虚拟形象的描述文本的分析，获得期望虚拟形象的整体形象描述文本和局部形象描述文本，实现对所述描述文本的细粒度解耦，有利于从整体到局部的更全面把握虚拟形象的特征。之后，基于对整体形象描述文本和局部形象描述文本的联合预测，得到了参考了整体形象特征的、与所述局部形象描述文本对应的预测形象特征，即实现对预测虚拟形象的局部形象的控制，也考虑了预测虚拟形象的整体形象，提高了虚拟形象的局部形象与整体形象之间的关联，同时也提高了生成的虚拟形象的质量。

在本申请的一种可选实施方式中，所述虚拟形象生成方法的实施主体可以是笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备（例如，移动电话，个人数字助理，专用消息设备，游戏主机）等各种类型的用户终端或者是这些数据处理设备中的任意两个或多个的组合，也可以是服务器。

请参考图2，图2为本申请另一实施例提供的虚拟形象生成方法流程图。

如图2所示，该方法包括以下步骤S201至步骤S203：

步骤S201，从用户对期望虚拟形象的描述文本中，获得对所述期望虚拟形象的整体形象描述文本和局部形象描述文本。

所述期望虚拟形象可以理解为用户想要获得的虚拟形象，相应的，所述期望虚拟形象的描述文本可以理解为用户对所述期望虚拟形象的描述信息。比如说，所述期望虚拟形象的描述文本可以为：圆眼睛、长发、气质的美女；又比如说，所述期望虚拟形象的描述文本也可以为：小耳朵、毛茸茸的猫等。

在本申请的一种可选实施方式中，所述用户对期望虚拟形象的描述文本可以基于用户输入的文本信息获得，也可以通过对用户的语音进行进行识别获得。对此，本申请不做限制。

进一步的，所述期望虚拟形象的整体形象描述文本可以理解为描述文本中对所述期望虚拟形象的整体形象的描述文本，比如说：当描述文本为“圆眼睛、长发、气质的美女”时，所述整体形象描述文本可以为“气质的美女”；所述局部形象描述文本则可以理解为所述描述文本中对所述期望虚拟形象不同躯体部位的描述文本，比如说，当描述文本为“小耳朵、毛茸茸的猫”时，所述局部形象描述文本可以为“小耳朵”。

示例性的，可以通过对期望虚拟形象的描述文本进行语义识别处理，从中识别对期望虚拟形象的整体形象描述文本，以及对期望虚拟形象的局部形象描述文本。例如：基于预先标注有整体形象描述文本和局部形象描述文本的虚拟形象描述文本，对语义识别模型进行训练，然后借助该语义识别模型，从期望虚拟形象的描述文本中识别出整体形象描述文本和局部形象描述文本。

在本申请的另一种可选实施方式中，上述步骤S201包括以下步骤S1至步骤S3：

步骤S1，对所述描述文本进行分词处理，获得所述描述文本的各分词文本；

步骤S2，对所述各分词文本进行整体形象关键词匹配，确定所述期望虚拟形象的整体形象描述文本；

步骤S3，对所述各分词文本进行局部形象关键词匹配，确定所述期望虚拟形象的局部形象描述文本。

其中，对所述描述文本进行分词处理，获得所述描述文本的各分词文本的过程可以基于通过深度学习获得的分词模型实现，也可以通过人工分词实现，对此，本申请不做限制。

进一步的，步骤S2和步骤S3中的对所述分词文本进行整体形象关键词匹配和对所述分词文本进行局部形象匹配的过程可以通过预设的文本库实现。

请参考图3，图3为本申请另一实施例提供的通过预设的文本库进行关键词匹配的匹配示意图。

如图3所示，图3中包括：整体形象文本库301、第一局部形象文本库302、描述文本中的第一分词303、描述文本中的第二分词304。

其中，整体形象文本库301中包括若干对人的整体形象的描述文本，如：清纯可爱的邻家妹妹、时尚的都市美女等等；第一局部形象描述文本库302中包括若干对眼睛的描述文本，如：圆眼、长眼等等；假设第一分词303具体为“调皮可爱的女生”，第二分词304具体为“一双美丽的大眼睛”。

进一步的，在获得第一分词303后，计算第一分词303与整体形象文本库301中的各个文本库文本之间的相似度，并确定相似度最大的文本库文本为与第一分词303匹配的整体形象描述文本。

比如说，如图3所示，第一分词303具体为“调皮可爱的女生”，与之匹配的整体形象描述文本为整体形象文本库301中的“清纯可爱的邻家妹妹”。

类似的，在获得第二分词304后，计算第二分词304与第一局部形象文本库302中的各个文本库文本之间的相似度，并确定相似度最大的文本库文本为与第二分词304匹配的局部形象描述文本。

比如说，如图3所示，第二分词304具体为“一双美丽的大眼睛”，则与之匹配的局部形象描述文本为第一局部形象文本库302中的“圆眼”。

需要说明的是，上述通过预设的文本库实现整体形象和局部形象的关键词匹配只是本申请的一种可选实施方式，在其他实施方式中，也可以采用分词后得到的各分词文本作为所述整体形象描述文本和所述局部形象描述文本，对此，本申请不做限制。

步骤S202，将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征。

将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测可以理解为，在构建虚拟形象的各个局部形象时，同时兼顾局部形象描述文本和整体形象描述文本，以同时实现对虚拟形象的整体形象控制和局部形象控制。

鉴于上述思想和上述方案的优点，本申请将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征。

具体的，上述步骤S202，包括：

将各个局部形象描述文本和所述整体形象描述文本输入预先训练的虚拟形象生成模型，以使所述虚拟形象生成模型将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征。

所述虚拟形象生成模型可以理解为一种卷积神经网络。在具体应用的过程中，本申请采用机器学习（Machine Learning，ML）的方式训练获得所述虚拟形象生成模型。机器学习（是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科）专用于研究通过训练样本，获取新的知识或技能，重新组织已有知识结构并不不断改善自身性能。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术，属于人工智能（Artificial Intellingence，AI）技术的一个分支。

在本申请的一种可选实施方式中，所述虚拟形象生成模型采用一种改进后的styleGAN2生成器，其中，包括多个用于分析不同躯体部位的语义特征的特征生成器。

为了得到与每个局部形象描述文本对应的预测形象特征，对于任一局部形象描述文本，可以将该局部形象描述文本和整体形象描述文本输入与该局部形象对应的特征生成器，以使该特征生成器基于获得的文本进行联合预测，得到与每个局部形象描述文本对应的预测形象特征。

即，将整体形象描述文本分别输入所述虚拟形象生成模型的每个特征生成器，以及将各局部形象描述文本输入对应的各个特征生成器，以使各个特征生成器分别对获得的整体形象描述文本和局部形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征。

所述不同躯体部位的语义特征的特征生成器可以理解为用于生成低分辨率图像的图像生成器。在本申请的一种可选实施方式中，可以基于对虚拟形象生成模型的隐空间进行语义分割，获得所述多个用于分析不同躯体部位的语义特征生成器。

步骤S203，基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象。

具体的，上述步骤S203，包括：将与每个局部形象描述文本对应的预测形象特征进行融合，得到融合形象特征图；基于所述融合形象特征图生成虚拟形象。其中，所述基于所述融合形象特征图生成的虚拟形象可以是一个也可以是多个，对此，本申请不做限制。

为了便于理解上述实施例提供的虚拟形象生成模型的生成过程，以下结合该模型的生成和训练过程对所述虚拟形象生成模型进行详细介绍。

请参考图4，图4为本申请另一实施例提供的虚拟形象生成模型的结构示意图。

如图4所示，所述虚拟形象生成模型，包括：特征生成器401（图4中的特征生成器1至特征生成器k）、特征融合器402、超分网络403、判别器404、多层感知机405。

其中，特征生成器401用于对输入的所述整体形象描述文本和局部形象描述文本进行联合形象预测，得到每个局部形象描述文本对应的预测形象特征。

在通过特征生成器401对整体形象描述文本和局部形象描述文本进行联合形象预测之前，为了使图4中所示的多个特征生成器401能够分别对不同躯体部位进行语义特征分析，首先，从高斯分布中随机采样一Z向量，并将其通过多层感知机405（MLP，MultilayerPerceptron）生成对应不同躯干部位的W向量（图4中的w₁至w_k），同时将这些W向量分别嵌入各个特征生成器401中，在本申请的一种可选实施方式中，W向量中包括10个子向量。

其次，还需要采集若干标注有样本描述文本的样本图像，并获得所述样本描述文本的各个局部形象描述文本和整体形象描述文本，确定样本描述文本的各个局部形象描述文本特征（图4中的特征2和特征k）和整体形象描述文本特征（图4中的特征1）。

最后，将所述样本描述文本的整体形象描述文本特征嵌入各个特征生成器中的、用于进行整体虚拟形象控制的全连接层；将所述样本描述文本的各局部形象描述文本特征嵌入与各局部信息描述文本对应的特征生成器中的、用于进行局部虚拟形象控制的全连接层。

在本申请的一种可选实施方式中，所述用于针对样本描述文本进行整体虚拟形象控制的全连接层为特征生成器401的浅层；用于针对样本描述文本进行局部虚拟形象控制的全连接层为特征生成器401的中高层。

在本申请的一种可选实施方式中，可以通过图片迁移风格算法，在全连接层实现整体形象描述文本特征和局部形象描述文本特征的嵌入。

在通过上述方式获得特征生成器401后，即可将从用户对期望虚拟形象的描述文本中获得的所述期望虚拟形象的整体形象描述文本输入各特征生成器401，同时将期望虚拟形象的局部形象描述文本输入对应的特征生成器401，以使各特征生成器分别对获得的文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征。

在本申请的一种可选实施方式中，所述局部形象描述文本对应的预测形象特征，包括：预测得到的所述局部形象描述文本的特征图（图4中的特征图f₁至特征图f_k）和预测得到的所述局部形象描述文本的深度图（图4中的d₁至d_k）。

进一步的，在获得各个特征生成器401输出的各局部形象的特征图后，通过特征融合器402将各个局部形象描述文本对应的预测形象特征进行融合，得到融合形象特征图f。

具体的，特征融合器402通过以下公式（1）和公式（2）实现对预测特征的融合：

（1）；

（2）；

其中，f表示所述融合形象特征图，m_k表示第k个局部形象描述文本对应的遮罩图，f_k表示第k个局部形象描述文本对应的特征图，d_k表示第k个局部形象描述文本对应的深度图，d_k’表示第k’个局部形象描述文本对应的深度图，i和j表示深度图各像素点的坐标。

在本申请的一种可选实施方式中，在根据上述公式（2）获得各局部形象描述文本的遮罩图后，还可以将各局部形象描述文本的遮罩图相融合，获得融合形象的遮罩图m。

进一步的，融合形象特征图f，可以理解为一种分辨率较低的虚拟形象的图像，为了获得分辨率高的虚拟形象，还需要将所述融合形象特征图f输入超分网络403，以使超分网络403提高所述融合形象特征图的分辨率，生成与所述描述文本对应的虚拟形象F，也可以将遮罩图m经过超分网络的处理，获得对应虚拟形象F的、分辨率更高的遮罩图M。

在本申请的一种可选实施方式中，如果用户对生成的虚拟形象并不满意，还可以基于用户针对所述虚拟形象的调整文本调整所述虚拟形象。具体的，所述虚拟形象生成方法还包括以下步骤S204和步骤S205：

步骤S204，获取针对所述虚拟形象的调整文本。

比如说，假设根据用户对期望虚拟形象的描述文本生成虚拟形象后，用户认为该虚拟形象的眼睛较大，并不符合期望，则所述针对所述虚拟形象的调整文本可以为“将眼睛变小一些”。

步骤S205，根据所述调整文本，对生成的与所述描述文本对应的虚拟形象进行调整，获得调整后的虚拟形象。

具体的，为了便于对所述虚拟形象进行调整，待所述虚拟形象生成模型生成虚拟形象后，记录前文所述的通过多层感知机（MLP，Multilayer Perceptron）生成对应不同躯干部位的W向量，以通过W向量基于所述调整文本对所述虚拟形象进行微调，获得所述调整后的虚拟形象。

在本申请的一种可选实施方式中，可以通过以下步骤S4至步骤S6对各特征生成器401进行训练，以使各特征生成器具备对整体形象描述文本和局部形象描述文本进行联合形象预测的能力。

步骤S4，获得样本描述文本，以及所述虚拟形象生成模型基于所述样本描述文本生成的虚拟形象的图像和遮罩图。

在本申请实施例中，所述样本描述文本可以理解为在模型训练过程中预先准备的对某个虚拟形象的描述文本，在获得所述样本描述文本后，针对所述样本描述文本进行类似步骤S201的处理，获得所述样本描述文本的整体形象描述文本和局部形象描述文本。

之后，将所述样本描述文本的整体形象描述文本和局部形象描述文本输入所述虚拟形象生成模型，获得所述虚拟形象生成模型的各特征生成器输出的、与各局部形象描述文本对应的虚拟形象的图像和遮罩图。

步骤S5，将所述虚拟形象的图像和遮罩图，输入预先训练的判别器，以使所述判别器分析得到所述虚拟形象的整体形象与所述样本描述文本的整体形象描述文本之间的第一相关性，以及，分析得到所述虚拟形象的局部形象与所述样本描述文本的局部形象描述文本之间的第二相关性。

步骤S6，根据所述第一相关性和所述第二相关性，训练所述虚拟形象生成模型。

进一步的，为了便于理解上述步骤S4至步骤S6提供的虚拟形象生成模型的训练方法，以下对判别器404的训练过程进行介绍：

具体的，判别器404通过以下步骤S7至步骤S11训练获得：

步骤S7，获取样本形象的样本图像和所述样本图像的遮罩图；其中，所述样本图像标注有所述样本形象的描述文本。

所述样本形象可以理解为预先准备的某一虚拟形象的一张或多张图像（如图4中所示的样本图像R’），其中，所述样本图像的遮罩图可以理解为用于体现样本图像不同躯干位置的路径或轮廓图（如图4中所示的样本遮罩图M’）。

在本申请的一种可选实施方式中，为了获得样本图像的遮罩图，在获得所述样本形象的样本图像后，可以先通过特征点检测工具，检测该形象的关键点；之后，基于预设的特征点模板，使用仿射变换将改形象对齐到模板的相应位置；最后，使用现有的分析网络对对齐至模板上的样本图像进行解析，获得所述样本图像的遮罩图。

步骤S8，将所述样本图像和所述样本图像的遮罩图输入预先构建的判别器，以使所述判别器对所述样本图像和所述样本图像的遮罩图进行整体形象特征分析，获得所述样本图像的整体图像特征；以及，对所述样本图像和所述样本图像的遮罩图进行局部形象特征分析，获得所述样本图像的局部图像特征。

步骤S9，从所述样本形象的描述文本中获得所述样本形象的整体形象描述文本和局部形象描述文本。

步骤S10，确定所述样本图像的整体图像特征与所述样本图像的整体形象描述文本之间的第三相关性；以及，确定所述样本图像的局部图像特征与所述样本图像的局部形象描述文本之间的第四相关性。

步骤S11，根据所述第三相关性和所述第四相关性，训练所述预先构建的判别器。

具体的，对所述预先构建的判别器的训练通过以下公式（3）至公式（7）实现：

（3）；

（4）；

（5）；

（6）；

（7）；

公式（3）中，f_img（x_i）表示第i个样本图像的整体图像特征，f_sent（s_i）表示第i个样本图像的整体形象描述文本的文本特征；τ表示所述判别器的第一参数，cos（f_img（x_i），f_sent（s_i））/τ表示样本图像的整体图像特征与所述样本图像的整体形象描述文本之间的第三相关性；L_sent（x_i，s_i）表示所述判别器的第一损失值。

公式（4）中，f_word（w_i）表示样本图像的第i个局部形象描述文本的文本特征，f_region（r_j）表示样本图像中对应所述局部形象描述文本的图像区域的第j个像素区域的像素特征；ρ₁表示所述判别器的第二参数，α_i，j表示样本图像的第i个局部形象描述文本与所述第j个像素区域之间的相关性。

公式（5）中，c_h表示样本图像中对应第h个局部形象描述文本的图像区域的图像特征。

公式（6）中，f_word（w_h）表示样本图像中的第h个局部形象描述文本的文本特征，S_word（x，s）表示样本图像的第h个局部形象描述文本的文本特征与样本图像中的局部图像特征之间的第四相关性，ρ₂表示所述判别器的第三参数。

在公式（7）中，L_word（x_i，s_i）表示所述判别器的第二损失值。

进一步的，在通过上述公式获得所述辨别器的第一损失值和第二损失值后，根据所述第一损失值和所述第二损失值对所述判别器进行参数调整，进而实现对所述辨别器的训练，使所述辨别器能够更好的分析图像与文字之间差异。

综上所述，本申请在生成虚拟形象的过程中，基于对期望虚拟形象的描述文本的分析，获得了期望虚拟形象的整体形象描述文本和局部形象描述文本，实现了对所述描述文本的细粒度解耦，有利于从整体到局部的更全面把握虚拟形象的特征。之后，基于对整体形象描述文本和局部形象描述文本的联合预测，得到了参考了整体形象特征的、与所述局部形象描述文本对应的预测形象特征，即可以实现对预测虚拟形象的局部形象的控制，同时也考虑了预测虚拟形象的整体形象，提高了虚拟形象的局部形象与整体形象之间的关联，同时也提高了生成的虚拟形象的质量。

示例性装置

本申请另一实施例还提出一种虚拟形象生成装置，请参考图5，图5为本申请另一实施例提供的虚拟形象生成装置结构示意图。

如图5所示，该装置包括：

获得单元501，用于从用户对期望虚拟形象的描述文本中，获得对所述期望虚拟形象的整体形象描述文本和局部形象描述文本；

预测单元502，用于将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征；

生成单元503，用于基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象。

在本申请的一种可选实施方式中，获得单元501，包括：

分词子单元，用于对所述描述文本进行分词处理，获得所述描述文本的各分词文本；

第一匹配单元，用于对所述各分词文本进行整体形象关键词匹配，确定所述期望虚拟形象的整体形象描述文本；

第二匹配单元，用于对所述各分词文本进行局部形象关键词匹配，确定所述期望虚拟形象的局部形象描述文本。

在本申请的一种可选实施方式中，生成单元503，包括：

融合子单元，用于将与每个局部形象描述文本对应的预测形象特征进行融合处理，得到融合形象特征图；

生成子单元，用于基于所述融合形象特征图生成虚拟形象。

在本申请的一种可选实施方式中，预测单元502具体用于将局部形象描述文本和所述整体形象描述文本输入与该局部形象对应的特征生成器，以使该特征生成器基于获得的文本进行联合形象预测，得到与所述局部形象描述文本对应的预测形象特征。

在本申请的一种可选实施方式中，还包括：

调整文本获得单元，用于获取针对所述虚拟形象的调整文本；

形象调整单元，用于根据所述调整文本，对生成的与所述描述文本对应的虚拟形象进行调整，获得调整后的虚拟形象。

本实施例提供的虚拟形象生成装置，与本申请上述实施例所提供的虚拟形象生成方法属于同一申请构思，可执行本申请上述任意实施例所提供的虚拟形象生成方法，具备执行所述虚拟形象生成方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的虚拟形象生成方法的具体处理内容，此处不再加以赘述。

示例性电子设备

本申请另一实施例还提出一种电子设备，请参考图6，图6为本申请另一实施例提供的电子设备结构示意图。

如图6所示，该设备包括：存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的虚拟形象生成方法。

具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器（CPU）、微处理器等，也可以是特定应用集成电路（application-specific integrated circuit，ASIC），或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器（read-only memory，ROM）、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器（random access memory，RAM）、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网（RAN），无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种虚拟形象生成方法的各个步骤。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的虚拟形象生成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的虚拟形象生成方法中的步骤，具体可以实现以下步骤：

步骤S301，从用户对期望虚拟形象的描述文本中，获得对所述期望虚拟形象的整体形象描述文本和局部形象描述文本；

步骤S302，将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征；

步骤S303，基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种虚拟形象生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从用户对期望虚拟形象的描述文本中，获得对所述期望虚拟形象的整体形象描述文本和局部形象描述文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象，包括：

基于所述融合形象特征图生成虚拟形象。

4.根据权利要求1所述的方法，其特征在于，将局部形象描述文本与所述整体形象描述文本进行联合形象预测，得到与所述局部形象对应的预测形象特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征；以及，基于与每个局部形象描述文本对应的预测形象特征，生成与所述描述文本对应的虚拟形象，包括：

6.根据权利要求5所述的方法，其特征在于，所述将每个局部形象描述文本分别与所述整体形象描述文本进行联合形象预测，得到与每个局部形象描述文本对应的预测形象特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述虚拟形象生成模型的各特征生成器通过以下方式得到：

8.根据权利要求5所述的方法，其特征在于，所述虚拟形象生成模型通过以下方式训练得到：

获得样本描述文本，以及所述虚拟形象生成模型基于所述样本描述文本生成的虚拟形象的图像和遮罩图；

9.根据权利要求8所述的方法，其特征在于，所述判别器通过以下方式训练得到：

10.根据权利要求1所述的方法，其特征在于，还包括：

获取针对所述虚拟形象的调整文本；

11.一种虚拟形象生成装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于通过运行所述存储器中的指令，执行权利要求1-10任意一项所述的虚拟形象生成方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器运行时，执行权利要求1-10中任意一项所述的虚拟形象生成方法。