CN116071452A

CN116071452A - 一种风格图像生成方法、装置、计算机设备和存储介质

Info

Publication number: CN116071452A
Application number: CN202310239079.2A
Authority: CN
Inventors: 张新楠
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-05

Abstract

本发明实施例公开了一种风格图像生成方法、装置、计算机设备和存储介质；可以获取待处理的原始图像对应的目标图像指示文本，通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中得到文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到，获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中得到图像特征，基于文本特征和图像特征进行融合计算，得到目标特征，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像；可以提升虚拟形象的显示效果，改善用户的视觉体验。

Description

一种风格图像生成方法、装置、计算机设备和存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种风格图像生成方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的快速发展，用户在使用应用程序时，常常希望可以有属于自己的自定义的形象能够在应用程序中显示。例如，在游戏应用中，用户会想要在游戏中能使用自己的照片作为头像，或者，创建与自己真实形象相似的游戏角色，等等。

目前，在应用程序中呈现用户自定义的形象时，常用的方案是由用户手动设置虚拟形象的参数，或者，将用户上传的图像作为贴图直接渲染成虚拟形象。但是，采用这些方案，得到的虚拟形象的风格往往与应用程序整体的美术风格存在一定的差异，影响虚拟形象的显示效果。

发明内容

本发明实施例提供一种风格图像生成方法、装置、计算机设备和存储介质，可以生成与应用程序美术风格匹配的虚拟形象，提升虚拟形象的显示效果，改善用户的视觉体验。

本发明实施例提供一种风格图像生成方法，包括：

获取待处理的原始图像对应的目标图像指示文本；

通过目标风格的风格图像生成模型的文本表征模块，将所述目标图像指示文本映射到所述目标风格的多模态特征空间中，得到所述目标图像指示文本在所述多模态特征空间中对应的文本特征，所述风格图像生成模型基于所述目标风格的风格图像样本以及所述风格图像样本对应的样本描述文本训练得到；

获取所述原始图像，通过所述风格图像生成模型的图像表征模块，将所述原始图像映射到所述多模态特征空间中，得到所述原始图像在所述多模态特征空间中对应的图像特征；

基于所述文本特征和所述图像特征进行融合计算，得到目标特征；

通过所述风格图像生成模型的图像还原模块，根据所述目标特征进行图像还原，得到所述目标风格的目标图像。

相应的，本发明实施例还提供一种风格图像生成装置，包括：

文本获取单元，用于获取待处理的原始图像对应的目标图像指示文本；

文本表征单元，用于通过目标风格的风格图像生成模型的文本表征模块，将所述目标图像指示文本映射到所述目标风格的多模态特征空间中，得到所述目标图像指示文本在所述多模态特征空间中对应的文本特征，所述风格图像生成模型基于所述目标风格的风格图像样本以及所述风格图像样本对应的样本描述文本训练得到；

图像表征单元，用于获取所述原始图像，通过所述风格图像生成模型的图像表征模块，将所述原始图像映射到所述多模态特征空间中，得到所述原始图像在所述多模态特征空间中对应的图像特征；

特征融合单元，用于基于所述文本特征和所述图像特征进行融合计算，得到目标特征；

图像还原单元，用于通过所述风格图像生成模型的图像还原模块，根据所述目标特征进行图像还原，得到所述目标风格的目标图像。

相应的，本发明实施例还提供一种计算机设备，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行本发明实施例所提供的任一种风格图像生成方法中的步骤。

相应的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种风格图像生成方法中的步骤。

此外，本发明实施例还提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现本发明实施例所提供的任一种风格图像生成方法中的步骤。

采用本发明实施例的方案，可以获取待处理的原始图像对应的目标图像指示文本，通过目标风格的风格图像生成模型的文本表征模块，将该目标图像指示文本映射到该目标风格的多模态特征空间中，得到该目标图像指示文本在该多模态特征空间中对应的文本特征，该风格图像生成模型基于该目标风格的风格图像样本以及该风格图像样本对应的样本描述文本训练得到，获取该原始图像，通过该风格图像生成模型的图像表征模块，将该原始图像映射到该多模态特征空间中，得到该原始图像在该多模态特征空间中对应的图像特征，基于该文本特征和该图像特征进行融合计算，得到目标特征，通过该风格图像生成模型的图像还原模块，根据该目标特征进行图像还原，得到该目标风格的目标图像；由于在本发明实施例中，能够通过特定风格的风格图像生成模型将目标图像指示文本和目标图像映射到该风格对应的多模态特征空间中，以使得映射的结果具有该风格的风格特点，进而根据映射结果进行图像还原，得到具有该风格的目标图像，因此，可以生成与应用程序的美术风格匹配的虚拟形象，提升虚拟形象的显示效果，改善用户的视觉体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的风格图像生成方法的场景示意图；

图2是本发明实施例提供的风格图像生成方法的流程图；

图3是本发明实施例提供的风格图像生成模型的训练过程示意图；

图4是本发明实施例提供的风格图像生成方法的另一流程图；

图5是本发明实施例提供的生成风格图像的过程示意图；

图6是本发明实施例提供的风格图像生成装置的结构示意图；

图7是本发明实施例提供的风格图像生成装置的另一结构示意图；

图8是本发明实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种风格图像生成方法、装置、计算机设备和计算机可读存储介质。具体地，本发明实施例提供适用于风格图像生成装置的风格图像生成方法，该风格图像生成装置可以集成在计算机设备中。

该计算机设备可以为终端等设备，包括但不限于移动终端和固定终端，例如移动终端包括但不限于智能手机、智能手表、平板电脑、笔记本电脑、智能车载等，其中，固定终端包括但不限于台式电脑、智能电视等。

该计算机设备还可以为服务器等设备，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

本发明实施例的风格图像生成方法，可以由终端实现，也可以由终端和服务器共同实现。

下面以终端和服务器共同实现该风格图像生成方法为例，对该方法进行说明。

如图1所示，本发明实施例提供的风格图像生成系统包括终端10和服务器20等；终端10与服务器20之间通过网络连接，比如，通过有线或无线网络连接等。

其中，终端10可以用于供用户提供目标图像指示文本和原始图像。

服务器20可以获取待处理的原始图像对应的目标图像指示文本，通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到，获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征，基于文本特征和图像特征进行融合计算，得到目标特征，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像。

可以理解的是，在一些实施例中，服务器20执行的风格图像生成的步骤也可以由终端10执行，本发明实施例对此不做限定。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本发明实施例将从风格图像生成装置的角度进行描述，该风格图像生成装置具体可以集成在服务器和/或终端中。

如图2所示，本实施例的风格图像生成方法的具体流程可以如下：

201、获取待处理的原始图像对应的目标图像指示文本。

其中，目标图像指示文本可以指示最终生成的风格图像(即目标图像)中的图像信息。例如，目标图像指示文本可以指示目标图像的主要颜色、包含的图像内容、风格，等等。

在一些可选的实施例中，目标图像指示文本可以是用户通过语音或者键盘等输入的自然语言文本。例如，目标图像指示文本可以是“我想要生成一个黑白色为主，包含一只小狗的头像”。

再例如，在游戏应用程序中，若用户想要生成自定义的游戏角色，则用户可以用文字描述自己想要生成的游戏角色的形象特征，如“黑色的皮肤”、“红色的头发”等等。

在实际应用过程中，用户可以在输入文字描述的过程中，用自然语言描述其对自己的虚拟形象的要求，风格图像生成模型即可理解这一文字描述，并将其转换成文本特征，从而影响最终生成的具有特定风格的图像结果。也就是说，用户可以用自然语言直观地控制风格图像的生成过程。

可以理解的是，可以直接将用户输入的全部文字直接作为目标图像指示文本，也可以对用户输入的文字描述进行处理后得到目标图像指示文本。例如，用户输入的文字描述可以为“我想要生成一个黑白色为主，包含一只小狗的头像”，此时，可以从中提取出“黑白色”、“小狗”的关键字作为目标图像指示文本，等等。

在另一些可选的实施例中，为了提升目标图像指示文本的准确性，技术人员可以预先设置一些候选的文本供用户选择，以使得用户提供的文本指示性更明确，即目标图像指示文本可以根据用户的选择得到，步骤“获取待处理的原始图像对应的目标图像指示文本”之前，本发明实施例提供的风格图像生成方法还可以包括：

在图形用户界面中提供指示文本选择页面，指示文本选择页面包括至少一种类型的指示文本对应的选择控件。

其中，指示文本选择页面可以是通过图形用户界面提供或显示的应用程序对应的界面，该界面中可以包括供玩家进行交互的U I界面。除了选择控件，指示文本选择页面中还可以包括但不限于用于显示参考的人物形象的参考形象显示区域、用于上传原始图像的图像上传控件等等。

具体的，指示文本的类型可以是技术人员根据实际应用需求设置的。选择控件的形式也可以是任意的，本发明实施例对此不做限定。

例如，在游戏应用程序中，指示文本的类型可以包括但不限于职业类型、外貌特征、肤色特点、武器装备等，技术人员可以将这些文本描述的角色特征，进行事先的总结，并以预设的形式提供给用户，以便用户在游戏界面可以选择职业类型、外貌特征、肤色特点、武器装备等信息。

相应的，可以根据用户对于选择控件的触发操作确定目标图像指示文本，步骤“获取待处理的原始图像对应的目标图像指示文本”，具体可以包括：

响应于针对选择控件中的目标选择控件的指示文本选择操作，确定待处理的原始图像对应的目标图像指示文本。

可以理解的是，指示文本选择页面中可以包括一个或者多个选择控件。指示文本选择操作可以是对一个选择控件的触发操作，也可以是对多个选择控件的触发操作。

202、通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到。

在本发明实施例中，风格可以理解为图像给观看者带来的主观感受，风格可以通过图像中的颜色、纹理等体现。比如，不同的人创造的图像一般会具有不同的个人特点，这种个人特点通过图像展现出即为风格。

例如，每个人的绘画作品一般会具有其个人的画风，因此，每个人的绘画作品都可以形成自己鲜明独特的风格。比如，毕加索的绘画作品具有鲜明的“毕加索风格”；徐悲鸿的绘画作品具有鲜明的“徐悲鸿风格”，等等。再比如，每个人的摄影作品都会具有个人的特点。因此，每个人的摄影作品都可以具有自己鲜明独特的风格。

或者，根据图像的构成内容，也可以将图像划分成多种图像风格。例如，可以将图像划分为抽象风格、写实风格等等。

再或者，根据创造图像的材料或者图像的纹理，也可以将图像划分成多种风格。例如，可以将图像划分为油画风格、漫画风格、水彩画风格、水墨画风格，等等。

其中，风格图像生成模型是通过预训练得到的。通过预训练的过程，可以对风格图像生成模型的参数等进行调整，使风格图像生成模型能够达到更好的风格图像生成性能。也就是说，步骤“通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中”之前，本发明实施例提供的风格图像生成方法还可以包括：

根据待训练的风格图像生成模型的文本表征模块，对样本描述文本进行特征提取，得到样本描述文本的训练文本特征；

通过待训练的风格图像生成模型的图像表征模块，对风格图像样本进行特征提取，得到风格图像样本的训练图像特征；

基于训练文本特征和训练图像特征，对风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型。

可选的，可以直接根据训练文本特征和训练图像特征之间的相似度，计算风格图像生成模型的损失，根据损失对风格图像生成模型的模型参数进行调整。通过对风格图像生成模型的训练，可以使得文本表征模块和图像表征模块具有更好的表征能力。

再例如，如图3所示，可以将样本描述文本y输入文本表征模块(即text encoder)，得到训练文本特征zt；将风格图像样本x输入图像表征模块(即img encoder)，得到训练图像特征zi。假设理想状态下直接根据zt还原出的特征为zi′(即通过prior过程得到的特征)，则在训练过程中，可以通过模型参数调整的过程使得zi′与zi尽可能的相似。

具体的，风格图像生成模型可以是基于机器学习网络构建得到的。机器学习网络可以包括卷积神经网络(Convolutional Neural Networks,CNN)、反卷积神经网络(De-Convolutional Networks,DN)、深度神经网络(Deep Neural Networks，DNN)、深度卷积逆向图网络(Deep Convolutional Inverse Graphics Networks,DCIGN)、生成对抗网络(Generative Adversarial Networks，GAN)、基于区域的卷积网络(Region-basedConvolutional Networks，RCNN)、基于区域的快速卷积网络(Faster Region-basedConvolutional Networks，Faster RCNN)和双向编解码(Bidirectional EncoderRepresentations from Transformers，BERT)模型等等

例如，风格图像生成模型中的文本表征模块和图像表征模块分别可以是以CNN、DNN、GAN等机器学习网络中的其中一种为框架的模型。

其中，风格图像生成模型可以包括对文本/图像的特征进行提取的网络结构，比如，风格图像生成模型中可以包括卷积层，卷积层可以通过卷积运算提取文本/图像的特征。

在一个可选的示例中，风格图像生成模型中可以包括多个卷积层，每个卷积层中都有至少一个卷积单元，不同的卷积单元可以提取不同的特征，在通过卷积层进行特征提取时，通过卷积单元扫描待判断文本/图像，用不同的卷积核来学习不同的特征来提取文本/图像特征。

其中，风格图像样本可以是具有任意的风格的图像，风格图像样本也可以是具有任意的内容的图像。风格图像样本中的内容可以是人物、植物等等，图像的场景也可以为室内或者室外，本发明实施例在此对风格图像样本的内容和场景等因素不做限定。

其中，模型参数具体可以包括风格图像生成模型中用于提取特征信息的特征提取层的层数、特征提取层的输入通道数量等等。例如，若风格图像生成模型的文本表征模块和图像表征模块为卷积层，则风格图像生成模型的模型参数可以包括卷积层的层数、卷积层中卷积核的大小和/或每个卷积层对应的输入通道数量，等等。

可以理解的是，本方案通用性强，基于本技术方案的逻辑和原理，技术人员可以选取不同目标风格的素材进行风格图像生成模型训练，从而训练出适合不同游戏画面风格的定制化风格图像生成模型。后续基于不同的定制化风格图像生成模型，基于用户上传的照片，技术人员可以生成符合不同风格的角色形象贴图。在切换不同的项目风格时，技术人员只需要选取不同的素材即可，基本上不需要调整其他训练参数，其操作简便，训练风格图像生成模型的方法大幅简化。

在一些可选的实施例中，为了提升风格图像生成模型的图像还原能力，步骤“基于训练文本特征和训练图像特征，对风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型”之前，本发明实施例提供的风格图像生成方法还可以包括：

基于训练文本特征和训练图像特征进行融合计算，得到训练目标特征；

通过待训练的风格图像生成模型的图像还原模块，根据训练目标特征进行图像还原，得到训练目标图像；

通过图像表征模块，对训练目标图像进行特征提取，得到训练目标图像的训练还原图像特征。

其中，训练还原图像特征为对训练目标特征还原后的图像(即训练目标图像)进行特征提取后得到的图像特征。

一般的，由于图像还原模块的还原能力的限制，训练还原图像特征与训练目标特征之间通常存在一定的差异，可以根据训练还原图像特征与训练目标特征之间的差异，对图像还原模块的参数进行调整，以提升风格图像生成模型的图像还原能力。

相应的，步骤“基于训练文本特征和训练图像特征，对风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型”，具体可以包括：

基于训练文本特征、训练图像特征和训练还原图像特征，计算风格图像生成模型的模型损失；

根据模型损失，对风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型。

例如，如图3所示，样本描述文本y输入文本表征模块(即text encoder)得到训练文本特征zt，风格图像样本x输入图像表征模块(即img encoder)得到训练图像特征zi，训练目标特征za通过图像还原模块(即prior和decoder部分)可以得到训练目标图像m。

进一步地，可以通过图像表征模块对训练目标图像m再次进行图像特征提取，得到训练还原图像特征zm。可以先分别计算训练文本特征和训练图像特征之间的相似度、训练图像特征和训练还原图像特征之间的相似度以及训练文本特征和训练还原图像特征之间的相似度，再根据前述的各个相似度计算风格图像生成模型的模型损失。

在实际应用过程中，还可以基于图像文本对进行全新的风格图像生成模型训练，也可以在已有的训练好的风格图像生成模型中进行微调(fine-tune)优化。

例如，如果技术人员在训练这一风格图像生成模型的时候，输入的就是某一游戏内的美术资源和形象特征，并且附上了对应的文字描述，则可以让风格图像生成模型学会这一特定游戏的美术风格。

另外，由于技术人员训练风格图像生成模型时，每张图片都会有对应的描述信息。因此，通过图片文本对的训练，可以让风格图像生成模型掌握特定的关键词、描述所对应的图像特征信息。

203、获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征。

具体的，原始图像可以是包含任意内容或者任意风格的图像。一般来说，原始图像可以是随机确定的图像，或者，也可以用户手动选择的图像，等等。

可以理解的是，风格图像生成模型中可以只有一层用于提取风格特征的风格提取层和一层用于提取内容特征的内容提取层；也可以有多层风格提取层对原始图像进行风格提取和/或有多层内容提取层对原始图像进行内容提取。

可选的，风格提取层和内容提取层可以是相互连接的特征提取层。或者，风格提取层和内容提取可以是相互独立的特征提取层。

例如，可以选择一个预训练的卷积神经网络来抽取图像的特征，卷积神经网络可凭借多个层级逐级抽取原始图像的特征，这样可以选择其中某些层的输出作为内容特征或者风格特征。例如选择作为图像表征模块的预训练的神经网络可以含有3个卷积层，其中第二层输出内容特征，第一层和第三层输出风格特征。

在一些可选的实施例中，要得到原始图像在多模态特征空间中对应的图像特征，可以结合颜色直方图法、颜色矩法等方法实现。例如，可以采用颜色直方图法，统计色彩参考图像中的色彩以及各种色彩在图像中的占比，作为色彩特征。

在一些示例中，在对图像进行风格图像生成时，也可以与常规的基本图像操作进行结合而一并使用。例如，可以使用常规的图像处理工具，对用户上传的原始图像进行预处理，进行必要的自动裁剪和清理，或者进行滤镜操作，之后再进入本发明实施例的风格图像生成流程。

204、基于文本特征和图像特征进行融合计算，得到目标特征。

本技术方案在应用端可控性强，在一些示例中，通过在风格图像生成中控制用户输入图像特征的比例，技术人员或者用户可以把握最终图像中，用户输入内容和应用程序原始自带风格的比例，从而适应不同应用程序的风格以及用户个人调整的需要。

例如，技术人员可以通过控制在风格图像生成过程中，原始图像特征信息与文字特征信息的比例，即可控制画面风格更加趋向风格化，还是更加趋向用户输入的图像。

在实际应用过程中，如果游戏是三维游戏，则需要的是适配于三维游戏的材质贴图，也就是说，步骤“基于文本特征和图像特征进行融合计算，得到目标特征”之前，本发明实施例提供的风格图像生成方法还可以包括：

获取贴图材质规范信息；

针对贴图材质规范信息进行特征提取，得到材质特征。

其中，贴图材质规范信息可以是具体的材质贴图，也可以是技术人员对于贴图材质的自然语言或者数据描述信息，等等。

一般来说材质贴图也有着其必要的制作规范。比如脸部的材质贴图，一般需要符合规范的布局，才可以正确贴上。而这些规范和布局，恰恰也正是图像特征信息。

相应的，生成目标特征时，可以将材质特征也进行融合，步骤“基于文本特征和图像特征进行融合计算，得到目标特征”，包括：

基于文本特征、图像特征和材质特征进行加权计算，得到目标特征。

具体的，进行加权计算时可以是加权求和或者加权求积等等，不同特征对应的权重可以相同，也可以不同，本发明实施例对此不作限定。

因此，技术人员可以将技术人员材质贴图的相关规范，提取成图像特征信息，并跟前述的基于用户输入的文字和图片所得到的图像特征信息进行融合，并通过调节适合的权重，使得最终的图像特征，即符合材质贴图的必要规范，也能获得技术人员用户期望的原始特征信息。

205、通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像。

可以理解的是，当技术人员使用这个风格图像生成模型进行推理的时候，技术人员可以用这一风格图像生成模型输出图片。由于这个风格图像生成模型就是以技术人员项目美术风格的素材进行训练的，因此它也天然地趋向于输出符合技术人员项目美术风格的图片。

在一些可选的实施例中，图像还原模块可以是任意的解码器，例如Transformer模型中的decoder等，通过解码器输出图像格式的结果作为目标图像。

在另一些可选的实施例中，步骤“通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像”，具体可以包括：

通过风格图像生成模型的图像还原模块，根据目标特征计算干扰函数；

基于干扰函数对目标特征进行干扰消除计算，得到新的目标特征；

返回执行根据目标特征计算干扰函数的步骤，直到满足预设的还原结束条件，将最新的目标特征作为目标风格的目标图像。

其中，图像还原模块可以模拟对一图像进行若干次特征处理过程得到目标特征的反向过程。

具体的，干扰函数可以指示最近一次的特征处理过程中使用的处理函数。基于干扰函数进行逆向预测，可以得到处理过程前的特征。

例如，目标特征可以认为是目标图像经过叠加了若干次高斯噪声得到的特征，则根据目标特征，可以预测最近一次叠加的高斯噪声(即干扰函数)，根据高斯噪声可以还原出在叠加此次高斯噪声前的特征，即得到了新的目标特征。

可选的，图像还原模块还可以根据原始图像的嵌入(图像特征)生成图像，并且可以选择性地将文本描述用作调节信息。

如果这是一款三维游戏，则可以将生成后的图像，作为贴图，应用在预处理的虚拟形象模型上，用户即可获得带有自己头像和形象的三维虚拟人物。也就是说，步骤“通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像”之后，本发明实施例提供的风格图像生成方法还可以包括：

获取预设的虚拟对象模型；

基于目标图像对虚拟对象模型进行渲染，得到渲染后的虚拟对象模型。

其中，虚拟对象模型为游戏对象(或称为虚拟对象、游戏角色)是指在虚拟场景中可被控制的对象的模型。可选地，该虚拟对象可以是虚拟人物、虚拟动物、动漫人物等。该虚拟对象是玩家通过输入设备进行控制的角色，或者是通过训练设置在虚拟环境对战中的人工智能(Artificial Intelligence，AI)，或者是设置在虚拟场景对战中的非玩家角色(Non-P l ayer Character，NPC)。

在风格图像生成进行之后，技术人员也可以对风格图像生成后的结果进行进一步处理。例如，进一步的处理可以包括但不限于，将风格图像生成的结果再次返回至风格图像生成的输入端，进行二次风格图像生成。必要时，这一过程还可以反复多次。从而在逐步迭代中，获得更加具有风格化的画面效果。

也可以将上述风格图像生成的结果，进行常规的数字后期图像处理。包括但不限于添加额外的数字滤镜、进行图像的调色、色调映射等。从而使最终图像更加贴近目标风格的需要。

通过本发明实施例，可以实现基于用户的文字输入和图像输入，来控制最终的角色形象特征。这极大丰富了用户形象特征的多样性。通过不同的文字描述，结合用户自身上传的图像，技术人员可以获得无数种个性形象。既满足用户的个性需求，也满足了符合应用程序画面风格特色的需要。

由上可知，本发明实施例可以获取待处理的原始图像对应的目标图像指示文本，通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到，获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征，基于文本特征和图像特征进行融合计算，得到目标特征，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像；由于在本发明实施例中，能够通过特定风格的风格图像生成模型将目标图像指示文本和目标图像映射到风格对应的多模态特征空间中，以使得映射的结果具有风格的风格特点，进而根据映射结果进行图像还原，得到目标图像，因此，可以生成与应用程序的美术风格匹配的虚拟形象，提升虚拟形象的显示效果，改善用户的视觉体验。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将结合图1的系统进行说明。

如图4所示，本实施例的风格图像生成方法，具体流程可以如下：

401、终端在图形用户界面中提供指示文本选择页面，指示文本选择页面包括至少一种类型的指示文本对应的选择控件，响应于针对选择控件中的目标选择控件的指示文本选择操作，确定待处理的原始图像对应的目标图像指示文本。

如图5所示，可选地，用户根据自己在游戏中角色的职业类型、外貌特征、肤色特点、武器装备等，选择若干文字选项，以生成目标图像指示文本，从而定义自己的形象特征。

402、服务器通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征。

服务器可以利用风格图像生成模型，结合用户上传的图片进行处理，并生成对应的脸部头像和身体形象贴图，服务器可以将上述符合游戏风格的贴图推送至用户客户端上。

403、服务器获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征。

如图5所示，用户可以上传自己的头像和形象的照片作为原始图像至游戏应用程序对应的服务器中。

404、服务器基于文本特征和图像特征进行融合计算，得到目标特征，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像。

405、服务器获取预设的虚拟对象模型，基于目标图像对虚拟对象模型进行渲染，得到渲染后的虚拟对象模型。

可选的，如果这是一款三维游戏，则可以将生成后的图像，作为贴图，应用在此前的预处理模型上。用户即可获得带有自己头像和形象的三维虚拟人物。用户获得了具有自己的形象特征，且有着自己选择的风格化标识内容的个人形象和三维模型。

406、终端接收服务器发送的渲染后的虚拟对象模型，对渲染后的虚拟对象模型进行显示。

为了更好地实施以上方法，相应的，本发明实施例还提供一种风格图像生成装置。

参考图6，该装置包括：

文本获取单元601，可以用于获取待处理的原始图像对应的目标图像指示文本；

文本表征单元602，可以用于通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到；

图像表征单元603，可以用于获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征；

特征融合单元604，可以用于基于文本特征和图像特征进行融合计算，得到目标特征；

图像还原单元605，可以用于通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像。

在一些可选的实施例中，本发明实施例提供的风格图像生成装置还可以包括模型训练单元606，可以用于根据待训练的风格图像生成模型的文本表征模块，对样本描述文本进行特征提取，得到样本描述文本的训练文本特征；

在一些可选的实施例中，模型训练单元606，可以用于基于训练文本特征和训练图像特征进行融合计算，得到训练目标特征；

通过图像表征模块，对训练目标图像进行特征提取，得到训练目标图像的训练还原图像特征；

在一些可选的实施例中，图像还原单元605，可以用于通过风格图像生成模型的图像还原模块，根据目标特征计算干扰函数；

在一些可选的实施例中，如图7所示，本发明实施例提供的风格图像生成装置还可以包括渲染单元607，可以用于获取预设的虚拟对象模型；

在一些可选的实施例中，本发明实施例提供的风格图像生成装置还可以包括页面显示单元608，可以用于在图形用户界面中提供指示文本选择页面，指示文本选择页面可以包括至少一种类型的指示文本对应的选择控件；

文本获取单元，可以用于响应于针对选择控件中的目标选择控件的指示文本选择操作，确定待处理的原始图像对应的目标图像指示文本。

在一些可选的实施例中，本发明实施例提供的风格图像生成装置还可以包括材质特征获取单元609，可以用于获取贴图材质规范信息；

针对贴图材质规范信息进行特征提取，得到材质特征；

特征融合单元，可以用于基于文本特征、图像特征和材质特征进行加权计算，得到目标特征。

由上可知，通过风格图像生成装置，可以获取待处理的原始图像对应的目标图像指示文本，通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到，获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征，基于文本特征和图像特征进行融合计算，得到目标特征，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像；由于在本发明实施例中，能够通过特定风格的风格图像生成模型将目标图像指示文本和目标图像映射到风格对应的多模态特征空间中，以使得映射的结果具有风格的风格特点，进而根据映射结果进行图像还原，得到目标图像，因此，可以生成与应用程序的美术风格匹配的虚拟形象，提升虚拟形象的显示效果，改善用户的视觉体验。

此外，相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端。如图8所示，图8为本申请实施例提供的计算机设备的结构示意图。该计算机设备800包括有一个或者一个以上处理核心的处理器801、有一个或一个以上计算机可读存储介质的存储器802及存储在存储器802上并可在处理器上运行的计算机程序。其中，处理器801与存储器802电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器801是计算机设备800的控制中心，利用各种接口和线路连接整个计算机设备800的各个部分，通过运行或加载存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行计算机设备800的各种功能和处理数据，从而对计算机设备800进行整体监控。

在本申请实施例中，计算机设备800中的处理器801会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现各种功能：

获取待处理的原始图像对应的目标图像指示文本；

通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到；

获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征；

基于文本特征和图像特征进行融合计算，得到目标特征；

通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像。

在一些可选的实施例中，通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中之前，本发明实施例提供的风格图像生成方法还可以包括：

在一些可选的实施例中，基于训练文本特征和训练图像特征，对风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型之前，本发明实施例提供的风格图像生成方法还可以包括：

基于训练文本特征和训练图像特征，对风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型，包括：

在一些可选的实施例中，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像，包括：

在一些可选的实施例中，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像之后，本发明实施例提供的风格图像生成方法还可以包括：

获取预设的虚拟对象模型；

在一些可选的实施例中，获取待处理的原始图像对应的目标图像指示文本之前，本发明实施例提供的风格图像生成方法还可以包括：

在图形用户界面中提供指示文本选择页面，指示文本选择页面包括至少一种类型的指示文本对应的选择控件；

获取待处理的原始图像对应的目标图像指示文本，包括：

在一些可选的实施例中，基于文本特征和图像特征进行融合计算，得到目标特征之前，本发明实施例提供的风格图像生成方法还可以包括：

获取贴图材质规范信息；

针对贴图材质规范信息进行特征提取，得到材质特征；

基于文本特征和图像特征进行融合计算，得到目标特征，包括：

本方案可以获取待处理的原始图像对应的目标图像指示文本，通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到，获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征，基于文本特征和图像特征进行融合计算，得到目标特征，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像；由于在本发明实施例中，能够通过特定风格的风格图像生成模型将目标图像指示文本和目标图像映射到风格对应的多模态特征空间中，以使得映射的结果具有风格的风格特点，进而根据映射结果进行图像还原，得到目标图像，因此，可以生成与应用程序的美术风格匹配的虚拟形象，提升虚拟形象的显示效果，改善用户的视觉体验。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图8所示，计算机设备800还包括：触控显示屏803、射频电路804、音频电路805、输入单元806以及电源807。其中，处理器801分别与触控显示屏803、射频电路804、音频电路805、输入单元806以及电源807电性连接。本领域技术人员可以理解，图8中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏803可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏803可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器801，并能接收处理器801发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器801以确定触摸事件的类型，随后处理器801根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏803而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏803也可以作为输入单元806的一部分实现输入功能。

射频电路804可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路805可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路805可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路805接收后转换为音频数据，再将音频数据输出处理器801处理后，经射频电路804以发送给比如另一计算机设备，或者将音频数据输出至存储器802以便进一步处理。音频电路805还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元806可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源807用于给计算机设备800的各个部件供电。可选的，电源807可以通过电源管理系统与处理器801逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源807还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图8中未示出，计算机设备800还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备，可以获取待处理的原始图像对应的目标图像指示文本，通过目标风格的风格图像生成模型的文本表征模块，将目标图像指示文本映射到目标风格的多模态特征空间中，得到目标图像指示文本在多模态特征空间中对应的文本特征，风格图像生成模型基于目标风格的风格图像样本以及风格图像样本对应的样本描述文本训练得到，获取原始图像，通过风格图像生成模型的图像表征模块，将原始图像映射到多模态特征空间中，得到原始图像在多模态特征空间中对应的图像特征，基于文本特征和图像特征进行融合计算，得到目标特征，通过风格图像生成模型的图像还原模块，根据目标特征进行图像还原，得到目标风格的目标图像；由于在本发明实施例中，能够通过特定风格的风格图像生成模型将目标图像指示文本和目标图像映射到风格对应的多模态特征空间中，以使得映射的结果具有风格的风格特点，进而根据映射结果进行图像还原，得到目标图像，因此，可以生成与应用程序的美术风格匹配的虚拟形象，提升虚拟形象的显示效果，改善用户的视觉体验。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种风格图像生成方法中的步骤。例如，该计算机程序可以执行如下步骤：

获取待处理的原始图像对应的目标图像指示文本；

基于文本特征和图像特征进行融合计算，得到目标特征；

获取预设的虚拟对象模型；

获取待处理的原始图像对应的目标图像指示文本，包括：

获取贴图材质规范信息；

针对贴图材质规范信息进行特征提取，得到材质特征；

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种风格图像生成方法中的步骤，因此，可以实现本申请实施例所提供的任一种风格图像生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种风格图像生成方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种风格图像生成方法，其特征在于，包括：

获取待处理的原始图像对应的目标图像指示文本；

2.根据权利要求1所述的风格图像生成方法，其特征在于，所述通过目标风格的风格图像生成模型的文本表征模块，将所述目标图像指示文本映射到所述目标风格的多模态特征空间中之前，所述方法还包括：

根据待训练的风格图像生成模型的文本表征模块，对所述样本描述文本进行特征提取，得到所述样本描述文本的训练文本特征；

通过所述待训练的风格图像生成模型的图像表征模块，对所述风格图像样本进行特征提取，得到所述风格图像样本的训练图像特征；

基于所述训练文本特征和所述训练图像特征，对所述风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型。

3.根据权利要求2所述的风格图像生成方法，其特征在于，所述基于所述训练文本特征和所述训练图像特征，对所述风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型之前，所述方法还包括：

基于所述训练文本特征和所述训练图像特征进行融合计算，得到训练目标特征；

通过所述待训练的风格图像生成模型的图像还原模块，根据所述训练目标特征进行图像还原，得到训练目标图像；

通过所述图像表征模块，对所述训练目标图像进行特征提取，得到所述训练目标图像的训练还原图像特征；

所述基于所述训练文本特征和所述训练图像特征，对所述风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型，包括：

基于所述训练文本特征、所述训练图像特征和所述训练还原图像特征，计算所述风格图像生成模型的模型损失；

根据所述模型损失，对所述风格图像生成模型的模型参数进行调整，得到训练后的风格图像生成模型。

4.根据权利要求1所述的风格图像生成方法，其特征在于，所述通过所述风格图像生成模型的图像还原模块，根据所述目标特征进行图像还原，得到所述目标风格的目标图像，包括：

通过所述风格图像生成模型的图像还原模块，根据所述目标特征计算干扰函数；

基于所述干扰函数对所述目标特征进行干扰消除计算，得到新的目标特征；

返回执行所述根据所述目标特征计算干扰函数的步骤，直到满足预设的还原结束条件，将最新的目标特征作为所述目标风格的目标图像。

5.根据权利要求1所述的风格图像生成方法，其特征在于，所述通过所述风格图像生成模型的图像还原模块，根据所述目标特征进行图像还原，得到所述目标风格的目标图像之后，所述方法还包括：

获取预设的虚拟对象模型；

基于所述目标图像对所述虚拟对象模型进行渲染，得到渲染后的虚拟对象模型。

6.根据权利要求1所述的风格图像生成方法，其特征在于，所述获取待处理的原始图像对应的目标图像指示文本之前，所述方法还包括：

在图形用户界面中提供指示文本选择页面，所述指示文本选择页面包括至少一种类型的指示文本对应的选择控件；

所述获取待处理的原始图像对应的目标图像指示文本，包括：

响应于针对所述选择控件中的目标选择控件的指示文本选择操作，确定待处理的原始图像对应的目标图像指示文本。

7.根据权利要求1所述的风格图像生成方法，其特征在于，所述基于所述文本特征和所述图像特征进行融合计算，得到目标特征之前，所述方法还包括：

获取贴图材质规范信息；

针对所述贴图材质规范信息进行特征提取，得到材质特征；

所述基于所述文本特征和所述图像特征进行融合计算，得到目标特征，包括：

基于所述文本特征、所述图像特征和所述材质特征进行加权计算，得到目标特征。

8.一种风格图像生成装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至7任一项所述的风格图像生成方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的风格图像生成方法中的步骤。