CN117197292A

CN117197292A - 用于生成图像的方法、装置、设备和存储介质

Info

Publication number: CN117197292A
Application number: CN202311270742.1A
Authority: CN
Inventors: 包泽华
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-08

Abstract

根据本公开的实施例，提供了用于生成图像的方法、装置、设备和存储介质。该方法包括：获取输入文本，输入文本指示生成与至少一个字符对应的图像；利用第一模型处理输入文本，以确定与至少一个字符对应的材质描述文本；获取基于材质描述文本生成的材质图像；以及基于材质图像以及与至少一个字符对应的字形图像，生成与至少一个字符对应的目标图像。以此方式，能够基于输入文本生成与字符对应的目标图像，且允许用户对输入文本进行自由编辑以生成多样化的目标图像，满足用户多样化的图像生成需求。

Description

用于生成图像的方法、装置、设备和存储介质

技术领域

本公开的示例实施例总体涉及信息处理，并且更具体地，涉及用于生成图像的方法、装置、设备和计算机可读存储介质。

背景技术

随着机器学习技术的发展，已经可以利用机器学习模型来执行多种应用环境中的任务。基于模型的视觉任务是用于处理视觉数据，例如图像、视频等。视觉任务的示例包括但不限于图像生成、图像分类、目标检测、语义分割、光学字符识别(OCR)等，其中图像生成任务是视觉任务中的重要任务。图像生成中的艺术字图像生成由于其广泛应用而受到越来越多的关注，并且逐渐成为图像生成任务中的重要任务。

发明内容

在本公开的第一方面，提供一种生成图像的方法。该方法包括：获取输入文本，输入文本指示生成与至少一个字符对应的图像；利用第一模型处理输入文本，以确定与至少一个字符对应的材质描述文本；获取基于材质描述文本生成的材质图像；以及基于材质图像以及与至少一个字符对应的字形图像，生成与至少一个字符对应的目标图像。

在本公开的第二方面，提供一种用于生成图像的装置。该装置包括：文本获取模块，被配置为获取输入文本，输入文本指示生成与至少一个字符对应的图像；文本确定模块，被配置为利用第一模型处理输入文本，以确定与至少一个字符对应的材质描述文本；图像获取模块，被配置为获取基于材质描述文本生成的材质图像；以及图像生成模块，被配置为基于材质图像以及与至少一个字符对应的字形图像，生成与至少一个字符对应的目标图像。

在本公开的第三方面，提供了一种电子设备。该电子设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使电子设备执行根据本公开的第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，计算机程序可由处理器执行以执行根据本公开的第一方面的方法。

应当理解，此部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

在下文中，结合附图并参考以下详细说明，本公开各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的生成图像的过程的流程图；

图3示出了根据本公开的一些实施例的生成图像的示例架构的示意图；

图4示出了根据本公开的一些实施例的循环填充的示例的示意图；

图5示出了根据本公开的一些实施例的模糊处理的示例的示意图；

图6示出了根据本公开的一些实施例的添加噪音的示例的示意图；

图7示出了根据本公开的某些实施例的用于生成图像的装置的示意性结构框图；以及

图8示出了能够被用来实现本公开一些实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的一些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其它明确的和隐含的定义。

术语“响应于”表示相应的事件发生或者条件得以满足。将会理解，响应于该事件或者条件而被执行的后续动作的执行时机，与事件发生或者条件满足的时间，这二者不一定是强关联的。在某些情况下，后续动作可在事件发生或者条件成立时立即被执行；在另一些情况下，后续动作也可在事件发生或者条件成立后经过一段时间才被执行。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获得或使用)应当遵循相应法律法规及相关规定的要求。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获得和使用到用户的个人信息，从而使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限制性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式，例如可以是弹出窗口的方式，弹出窗口中可以以文字的方式呈现提示信息。此外，弹出窗口中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获得用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联关系，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代更新参数值，直到模型能够从训练数据中获得一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在应用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。如图1所示，环境100可以包括电子设备110。

电子设备110可以基于输入文本102生成与输入文本102对应的目标图像112。也即，电子设备110可以基于输入文本102执行图像生成任务以生成目标图像112。电子设备110可以通过任意适当的方式获取输入文本102。例如，电子设备110可以响应于检测到用户在输入框中的输入，确定获取到输入文本。例如，电子设备110可以接收用户的语音，并将其转换成输入文本。这里的输入文本102可以是任意适当语种、任意字数的文本序列。例如，电子设备110可以基于中文的输入文本102执行图像生成任务以生成其对应的目标图像112。在输入文本102指示生成与至少一个字符对应的图像的情况下，电子设备110可以基于这样的输入文本102执行艺术字图像生成任务，电子设备110可以生成艺术字图像，也即目标图像112。

电子设备110例如可以利用模型120来执行艺术字图像生成任务。模型120例如可以包括但不限于Transformer模型、LORA模型、卷积神经网络(CNN)、循环神经网络(RNN)、深度神经网络(DNN)、生成对抗网络(GAN)等任意适当的模型。模型120可以是电子设备110本地的模型，也可以是被安装在其他电子设备110的模型(例如安装在远端设备中)。模型120可以包括多个模型，例如可以包括用于文本问答的模型(也即文本问答模型)、用于基于文本生成图像的模型(也即文生图模型)、用于基于图像生成图像的模型(也即图生图模型)等等。

电子设备110可以包括具有计算能力的任何计算系统，例如各种计算设备/系统、终端设备、服务端设备等。终端设备可以是任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、掌上电脑、便携式游戏终端、VR/AR设备、个人通信系统(PersonalCommunication System，PCS)设备、个人导航设备、个人数字助理(Personal DigitalAssistant，PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。

服务端设备可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。服务端设备例如可以包括计算系统/服务器，诸如大型机、边缘计算节点、云环境中的计算设备，等等。

应当理解，仅出于示例性的目的描述环境100中各个元素的结构和功能，而不暗示对于本公开的范围的任何限制。

如前文所提及的，图像生成任务是视觉任务中的重要任务。图像生成中的艺术字图像生成逐渐成为图像生成任务中的重要任务。传统上提出了一种图像生成方法，该方法支持输入文本并基于该输入文本生成艺术字图像。然而，传统的图像生成方法仅支持生成静态的二维图像，且由于随着训练次数的增加，容易出现艺术字图像中的字符边框被限定的情况。这会影响最终生成的艺术字图像的效果。

为此，本公开的实施例提出了一种生成图像方案。根据该方案，获取指示生成与至少一个字符对应的图像的输入文本。利用第一模型处理输入文本，以确定与至少一个字符对应的材质描述文本。获取基于材质描述文本生成的材质图像。基于材质图像以及与至少一个字符对应的字形图像，生成与至少一个字符对应的目标图像。

根据本公开的生成图像方案，能够基于输入文本生成与字符对应的目标图像，且允许用户对输入文本进行自由编辑以生成多样化的目标图像，满足用户多样化的图像生成需求。

以下将继续参考附图描述本公开的一些示例实施例。

图2示出了根据本公开的一些实施例的生成图像的过程200的流程图。过程200可以在电子设备110处实现。为便于讨论，将参考图1的环境100来描述过程200。

在框210，电子设备110获取输入文本，输入文本指示生成与至少一个字符对应的图像。

在一些实施例中，电子设备110可以获取用户输入的指示生成与至少一个字符对应的图像的文本序列，该文本序列即为用户的输入文本。电子设备110例如可以包括触控显示屏，电子设备110可以响应于检测到用户对触控显示屏中的操作控件(例如输入框)的预设操作，获取输入文本。电子设备110例如还可以通过音频采集装置采集用户语音，并将采集到的语音转换成输入文本。可以理解，输入文本可以使任意语种(例如中文、英文等)、任意字数的文本序列。可以理解，电子设备110还可以通过其他任意适当的方式来获取输入文本。

电子设备110获取到的输入文本例如可以为“我需要一个像字母‘ABCD’的3D木质风格的建筑，它是比较老的、棕色的，并且上面有很多苔藓”。为了方便进行描述，下面在无特殊说明的情况下，以输入文本为这个示例文本为例进行示例性描述。可以理解，这里的输入文本仅是一个示例，电子设备110可以获取到任意适当的输入文本。

在框220，电子设备110利用第一模型处理输入文本，以确定与至少一个字符对应的材质描述文本。

这里的第一模型可以是模型120所包括的模型，其例如可以是文本问答模型。第一模型例如可以是安装在电子设备110本地的模型，电子设备110可以直接利用本地的第一模型处理输入文本。第一模型例如也可以是安装在其他电子设备的模型，电子设备110可以通过与其他电子设备之间的通信连接将输入文本发送至其他电子设备以利用第一模型处理输入文本，电子设备110进而直接获取处理结果，也即材质描述文本。为了方便表述，下面以第一模型安装在电子设备110本地，电子设备110可以直接利用第一模型为例进行示例性描述。

电子设备110可以基于输入文本生成第一模型的第一输入信息。第一输入信息例如可以包括用于约束第一模型的输出生成的预设约束信息。这样的预设约束信息可以指示针对第一模型的能力或角色的约束，其也可以称为能力约束信息、角色约束信息、系统级设定信息等。例如，若预设约束信息指示模型为一个艺术家，那么第一模型接收到这个预设约束信息后，将假定自己是一个艺术家来生成输出结果，从而可以提高模型生成图像的质量。第一输入信息例如还可以包括一组参考材质描述文本。在一些实施例中，电子设备110可以获取到用于训练材质生成模型(也即下文所述的第二模型、文生图模型等)的训练集，该训练集中包括多个材质图像-描述文本对。每个材质图像-描述文本对中的描述文本用于描述对应的材质图像。电子设备110可以从这样的训练集中获取一组材质图像-描述文本对，并将一组材质图像-描述文本对中的一组描述文本作为一组参考材质描述文本。

电子设备110进而基于输入文本、预设约束信息和一组参考材质描述文本生成第一模型的第一输入信息。示例性的，电子设备110基于输入文本生成的第一输入信息可以指示要处理的任务为“生成关于材质的描述文本”、指示预设约束信息为“你是渲染专家，对素材非常了解。输出示例：被树叶覆盖的粗糙地面”以及输出示例为“被树叶覆盖的粗糙地面”。这里面的输出示例即为参考材质描述文本，第一模型可以基于输出示例生成与这个输出示例语言结构相似的材质描述文本。可以理解，这里的第一输入信息仅是一个示例，电子设备110可以基于获取到的任意适当的输入文本来生成任意适当的第一输入信息。

图3示出了根据本公开的一些实施例的生成图像的示例架构300的示意图。架构300例如可以包括文本问答模型310(也即第一模型)。

电子设备110可以将获取到的输入文本102提供给文本问答模型310。在一些实施例中，电子设备110基于输入文本102生成第一输入信息，并将生成的第一输入信息提供给文本问答模型310。文本问答模型310可以输出与输入文本102对应的材质描述文本312。以上述的第一输入信息为例，第一模型生成的材质描述文本例如可以为“长满青苔的褐色旧木材”。

在框230，电子设备110获取基于材质描述文本生成的材质图像。

在一些实施例中，电子设备110可以获取到一个包括大量材质图像的材质图像库。电子设备110可以基于预定的映射关系或者匹配规则从该材质图像库中获取与材质描述文本相匹配的材质图像。

在一些实施例中，电子设备110还可以通过向第二模型提供第二输入信息，以利用第二模型基于材质描述文本来生成材质图像。具体地，电子设备110可以基于材质描述文本来生成第二描述信息。电子设备110进而将第二描述信息提供给第二模型，并获取由第二模型生成的材质图像。类似地，第二模型可以是模型120所包括的模型，其例如可以是文生图模型。第二模型可以是安装在电子设备110本地的模型，也可以是安装在其他电子设备的模型。为了方便表述，下面同样以第二模型安装在电子设备110本地，电子设备110可以直接利用第二模型为例进行示例性描述。

继续参考图3，如图3所示，架构300例如还可以包括文生图模型320(也即第二模型)。材质描述文本312被提供给文生图模型320。在一些实施例中，电子设备110基于材质描述文本312生成第二描述信息，第二描述信息被提供给文生图模型320。文生图模型320被配置为生成与材质描述文本312相匹配的材质图像322。文生图模型320例如可以包括多个卷积层。这多个卷积层中的至少一个卷积层可以生成与第一尺寸对应的第一特征图，并填充第一特征图，以获取与第二尺寸对应的第二特征图。第二特征图将作为至少一个卷积层的输入。第二尺寸大于第一尺寸。示例性的，卷积层可以生成尺寸为7*7的第一特征图，卷积层可以对这个7*7的第一特征图进行填充以获取到8*8的第二特征图。

在一些实施例中，为了保证生成的材质图像322是可平铺(tileable)的，文生图模型320中的卷积层被配置为通过循环填充生成特征图像。具体地，卷积层生成第一尺寸的第一特征图像后，对第一特征图像进行循环填充以生成第二尺寸的第二特征图像，第二尺寸大于第一尺寸。具体地，卷积层可以确定第一特征图中的第一边缘位置。第一边缘位置可以是第一特征图的任意边缘位置，例如可以为第一特征图的左边缘、右边缘、上边缘或下边缘上的位置。

图4示出了根据本公开的一些实施例的循环填充的示例的示意图400。图4中包括第一特征图410以及对第一特征图进行填充以生成的第二特征图420。如图4所示，若第一边缘位置为第一特征图的左上角的位置，则第一边缘位置处的对应数值为数值401(例如5)。电子设备110可以基于第一特征图410，确定在目标方向上与第一边缘位置(也即左上角的位置)对称的第二边缘位置。目标方向包括水平方向、竖直方向或对角方向中的至少一个。示例性地，针对第一边缘位置，可以获取其在水平方向上与其对称的位于右上角的位置、在竖直方向上与其对称的位于左下角的位置、在对角方向上与其对称的位于右下角的位置。这些位置均可以为第二边缘位置。进而可以利用第二边缘位置的值，填充第一边缘像素在目标方向上的相邻位置，相邻位置在第一特征图的外部。示例性地，位于右上角的位置对应的数值为数值404(例如1)，数值404被填充在数值401的水平方向上的相邻位置。位于左下角的位置对应的数值为数值402(例如7)，数值402被填充在数值401的竖直方向上的相邻位置。位于右下角的位置对应的数值为数值403(例如0)，数值403被填充在数值401的对角方向上的相邻位置。

以此方式，可以使得接收到第二特征图的卷积层可以获取到图片在向量空间中的对边信息。可以近似的将这样的第二特征图的结构看做环形结构，卷积层可以获取到其对边的信息，以消除多个特征图进行拼接时所产生的接缝，可以提高生成的目标图像的质量。

返回参考图3，在一些实施例中，架构300还包括微调模型330。微调模型330例如可以为LORA模型。微调模型330被配置为调整文生图模型320中的一些层的参数并将存储这些参数。其可以帮助文生图模型320建立图像和文本之间的关系以生成材质图像322。

继续参考图2，在框240，电子设备110基于材质图像以及与至少一个字符对应的字形图像，生成与至少一个字符对应的目标图像。目标图像例如可以对应于至少一个字符的艺术表示，也即目标图像为包括至少一个字符的艺术字图像。这里的艺术字图像可以是任意适当的图像，例如其可以是二维图像、也可以是三维图像，可以是静态图像，也可以是动态图像等等。

在一些实施例中，电子设备110可以获取包括大量字形的一组预设字形库。一组预设字形库例如可以包括字体库，其可以包括大量字体文件(例如ttf文件)。电子设备110可以基于输入文本从一组预设字形库中确定目标字形。具体地，电子设备110例如可以对输入文本进行处理以获取输入文本所指示的目标字形。例如，如输入文本中包括“XX字体的字母‘ABCD’”这样的内容，则电子设备110可以对输入文本进行识别，以确定目标字形为“XX字体”对应的字形。电子设备110进而从一组预设字形库中获取“XX字体”的字体文件，并确定对应的目标字形。

在一些实施例中，电子设备110还可以基于字形选择信息来确定目标字形。例如，电子设备110例如还可以向用户呈现字形(或字体)选择界面，字形选择界面可以包括一组预设字形库(或字体库)所包括的至少部分字形(或字体)。电子设备110进而响应于用户对某一字形(或字体)的选择操作，将被选择的字形(字体)确定为目标字形。

在目标字形被确定后，电子设备110可以基于目标字形，生成与输入文本所指示的至少一个字符对应的字形图像。字形图像中包括至少一个字符，这至少一个字符的字形为目标字形。继续参考图3，如图3所示，在一些实施例中，电子设备110可以基于输入文本102获取字符文本302。字符文本302例如可以是输入文本102中与字符相关联的文本。电子设备110可以基于字符文本302从字形库304中获取字形图像306。

电子设备110进而可以基于字形图像306和材质图像322，生成引导图像。引导图像的字形部分基于材质图像322被填充。这里的字形图像306例如可以指示掩码信息，电子设备110进而可以基于掩码信息来填充材质图像322，使得字形部分被填充。示例性地，字形图像306中的至少一个字符例如可以为白色，至少一个字符之外的区域例如可以为黑色，其中只有白色的区域被设置为可以被填充。电子设备110可以对字形图像306和材质图像322进行叠加，其中字形图像306中白色区域可以被材质图像322叠加，黑色区域无法被材质图像322叠加。叠加后所得到的图像即为引导图像。

在一些实施例中，在生成引导图像之前，为了使得最后生成的目标图像112可以更具有创造性，电子设备110可以对字形图像306进行处理，以弱化字形图像306的边缘。这样的处理例如可以包括模糊处理。电子设备110进而基于经处理的字形图像306和材质图像322，生成引导图像。图5示出了根据本公开的一些实施例的模糊处理的示例的示意图500。如图5所示，电子设备110可以对字形图像510执行模糊处理以弱化字形图像510的边缘，得到经处理的字形图像520。

如图3所示，架构300还包括图生图模型340(也即第三模型)。电子设备110获取引导图像后，可以向图生图模型340提供引导图像和输入文本102，以获取由图生图模型340生成的目标图像112。为了使得最终生成的目标图像112更加具有创造性，在一些实施例中，电子设备110还可以向图生图模型340提供第一控制参数。控制参数用于指示向引导图像添加的噪音的强度。图生图模型340可以基于第一控制参数所指示的噪音强度向引导图像添加噪音，进而基于添加噪音后的引导图像和输入文本102来生成目标图像112。备选地或者附加地，噪音还可以是电子设备110在将引导图像提供给第三模型之前由电子设备110添加的。具体地，电子设备110可以基于字形图像和材质图像，生成中间图像，电子设备110进而通过向中间图像添加与第二控件参数对应的噪音，以生成引导图像。也即，电子设备110生成的引导图像是已经添加好噪音的图像。

图6示出了根据本公开的一些实施例的添加噪音的示例的示意图600。如图6所示，电子设备110可以基于字形图像306和材质图像322，生成图像610，图像610可以是引导图像，也可以是中间图像。电子设备110和/或图生图模型340可以对图像610添加噪音以得到添加噪音后的图像610。根据添加噪音的强度不同，添加噪音后的图像610例如可以为图像620、图像630或图像640。以噪音的强度为0-1为例，其中0表示不添加噪音，1表示添加噪音强度最高级(例如加满)。图像620、图像630和图像640分别示出了添加噪音不同强度的图像，其中图像620中添加的噪音的强度较低，图像640添加噪音的强度较高。添加噪音的强度越低，最终生成的目标图像112与图像610之间的相似度越高，添加噪音的强度越高，最终生成的目标图像112的创造性越高，也即与图像610之间的相似度越低。

返回参考图3，在一些实施例中，电子设备110还可以获取第二输入文本,308。电子设备110可以将目标图像112和第二输入文本308一同提供给图生图模型340，以便图生图模型340可以基于目标图像112和第二输入文本308输出图像。新输出的图像是基于目标图像112所生成的。通过这样的方式，可以对目标图像112进行多次处理，提高最终生成的图像的创造性和丰富性。

综上所述，根据本公开的生成图像方案，能够基于输入文本生成与字符对应的目标图像，且允许用户对输入文本进行自由编辑以生成多样化的目标图像，满足用户多样化的图像生成需求。

根据本公开的一些实施例，还提供了一种用于生成图像的装置。

图7示出了根据本公开的某些实施例的用于生成图像的装置700的示意性结构框图。装置700可以被实现为或者被包括在电子设备110中。装置700中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图所示，装置700包括文本获取模块710，被配置为获取输入文本，输入文本指示生成与至少一个字符对应的图像。装置700还包括文本确定模块720，被配置为利用第一模型处理输入文本，以确定与至少一个字符对应的材质描述文本。装置700还包括图像获取模块730，被配置为获取基于材质描述文本生成的材质图像。装置700还包括图像生成模块740，被配置为基于材质图像以及与至少一个字符对应的字形图像，生成与至少一个字符对应的目标图像。

在一些实施例中，文本确定模块720包括：第一信息生成模块，被配置为基于输入文本，生成第一模型的第一输入信息；以及第一输入提供模块，被配置为向第一模型提供第一输入信息，以获取由第一模型生成的材质描述文本。

在一些实施例中，第一输入信息包括：预设约束信息，用于约束第一模型的输出生成；和/或一组参考材质描述文本。

在一些实施例中，图像获取模块730包括：第二输入提供模块，被配置为向第二模型提供第二输入信息，以获取由第二模型生成的材质图像，其中第二输入信息基于材质描述文本而被生成。

在一些实施例中，第二模型包括多个卷积层，并且多个卷积层中的至少一个卷积层被配置为：生成与第一尺寸对应的第一特征图；以及填充第一特征图，以获取与第二尺寸对应的第二特征图，以作为至少一个卷积层的输入，第二尺寸大于第一尺寸。

在一些实施例中，填充第一特征图包括：确定第一特征图中的第一边缘位置；基于第一特征图，确定在目标方向上与第一边缘位置对称的第二边缘位置；以及利用第二边缘位置的值，填充第一边缘像素在目标方向上的相邻位置，相邻位置在第一特征图的外部。

在一些实施例中，第一边缘位置包括第一特征图的左边缘、右边缘、上边缘或下边缘上的位置，目标方向包括水平方向、竖直方向或对角方向中的至少一个。

在一些实施例中，装置700还包括：字形确定模块，被配置为基于输入文本和/或字形选择信息，从一组预设字形库中确定目标字形；以及字形图像生成模块，被配置为基于目标字形，生成与至少一个字符对应的字形图像。

在一些实施例中，图像生成模块740包括：引导图像生成模块，被配置为基于字形图像和材质图像，生成引导图像，使得引导图像的字形部分基于材质图像被填充；以及第三输入提供模块，被配置为向第三模型提供引导图像和输入文本，以获取由第三模型生成的目标图像。

在一些实施例中，引导图像生成模块包括：处理模块，被配置为对字形图像进行处理，以弱化字形图像的边缘；以及生成模块，被配置为基于经处理的字形图像和材质图像，生成引导图像。

在一些实施例中，图像生成模块740还包括：参数提供模块，被配置为向第三模型提供第一控制参数，控制参数用于指示向引导图像添加的噪音的强度。

在一些实施例中，引导图像生成模块包括：中间图像生成模块，被配置为基于字形图像和材质图像，生成中间图像；以及噪音添加模块，被配置为通过向中间图像添加与第二控制参数对应的噪音，以生成引导图像。

在一些实施例中，输入文本为第一输入文本，装置700还包括：第二文本获取模块，被配置为获取第二输入文本；以及图像提供模块，被配置为提供基于目标图像和第二输入文本所生成的至少一个图像。

在一些实施例中，目标图像对应于至少一个字符的艺术表示。

装置700中所包括的单元和/或模块可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。在一些实施例中，一个或多个单元和/或模块可以使用软件和/或固件来实现，例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代，装置700中的部分或者全部单元和/或模块可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制，可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)，等等。

图8示出了示出了其中可以实施本公开的一个或多个实施例的电子设备800的框图。应当理解，图8所示出的电子设备800仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图8所示出的电子设备800可以用于实现图1的电子设备110或图7的装置700。

如图8所示，电子设备800是通用电子设备的形式。电子设备800的组件可以包括但不限于一个或多个处理器或处理单元810、存储器820、存储设备830、一个或多个通信单元840、一个或多个输入设备850以及一个或多个输出设备860。处理单元810可以是实际或虚拟处理器并且能够根据存储器820中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高电子设备800的并行处理能力。

电子设备800通常包括多个计算机存储介质。这样的介质可以是电子设备800可访问的任何可以获取的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器820可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备830可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据并且可以在电子设备800内被访问。

电子设备800可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图8中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器820可以包括计算机程序产品825，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元840实现通过通信介质与其他电子设备进行通信。附加地，电子设备800的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，电子设备800可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备850可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备860可以是一个或多个输出设备，例如显示器、扬声器、打印机等。电子设备800还可以根据需要通过通信单元840与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与电子设备800交互的设备进行通信，或者与使得电子设备800与一个或多个其他电子设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表1个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种生成图像的方法，包括：

获取输入文本，所述输入文本指示生成与至少一个字符对应的图像；

利用第一模型处理所述输入文本，以确定与所述至少一个字符对应的材质描述文本；

获取基于所述材质描述文本生成的材质图像；以及

基于所述材质图像以及与所述至少一个字符对应的字形图像，生成与所述至少一个字符对应的目标图像。

2.根据权利要求1所述的方法，其中利用第一模型处理所述输入文本包括：

基于所述输入文本，生成所述第一模型的第一输入信息；以及

向所述第一模型提供所述第一输入信息，以获取由所述第一模型生成的所述材质描述文本。

3.根据权利要求2所述的方法，其中所述第一输入信息包括：

预设约束信息，用于约束所述第一模型的输出生成；和/或

一组参考材质描述文本。

4.根据权利要求1所述的方法，其中获取基于所述材质描述文本生成的材质图像包括：

向第二模型提供第二输入信息，以获取由所述第二模型生成的所述材质图像，其中所述第二输入信息基于所述材质描述文本而被生成。

5.根据权利要求4所述的方法，其中所述第二模型包括多个卷积层，并且所述多个卷积层中的至少一个卷积层被配置为：

生成与第一尺寸对应的第一特征图；以及

填充所述第一特征图，以获取与第二尺寸对应的第二特征图，以作为所述至少一个卷积层的输入，所述第二尺寸大于所述第一尺寸。

6.根据权利要求5所述的方法，其中填充所述第一特征图包括：

确定所述第一特征图中的第一边缘位置；

基于所述第一特征图，确定在目标方向上与所述第一边缘位置对称的第二边缘位置；以及

利用所述第二边缘位置的值，填充所述第一边缘像素在所述目标方向上的相邻位置，所述相邻位置在所述第一特征图的外部。

7.根据权利要求6所述的方法，其中所述第一边缘位置包括所述第一特征图的左边缘、右边缘、上边缘或下边缘上的位置，所述目标方向包括水平方向、竖直方向或对角方向中的至少一个。

8.根据权利要求1所述的方法，还包括：

基于所述输入文本和/或字形选择信息，从一组预设字形库中确定目标字形；以及

基于所述目标字形，生成与所述至少一个字符对应的所述字形图像。

9.根据权利要求1所述的方法，其中生成与所述至少一个字符对应的目标图像包括：

基于所述字形图像和所述材质图像，生成引导图像，使得所述引导图像的字形部分基于所述材质图像被填充；以及

向第三模型提供所述引导图像和所述输入文本，以获取由所述第三模型生成的所述目标图像。

10.根据权利要求9所述的方法，其中基于所述字形图像和所述材质图像生成引导图像包括：

对所述字形图像进行处理，以弱化所述字形图像的边缘；以及

基于经处理的所述字形图像和所述材质图像，生成所述引导图像。

11.根据权利要求9所述的方法，还包括：

向所述第三模型提供第一控制参数，所述控制参数用于指示向所述引导图像添加的噪音的强度。

12.根据权利要求9所述的方法，其中生成引导图像包括：

基于所述字形图像和所述材质图像，生成中间图像；以及

通过向所述中间图像添加与第二控制参数对应的噪音，以生成所述引导图像。

13.根据权利要求1所述的方法，其中所述输入文本为第一输入文本，所述方法还包括：

获取第二输入文本；以及

提供基于所述目标图像和所述第二输入文本所生成的至少一个图像。

14.根据权利要求1所述的方法，其中所述目标图像对应于所述至少一个字符的艺术表示。

15.一种用于生成图像的装置，包括：

文本获取模块，被配置为获取输入文本，所述输入文本指示生成与至少一个字符对应的图像；

文本确定模块，被配置为利用第一模型处理所述输入文本，以确定与所述至少一个字符对应的材质描述文本；

图像获取模块，被配置为获取基于所述材质描述文本生成的材质图像；以及

图像生成模块，被配置为基于所述材质图像以及与所述至少一个字符对应的字形图像，生成与所述至少一个字符对应的目标图像。

16.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述电子设备执行根据权利要求1至14中任一项所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可由处理器执行以实现根据权利要求1至14中任一项所述的方法。