CN116597039A

CN116597039A - 图像生成的方法和服务器

Info

Publication number: CN116597039A
Application number: CN202310581336.0A
Authority: CN
Inventors: 疏颖
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-15
Anticipated expiration: 2043-05-22
Also published as: CN116597039B

Abstract

本申请提供一种图像生成的方法和服务器。本申请的方法，通过获取用户给定的参考图像、对象主体图和/或目标图像的描述文本，编码对象主体图和/或描述文本，生成目标图像的主体特征和/或描述文本特征，并提取参考图像的多维度特征；将多维度特征与主体特征和/或描述文本特征融合，生成多模态融合特征；根据多模态融合特征生成目标图像，从而基于对象主体图和/或目标图像的描述文本，自动生成与参考图像相类似的目标图像，该目标图像与参考图像为相似或同款图像，并且与用户给定的对象主体图和/或描述文本在语义相匹配，可以用于基于参考图像批量生成相似/同款图像，提升图像生成的效率和生成质量。

Description

图像生成的方法和服务器

技术领域

本申请涉及计算机技术，尤其涉及一种图像生成的方法和服务器。

背景技术

随着计算机视觉计算的快速发展，在电子商务、影视制作、教育等多个领域中，存在基于给定参考图像生成同款图像的需求。例如，生成商品、影视剧、策划活动等的海报图片，生成插画素材等。

目前，海报图片、插画素材等图像通常专业设计人员人工设计生成，图像生成的效率低。

发明内容

本申请提供一种图像生成的方法和服务器，用以解决图像生成的效率低的问题。

第一方面，本申请提供一种图像生成的方法，包括：

获取参考图像、以及待生成的目标图像应包含的对象主体图和/或所述目标图像的描述文本；

编码所述对象主体图和/或所述描述文本，生成所述目标图像的主体特征和/或描述文本特征，并提取所述参考图像的多维度特征；

将所述多维度特征与所述主体特征和/或描述文本特征融合，生成多模态融合特征；

根据所述多模态融合特征，生成所述目标图像。

第二方面，本申请提供一种图像生成的方法，应用于服务器，包括：

接收端侧设备发送的参考海报、以及待生成海报的对象的主体图；

编码所述对象主体图生成主体特征，并提取所述参考海报的多维度特征；

将所述参考海报的多维度特征与所述主体特征融合，生成多模态融合特征；

根据所述多模态融合特征，生成目标海报；

向端侧设备输出所述目标海报。

第三方面，本申请提供一种图像生成的方法，应用于端侧设备，包括：

提供交互界面；

获取通过所述交互界面上传的参考图像、以及待生成海报的对象的主体图；

向服务器发送参考海报、以及待生成海报的对象的主体图；

接收服务器发送的目标海报，所述目标海报是通过编码所述对象主体图生成主体特征，并提取所述参考海报的多维度特征，根据所述参考海报的多维度特征与所述主体特征融合生成的多模态融合特征而生成的；

输出所述目标海报。

第四方面，本申请提供一种服务器，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面或第二方面所述的方法。

本申请提供的图像生成的方法和服务器，通过获取用户给定的参考图像、对象主体图和/或目标图像的描述文本，编码对象主体图和/或描述文本，生成目标图像的主体特征和/或描述文本特征，并提取参考图像的多维度特征；将多维度特征与主体特征和/或描述文本特征融合，生成多模态融合特征；根据多模态融合特征生成目标图像，从而基于对象主体图和/或目标图像的描述文本，自动生成与参考图像相类似的目标图像，该目标图像与参考图像为相似或同款图像，并且与用户给定的对象主体图和/或描述文本在语义相匹配，可以用于基于参考图像批量生成相似/同款图像，提升图像生成的效率和生成质量。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所适用的一种示例性的图像生成的系统架构图；

图2为本申请一示例性实施例提供的图像生成方法的流程图；

图3为本申请另一示例性实施例提供的图像生成方法的流程图；

图4为本申请一示例性实施例提供的U型网络的结构示意图；

图5为本申请一示例性实施例提供的基于U型网络的特征提取网络提取单一维度的多尺度特征的示意图；

图6为本申请一示例性实施例提供的在扩散模型中融入多模态融合特征的示意图；

图7为本申请一示例性实施例提供的海报生成的流程图；

图8为本申请一示例性实施例提供的海报生成的框架示意图；

图9为本申请另一示例性实施例提供的海报生成的流程图；

图10为本申请一示例性实施例提供的海报生成的交互流程图；

图11为本申请另一示例性实施例提供的图像生成的流程图；

图12为本申请实施例提供的一种服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

Transformer：是一种基于注意力机制的序列到序列(seq2seq)模型，包括编码(Encoder)模块和解码(Decoder)，通常应用于自然语言处理领域。

目前，海报图片、插画素材等图像通常专业设计人员人工设计生成，图像生成的效率低。以电商场景为例，需要针对众多不同类型的商品分别设计不同的海报，海报设计需要耗费较长时间，海报生成的效率低。另外，影视剧、策划活动等的海报的生成也存在类似的技术问题。以插画制作场景为例，插画设计师需要手动绘制每张插画，针对相似内容往往需要绘制多张类似的同款插画素材，插画素材绘制效率低。另外，海报/插画素材等图像的质量依赖于设计人员的能力，质量参差不齐。

针对海报、插画素材等图像的生成效率低的问题，本申请提供一种图像生成的方法，根据用户给定的参考图像、对象主体图和/或目标图像的描述文本，编码对象主体图和/或描述文本，生成目标图像的主体特征和/或描述文本特征，并提取参考图像的多维度特征；将多维度特征与主体特征和/或描述文本特征融合，生成多模态融合特征；根据多模态融合特征，生成目标图像，从而基于对象主体图和/或目标图像的描述文本，自动生成与参考图像相类似的目标图像，该目标图像与参考图像为相似或同款图像，并且与用户给定的对象主体图和/或描述文本在语义相匹配，提升图像生成的效率和生成质量。

图1为本申请所适用的一种示例性的图像生成的系统架构图，如图1所示，该系统架构具体可包括服务器和端侧设备。图1中以服务器为部署在云端为例进行示意，另外服务器也可以部署在本地，此处不做具体限定。

其中，服务器具体可为设置在本地的服务器、也可以是设置在云端的服务器集群。服务器与各个端侧设备间具有可通信的通信链路，能够实现服务器与各个端侧设备间的通信连接。

端侧设备是用户所使用的电子设备，具体可以是具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于用户使用的智能终端、平板电脑、个人电脑等终端设备，物联网设备，服务平台或机构的服务器等。

端侧设备向服务器发送图像生成请求，以及或者调用服务器提供的应用程序接口，向服务器发送用户给定的参考图像、以及待生成的目标图像应包含的对象主体图和/或目标图像的描述文本，以触发服务器执行图像生成的方法，生成与参考图像相似的目标图像。服务器响应于图像生成请求、或应用程序接口被调用，获取端侧设备发送的参考图像、以及待生成的目标图像应包含的对象主体图和/或目标图像的描述文本；编码对象主体图和/或描述文本，生成目标图像的主体特征和/或描述文本特征，并提取参考图像的多维度特征；将多维度特征与主体特征和/或描述文本特征融合，生成多模态融合特征；根据多模态融合特征，生成目标图像。其中，参考图像的多维度特征包括但不限于如下维度的特征：颜色、布局排版、风格、语义。

另外，服务器还可以根据给定的对象主体图或描述文本特征，生成目标图像包含的矢量素材；自适应地确定矢量素材在目标图像中的布局信息，并将矢量素材合成到目标图像中。若用户给定了对象主体图，服务器还可以自适应地确定对象主体图在目标图像中的布局信息，并将对象主体图合成到目标图像中。

进一步地，服务器向端侧设备提供目标图像。示例性地，服务器将目标图像发送至端侧设备；或者，服务器向端侧设备提供目标图像的下载链接，并向端侧设备发送目标图像的下载链接，端侧设备根据目标图像的下载链接下载目标图像。另外，支持用户对目标图像中矢量素材和对象主体图进行调整。

在电商场景中，本申请的方法可应用于生成商品海报。商家/海报设计师作为用户，通过端侧设备向服务器发送参考海报，以及待生成海报的商品主体图；另外用户还可以根据需要选择提供或不提供对待生成的目标海报的描述文本。服务器将用户提供的商品主体图编码为商品主体特征，将用户提供的描述文本(若有)编码为描述文本特征，并提取参考海报的多维度特征，将多维度特征与主体特征和描述文本特征(若有)融合，生成多模态融合特征；根据多模态融合特征生成目标海报。

另外，服务器还可以根据给定商品主体图的语义信息或者给定的描述文本，自动生成目标海报所包含的矢量素材，包括矢量文本、装饰素材等；并自适应地确定矢量素材和商品主体图在目标海报中的布局信息，并将矢量素材和商品主体图合成到目标海报中，获得最终的商品海报。基于本申请的图像生成方法，可以批量生成大量商品的相似/同款海报，提升商品海报的生成效率和生成质量。

在电商场景中，本申请的方法可应用于生成某项活动的海报。活动策划人员/海报设计师作为用户，通过端侧设备向服务器发送参考海报，以及对待生成的目标海报的描述文本。服务器将用户提供的描述文本编码为描述文本特征，并提取参考海报的多维度特征，将多维度特征与描述文本特征融合，生成多模态融合特征；根据多模态融合特征生成目标海报。

另外，服务器还可以根据给定的描述文本自动生成目标海报所包含的矢量素材，包括矢量文本、装饰素材等；并自适应地确定矢量素材在目标海报中的布局信息，并将矢量素材合成到目标海报中，获得最终的目标海报(活动海报)。

在图像素材制作场景中，以插画制作为例，插画使用者/插画设计师作为用户，通过端侧设备向服务器发送参考插画，对待生成的目标插画的描述文本。服务器将用户提供的描述文本编码为描述文本特征，并提取参考海报的多维度特征，将多维度特征与描述文本特征融合，生成多模态融合特征；根据多模态融合特征生成目标插画。

另外，服务器还可以根据给定的描述文本特征，生成目标图像包含的矢量素材；自适应地确定矢量素材在目标图像中的布局信息，并将矢量素材合成到目标图像中。除了插画制作，本申请的方法还可以用于生成其他类型的图像素材，以代替人工设计和制作图像素材，提升图像素材的制作效率和质量。

本申请提供的方法还可以应用于生成活动海报、影视剧海报、生成各类型图像素材等，此处对于具体应用场景不做具体限定。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一示例性实施例提供的图像生成方法的流程图。本实施例的执行主体为前述系统架构中的服务器。如图2所示，该方法具体步骤如下：

步骤S201、获取参考图像、以及待生成的目标图像应包含的对象主体图和/或目标图像的描述文本。

本实施例中，参考图像是指用户给定的图像，本实施例的方法基于参考图像生成与参考图像相似/同款的目标图像。例如，参考图像可以是参考海报、基于参考海报生成同款海报。参考图像可以是参考插画，基于参考插画生成同款插画。

待生成的目标图像应包含的对象主体图是用户给定的对象主体的图像，具体可以是待生成海报的商品的主体图。在一些应用场景中，不针对某一对象主体生成图像，而是生成不包含确定对象主体的图像，这类场景中，用户可以不给定对象主体图。例如，生成某活动的海报、生成插画素材等场景中，用户可以给定一张参考图像(参考图像可以包含主体或者不包含主体)，通过本实施例的方法生成参考图像在颜色、布局排版、风格、语义等方面相似的同款图像，而不针对特定的对象主体。

目标图像的描述文本是用户给定的用于描述待生成的目标图像的需求等的文本信息，可以描述目标图像的颜色、风格、所包含的文案内容等等，此处不做具体限定。在针对特定对象主体生成图像的一些应用场景中，用户可以不输入目标图像的描述文本，而输入对象主体图。例如，生成某商品的海报场景中，用户可以给定特定商品的主体图，而不输入目标图像的描述文本，通过本实施例的方法生成与参考图像在颜色、布局排版、风格、语义等方面相似的同款图像，该同款图像包含特定商品的主体图。

示例性地，服务器可以通过端侧设备上运行的客户端提供交互界面，在交互界面中提供上传参考图像、上传对象主体图、输入目标图像的描述文本的区域。用户可以根据自己的使用需求，通过交互界面上传参考图像和对象主体图，输入描述文本，并提交到端侧设备。端侧设备向服务器发送图像生成请求，该图像生成请求携带用户提交的参考图像、对象主体图和/或描述文本。服务器接收端侧设备发送的图像生成请求，并从图像生成请求中提取出用户给定的参考图像、对象主体图和/或描述文本，即可获取到参考图像、以及待生成的目标图像应包含的对象主体图和/或目标图像的描述文本。

步骤S202、编码对象主体图和/或描述文本，生成目标图像的主体特征和/或描述文本特征，并提取参考图像的多维度特征。

本实施例中，若获取到给定的对象主体图，则将对象主体图进行编码，得到目标图像的主体特征。若获取到目标图像的描述文本，则将目标图像的描述文本进行编码，得到描述文本特征。

对于用户给的参考图像，提取参考图像的多维度特征，将参考图像的多个不同维度的特征进行解耦。其中，参考图像的多维度特征，包括如下至少两个维度的特征：颜色、布局排版、风格、语义。

示例性地，该步骤中，可以使用用于提取各维度特征的特征提取算法，分别提取参考图像的多个维度的特征。

具体地，对参考图像进行颜色采样，生成参考图像的颜色采样图。例如，将参考图像划分成较小的网格，在各网格区域内多个像素的颜色中采样一个像素的颜色信息，作为所在网格区域的颜色信息，生成颜色采样图。进一步地，将参考图像的颜色采样图进行特征提取，得到参考图像的颜色特征。

对参考图像中出现边缘进行识别，得到参考图像中包含的边缘在参考图像中的位置信息，体现了参考图像的布局排版的特点，作为参考图像的布局排版信息。进一步地，将参考图像的布局排版信息进行特征提取，得到参考图像的布局排版特征。

分别通过预训练模型，提取参考图像的风格特征和语义特征，或者，通过预训练模型提取参考图像的风格语义特征。

步骤S203、将多维度特征与主体特征和/或描述文本特征融合，生成多模态融合特征。

本实施例中，将解耦得到的参考图像的多维度特征，与对象主体图的主体特征和/或目标图像的描述文本特征等多模态的特征进行融合，得到多模态融合特征。

示例性地，该步骤中，可以通过对多维度特征与主体特征和/或描述文本特征拼接后，对拼接特征进行交叉注意力计算的方式实现多模态特征的融合，得到多模态融合特征。

步骤S204、根据多模态融合特征，生成目标图像。

在得到多模态融合特征之后，将多模态融合特征输入图像生成模型，通过图像生成模型基于多模态融合特征生成目标图像。

进一步地，在生成目标图像之后，服务器可以将服务器向端侧设备提供目标图像。

示例性地，服务器将目标图像发送至端侧设备。端侧设备接收服务器发送的目标图像，并输出目标图像。

可选地，服务器向端侧设备提供目标图像的下载链接，并向端侧设备发送目标图像的下载链接。端侧设备根据目标图像的下载链接下载目标图像，并输出目标图像。

本实施例中，服务器根据用户给定的参考图像、对象主体图和/或目标图像的描述文本，编码对象主体图和/或描述文本，生成目标图像的主体特征和/或描述文本特征，并提取参考图像的多维度特征；将多维度特征与主体特征和/或描述文本特征融合，生成多模态融合特征；根据多模态融合特征，生成目标图像，从而基于对象主体图和/或目标图像的描述文本，自动生成与参考图像相类似的目标图像，该目标图像与参考图像为相似或同款图像，并且与用户给定的对象主体图和/或描述文本在语义相匹配，提升图像生成的效率和生成质量。

图3为本申请另一示例性实施例提供的图像生成方法的流程图。如图3所示，本实施例的方法具体步骤如下：

步骤S301、获取参考图像、以及待生成的目标图像应包含的对象主体图和/或目标图像的描述文本。

步骤S302、编码对象主体图，生成目标图像的主体特征。

该步骤中，利用图像编码器将获取到的对象主体图编码为图像特征向量，得到目标图像的主体特征。其中，编码对象主体图所使用的图像编码器可以使用现有的任意一种实现图像编码的编码器实现，例如可以使用基于transformer的深度图像编码器实现，此处不做具体限定。

另外，该步骤S302为可选步骤，若步骤S301中获取到了对象主体图，则执行该步骤S302，将对象主体图编码为特征向量，得到目标图像的主体特征。若步骤S301中未获取到对象主体图，则不执行该步骤S302，省略该步骤。

步骤S303、编码描述文本，生成目标图像的描述文本特征。

该步骤中，利用文本编码器将获取到的目标图像的描述文本编码为文本特征向量，得到目标图像的描述文本特征。其中，编码目标图像的描述文本所使用的文本编码器可以使用现有的任意一种实现文本信息编码的编码器实现，例如可以使用基于transformer的深度文本编码器实现，此处不做具体限定。

另外，该步骤S303为可选步骤，若步骤S301中获取到了目标图像的描述文本，则执行该步骤S303，将目标图像的描述文本编码为特征向量，得到目标图像的描述文本特征。若步骤S301中未获取到目标图像的描述文本，则不执行该步骤S303，省略该步骤。

步骤S304、抹除参考图像所包含的对象主体和文字。

本实施例中，在提取参考图像的多维度特征之前，抹除参考图像所包含的对象主体和文字，将得到的背景图像作为参考图像，可以避免参考图像中特定对象主体和文字对目标图像产生影响，可以提升目标图像的生成质量。

具体地，该步骤中，对参考图像所包含的对象主体进行检测，确定参考图像中对象主体的掩码；并对参考图像所包含的文字进行检测，确定参考图像中文字区域的掩码；基于参考图像中对象主体的掩码和文字区域的掩码，使用图像擦除算法，将参考图像中对象主体和文字抹除，同时保持参考图像信息的连续性和完整性。

其中，对参考图像所包含的对象主体进行检测，确定参考图像中对象主体的掩码时，可以使用目标检测、目标分割的算法，生成参考图像中对象主体的掩码。

示例性地，可以采用基于卷积神经网络(Convolutional Neural Network，CNN)的F3Net算法，对参考图像所包含的对象主体进行检测，确定参考图像中对象主体的掩码。F3Net算法包括交叉特征模块(Cross Feature Module，CFM)和级联反馈解码器(CascadedFeedback Decoder，CFD)，利用交叉特征模块(CFM)对不同层级的特征进行融合，该模块通过元素间乘法来融合特征，从而减小冗余信息带来的特征污染；同时F3Net算法引入了级联反馈解码器(CFD)来细化这些融合之后的特征，从而达到更好的检测效果。另外，还可以采用DINO(DETR with Improved deNoising anchOr boxes)系列的目标检测模型、或其他常用目标检测、目标分割模型来生成参考图像中对象主体的掩码，此处不做具体限定。其中DINO是一种先进的端到端的对象检测器。

对参考图像所包含的文字进行检测，确定参考图像中文字区域的掩码时，可以使用文字分割、文本识别的算法，生成参考图像中文字区域的掩码。

示例性地，可以采用基于transformer架构的SwinTextSpotter(Scene TextSpotting via Better Synergy between Text Detection and Text Recognition)算法，对参考图像进行文字检测，得到参考图像中文字区域的掩码。其中SwinTextSpotter算法是一种通过文本检测和文本识别之间更好的协同来实现场景文本识别的算法。另外，还可以采用其他的文字识别(optical character recognition，OCR)算法来识别参考图像中文字区域的掩码，此处不做具体限定。

在得到参考图像中对象主体的掩码和文字区域的掩码之后，可以采用基于快速傅里叶卷积的LaMa擦除(Large Mask Inpainting)算法，将参考图像中对象主体和文字抹除，可以很好地保持参考图像信息的连续性和完整性。其中，LaMa擦除算法是一种常用的图像擦除算法，能够根据给定区域掩码将给定图像中对应区域去除，并利用背景图的内容恢复擦除区域的内容，保持图像内容的连续性和完整性。另外，还可以使用其他基于待擦除区域掩码实现图像擦除(Inpaint)的算法/工具实现，此处不做具体限定。

在抹除参考图像所包含的对象主体和文字之后，提取参考图像的多维度特征。

步骤S305、提取参考图像的多维度特征。

该步骤中，提取参考图像的多维度的特征信息，多维度的信息包括如下至少两个维度的信息：颜色信息、布局排版信息、风格信息、语义信息。进一步地，对各维度的特征信息进行特征提取，得到各维度特征。

具体地，对参考图像进行颜色采样，生成参考图像的颜色采样图。例如，将参考图像划分成较小的网格，在各网格区域内多个像素的颜色中采样一个像素的颜色信息，作为所在网格区域的颜色信息，生成颜色采样图。

对参考图像中出现边缘进行识别，得到参考图像中包含的边缘在参考图像中的位置信息，体现了参考图像的布局排版的特点，作为参考图像的布局排版信息。

分别通过预训练模型，提取参考图像的风格信息和语义信息，或者，通过预训练模型提取参考图像的风格语义信息(不区分风格信息和语义信息)。例如，可以将参考图像输入预训练的Clip模型，使用预训练的Clip模型提取参考图像风格语义信息。其中，Clip模型是指一种多模态的预训练模型，包含图像编码器和文本编码器，对输入的文本和/或图像进行编码，输出文本和/或图像的向量表示。另外，还可以使用分别用于提取风格信息和语义信息的两个不同的预训练模型，分别提取参考图像的风格信息和语义信息。

本实施例中，对各维度的特征信息进行特征提取，得到各维度特征时，利用U型网络(UNet)，对各维度的特征信息进行多尺度的特征提取，得到各维度的多尺度特征。其中，示例性地，如图4所示，U型网络(UNet)包括左侧的特征提取网络和右侧的特征融合网络。U型网络的特征提取网络包含多个特征提取层，不同层的特征提取层输出的特征的尺度不同。本实施例中，使用U型网络中的特征提取网络，对各维度的特征信息进行多尺度的特征提取，得到各维度的多尺度特征。其中用于提取不同维度的多尺度特征所使用的特征提取网络不共享模型参数。示例性地，如图5所示，将任一维度的特征信息输入U型网络的特征提取网络，通过特征提取网络的多个特征提取层，输出多种不同尺度的特征，得到该维度的多尺度特征。其中，图4中虚线框内为图例说明，conv3×3是指3×3的卷积。ReLU是指线性整流函数(RectifiedLinearUnit)，是一种激活函数。max pool 2×2是指2×2的最大池化。up-conv2×2是指2×2的上采样卷积。Conv1×1是指1×1的卷积。U型网络的具体结构与现有典型的U型网络结构类似，此处不再赘述。

示例性地，对于参考图像的颜色信息，将参考图像的颜色信息输入U型网络(UNet)的第一特征提取网络，通过第一特征提取网络的多层特征提取模块输出多尺度的颜色特征。

对于参考图像的布局排版信息，将参考图像的布局排版信息输入U型网络(UNet)的第二特征提取网络，通过第二特征提取网络的多层特征提取模块输出多尺度的布局排版特征。

对于参考图像的风格信息，将参考图像的风格信息输入U型网络(UNet)的第三特征提取网络，通过第三特征提取网络的多层特征提取模块输出多尺度的风格特征。

对于参考图像的语义信息，将参考图像的语义信息输入U型网络(UNet)的第四特征提取网络，通过第四特征提取网络的多层特征提取模块输出多尺度的语义特征。

对于参考图像的风格语义信息，将参考图像的风格语义信息输入U型网络(UNet)的第五特征提取网络，通过第五特征提取网络的多层特征提取模块输出多尺度的风格语义特征。

在另一可选实施例中，对各维度的特征信息进行特征提取，得到各维度特征时，可以分别使用卷积神经网络对各维度的特征信息进行特征提取，得到各维度的特征。

步骤S306、将多维度特征与主体特征和/或描述文本特征融合，生成多模态融合特征。

本实施例中，将不同尺度的多维度特征分别与主体特征和/或描述文本特征融合，生成多尺度的多模态融合特征。

具体地，若获取到了主体特征和描述文本特征，将不同尺度的多维度特征分别与主体特征和描述文本特征融合，生成多尺度的多模态融合特征。若获取到主体特征，未取到描述文本特征，将不同尺度的多维度特征分别与主体特征融合，生成多尺度的多模态融合特征。若获取到描述文本特征，未取到主体特征，将不同尺度的多维度特征分别与描述文本特征融合，生成多尺度的多模态融合特征。

可选地，该步骤中，可以通过对多维度特征与主体特征和/或描述文本特征拼接后，对拼接特征进行交叉注意力计算的方式实现多模态特征的融合，得到多模态融合特征。

可选地，该步骤中，可以获取多维度特征中各维度的特征信息、主体特征、描述文本特征分别对应的权重参数；根据权重参数，对多维度特征与主体特征和/或描述文本特征进行交叉注意力计算，得到多模态融合特征。

其中，不同维度的特征信息对应的权重参数可以不同，也可以相同，具体可以根据实际应用场景进行配置，此处不做具体限定。

具体地，根据权重参数，对多维度特征与主体特征和/或描述文本特征进行交叉注意力计算，得到多模态融合特征时，将多维度特征、主体特征和/或描述文本特征分别与对应的权重参数相乘，将乘上权重参数后的各维度特征、主体特征和/或描述文本特征拼接后，进行交叉注意力计算，得到多模态融合特征。通过引入权重参数，可以控制不同特征对于后续生成图像的影响程度，权重参数较大的特征对后续生成图像的影响程度较高，权重参数较小的特征对后续生成图像的影响程度较低。

在一可选实施例中，支持用户配置各项特征的权重参数，包括多维特征中各维度特征的权重参数、主体特征的权重参数、描述文本特征的权重参数。具体地，服务器可以提供权重参数的配置界面，并通过端侧设备显示权重参数的配置界面。用户可以通过配置界面配置各项特征的权重参数。响应于对配置界面中各项特征的权重参数的编辑操作，服务器配置或更新权重参数。通过将权重参数开放给用户进行自定义配置，可以由用户控制各个特征对生成图像的影响程度。

步骤S307、根据多模态融合特征，生成目标图像。

本实施例中，利用基于U型网络的扩散模型，生成目标图像的背景图像，并将多尺度的多模态融合特征，分别融入扩散模型的对应尺度的输入向量。示例性地，本实施例中可以采用DDPM(Denoising Diffusion Probabilistic Models)等经典的扩散模型，此处不做具体限定。

示例性地，如图6所示，扩散模型生成图像的过程包括前向过程(用实线箭头表示)和反向过程(用虚线箭头表示)。前向过程(也即扩散过程)中逐步对图像加噪声，直至图像被破坏变成高斯噪声。反向过程(也即逆扩散过程、去噪过程)从高斯噪声中反向推导，逐渐消除噪声以逆转生成图像。图6中的X0、X1、X2……XT指代扩散模型的前向.逆向过程中的图像数据。扩散模型基于U型网络结构实现，前向过程和逆向过程均包括多个扩散处理块(也即Diffusion Block)，不同扩散处理块输出的图像的尺度不同。该步骤中，可以将多模态融合特征融入前向过程中各扩散处理块的输入中，或者将多模态融合特征融入反向过程中各扩散处理块的输入中。图6中以在前向过程中融入多模态融合特征为例进行示例性地说明。

可选地，对于获取到的多尺度的多模态融合特征，在前向过程中，将各尺度的多模态融合特征融入对应尺度的扩散处理块的输入中；或者，在反向过程中，将各尺度的多模态融合特征融入对应尺度的扩散处理块的输入中。

本实施例中，通过将获取到的多模态融合特征融入扩散模型前向过程/反向过程的输入中，可以提升生成目标图像的质量，使得生成的目标图像更符合用户需求。

步骤S308、根据对象主体图或描述文本特征，生成目标图像包含的矢量素材。

本实施例中，在生成目标图像的矢量图像的同时，还可以生成矢量素材，向目标图像中自动添加矢量素材。其中，生成的矢量素材包括矢量文字和装饰素材。

该步骤中，根据描述文本特征，生成目标图像所包含的矢量文字；或者，提取对象主体图的语义信息，根据对象主体图的语义信息，生成目标图像所包含的矢量文字。

在实际应用中，若用户提供了目标图像的描述文本，可以根据描述文本生成目标图像的矢量文字。具体地，若目标图像的描述文本包含用户给定的文案，则直接根据用户给定的文案生成矢量文字。其中，描述文本包含用户给定的文案具有特定格式，通过预设模板可以进行识别。若目标图像的描述文本不包含用户给的文案，则根据描述文本的语义特征生成文本，并转换为矢量文字。另外，若用户未提供目标图像的描述文本，则根据用户提供的对象主体图，提取对象主体图的语义信息，根据对象主体图的语义信息生成文本，并转换为矢量文字，可以针对不同的对象主体，生成与该对象主体相匹配的矢量文字。

其中，根据描述文本的语义特征/对象主体图的语义信息，生成文本，具体可以采用基于语义表示的文本生成方法，此处不做具体限定。另外，对于生成的文本，可以先转换为文字图片，再将文字图片矢量化，得到矢量文字。

可选地，还可以通过在文字素材库中搜索语义匹配的矢量文字的方式，生成目标图像所包含的矢量文字。具体地，根据描述文本的语义特征/对象主体图的语义信息，还可以在文字素材库中搜索与描述文本的语义特征/对象主体图的语义信息相匹配的矢量文字。

该步骤中，还可以根据对象主体图的语义信息，获取与语义信息匹配的矢量装饰素材，可以针对不同的对象主体，生成与该对象主体相匹配的装饰素材。

示例性地，通过在装饰素材库中搜索语义匹配的装饰素材的方式，生成目标图像所包含的装饰素材。具体地，基于对象主体图的语义信息，在给定的装饰素材库中搜索与对象主体图的语义信息相匹配的装饰素材，该装饰素材可以是普通图片(如png图)或者矢量图。若装饰素材不是矢量图，可以对装饰素材矢量化，得到对应的矢量素材。

可选地，还可以图像生成式模型，基于对象主体图的语义信息，生成装饰素材图像(可以是矢量图或非矢量图)。若生成的装饰素材图像不是矢量图，可以对装饰素材图像矢量化，得到对应的矢量素材。

步骤S309、确定矢量素材和对象主体图在目标图像中的布局信息，并将矢量素材和对象主体图合成到目标图像中。

本实施例中，在生成矢量素材之后，可以自动预测对象主体图(若有)和各个矢量元素在目标图像中的布局信息，包括对象主体图和各元素在目标图像中的位置、比例和空间关系等布局相关信息。进一步地，基于对象主体图(若有)和各个矢量元素在目标图像中的布局信息，将对象主体图和矢量素材添加到目标图像中。

其中，预测对象主体图和各个矢量元素在目标图像中的布局信息可以采用常用的布局设计/布局预测算法实现，例如PosterLayout、LayoutDETR、LayoutDM等，此处不做具体限定。其中，PosterLayout是一种新的基于内容感知的视觉文本表示布局基准和方法，旨在为预定义的元素(包括文本、标志和底层)在给定的画布上安排空间。LayoutDETR是一种布局预测算法，它学习在背景图像中检测布局中多模态元素的合理位置、比例和空间关系。LayoutDM是一种可控布局生成的离散扩散模型，旨在生成元素边界框的合理排列。

另外，可以将目标图像、对象主体图和矢量素材输出，并支持由用户在目标图像中指定对象主体图的位置、也可以由用户指定一个或者多个矢量素材在目标图像中的位置。

步骤S310、输出目标图像。

本实施例中，将对象主体图(若有)和矢量素材合成到目标图像中之后，将合成后的目标图像输出，以供用户浏览。

在一可选实施例中，还支持用户对目标图像中的矢量素材、对象主体图的调整。具体可以通过如下步骤S311-S313实现。本实施例中，提供目标图像的编辑界面，在编辑界面中，用户可以通过点击、拖拽等操作，实现调整目标图像中对象主体图和/或矢量素材的调整、删除，还可以将指定元素添加到目标图像中的指定位置。

步骤S311、响应于对目标图像中任意元素的位置/大小的调整操作，更新元素在目标图像中的位置/大小。

步骤S312、响应于对目标图像中任意元素的删除操作，将元素从目标图像中删除。

步骤S313、响应于向目标图像中指定位置添加指定元素的操作，将指定元素插入目标图像的指定位置。

本实施例中，目标图像中的元素包括对象主体图和矢量素材。步骤S311、S312和S313是基于用户操作触发的，这三个步骤的执行顺序此处不做具体限定。

本实施例提供了图像生成方法的详细处理流程，并提供了多种不同的实施方式。本实施例中，服务器根据用户给定的参考图像、对象主体图和/或目标图像的描述文本，编码对象主体图和/或描述文本，生成目标图像的主体特征和/或描述文本特征，并提取参考图像的多维度特征；将多维度特征与主体特征和/或描述文本特征融合，生成多模态融合特征；根据多模态融合特征，生成目标图像，从而基于对象主体图和/或目标图像的描述文本，自动生成与参考图像相类似的目标图像，该目标图像与参考图像为相似或同款图像，并且与用户给定的对象主体图和/或描述文本在语义相匹配，提升图像生成的效率和生成质量。

图7为本申请一示例性实施例提供的海报生成的流程图，图8为本实施例提供的海报生成的框架示意图。本实施例中，用户给定待生成海报应包含的对象主体的对象主体图，以及对待生成海报的描述文本。本实施例的方法基于参考海报生成与参考海报相似/同款的目标海报。结合图8，如图7所示，本实施例的方法具体步骤如下：

步骤S701、获取参考海报、待生成的目标海报应包含的对象主体图、和目标海报的描述文本。

其中，对象主体图是用户给定的对象主体的图像，具体可以是待生成海报的商品的主体图。目标海报的描述文本是用户给定的用于描述待生成的目标海报的需求等的文本信息，可以描述目标海报的颜色、风格、所包含的文案内容等等，此处不做具体限定。在针对特定对象主体生成图像的一些应用场景中，用户可以不输入目标海报的描述文本，而输入对象主体图。例如，生成某商品的海报场景中，用户可以给定特定商品的主体图，而不输入目标海报的描述文本，通过本实施例的方法生成与参考海报在颜色、布局排版、风格、语义等方面相似的同款图像，该同款图像包含特定商品的主体图。

本实施例中，以用户同时给定了对象主体图和目标海报的描述文本为例，对这一情况下生成海报的过程进行示例性地说明。

示例性地，服务器可以通过端侧设备上运行的客户端显示交互界面，在交互界面中提供上传参考海报、上传对象主体图、输入目标海报的描述文本的区域。用户可以根据自己的使用需求，通过交互界面上传参考海报和对象主体图，输入描述文本，并提交到端侧设备。端侧设备向服务器发送图像生成请求，该图像生成请求携带用户提交的参考海报、对象主体图和描述文本。服务器接收端侧设备发送的图像生成请求，并从图像生成请求中提取出用户给定的参考海报、对象主体图和描述文本，即可获取到参考海报、以及待生成的目标海报应包含的对象主体图和/或目标海报的描述文本。

步骤S702、编码对象主体图，生成目标海报的主体特征。

该步骤与前述步骤S202和S302中编码对象主体图生成目标图像的主体特征的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

步骤S703、编码描述文本，生成目标海报的描述文本特征。

该步骤与前述步骤S202和S303中编码描述文本生成目标图像的描述文本特征的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

步骤S704、抹除参考海报所包含的对象主体和文字。

本实施例中，如图8所示，在前处理阶段，将参考海报(参考图像)中的对象主体和文字抹除，以避免影响后续生成图像的效果和质量。

该步骤与前述步骤S304中抹除参考图像所包含的对象主体和文字的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

步骤S705、提取参考海报的多维度特征。

该步骤与前述步骤S305中提取参考图像的多维度特征的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

步骤S706、将多维度特征与主体特征和描述文本特征融合，生成多模态融合特征。

该步骤与前述步骤S306中同时获取到主体特征和描述文本特征情况下的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

本实施例中，通过步骤S702-S703，S705-S706实现多模态信息的融合。

步骤S707、根据多模态融合特征，生成目标海报。

该步骤与前述步骤S307根据多模态融合特征生成目标图像的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

步骤S708、根据对象主体图和描述文本特征，生成目标海报包含的矢量素材。

该步骤中，根据描述文本特征，生成目标海报所包含的矢量文字。根据对象主体图的语义信息，获取与语义信息匹配的矢量装饰素材。具体实现方式参见前述步骤S308中的相关内容，此处不再赘述。

步骤S709、确定矢量素材和对象主体图在目标海报中的布局信息，并将矢量素材和对象主体图合成到目标海报中。

该步骤与前述步骤S309确定矢量素材和对象主体图在目标图像中的布局信息，并将矢量素材和对象主体图合成到目标图像中的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

在生成目标海报之后，如图8所示，在后处理阶段将对象主体图和矢量素材添加到目标海报(目标图像)中，得到最终的目标海报。

步骤S710、输出目标海报。

本实施例中，将对象主体图(若有)和矢量素材合成到目标海报中之后，将合成后的目标海报输出，以供用户浏览。

另外，本实施例中，还支持用户对目标海报中的矢量素材、对象主体图进行调整。具体地，服务器提供目标海报的编辑界面，在编辑界面中，用户可以通过点击、拖拽等操作，实现调整目标海报中对象主体图和/或矢量素材的调整、删除，还可以将指定元素添加到目标海报中的指定位置。具体实现方式参见前述步骤S311-S313的相关内容，此处不再赘述。

另外，如图8所示，对目标图像的描述文本为可选输入内容，用户可以不给定描述文本，具体实现方式参见图9对应实施例。

本实施例中，服务器根据用户给定的参考海报、对象主体图和目标海报的描述文本，编码对象主体图和描述文本，生成目标海报的主体特征和描述文本特征，并提取参考海报的多维度特征；将多维度特征与主体特征和描述文本特征融合，生成多模态融合特征；根据多模态融合特征生成目标海报，从而基于对象主体图和目标海报的描述文本，自动生成与参考海报相类似/同款的目标海报，可以自动生成与对象主体图和描述文本在语义相匹配的矢量素材，自适应预测矢量素材和对象主体图在目标海报中的布局信息，并合成到目标海报中，实现海报自适应排版，可以实现批量海报的生成，提升海报生成的效率和生成质量。

本方案通过全自动识别和生成的方式，无需人工辅助即可生成给定参考海报同款的海报，便于商家或者设计人员批量进行海报的设计和制作，大大减少了人力成本，简化了海报设计流程，同时保证了海报的质量。

图9为本申请另一示例性实施例提供的海报生成的流程图。本实施例中，用户给定待生成海报应包含的对象主体的对象主体图，用户不提供目标海报的描述文本。如图9所示，本实施例的方法具体步骤如下：

步骤S901、获取参考海报、待生成的目标海报应包含的对象主体图。

其中，对象主体图是用户给定的对象主体的图像，具体可以是待生成海报的商品的主体图。

本实施例中，以用户仅给定了对象主体图，未给定目标海报的描述文本为例，对这一情况下生成海报的过程进行示例性地说明。

步骤S902、编码对象主体图，生成目标海报的主体特征。

步骤S903、抹除参考海报所包含的对象主体和文字。

步骤S904、提取参考海报的多维度特征。

步骤S905、将多维度特征与主体特征融合，生成多模态融合特征。

该步骤与前述步骤S306中仅获取到主体特征情况下的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

步骤S906、根据多模态融合特征，生成目标海报。

步骤S907、根据对象主体图，生成目标海报包含的矢量素材。

该步骤中，根据对象主体图的语义信息，生成目标海报所包含的矢量文字。根据对象主体图的语义信息，获取与语义信息匹配的矢量装饰素材。具体实现方式参见前述步骤S308中的相关内容，此处不再赘述。

步骤S908、确定矢量素材和对象主体图在目标海报中的布局信息，并将矢量素材和对象主体图合成到目标海报中。

步骤S909、输出目标海报。

另外，本实施例中，还支持用户对目标海报中的矢量素材、对象主体图的调整。具体地，服务器提供目标海报的编辑界面，在编辑界面中，用户可以通过点击、拖拽等操作，实现调整目标海报中对象主体图和/或矢量素材的调整、删除，还可以将指定元素添加到目标海报中的指定位置。具体实现方式参见前述步骤S311-S313的相关内容，此处不再赘述。

本实施例中，服务器根据用户给定的参考海报和对象主体图，编码对象主体图生成目标海报的主体特征，并提取参考海报的多维度特征；将多维度特征与主体特征融合生成多模态融合特征；根据多模态融合特征生成目标海报，从而基于对象主体图自动生成与参考海报相类似/同款的目标海报，并且在可以针对对象主体图的语义信息，自动生成与对象主体图语义相匹配的矢量素材，自适应预测矢量素材和对象主体图在目标海报中的布局信息，并合成到目标海报中，实现海报自适应排版，可以实现批量海报的生成，提升海报生成的效率和生成质量。

图10为本申请一示例性实施例提供的海报生成的交互流程图。如图10所示，在海波生成过程中，端侧设备和服务器的交互流程如下：

步骤S101、端侧设备显示交互界面。

其中，该交互界面用于上传参考图像、以及待生成海报的对象的主体图。另外，用户通过该交互界面，还可以上传待生成海报的描述文本。

步骤S102、端侧设备获取通过交互界面上传的参考图像、以及待生成海报的对象的主体图。

步骤S103、端侧设备向服务器发送参考海报、以及待生成海报的对象的主体图。

步骤S104、服务器接收端侧设备发送的参考海报、以及待生成海报的对象的主体图。

步骤S105、服务器编码对象主体图生成主体特征，并提取参考海报的多维度特征；将参考海报的多维度特征与主体特征融合，生成多模态融合特征；根据多模态融合特征，生成目标海报。

该步骤具体实现方式可以采用前述步骤S702-S709实现，或者，可以采用前述步骤S902-S908实现，具体参见前述实施例的相关内容，此处步骤赘述。

步骤S106、服务器向端侧设备输出目标海报。

步骤S107、端侧设备接收服务器发送的目标海报。

其中，目标海报是由服务器通过编码对象主体图生成主体特征，并提取参考海报的多维度特征，根据参考海报的多维度特征与主体特征融合生成的多模态融合特征而生成的。

步骤S108、端侧设备输出目标海报。

另外，在输出目标海报之后，还支持用户通过端侧设备对目标海报中的矢量素材、对象主体图的调整。具体地，通过端侧设备显示目标海报的编辑界面，在编辑界面中，用户可以通过点击、拖拽等操作，实现调整目标海报中对象主体图和/或矢量素材的调整、删除，还可以将指定元素添加到目标海报中的指定位置。具体实现方式参见前述步骤S311-S313的相关内容，此处不再赘述。

图11为本申请另一示例性实施例提供的图像生成的流程图。本实施例中，用户给定待生成目标图像的描述文本，可以应用于基于给定描述文本生成与参考图像相似/同款的目标图像的场景，例如，插画素材等图像素材的生成场景。如图11所示，本实施例的方法具体步骤如下：

步骤S1101、获取参考图像、对待生成的目标图像的描述文本。

本实施例中，参考图像是指用户给定的图像，本实施例的方法基于参考图像生成与参考图像相似/同款的目标图像。例如，参考图像可以是参考插画，基于参考插画生成同款插画。

其中，目标图像的描述文本是用户给定的用于描述待生成的目标图像的需求等的文本信息，可以描述目标图像的颜色、风格、所包含的文案内容等等，此处不做具体限定。

步骤S1102、编码描述文本，生成目标图像的描述文本特征。

步骤S1103、抹除参考图像所包含的对象主体和文字。

步骤S1104、提取参考图像的多维度特征。

步骤S1105、将多维度特征与描述文本特征融合，生成多模态融合特征。

该步骤与前述步骤S306中仅获取到描述文本特征情况下的实现方式类似，具体参见前述实施例的相关内容，此处不再赘述。

步骤S1106、根据多模态融合特征，生成目标图像。

步骤S1107、根据描述文本特征，生成目标图像包含的矢量文字。

该步骤的具体实现方式参见前述步骤S308中根据描述文本特征生成矢量文字的相关内容，此处不再赘述。

在一可选实施例中，还可以根据描述文本的语义信息生成装饰素材，具体实现方式与步骤S308中根据语义信息生成装饰素材的实现方式类似，本实施例中用描述文本的语义信息替代对象主体图的语义信息，用于生成装饰素材，具体参见步骤S308的相关内容，此处不再赘述。

步骤S1108、确定矢量文字在目标图像中的布局信息，并将矢量文字合成到目标图像中。

该步骤与前述步骤S309确定矢量素材和对象主体图在目标图像中的布局信息，并将矢量素材和对象主体图合成到目标图像中的实现方式类似，不同之处在于，本实施例中不存在对象主体图，采用类似的方法确定矢量文字在目标图像中的布局信息，并将矢量文字合成到目标图像中即可，具体参见前述实施例的相关内容，此处不再赘述。

步骤S1109、输出目标图像。

本实施例中，将矢量素材合成到目标图像中之后，将合成后的目标图像输出，以供用户浏览。

另外，本实施例中，还支持用户对目标图像中的矢量素材进行调整。具体地，服务器提供目标图像的编辑界面，在编辑界面中，用户可以通过点击、拖拽等操作，实现调整目标图像中矢量素材的调整、删除，还可以将指定素材添加到目标图像中的指定位置。具体实现方式参见前述步骤S311-S313的相关内容，此处不再赘述。

本实施例中，服务器根据用户给定的参考图像和目标图像的描述文本，编码描述文本生成目标图像描述文本特征，并提取参考图像的多维度特征；将多维度特征与描述文本特征融合生成多模态融合特征；根据多模态融合特征生成目标图像，从而基于目标图像的描述文本自动生成与参考图像相类似/同款的目标图像，并且可以自动生成与描述文本在语义相匹配的矢量素材，自适应预测矢量素材在目标图像中的布局信息，并合成到目标图像中，实现海报自适应排版，可以实现批量相似/同款图像的生成，可以应用于批量生成插画素材等，提升图像生成的效率和生成质量。

图12为本申请实施例提供的一种服务器的结构示意图。如图12所示，该服务器包括：存储器1201和处理器1202。存储器1201，用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在服务器上的操作。处理器1202，与存储器1201通信连接，用于执行存储器1201存储的计算机执行指令，以实现上述任一方法实施例所提供的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。图12中以服务器为部署在云端的云服务器为例进行示意，另外服务器也可以是本地服务器，此处不做具体限定。

可选的，如图12所示，该服务器还包括：防火墙1203、负载均衡器1204、通信组件1205、电源组件1206等其它组件。图12中仅示意性给出部分组件，并不意味着服务器只包括图12所示组件。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得服务器执行上述任一方法实施例所提供的技术方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中服务器的技术方案。可选的，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例所提供的技术方案。

上述存储器可以是对象存储(Object Storage Service，OSS)。

上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如移动热点(WiFi)，第二代移动通信系统(2G)、第三代移动通信系统(3G)、第四代移动通信系统(4G)/长期演进(LTE)、第五代移动通信系统(5G)等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘存储器(CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种图像生成的方法，其特征在于，包括：

根据所述多模态融合特征，生成所述目标图像。

2.根据权利要求1所述的方法，其特征在于，所述提取所述参考图像的多维度特征，包括：

提取所述参考图像的多维度的特征信息，所述多维度的信息包括如下至少两项：颜色信息、布局排版信息、风格信息、语义信息；

利用U型网络，对各维度的特征信息进行多尺度的特征提取，得到各维度的多尺度特征。

3.根据权利要求2所述的方法，其特征在于，所述提取所述参考图像的多维度特征之前，还包括：

抹除所述参考图像所包含的对象主体和文字。

4.根据权利要求2所述的方法，其特征在于，所述将所述多维度特征与所述主体特征和/或描述文本特征融合，生成多模态融合特征，包括：

将不同尺度的多维度特征分别与所述主体特征和/或描述文本特征融合，生成多尺度的多模态融合特征。

5.根据权利要求4所述的方法，其特征在于，所述根据所述多模态融合特征，生成所述目标图像的背景图像，包括：

利用基于U型网络的扩散模型，生成目标图像的背景图像，并将所述多尺度的多模态融合特征，分别融入所述扩散模型的对应尺度的输入向量。

6.根据权利要求1或4所述的方法，其特征在于，所述将所述多维度特征与所述主体特征和/或描述文本特征融合，生成多模态融合特征，包括：

获取所述多维度特征中各维度的特征信息、所述主体特征和/或所述描述文本特征分别对应的权重参数；

根据所述权重参数，对所述多维度特征与所述主体特征和/或所述描述文本特征进行交叉注意力计算，得到多模态融合特征。

7.根据权利要求6所述的方法，其特征在于，所述获取所述多维度特征中各维度的特征信息、所述主体特征和/或所述描述文本特征分别对应的权重参数，包括：

提供所述权重参数的配置界面；

响应于对所述配置界面中各项特征的权重参数的编辑操作，配置或更新所述权重参数。

8.根据权利要求1-5中任一项所述的方法，其特征在于，还包括：

根据所述对象主体图或所述描述文本特征，生成所述目标图像包含的矢量素材；

确定所述矢量素材在所述目标图像中的布局信息，并将所述矢量素材合成到所述目标图像中。

9.根据权利要求8所述的方法，其特征在于，所述根据所述对象主体图或所述描述文本特征，生成所述目标图像包含的矢量素材，包括：

根据所述描述文本特征，生成所述目标图像所包含的矢量文字；

或者，

提取所述对象主体图的语义信息，根据所述对象主体图的语义信息，生成所述目标图像所包含的矢量文字。

10.根据权利要求8所述的方法，其特征在于，所述根据所述对象主体图或所述描述文本特征，生成所述目标图像包含的矢量素材，包括：

根据所述对象主体图的语义信息，获取与所述语义信息匹配的矢量装饰素材。

11.根据权利要求8所述的方法，其特征在于，得到所述目标图像之后，还包括：

输出所述目标图像；

响应于对所述目标图像中任意元素的位置/大小的调整操作，更新所述元素在所述目标图像中的位置/大小；

响应于对所述目标图像中任意元素的删除操作，将所述元素从所述目标图像中删除；

响应于向所述目标图像中指定位置添加指定元素的操作，将所述指定元素插入所述目标图像的所述指定位置；

其中所述元素包括对象主体图和矢量素材。

12.一种图像生成的方法，其特征在于，应用于服务器，包括：

根据所述多模态融合特征，生成目标海报；

向端侧设备输出所述目标海报。

13.一种图像生成的方法，其特征在于，应用于端侧设备，包括：

显示交互界面；

向服务器发送参考海报、以及待生成海报的对象的主体图；

输出所述目标海报。

14.一种服务器，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-13中任一项所述的方法。