CN116503517A

CN116503517A - 长文本生成图像的方法及系统

Info

Publication number: CN116503517A
Application number: CN202310764770.2A
Authority: CN
Inventors: 杨文姬; 安航; 杨振姬; 马欣欣; 钱文彬
Original assignee: Jiangxi Agricultural University
Current assignee: Jiangxi Agricultural University
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-07-28
Anticipated expiration: 2043-06-27
Also published as: CN116503517B

Abstract

本发明提供了一种长文本生成图像的方法及系统，该方法包括：在潜在空间中随机获取一特征向量，并将所述特征向量输入至预设全连接层中，以生成对应的初始特征图；通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中，以生成对应的中间特征图；依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像，所述目标图像包含所述预设长文本特征中的特征元素。通过上述方式能够将外界的长文本特征对应融合至随机生成的初始特征图中，并最终根据该初始特征图生成需要的目标图像，并且该目标图像包含与上述长文本特征对应的特征元素，即对应的场景图像。

Description

长文本生成图像的方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种长文本生成图像的方法及系统。

背景技术

场景设计主要是指动画影视片中的一切事务的造型设计，即是一种具有空间层次感的场面构图。现有的场景设计师在进行场景设计的过程中，都需要使用专门的场景设计软件，以制作出高质量的景观图像以及动画。

其中，现有技术大部分通过编辑特定的文本，并将该文本输入至场景设计软件中，以生成对应的场景图像，用于后续方案的预览以及评估。

然而，现有技术大部分只能处理用户输入的短文本，而对长文本的处理能力不足，导致不能生成与用户输入的长文本相对应的场景图像，同时生成的场景图像缺乏细节以及多样性，从而对应降低了用户的使用体验。

发明内容

基于此，本发明的目的是提供一种长文本生成图像的方法及系统，以解决现有技术大部分只能处理用户输入的短文本，而对长文本的处理能力不足，导致不能生成与用户输入的长文本相对应的场景图像，同时生成的场景图像缺乏细节以及多样性，从而对应降低了用户的使用体验的问题。

本发明实施例第一方面提出了一种长文本生成图像的方法，所述方法包括：

在潜在空间中随机获取一特征向量，并将所述特征向量输入至预设全连接层中，以生成对应的初始特征图；

通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中，以生成对应的中间特征图；

依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像，所述目标图像包含所述预设长文本特征中的特征元素。

本发明的有益效果是：通过在潜在空间中随机获取一特征向量，并将所述特征向量输入至预设全连接层中，以生成对应的初始特征图；进一步的，通过预设处理模块将预设长文本特征对应融合至所述初始特征图中，以生成对应的中间特征图；最后只需依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像，所述目标图像包含所述预设长文本特征中的特征元素。通过上述方式能够将外界的长文本特征对应融合至随机生成的初始特征图中，并最终根据融合后的初始特征图生成需要的目标图像，并且该目标图像包含与上述长文本特征对应的特征元素，即对应的场景图像，从而能够满足用户的使用需求，对应提升了用户的使用体验。

优选的，所述通过预设处理模块将预设长文本特征对应融合至所述初始特征图中的步骤包括：

识别出所述预设长文本特征中的特性文本、元素文本以及指令文本，并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至所述预设的特性文本编码器、元素文本编码器以及指令文本编码器中；

通过所述特性文本编码器和所述元素文本编码器分别对所述特性文本以及所述元素文本进行双向长短时记忆网络编码，以分别生成对应的特性文本特征以及元素文本特征，并通过所述指令文本编码器对所述指令文本进行层次化长短时记忆网络编码，以生成对应的指令文本特征；

将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中。

优选的，所述将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中的步骤包括：

将所述特性文本特征和所述元素文本特征同时输入至预设元素特性融合块中，以生成对应的元素特性特征，并将所述元素文本特征以及所述指令文本特征输入至预设指令元素融合块中，以生成对应的指令元素特征；

将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中，以对所述初始特征图进行融合处理。

优选的，所述将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中，以对所述初始特征图进行融合处理的步骤包括：

将所述元素特性特征以及所述初始特征图同时输入至预设元素特性融合块中，并通过所述预设元素特性融合快中的元素特性仿射变换以及所述元素特性特征对所述初始特征图进行通道仿射变换处理；

将所述特性文本特征、所述元素文本特征以及通道仿射变换处理后的初始特征图输入至预设第一步骤要素融合器中，以将所述特性文本特征、所述元素文本特征分步骤要素融入生成对应的中间特征图，并将所述中间特征图通过所述预设元素特性融合快和所述预设第一步骤要素融合器三次融合处理后得到第一融合特征图；

将所述第一融合特征图输入至预设指令元素融合块中，并通过指令元素仿射变换以及所述指令元素特征对所述初始特征图进行通道仿射变换处理；

将所述元素文本特征、所述指令文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第二步骤要素融合器中，以将所述元素文本特征、所述指令文本特征分步骤要素融入生成对应的所述中间特征图，并将所述中间特征图通过所述预设指令元素融合块和所述预设第二步骤要素融合器三次融合处理后得到第二融合特征图，以将所述第一融合特征图和所述第二融合特征图经过卷积和激活形成目标图像。

优选的，所述依次通过预设卷积层和预设激活层对所述第二融合特征图进行图像化处理，以生成对应的目标图像的步骤之后，所述方法还包括：

当获取到所述目标图像时，将所述目标图像传输至若干个下采样块中，以获取到对应的采样图像；

将所述采样图像输入至空间注意力模型中，以使所述空间注意力模型输出对应的图像特征；

根据所述图像特征判断出所述目标图像的真假。

优选的，所述方法还包括：

建立与预设显示终端的无线通讯连接，并将所述目标图像转换成对应的显示信号，所述显示信号与所述预设显示终端适配；

将所述显示信号传输至所述预设显示终端内，以在所述预设显示终端内实时显示出所述目标图像。

优选的，所述目标图像由若干个步骤要素融合特征图组成，所述步骤要素融合特征图包含若干个特征通道，每一所述特征通道均具有唯一性。

本发明实施例第二方面提出了一种长文本生成图像的系统，所述系统包括：

获取模块，用于在潜在空间中随机获取一特征向量，并将所述特征向量输入至预设全连接层中，以生成对应的初始特征图；

第一处理模块，用于通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中，以生成对应的中间特征图；

第二处理模块，用于依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像，所述目标图像包含所述预设长文本特征中的特征元素。

其中，上述长文本生成图像的系统中，所述第一处理模块具体用于：

其中，上述长文本生成图像的系统中，所述第一处理模块还具体用于：

将所述特性文本特征和所述元素文本特征同时输入至预设元素特性融合块中，以生成对应的元素特性特征，将元素特性特征继续在所述预设元素特性融合块中处理生成中间特征图，并将所述中间特征图以及所述特性文本特征和元素文本特征同时输入至预设第一步骤要素融合器中，以生成对应的步骤要素融合特征图；

将所述元素文本特征和所述指令文本特征同时输入至预设指令元素融合块中，以生成对应的指令元素特征，将指令元素特征继续在所述预设指令元素融合块中处理生成中间特征图，并将所述中间特征图以及所述指令文本特征和元素文本特征同时输入至预设第二步骤要素融合器中，以生成对应的步骤要素融合特征图；

将所述元素特性特征以及所述初始特征图同时输入至预设元素特性融合块中，并通过所述预设元素特性融合块中的元素特性仿射变换以及所述元素特性特征对所述初始特征图进行通道仿射变换处理；

将所述特性文本特征、所述元素文本特征以及通道仿射变换处理后的初始特征图同时输入至预设第一步骤要素融合器中，以将所述特性文本特征、所述元素文本特征分步骤要素融入生成对应的中间特征图，并将所述中间特征图通过所述预设元素特性融合块和所述预设第一步骤要素融合器三次融合处理后得到第一融合特征图；

其中所述的第一步骤要素融合器中的要素特征代表特性文本特征、步骤特征代表元素文本特征、第二步骤要素融合器中的要素特征代表元素文本特征、步骤特征代表指令文本特征。

其中，上述长文本生成图像的系统中，所述长文本生成图像的系统还包括判断模块，所述判断模块具体用于：

根据所述图像特征判断出所述目标图像的真假。

其中，上述长文本生成图像的系统中，所述长文本生成图像的系统还包括显示模块，所述显示模块具体用于：

其中，上述长文本生成图像的系统中，所述目标图像由若干个步骤要素融合特征图组成，所述步骤要素融合特征图包含若干个特征通道，每一所述特征通道均具有唯一性。

本发明实施例第三方面提出了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上面所述的长文本生成图像的方法。

本发明实施例第四方面提出了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上面所述的长文本生成图像的方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明第一实施例提供的长文本生成图像的方法的流程图；

图2为本发明第二实施例提供的长文本生成图像的方法中的步骤要素融合器的控制原理图；

图3为本发明第二实施例提供的长文本生成图像的方法中的预设元素特性融合块的处理流程图；

图4为本发明第二实施例提供的长文本生成图像的方法中的预设指令元素融合块的处理流程图；

图5为本发明第三实施例提供的长文本生成图像的系统的结构框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

现有技术大部分只能处理用户输入的短文本，而对长文本的处理能力不足，导致不能生成与用户输入的长文本相对应的场景图像，同时生成的场景图像缺乏细节以及多样性，从而对应降低了用户的使用体验。

请参阅图1，所示为本发明第一实施例提供的长文本生成图像的方法，本实施例提供的长文本生成图像的方法能够将外界的长文本特征对应融合至随机生成的初始特征图中，并最终根据该初始特征图生成需要的目标图像，并且该目标图像包含与上述长文本特征对应的特征元素，即对应的场景图像，从而能够满足用户的使用需求，对应提升了用户的使用体验。

具体的，本实施例提供的长文本生成图像的方法具体包括以下步骤：

步骤S10，在潜在空间中随机获取一特征向量，并将所述特征向量输入至预设全连接层中，以生成对应的初始特征图；

具体的，在本实施例中，首先需要说明的是，本实施例提供的长文本生成图像的方法具体应用在各类景观设计软件中，用于实时根据用户输入的长文本生成对应的场景图像，基于此，可进一步对实时生成的场景图像进行优化，以提升工作效率。

另外，在本实施例中，还需要指出的是，本实施例提供的长文本生成图像的方法是基于设置在后台的文本编码器、生成器以及鉴别器实施的，其中，本实施例提供的文本编码器还具体包括特性文本编码器、元素文本编码器以及指令文本编码器，并且本实施例提供的编码器都是经过预训练的，即可以直接使用，以完成对文本的编码。

基于此，在本步骤中，需要说明的是，本步骤会首先在现有的潜在空间中随机获取一个特征向量，具体的，该特征向量具有服从高斯分布的特性，进一步的，本步骤会进一步将当前特征向量输入至预先设置好的全连接层中，以使该全连接层能够输出对应的初始特征图，其中，需要指出的是，本实施例提供的特征向量的范围为0至1之间。

步骤S20，通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中，以生成对应的中间特征图；

进一步的，在本步骤中，需要说明的是，本步骤会首先获取到需要的预设长文本特征，具体的，该预设长文本特征可以是用户实时输入的，也可以是从文本数据库中调出的，基于此，本步骤会实时通过预设融合块和预设融合器将当前预设长文本特征融合至上述初始特征图中，以进一步生成对应中间特征图。

步骤S30，依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像，所述目标图像包含所述预设长文本特征中的特征元素。

最后，在本步骤中，需要说明的是，在通过上述步骤获取到需要的中间特征图之后，本步骤会进一步调出预设卷积层以及预设激活层，具体的，本步骤会将上述中间特征图依次输入至预设卷积层以及预设激活层中，以进行对应的图像化处理，即生成对应的场景图像，该场景图像就是需要的目标图像，并且该目标图像中包含有上述预设长文本特征中的全部特征元素。

使用时，通过在潜在空间中随机获取一特征向量，并将所述特征向量输入至预设全连接层中，以生成对应的初始特征图；进一步的，通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中，以生成对应的中间特征图；最后只需依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像，所述目标图像包含所述预设长文本特征中的特征元素。通过上述方式能够将外界的长文本特征对应融合至随机生成的初始特征图中，并最终根据该初始特征图生成需要的目标图像，并且该目标图像包含与上述长文本特征对应的特征元素，即对应的场景图像，从而能够满足用户的使用需求，对应提升了用户的使用体验。

需要说明的是，上述的实施过程只是为了说明本申请的可实施性，但这并不代表本申请的长文本生成图像的方法只有上述唯一一种实施流程，相反的，只要能够将本申请的长文本生成图像的方法实施起来，都可以被纳入本申请的可行实施方案。

综上，本发明上述实施例提供的长文本生成图像的方法能够将外界的长文本特征对应融合至随机生成的初始特征图中，并最终根据该初始特征图生成需要的目标图像，并且该目标图像包含与上述长文本特征对应的特征元素，即对应的场景图像，从而能够满足用户的使用需求，对应提升了用户的使用体验。

本发明第二实施例也提供了一种长文本生成图像的方法，本实施例提供的长文本生成图像的方法与上述第一实施例提供的长文本生成图像的方法不同之处在于：

上述通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中的步骤包括：

具体的，在本实施例中，需要说明的是，本实施例会进一步识别出所述预设长文本特征中的特性文本、元素文本以及指令文本，并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至所述预设特性文本编码器、元素文本编码器以及指令文本编码器中；

进一步的，如图2至图4所示，需要说明的是，通过所述特性文本编码器和所述元素文本编码器分别对所述特性文本以及所述元素文本进行双向长短时记忆网络编码，以分别生成对应的特性特征向量以及元素特征向量，并通过所述指令文本编码器对所述指令文本进行层次化长短时记忆网络编码，以生成对应的指令特征向量；

将所述特性特征向量、所述元素特征向量以及所述指令特征向量分别对应融合至所述初始特征图中。

其中，在本实施例中，需要指出的是，本实施例为了能够有效的训练出上述特性文本编码器、元素文本编码器以及指令文本编码器，本实施例会采用对比损失训练方法，即使一批训练样本之间的图像-文本相似性最大化。具体的，本实施例会首先计算出所有可能的文本-图像对的相似度矩阵：

其中，M表示相似度矩阵，n表示图像数量，T表示转置，e_i表示文本特征，f_i表示图像特征，进一步的，本实施例还会将上述相似度矩阵转化成对应的匹配概率，具体的，该匹配概率的表达式为：

其中，M_i，j表示第i个文本特征与第j个图像特征之间的点积相似度，exp表示自然指数函数。

进一步的，为了最大化属于同一对的文本特征和图像特征之间的相似性，本实施例对应构建出的最小化对比损失的表达式为：

其中，L表示最小化对比损失，通过上述方式能够将接收到的文本特征映射为对应的图像特征，以进一步生成需要的场景图像。

具体的，在本实施例中，还需要说明的是，上述将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中的步骤包括：

其中，需要指出的是，本实施例会将上述特性文本特征e_f和元素文本特征e_e同时输入至上述预设元素特性融合块中，以生成上述元素特性特征e_ef，具体的，上述特性文本特征：e_f=BiLSTM（T_f），上述元素文本特征：e_e=BiLSTM（T_e），进一步的，上述元素特性特征：e_ef=Connect（e_e，e_f），其中，BiLSTM()表示双向LSTM模型，T_f和T_e分别表示特性文本以及元素文本。

另外，还需要指出的是，本实施例还会将上述元素文本特征e_e和指令文本特征e_s同时输入至上述预设指令元素融合块中，以生成上述指令元素特征e_se，其中，上述元素文本特征：e_e=BiLSTM（T_e），进一步的，上述指令文本特征：e_s=HierarchicalLSTM（T_s），对应的，上述指令元素特征：e_se=Connect（e_s，e_e），同理，BiLSTM表示双向LSTM模型，HierarchicalLSTM表示层次LSTM模型，T_s表示指令文本。

另外，在本实施例中，需要说明的是，上述将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中，以对所述初始特征图进行融合处理的步骤包括：

其中，需要说明的是，本实施例对上述初始特征图进行元素特性仿射变换的仿射变换处理的表达式为：

其中，h_t表示RNN的隐藏状态，是输入的第i尺度特征图，γ_t、β_t表示由两个以h_t为条件的单隐藏层MLP预测的参数，其中，γ_t=MLP₁（h_t），β_t=MLP₂（h_t），进一步的，使用RNN对上述元素特性融合块的时间结构中进行建模，具体的，使用LSTM模型进行建模，在此，初始隐状态h₀和记忆单元状态c₀定义如下：

其中z是随机噪音。

本实施例提供的元素特性仿射变换中的隐状态h_t更新规则如下：

其中，e_ef是元素特性特征，Y是仿射变换，σ表示sigmoid函数，tanh表示双曲正切函数，i_t、f_t、o_t、u_t分别表示输入门、遗忘门、输出门，候选记忆单元状态，c_t表示当前时刻记忆单元状态，c_t-1表示上一时刻的记忆单元状态，h_t表示当前时刻的隐状态，h_t-1表示上一时刻的隐状态。

指令元素融合块的仿射变换处理和元素特性融合块的仿射变换处理原理相同，区别在于隐状态h_t更新过程中，元素特性融合块融入元素特性特征，而指令元素融合块融入指令元素特征。

另外，还需要说明的是，本实施例提供的步骤要素融合器能够模仿出真实的设计场景，并且随着步骤的推移。具体的，如图2所示，描述了步骤要素融合器的网络结构，需要说明的是，其中，表示要素特征列表，其中，d_part表示该列表中第m个要素特征的维度。在此基础之上，第i个尺度的图像特征表示为/>，其中，C表示为通道深度，L=W×H表示为特征的分辨率。具体的，图像特征F_i与要素特征/>融合，以产生要素融合特征，其中，每个图像特征大小为C×L。要素融合特征/>的第j个通道通过以下方法计算：

其中，V(·)表示将要素特征变换到与第i个尺度图像特征F_i相同维度的1×1卷积。/>是F_i的第j个通道，σ(·)是一个Softmax函数，它输出一个大小为L的注意力图，带有概率值，以指示要素特征的空间分布。通过上述Softmax函数为每个要素特征生成一个注意力图，即/>。

进一步的，通过多个门控循环单元(GRU)对步骤特征进行顺序编码，其中，第一个GRU单元用要素融合特征图初始化，如图2所示，一个步骤特征融合后的结果被送到下一个步骤特征融合中。本实施例会用一个设计步骤序列来表示，其中，/>表示步骤序列中第n个步骤特征，/>是第n个步骤特征的维度。

将要素融合特征和步骤特征分步骤融合形成步骤融合特征，具体如下：

其中，表示在第i尺度下的步骤融合特征的第j个通道。最终得到的步骤融合特征与F_i具有相同的维度，通道数为C，大小为W×H。为此，将图像F_i、要素融合特征/>和步骤融合特征/>三组特征进行通道连接并送入残差块得到图像特征，进而作为下一次迭代的输入。

另外，在本实施例中，还需要说明的是，上述依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像的步骤之后，所述方法还包括：

根据所述图像特征判断出所述目标图像的真假。

另外，在本实施例中，还需要说明的是，本实施例在通过上述步骤获取到需要的目标图像之后，为了能够准确的验证出当前目标图像的有效性，本实施例会进一步将当前目标图像输入至预先设置好的若干个采样块中，优选的，该步骤中的采样块设置为五个，从而能够输出对应的采样图像。

进一步的，本实施例还会将当前采样图像输入至预先设置好的空间注意力模型中，以进一步输出对应的图像特征，最后只需根据该图像特征就能够准确的判断出当前目标图像的真假。

进一步的，在本实施例中，需要说明的是，所述方法还包括：

进一步的，需要说明的是，为了能够使工作人员实时观测到目标图像的生成过程，本实施例会建立与显示终端的无线通讯连接，与此同时，将上述目标图像转换成对应的显示信号，基于此，将该显示信号传输至上述显示终端内，从而能够实时有效的在该显示终端中实时显示出上述目标图像。

进一步的，在本实施例中，需要说明的是，所述目标图像由若干个步骤要素融合特征图组成，所述步骤要素融合特征图包含若干个特征通道，每一所述特征通道均具有唯一性。

基于此，本实施例通过有效的构建出每一个特征通道，就能够最终对应构建出需要的目标图像，从而大幅提升了目标图像的生成效率，对应提升了用户的使用体验。

需要指出的是，本发明第二实施例所提供的方法，其实现原理及产生的一些技术效果和第一实施例相同，为简要描述，本实施例未提及之处，可参考第一实施例提供的相应内容。

请参阅图5，所示为本发明第三实施例提供的长文本生成图像的系统，所述系统包括：

获取模块12，用于在潜在空间中随机获取一特征向量，并将所述特征向量输入至预设全连接层中，以生成对应的初始特征图；

第一处理模块22，用于通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中，以生成对应的中间特征图；

第二处理模块32，用于依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像，所述目标图像包含所述预设长文本特征中的特征元素。

其中，上述长文本生成图像的系统中，所述第一处理模块22具体用于：

识别出所述预设长文本特征中的特性文本、元素文本以及指令文本，并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至所述预设融合器的特性文本编码器、元素文本编码器以及指令文本编码器中；

通过所述特性文本编码器和所述元素文本编码器分别对所述特性文本以及所述元素文本进行双向长短时记忆网络编码，以分别生成对应的特性特征向量以及元素特征向量，并通过所述指令文本编码器对所述指令文本进行层次化长短时记忆网络编码，以生成对应的指令特征向量；

其中，上述长文本生成图像的系统中，所述第一处理模块22还具体用于：

将所述特性文本特征和所述元素文本特征同时输入至预设元素特性融合块中，特性文本特征和元素文本特征在所述预设元素特性融合块中相互融合以生成对应的元素特性特征，并将所述元素文本特征以及所述指令文本特征同时输入至预设指令元素融合块中，元素文本特征和指令文本特征在所述预设指令元素融合块中相互融合以生成对应的指令元素特征；

其中，上述长文本生成图像的系统中，所述长文本生成图像的系统还包括判断模块42，所述判断模块42具体用于：

根据所述图像特征判断出所述目标图像的真假。

其中，上述长文本生成图像的系统中，所述长文本生成图像的系统还包括显示模块52，所述显示模块52具体用于：

本发明第四实施例提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例提供的长文本生成图像的方法。

本发明第五实施例提供了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提供的长文本生成图像的方法。

综上所述，本发明上述实施例提供的长文本生成图像的方法及系统能够将外界的长文本特征对应融合至随机生成的初始特征图中，并最终根据该初始特征图生成需要的目标图像，并且该目标图像包含与上述长文本特征对应的特征元素，即对应的场景图像，从而能够满足用户的使用需求，对应提升了用户的使用体验。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种长文本生成图像的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的长文本生成图像的方法，其特征在于：所述通过预设融合块和预设融合器将预设长文本特征对应融合至所述初始特征图中的步骤包括：

识别出所述预设长文本特征中的特性文本、元素文本以及指令文本，并分别将所述特性文本、所述元素文本以及所述指令文本对应输入至特性文本编码器、元素文本编码器以及指令文本编码器中；

3.根据权利要求2所述的长文本生成图像的方法，其特征在于：所述将所述特性文本特征、所述元素文本特征以及所述指令文本特征分别对应融合至所述初始特征图中的步骤包括：

将所述特性文本特征和所述元素文本特征同时输入至预设元素特性融合块中，所述特性文本特征和所述元素文本特征在所述预设元素特性融合块中相互融合以生成对应的元素特性特征，并将所述元素文本特征以及所述指令文本特征同时输入至预设指令元素融合块中，所述元素文本特征和所述指令文本特征在所述预设指令元素融合块中相互融合以生成对应的指令元素特征；

4.根据权利要求3所述的长文本生成图像的方法，其特征在于：所述将所述元素特性特征以及所述指令元素特征对应输入至所述初始特征图中，以对所述初始特征图进行融合处理的步骤包括：

5.根据权利要求1所述的长文本生成图像的方法，其特征在于：所述依次通过预设卷积层和预设激活层对所述中间特征图进行图像化处理，以生成对应的目标图像的步骤之后，所述方法还包括：

根据所述图像特征判断出所述目标图像的真假。

6.根据权利要求1所述的长文本生成图像的方法，其特征在于：所述方法还包括：

7.根据权利要求1所述的长文本生成图像的方法，其特征在于：所述目标图像由若干个步骤要素融合特征图组成，所述步骤要素融合特征图包含若干个特征通道，每一所述特征通道均具有唯一性。

8.一种长文本生成图像的系统，其特征在于，所述系统包括：

第一处理模块，用于通过预设融合块和融合器将预设长文本特征对应融合至所述初始特征图中，以生成对应的中间特征图；

9.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的长文本生成图像的方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任意一项所述的长文本生成图像的方法。