CN110490953A

CN110490953A - 基于文本的图像生成方法、终端设备及介质

Info

Publication number: CN110490953A
Application number: CN201910677171.0A
Authority: CN
Inventors: 胡方涛
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-22
Anticipated expiration: 2039-07-25
Also published as: CN110490953B

Abstract

本发明实施例公开了一种基于文本的图像生成方法、终端设备及介质。其中，基于文本的图像生成方法包括：提取目标文本中的至少一个元素特征词；基于至少一个元素特征词，生成至少一个元素词向量；基于至少一个元素词向量中的每一个元素词向量，生成每一个元素词向量对应的元素图像；基于至少一个元素图像，生成目标文本对应的N个目标图像；其中，元素图像的图像内容与元素词向量对应的元素特征词相关联；N为正整数。利用本发明实施例能够根据目标文本的文字内容生成其对应的目标图像，实现自动为目标文本匹配合适的图像。

Description

基于文本的图像生成方法、终端设备及介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种基于文本的图像生成方法、终端设备及介质。

背景技术

用户在使用社交应用(例如微信、微博等)进行状态分享时，都希望能够为所要分享的文字内容搭配合适的图像。

目前，用户只能花费大量的时间手动在互联网上或者终端设备的本地相册中寻找用于搭配文字内容的图像，使得为文本配图的操作繁琐耗时，不但降低了状态分享的效率，还会浪费用户的时间。

发明内容

本发明实施例提供一种基于文本的图像生成方法、终端设备及介质，以解决现有技术中为目标文本匹配合适的图像的效率较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例还提供了一种基于文本的图像生成方法，包括：

提取目标文本中的至少一个元素特征词；

基于至少一个元素特征词，生成至少一个元素词向量；

基于至少一个元素词向量中的每一个元素词向量，生成每一个元素词向量对应的元素图像；

基于至少一个元素图像，生成目标文本对应的N个目标图像；

其中，元素图像的图像内容与元素词向量对应的元素特征词相关联；N为正整数。

第二方面，本发明实施例提供了一种终端设备，包括：

特征词提取模块，用于提取目标文本中的至少一个元素特征词；

词向量生成模块，用于基于至少一个元素特征词，生成至少一个元素词向量；

元素图像生成模块，用于基于至少一个元素词向量中的每一个元素词向量，生成每一个元素词向量对应的元素图像；

目标图像生成模块，用于基于至少一个元素图像，生成目标文本对应的N个目标图像；

进一步地，词向量生成模块具体用于：获取预设词库，预设词库包括预定数量的预设元素词；针对至少一个元素特征词中的每一个元素特征词，确定与每一个元素特征词匹配的预设元素词在预设词库中的词序列位置；基于词序列位置，生成每一个元素特征词对应的元素词向量，元素词向量的向量维度与预定数量相同。

进一步地，元素图像生成模块具体用于：将至少一个元素词向量中的每一个元素词向量转化为对应词向量矩阵；通过反卷积神经网络，对词向量矩阵进行反卷积，生成每一个元素词向量对应的元素图像。

进一步地，还包括：

向量转换模块，用于通过预设的权重矩阵，将词向量生成模块生成的至少一个元素词向量中的每一个元素词向量转化为预设维度的向量；其中，预设维度根据词向量矩阵的矩阵维度确定。

进一步地，词向量生成模块还具体用于：获取当前的系统时间；基于至少一个元素特征词和当前的系统时间，生成至少一个元素词向量；其中，元素图像的图像内容与元素词向量对应的元素特征词和当前的系统时间相关联。

进一步地，目标图像生成模块具体用于：对至少一个元素图像中的每一个元素图像进行图像分割，得到每一个元素图像对应的二值化元素图像；基于至少一个二值化元素图像，生成目标文本对应的N个目标图像。

进一步地，目标图像生成模块还具体用于：对至少一个二值化元素图像进行叠加处理，生成至少一个二值化目标图像；通过图像生成模型，对至少一个二值化目标图像进行细节增强，得到目标文本对应的N个目标图像。

进一步地，目标图像生成模块还具体用于：在二值化元素图像的数量为至少两个的情况下，在至少两个二值化元素图像中，提取至少一组二值化元素图像组，其中，至少一组二值化元素图像组中的每一组二值化元素图像组中包括至少两个二值化元素图像；将每一组二值化元素图像组中的至少两个二值化元素图像叠加生成对应的二值化目标图像。

进一步地，终端设备还包括：

目标图像显示模块，用于显示N个目标图像；

目标图像获取模块，用于获取用户从N个目标图像中选取的M个目标图像；

目标图像合成模块，用于根据M个目标图像，生成目标文本对应的目标合成图像；

其中，N＞1，M≥2且M≤N。

进一步地，目标图像合成模块可具体用于：获取M个目标图像所包含的T个图像元素；剔除T个图像元素中重复的图像元素，得到K个图像元素；基于K个图像元素，生成目标文本对应的目标合成图像；其中，T和K分别为正整数，K≤T且T≥2M。

第三方面，本发明实施例提供了一种计算设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现本发明第一方面所述的基于文本的图像生成方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现本发明第一方面所述的基于文本的图像生成方法的步骤。

在本发明实施例中，能够利用预设词库生成目标文本的各个元素特征词的元素词向量，并根据每个元素词向量生成图像内容与元素词向量对应的元素特征词相关联的元素图像，以通过元素图像生成目标文本对应的目标图像，从而根据目标文本的文字内容生成其对应的目标图像，实现自动为目标文本匹配合适的图像，提高为文字内容匹配合适的图像的效率。

附图说明

图1为本发明一个实施例提供的基于文本的图像生成方法的流程示意图；

图2为本发明一个实施例提供的反卷积过程的过程示意图；

图3为本发明一个实施例提供的降采样过程的过程示意图；

图4为本发明另一个实施例提供的基于文本的图像生成方法的流程示意图；

图5为本发明一个实施例提供的终端设备的结构示意图；

图6为本发明实施例的一种终端设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术问题，本发明实施例提供了一种基于文本的图像生成方法、终端设备及介质。下面首先对本发明实施例所提供的基于文本的图像生成方法进行介绍。

图1示出了本发明一个实施例提供的基于文本的图像生成方法的流程示意图。如图1所示，本发明实施例提供的基于文本的图像生成方法包括：

步骤110、提取目标文本中的至少一个元素特征词；

步骤120、基于至少一个元素特征词，生成至少一个元素词向量；

步骤130、基于至少一个元素词向量中的每一个元素词向量，生成每一个元素词向量对应的元素图像；

步骤140、基于至少一个元素图像，生成目标文本对应的N个目标图像；

本发明实施例的图像生成方法可以应用于用户所使用的终端设备，也可以应用于与用户所使用的终端设备通信的服务器，在此不做限制。

在本发明实施例中，目标文本可以为用户向终端设备输入的文本，也可以为用户基于终端设备所显示的内容，在所显示的内容中选择的文本。

在本发明的一些实施例的步骤110中，可以对目标文本进行分词，然后对分词得到的多个词进行语义分析，从分词得到的多个词中选择用于生成目标图像的多个元素特征词，其中，元素特征词可以为与场景、事物和人物相关的词。

在本发明的另一些实施例的步骤110中，也可以直接利用目标文本与预设词库中的多个预设元素词进行匹配，将目标文本中与预设元素词匹配的词提取出来，作为元素特征词，从而能够直接利用预设词库中已有的预设元素词快速提取目标文本中用于生成目标图像的元素特征词，降低了数据处理量、提高了数据处理效率，并且，可以使元素特征词均能够在预设词库找到匹配的预设元素词，以便将元素特征词转换为元素词向量。

在本发明一些实施例中，步骤120的具体方法可以包括：

获取预设词库，其中，预设词库包括预定数量的预设元素词；

针对至少一个元素特征词中的每一个元素特征词，确定与每一个元素特征词匹配的预设元素词在预设词库中的词序列位置；

基于词序列位置，生成每一个元素特征词对应的元素词向量，元素词向量的向量维度与预定数量相同。

在本发明实施例中，预设元素词的预定数量可以根据需要确定，在此不做限制。

在本发明的一些实施例中，基于词序列位置生成每一个元素特征词对应的元素词向量的具体方法可以为：将设置元素词向量的向量维度设置为预定数量对应的数值，针对至少一个元素特征词中的每一个元素特征词，将元素词向量中与该元素特征词匹配的预设元素词在预设词库中的词序列位置对应的向量元素设置为1，将元素词向量中除该词序列位置对应的向量元素以外的其余向量元素均设置为0，从而生成该元素特征词对应的元素词向量。

例如，在步骤110中得到天空、海洋、沙滩、树木四个元素特征词，预设词库中的预设元素词的预定数量为1000个，与元素特征词匹配的预设元素词，分别为预设词库中的天空、海洋、沙滩、树木四个预设元素词，天空、海洋、沙滩、树木四个预设元素词在预设词库中的词序列位置分别为第x1、x2、x3、x4位，此时，生成的四个元素特征词对应的元素词向量分别为向量维度为1000的向量：元素特征词“天空”对应的元素词向量中的第x1个向量元素为1，其余向量元素均为0；元素特征词“海洋”对应的元素词向量中的第x2个向量元素为1，其余向量元素均为0；元素特征词“沙滩”对应的元素词向量中的第x3个向量元素为1，其余向量元素均为0；元素特征词“树木”对应的元素词向量中的第x4个向量元素为1，其余向量元素均为0。

在本发明的另一些实施例中，基于词序列位置生成每一个元素特征词对应的元素词向量的具体方法可以为：将设置元素词向量的向量维度设置为预定数量对应的数值，针对至少一个元素特征词中的每一个元素特征词，将元素词向量中与该元素特征词匹配的预设元素词在预设词库中的词序列位置对应的向量元素和该向量元素之前的向量元素设置为1，将元素词向量中的其余向量元素均设置为0，从而生成该元素特征词对应的元素词向量。

例如，在步骤110中得到天空、海洋、沙滩、树木四个元素特征词，预设词库中的预设元素词的预定数量为1000个，与元素特征词匹配的预设元素词，分别为预设词库中的天空、海洋、沙滩、树木四个预设元素词，天空、海洋、沙滩、树木四个预设元素词在预设词库中的词序列位置分别为第x1、x2、x3、x4位，此时，生成的四个元素特征词对应的元素词向量分别为向量维度为1000的向量：元素特征词“天空”对应的元素词向量中的前x1个向量元素为1，其余向量元素均为0；元素特征词“海洋”对应的元素词向量中的前x2个向量元素为1，其余向量元素均为0；元素特征词“沙滩”对应的元素词向量中的前x3个向量元素为1，其余向量元素均为0；元素特征词“树木”对应的元素词向量中的前x4个向量元素为1，其余向量元素均为0。

因此，本发明实施例能够利用预设词库生成每一个元素词向量对应的元素图像，由于每一个元素词向量均是基于元素词向量中与其匹配的预设元素词而生成的，因此，可以便于在步骤130中根据每一个元素词向量自动生成图像内容与元素词向量对应的元素特征词相关联的元素图像。

在本发明另一些实施例中，步骤120的具体方法还可以包括：

获取当前的系统时间；

基于至少一个元素特征词和当前的系统时间，生成至少一个元素词向量；

其中，元素图像的图像内容与元素词向量对应的元素特征词和当前的系统时间相关联。

具体地，可以利用上述的方法，基于预设词库生成元素特征词对应的元素词向量，然后，确定当前的系统时间对应的时间向量元素，将时间向量元素加入该元素词向量中，得到带有时间标记的元素词向量。其中，时间向量元素可以直接添加至元素词向量的首位或者末位。

沿用上述的一个示例，基于预设词库生成的元素特征词“天空”对应的元素词向量为向量维度为1000的向量，该元素词向量中的第x1个向量元素为1，其余向量元素均为0。当前的系统时间对应的时间向量元素为t，若将时间向量元素t直接添加至元素词向量的首位，可以得到带有时间标记的元素特征词“天空”对应的元素词向量，此时，向量维度变为1001，该元素词向量中的第1个向量元素为t，第x1+1个向量元素为1，其余向量元素均为0。

需要说明的是，在本发明实施例中，确定当前的系统时间对应的时间向量元素的具体方法可以为：将一天时间划分为多个预定时间段，并对多个预定时间段进行排序，确定当前的系统时间所属的预定时间段，将当前的系统时间所属的预定时间段在多个预定时间段中的排序位置，作为当前的系统时间对应的时间向量元素的元素值。

例如，可以将一天时间划分为凌晨(0-5时)、清晨(5-7时)、上午(7-11时)、中午(11-13时)、下午(13-17时)、傍晚(17-19时)和晚上(19-24时)等7个时间段，按照时间顺序，可以确定这7个时间段的排序，若当前的系统时间属于傍晚，则当前的系统时间对应的的时间向量元素的元素值可以为6。

在本发明实施例中，由于元素词向量中增加时间向量元素，因此，在利用元素词向量生成图像内容与元素词向量对应的元素特征词相关联的元素图像时，能够结合当前的系统时间，生成与当前的系统时间相关联的元素图像。例如，如果元素特征词为“天空”，当前的系统时间对应的时间段为傍晚，此时，利用元素词向量就可以生成傍晚的天空对应的元素图像，更能够满足用户的偏好，提高为文本匹配图像的准确性。

在本发明一些实施例中，步骤130的具体方法可以包括：

将至少一个元素词向量中的每一个元素词向量转化为对应词向量矩阵；

通过反卷积神经网络，对词向量矩阵进行反卷积，生成每一个元素词向量对应的元素图像。

在本发明的一些实施例中，若元素词向量的向量维度与词向量矩阵的矩阵维度相同，则可以直接将元素词向量的每一个向量元素按照逐行或逐列的形式依次填入词向量矩阵的矩阵元素中，生成元素词向量转化为对应词向量矩阵。

在本发明的另一些实施例中，若元素词向量的向量维度小于词向量矩阵的矩阵维度，则可以直接将元素词向量的每一个向量元素按照逐行或逐列的形式依次填入词向量矩阵的矩阵元素中，将未填入向量元素的矩阵元素用0补充，生成元素词向量转化为对应词向量矩阵。

在本发明的另一些实施例中，若元素词向量的向量维度大于词向量矩阵的矩阵维度，则可以直接将元素词向量的每一个向量元素按照逐行或逐列的形式依次填入词向量矩阵的矩阵元素中，并未填入矩阵元素的向量元素中多余的0，生成元素词向量转化为对应词向量矩阵。

在本发明实施例中，如图2所示，可以将词向量矩阵210输入由多个反卷积层220构成的反卷积神经网络230，以最终得到预定尺寸的元素图像240。其中，对词向量矩阵进行反卷积的过程即是一个上采样的过程。

具体地，在进行反卷积时，可以将每个反卷积层220的步长设置为小于该反卷积层220所使用的卷积核的边长，使生成的元素图像240的元素和色彩更加丰富。

需要说明的是，在本发明实施例中，当利用一个元素词向量生成对应的元素图像时，元素图像的图像内容中可以仅包括与元素词向量对应的元素特征词相同的内容，也可以包括与元素词向量对应的元素特征词相关的内容。例如，元素特征词为海洋时，利用元素特征词“海洋”对应的元素词向量生成元素图像中，可能仅包括海水，也可能包括海水、天空和岛屿。

在本发明另一些实施例中，在步骤130之前，该图像生成方法还可以包括：

通过预设的权重矩阵，将至少一个元素词向量中的每一个元素词向量转化为预设维度的向量；

其中，预设维度根据词向量矩阵的矩阵维度确定。

在本发明实施例中，预设的权重矩阵是基于对利用预设词库生成的多个元素词向量进行主成分分析得到的，用于将与预设词库的预定数量相同的向量维度的元素词向量转化为预设维度的向量的权重矩阵。

具体地，预设维度可以与反卷积神经网络所需要输入的词向量矩阵的矩阵维度相同。

在本发明实施例中，在将元素词向量转化为词向量矩阵之前，由于可以通过预设的权重矩阵将元素词向量转化为与词向量矩阵的矩阵维度相同的维度的向量，先降低元素词向量的向量维度，可以避免在将元素词向量转化为词向量矩阵时，添加新的元素或删除原有元素，避免在利用词向量矩阵生成对应的元素图像时出现偏差，提高生成的元素图像的图像内容与元素特征词的匹配程度。

在本发明实施例中，步骤140的具体方法可以包括：

对至少一个元素图像中的每一个元素图像进行图像分割，得到每一个元素图像对应的二值化元素图像；

基于至少一个二值化元素图像，生成目标文本对应的N个目标图像。

在本发明实施例中，对每一个元素图像进行图像分割可以通过图像分割神经网络完成。具体地，图像分割神经网络包括特征向量提取单元和二值化图像生成单元。

其中，特征向量提取单元用于对元素图像进行一系列的降采样得到元素图像对应的特征向量。例如，一个尺寸为1000x1000的元素图像，如果输入一个步长为2，卷积核的边长为3的卷积层，该卷积层可以输出一个500x500的元素图像。因此，元素图像可以通过不同步长与卷积核尺寸的卷积层依次进行降采样，从而得到元素图像对应的特征向量。

具体地，在每一次进行降采样时，可以利用当前用于降采样的元素图像中的待降采样区域的各个像素区域的像素值计算得到降采样输出的输出像素区域的像素值。

如图3所示，一个尺寸为5x5的原始元素图像310经过一个卷积核的边长为3的卷积层降采样得到尺寸为3x3的小尺寸元素图像320。若原始元素图像310中的待降采样区域311是原始元素图像310中的阴影区域，降采样输出的输出像素区域321是小尺寸元素图像320中的阴影区域。此时，可以将待降采样区域311中的9个像素区域的像素值与卷积核加权平均得到一个值作为输出像素区域321的一个像素区域的像素值V，具体地计算公式可以为：

其中，C_i为待降采样区域311中的每个像素区域的像素值，a_i为待降采样区域311中的每个像素区域的权重值。

二值化图像生成单元用于降采样得到元素图像对应的特征向量进行反卷积，得到与元素图像相同的预定尺寸的二值化元素图像。

需要说明的是，在本发明实施例中，所得到的二值化元素图像中采用不同的色彩标记了不同的目标区域，其中，目标区域可能仅包括与元素特征词相同的元素区域，也可能包括与元素特征词相关的元素区域。

例如，元素特征词为“海洋”时，利用元素特征词“海洋”对应的元素词向量生成的元素图像中，可能仅包括海水，也可能包括海水、天空和岛屿。当元素图像中仅包含海水时，二值化元素图像中的目标区域仅为海水区域。当元素图像中包括海水、天空和岛屿时，二值化元素图像中的目标区域可以包括海水、天空或岛屿等任一个元素区域。

在本发明实施例中，基于至少一个二值化元素图像生成目标文本对应的N个目标图像具体方法可以包括：

对至少一个二值化元素图像进行叠加处理，生成至少一个二值化目标图像；

通过图像生成模型，对至少一个二值化目标图像进行细节增强，得到目标文本对应的N个目标图像。

具体地，在二值化元素图像的数量为至少两个的情况下，利用二值化元素图像进行叠加处理，生成至少一个二值化目标图像的具体方法可以包括：

在至少两个二值化元素图像中，提取至少一组二值化元素图像组，其中，至少一组二值化元素图像组中的每一组二值化元素图像组中包括至少两个二值化元素图像；

将每一组二值化元素图像组中的至少两个二值化元素图像叠加生成对应的二值化目标图像。

因此，在本发明实施例中，可以对至少两个二值化元素图像对应的至少两个元素区域进行至少一次的随机叠加合成处理，从而生成至少一个二值化目标图像。

其中，每一次随机叠加合成过程中，都可以在多个元素区域中随机选择任意几个元素区域进行叠加合成处理，生成本次随机叠加合成的二值化目标图像，作为目标图像的草图，从而在生成目标图像时，为用户提供多个具有目标文本所对应的元素图像的目标图像，使用户的选择更加多样化。

在本发明实施例中，可以利用训练好的图像生成模型对至少一个二值化目标图像进行细节增强，得到目标文本对应的N个目标图像。以对一个二值化目标图像进行细节增强为例，图像生成模型能够先对二值化目标图像进行降采样得到二值化目标图像对应的丰富的特征向量，再通过上采样将这些特征向量生成清晰的目标图像，即可得到可供用户使用的匹配目标文字的目标图像。

图4示出了本发明另一个实施例提供的基于文本的图像生成方法的流程示意图。如图4所示，在目标图像的数量N大于1的情况下，该基于文本的图像生成方法还可以包括：

步骤150、显示N个目标图像；

步骤160、获取用户从N个目标图像中选取的M个目标图像；

步骤170、根据M个目标图像，生成目标文本对应的目标合成图像；

其中，M≥2且M≤N。

在本发明实施例的步骤150中，可以利用如图5所示的预览界面，以九宫格的形式向用户展示N个目标图像，预览界面中还可以包括合并按钮、删除按钮和确认按钮。其中，合并按钮用于基于用户所选择的M个目标图像，发送图像合成指令。删除按钮用于删除当前预览界面中所显示的至少一个用户所选择的目标图像。在N大于9时，每删除一张预览界面汇总的目标图像，可以利用新的目标图像补充至预览界面。确认按钮用于用户确认使用其选中的一个目标图像，作为用于匹配目标文字的图像，并退出预览界面，以展示目标文本和所选择的目标图像。另外，用户还可以通过双击空白区域的方式退出预览界面。

在本发明实施例的步骤160中，在接收到图像合成指令的情况下，可以响应于图像合成指令，获取用户从N个目标图像中选取的M个目标图像。

在本发明实施例中，步骤170的具体方法可以包括：

获取M个目标图像所包含的T个图像元素；

剔除T个图像元素中重复的图像元素，得到K个图像元素；

基于K个图像元素，生成目标文本对应的目标合成图像；

其中，T和K分别为正整数，K≤T且T≥2M。

例如，若用户选取了用于重新合成目标合成图像的2个目标图像，每个目标图像可以通过图像分割，得到每个目标图像对应的二值化的图像元素。由于目标图像是利用至少两个二值化元素图像叠加生成的，因此，每个目标图像可以分割得到至少2个二值化的图像元素。若每个目标图像能够分割得到2个图像元素，则共可以获取2个目标图像所包含的4个图像元素。

在4个图像元素中，可能有重复的图像元素，例如，有2个海水的图像元素。由于在重新利用4个图像元素生成目标合成图像时，若随机选取图像元素时，图像元素有重复，会使得生成的目标合成图像具有多个重复内容，导致重新生成的目标合成图像的图像质量较差，因此，需要剔除重复的图像元素，即剔除2个海水的图像元素中的重复图像元素，得到剩余的3个图像元素。

最后，可以基于剩余的3个图像元素，生成目标文本对应的目标合成图像。具体地，基于剩余的3个图像元素生成目标合成图像的方法与上述利用二值化元素图像生成目标图像的方法相似，在此不做赘述。

在本发明实施例中，在利用图像元素生成目标合成图像之前，由于剔除掉了重复的图像元素，因此，可以防止利用多个重复的图像元素生成目标合成图像，导致生成的目标合成图像的图像质量较差。

本发明实施例中，在生成了N个目标图像后，由于可以向用户展示所生成的N个目标图像，然后获取用户从N个目标图像中选取的M个目标图像，并利用所获取的M个目标图像生成目标文本对应的目标合成图像，因此，可以基于用户从N个目标图像中选取的M个用户偏好的目标图像，生成更符合用户要求和喜好的目标合成图像，从而提高为文本配图得到的图像与文本的匹配度，提高基于文本的图像生成方法得到的图像的准确性。

在本发明的一些实施例中，该图像生成方法还可以包括：

利用目标合成图像，通过对抗生成式神经网络调整图像生成模型的模型参数，得到调整后的图像生成模型。

具体地，对抗生成式神经网络用于区分目标图像和目标合成图像的差别，以确定图像生成模型的损失函数，然后通过损失函数调整图像生成模型的模型参数，得到调整后的图像生成模型。

因此，每次用户选择了一个目标合成图像作为用于匹配目标文本的图像后，都会对图像生成模型的模型参数进行调整，从而使图像生成模型生成的目标图像能够不断接近用户选择的满意的图片，即目标合成图像，令之后生成的目标图像更加符合用户的要求，实现定制化和个性化的需求。

综上所述，本发明实施例的图像生成方法，能够通过利用目标文本自动生成匹配的目标图像的方式，减少用户寻找与目标文本匹配的图像的时间以及没有图像可用的尴尬局面，提高用户体验。同时，还能够通过用户习惯不断更新生成目标图像的图像生成模型，提高目标图像的生成效率，并使生成的目标图像更贴合当前用户的使用习惯，更具有个性化，满足不同用户的需求，使其更符合年轻消费者展示个人的意愿。

图5示出了本发明一个实施例提供的终端设备的结构示意图。如图5所示，本发明实施例提供的终端设备包括：

特征词提取模块410，用于提取目标文本中的至少一个元素特征词；

词向量生成模块420，用于基于至少一个元素特征词，生成至少一个元素词向量；

元素图像生成模块430，用于基于至少一个元素词向量中的每一个元素词向量，生成每一个元素词向量对应的元素图像；

目标图像生成模块440，用于基于至少一个元素图像，生成目标文本对应的N个目标图像；

在本发明实施例中，终端设备能够利用预设词库生成目标文本的各个元素特征词的元素词向量，并根据每个元素词向量生成图像内容与元素词向量对应的元素特征词相关联的元素图像，以通过元素图像生成目标文本对应的目标图像，从而根据目标文本的文字内容生成其对应的目标图像，实现自动为目标文本匹配合适的图像，提高为文字内容匹配合适的图像的效率。

在本发明实施例中，该终端设备还可以包括文本获取模块，文本获取模块用于获取目标文本。其中，目标文本可以为用户向终端设备输入的文本，也可以为用户基于终端设备所显示的内容，在所显示的内容中选择的文本。

在本发明的一些实施例中，特征词提取模块410可以具体用于对目标文本进行分词，然后对分词得到的多个词进行语义分析，从分词得到的多个词中选择用于生成目标图像的多个元素特征词，其中，元素特征词可以为与场景、事物和人物相关的词。

在本发明的另一些实施例中，特征词提取模块410也可以具体用于直接利用目标文本与预设词库中的多个预设元素词进行匹配，将目标文本中与预设元素词匹配的词提取出来，作为元素特征词，从而能够直接利用预设词库中已有的预设元素词快速提取目标文本中用于生成目标图像的元素特征词，降低了数据处理量、提高了数据处理效率，并且，可以使元素特征词均能够在预设词库找到匹配的预设元素词，以便将元素特征词转换为元素词向量。

在本发明实施例中，词向量生成模块420可以具体用于：获取预设词库，其中，预设词库包括预定数量的预设元素词；针对至少一个元素特征词中的每一个元素特征词，确定与每一个元素特征词匹配的预设元素词在预设词库中的词序列位置；基于词序列位置，生成每一个元素特征词对应的元素词向量，元素词向量的向量维度与预定数量相同。

其中，预设元素词的预定数量可以根据需要确定，在此不做限制。

在本发明的一些实施例中，词向量生成模块420可以将设置元素词向量的向量维度设置为预定数量对应的数值，针对至少一个元素特征词中的每一个元素特征词，将元素词向量中与该元素特征词匹配的预设元素词在预设词库中的词序列位置对应的向量元素设置为1，将元素词向量中除该词序列位置对应的向量元素以外的其余向量元素均设置为0，从而生成该元素特征词对应的元素词向量。

在本发明的另一些实施例中，词向量生成模块420也可以将设置元素词向量的向量维度设置为预定数量对应的数值，针对至少一个元素特征词中的每一个元素特征词，将元素词向量中与该元素特征词匹配的预设元素词在预设词库中的词序列位置对应的向量元素和该向量元素之前的向量元素设置为1，将元素词向量中的其余向量元素均设置为0，从而生成该元素特征词对应的元素词向量。

因此，本发明实施例的词向量生成模块420能够利用预设词库生成每一个元素词向量对应的元素图像，由于每一个元素词向量均是基于元素词向量中与其匹配的预设元素词而生成的，因此，可以便于元素图像生成模块430根据每一个元素词向量自动生成图像内容与元素词向量对应的元素特征词相关联的元素图像。

在本发明实施例中，词向量生成模块420还可以具体用于：获取当前的系统时间；基于至少一个元素特征词和当前的系统时间，生成至少一个元素词向量；其中，元素图像的图像内容与元素词向量对应的元素特征词和当前的系统时间相关联。

在本发明实施例中，由于词向量生成模块420在元素词向量中增加时间向量元素，因此，可以使元素图像生成模块430在利用元素词向量生成图像内容与元素词向量对应的元素特征词相关联的元素图像时，能够结合当前的系统时间，生成与当前的系统时间相关联的元素图像。例如，如果元素特征词为“天空”，当前的系统时间对应的时间段为傍晚，此时，利用元素词向量就可以生成傍晚的天空对应的元素图像，更能够满足用户的偏好，提高为文本匹配图像的准确性。

在本发明的一些实施例中，该终端设备还可以包括向量转换模块，用于利用预设的权重矩阵，将词向量生成模块420生成的至少一个元素词向量中的每一个元素词向量转化为预设维度的向量；其中，预设维度根据词向量矩阵的矩阵维度确定，然后再将转化后的向量输入元素图像生成模块430，以通过将元素词向量转化为预设维度的向量，降低元素词向量的维度，便于元素图像生成模块430利用元素词向量生成对应的元素图像。

在本发明实施例中，元素图像生成模块430可以具体用于将至少一个元素词向量中的每一个元素词向量转化为对应词向量矩阵；通过反卷积神经网络，对词向量矩阵进行反卷积，生成每一个元素词向量对应的元素图像。

在本发明实施例中，目标图像生成模块440可以具体用于对至少一个元素图像中的每一个元素图像进行图像分割，得到每一个元素图像对应的二值化元素图像；基于至少一个二值化元素图像，生成目标文本对应的N个目标图像。

在本发明实施例中，目标图像生成模块440还可以具体用于对至少一个二值化元素图像进行叠加处理，生成至少一个二值化目标图像；通过图像生成模型，对至少一个二值化目标图像进行细节增强，得到目标文本对应的N个目标图像。

在本发明实施例中，目标图像生成模块440可以在二值化元素图像的数量为至少两个的情况下，在至少两个二值化元素图像中，提取至少一组二值化元素图像组，其中，至少一组二值化元素图像组中的每一组二值化元素图像组中包括至少两个二值化元素图像；将每一组二值化元素图像组中的至少两个二值化元素图像叠加生成对应的二值化目标图像。其中，每一次随机叠加合成处理的过程中，都可以在多个元素区域中随机选择任意几个元素区域进行叠加合成处理，生成本次随机叠加合成的二值化目标图像，作为目标图像的草图。

在本发明实施例中，目标图像生成模块440还可以利用训练好的图像生成模型对至少一个二值化目标图像进行细节增强，得到目标文本对应的N个目标图像。以对一个二值化目标图像进行细节增强为例，图像生成模型能够先对二值化目标图像进行降采样得到二值化目标图像对应的丰富的特征向量，再通过上采样将这些特征向量生成清晰的目标图像，即可得到可供用户使用的匹配目标文字的目标图像。。

在本发明的一些实施例中，该终端设备还可以包括：

目标图像显示模块，用于显示N个目标图像；

其中，N＞1，M≥2且M≤N。

在本发明实施例中，目标图像获取模块可以在接收到图像合成指令的情况下，可以响应于图像合成指令，获取用户从N个目标图像中选取的M个目标图像。

在本发明实施例中，目标图像合成模块可以具体用于获取M个目标图像所包含的T个图像元素；剔除T个图像元素中重复的图像元素，得到K个图像元素；基于K个图像元素，生成目标文本对应的目标合成图像；其中，T和K分别为正整数，K≤T且T≥2M。

其中，图像元素与上文中提到的二值化元素图像相同。并且，目标图像合成模块基于M个目标图像生成目标文本对应的目标合成图像的方法与上述的目标图像生成模块440利用元素图像生成目标图像的方法相似的部分，在此不做赘述。

与上述的目标图像生成模块440利用元素图像生成目标图像的方法不同的是，由于M个目标图像所包含的T个图像元素中可能包含重复的图像元素，因此，目标图像合成模块需要首先剔除掉重复的图像元素，防止利用多个重复的图像元素生成目标合成图像，导致生成的目标合成图像的图像质量较差。

在本发明的一些实施例中，该图像生成装置还可以包括模型调整模块，用于利用目标合成图像，通过对抗生成式神经网络调整图像生成模型的模型参数，得到调整后的图像生成模型。

因此，每次用户选择了一个目标合成图像作为用于匹配目标文本的图像后，模型调整模块都会对图像生成模型的模型参数进行调整，从而使图像生成模型生成的目标图像能够不断接近用户选择的满意的图片，即目标合成图像，令之后生成的目标图像更加符合用户的要求，实现定制化和个性化的需求。

本发明实施例提供的终端设备能够实现图1和图4的方法实施例中计算设备实现的各个过程，为避免重复，这里不再赘述。

图6示出了本发明实施例的一种终端设备的硬件结构示意图。如图6所示，该终端设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解，图6中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器510，用于：

提取目标文本中的至少一个元素特征词；

基于至少一个元素特征词，生成至少一个元素词向量；

基于至少一个元素图像，生成目标文本对应的N个目标图像；

应理解的是，本发明实施例中，射频单元501可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器510处理；另外，将上行的数据发送给基站。通常，射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元501还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块502为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元503还可以提供与终端设备500执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。

输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit，GPU)5041和麦克风5042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。

终端设备500还包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度，接近传感器可在终端设备500移动到耳边时，关闭显示面板5061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板5061。

用户输入单元507可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器510，接收处理器510发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071，用户输入单元507还可以包括其他输入设备5072。具体地，其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板5071可覆盖在显示面板5061上，当触控面板5071检测到在其上或附近的触摸操作后，传送给处理器510以确定触摸事件的类型，随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图6中，触控面板5071与显示面板5061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板5071与显示面板5061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元508为外部装置与终端设备500连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备500内的一个或多个元件或者可以用于在终端设备500和外部装置之间传输数据。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器510是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器510可包括一个或多个处理单元；优选的，处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

终端设备500还可以包括给各个部件供电的电源511(比如电池)，优选的，电源511可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备500包括一些未示出的功能模块，在此不再赘述。

优选的，在本发明实施例中，继续以计算设备为终端设备为例，终端设备包括处理器510，存储器509，存储在存储器509上并可在处理器510上运行的计算机程序，该计算机程序被处理器510执行时实现上述图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图像生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种基于文本的图像生成方法，其特征在于，包括：

提取目标文本中的至少一个元素特征词；

基于所述至少一个元素特征词，生成至少一个元素词向量；

基于所述至少一个元素词向量中的每一个元素词向量，生成所述每一个元素词向量对应的元素图像；

基于至少一个所述元素图像，生成所述目标文本对应的N个目标图像；

其中，所述元素图像的图像内容与所述元素词向量对应的元素特征词相关联；N为正整数。

2.根据权利要求1所述的图像生成方法，其特征在于，所述基于所述至少一个元素特征词，生成至少一个元素词向量，包括：

获取预设词库，所述预设词库包括预定数量的预设元素词；

针对所述至少一个元素特征词中的每一个元素特征词，确定与所述每一个元素特征词匹配的预设元素词在所述预设词库中的词序列位置；

基于所述词序列位置，生成所述每一个元素特征词对应的元素词向量，所述元素词向量的向量维度与所述预定数量相同。

3.根据权利要求1所述的图像生成方法，其特征在于，所述基于所述至少一个元素词向量中的每一个元素词向量，生成所述每一个元素词向量对应的元素图像，包括：

将所述至少一个元素词向量中的每一个元素词向量转化为对应词向量矩阵；

通过反卷积神经网络，对所述词向量矩阵进行反卷积，生成所述每一个元素词向量对应的元素图像。

4.根据权利要求3所述的图像生成方法，其特征在于，在所述基于所述至少一个元素词向量中的每一个元素词向量，生成所述每一个元素词向量对应的元素图像之前，还包括：

通过预设的权重矩阵，将所述至少一个元素词向量中的每一个元素词向量转化为预设维度的向量；

其中，所述预设维度根据所述词向量矩阵的矩阵维度确定。

5.根据权利要求1所述的图像生成方法，其特征在于，所述基于所述至少一个元素特征词，生成至少一个元素词向量，还包括：

获取当前的系统时间；

基于所述至少一个元素特征词和所述当前的系统时间，生成至少一个元素词向量；

其中，所述元素图像的图像内容与所述元素词向量对应的元素特征词和所述当前的系统时间相关联。

6.根据权利要求1所述的图像生成方法，其特征在于，所述基于至少一个所述元素图像，生成所述目标文本对应的N个目标图像，包括：

对至少一个所述元素图像中的每一个元素图像进行图像分割，得到每一个元素图像对应的二值化元素图像；

基于至少一个所述二值化元素图像，生成所述目标文本对应的N个目标图像。

7.根据权利要求6所述的图像生成方法，其特征在于，所述基于至少一个所述二值化元素图像，生成所述目标文本对应的N个目标图像，包括：

对至少一个所述二值化元素图像进行叠加处理，生成至少一个二值化目标图像；

通过图像生成模型，对所述至少一个二值化目标图像进行细节增强，得到所述目标文本对应的N个目标图像。

8.根据权利要求7所述的图像生成方法，其特征在于，在所述二值化元素图像的数量为至少两个的情况下，所述对至少一个所述二值化元素图像进行叠加处理，生成至少一个二值化目标图像，包括：

在至少两个所述二值化元素图像中，提取至少一组二值化元素图像组，其中，所述至少一组二值化元素图像组中的每一组二值化元素图像组中包括至少两个二值化元素图像；

将每一组二值化元素图像组中的所述至少两个二值化元素图像叠加生成对应的二值化目标图像。

9.根据权利要求1所述的图像生成方法，其特征在于，N＞1；

在所述基于至少一个所述元素图像，生成所述目标文本对应的N个目标图像之后，还包括：

显示所述N个目标图像；

获取用户从所述N个目标图像中选取的M个目标图像；

根据所述M个目标图像，生成所述目标文本对应的目标合成图像；

其中，M≥2且M≤N。

10.根据权利要9所述的图像生成方法，其特征在于，所述根据所述M个目标图像，生成所述目标文本对应的目标合成图像，包括：

获取所述M个目标图像所包含的T个图像元素；

剔除所述T个图像元素中重复的图像元素，得到K个图像元素；

基于所述K个图像元素，生成所述目标文本对应的目标合成图像；

其中，T和K分别为正整数，K≤T且T≥2M。

11.一种终端设备，其特征在于，包括：

词向量生成模块，用于基于所述至少一个元素特征词，生成至少一个元素词向量；

元素图像生成模块，用于基于所述至少一个元素词向量中的每一个元素词向量，生成所述每一个元素词向量对应的元素图像；

目标图像生成模块，用于基于至少一个所述元素图像，生成所述目标文本对应的N个目标图像；

12.一种终端设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至10中任一项所述的基于文本的图像生成方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的基于文本的图像生成方法的步骤。