CN113674374B

CN113674374B - 基于生成式对抗网络的中文文本生成图像方法及装置

Info

Publication number: CN113674374B
Application number: CN202110823480.1A
Authority: CN
Inventors: 陈志华; 徐省华; 黄经赢; 魏文国
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2022-07-01
Anticipated expiration: 2041-07-20
Also published as: CN113674374A

Abstract

本发明申请涉及计算机视觉与自然语言处理技术领域，公开了基于生成式对抗网络的中文文本生成图像方法及装置，该方法及装置从描述图像的中文文本提取背景关键词和特征关键词进行文本语义嵌入表示并提取相应的图像特征，且对表示特征关键词的图像特征矩阵添加注意力机制处理，进而将表示特征关键词的图像特征矩阵和表示背景关键词的图像特征矩阵进行融合并输入到生成式对抗网络中进行训练。本申请能够提高生成式对抗网络模型的训练效率，进一步优化特征区域重要子区域的生成效果，同时不用忽略文本的背景特征，使得生成的图像能够与中文文本更接近。

Description

基于生成式对抗网络的中文文本生成图像方法及装置

技术领域

本发明申请涉及计算机视觉与自然语言处理技术领域，尤其涉及基于生成式对抗网络的中文文本生成图像方法及装置。

背景技术

中文文本生成图像是利用中文文本描述生成照片般真实的图片或是抽象的卡通图片。文本描述生成图像代已成为自然语言处理和计算机视觉社区的活跃研究领域，其应用非常广泛，包括照片编辑和计算机辅助设计。相关技术中基于生成式对抗网络的框架来实现中文文本生成图像。生成式对抗网络模型包含一个生成器和一个判别器。生成器经过优化，可以产生向真实数据分布的样本，从而达到欺骗判别器的目的。训练后的判别器可以将真实数据分布样本与生成器生成的虚假样本分开。生成器和判别器在相互博弈中达到最优，使生成的结果越来越好。

目前的生成式对抗网络模型将整个描述图像的中文文本进行编码得到文本语义嵌入表示，对该文本语义嵌入表示添加条件和噪声向量得到图像特征矩阵，进而输入到生成式对抗网络生成相应的图像。然而这种方式由于需要关注整个描述图像的中文文本的特征，降低了生成式对抗网络模型的训练效率，且不能很好地提高图像生成的效果。

发明内容

本发明申请实施例的目的在于，提供一种基于生成式对抗网络的中文文本生成图像方法及装置，能够提高生成式对抗网络模型的训练效率，进一步优化特征区域重要子区域的生成效果，同时不用忽略文本的背景特征，使得生成的图像能够与中文文本更接近。

为达到上述目的，本发明采用如下技术方案：

本申请第一方面提供了基于生成式对抗网络的中文文本生成图像方法，所述方法包括：

对描述样本图像的中文文本进行关键词识别，若识别到至少一个背景关键词和至少一个特征关键词，对所述背景关键词编码得到第一文本语义嵌入表示，以及对所述特征关键词编码得到第二文本语义嵌入表示；

向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量，获得对应所述第一文本语义嵌入表示的第一图像特征矩阵，以及对应所述第二文本语义嵌入表示的第二图像特征矩阵；

对所述第二图像特征矩阵添加注意力机制，加强图像的重要子区域，削弱图像的非重要子区域，得到优化后的第二图像特征矩阵；

将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合，生成第三图像特征矩阵，将所述第三图像特征矩阵输入生成式对抗网络，生成相应的图像；

评估生成的图像与所述样本图像的相似度，优化下一次图像的生成。

根据本申请第一方面的一种能够实现的方式，所述方法还包括：

在对描述样本图像的中文文本进行关键词识别时，若仅识别到特征关键词，根据识别到的特征关键词获取对应的标准背景关键词，将所述标准背景关键词作为所述中文文本的背景关键词。

根据本申请第一方面的一种能够实现的方式，从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词，将所述对应的标准背景关键词作为所述中文文本的背景关键词，其中，所述拓展词语表中每一个标准背景关键词对应多个特征关键词。

根据本申请第一方面的一种能够实现的方式，分两个阶段生成所述相应的图像：

将所述第三图像特征矩阵输入第一层生成式对抗网络中，得到一次优化后的图像特征矩阵，对其进行3x3卷积输出第一分辨率的图像；

将一次优化后的图像特征矩阵输入至第二层生成式对抗网络，得到最终的图像特征矩阵，对其进行3x3卷积输出第二分辨率的图像，所述第二分辨率大于所述第一分辨率。

本申请第二方面提供了基于生成式对抗网络的中文文本生成图像装置，所述装置包括：

识别及编码模块，用于对描述样本图像的中文文本进行关键词识别，若识别到至少一个背景关键词和至少一个特征关键词，对所述背景关键词编码得到第一文本语义嵌入表示，以及对所述特征关键词编码得到第二文本语义嵌入表示；

特征获取模块，用于向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量，获得对应所述第一文本语义嵌入表示的第一图像特征矩阵，以及对应所述第二文本语义嵌入表示的第二图像特征矩阵；

注意力添加模块，用于对所述第二图像特征矩阵添加注意力机制，加强图像的重要子区域，削弱图像的非重要子区域，得到优化后的第二图像特征矩阵；

图像生成模块，用于将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合，生成第三图像特征矩阵，将所述第三图像特征矩阵输入生成式对抗网络，生成相应的图像；

优化模块，用于评估生成的图像与所述样本图像的相似度，优化下一次图像的生成。

根据本申请第二方面的一种能够实现的方式，所述装置还包括：

背景关键词获取模块，用于在对描述样本图像的中文文本进行关键词识别时，若仅识别到特征关键词，根据识别到的特征关键词获取对应的标准背景关键词，将所述标准背景关键词作为所述中文文本的背景关键词。

根据本申请第二方面的一种能够实现的方式，所述背景关键词获取模块具体用于：

从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词，将所述对应的标准背景关键词作为所述中文文本的背景关键词，其中，所述拓展词语表中每一个标准背景关键词对应多个特征关键词。

根据本申请第二方面的一种能够实现的方式，所述图像生成模块具体用于分两个阶段生成所述相应的图像，所述图像生成模块包括：

第一生成单元，用于将所述第三图像特征矩阵输入第一层生成式对抗网络中，得到一次优化后的图像特征矩阵，对其进行3x3卷积输出第一分辨率的图像；

第二生成单元，用于将一次优化后的图像特征矩阵输入至第二层生成式对抗网络，得到最终的图像特征矩阵，对其进行3x3卷积输出第二分辨率的图像，所述第二分辨率大于所述第一分辨率。

本申请第三方面实施例提供了一种基于生成式对抗网络的中文文本生成图像装置，该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项实施例所述的基于生成式对抗网络的中文文本生成图像方法。

本申请第四方面实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现如上述任一项实施例所述的基于生成式对抗网络的中文文本生成图像方法。

本申请至少具有以下优点：

能够提高生成式对抗网络模型的训练效率，进一步优化特征区域重要子区域的生成效果，同时不用忽略文本的背景特征，使得生成的图像能够与中文文本更接近。

附图说明

图1是本发明申请提供的基于生成式对抗网络的中文文本生成图像方法的一个优选实施例的流程示意图；

图2是本发明申请提供的基于生成式对抗网络的中文文本生成图像装置的一个优选实施例的结构示意图。

附图标记：

识别及编码模块1、特征获取模块2、注意力添加模块3、图像生成模块4、优化模块5。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示为本发明申请提供的基于生成式对抗网络的中文文本生成图像方法的一个优选实施例的流程示意图。

如图1所示，所述方法包括：

S101对描述样本图像的中文文本进行关键词识别，若识别到至少一个背景关键词和至少一个特征关键词，对所述背景关键词编码得到第一文本语义嵌入表示，以及对所述特征关键词编码得到第二文本语义嵌入表示。

其中，该关键词为用于表征图像要点的词语。背景关键词可以指通常在图像的背景部分中表达的那些图像关键词，而特征关键词可以指通常在图像的特征部分中表达的那些图像关键词。例如，对于中文文本“蓝天下一个男孩在上篮”，该背景关键词为“蓝天”，特征关键词为“男孩”和“上篮”。又例如中文文本“海洋上有只海燕”，其背景关键词为“海洋”，特征关键词为“海燕”。

可以通过各种方式从描述样本图像的中文文本中识别背景关键词和特征关键词。例如，可以预先建立关键词参考表，该关键词参考表包括被分类为背景关键词的参考词语集合以及被分类为特征关键词的另一参考词语集合。通过将中文文本中的词语与关键词参考表中的对应参考词语进行匹配，可以确定文本中的词语是背景关键词还是特征关键词。此外，还可以通过训练好的基于机器学习的分类器对背景关键词、特征关键词进行分类。本发明实施例该背景关键词和特征关键词的识别方式不做限定。

S102向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量，获得对应所述第一文本语义嵌入表示的第一图像特征矩阵，以及对应所述第二文本语义嵌入表示的第二图像特征矩阵。

本申请实施例中，添加条件和噪声向量的方式可以是：添加条件形成条件增强，以增强训练数据和避免过度拟合，将条件增强与从标准正态分布采样的噪声向量进行拼接，得到相应的图像特征矩阵。

S103对所述第二图像特征矩阵添加注意力机制，加强图像的重要子区域，削弱图像的非重要子区域，得到优化后的第二图像特征矩阵。

其中，该注意力机制，其中心思想是对多个部分的信息进行区分，为不同部分添加不同程度的注意力，以重视那些需要被重点关注到的信息。在本实施例中，注意力机制例如包括两个方面：决定需要关注输入的哪部分以及分配有限的信息处理资源给重要的部分。对第二图像特征矩阵引入注意力机制可以凸显出第二图像特征矩阵中更关键的图像部分。

S104将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合，生成第三图像特征矩阵，将所述第三图像特征矩阵输入生成式对抗网络，生成相应的图像。

在一些实施例中，执行步骤S104时，利用图像特征矩阵在生成式对抗网络中进行计算，分两个阶段逐步生成越来越高分辨率的图像。

该两个阶段具体为：

其中，所述第一分辨率例如为128*128分辨率。

所述第二分辨率例如为256*256分辨率。

本发明实施例分两个阶段优化所述第三图像特征矩阵，能够提高生成图像的分辨率，进一步提高生成图像的质量。

S105评估生成的图像与所述样本图像的相似度，优化下一次图像的生成。

本申请实施例中，可以通过计算生成的图像与所述样本图像的余弦相似性，用来评估生成的图像与所述样本图像的相似度。

本申请上述实施例区别于现有技术的情况，从描述图像的中文文本提取背景关键词和特征关键词，并分别对背景关键词和特征关键词进行文本语义嵌入表示，进而进行图像特征提取。相对现有对整个描述图像的中文文本进行编码的方式，本申请优化了生成式对抗网络的输入，能够提高生成式对抗网络模型的训练效率；在添加注意力机制时，本申请仅对表示特征关键词的图像特征矩阵添加注意力机制处理，能够进一步优化特征区域重要子区域的生成效果，同时不用忽略文本的背景特征，使得生成的图像能够与中文文本更接近。

在一些实施例中，所述方法还包括：

本申请实施例适用于没有背景关键词的中文文本。通过预置拓展词语表确定该中文文本的背景关键词，从而进一步对确定的背景关键词进行编码以得到第一文本语义嵌入表示。例如中文文本“有艘船在航行”，仅能识别到特征关键词为“船”、“航行”，通过利用上述实施例的方法，可以确定对应该“船”和/或“航行”对应的标准背景关键词为“海洋”，则将“海洋”作为该中文文本的背景关键词。

其中，可以通过各种方式来实现根据识别到的特征关键词获取对应的标准背景关键词。

例如，在一种实施方式中，通过训练好的用于根据特征关键词来预测相关背景关键词的机器学习模型来获取对应的标准背景关键词。

在另一种实施方式中，可以预先建立特征关键词到背景关键词的知识图谱，从而通过知识图谱来获取对应的标准背景关键词。

在又一种实施方式中，可以从预置的拓展词语表中获取与识别到的特征关键词对应的标准背景关键词，将所述对应的标准背景关键词作为所述中文文本的背景关键词，其中，所述拓展词语表中每一个标准背景关键词对应多个特征关键词。

本申请第二方面实施例提供了一种基于生成式对抗网络的中文文本生成图像装置。

图2所示是本发明提供的基于生成式对抗网络的中文文本生成图像装置的一个优选实施例的结构示意图，所述装置能够实现上述任一实施例所述的基于生成式对抗网络的中文文本生成图像方法的全部流程。

如图2所示，该装置包括：

识别及编码模块1，用于对描述样本图像的中文文本进行关键词识别，若识别到至少一个背景关键词和至少一个特征关键词，对所述背景关键词编码得到第一文本语义嵌入表示，以及对所述特征关键词编码得到第二文本语义嵌入表示；

特征获取模块2，用于向所述第一文本语义嵌入表示和所述第二文本语义嵌入表示分别添加条件和噪声向量，获得对应所述第一文本语义嵌入表示的第一图像特征矩阵，以及对应所述第二文本语义嵌入表示的第二图像特征矩阵；

注意力添加模块3，用于对所述第二图像特征矩阵添加注意力机制，加强图像的重要子区域，削弱图像的非重要子区域，得到优化后的第二图像特征矩阵；

图像生成模块4，用于将所述第一图像特征矩阵和优化后的第二图像特征矩阵进行融合，生成第三图像特征矩阵，将所述第三图像特征矩阵输入生成式对抗网络，生成相应的图像；

优化模块5，用于评估生成的图像与所述样本图像的相似度，优化下一次图像的生成。

本发明装置上述实施例各模块的功能及实现方式与上述基于生成式对抗网络的中文文本生成图像方法的实施例相同，具体解析可以参照上述基于生成式对抗网络的中文文本生成图像方法的实施例，为了避免重复，在此不再赘述。

本申请还提供了一种基于生成式对抗网络的中文文本生成图像装置，该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项实施例所述的基于生成式对抗网络的中文文本生成图像方法。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现如上述任一项实施例所述的基于生成式对抗网络的中文文本生成图像方法。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于生成式对抗网络的中文文本生成图像装置的控制中心，利用各种接口和线路连接整个基于生成式对抗网络的中文文本生成图像装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于生成式对抗网络的中文文本生成图像装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于生成式对抗网络的中文文本生成图像装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

Claims

1.一种基于生成式对抗网络的中文文本生成图像方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于生成式对抗网络的中文文本生成图像方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的一种基于生成式对抗网络的中文文本生成图像方法，其特征在于：

4.根据权利要求1所述的一种基于生成式对抗网络的中文文本生成图像方法，其特征在于，分两个阶段生成所述相应的图像：

5.一种基于生成式对抗网络的中文文本生成图像装置，其特征在于，所述装置包括：

6.根据权利要求5所述的一种基于生成式对抗网络的中文文本生成图像装置，其特征在于，所述装置还包括：

7.根据权利要求6所述的一种基于生成式对抗网络的中文文本生成图像装置，其特征在于，所述背景关键词获取模块具体用于：

8.根据权利要求5所述的一种基于生成式对抗网络的中文文本生成图像装置，其特征在于，所述图像生成模块具体用于分两个阶段生成所述相应的图像，所述图像生成模块包括：

9.一种基于生成式对抗网络的中文文本生成图像装置，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的一种基于生成式对抗网络的中文文本生成图像方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现如权利要求1-4任一项所述的一种基于生成式对抗网络的中文文本生成图像方法。