CN115018941A

CN115018941A - 一种基于改进版文本解析器的文本至图像生成算法

Info

Publication number: CN115018941A
Application number: CN202210560027.0A
Authority: CN
Inventors: 盛昳媛; 许圣; 赖越; 叶子旺; 刘秀平
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-09-06

Abstract

本发明属于计算机视觉技术领域，具体涉及一种基于改进版文本解析器的文本至图像生成算法。本发明是一种端到端从文本到图像的生成器，它可以解析文本，提取出主、谓、宾三元组，从而生成符合文本描述的布局图，最终依据布局生成图像。本发明标注词性，识别文本并提取出文本中(主、谓、宾)三元组，然后通过人工分类网络及学习出来的关系自动分类网络进行6种几何映射，从而依据最终三元组生成符合文本描述的布局图。基于语义表达的多样性，我们的映射关系是一对多而非一对一的，如此得到的布局图也具有多样性。最后我们从布局图得到复杂场景，并融合了风格迁移，可生成具有特殊风格的图像。

Description

一种基于改进版文本解析器的文本至图像生成算法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于改进版文本解析器的文本至图像生成算法。

背景技术

图像生成相关背景：目前，人工智能领域的发展备受人们的关注。在计算机视觉领域，深度学习已经在图像识别、图像分类、图像分割以及图像的语义描述等方向大放异彩，并展现出优秀性能。然而时至今日，图像生成问题仍是一项艰巨的挑战，尤其是由文本到图像这种跨模态生成的任务。按照生成对象的不同，该任务具体可以分成单目标物体图像生成与多目标复杂场景图像生成两种，前者任务将着重生成高质量具有丰富细节的单独物体，而后者任务则针对多个物体的生成，且不同物体之间具有多样关系，属于更复杂更具挑战性的任务。因此，本专利主要针对于多目标的复杂场景图像生成，设计了有效的文本解析器，以提升图像生成性能。

文本至图像相关背景：文本至场景图像生成，需要模型从文本中提取有用信息，进而辅助场景图像的生成，然而现有多数方法主要存在以下几个问题：(1)文本描述内存在介词、系动词等冗余信息，为文本信息的提取增加了难度；(2)模型缺乏对于文本内物体交互关系的理解，导致可能出现场景布局不合理的情况；(3)高质量的文本特征提取网络体系较为庞大，训练流程较为复杂；(4)现有工作多聚焦于图像质量的提升，缺乏针对生成图像的场景布局多样化的探索。综上所述，如何从复杂文本中提取简要的语义信息已成为文本至图像生成方向所面临的重要挑战。

基线方法相关背景：2018年，Johnson等人提出了场景图至图像生成算法，通过能够反映物体间语义关系的结构化场景图，实现了复杂场景的生成，该方法同时补充说明了，能够使用Stanford句法分析器，较为简洁地实现文本语义信息的提取，然而，该句法分析器在实际应用中，无法针对复杂文本实现较好分析，导致语义结构存在误差。2019年Wei Sun,Tianfu Wu提出了LostGANs，实现了由可重构布局和样式对图像进行处理优化；2016年Justin Johnson,Alexandre Alahi,Li Fei-Fei提出了Real-Time Style Transfer，实现了快速且高分辨率的风格转换。基于此，本发明设计了面向复杂关系词汇的文本解析器，将文本自动转化为场景图，搭建了文本至图像生成过程的信息转化桥梁。

网络设计相关背景：该发明所涉及的文本解析器中，基于LSTM(长短时记忆网络)与MLP(多层感知机)实现了语义类关系至几何关系的映射。具体而言，上述两种网络均属于神经网络。神经网络最开始是受生物神经系统的启发，为了模拟生物神经系统而出现的，由大量的节点(或称神经元)之间相互联接构成。神经网络根据输入的变化，对权值进行调整，改善系统的行为，自动学习到一个能够解决问题的模型。

LSTM(长短记忆网络)是RNN(循环神经网络)的一种特殊形式，有效地解决多层神经网络训练的梯度消失和梯度爆炸问题，能够处理长时时间依赖序列。LSTM网络由LSTM单元组成，LSTM单元由输入门，输出门和遗忘门组成。

MLP(多层感知机)由PLA(感知机)推广而来。它最主要的特点是有多个神经元层，因此也叫DNN(深度神经网络)。其具有输入层，一些中间层和输出层。

发明内容

本发明提出了一种基于改进版文本解析器的文本至图像生成算法，其中改进版文本解析器，是在Stanford文本解析器的基础上，基于人工分类数据、长短期记忆网络(LSTM)以及多层感知机(MLP)进行的改进。此外，本发明将风格迁移模型嵌入到了图像生成过程中，实现了生成结果的风格多样性。

本发明利用改进的文本解析器，实现了语义理解的多样性，将复杂关系映射到几何布局关系上，并实现将文本信息提取成若干个(主、谓、宾)三元组。通过三元组，生成模型可以更关注物体间的关系，并基于此生成布局与图像，最后，通过风格迁移模型的嵌入，进而风格化图像。利用改进的文本解析器与风格迁移模块，本发明的文本至图像生成算法可以实现场景布局的合理性和图像内容及风格的多样性。

本发明的技术方案如下：

一种基于改进版文本解析器的文本至图像生成算法，具体实现步骤如下：

步骤S1：提取COCO数据集中的文本信息并进行统计与分类，完成信息统计工作；

步骤S2：基于精细分类构建关系映射数据集，并将其划分训练集、验证集与测试集；

步骤S3：构建关系自动分类网络，并基于步骤S2中的分类数据集进行预训练，实现复杂语义关系到几何空间关系的映射；

步骤S4：构建文本自动处理模块，实现对输入文本的关键信息提取；

步骤S5：基于步骤S3中的关系自动分类网络与步骤S4中的文本自动处理模块，构建改进版的文本的解析器，输入文本描述，输出解析后的结构化三元组，进而得到场景图；

步骤S6：基于场景图至图像生成算法sg2im构建布局预测网络，并将场景图输入到布局预测网络中，得到场景布局；

步骤S7：结合Real-Time Style Transfer风格转移与LostGANs图像生成模型构建风格化图像生成网络，并将布局输入风格化图像生成网络中，得到具有不同艺术风格的图像；

步骤S8：基于步骤S5中的改进版文本解析器，步骤S6中的布局预测网络，步骤S7中的风格化图像生成网络，按照S5、S6、S7的顺序实现整体的文本至图像生成算法，并将算法嵌入网页后台，实现网络设计，以方便用户使用。

本发明的有益效果：

本发明与已有方法的区别在于：相较于现有的针对复杂场景的文本至图像生成算法，本发明提出的改进版文本解析器，利用场景图三元组的自动构建，很好地搭建了文本图像之间的桥梁，使图像生成的过程中更好地关注于布局关系。此外，从多样性的角度出发，一方面，本发明中涉及的分类网络设计，实现了三元组关系到布局的多样映射，从而带来了场景布局的语义多样性，另一方面，本发明中涉及的图像生成模块设计，从风格上了实现了生成场景图像的风格多样性。

附图说明

图1是本发明应用于我们设计的从文本到图像生成算法的总流程；

图2是本发明中关系自动分类网络结构；

图3是本发明中关系自动分类网络中LSTM模块提取文本特征具体过程；

图4是本发明中关系自动分类网络中LSTM模块提取三元组特征具体过程；

图5是本发明中LSTM单元的具体细节，其中x_t指的便是经过embeddinglayer得到的嵌入向量；

图6是本发明实现一个文本生成多张符合语义描述的图像的具体流程；

图7是本发明应用于从文本到图像生成算法的具体过程。

具体实施方法

下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。

一种基于改进版文本解析器的文本至图像生成算法(如图1)，步骤如下：

步骤S1：提取COCO数据集中的文本信息并进行统计与分类，完成信息统计工作。

所述步骤S1具体为：

步骤S11：将COCO数据集中的文本信息进行解析。首先，对一句话中的所有词语进行词性标注；其次，搜索并记录句子的名词和他们的修饰语；随后，确定动词的主语(包括名词主语，介词宾语)；而后，找到各个名词之间的关系；最后，根据找到的名词及关系，生成形如(主，谓，宾)的结构化三元组；

步骤S12：将所有关系词提取整合成一个集合，作为待学习的关系集合。

步骤S13：对关系词进行粗分类处理。即，将频次大于等于30的关系词汇进行粗分类，分为Geometric(几何关系)，Possessive(从属关系)，Semantic(语义关系)，Misc(其他)四类，对数据集信息完成初步统计。

步骤S2：基于精细分类构建关系映射数据集，并将其划分训练集、验证集与测试集。

所述步骤S2具体为：

步骤S21：结合步骤S11中对文本的解析，对文本中的关系词进行细分类处理，将关系集合内的所有关系都映射到6种几何关系(Left of、Right of、Above、Below、Surrounding、Inside)中；

步骤S22：将6种几何关系类别转为6维向量，其中将步骤S21中的人工分类的几何关系类数值设置1，其余类别数值设置0，并以该向量作为原关系词的分类标签，完成数据处理；

步骤S23：基于步骤S11中的输入文本、解析出的三元组、关系词以及步骤S22得到的类别标签，构建关系映射数据集，并按照80％，10％，10％的比例将其进一步划分为训练集、测试集与验证集。

步骤S3：构建关系自动分类网络(如图2)，并基于步骤S2中的分类数据集进行预训练，实现复杂语义信息到几何空间关系的映射。具体而言：记输入的一句话为t，利用步骤S11初步解析出的一组三元组为c_i，关系词为r_i，预测得到代表分类结果的为6维向量，代表6种几何关系。

所述步骤S3具体为：

步骤S31：构建embeddinglayer模块，即使用预训练好的word2vec模型，得到文本、三元组、关系词中分别对应的词嵌入向量，具体而言：该模块中，文本t、每个三元组c_i以及关系词r_i都输入到加载了预训练权重的word2vec模型中，分别得到文本嵌入向量

三元组嵌入向量

与词向量的特征

步骤S32：构建LSTM网络，对文本及三元组的嵌入向量进行进一步处理，提取语义特征向量。即在每个LSTM单元(如图5)利用遗忘门控制决定丢弃上一层中的文本特征信息，利用输入门存放有效的文本特征信息，利用输出门对每层的输出文本信息进行过滤。将文本嵌入向量

输入LSTM网络，通过LSTM单元，输出文本特征f_t(如图3)；将源自文本的三元组嵌入向量

输入LSTM网络，通过LSTM单元，输出三元组特征

(如图4)；

步骤S33：基于步骤S31中的embeddinglayer模块、步骤S32中的LSTM模块，再融合MLP模块共同构建关系自动分类网络。具体而言，将关系词向量

文本特征f_t，三元组特征

拼接在一起得到特征f，即定义

其中，[；]表示拼接。将f输入多层感知机(MLP)得到6维向量，向量中每一个元素代表着一类COCO数据集中可以处理的几何位置关系。

步骤S34：使用步骤S2中构建的关系映射数据集对步骤S33中构建的关系自动分类网络进行预训练，并使用Adam优化器来最小化损失。

步骤S4：构建文本自动处理模块(如图6)，实现对输入文本内关键信息的提取，具体改进了复杂文本在解析中存在的三类问题。

所述步骤S4具体为：

步骤S41：改进对于文本中含有and前后连词的并列关系提取不好的问题。首先，将含有and等连词连接的文本先识别划分，然后再进行词性标注，对(主，谓，宾)三元组结构化信息进行提取；

步骤S42：改进对于数量词修饰的物体只能提取一个的问题。首先，利用spacy判断修饰词是否属于数量词，若是，根据识别的数量词数目，添加上对应数目的物体和(主，谓，宾)结构化三元组；

步骤S43：改进对于含有be动词的文本信息提取不好的问题。首先，进行词性标注，在提取(主，谓，宾)三元组之前，将be动词识别并删除。

步骤S44：实现文本自动处理模块的构建。输入文本后，按照步骤S41、步骤S42、步骤S43的顺序对文本进行处理。

步骤S5：基于步骤S3中的关系自动分类网络与步骤S4中的文本自动处理模构建改进版的文本的解析器，并输入文本描述，自动解析出体现空间布局的结构化三元组，进而得到场景图。

步骤S51：基于Standford句法分析器实现文本的初始三元组提取，并记录所提取到的三元组内容；

步骤S52：将文本描述输入至到步骤S4中的文本自动处理模块，提取关系信息，实现文本的预处理；

步骤S53：将步骤S51得到的三元组与步骤S52处理后的文本输入至S3的关系自动分类网络中，预测三元组内每个复杂关系对应的几何关系类别；

步骤S54：基于S53中的几何关系类别与步骤S51解析得到的三元组的主语与宾语进行重新组合，得到能够简要体现空间布局关系的(主，谓，宾)三元组。并将三元组组合成为场景图。

步骤S6：基于场景图至图像生成算法sg2im构建布局预测网络，输入场景图，输出场景布局。

所述步骤S6具体为：

步骤S61：利用图卷积网络对场景图进行特征提取。即，首先给定场景图内每个物体与关系一个初始向量；其次，将物体和关系的初始向量输入至多层图卷积中；最后，输出每个物体对应的嵌入向量；

步骤S62：基于多层感知机(MLP)得到整体布局。即，首先，输入每个物体对应的嵌入向量至MLP，预测得到每个物体的坐标；其次，将所有物体的类别及对应坐标进行组合，得到场景布局。

步骤S7：结合Real-Time Style Transfer与LostGANs图像生成模型构建风格化图像生成网络，并将布局输入风格化图像生成网络中，得到具有不同艺术风格的图像。

所述步骤S7具体为：

步骤S71：将布局输入到已有的LostGANs网络中，生成原始场景图像；

步骤S72：基于Real-Time Style Transfer算法，构建并训练具有3种风格的风格转移器。具体而言，将待转化图像进行输入，经过多组卷积层、残差层、卷积层的结构后，得到与输入尺寸相同的输出图像。在VGG-16网络提取到的高层图像特征空间中，以输入图像与输出图像特征间的距离作为损失函数，结合内容损失与风格损失对风格转移器进行训练。

步骤S73：将步骤S71得到原始场景图像输入到S72的风格转移器，得到多种艺术风格的输出。

步骤S8：基于步骤S5中的改进版文本解析器，步骤S6中的布局预测网络，步骤S7中的风格化图像生成网络，按照S5、S6、S7的顺序(如图1)实现整体的文本至图像生成算法(如图7)，并将算法嵌入网页后台，实现网络设计，以方便用户使用。

Claims

1.一种基于改进版文本解析器的文本至图像生成算法，其特征在于，该方法包括以下步骤：

所述步骤S3具体为：

步骤S31：构建embedding layer模块，即使用预训练好的word2vec模型，得到文本、三元组、关系词中分别对应的词嵌入向量，具体而言：该模块中，文本t、每个三元组c_i以及关系词r_i都输入到加载了预训练权重的word2vec模型中，分别得到文本嵌入向量

三元组嵌入向量

与词向量的特征

步骤S32：构建LSTM网络，对文本及三元组的嵌入向量进行进一步处理，提取语义特征向量；即在每个LSTM单元利用遗忘门控制决定丢弃上一层中的文本特征信息，利用输入门存放有效的文本特征信息，利用输出门对每层的输出文本信息进行过滤；将文本嵌入向量

输入LSTM网络，通过LSTM单元，输出文本特征f_t；将源自文本的三元组嵌入向量

输入LSTM网络，通过LSTM单元，输出三元组特征

步骤S33：基于步骤S31中的embedding layer模块、步骤S32中的LSTM模块，再融合MLP模块共同构建关系自动分类网络；具体而言，将关系词向量

文本特征f_t，三元组特征

拼接在一起得到特征f，即定义

其中，[；]表示拼接；将f输入多层感知机(MLP)得到6维向量，向量中每一个元素代表着一类COCO数据集中可以处理的几何位置关系；

步骤S34：使用步骤S2中构建的关系映射数据集对步骤S33中构建的关系自动分类网络进行预训练，并使用Adam优化器来最小化损失；

2.根据权利要求1所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S1具体为：

步骤S11：将COCO数据集中的文本信息进行解析；首先，对一句话中的所有词语进行词性标注；其次，搜索并记录句子的名词和他们的修饰语；随后，确定动词的主语(包括名词主语，介词宾语)；而后，找到各个名词之间的关系；最后，根据找到的名词及关系，生成形如(主，谓，宾)的结构化三元组；

步骤S12：将所有关系词提取整合成一个集合，作为待学习的关系集合；

步骤S13：对关系词进行粗分类处理；即，将频次大于等于30的关系词汇进行粗分类，分为Geometric(几何关系)，Possessive(从属关系)，Semantic(语义关系)，Misc(其他)四类，对数据集信息完成初步统计。

3.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S2具体为：

4.根据权利要求1或2所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S4具体为：

步骤S41：改进对于文本中含有and前后连词的并列关系提取不好的问题；首先，将含有and等连词连接的文本先识别划分，然后再进行词性标注，对(主，谓，宾)三元组结构化信息进行提取；

步骤S42：改进对于数量词修饰的物体只能提取一个的问题；首先，利用spacy判断修饰词是否属于数量词，若是，根据识别的数量词数目，添加上对应数目的物体和(主，谓，宾)结构化三元组；

步骤S43：改进对于含有be动词的文本信息提取不好的问题；首先，进行词性标注，在提取(主，谓，宾)三元组之前，将be动词识别并删除；

步骤S44：实现文本自动处理模块的构建；输入文本后，按照步骤S41、步骤S42、步骤S43的顺序对文本进行处理。

5.根据权利要求3所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S4具体为：

6.根据权利要求1或2或5所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S5具体为：

步骤S54：基于S53中的几何关系类别与步骤S51解析得到的三元组的主语与宾语进行重新组合，得到能够简要体现空间布局关系的(主，谓，宾)三元组；并将三元组组合成为场景图。

7.根据权利要求3所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S5具体为：

8.根据权利要求4所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S5具体为：

9.根据权利要求1或2或5或7或8所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S7具体为：

步骤S72：基于Real-Time Style Transfer算法，构建并训练具有3种风格的风格转移器；具体而言，将待转化图像进行输入，经过多组卷积层、残差层、卷积层的结构后，得到与输入尺寸相同的输出图像；在VGG-16网络提取到的高层图像特征空间中，以输入图像与输出图像特征间的距离作为损失函数，结合内容损失与风格损失对风格转移器进行训练；

10.根据权利要求3所述的一种基于改进版文本解析器的文本至图像算法，其特征在于，所述步骤S7具体为：