CN113158630B

CN113158630B - 一种文本编辑图像方法、存储介质、电子设备及系统

Info

Publication number: CN113158630B
Application number: CN202110275765.6A
Authority: CN
Inventors: 胡伏原; 赵柳清; 李林燕; 冯雨晴; 尚欣茹
Original assignee: Suzhou Jiatu Intelligent Drawing Information Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Suzhou Jiatu Intelligent Drawing Information Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2024-02-06
Anticipated expiration: 2041-03-15
Also published as: CN113158630A

Abstract

本发明公开了一种文本编辑图像方法、存储介质、电子设备及系统，其方法包括以下步骤：S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联，然后送入生成器，生成与文本相关的第一图像，将所述第一图像和第一文本描述信息送入鉴别器进行鉴别；S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联，然后送入生成器，生成与文本相关的第二图像，将所述第二图像和第二文本描述信息送入鉴别器进行鉴别；S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数，并经过多次迭代对生成器进行训练，得到优化后的生成器。本发明的文本编辑图像方法生成的图像更准确、更自然、更多样。

Description

一种文本编辑图像方法、存储介质、电子设备及系统

技术领域

本发明涉及图像编辑技术领域，特别涉及一种文本编辑图像方法、存储介质、电子设备及系统。

背景技术

近年来，基于自然语言的图像编辑问题获得了广泛研究。由于不仅涉及图像本身的目标识别问题，还涉及到自然语言处理问题，当前主要相关方法可以总结为以下三种：

语义图生成方法：此方法首先识别出文本中包含的目标信息和空间位置信息，然后根据文本信息生成语义布局图，再通过语义布局图生成图像。有的方法是只输入一个长句子，句子包含多个类别和类别直接的关系，通过生成一次语义图来生成图像内容。有的方法是多次输入短句子，每次再上一次生成的语义图结果上再进行修改和添加。

特征空间匹配法：此方法会把句子和文本信息进行提前的预训练处理，通过将图像和构造好的句子信息都投射到高纬度的特征空间，寻找与图像信息最匹配的文本内容。有的方法构建了多个kernel，通过ranking的方式对各个数据空间的数据进行比较，以寻找文本和图像之间的关系。有的方法通过在图像上添加空间注意力机制，通过这种特征空间映射来更好的结合文本信息内容。

细粒度生成方法：此方法通过CNN(卷积神经网络)提取图像的特征，利用RNN提取词级别的文本信息，然后把图像特征和文本特征利用注意力机制进行融合，通过多个残差块进行信息的融合，最后生成图像信息。有的方法把利用循环LSTM网络提取细粒度的文本信息，从而更好的控制图像中的细节内容。

传统方法虽然在一定程度上可以解决文本编辑图像问题，却仍然有一定缺陷，如下：

语义图生成方法：这种利用文本生成语义图再生成图像的算法，在一定程度上可以构建出符合文本描述的图像信息。但是在实际应用中，当生成的语义图有偏差时，会直接导致生成错误的图像内容，并且所能应用的场景相对有限。

特征空间匹配法：这种特征空间匹配法，需要大量文本信息和图像信息来支持，并且由于句子包含复杂的信息，与图像之间的关系较难建立。

细粒度生成方法：此方法相较于前两种方法能够更加准确的提取文本的信息。现有的细粒度生成方法虽然把单词提取出来，但是通过归一化的方法融合过于粗糙，容易丢失图像的空间信息，从而导致文本编辑后的图像细节丢失，背景区域变化等结果。

近年来，生成对抗网络(GAN，Generative Adversarial Networks)受到了学术界与工业界的极大重视，成为近两年来最热门的研究领域之一。与传统的机器学习方法不同，GAN最大的特点在于引入了对抗机制，能用于真实数据分布的建模和生成。当前，生成对抗网络模型吸引了大量的研究学者，在诸多方面得到了进一步扩展。可以看出，与传统的机器学习方法不同，GAN最大的特点在于能够用于真实数据分布的建模和生成。纵观现有的生成对抗网络方法，其大多是针对单一数据域。因此，GAN有望解决文本编辑图像所造成的细节丢失，背景区域变化等问题。

发明内容

本发明要解决的问题在于提供一种适用性强、准确度高的文本编辑图像方法。

为了解决上述问题，本发明提供了一种文本编辑图像方法，其包括以下步骤：

S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联，然后送入生成器，生成与文本相关的第一图像，将所述第一图像和第一文本描述信息送入鉴别器进行鉴别；

S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联，然后送入生成器，生成与文本相关的第二图像，将所述第二图像和第二文本描述信息送入鉴别器进行鉴别；

S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数，并经过多次迭代对生成器进行训练，得到优化后的生成器。

作为本发明的进一步改进，所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联，包括：提取原始图像的全局特征，提取原始图像的局部特征，将第一文本描述信息编码为词向量，加强文本与图形中的特征区域之间的关联。

作为本发明的进一步改进，所述提取原始图像的全局特征，提取原始图像的局部特征，将第一文本描述信息编码为词向量，加强文本与图形中的特征区域之间的关联，包括：利用VGG-16网络提取原始图像的全局特征，利用Inception-V3网络提取原始图像的局部特征，利用RNN网络将第一文本描述信息编码为词向量，并利用SFA函数加强文本与图形中的特征区域之间的关联。

作为本发明的进一步改进，构建的循环一致性损失函数如下：

其中，I表示原始图像的图像信息，S表示原始图像的第一文本描述信息，I′表示第一图像，S′表示原始图像的第二文本描述信息，D表示鉴别器，G表示生成器。

作为本发明的进一步改进，所述鉴别器为单词级鉴别器。

本发明还提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的文本编辑图像方法。

本发明还提供了一种电子设备，其包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述任意一项所述的文本编辑图像方法。

为了解决上述问题，本发明还提供了一种文本编辑图像系统，其包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块；

所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联；

所述生成器用于生成与文本相关的第一图像；

所述鉴别器用于对第一图像和第一文本描述信息进行鉴别；

通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联；

所述生成器还用于生成与文本相关的第二图像；

所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别；

所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数，并经过多次迭代对生成器进行训练，得到优化后的生成器。

作为本发明的进一步改进，所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联，包括：利用VGG-16网络提取原始图像的全局特征，利用Inception-V3网络提取原始图像的局部特征，利用RNN网络将第一文本描述信息编码为词向量，并利用SFA函数加强文本与图形中的特征区域之间的关联。

本发明的有益效果：

本发明的文本编辑图像方法能够克服传统文本编辑图像中细节缺失，无关背景变换较大等缺陷，该方法基于循环对抗生成网络，在深度学习中具有更广泛的适用性，可以应用在多个方面，例如：降低专业编辑软件的使用门槛、帮助快速编辑图像内容等；借助循环对抗生成网络的结构，有望改变文本修改图像中图像细节丢失、背景变化较大等问题，并使得生成的图像更准确、更自然、更多样。同时，本发明文本编辑图像的方法可以面对现实中更为复杂的景象，生成更加自然的图像，在实际中有着更广泛的应用。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明优选实施例中文本编辑图像系统的示意图；

图2是本发明优选实施例中生成器的示意图；

图3是本发明优选实施例中鉴别器的示意图；

图4是本发明优选实施例中文本编辑图像方法在鸟类数据集上的生成效果图；

图5是本发明优选实施例中文本编辑图像方法在花类数据集上的生成效果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明优选实施例中的文本编辑图像方法包括以下步骤：

可选的，所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联，包括：提取原始图像的全局特征，提取原始图像的局部特征，将第一文本描述信息编码为词向量，加强文本与图形中的特征区域之间的关联。

进一步的，所述提取原始图像的全局特征，提取原始图像的局部特征，将第一文本描述信息编码为词向量，加强文本与图形中的特征区域之间的关联，包括：利用VGG-16网络提取原始图像的全局特征，利用Inception-V3网络提取原始图像的局部特征，利用RNN网络将第一文本描述信息编码为词向量，为了保留给定图像的背景，必须精准的在图像中定位文本描述的区域，本发明对图像的不同通道进行区分，并利用SFA函数(局部特征注意力)加强文本与图形中的特征区域之间的关联。

其中，图像特征描述为V_I，通过卷积将视觉特征编码为v₁,v₂，利用softmax来计算通道注意力α，公式如下：

其中，单词特征描述为V_w，通过感知层F_w对齐后得到词向量特征然后根据得到通道注意力，矩阵相乘计算通道注意力矩阵，然后再与图像特征V_I逐元素进行求和，得到V_Lj：

其中，V_Lj表示每个通道与句子中的视觉特征词汇之间的相关性，该值越大，相关性就越高，通道注意力参照图2。

在本发明中，通过生成器生成的图像在鉴别器中进行判别是否时真实的图像，却无法判断该图片是否是根据文本描述的信息进行编辑的，这也是GAN中的生成匹配问题。在GAN的生成过程中，因为鉴别器只能判断其是否来自真实数据的分布，而无法判断属于具体哪个类别。在实际过程中，如何有效解决GAN生成数据的匹配问题具有实际意义。

为此，本发明采用图3的方式解决本上述生成匹配问题。由于给定的文本包含多个单词信息，每个单词代表着一个需要编辑的属性，通过提取细粒度的鉴别器来捕捉生成图像中没有跟文本特征相互对应的区域，从而更好的给生成器进行反馈。细粒度的鉴别器具有两个输入，图像特征信息和文本特征信息。

视觉特征V_I通过感知层处理后得到与单词特征对齐后进行相乘，然后使用softmax函数对齐进行归一化处理后得到x_n，m，它表示句子中第n个单词与图像中的第m个区域之间的相关度，公式如下：

然后使用单词级别的注意力机制生成向量V_δ，向量的长度表示每个单词的重要性。通过对V_δ重复N次得到V′_δ矩阵，按照元素相乘的方法使其与x_n，m相乘得到最后进行元素的求和，公式如下：

单词级的鉴别器能够提供细粒度的反馈，从而增强细节并优化编辑的结果。通过单词在空间上的关注度和图像的通道注意力将单词信息和图像特征的映射相互关联，增强了对细节属性的修改。

为了更好的保持背景区域的不变性，项目提出通过构建循环网络的架构，利用循环一致性损失，来减少生成图像时的随机性。对于每个图像和文本操作指令，应用一对循环操作来交换已编辑的属性(例如：“白色花瓣和黄色斑点”→“紫色花瓣和黑色斑点”→“白色花瓣和黄色斑点”)，相应的原始图像和编辑后图像表示为如上，循环一致性损失函数构建如下：

其中，I表示原始图像的图像信息，S表示原始图像的第一文本描述信息，I′表示第一图像，S′表示原始图像的第二文本描述信息，I表示利用I′和S′得到的图像内容信息。D表示鉴别器，G表示生成器。

为了对背景进行更好的保持，我们从I和I′中提取对应的语义特征信息来定义身份映射损失使生成的内容和原始图像内容一致，公式如下。

对于域损失，我们遵循LSGAN的结构，因为它具有良好的训练稳定性，公式如下：

最终，网络整体的损失函数如下:

通过这种结构，网络能够在多次的迭代后收敛，得到性能良好的生成器。利用该生成器，能够利用文本信息对输入的图像内容进行有效的编辑。

本发明优选实施例还公开了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述文本编辑图像方法。

本发明优选实施例还公开了一种电子设备，其包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述文本编辑图像方法。

如图1所示，本实施例优选实施例还公开了一种文本编辑图像系统，该系统包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块；

所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联；所述生成器用于生成与文本相关的第一图像；所述鉴别器用于对第一图像和第一文本描述信息进行鉴别；通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联；所述生成器还用于生成与文本相关的第二图像；所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别；所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数，并经过多次迭代对生成器进行训练，得到优化后的生成器。

本系统实施例中的方法与上述实施例中文本编辑图像方法相同，在此不再赘述。

如图4和5所示，分别为本发明文本编辑图像方法在鸟类和花类数据集上的生成效果图，图像第一行为原始的输入图像信息，左边第一列为输入的文本信息，后面对应的是通过网络生成的图像内容。从图中可以看出，本发明的文本编辑图像方法改变了文本修改图像中图像细节丢失、背景变化较大等问题，并使得生成的图像更准确、更自然、更多样。

以上实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种文本编辑图像方法，其特征在于，包括以下步骤：

S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联，然后送入生成器，生成与文本相关的第一图像，将所述第一图像和第一文本描述信息送入鉴别器进行鉴别，所述鉴别器为单词级鉴别器；

S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数，并经过多次迭代对生成器进行训练，得到优化后的生成器；利用该生成器，能够利用文本信息对输入的图像内容进行有效的编辑；

所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联，包括：提取原始图像的全局特征，提取原始图像的局部特征，将第一文本描述信息编码为词向量，加强文本与图形中的特征区域之间的关联；

所述提取原始图像的全局特征，提取原始图像的局部特征，将第一文本描述信息编码为词向量，加强文本与图形中的特征区域之间的关联，包括：利用VGG-16网络提取原始图像的全局特征，利用Inception-V3网络提取原始图像的局部特征，利用RNN网络将第一文本描述信息编码为词向量，并利用SFA函数加强文本与图形中的特征区域之间的关联；其中：

将图像特征描述为V_I，通过卷积将视觉特征编码为υ₁,υ₂，利用softmax来计算通道注意力α，公式如下：

将单词特征描述为V_w，通过感知层F_w对齐后得到词向量特征然后根据得到的通道注意力，矩阵相乘计算通道注意力矩阵，然后再与图像特征V_I逐元素进行求和，得到V_Lj：

其中，V_Lj表示每个通道与句子中的视觉特征词汇之间的相关性；

所述鉴别器具有两个输入：图像特征信息和文本特征信息，其中：

图像特征V_I通过感知层处理后得到与单词特征对齐后进行相乘，然后使用softmax函数对齐进行归一化处理后得到x_n,m，x_n,m表示句子中第n个单词与图像中的第m个区域之间的相关度，公式如下：

然后使用单词级别的注意力机制生成向量V_δ，向量的长度表示每个单词的重要性；通过对V_g重复N次得到V_δ ^′矩阵，按照元素相乘的方法使其与x_n,m相乘得到最后进行元素的求和；

构建的循环一致性损失函数如下：

其中，I表示原始图像的图像信息，S表示原始图像的第一文本描述信息，I^′表示第一图像，S^′表示原始图像的第二文本描述信息，D表示鉴别器，G表示生成器；

从I和I^′中提取对应的语义特征信息来定义身份映射损失使生成的内容和原始图像内容一致，公式如下：

对于域损失，公式如下：

网络整体的损失函数如下:

2.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行如权利要求1所述的文本编辑图像方法。

3.一种电子设备，其特征在于，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述如权利要求1所述的文本编辑图像方法。

4.一种文本编辑图像系统，其特征在于，包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块；

所述生成器用于生成与文本相关的第一图像；

所述鉴别器用于对第一图像和第一文本描述信息进行鉴别；

所述生成器还用于生成与文本相关的第二图像；

所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别，所述鉴别器为单词级鉴别器；

所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数，并经过多次迭代对生成器进行训练，得到优化后的生成器；利用该生成器，能够利用文本信息对输入的图像内容进行有效的编辑；

所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联，包括：提取原始图像的全局特征，提取原始图像的局部特征，将第一文本描述信息编码为词向量，加强文本与图形中的特征区域之间的关联；

将图像特征描述为V_I，通过卷积将视觉特征编码为υ₁,v₂，利用softmax来计算通道注意力α，公式如下：

然后使用单词级别的注意力机制生成向量V_δ，向量的长度表示每个单词的重要性；通过对V_δ重复N次得到V_δ ^′矩阵，按照元素相乘的方法使其与x_n,m相乘得到最后进行元素的求和；

构建的循环一致性损失函数如下：

对于域损失，公式如下：

网络整体的损失函数如下: