CN113158630B - 一种文本编辑图像方法、存储介质、电子设备及系统 - Google Patents

一种文本编辑图像方法、存储介质、电子设备及系统 Download PDF

Info

Publication number
CN113158630B
CN113158630B CN202110275765.6A CN202110275765A CN113158630B CN 113158630 B CN113158630 B CN 113158630B CN 202110275765 A CN202110275765 A CN 202110275765A CN 113158630 B CN113158630 B CN 113158630B
Authority
CN
China
Prior art keywords
image
text
original image
description information
text description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110275765.6A
Other languages
English (en)
Other versions
CN113158630A (zh
Inventor
胡伏原
赵柳清
李林燕
冯雨晴
尚欣茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Jiatu Intelligent Drawing Information Technology Co ltd
Suzhou University of Science and Technology
Original Assignee
Suzhou Jiatu Intelligent Drawing Information Technology Co ltd
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Jiatu Intelligent Drawing Information Technology Co ltd, Suzhou University of Science and Technology filed Critical Suzhou Jiatu Intelligent Drawing Information Technology Co ltd
Priority to CN202110275765.6A priority Critical patent/CN113158630B/zh
Publication of CN113158630A publication Critical patent/CN113158630A/zh
Application granted granted Critical
Publication of CN113158630B publication Critical patent/CN113158630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种文本编辑图像方法、存储介质、电子设备及系统,其方法包括以下步骤:S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别;S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。本发明的文本编辑图像方法生成的图像更准确、更自然、更多样。

Description

一种文本编辑图像方法、存储介质、电子设备及系统
技术领域
本发明涉及图像编辑技术领域,特别涉及一种文本编辑图像方法、存储介质、电子设备及系统。
背景技术
近年来,基于自然语言的图像编辑问题获得了广泛研究。由于不仅涉及图像本身的目标识别问题,还涉及到自然语言处理问题,当前主要相关方法可以总结为以下三种:
语义图生成方法:此方法首先识别出文本中包含的目标信息和空间位置信息,然后根据文本信息生成语义布局图,再通过语义布局图生成图像。有的方法是只输入一个长句子,句子包含多个类别和类别直接的关系,通过生成一次语义图来生成图像内容。有的方法是多次输入短句子,每次再上一次生成的语义图结果上再进行修改和添加。
特征空间匹配法:此方法会把句子和文本信息进行提前的预训练处理,通过将图像和构造好的句子信息都投射到高纬度的特征空间,寻找与图像信息最匹配的文本内容。有的方法构建了多个kernel,通过ranking的方式对各个数据空间的数据进行比较,以寻找文本和图像之间的关系。有的方法通过在图像上添加空间注意力机制,通过这种特征空间映射来更好的结合文本信息内容。
细粒度生成方法:此方法通过CNN(卷积神经网络)提取图像的特征,利用RNN提取词级别的文本信息,然后把图像特征和文本特征利用注意力机制进行融合,通过多个残差块进行信息的融合,最后生成图像信息。有的方法把利用循环LSTM网络提取细粒度的文本信息,从而更好的控制图像中的细节内容。
传统方法虽然在一定程度上可以解决文本编辑图像问题,却仍然有一定缺陷,如下:
语义图生成方法:这种利用文本生成语义图再生成图像的算法,在一定程度上可以构建出符合文本描述的图像信息。但是在实际应用中,当生成的语义图有偏差时,会直接导致生成错误的图像内容,并且所能应用的场景相对有限。
特征空间匹配法:这种特征空间匹配法,需要大量文本信息和图像信息来支持,并且由于句子包含复杂的信息,与图像之间的关系较难建立。
细粒度生成方法:此方法相较于前两种方法能够更加准确的提取文本的信息。现有的细粒度生成方法虽然把单词提取出来,但是通过归一化的方法融合过于粗糙,容易丢失图像的空间信息,从而导致文本编辑后的图像细节丢失,背景区域变化等结果。
近年来,生成对抗网络(GAN,Generative Adversarial Networks)受到了学术界与工业界的极大重视,成为近两年来最热门的研究领域之一。与传统的机器学习方法不同,GAN最大的特点在于引入了对抗机制,能用于真实数据分布的建模和生成。当前,生成对抗网络模型吸引了大量的研究学者,在诸多方面得到了进一步扩展。可以看出,与传统的机器学习方法不同,GAN最大的特点在于能够用于真实数据分布的建模和生成。纵观现有的生成对抗网络方法,其大多是针对单一数据域。因此,GAN有望解决文本编辑图像所造成的细节丢失,背景区域变化等问题。
发明内容
本发明要解决的问题在于提供一种适用性强、准确度高的文本编辑图像方法。
为了解决上述问题,本发明提供了一种文本编辑图像方法,其包括以下步骤:
S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别;
S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;
S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
作为本发明的进一步改进,所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联。
作为本发明的进一步改进,所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联。
作为本发明的进一步改进,构建的循环一致性损失函数如下:
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I′表示第一图像,S′表示原始图像的第二文本描述信息,D表示鉴别器,G表示生成器。
作为本发明的进一步改进,所述鉴别器为单词级鉴别器。
本发明还提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的文本编辑图像方法。
本发明还提供了一种电子设备,其包括:一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述任意一项所述的文本编辑图像方法。
为了解决上述问题,本发明还提供了一种文本编辑图像系统,其包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联;
所述生成器用于生成与文本相关的第一图像;
所述鉴别器用于对第一图像和第一文本描述信息进行鉴别;
通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联;
所述生成器还用于生成与文本相关的第二图像;
所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别;
所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
作为本发明的进一步改进,所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联。
作为本发明的进一步改进,构建的循环一致性损失函数如下:
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I′表示第一图像,S′表示原始图像的第二文本描述信息,D表示鉴别器,G表示生成器。
本发明的有益效果:
本发明的文本编辑图像方法能够克服传统文本编辑图像中细节缺失,无关背景变换较大等缺陷,该方法基于循环对抗生成网络,在深度学习中具有更广泛的适用性,可以应用在多个方面,例如:降低专业编辑软件的使用门槛、帮助快速编辑图像内容等;借助循环对抗生成网络的结构,有望改变文本修改图像中图像细节丢失、背景变化较大等问题,并使得生成的图像更准确、更自然、更多样。同时,本发明文本编辑图像的方法可以面对现实中更为复杂的景象,生成更加自然的图像,在实际中有着更广泛的应用。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明优选实施例中文本编辑图像系统的示意图;
图2是本发明优选实施例中生成器的示意图;
图3是本发明优选实施例中鉴别器的示意图;
图4是本发明优选实施例中文本编辑图像方法在鸟类数据集上的生成效果图;
图5是本发明优选实施例中文本编辑图像方法在花类数据集上的生成效果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明优选实施例中的文本编辑图像方法包括以下步骤:
S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别;
S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;
S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
可选的,所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联。
进一步的,所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,为了保留给定图像的背景,必须精准的在图像中定位文本描述的区域,本发明对图像的不同通道进行区分,并利用SFA函数(局部特征注意力)加强文本与图形中的特征区域之间的关联。
其中,图像特征描述为VI,通过卷积将视觉特征编码为v1,v2,利用softmax来计算通道注意力α,公式如下:
其中,单词特征描述为Vw,通过感知层Fw对齐后得到词向量特征然后根据得到通道注意力,矩阵相乘计算通道注意力矩阵,然后再与图像特征VI逐元素进行求和,得到VLj
其中,VLj表示每个通道与句子中的视觉特征词汇之间的相关性,该值越大,相关性就越高,通道注意力参照图2。
在本发明中,通过生成器生成的图像在鉴别器中进行判别是否时真实的图像,却无法判断该图片是否是根据文本描述的信息进行编辑的,这也是GAN中的生成匹配问题。在GAN的生成过程中,因为鉴别器只能判断其是否来自真实数据的分布,而无法判断属于具体哪个类别。在实际过程中,如何有效解决GAN生成数据的匹配问题具有实际意义。
为此,本发明采用图3的方式解决本上述生成匹配问题。由于给定的文本包含多个单词信息,每个单词代表着一个需要编辑的属性,通过提取细粒度的鉴别器来捕捉生成图像中没有跟文本特征相互对应的区域,从而更好的给生成器进行反馈。细粒度的鉴别器具有两个输入,图像特征信息和文本特征信息。
视觉特征VI通过感知层处理后得到与单词特征对齐后进行相乘,然后使用softmax函数对齐进行归一化处理后得到xn,m,它表示句子中第n个单词与图像中的第m个区域之间的相关度,公式如下:
然后使用单词级别的注意力机制生成向量Vδ,向量的长度表示每个单词的重要性。通过对Vδ重复N次得到V′δ矩阵,按照元素相乘的方法使其与xn,m相乘得到最后进行元素的求和,公式如下:
单词级的鉴别器能够提供细粒度的反馈,从而增强细节并优化编辑的结果。通过单词在空间上的关注度和图像的通道注意力将单词信息和图像特征的映射相互关联,增强了对细节属性的修改。
为了更好的保持背景区域的不变性,项目提出通过构建循环网络的架构,利用循环一致性损失,来减少生成图像时的随机性。对于每个图像和文本操作指令,应用一对循环操作来交换已编辑的属性(例如:“白色花瓣和黄色斑点”→“紫色花瓣和黑色斑点”→“白色花瓣和黄色斑点”),相应的原始图像和编辑后图像表示为如上,循环一致性损失函数构建如下:
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I′表示第一图像,S′表示原始图像的第二文本描述信息,I表示利用I′和S′得到的图像内容信息。D表示鉴别器,G表示生成器。
为了对背景进行更好的保持,我们从I和I′中提取对应的语义特征信息来定义身份映射损失使生成的内容和原始图像内容一致,公式如下。
对于域损失,我们遵循LSGAN的结构,因为它具有良好的训练稳定性,公式如下:
最终,网络整体的损失函数如下:
通过这种结构,网络能够在多次的迭代后收敛,得到性能良好的生成器。利用该生成器,能够利用文本信息对输入的图像内容进行有效的编辑。
本发明的文本编辑图像方法能够克服传统文本编辑图像中细节缺失,无关背景变换较大等缺陷,该方法基于循环对抗生成网络,在深度学习中具有更广泛的适用性,可以应用在多个方面,例如:降低专业编辑软件的使用门槛、帮助快速编辑图像内容等;借助循环对抗生成网络的结构,有望改变文本修改图像中图像细节丢失、背景变化较大等问题,并使得生成的图像更准确、更自然、更多样。同时,本发明文本编辑图像的方法可以面对现实中更为复杂的景象,生成更加自然的图像,在实际中有着更广泛的应用。
本发明优选实施例还公开了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述文本编辑图像方法。
本发明优选实施例还公开了一种电子设备,其包括:一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述文本编辑图像方法。
如图1所示,本实施例优选实施例还公开了一种文本编辑图像系统,该系统包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联;所述生成器用于生成与文本相关的第一图像;所述鉴别器用于对第一图像和第一文本描述信息进行鉴别;通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联;所述生成器还用于生成与文本相关的第二图像;所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别;所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
本系统实施例中的方法与上述实施例中文本编辑图像方法相同,在此不再赘述。
如图4和5所示,分别为本发明文本编辑图像方法在鸟类和花类数据集上的生成效果图,图像第一行为原始的输入图像信息,左边第一列为输入的文本信息,后面对应的是通过网络生成的图像内容。从图中可以看出,本发明的文本编辑图像方法改变了文本修改图像中图像细节丢失、背景变化较大等问题,并使得生成的图像更准确、更自然、更多样。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (4)

1.一种文本编辑图像方法,其特征在于,包括以下步骤:
S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别,所述鉴别器为单词级鉴别器;
S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;
S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器;利用该生成器,能够利用文本信息对输入的图像内容进行有效的编辑;
所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联;
所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联;其中:
将图像特征描述为VI,通过卷积将视觉特征编码为υ12,利用softmax来计算通道注意力α,公式如下:
将单词特征描述为Vw,通过感知层Fw对齐后得到词向量特征然后根据得到的通道注意力,矩阵相乘计算通道注意力矩阵,然后再与图像特征VI逐元素进行求和,得到VLj
其中,VLj表示每个通道与句子中的视觉特征词汇之间的相关性;
所述鉴别器具有两个输入:图像特征信息和文本特征信息,其中:
图像特征VI通过感知层处理后得到与单词特征对齐后进行相乘,然后使用softmax函数对齐进行归一化处理后得到xn,m,xn,m表示句子中第n个单词与图像中的第m个区域之间的相关度,公式如下:
然后使用单词级别的注意力机制生成向量Vδ,向量的长度表示每个单词的重要性;通过对Vg重复N次得到Vδ 矩阵,按照元素相乘的方法使其与xn,m相乘得到最后进行元素的求和;
构建的循环一致性损失函数如下:
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I表示第一图像,S表示原始图像的第二文本描述信息,D表示鉴别器,G表示生成器;
从I和I中提取对应的语义特征信息来定义身份映射损失使生成的内容和原始图像内容一致,公式如下:
对于域损失,公式如下:
网络整体的损失函数如下:
2.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行如权利要求1所述的文本编辑图像方法。
3.一种电子设备,其特征在于,包括:一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述如权利要求1所述的文本编辑图像方法。
4.一种文本编辑图像系统,其特征在于,包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联;
所述生成器用于生成与文本相关的第一图像;
所述鉴别器用于对第一图像和第一文本描述信息进行鉴别;
通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联;
所述生成器还用于生成与文本相关的第二图像;
所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别,所述鉴别器为单词级鉴别器;
所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器;利用该生成器,能够利用文本信息对输入的图像内容进行有效的编辑;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联;
所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联;其中:
将图像特征描述为VI,通过卷积将视觉特征编码为υ1,v2,利用softmax来计算通道注意力α,公式如下:
将单词特征描述为Vw,通过感知层Fw对齐后得到词向量特征然后根据得到的通道注意力,矩阵相乘计算通道注意力矩阵,然后再与图像特征VI逐元素进行求和,得到VLj
其中,VLj表示每个通道与句子中的视觉特征词汇之间的相关性;
所述鉴别器具有两个输入:图像特征信息和文本特征信息,其中:
图像特征VI通过感知层处理后得到与单词特征对齐后进行相乘,然后使用softmax函数对齐进行归一化处理后得到xn,m,xn,m表示句子中第n个单词与图像中的第m个区域之间的相关度,公式如下:
然后使用单词级别的注意力机制生成向量Vδ,向量的长度表示每个单词的重要性;通过对Vδ重复N次得到Vδ 矩阵,按照元素相乘的方法使其与xn,m相乘得到最后进行元素的求和;
构建的循环一致性损失函数如下:
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I表示第一图像,S表示原始图像的第二文本描述信息,D表示鉴别器,G表示生成器;
从I和I中提取对应的语义特征信息来定义身份映射损失使生成的内容和原始图像内容一致,公式如下:
对于域损失,公式如下:
网络整体的损失函数如下:
CN202110275765.6A 2021-03-15 2021-03-15 一种文本编辑图像方法、存储介质、电子设备及系统 Active CN113158630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275765.6A CN113158630B (zh) 2021-03-15 2021-03-15 一种文本编辑图像方法、存储介质、电子设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275765.6A CN113158630B (zh) 2021-03-15 2021-03-15 一种文本编辑图像方法、存储介质、电子设备及系统

Publications (2)

Publication Number Publication Date
CN113158630A CN113158630A (zh) 2021-07-23
CN113158630B true CN113158630B (zh) 2024-02-06

Family

ID=76887123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275765.6A Active CN113158630B (zh) 2021-03-15 2021-03-15 一种文本编辑图像方法、存储介质、电子设备及系统

Country Status (1)

Country Link
CN (1) CN113158630B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113448477B (zh) * 2021-08-31 2021-11-23 南昌航空大学 交互式图像编辑方法、装置、可读存储介质及电子设备
WO2023060434A1 (zh) * 2021-10-12 2023-04-20 中国科学院深圳先进技术研究院 一种基于文本的图像编辑方法和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452902B1 (en) * 2018-12-21 2019-10-22 Capital One Services, Llc Patent application image generation systems
CN110968725A (zh) * 2019-12-03 2020-04-07 咪咕动漫有限公司 图像内容描述信息生成方法、电子设备及存储介质
CN111325660A (zh) * 2020-02-20 2020-06-23 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法
CN112085677A (zh) * 2020-09-01 2020-12-15 深圳先进技术研究院 一种图像处理方法、系统和计算机存储介质
CN112348911A (zh) * 2020-10-28 2021-02-09 山东师范大学 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN112489152A (zh) * 2020-11-04 2021-03-12 湖南大学 一种基于远程相关注意力生成对抗网络的文本生成图像方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11217350B2 (en) * 2019-06-27 2022-01-04 Retrace Labs Systems and method for artificial-intelligence-based dental image to text generation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452902B1 (en) * 2018-12-21 2019-10-22 Capital One Services, Llc Patent application image generation systems
CN110968725A (zh) * 2019-12-03 2020-04-07 咪咕动漫有限公司 图像内容描述信息生成方法、电子设备及存储介质
CN111325660A (zh) * 2020-02-20 2020-06-23 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法
CN112085677A (zh) * 2020-09-01 2020-12-15 深圳先进技术研究院 一种图像处理方法、系统和计算机存储介质
CN112348911A (zh) * 2020-10-28 2021-02-09 山东师范大学 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN112489152A (zh) * 2020-11-04 2021-03-12 湖南大学 一种基于远程相关注意力生成对抗网络的文本生成图像方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks;Junyan Zhu;《arxiv》;1-18 *

Also Published As

Publication number Publication date
CN113158630A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
Chen et al. Remote sensing image change detection with transformers
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN113158630B (zh) 一种文本编辑图像方法、存储介质、电子设备及系统
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110555896B (zh) 一种图像生成方法、装置以及存储介质
CN109712108B (zh) 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN109271539A (zh) 一种基于深度学习的图像自动标注方法及装置
CN113191357A (zh) 基于图注意力网络的多层次图像-文本匹配方法
US11830133B2 (en) Calculation method of three-dimensional model's spherical expression based on multi-stage deformation reconstruction
CN116051948B (zh) 基于注意力交互及反事实注意力的细粒度图像识别方法
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
Khurram et al. Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Yang et al. CLIP-KD: An Empirical Study of Distilling CLIP Models
CN116597267B (zh) 图像识别方法、装置、计算机设备和存储介质
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN114972959B (zh) 深度学习中样本生成和类内排序损失的遥感图像检索方法
Lu et al. Artcap: A dataset for image captioning of fine art paintings
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN116340569A (zh) 一种基于语义一致性的半监督短视频分类方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN112101154B (zh) 视频分类方法、装置、计算机设备和存储介质
CN113129399A (zh) 纹样生成

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant