CN113158630A - 一种文本编辑图像方法、存储介质、电子设备及系统 - Google Patents
一种文本编辑图像方法、存储介质、电子设备及系统 Download PDFInfo
- Publication number
- CN113158630A CN113158630A CN202110275765.6A CN202110275765A CN113158630A CN 113158630 A CN113158630 A CN 113158630A CN 202110275765 A CN202110275765 A CN 202110275765A CN 113158630 A CN113158630 A CN 113158630A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- description information
- original image
- text description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 14
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 238000005728 strengthening Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文本编辑图像方法、存储介质、电子设备及系统,其方法包括以下步骤:S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别;S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。本发明的文本编辑图像方法生成的图像更准确、更自然、更多样。
Description
技术领域
本发明涉及图像编辑技术领域,特别涉及一种文本编辑图像方法、存储介质、电子设备及系统。
背景技术
近年来,基于自然语言的图像编辑问题获得了广泛研究。由于不仅涉及图像本身的目标识别问题,还涉及到自然语言处理问题,当前主要相关方法可以总结为以下三种:
语义图生成方法:此方法首先识别出文本中包含的目标信息和空间位置信息,然后根据文本信息生成语义布局图,再通过语义布局图生成图像。有的方法是只输入一个长句子,句子包含多个类别和类别直接的关系,通过生成一次语义图来生成图像内容。有的方法是多次输入短句子,每次再上一次生成的语义图结果上再进行修改和添加。
特征空间匹配法:此方法会把句子和文本信息进行提前的预训练处理,通过将图像和构造好的句子信息都投射到高纬度的特征空间,寻找与图像信息最匹配的文本内容。有的方法构建了多个kernel,通过ranking的方式对各个数据空间的数据进行比较,以寻找文本和图像之间的关系。有的方法通过在图像上添加空间注意力机制,通过这种特征空间映射来更好的结合文本信息内容。
细粒度生成方法:此方法通过CNN(卷积神经网络)提取图像的特征,利用RNN提取词级别的文本信息,然后把图像特征和文本特征利用注意力机制进行融合,通过多个残差块进行信息的融合,最后生成图像信息。有的方法把利用循环LSTM网络提取细粒度的文本信息,从而更好的控制图像中的细节内容。
传统方法虽然在一定程度上可以解决文本编辑图像问题,却仍然有一定缺陷,如下:
语义图生成方法:这种利用文本生成语义图再生成图像的算法,在一定程度上可以构建出符合文本描述的图像信息。但是在实际应用中,当生成的语义图有偏差时,会直接导致生成错误的图像内容,并且所能应用的场景相对有限。
特征空间匹配法:这种特征空间匹配法,需要大量文本信息和图像信息来支持,并且由于句子包含复杂的信息,与图像之间的关系较难建立。
细粒度生成方法:此方法相较于前两种方法能够更加准确的提取文本的信息。现有的细粒度生成方法虽然把单词提取出来,但是通过归一化的方法融合过于粗糙,容易丢失图像的空间信息,从而导致文本编辑后的图像细节丢失,背景区域变化等结果。
近年来,生成对抗网络(GAN,Generative Adversarial Networks)受到了学术界与工业界的极大重视,成为近两年来最热门的研究领域之一。与传统的机器学习方法不同,GAN最大的特点在于引入了对抗机制,能用于真实数据分布的建模和生成。当前,生成对抗网络模型吸引了大量的研究学者,在诸多方面得到了进一步扩展。可以看出,与传统的机器学习方法不同,GAN最大的特点在于能够用于真实数据分布的建模和生成。纵观现有的生成对抗网络方法,其大多是针对单一数据域。因此,GAN有望解决文本编辑图像所造成的细节丢失,背景区域变化等问题。
发明内容
本发明要解决的问题在于提供一种适用性强、准确度高的文本编辑图像方法。
为了解决上述问题,本发明提供了一种文本编辑图像方法,其包括以下步骤:
S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别;
S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;
S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
作为本发明的进一步改进,所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联。
作为本发明的进一步改进,所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联。
作为本发明的进一步改进,构建的循环一致性损失函数如下:
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I′表示第一图像,S′表示原始图像的第二文本描述信息,D表示鉴别器,G表示生成器。
作为本发明的进一步改进,所述鉴别器为单词级鉴别器。
本发明还提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的文本编辑图像方法。
本发明还提供了一种电子设备,其包括:一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述任意一项所述的文本编辑图像方法。
为了解决上述问题,本发明还提供了一种文本编辑图像系统,其包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联;
所述生成器用于生成与文本相关的第一图像;
所述鉴别器用于对第一图像和第一文本描述信息进行鉴别;
通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联;
所述生成器还用于生成与文本相关的第二图像;
所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别;
所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
作为本发明的进一步改进,所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联。
作为本发明的进一步改进,构建的循环一致性损失函数如下:
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I′表示第一图像,S′表示原始图像的第二文本描述信息,D表示鉴别器,G表示生成器。
本发明的有益效果:
本发明的文本编辑图像方法能够克服传统文本编辑图像中细节缺失,无关背景变换较大等缺陷,该方法基于循环对抗生成网络,在深度学习中具有更广泛的适用性,可以应用在多个方面,例如:降低专业编辑软件的使用门槛、帮助快速编辑图像内容等;借助循环对抗生成网络的结构,有望改变文本修改图像中图像细节丢失、背景变化较大等问题,并使得生成的图像更准确、更自然、更多样。同时,本发明文本编辑图像的方法可以面对现实中更为复杂的景象,生成更加自然的图像,在实际中有着更广泛的应用。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明优选实施例中文本编辑图像系统的示意图;
图2是本发明优选实施例中生成器的示意图;
图3是本发明优选实施例中鉴别器的示意图;
图4是本发明优选实施例中文本编辑图像方法在鸟类数据集上的生成效果图;
图5是本发明优选实施例中文本编辑图像方法在花类数据集上的生成效果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明优选实施例中的文本编辑图像方法包括以下步骤:
S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别;
S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;
S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
可选的,所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联。
进一步的,所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,为了保留给定图像的背景,必须精准的在图像中定位文本描述的区域,本发明对图像的不同通道进行区分,并利用SFA函数(局部特征注意力)加强文本与图形中的特征区域之间的关联。
其中,图像特征描述为VI,通过卷积将视觉特征编码为v1,v2,利用softmax来计算通道注意力α,公式如下:
其中,VLj表示每个通道与句子中的视觉特征词汇之间的相关性,该值越大,相关性就越高,通道注意力参照图2。
在本发明中,通过生成器生成的图像在鉴别器中进行判别是否时真实的图像,却无法判断该图片是否是根据文本描述的信息进行编辑的,这也是GAN中的生成匹配问题。在GAN的生成过程中,因为鉴别器只能判断其是否来自真实数据的分布,而无法判断属于具体哪个类别。在实际过程中,如何有效解决GAN生成数据的匹配问题具有实际意义。
为此,本发明采用图3的方式解决本上述生成匹配问题。由于给定的文本包含多个单词信息,每个单词代表着一个需要编辑的属性,通过提取细粒度的鉴别器来捕捉生成图像中没有跟文本特征相互对应的区域,从而更好的给生成器进行反馈。细粒度的鉴别器具有两个输入,图像特征信息和文本特征信息。
单词级的鉴别器能够提供细粒度的反馈,从而增强细节并优化编辑的结果。通过单词在空间上的关注度和图像的通道注意力将单词信息和图像特征的映射相互关联,增强了对细节属性的修改。
为了更好的保持背景区域的不变性,项目提出通过构建循环网络的架构,利用循环一致性损失,来减少生成图像时的随机性。对于每个图像和文本操作指令,应用一对循环操作来交换已编辑的属性(例如:“白色花瓣和黄色斑点”→“紫色花瓣和黑色斑点”→“白色花瓣和黄色斑点”),相应的原始图像和编辑后图像表示为如上,循环一致性损失函数构建如下:
其中,I表示原始图像的图像信息,S表示原始图像的第一文本描述信息,I′表示第一图像,S′表示原始图像的第二文本描述信息,I表示利用I′和S′得到的图像内容信息。D表示鉴别器,G表示生成器。
对于域损失,我们遵循LSGAN的结构,因为它具有良好的训练稳定性,公式如下:
最终,网络整体的损失函数如下:
通过这种结构,网络能够在多次的迭代后收敛,得到性能良好的生成器。利用该生成器,能够利用文本信息对输入的图像内容进行有效的编辑。
本发明的文本编辑图像方法能够克服传统文本编辑图像中细节缺失,无关背景变换较大等缺陷,该方法基于循环对抗生成网络,在深度学习中具有更广泛的适用性,可以应用在多个方面,例如:降低专业编辑软件的使用门槛、帮助快速编辑图像内容等;借助循环对抗生成网络的结构,有望改变文本修改图像中图像细节丢失、背景变化较大等问题,并使得生成的图像更准确、更自然、更多样。同时,本发明文本编辑图像的方法可以面对现实中更为复杂的景象,生成更加自然的图像,在实际中有着更广泛的应用。
本发明优选实施例还公开了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述文本编辑图像方法。
本发明优选实施例还公开了一种电子设备,其包括:一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述文本编辑图像方法。
如图1所示,本实施例优选实施例还公开了一种文本编辑图像系统,该系统包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联;所述生成器用于生成与文本相关的第一图像;所述鉴别器用于对第一图像和第一文本描述信息进行鉴别;通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联;所述生成器还用于生成与文本相关的第二图像;所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别;所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
本系统实施例中的方法与上述实施例中文本编辑图像方法相同,在此不再赘述。
如图4和5所示,分别为本发明文本编辑图像方法在鸟类和花类数据集上的生成效果图,图像第一行为原始的输入图像信息,左边第一列为输入的文本信息,后面对应的是通过网络生成的图像内容。从图中可以看出,本发明的文本编辑图像方法改变了文本修改图像中图像细节丢失、背景变化较大等问题,并使得生成的图像更准确、更自然、更多样。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.一种文本编辑图像方法,其特征在于,包括以下步骤:
S1、将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第一图像,将所述第一图像和第一文本描述信息送入鉴别器进行鉴别;
S2、将所述第一图像和原始图像的第二文本描述信息送入通道注意力模块进行关联,然后送入生成器,生成与文本相关的第二图像,将所述第二图像和第二文本描述信息送入鉴别器进行鉴别;
S3、利用步骤S1和S2得到的鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
2.如权利要求1所述的文本编辑图像方法,其特征在于,所述将原始图像和原始图像的第一文本描述信息送入通道注意力模块进行关联,包括:提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联。
3.如权利要求2所述的文本编辑图像方法,其特征在于,所述提取原始图像的全局特征,提取原始图像的局部特征,将第一文本描述信息编码为词向量,加强文本与图形中的特征区域之间的关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联。
5.如权利要求1所述的文本编辑图像方法,其特征在于,所述鉴别器为单词级鉴别器。
6.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行如权利要求1-5任意一项所述的文本编辑图像方法。
7.一种电子设备,其特征在于,包括:一个或多个处理器,存储器以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述如权利要求1-5任意一项所述的文本编辑图像方法。
8.一种文本编辑图像系统,其特征在于,包括通道注意力模块、生成器、鉴别器、循环一致性损失函数构建模块;
所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联;
所述生成器用于生成与文本相关的第一图像;
所述鉴别器用于对第一图像和第一文本描述信息进行鉴别;
通道注意力模块还用于将所述第一图像和原始图像的第二文本描述信息进行关联;
所述生成器还用于生成与文本相关的第二图像;
所述鉴别器还用于对所述第二图像和第二文本描述信息进行鉴别;
所述循环一致性损失函数构建模块用于利用鉴别信息构建循环一致性损失函数,并经过多次迭代对生成器进行训练,得到优化后的生成器。
9.如权利要求8所述的文本编辑图像系统,其特征在于,所述通道注意力模块用于将原始图像和原始图像的第一文本描述信息进行关联,包括:利用VGG-16网络提取原始图像的全局特征,利用Inception-V3网络提取原始图像的局部特征,利用RNN网络将第一文本描述信息编码为词向量,并利用SFA函数加强文本与图形中的特征区域之间的关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275765.6A CN113158630B (zh) | 2021-03-15 | 2021-03-15 | 一种文本编辑图像方法、存储介质、电子设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110275765.6A CN113158630B (zh) | 2021-03-15 | 2021-03-15 | 一种文本编辑图像方法、存储介质、电子设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158630A true CN113158630A (zh) | 2021-07-23 |
CN113158630B CN113158630B (zh) | 2024-02-06 |
Family
ID=76887123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110275765.6A Active CN113158630B (zh) | 2021-03-15 | 2021-03-15 | 一种文本编辑图像方法、存储介质、电子设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158630B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448477A (zh) * | 2021-08-31 | 2021-09-28 | 南昌航空大学 | 交互式图像编辑方法、装置、可读存储介质及电子设备 |
WO2023060434A1 (zh) * | 2021-10-12 | 2023-04-20 | 中国科学院深圳先进技术研究院 | 一种基于文本的图像编辑方法和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452902B1 (en) * | 2018-12-21 | 2019-10-22 | Capital One Services, Llc | Patent application image generation systems |
CN110968725A (zh) * | 2019-12-03 | 2020-04-07 | 咪咕动漫有限公司 | 图像内容描述信息生成方法、电子设备及存储介质 |
CN111325660A (zh) * | 2020-02-20 | 2020-06-23 | 中国地质大学(武汉) | 一种基于文本数据的遥感图像风格转换方法 |
CN112085677A (zh) * | 2020-09-01 | 2020-12-15 | 深圳先进技术研究院 | 一种图像处理方法、系统和计算机存储介质 |
US20200411201A1 (en) * | 2019-06-27 | 2020-12-31 | Retrace Labs | Systems And Method For Artificial-Intelligence-Based Dental Image To Text Generation |
CN112348911A (zh) * | 2020-10-28 | 2021-02-09 | 山东师范大学 | 基于语义约束的堆叠文本生成细粒度图像方法及系统 |
CN112489152A (zh) * | 2020-11-04 | 2021-03-12 | 湖南大学 | 一种基于远程相关注意力生成对抗网络的文本生成图像方法 |
-
2021
- 2021-03-15 CN CN202110275765.6A patent/CN113158630B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10452902B1 (en) * | 2018-12-21 | 2019-10-22 | Capital One Services, Llc | Patent application image generation systems |
US20200411201A1 (en) * | 2019-06-27 | 2020-12-31 | Retrace Labs | Systems And Method For Artificial-Intelligence-Based Dental Image To Text Generation |
CN110968725A (zh) * | 2019-12-03 | 2020-04-07 | 咪咕动漫有限公司 | 图像内容描述信息生成方法、电子设备及存储介质 |
CN111325660A (zh) * | 2020-02-20 | 2020-06-23 | 中国地质大学(武汉) | 一种基于文本数据的遥感图像风格转换方法 |
CN112085677A (zh) * | 2020-09-01 | 2020-12-15 | 深圳先进技术研究院 | 一种图像处理方法、系统和计算机存储介质 |
CN112348911A (zh) * | 2020-10-28 | 2021-02-09 | 山东师范大学 | 基于语义约束的堆叠文本生成细粒度图像方法及系统 |
CN112489152A (zh) * | 2020-11-04 | 2021-03-12 | 湖南大学 | 一种基于远程相关注意力生成对抗网络的文本生成图像方法 |
Non-Patent Citations (1)
Title |
---|
JUNYAN ZHU: "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks", 《ARXIV》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448477A (zh) * | 2021-08-31 | 2021-09-28 | 南昌航空大学 | 交互式图像编辑方法、装置、可读存储介质及电子设备 |
WO2023060434A1 (zh) * | 2021-10-12 | 2023-04-20 | 中国科学院深圳先进技术研究院 | 一种基于文本的图像编辑方法和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113158630B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | VLT: Vision-language transformer and query generation for referring segmentation | |
CN111581395B (zh) | 一种基于深度学习的模型融合三元组表示学习系统及方法 | |
Klein et al. | Associating neural word embeddings with deep image representations using fisher vectors | |
CN113743099B (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
Tan et al. | Context-aware answer sentence selection with hierarchical gated recurrent neural networks | |
CN113191357A (zh) | 基于图注意力网络的多层次图像-文本匹配方法 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN113158630A (zh) | 一种文本编辑图像方法、存储介质、电子设备及系统 | |
Zhang et al. | Generalized weakly supervised object localization | |
Wang et al. | A residual-attention offline handwritten Chinese text recognition based on fully convolutional neural networks | |
CN114722820A (zh) | 基于门控机制和图注意力网络的中文实体关系抽取方法 | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
Yang et al. | CLIP-KD: An Empirical Study of Distilling CLIP Models | |
CN111831805A (zh) | 一种模型创建方法、装置、电子设备和可读存储装置 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 | |
Lu et al. | Artcap: A dataset for image captioning of fine art paintings | |
Zhang et al. | Data-driven robust cost consensus model with individual adjustment willingness in group decision-making | |
Jia et al. | Semantic association enhancement transformer with relative position for image captioning | |
Zhao et al. | Fusion with GCN and SE-ResNeXt network for aspect based multimodal sentiment analysis | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
Rafi et al. | A linear sub-structure with co-variance shift for image captioning | |
Lu et al. | A clock tree prediction and optimization framework using generative adversarial learning | |
CN114091451A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
Lou et al. | Aspect-based sentiment analysis on convolution neural network and multi-hierarchical attention | |
CN115809432B (zh) | 人群社会关系提取方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |