CN112818646B - 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 - Google Patents

基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 Download PDF

Info

Publication number
CN112818646B
CN112818646B CN202110219192.5A CN202110219192A CN112818646B CN 112818646 B CN112818646 B CN 112818646B CN 202110219192 A CN202110219192 A CN 202110219192A CN 112818646 B CN112818646 B CN 112818646B
Authority
CN
China
Prior art keywords
picture
text
discriminator
generator
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110219192.5A
Other languages
English (en)
Other versions
CN112818646A (zh
Inventor
陶明
王彩玲
蒋国平
罗新新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110219192.5A priority Critical patent/CN112818646B/zh
Publication of CN112818646A publication Critical patent/CN112818646A/zh
Application granted granted Critical
Publication of CN112818646B publication Critical patent/CN112818646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提出了一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,通过生成器和判别器的对抗训练,使得生成器最终能够将给定的图片编辑为与文本描述相匹配的图片。主要包括以下步骤:获取文本与图片匹配的数据集、搭建基于生成对抗网络的生成对抗模型;通过梯度下降法迭代训练生成网络和判别网络。最终获得一个能够有效根据文本编辑已有图片的生成器。本发明通过生成器中的动态编辑模块以及动态卷积模块,将文本信息融合进图片解码过程中;通过对判别器的零中心匹配梯度惩罚,促使生成器生成的图片与给定的文本匹配;有效地解决了编辑的图片细节缺失,编辑后的图片与给定文本不匹配的问题。

Description

基于生成对抗网络和动态编辑模块的根据文本编辑图片的 方法
技术领域
本发明涉及根据文本编辑图像算法,具体涉及一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,属于模式识别领域。
背景技术
随着深度学习的发展,计算机视觉与机器学习方法的性能都取得很大的提高。并且深度学习模型已经在图像处理,自然语言处理以及图像生成领域取得了令人惊讶的成功。尤其是图像生成模型,在当前短视频社交软件平台,通过特效生成,风格迁移,使其得到了广泛的应用。基于生成对抗网络的模型,通过同时训练一个生成网络和一个判别网络,并让其互相进行对抗训练来使得生成网络最终可以生成非常真实的图片。尽管当前的生成对抗网络已经可以生成质量非常高的图片,但是在图像编辑任务上,依然有所欠缺,主要表现在当前的图像编辑任务,无法通过一种直接简洁的方式,使得一个模型实现多目标的编辑;所以通过一种方便,简洁的方式来控制编辑的内容成了当前图像编辑任务中非常重要的研究方向。而文本作为人类社会最常用的交流媒介,其直观性和简洁性远远超过其他媒介,这也使得当前人工智能时代涌现出很多基于文本的智能应用,例如人工智能客服,智能文本生成等。文本的直观简洁也为生成对抗网络的可控生成指出了一条方向,我们需要将文本与生成对抗网络连接在一起,在确保生成内容的多样性的同时,也要保证生成内容受文本的控制,从而提高生成对抗网络的生成内容可控性,便于生成对抗网络投入到实际应用中。基于文本编辑图像的的生成对抗网络需要做到两点:一是要确保编辑后图像的真实性,二是编辑后的图片与给定的文本相符。
发明内容
本发明的目的是:针对现有根据文本编辑图像技术存在的问题,提出一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法。
本发明主要采用以下技术方案:
一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,主要包括以下步骤:
步骤(1):获取训练数据集,其中每个样本都由文本和图像对组成;
步骤(2):搭建生成对抗网络模型,所述生成对抗网络模型由生成器和判别器组成,其中生成器包括编码器和图片解码器和语义解码器;
步骤(3):文本编码器将文本编码为向量输入给步骤(2)所述生成器和判别器;
步骤(4):训练判别器,在训练过程中,需要对三类数据做出判断,分别是真实的图片和匹配的句子,生成的图片和匹配的句子,以及真实的图片与不匹配的句子;;
步骤(5):对判别器的零中心匹配梯度惩罚,促使生成的图片与给定的文本匹配;
步骤(6):训练生成器,在训练过程中,提出了一个动态编辑模块来融合文本信息和图像特征;
步骤(7):将训练好判别器和生成器的生成对抗网络模型用于根据文本编辑图像的任务。
进一步的,步骤(1)所述的数据集里,每一张图片对应一句或多句相应的文本描述,文本大致描述了图像中的对象与事件,每条文本的长度在5到40个单词之间。
进一步的,所述步骤(2)中,采用了一个由编码器和解码器的生成对抗网络,此网络在生成过程中,通过编码器降采样输入的图像,再通过解码器上采样编码的图像特征,文本信息在解码过程中融入到图像编码特征中。
进一步的,所述步骤(3)中,采用了一个已经预训练好的双向长短期记忆网络作为文本编码器,此网络在生成对抗网络的训练过程中不更新参数,输入文本经由双向长短期记忆网络编码为句子向量和单词向量,具体包括以下步骤:
31)首先,文本中每一个单词会转换成一个独热码,每一个单词对应一个独热码;
32)再将独热码输入给嵌入层,使得每一个单词对应一个单词向量;
33)将这些由单词向量组成的句子输入进双向长短期记忆网络,并将最后一个隐状态作为整个句子的句子向量,输入给生成器和判别器。
进一步的,所述步骤(4)中,真实的图片和匹配的句子作为正样本,判别器给予高分,而生成的图片和匹配的句子,以及真实的图片与不匹配的句子作为负样本,判别器给予低分;
采用铰链损失作为生成对抗网络的损失函数,为了控制正负样本的损失平衡,给两个负样本损失乘上1/2,判别器的损失函数表示为:
Figure BDA0002953839880000021
其中Pr是真实图像的分布,Pg是生成图像的分布,Pmis是与文本不匹配的图像的分布,x为输入图片,e为与输入图片x相匹配的句子向量,
Figure BDA0002953839880000031
为随机选取的句子向量,D为判别器,G为生成器,E为期望。
通过联合判别以上三种图片与文本搭配的情况,最终判别器不仅能够区分生成的图片和真实的图片,也能够判断图片是否与文本匹配,从而促进生成器生成真实且与给定文本匹配的图片。
进一步的,所述步骤(5)中提出了零中心匹配梯度惩罚来约束判别器,在训练过程中,选择在匹配的句子和真实的图片的输入上进行梯度惩罚,判别器在该数据点的梯度接近于零,使得在判别器的损失函数曲面中,该数据点周围的损失曲面光滑,便于生成器收敛到目标位置,零中心匹配梯度惩罚表示为:
Figure BDA0002953839880000032
其中Pr是真实图像的分布,e为与输入图片x相匹配的句子向量,x为输入图片,D为判别器,E为期望,
Figure BDA0002953839880000033
为梯度,k和p为超参数。
进一步的,所述步骤(6)包括以下步骤:
61)将给定的图片和目标文本输入给生成器,生成器中的编码器会对输入的图片进行降采样,并通过图片解码器和语义解码器将图片上采样至输入图片相同的尺寸;
62)语义解码器接受编码器的输出后,通过一系列插值和卷积操作来生成语义特征图,再将通道及空间维度的仿射变换参数输入给图片解码器中的动态编辑模块;
63)图片解码器中的动态编辑模块对解码过程中的图像特征进行通道以及空间维度的仿射变换,从而将文本特征融入到最终生成的图片中;
64)生成编辑过的图片后,输入给判别器判别,判别器给予生成的图片一个标量来表示生成的质量,使用判别器的输出作为生成器的损失函数,并进行反向传播,使用梯度优化来更新生成器的参数,生成器的损失函数如下:
Figure BDA0002953839880000034
其中Pg是生成图像的分布,x为输入图片,
Figure BDA0002953839880000035
为随机选取的句子向量,D为判别器,G为生成器,E为期望。
进一步的,所述步骤63)中通道维度的仿射变换参数是将句向量输入给两个两层全连接网络预测来的,空间维度的仿射变换参数是对语义解码器进行动态卷积预测来的;其中,动态卷积的卷积核参数是受句子向量控制的。
进一步的,在步骤(7)中,通过生成器与判别器之间的对抗训练,使用梯度下降优化法,使得最终得到的训练好的生成对抗网络模型能够根据文本编辑图像。
附图说明
图1.本发明的对抗网络模型图。
图2.动态编辑模块的架构示意图。
图3.动态卷积模块的架构示意图。
有益效果
本发明是一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,生成器由编码器和解码器组成,对应层的编码器和解码器之间,使用跳跃连接,来保留输入图片中更多的细节。并且使用动态编辑模块,以及动态卷积模块,对编码器编码后的图像特征进行通道以及空间维度的仿射变换,使得文本信息能够有效融合进生成的图像中;最后,该网络对判别器进行了零中心匹配梯度惩罚,使得判别器获得明确的优化方向,从而提高编辑后的图片与文本的匹配性;通过梯度下降优化算法,进行生成网络与判别网络之间的迭代对抗训练,使得最终的生成器可以根据文本编辑需要编辑的部分,并保持与文本无关的部分不变。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案做进一步的详细说明:
本发明提供一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,具体流程如图1所示。
步骤(1):获取训练数据集,其中每个样本都由文本和图像对组成。采用两个广泛使用的基准多模态数据集,分别是CUB-200和COCO数据集,其中,CUB-200数据集是由200种鸟类的图片组成,总共11788张图片,每张图片对应十句文本描述,按照类别划分训练集与测试集,其中训练集包含150种鸟类图片,测试集包含50种鸟类图片;COCO数据集总共包含120k张日常生活图片,每张图片对应五句文本描述,划分出80k张图片作为训练集,40k张图片作为测试集。
步骤(2):搭建生成对抗网络模型;生成对抗网络包括生成器和判别器,其中生成器包括编码器,图片解码器和语义解码器;具体作用如下:编码器将给定的图片进行下采样和卷积操作,一直到分辨率降为4*4为止,将降采样后的图像特征输入给图片解码器和语义解码器;
图片解码器经过插值层,卷积层,最终得到与输入分辨率相同尺寸的编辑后的图像,而图片解码器中的动态编辑模块对解码过程中的图像特征进行通道以及空间维度的仿射变换,从而将文本信息融入到最终编辑后的图像中。语义解码器接受编码器的输出后,通过一系列插值和卷积操作生成语义特征图;
再将通道及空间维度的仿射变换参数输入给图片解码器中的动态编辑模块。判别器由一系列残差网络组成,最终输出一个标量来衡量当前输入。
步骤(3):文本编码器将文本编码为向量输入给生成器和判别器;采用的文本编码器类似于AttnGAN,使用一个双向长短期记忆网络(BiLSTM)作为文本编码器。
31)首先,文本中每一个单词会转换成一个独热码,每一个单词对应一个独热码,
32)再将独热码输入给嵌入层,使得每一个单词对应一个单词向量,
33)将这些由单词向量组成的句子输入进双向长短期记忆网络,并将最后一个隐状态作为整个句子的句向量,输入给生成器和判别器。
其中,BiLSTM的嵌入层维数设置为300,隐层神经元个数设置为128。
步骤(4):训练判别器;判别器不仅应该给真实的图片高分,给生成的图片低分,还需要判断图片是否与文本匹配。
判别器在训练过程中,需要对三类数据做出判断,分别是真实的图片和匹配的句子,生成的图片和匹配的句子,以及真实的图片与不匹配的句子;真实的图片和匹配的句子作为正样本,判别器应该给予高分,而生成的图片和匹配的句子,以及真实的图片与不匹配的句子作为负样本,判别器应该给予低分。
采用铰链损失(Hinge loss)作为生成对抗网络的损失函数,为了控制正负样本的损失平衡,给两个负样本损失乘上1/2,判别器的损失函数可以表示为:
Figure BDA0002953839880000051
其中Pr是真实图像的分布,Pg是生成图像的分布,Pmis是与文本不匹配的图像的分布,x为输入图片,e为与输入图片x相匹配的句子向量,
Figure BDA0002953839880000052
为随机选取的句子向量,D为判别器,G为生成器,E为期望。通过联合判别以上三种图片与文本搭配的情况,最终判别器不仅可以区分生成的图片和真实的图片,也可以判断图片是否与文本匹配,从而促进生成器生成真实且与给定文本匹配的图片。
步骤(5):对判别器的零中心匹配梯度惩罚,促使生成的图片与给定的文本匹配;由于对抗训练的不稳定性,判别器在判断正负样本的时候,梯度非常的不稳定,波动大,这使得生成对抗网络收敛变慢,甚至于不收敛,所以需要对判别网络的梯度进行控制。在训练过程中,判别器的输入是文本和图像,文本包括与输入图像匹配的句子以及与输入图像不匹配的句子,图像包括真实图片与生成的图片,在文本和图片各自有两种的情况下,判别器的文本与图片有三种搭配,包括真实的图片和匹配的句子,生成的图片和匹配的句子,以及真实的图片与不匹配的句子;选择在真实的图片和匹配的句子的输入上进行梯度惩罚,判别器在该数据点的梯度接近于零,使得在判别器的损失函数曲面中,该数据点周围的损失曲面光滑,便于生成器收敛到目标位置,零中心匹配梯度惩罚可以表示为:
Figure BDA0002953839880000061
其中Pr是真实图像的分布,e为与输入图片x相匹配的句子向量,x为输入图片,D为判别器,E为期望,
Figure BDA0002953839880000062
为梯度,k和p为超参数。
步骤(6):训练生成器,当更新过判别器,使得判别器具有判别真实图片与生成图片的能力后,需要训练生成器,使其能够生成使判别器的无法区分的图片,具体操作是,
将给定的图片和目标文本输入给生成器,生成器中的编码器会对输入的图片进行下采样,并通过图像解码器和语义解码器将图片上采样至输入图片相同的尺寸,并由动态卷积模块来预测图像特征在通道及空间维度的仿射变换参数,从而将文本特征融入到最终生成的图片中。
生成编辑过的图片后,输入给判别器判别,判别器给予生成的图片一个标量来表示生成的质量,使用判别器的输出作为生成器的损失函数,并进行反向传播,使用梯度优化来更新生成器的参数,生成器的损失函数如下:
Figure BDA0002953839880000063
其中Pg是生成图像的分布,e为与输入图片x相匹配的句子向量,x为输入图片,
Figure BDA0002953839880000064
为随机选取的句子向量,D为判别器,G为生成器,E为期望。
为了提高生成器利用文本的效率,提出一个动态编辑模块来融合文本信息和图像特征,动态编辑模块通过对解码过程中的图像特征进行通道以及空间维度的仿射变换来将文本信息融入到图像特征中,通道维度的仿射参数是将句向量输入给两个两层全连接网络预测来的,空间维度的仿射参数是对语义解码器进行动态卷积预测来的,其中,动态卷积的卷积核参数是受句子向量控制的;通过动态编辑模块融合文本与图像特征,使得生成过程中的图像特征能够跟随文本变化,从而使得生成器能够将给定的图像编辑为符合文本描述的样子。
动态编辑模块的架构如图2所示,其主要包含卷积,通道仿射变化以及空间仿射变化,通过全连接层以及动态卷积模块预测通道以及空间维度的仿射参数;
动态卷积模块的架构如图3所示,其通过全连接网络预测卷积网络的参数,并对语义特征进行卷积操作,从而达到编辑图像的目的。
步骤(7):将训练好判别器和生成器的生成对抗网络模型用于根据文本编辑图像的任务。为了尽可能得准确地与其他模型的结果进行比较,本方法与两种根据文本编辑图像的模型分别是TAGAN和ManiGAN进行了比较如表1,采用两种类型的指标:InceptionScore(IS)和Manipulative Precision(MP),表1报告了在CUB和COCO的评估结果。
表1:本方法在CUB和COCO数据集和其余两种方法的比较结果
Figure BDA0002953839880000071

Claims (9)

1.一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于,主要包括以下步骤:
步骤(1):获取训练数据集,其中每个样本都由文本和图像对组成;
步骤(2):搭建生成对抗网络模型,所述生成对抗网络模型由生成器和判别器组成,其中生成器包括编码器、图片解码器和语义解码器;
步骤(3):文本编码器将文本编码为向量输入给步骤(2)所述生成器和判别器;
步骤(4):训练判别器,在训练过程中,需要对三类数据做出判断,分别是真实的图片和匹配的句子,生成的图片和匹配的句子,以及真实的图片与不匹配的句子;
步骤(5):对判别器的零中心匹配梯度惩罚,促使生成的图片与给定的文本匹配;
步骤(6):训练生成器,在训练过程中,提出了一个动态编辑模块来融合文本信息和图像特征;
步骤(7):将训练好判别器和生成器的生成对抗网络模型用于根据文本编辑图像的任务。
2.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于:步骤(1)所述的数据集里,每一张图片对应一句或多句相应的文本描述,文本大致描述了图像中的对象与事件,每条文本的长度在5到40个单词之间。
3.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于:所述步骤(2)中,采用了一个由编码器和解码器的生成对抗网络,此网络在生成过程中,通过编码器降采样输入的图像,再通过解码器上采样编码的图像特征,文本信息在解码过程中融入到图像编码特征中。
4.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于:所述步骤(3)中,采用了一个已经预训练好的双向长短期记忆网络作为文本编码器,此网络在生成对抗网络的训练过程中不更新参数,输入文本经由双向长短期记忆网络编码为句子向量和单词向量,具体包括以下步骤:
31)首先,文本中每一个单词会转换成一个独热码,每一个单词对应一个独热码;
32)再将独热码输入给嵌入层,使得每一个单词对应一个单词向量;
33)将这些由单词向量组成的句子输入进双向长短期记忆网络,并将最后一个隐状态作为整个句子的句子向量,输入给生成器和判别器。
5.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于:所述步骤(4)中,真实的图片和匹配的句子作为正样本,判别器给予高分,而生成的图片和匹配的句子,以及真实的图片与不匹配的句子作为负样本,判别器给予低分;
采用铰链损失作为生成对抗网络的损失函数,为了控制正负样本的损失平衡,给两个负样本损失乘上1/2,判别器的损失函数表示为:
Figure QLYQS_1
其中Pr是真实图像的分布,Pg是生成图像的分布,Pmis是与文本不匹配的图像的分布,x为输入图片,e为与输入图片x相匹配的句子向量,
Figure QLYQS_2
为随机选取的句子向量,D为判别器,G为生成器,E为期望;
通过联合判别以上三种图片与文本搭配的情况,最终判别器不仅能够区分生成的图片和真实的图片,也能够判断图片是否与文本匹配,从而促进生成器生成真实且与给定文本匹配的图片。
6.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于:所述步骤(5)中提出了零中心匹配梯度惩罚来约束判别器,在训练过程中,选择在匹配的句子和真实的图片的输入上进行梯度惩罚,判别器在该数据点的梯度接近于零,使得在判别器的损失函数曲面中,该数据点周围的损失曲面光滑,便于生成器收敛到目标位置,零中心匹配梯度惩罚表示为:
Figure QLYQS_3
其中Pr是真实图像的分布,e为与输入图片x相匹配的句子向量,x为输入图片,D为判别器,E为期望,
Figure QLYQS_4
为梯度,k和p为超参数。
7.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于:所述步骤(6)包括以下步骤:
61)将给定的图片和目标文本输入给生成器,生成器中的编码器会对输入的图片进行降采样,并通过图片解码器和语义解码器将图片上采样至输入图片相同的尺寸;
62)语义解码器接受编码器的输出后,通过一系列插值和卷积操作来生成语义特征图,再将通道及空间维度的仿射变换参数输入给图片解码器中的动态编辑模块;
63)图片解码器中的动态编辑模块对解码过程中的图像特征进行通道以及空间维度的仿射变换,从而将文本特征融入到最终生成的图片中;
64)生成编辑过的图片后,输入给判别器判别,判别器给予生成的图片一个标量来表示生成的质量,使用判别器的输出作为生成器的损失函数,并进行反向传播,使用梯度优化来更新生成器的参数,生成器的损失函数如下:
Figure QLYQS_5
其中Pg是生成图像的分布,x为输入图片,
Figure QLYQS_6
为随机选取的句子向量,D为判别器,G为生成器,E为期望。
8.根据权利要求7所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于:所述步骤62)中通道维度的仿射变换参数是将句子向量输入给两个两层全连接网络预测来的,空间维度的仿射变换参数是对语义解码器进行动态卷积预测来的;其中,动态卷积的卷积核参数是受句子向量控制的。
9.根据权利要求1所述的一种基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法,其特征在于:在步骤(7)中,通过生成器与判别器之间的对抗训练,使用梯度下降优化法,使得最终得到的训练好的生成对抗网络模型能够根据文本编辑图像。
CN202110219192.5A 2021-02-26 2021-02-26 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法 Active CN112818646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110219192.5A CN112818646B (zh) 2021-02-26 2021-02-26 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110219192.5A CN112818646B (zh) 2021-02-26 2021-02-26 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Publications (2)

Publication Number Publication Date
CN112818646A CN112818646A (zh) 2021-05-18
CN112818646B true CN112818646B (zh) 2023-07-14

Family

ID=75864152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110219192.5A Active CN112818646B (zh) 2021-02-26 2021-02-26 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法

Country Status (1)

Country Link
CN (1) CN112818646B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421314B (zh) * 2021-06-09 2022-04-22 湖南大学 一种基于生成对抗网络的多尺度双模态文本生成图像方法
CN113434918B (zh) * 2021-06-28 2022-12-02 北京理工大学 一种基于文本的三维体素模型生成方法
CN113362416B (zh) * 2021-07-01 2024-05-17 中国科学技术大学 基于目标检测的文本生成图像的方法
CN113487629B (zh) * 2021-07-07 2023-04-07 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113408673B (zh) * 2021-08-19 2021-11-02 联想新视界(南昌)人工智能工研院有限公司 生成对抗网络子空间解耦和生成编辑方法、系统及计算机
CN113807218B (zh) * 2021-09-03 2024-02-20 科大讯飞股份有限公司 版面分析方法、装置、计算机设备和存储介质
CN114677569B (zh) * 2022-02-17 2024-05-10 之江实验室 一种基于特征解耦合的文字-图像对生成方法和装置
CN114581334B (zh) * 2022-03-17 2024-05-24 湖南大学 一种基于生成对抗网络的自调节文本生成图像方法
CN114359435A (zh) * 2022-03-17 2022-04-15 阿里巴巴(中国)有限公司 图像生成方法、模型生成方法及设备
CN115527216B (zh) * 2022-11-09 2023-05-23 中国矿业大学(北京) 基于调制融合和生成对抗网络的文本生成图像方法
CN116863032B (zh) * 2023-06-27 2024-04-09 河海大学 一种基于生成对抗网络的洪涝灾害场景生成方法
CN118314246B (zh) * 2024-06-11 2024-08-20 西南科技大学 一种文本合成图像的训练方法及训练系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862377A (zh) * 2017-11-14 2018-03-30 华南理工大学 一种基于文本‑图像生成对抗网络模型的分组卷积方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108156312B (zh) * 2017-12-08 2020-12-25 惠州Tcl移动通信有限公司 一种控制sim卡功能菜单显示的方法、终端及存储装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862377A (zh) * 2017-11-14 2018-03-30 华南理工大学 一种基于文本‑图像生成对抗网络模型的分组卷积方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于生成对抗网络的文本引导人物图像编辑方法;黄韬;贾西平;林智勇;马震远;;广东技术师范大学学报(03);全文 *

Also Published As

Publication number Publication date
CN112818646A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112818646B (zh) 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN111897933B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN114048464B (zh) 基于深度学习的以太坊智能合约安全漏洞检测方法及系统
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN108415977A (zh) 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN114388064A (zh) 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质
CN112115687A (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN114091466B (zh) 一种基于Transformer和多任务学习的多模态情感分析方法及系统
CN116415170A (zh) 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
CN116704079B (zh) 图像生成方法、装置、设备及存储介质
CN111444328B (zh) 一种带有解释生成的自然语言自动预测推断方法
CN115858756A (zh) 基于感知情绪倾向的共情人机对话系统
CN117892237B (zh) 一种基于超图神经网络的多模态对话情绪识别方法及系统
Wang et al. Reasoning like humans: on dynamic attention prior in image captioning
CN117875395A (zh) 多模态预训练模型的训练方法、装置及存储介质
CN115810351A (zh) 一种基于视听融合的管制员语音识别方法及装置
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN114860869A (zh) 一种意图泛化的可控制通用对话模型
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN111414466A (zh) 一种基于深度模型融合的多轮对话建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant