CN111339734A - 一种基于文本生成图像的方法 - Google Patents

一种基于文本生成图像的方法 Download PDF

Info

Publication number
CN111339734A
CN111339734A CN202010104619.2A CN202010104619A CN111339734A CN 111339734 A CN111339734 A CN 111339734A CN 202010104619 A CN202010104619 A CN 202010104619A CN 111339734 A CN111339734 A CN 111339734A
Authority
CN
China
Prior art keywords
image
model
vector
generator model
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010104619.2A
Other languages
English (en)
Other versions
CN111339734B (zh
Inventor
纪刚
周粉粉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Lianhe Chuangzhi Technology Co ltd
Original Assignee
Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Lianhe Chuangzhi Technology Co ltd filed Critical Qingdao Lianhe Chuangzhi Technology Co ltd
Priority to CN202010104619.2A priority Critical patent/CN111339734B/zh
Publication of CN111339734A publication Critical patent/CN111339734A/zh
Application granted granted Critical
Publication of CN111339734B publication Critical patent/CN111339734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于文本生成图像的方法,包括如下步骤:准备生成器模型和判识器模型的训练数据集;训练生成器模型和判识器模型,并计算生成器模型和判识器模型的损失函数;将生成的图像输入到卷积神经网络CNN中,获得整张图像与其匹配的文本描述的损失函数;将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态。本发明所公开的方法适用于对象之间关联性比较强的复杂文本,可以提高生成图像的分辨率,图像精度高,可以拿来直接使用。

Description

一种基于文本生成图像的方法
技术领域
本发明涉及一种基于文本生成图像的方法。
背景技术
目前由文本生成图像的方法主要存在以下弱点:
(1)一种方法是直接将描述图像的文本转换为向量生成图像,虽然生成的图像质量比较好,但当面对复杂文本时,该方法不适用。
(2)存在一种方法将文本中出现的对象关系编码为场景图的形式,虽然可以处理复杂的文本,但是生成的图像分辨率低,无法在实际使用;
(3)还有一种方法是在文本生成图像的过程中,要不断调整文本间词的关系,继而继续对图像进行调整,该过程需要重复操作,耗费大量计算成本。
发明内容
为解决上述技术问题,本发明提供了一种基于文本生成图像的方法,解决由复杂文本生成高质量图像的问题,以满足实际需要。
为达到上述目的,本发明的技术方案如下:
一种基于文本生成图像的方法,包括如下步骤:
步骤一,准备生成器模型和判识器模型的训练数据集;
步骤二,保持判识器模型参数为初始状态,训练生成器模型,生成器模型由并行网络分别根据对象路径和全局路径生成图像,在生成图像的过程中以学习率αg不断更新生成器模型参数θG,并计算生成器模型的损失函数;
步骤三,固定生成器模型参数,训练判识器模型,判识器模型从对象路径和全局路径两个方面并行操作图像提取特征,根据生成器模型生成的图像
Figure BDA0002388115930000011
以及训练数据集中的样本图像x以学习率αd不断学习更新判识器模型参数θD,进而判断图像的真伪,并计算判识器模型的损失函数;
步骤四,将生成的图像输入到卷积神经网络CNN中,获得整张图像与其匹配的文本描述的损失函数;
步骤五,将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态。
上述方案中,为了生成更高分辨率的图像,再增加2个生成器模型和2个判识器模型,在第一生成器模型生成分辨率为64×64大小图像的基础上,重复步骤二和步骤三的操作,交替训练更新生成器模型参数θG和判识器模型参数θD,第二生成器模型生成分辨率为128×128大小的图像,第三生成器模型生成分辨率为256×256大小的图像。
上述方案中,所述步骤一具体如下:
训练数据集包括图像中对象的标注信息和每张图片的标题
Figure BDA0002388115930000021
对标题
Figure BDA0002388115930000022
中出现的对象类别用向量σi表示,i=0,1,2,...,n;图像中每一个对象的特征向量,用ρ来表示,ρ初始化时为空向量;生成器模型和判识器模型的参数分别为θG和θD
上述方案中,所述步骤二中生成器模型的训练过程如下:
对给定图像的描述标题
Figure BDA0002388115930000023
经双向长短记忆网络处理,提取文本特征得到文本中所有词的特征矩阵e,e∈RD×T,ei表示矩阵第i个词对应的特征向量,D表示词向量的维度,T代表词文本中词的数量;
在双向长短记忆网络的最后一个隐藏层将所有词向量串联起来得到
Figure BDA0002388115930000024
的标题向量
Figure BDA0002388115930000025
Figure BDA0002388115930000026
将图像的标题向量
Figure BDA0002388115930000027
标题中的对象类别标签σi以及随机的样本噪声向量z进行串联得到向量a,其中z服从正态分布;a经非线性全连接层处理得到σi的条件标签li
上述方案中,所述步骤二中根据对象路径生成图像的过程如下:
在空间上将li复制为4×4分辨率大小的图像
Figure BDA0002388115930000028
Figure BDA0002388115930000029
经过多层卷积和上采样操作后生成
Figure BDA00023881159300000210
大小的图像,并为图像中给定的对象σi生成特征;采用空间变换网络将该对象生成的特征转化到ρ中,并定位到对应的边界框位置;重复其他对象的操作,直到标题
Figure BDA00023881159300000211
中出现的其他对象出现在
Figure BDA00023881159300000212
图像中,并对应各自的对象边界位置;
根据全局路径生成图像的过程如下:
全局路径获取各个对象的位置和标签,首先在空间尺度为16×16大小的图像上对各个对象的边界框复制对象的标签,应用卷积操作,根据各个对象的位置和标签获取图像的布局编码特征,将布局编码特征、
Figure BDA00023881159300000213
和z连接起来,生成在4×4空间分辨率下的图像
Figure BDA00023881159300000214
的全局特征,同样经多个卷积层和上采样操作后得到图像
Figure BDA00023881159300000215
结合
Figure BDA00023881159300000216
Figure BDA00023881159300000217
二者的信息,沿着通道轴的方向将各特征连接起来,同样经过卷积和上采样操作最终生成I64×64的图像;
生成器模型的损失函数为:
(a)无条件损失,指根据向量z生成图像得到的损失,决定生成图像的真假;
Figure BDA0002388115930000031
(b)有条件损失,指根据li生成图像得到的损失,决定生成图像与标题
Figure BDA0002388115930000032
的关系;
Figure BDA0002388115930000033
其中,i=1,2,3,
Figure BDA0002388115930000034
表示第i个生成器模型生成的图像分布PGi
Figure BDA0002388115930000035
上述方案中,所述步骤三中判识器模型的训练过程如下:
判识器模型从对象路径和全局路径两个方面并行操作图像提取特征;对象路径使用空间变换网络提取对象σi所处边界框位置的特征,提取的特征转换为空间分辨率尺寸大小为x/4的图像,x为判识器模型输入的图像尺寸大小,然后沿着通道轴与该对象σi表示的具有相同特征维度的向量连接起来,经过多个卷积层操作之后,将提取的各个对象特征添加到边界框位置对应的ρ中;
判识器的全局路径工作在整张图像中,不断对图像降低其空间分辨率,一旦达到同ρ具有相同的维度,沿着通道轴连接两个向量,继续进行降采样,直到达到分辨率4×4的图像大小,模型输出的结果为0,代表输出
Figure BDA0002388115930000036
为假样本,输出1代表
Figure BDA0002388115930000037
为真样本。
上述方案中,所述步骤三中判识器模型的损失函数由以下部分组成:
(a)无条件损失
Figure BDA0002388115930000038
(b)条件损失
Figure BDA0002388115930000039
(c)类标签损失
Figure BDA00023881159300000310
(d)图像中的对象损失
Figure BDA00023881159300000311
其中i=1,2,3,x来自真实的样本分布Pdata
Figure BDA00023881159300000312
来自生成样本分布PG。
上述方案中,所述步骤四的具体方法如下:
将最后生成的分辨率256×256大小尺寸的图像调整为300×300,输入到卷积神经网络CNN中,CNN中间层提取图像的局部特征矩阵f∈RM×N;f的每一列表示图像子区域的特征向量,M为局部特征向量的维度,N代表图像被划分为子区域的数量;CNN网络的最后一个平均池化层提取图像的全局特征向量
Figure BDA0002388115930000041
在平均池化层之后通过增加一个感知层将图像特征转化为文本特征的公共语义空间,用如下公式描述:
Figure BDA0002388115930000042
其中,
Figure BDA0002388115930000043
vi的第i列表示图像第i个子区域的特征向量;
Figure BDA0002388115930000044
表示整张图像的全局向量,D1表示图像-标题之间的特征空间,N代表图像中子区域的数量;W表示系数矩阵,
Figure BDA0002388115930000045
表示系数矩阵的特征矩阵;
计算
Figure BDA0002388115930000046
中所有可能的单词对和图像中子区域的相似矩阵:s=eTv,s∈RT×N,T表示
Figure BDA0002388115930000047
中词的数量,si,j表示
Figure BDA0002388115930000048
中第i个词和图像第j个子区域之间的相似关系,对s归一化可得:
Figure BDA0002388115930000049
ci是与第i个词相关的图像的子区域的动态表示:
Figure BDA00023881159300000410
其中,
Figure BDA00023881159300000411
γ1是一个决定相关子区域特征关注程度的参数;
第i个词与图像的相关性定义为:
Figure BDA00023881159300000412
由此可得整张图像Q和
Figure BDA00023881159300000413
的匹配程度表示为:
Figure BDA00023881159300000414
其中,γ2表示最相关词与图像子区域对之间的重要程度,当γ2→∞,
Figure BDA00023881159300000415
就接近于
Figure BDA0002388115930000051
对一批图像-文本对
Figure BDA0002388115930000052
来说,
Figure BDA0002388115930000053
与Qi匹配的后验概率为:
Figure BDA0002388115930000054
其中,γ3为平滑因子;
图像与其匹配的文本描述
Figure BDA0002388115930000055
的损失函数定义为:
Figure BDA0002388115930000056
上述方案中,所述步骤四中,
生成器模型的损失函数计算如下:
Figure BDA0002388115930000057
判识器模型的损失函数计算如下:
Figure BDA0002388115930000058
其中,λ,λ1,λ2,λ3,λ4为影响系数;
将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态,此时训练模型中的参数达到最优。
通过上述技术方案,本发明提供的基于文本生成图像的方法具有如下有益效果:
(1)可以根据复杂的文本描述生成图像。
(2)在生成图像的过程中通过添加对象路径和全局路径的操作,得到图像更细粒度的特征,提高了生成图像的质量。
(3)最后根据生成的图像与文本的词联系起来,也提高了最终的图像质量。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种基于文本生成图像的方法,具体实施方式如下:
步骤一,准备生成器模型和判识器模型的训练数据集;
训练数据集包括图像中对象的标注信息和每张图片的标题
Figure BDA0002388115930000061
对标题
Figure BDA0002388115930000062
中出现的对象类别用向量σi表示,i=0,1,2,...,n;图像中每一个对象的特征向量,用ρ来表示,ρ初始化时为空向量;生成器模型和判识器模型的参数分别为θG和θD
步骤二,保持判识器模型参数为初始状态,训练生成器模型,生成器模型由并行网络分别根据对象路径和全局路径生成图像,在生成图像的过程中以学习率αg不断更新生成器模型参数θG,并计算生成器模型的损失函数;
对给定图像的描述标题
Figure BDA0002388115930000063
经双向长短记忆网络处理,提取文本特征得到文本中所有词的特征矩阵e,e∈RD×T,ei表示矩阵第i个词对应的特征向量,D表示词向量的维度,T代表词文本中词的数量;
在双向长短记忆网络的最后一个隐藏层将所有词向量串联起来得到
Figure BDA0002388115930000064
的标题向量
Figure BDA0002388115930000065
Figure BDA0002388115930000066
将图像的标题向量
Figure BDA0002388115930000067
标题中的对象类别标签σi以及随机的样本噪声向量z进行串联得到向量a,其中z服从正态分布;a经非线性全连接层处理得到σi的条件标签li
根据对象路径生成图像的过程如下:
在空间上将li复制为4×4分辨率大小的图像
Figure BDA0002388115930000068
Figure BDA0002388115930000069
经过多层卷积和上采样操作后生成
Figure BDA00023881159300000610
大小的图像,并为图像中给定的对象σi生成特征;采用空间变换网络将该对象生成的特征转化到ρ中,并定位到对应的边界框位置;重复其他对象的操作,直到标题
Figure BDA00023881159300000611
中出现的其他对象出现在
Figure BDA00023881159300000612
图像中,并对应各自的对象边界位置;
根据全局路径生成图像的过程如下:
全局路径获取各个对象的位置和标签,首先在空间尺度为16×16大小的图像上对各个对象的边界框复制对象的标签,应用卷积操作,根据各个对象的位置和标签获取图像的布局编码特征,将布局编码特征、
Figure BDA00023881159300000613
和z连接起来,生成在4×4空间分辨率下的图像
Figure BDA00023881159300000614
的全局特征,同样经多个卷积层和上采样操作后得到图像
Figure BDA00023881159300000615
结合
Figure BDA00023881159300000616
Figure BDA00023881159300000617
二者的信息,沿着通道轴的方向将各特征连接起来,同样经过卷积和上采样操作最终生成I64×64的图像;
生成器模型的损失函数为:
(a)无条件损失,指根据向量z生成图像得到的损失,决定生成图像的真假;
Figure BDA00023881159300000618
(b)有条件损失,指根据li生成图像得到的损失,决定生成图像与标题
Figure BDA00023881159300000619
的关系;
Figure BDA0002388115930000071
其中,i=1,2,3,
Figure BDA0002388115930000072
表示第i个生成器模型生成的图像分布PGi
Figure BDA0002388115930000073
步骤三,固定生成器模型参数,训练判识器模型,判识器模型从对象路径和全局路径两个方面并行操作图像提取特征,根据生成器模型生成的图像
Figure BDA0002388115930000074
以及训练数据集中的样本图像x以学习率αd不断学习更新判识器模型参数θD,进而判断图像的真伪,并计算判识器模型的损失函数;
判识器模型从对象路径和全局路径两个方面并行操作图像提取特征;对象路径使用空间变换网络提取对象σi所处边界框位置的特征,提取的特征转换为空间分辨率尺寸大小为x/4的图像,x为判识器模型输入的图像尺寸大小,然后沿着通道轴与该对象σi表示的具有相同特征维度的向量连接起来,经过多个卷积层操作之后,将提取的各个对象特征添加到边界框位置对应的ρ中;
判识器的全局路径工作在整张图像中,不断对图像降低其空间分辨率,一旦达到同ρ具有相同的维度,沿着通道轴连接两个向量,继续进行降采样,直到达到分辨率4×4的图像大小,模型输出的结果为0,代表输出
Figure BDA0002388115930000075
为假样本,输出1代表
Figure BDA0002388115930000076
为真样本。
判识器模型的损失函数由以下部分组成:
(a)无条件损失
Figure BDA0002388115930000077
(b)条件损失
Figure BDA0002388115930000078
(c)类标签损失
Figure BDA0002388115930000079
(d)图像中的对象损失
Figure BDA00023881159300000710
其中i=1,2,3,x来自真实的样本分布Pdata
Figure BDA00023881159300000711
来自生成样本分布PG。
步骤四,为了生成更高分辨率的图像,再增加2个生成器模型和2个判识器模型。随着硬件的计算能力不断提高,可以增加不同的数量。
在第一生成器模型生成分辨率为64×64大小图像的基础上,重复步骤二和步骤三的操作,交替训练更新生成器模型参数θG和判识器模型参数θD,第二生成器模型生成分辨率为128×128大小的图像,第三生成器模型生成分辨率为256×256大小的图像。
步骤五,将生成的图像输入到卷积神经网络CNN中,获得整张图像与其匹配的文本描述的损失函数。
将最后生成的分辨率256×256大小尺寸的图像调整为300×300,输入到卷积神经网络CNN中,CNN中间层提取图像的局部特征矩阵f∈RM×N;f的每一列表示图像子区域的特征向量,M为局部特征向量的维度,N代表图像被划分为子区域的数量;CNN网络的最后一个平均池化层提取图像的全局特征向量
Figure BDA0002388115930000081
在平均池化层之后通过增加一个感知层将图像特征转化为文本特征的公共语义空间,用如下公式描述:
Figure BDA0002388115930000082
其中,
Figure BDA0002388115930000083
vi的第i列表示图像第i个子区域的特征向量;
Figure BDA0002388115930000084
表示整张图像的全局向量,D1表示图像-标题之间的特征空间,N代表图像中子区域的数量;W表示系数矩阵,
Figure BDA0002388115930000085
表示系数矩阵的特征矩阵;
计算
Figure BDA0002388115930000086
中所有可能的单词对和图像中子区域的相似矩阵:s=eTv,s∈RT×N,T表示
Figure BDA0002388115930000087
中词的数量,si,j表示
Figure BDA0002388115930000088
中第i个词和图像第j个子区域之间的相似关系,对s归一化可得:
Figure BDA0002388115930000089
ci是与第i个词相关的图像的子区域的动态表示:
Figure BDA00023881159300000810
其中,
Figure BDA00023881159300000811
γ1是一个决定相关子区域特征关注程度的参数;
第i个词与图像的相关性定义为:
Figure BDA0002388115930000091
由此可得整张图像Q和
Figure BDA0002388115930000092
的匹配程度表示为:
Figure BDA0002388115930000093
其中,γ2表示最相关词与图像子区域对之间的重要程度,当γ2→∞,
Figure BDA0002388115930000094
就接近于
Figure BDA0002388115930000095
对一批图像-文本对
Figure BDA0002388115930000096
来说,
Figure BDA0002388115930000097
与Qi匹配的后验概率为:
Figure BDA0002388115930000098
其中,γ3为平滑因子;
图像与其匹配的文本描述
Figure BDA0002388115930000099
的损失函数定义为:
Figure BDA00023881159300000910
步骤六,将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态。
生成器模型的损失函数计算如下:
Figure BDA00023881159300000911
判识器模型的损失函数计算如下:
Figure BDA00023881159300000912
其中,λ,λ1,λ2,λ3,λ4为影响系数;
将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态,此时训练模型中的参数达到最优。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于文本生成图像的方法,其特征在于,包括如下步骤:
步骤一,准备生成器模型和判识器模型的训练数据集;
步骤二,保持判识器模型参数为初始状态,训练生成器模型,生成器模型由并行网络分别根据对象路径和全局路径生成图像,在生成图像的过程中以学习率αg不断更新生成器模型参数θG,并计算生成器模型的损失函数;
步骤三,固定生成器模型参数,训练判识器模型,判识器模型从对象路径和全局路径两个方面并行操作图像提取特征,根据生成器模型生成的图像
Figure FDA0002388115920000011
以及训练数据集中的样本图像x以学习率αd不断学习更新判识器模型参数θD,进而判断图像的真伪,并计算判识器模型的损失函数;
步骤四,将生成的图像输入到卷积神经网络CNN中,获得整张图像与其匹配的文本描述的损失函数;
步骤五,将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态。
2.根据权利要求1所述的一种基于文本生成图像的方法,其特征在于,为了生成更高分辨率的图像,再增加2个生成器模型和2个判识器模型,在第一生成器模型生成分辨率为64×64大小图像的基础上,重复步骤二和步骤三的操作,交替训练更新生成器模型参数θG和判识器模型参数θD,第二生成器模型生成分辨率为128×128大小的图像,第三生成器模型生成分辨率为256×256大小的图像。
3.根据权利要求2所述的一种基于文本生成图像的方法,其特征在于,所述步骤一具体如下:
训练数据集包括图像中对象的标注信息和每张图片的标题
Figure FDA0002388115920000012
对标题
Figure FDA0002388115920000013
中出现的对象类别用向量σi表示,i=0,1,2,...,n;图像中每一个对象的特征向量,用ρ来表示,ρ初始化时为空向量;生成器模型和判识器模型的参数分别为θG和θD
4.根据权利要求3所述的一种基于文本生成图像的方法,其特征在于,所述步骤二中生成器模型的训练过程如下:
对给定图像的描述标题
Figure FDA0002388115920000014
经双向长短记忆网络处理,提取文本特征得到文本中所有词的特征矩阵e,e∈RD×T,ei表示矩阵第i个词对应的特征向量,D表示词向量的维度,T代表词文本中词的数量;
在双向长短记忆网络的最后一个隐藏层将所有词向量串联起来得到
Figure FDA0002388115920000015
的标题向量
Figure FDA0002388115920000016
Figure FDA0002388115920000021
将图像的标题向量
Figure FDA0002388115920000022
标题中的对象类别标签σi以及随机的样本噪声向量z进行串联得到向量a,其中z服从正态分布;a经非线性全连接层处理得到σi的条件标签li
5.根据权利要求4所述的一种基于文本生成图像的方法,其特征在于,所述步骤二中,
根据对象路径生成图像的过程如下:
在空间上将li复制为4×4分辨率大小的图像
Figure FDA0002388115920000023
Figure FDA0002388115920000024
经过多层卷积和上采样操作后生成
Figure FDA0002388115920000025
大小的图像,并为图像中给定的对象σi生成特征;采用空间变换网络将该对象生成的特征转化到ρ中,并定位到对应的边界框位置;重复其他对象的操作,直到标题
Figure FDA0002388115920000026
中出现的其他对象出现在
Figure FDA0002388115920000027
图像中,并对应各自的对象边界位置;
根据全局路径生成图像的过程如下:
全局路径获取各个对象的位置和标签,首先在空间尺度为16×16大小的图像上对各个对象的边界框复制对象的标签,应用卷积操作,根据各个对象的位置和标签获取图像的布局编码特征,将布局编码特征、
Figure FDA0002388115920000028
和z连接起来,生成在4×4空间分辨率下的图像
Figure FDA0002388115920000029
的全局特征,同样经多个卷积层和上采样操作后得到图像
Figure FDA00023881159200000210
结合
Figure FDA00023881159200000211
Figure FDA00023881159200000212
二者的信息,沿着通道轴的方向将各特征连接起来,同样经过卷积和上采样操作最终生成I64×64的图像;
生成器模型的损失函数为:
(a)无条件损失,指根据向量z生成图像得到的损失,决定生成图像的真假;
Figure FDA00023881159200000213
(b)有条件损失,指根据li生成图像得到的损失,决定生成图像与标题
Figure FDA00023881159200000214
的关系;
Figure FDA00023881159200000215
其中,i=1,2,3,
Figure FDA00023881159200000216
表示第i个生成器模型生成的图像分布PGi
Figure FDA00023881159200000217
6.根据权利要求5所述的一种基于文本生成图像的方法,其特征在于,所述步骤三中判识器模型的训练过程如下:
判识器模型从对象路径和全局路径两个方面并行操作图像提取特征;对象路径使用空间变换网络提取对象σi所处边界框位置的特征,提取的特征转换为空间分辨率尺寸大小为x/4图像,x为判识器模型输入的图像尺寸大小,然后沿着通道轴与该对象σi表示的具有相同特征维度的向量连接起来,经过多个卷积层操作之后,将提取的各个对象特征添加到边界框位置对应的ρ中;
判识器的全局路径工作在整张图像中,不断对图像降低其空间分辨率,一旦达到同ρ具有相同的维度,沿着通道轴连接两个向量,继续进行降采样,直到达到分辨率4×4的图像大小,模型输出的结果为0,代表输出
Figure FDA0002388115920000031
为假样本,输出1代表
Figure FDA0002388115920000032
为真样本。
7.根据权利要求6所述的一种基于文本生成图像的方法,其特征在于,所述步骤三中判识器模型的损失函数由以下部分组成:
(a)无条件损失
Figure FDA0002388115920000033
(b)条件损失
Figure FDA0002388115920000034
(c)类标签损失
Figure FDA0002388115920000035
(d)图像中的对象损失
Figure FDA0002388115920000036
其中i=1,2,3,x来自真实的样本分布Pdata
Figure FDA0002388115920000037
来自生成样本分布PG。
8.根据权利要求7所述的一种基于文本生成图像的方法,其特征在于,所述步骤四的具体方法如下:
将最后生成的分辨率256×256大小尺寸的图像调整为300×300,输入到卷积神经网络CNN中,CNN中间层提取图像的局部特征矩阵f∈RM×N;f的每一列表示图像子区域的特征向量,M为局部特征向量的维度,N代表图像被划分为子区域的数量;CNN网络的最后一个平均池化层提取图像的全局特征向量
Figure FDA0002388115920000038
在平均池化层之后通过增加一个感知层将图像特征转化为文本特征的公共语义空间,用如下公式描述:
Figure FDA0002388115920000039
其中,
Figure FDA00023881159200000310
vi的第i列表示图像第i个子区域的特征向量;
Figure FDA00023881159200000311
表示整张图像的全局向量,D1表示图像-标题之间的特征空间,N代表图像中子区域的数量;W表示系数矩阵,
Figure FDA0002388115920000041
表示系数矩阵的特征矩阵;
计算
Figure FDA0002388115920000042
中所有可能的单词对和图像中子区域的相似矩阵:s=eTv,s∈RT×N,T表示
Figure FDA0002388115920000043
中词的数量,si,j表示
Figure FDA0002388115920000044
中第i个词和图像第j个子区域之间的相似关系,对s归一化可得:
Figure FDA0002388115920000045
ci是与第i个词相关的图像的子区域的动态表示:
Figure FDA0002388115920000046
其中,
Figure FDA0002388115920000047
γ1是一个决定相关子区域特征关注程度的参数;
第i个词与图像的相关性定义为:
Figure FDA0002388115920000048
由此可得整张图像Q和
Figure FDA0002388115920000049
的匹配程度表示为:
Figure FDA00023881159200000410
其中,γ2表示最相关词与图像子区域对之间的重要程度,当γ2→∞,
Figure FDA00023881159200000411
就接近于
Figure FDA00023881159200000412
对一批图像-文本对
Figure FDA00023881159200000413
来说,
Figure FDA00023881159200000414
与Qi匹配的后验概率为:
Figure FDA00023881159200000415
其中,γ3为平滑因子;
图像与其匹配的文本描述
Figure FDA00023881159200000416
的损失函数定义为:
Figure FDA00023881159200000417
9.根据权利要求8所述的一种基于文本生成图像的方法,其特征在于,所述步骤五中,
生成器模型的损失函数计算如下:
Figure FDA0002388115920000051
判识器模型的损失函数计算如下:
Figure FDA0002388115920000052
其中,λ,λ1,λ2,λ3,λ4为影响系数;
将整个训练网络不断迭代N次,直到生成器模型的损失函数和和判识器模型的损失函数达到平衡状态,此时训练模型中的参数达到最优。
CN202010104619.2A 2020-02-20 2020-02-20 一种基于文本生成图像的方法 Active CN111339734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010104619.2A CN111339734B (zh) 2020-02-20 2020-02-20 一种基于文本生成图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010104619.2A CN111339734B (zh) 2020-02-20 2020-02-20 一种基于文本生成图像的方法

Publications (2)

Publication Number Publication Date
CN111339734A true CN111339734A (zh) 2020-06-26
CN111339734B CN111339734B (zh) 2023-06-30

Family

ID=71183489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010104619.2A Active CN111339734B (zh) 2020-02-20 2020-02-20 一种基于文本生成图像的方法

Country Status (1)

Country Link
CN (1) CN111339734B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101330A (zh) * 2020-11-20 2020-12-18 北京沃东天骏信息技术有限公司 图像处理方法、装置、电子设备以及存储介质
CN113140019A (zh) * 2021-05-13 2021-07-20 电子科技大学 一种基于融合弥补生成对抗网络的文本生成图像的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178596A1 (en) * 2013-12-20 2015-06-25 Google Inc. Label Consistency for Image Analysis
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
US10325201B1 (en) * 2019-01-31 2019-06-18 StradVision, Inc. Method and device for generating deceivable composite image by using GAN including generating neural network and discriminating neural network to allow surveillance system to recognize surroundings and detect rare event more accurately
CN110163267A (zh) * 2019-05-09 2019-08-23 厦门美图之家科技有限公司 一种图像生成模型的训练方法和生成图像的方法
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110751698A (zh) * 2019-09-27 2020-02-04 太原理工大学 一种基于混和网络模型的文本到图像的生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178596A1 (en) * 2013-12-20 2015-06-25 Google Inc. Label Consistency for Image Analysis
CN109522966A (zh) * 2018-11-28 2019-03-26 中山大学 一种基于密集连接卷积神经网络的目标检测方法
US10325201B1 (en) * 2019-01-31 2019-06-18 StradVision, Inc. Method and device for generating deceivable composite image by using GAN including generating neural network and discriminating neural network to allow surveillance system to recognize surroundings and detect rare event more accurately
CN110163267A (zh) * 2019-05-09 2019-08-23 厦门美图之家科技有限公司 一种图像生成模型的训练方法和生成图像的方法
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110751698A (zh) * 2019-09-27 2020-02-04 太原理工大学 一种基于混和网络模型的文本到图像的生成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101330A (zh) * 2020-11-20 2020-12-18 北京沃东天骏信息技术有限公司 图像处理方法、装置、电子设备以及存储介质
CN112101330B (zh) * 2020-11-20 2021-04-30 北京沃东天骏信息技术有限公司 图像处理方法、装置、电子设备以及存储介质
CN113140019A (zh) * 2021-05-13 2021-07-20 电子科技大学 一种基于融合弥补生成对抗网络的文本生成图像的方法
CN113140019B (zh) * 2021-05-13 2022-05-31 电子科技大学 一种基于融合弥补生成对抗网络的文本生成图像的方法

Also Published As

Publication number Publication date
CN111339734B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN109344288B (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110706302B (zh) 一种文本合成图像的系统及方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
WO2021143396A1 (zh) 利用文本分类模型进行分类预测的方法及装置
CN111046900A (zh) 基于局部流形正则化的半监督生成对抗网络图像分类方法
CN111325660B (zh) 一种基于文本数据的遥感图像风格转换方法
CN115222998B (zh) 一种图像分类方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN115761314A (zh) 一种基于提示学习的电商图文分类方法及系统
CN111339734A (zh) 一种基于文本生成图像的方法
CN115203409A (zh) 一种基于门控融合和多任务学习的视频情感分类方法
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
Zakraoui et al. Improving text-to-image generation with object layout guidance
CN115512096A (zh) 基于CNN与Transformer的低分辨率图像分类方法及系统
CN117478978B (zh) 一种文本生成电影视频片段的方法、系统和设备
Wang et al. Swin-GAN: generative adversarial network based on shifted windows transformer architecture for image generation
Zhu et al. PBGN: Phased bidirectional generation network in text-to-image synthesis
CN114022582A (zh) 一种文本生成图像方法
CN117011515A (zh) 基于注意力机制的交互式图像分割模型及其分割方法
Zhuo Face recognition from a single image per person using deep architecture neural networks
US20230262293A1 (en) Video synthesis via multimodal conditioning
Abdelaziz et al. Few-shot learning with saliency maps as additional visual information
Hu et al. Learning to adapt CLIP for few-shot monocular depth estimation
CN113421314B (zh) 一种基于生成对抗网络的多尺度双模态文本生成图像方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant