CN111340907A - 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 - Google Patents

一种自适应属性和实例掩码嵌入图的文本到图像生成方法 Download PDF

Info

Publication number
CN111340907A
CN111340907A CN202010139353.5A CN202010139353A CN111340907A CN 111340907 A CN111340907 A CN 111340907A CN 202010139353 A CN202010139353 A CN 202010139353A CN 111340907 A CN111340907 A CN 111340907A
Authority
CN
China
Prior art keywords
image
instance
resolution
mask
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010139353.5A
Other languages
English (en)
Inventor
倪建成
张素素
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qufu Normal University
Original Assignee
Qufu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qufu Normal University filed Critical Qufu Normal University
Priority to CN202010139353.5A priority Critical patent/CN111340907A/zh
Publication of CN111340907A publication Critical patent/CN111340907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种自适应属性和实例掩码嵌入图的文本到图像生成方法,包括根据输入的文本使用边框回归网络来获得64×64、128×128及256×256语义布局;根据64×64语义布局、句嵌入向量和随机噪声,在低分辨率生成器中生成粗粒度的图像潜在特征及低分辨率64×64图像;根据128×128语义布局,在第一高分辨率生成器中形成像素级特征向量;根据128×128语义布局、粗粒度的图像潜在特征及像素级特征向量,在第一高分辨率生成器中生成第一细粒度的图像潜在特征及高分辨率128×128图像;根据256×256语义布局、第一细粒度的图像潜在特征及像素级特征向量,在第二高分辨率生成器中生成高分辨率的256×256图像。实施本发明,让图像不仅分辨率高、满足实例形状约束,而且属性特征与描述一致。

Description

一种自适应属性和实例掩码嵌入图的文本到图像生成方法
技术领域
本发明涉及计算机视觉图像生成技术领域,尤其涉及一种自适应属性和实例掩码嵌入图的文本到图像生成方法。
背景技术
近年来,深度学习在文本-图像生成领域已取得较好的成果。生成对抗网络(GAN)作为最常用的生成模型,联合学习生成器和判别器;其中,生成器主要用于学习像素分布并生成逼真的图像,而判别器需鉴别生成图像的真假,两者不断对抗更新以达到最终的纳什平衡。
生成对抗网络有多种输入类型,如随机噪声、语义分割图、素描图、图像对、场景图、文本等;其中,文本是最简单且最易操作的输入形式,越来越多的研究人员也趋向于文本-图像生成,但当文本描述中存在复杂多样的对象和场景时,由于缺乏语义布局作为中间表示,导致生成图像的质量会急剧下降。
现有的文本-图像生成技术使用多级生成策略,对初步生成的低分辨率图像逐步优化来合成高分辨率图像。此外,边框回归网络可根据输入的嵌入向量预测目标的位置和大小,已被用于Fast R-CNN中的目标检测,定位的目标可用四元组(x,y,w,h)表示其坐标和宽高。
但是,现有的文本-图像生成方法的输入大多是句向量,缺乏词级别的细粒度信息,合成的图像缺少实例级别的纹理特征。此外,在图像生成过程中,生成器容易忽略不同实例之间的空间交互关系,缺乏实例形状掩码约束,合成的图像出现了实例形状不合理,像素重叠和遮挡等问题;同时,句子级别的判别器只能提供粗粒度的训练反馈信息,难以判别词级的实例视觉属性,导致生成模型倾向于合成对象的“平均”模式,而非最相关的属性特征,无法合成真实而准确的高分辨率图像。
因此,亟需一种新的文本-图像生成方法,能克服整个句子的复杂性和歧义性,使生成器能学习到实例的细粒度特征以及判别器能提供准确的属性反馈信息,让生成的图像不仅分辨率高、满足实例形状约束,而且属性特征与描述一致。
发明内容
本发明实施例所要解决的技术问题在于,提供一种自适应属性和实例掩码嵌入图的文本到图像生成方法,能克服整个句子的复杂性和歧义性,使生成器能学习到实例的细粒度特征以及判别器能提供准确的属性反馈信息,让生成的图像不仅分辨率高、满足实例形状约束,而且属性特征与描述一致。
为了解决上述技术问题,本发明实施例提供了一种自适应属性和实例掩码嵌入图的文本到图像生成方法,所述方法包括以下步骤:
根据输入的文本,使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息,并整合所有实例生成的边界框的位置和标签信息,得到64×64、128×128及256×256语义布局;
根据64×64语义布局、句嵌入向量和随机噪声,在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像;
根据128×128语义布局,在第一高分辨率生成器中通过预设的掩码回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图,并在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码,得到每一个实例的上下文向量,且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合,形成像素级特征向量;
根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量,在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像;
根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量,在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像。
其中,所述使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息的步骤具体包括:
首先,使用预训练的Bi-LSTM作为文本编码器,将所述文本编码为词向量和一个句向量
Figure BDA0002398504690000031
其中,每个词均有两个隐藏状态,且每个词的两个隐藏状态级联,得到所有单词的一个特征矩阵;所述特征矩阵的每一列均代表每一个单词的特征向量;同时连接Bi-LSTM两个方向最后的隐层状态来获得句向量;
其次,采用LSTM作为解码器来得到每个单词对应的实例类标签lt、坐标信息bt,具体为:
Figure BDA0002398504690000032
类别标签lt使用softmax函数计算,bt采用高斯混合模型建模:
Figure BDA0002398504690000033
Figure BDA0002398504690000034
其中,et表示概率分布向量,
Figure BDA0002398504690000035
Figure BDA0002398504690000036
表示高斯混合模型中的参数,et和GMM参数均根据LSTM每个单元的第t步输出来计算,k是混合单元的数量;
最后,根据所述每个单词对应的实例类标签lt、坐标信息bt,得到每个单词对应实例的标签信息Bt=(bt,lt),并根据所述每个单词对应实例的标签信息Bt=(bt,lt),分别得到在64×64、128×128及256×256语义布局中每个实例边界框的位置;其中,
Figure BDA0002398504690000037
四元组
Figure BDA0002398504690000038
中(x,y,w,h)表示其坐标和宽高。
其中,所述根据64×64语义布局、句嵌入向量和随机噪声,在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像的步骤具体包括:
在低分辨率生成器中对64×64语义布局下采样,得到第一布局编码μ0,并将所述第一布局编码、句嵌入向量和随机噪声送入预设的第一残差块后再进行上采样,得到粗粒度的图像潜在特征;
将所述粗粒度的图像潜在特征导入3×3卷积神经网络中,输出低分辨率的64×64图像。
其中,所述根据128×128语义布局,在第一高分辨率生成器中通过所述预设的边框回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图的步骤具体包括:
在第一高分辨率生成器中,采用预设的掩码回归网络将128×128语义布局中每一个实例的标签信息均编码为二进制张量,并通过下采样来获得每一个实例的特征编码;
将所述每一个实例的特征编码均送入预设的Bi-LSTM并级联随机噪声中,并在当且仅当每一个实例的边框包含相关的类标签时,将每一个实例的二进制张量均设为1并进行掩码表示,得到每一个实例的二进制张量的掩码特征;
将所有每一个实例的二进制张量的掩码特征输入预设的第二残差块后再进行上采样,映射形成全局实例掩码图,且进一步将所述全局实例掩码图进行裁剪操作,得到每一个实例的掩码嵌入图。
其中,所述在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码,得到每一个实例的上下文向量,且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合,形成像素级特征向量的步骤具体包括:
首先,根据低分辨率的64×64图像子区域向量,在第一高分辨率生成器中从128×128语义布局中检索包含细节信息的相关实例向量,并为每个实例向量V't分配注意力权重wt,然后计算输入信息的权重和,得到每一个实例的上下文向量:
Figure BDA0002398504690000041
其中,
Figure BDA0002398504690000042
表示第t个对象的实例级别的上下文向量;
其次,根据所述每一个实例的上下文向量与其对应的掩码嵌入图,在第一高分辨率生成器中采用最大池化为每一个实例的上下文向量选择最相关的像素级特征向量:
Figure BDA0002398504690000051
其中,
Figure BDA0002398504690000052
表示向量外积,V表示像素级特征向量。
其中,所述根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量,在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像的步骤具体包括:
在第一高分辨率生成器中对128×128语义布局下采样,得到第一布局编码μ1,并将所述第二布局编码、所述粗粒度的图像潜在特征及所述像素级特征向量送入预设的第三残差块后再进行上采样,得到第一细粒度的图像潜在特征;
将所述第一粒度的图像潜在特征导入3×3卷积神经网络中,输出高分辨率的128×128图像。
其中,所述根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量,在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像的步骤具体包括:
在第二高分辨率生成器中对256×256语义布局下采样,得到第三布局编码μ2,并将所述第三布局编码、所述第一细粒度的图像潜在特征及所述像素级特征向量送入预设的第四残差块后再进行上采样,得到第二细粒度的图像潜在特征;
将所述第二粒度的图像潜在特征导入3×3卷积神经网络中,输出高分辨率的256×256图像。
其中,所述低分辨率的64×64图像、高分辨率的128×128图像及高分辨率的256×256图像均采用词级自适应属性的判别器进行对抗训练;
其中,每一个词级自适应属性的判别器均能判断生成的图像是否包含每一个属性描述,并为生成器提供反馈信号,指导其生成包含准确属性特征的图像。
其中,每一个词级自适应属性的判别器可表示为
Figure BDA0002398504690000053
其中,T表示输入文本中单词的总数,γtn是softmax函数的权重,αt,n是对第n层图像特征中第t个词分配的注意力权重。
实施本发明实施例,具有如下有益效果:
1、本发明将生成对抗网络中的高分辨率生成器结合实例掩码嵌入和实例级别的注意力机制,解决生成像素间的重叠问题并获取细节特征,将判别器设计为词级别且能自适应属性,通过多阶段合成策略来提高生成图像的分辨率和准确度;
2、本发明结合实例掩码嵌入的高分辨率生成器,对低分辨率生成器从语义布局生成的全局图像进行优化,解析实例类别和特征信息,生成包含纹理细节、清晰且高质量图像;
3、本发明采用自适应属性的判别器,独立地对每个属性进行判断,并为高分辨率生成器提供准确的反馈信息,指导其合成与文本匹配的视觉属性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法的流程图;
图2为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中文本推理语义布局的应用场景图;
图3为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中采用低分辨率生成器生成64×64图像的应用场景图;
图4为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中采用第一高分辨率生成器生成全局实例掩码图的应用场景图;
图5为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中采用第一高分辨率生成器生成128×128图像的应用场景图;
图6为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中从文本到图像生成的训练模型结构示意图;
图7为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中词级自适应属性的判别器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提供的一种自适应属性和实例掩码嵌入图的文本到图像生成方法,所述方法包括以下步骤:
步骤S1、根据输入的文本,使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息,并整合所有实例生成的边界框的位置和标签信息,得到64×64、128×128及256×256语义布局;
具体过程为,如图2所示,首先使用预训练的Bi-LSTM作为文本编码器,将文本编码为词向量和一个句向量
Figure BDA0002398504690000077
其中,每个词均有两个隐藏状态,且每个词的两个隐藏状态级联,得到所有单词的一个特征矩阵;该特征矩阵的每一列均代表每一个单词的特征向量;同时连接Bi-LSTM两个方向最后的隐层状态来获得句向量
Figure BDA0002398504690000071
其次,采用LSTM作为解码器来得到每个单词对应的实例类标签lt、坐标信息bt,具体为:
Figure BDA0002398504690000072
类别标签lt使用softmax函数计算,bt采用高斯混合模型建模:
Figure BDA0002398504690000073
Figure BDA0002398504690000074
其中,et表示概率分布向量,
Figure BDA0002398504690000075
Figure BDA0002398504690000076
表示高斯混合模型中的参数,et和GMM参数均根据LSTM每个单元的第t步输出来计算,k是混合单元的数量;
最后,根据每个单词对应的实例类标签lt、坐标信息bt,得到每个单词对应实例的标签信息Bt=(bt,lt),并根据每个单词对应实例的标签信息Bt=(bt,lt),分别得到在64×64、128×128及256×256语义布局中每个实例边界框的位置;其中,
Figure BDA0002398504690000081
四元组
Figure BDA0002398504690000082
中(x,y,w,h)表示其坐标和宽高。
步骤S2、根据64×64语义布局、句嵌入向量和随机噪声,在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像;
具体过程为,如图3所示,在低分辨率生成器G0中对64×64语义布局L0下采样,得到第一布局编码μ0,并将第一布局编码μ0、句嵌入向量
Figure BDA0002398504690000083
和随机噪声z送入残差块(如预设的第一残差块)后再进行上采样,得到粗粒度的图像潜在特征y0
将粗粒度的图像潜在特征y0导入3×3卷积神经网络中,输出低分辨率的64×64图像I0;其中,
Figure BDA0002398504690000084
I0=G0(y0),F0被建模为神经网络。
步骤S3、根据128×128语义布局,在第一高分辨率生成器中通过预设的掩码回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图,并在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码,得到每一个实例的上下文向量,且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合,形成像素级特征向量;
具体过程为,如图4所示,在第一高分辨率生成器G1中,采用预设的掩码回归网络将128×128语义布局L1中每一个实例的标签信息Bt均编码为二进制张量Bt∈{0,1}h×w×l,并通过下采样(如由3×3卷积、批量归一化和ReLU激活函数构成的采样块)来获得每一个实例的特征编码;
将每一个实例的特征编码均送入预设的Bi-LSTM并级联随机噪声z中,并在当且仅当每一个实例的边框包含相关的类标签时,将每一个实例的二进制张量Bt均设为1并进行掩码表示,得到每一个实例的二进制张量Bt的掩码特征;应当说明的是,除了每一个实例的二进制张量Bt在当且仅当每一个实例的边框包含相关的类标签时设为1并进行掩码表示,其它部分均设为0,使得该掩码的所有元素均在(0,1)之间;
将所有每一个实例的二进制张量Bt的掩码特征输入残差块(如预设的第二残差块)后再进行上采样(如由4×4反卷积层、批量归一化和ReLU激活函数构成的采样块),映射形成全局实例掩码图
Figure BDA0002398504690000091
使第一高分辨率生成器G1能合成满足形状特征约束的细粒度图像;
进一步将全局实例掩码图Pglobal进行裁剪操作,得到每一个实例的掩码嵌入图Pt;其中,t表示实例。
步骤S4、根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量,在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像;
具体过程为,由于高分辨率生成器G1需沿着通道维度对128×128语义布局L1的各种上下文信息进行编码,所以利用实例级别的注意力机制来选取最相关的特征信息。
如图5所示,首先,根据低分辨率的64×64图像I0子区域向量Vsub,在第一高分辨率生成器G1中从128×128语义布局L1中检索包含细节信息的相关实例向量,并为每个实例向量V't分配注意力权重wt,然后计算输入信息的权重和,得到每一个实例的上下文向量:
Figure BDA0002398504690000092
其中,
Figure BDA0002398504690000093
表示第t个对象的实例级别的上下文向量;
其次,根据每一个实例的上下文向量
Figure BDA0002398504690000094
与其对应的掩码嵌入图Pt,在第一高分辨率生成器G1中采用最大池化为每一个实例的上下文向量
Figure BDA0002398504690000095
选择最相关的像素级特征向量:
Figure BDA0002398504690000096
其中,
Figure BDA0002398504690000097
表示向量外积,V表示像素级特征向量。
然后,在第一高分辨率生成器G1中对128×128语义布局L1下采样,得到第一布局编码μ1,并将第二布局编码μ1、粗粒度的图像潜在特征y0及像素级特征向量V送入残差块(如预设的第三残差块)后再进行上采样,得到第一细粒度的图像潜在特征y1
最后,将第一粒度的图像潜在特征y1导入3×3卷积神经网络中,输出高分辨率的128×128图像I1
步骤S5、根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量,在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像。
具体过程为,在第二高分辨率生成器G2中对256×256语义布局L2下采样,得到第三布局编码μ2,并将第三布局编码μ2、第一细粒度的图像潜在特征y1及像素级特征向量V送入残差块(如预设的第四残差块)后再进行上采样,得到第二细粒度的图像潜在特征y2
将第二粒度的图像潜在特征y2导入3×3卷积神经网络中,输出高分辨率的256×256图像I2
应当说明的是,256×256图像I2的生成过程与128×128图像I1的生成过程相同,具体图例可参考图5所示。
在本发明实施例中,低分辨率的64×64图像I0、高分辨率的128×128图像I1及高分辨率的256×256图像I2均采用词级自适应属性的判别器
Figure BDA0002398504690000101
Figure BDA0002398504690000102
进行对抗训练,如图6所示;
其中,每一个词级自适应属性的判别器均能判断生成的图像是否包含每一个属性描述,并为生成器提供反馈信号,指导其生成包含准确属性特征的图像。
例如,如图7所示,给定生成的图像,自适应属性的判别器对其编码并输出图像特征,对所有的特征层进行全局平均池化,获得一维图像特征向量e;同时根据输入的文本计算词向量{w1,w2…,wT};然后将词向量分别喂入词级判别器。以第t个单词向量wt为例,使用一维sigmoid词级判别器
Figure BDA0002398504690000103
判断第n层图像特征是否包含与wt相关的视觉属性。词级判别器
Figure BDA0002398504690000104
为:
Figure BDA0002398504690000105
其中,σ表示sigmoid函数,en是第n层图像特征的一维特征向量,W(wt)和b(wt)表示偏置和权重矩阵。
为减少不重要单词对判别过程的影响,判别器使用词级别的注意力来表示单词和视觉属性之间的相关程度。通过注意力分布,每一个词级自适应属性的判别器可表示为:
Figure BDA0002398504690000111
其中,T表示输入文本中单词的总数,γtn是softmax函数的权重,αt,n是对第n层图像特征中第t个词分配的注意力权重。
应当说明的是,与句子级别的判别器相比,词级自适应属性的判别器能在不同阶段判断视觉属性的真实性并提供反馈,指导生成器合成与描述相关的属性特征。
在本发明实施例中,低分辨率的64×64图像I0、高分辨率的128×128图像I1及高分辨率的256×256图像I2所使用到的卷积神经网络中的完整目标损失函数为GAN交叉熵损失
Figure BDA0002398504690000112
和DAMSM损失
Figure BDA0002398504690000113
之和。然而,GAN交叉熵损失中,生成器和判别器都由无条件损失和有条件损失组成。
此时,生成器的目标损失函数定义为:
Figure BDA0002398504690000114
其中,第一项表示无条件损失,第二项表示有条件损失,I和x分别表示合成的图像和相应的文本。
此时,判别器的目标损失函数也包括无条件损失和有条件损失:
Figure BDA0002398504690000115
其中,Pdata表示真实图像的分布。
DAMSM损失由AttnGAN模型提出,被用来计算图像-文本的细粒度匹配损失。因此,完整目标损失函数为:
Figure BDA0002398504690000116
其中,λ1表示超参数,
Figure BDA0002398504690000121
是基于真实图像和相关文本描述预训练的深度注意力多模态相似模型损失。
实施本发明实施例,具有如下有益效果:
1、本发明将生成对抗网络中的高分辨率生成器结合实例掩码嵌入和实例级别的注意力机制,解决生成像素间的重叠问题并获取细节特征,将判别器设计为词级别且能自适应属性,通过多阶段合成策略来提高生成图像的分辨率和准确度;
2、本发明结合实例掩码嵌入的高分辨率生成器,对低分辨率生成器从语义布局生成的全局图像进行优化,解析实例类别和特征信息,生成包含纹理细节、清晰且高质量图像;
3、本发明采用自适应属性的判别器,独立地对每个属性进行判断,并为高分辨率生成器提供准确的反馈信息,指导其合成与文本匹配的视觉属性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (9)

1.一种自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,所述方法包括以下步骤:
根据输入的文本,使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息,并整合所有实例生成的边界框的位置和标签信息,得到64×64、128×128及256×256语义布局;
根据64×64语义布局、句嵌入向量和随机噪声,在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像;
根据128×128语义布局,在第一高分辨率生成器中通过预设的掩码回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图,并在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码,得到每一个实例的上下文向量,且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合,形成像素级特征向量;
根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量,在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像;
根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量,在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像。
2.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,所述使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息的步骤具体包括:
首先,使用预训练的Bi-LSTM作为文本编码器,将所述文本编码为词向量和一个句向量
Figure FDA0002398504680000011
其中,每个词均有两个隐藏状态,且每个词的两个隐藏状态级联,得到所有单词的一个特征矩阵;所述特征矩阵的每一列均代表每一个单词的特征向量;同时连接Bi-LSTM两个方向最后的隐层状态来获得句向量;
其次,采用LSTM作为解码器来得到每个单词对应的实例类标签lt、坐标信息bt,具体为:
Figure FDA0002398504680000021
类别标签lt使用softmax函数计算,bt采用高斯混合模型建模:
Figure FDA0002398504680000022
Figure FDA0002398504680000023
其中,et表示概率分布向量,
Figure FDA0002398504680000024
Figure FDA0002398504680000025
表示高斯混合模型中的参数,et和GMM参数均根据LSTM每个单元的第t步输出来计算,k是混合单元的数量;
最后,根据所述每个单词对应的实例类标签lt、坐标信息bt,得到每个单词对应实例的标签信息Bt=(bt,lt),并根据所述每个单词对应实例的标签信息Bt=(bt,lt),分别得到在64×64、128×128及256×256语义布局中每个实例边界框的位置;其中,
Figure FDA0002398504680000026
四元组
Figure FDA0002398504680000027
中(x,y,w,h)表示其坐标和宽高。
3.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,所述根据64×64语义布局、句嵌入向量和随机噪声,在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64×64图像的步骤具体包括:
在低分辨率生成器中对64×64语义布局下采样,得到第一布局编码μ0,并将所述第一布局编码、句嵌入向量和随机噪声送入预设的第一残差块后再进行上采样,得到粗粒度的图像潜在特征;
将所述粗粒度的图像潜在特征导入3×3卷积神经网络中,输出低分辨率的64×64图像。
4.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,所述根据128×128语义布局,在第一高分辨率生成器中通过所述预设的边框回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图的步骤具体包括:
在第一高分辨率生成器中,采用预设的掩码回归网络将128×128语义布局中每一个实例的标签信息均编码为二进制张量,并通过下采样来获得每一个实例的特征编码;
将所述每一个实例的特征编码均送入预设的Bi-LSTM并级联随机噪声中,并在当且仅当每一个实例的边框包含相关的类标签时,将每一个实例的二进制张量均设为1并进行掩码表示,得到每一个实例的二进制张量的掩码特征;
将所有每一个实例的二进制张量的掩码特征输入预设的第二残差块后再进行上采样,映射形成全局实例掩码图,且进一步将所述全局实例掩码图进行裁剪操作,得到每一个实例的掩码嵌入图。
5.如权利要求1中所述的自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,所述在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128×128语义布局的各种上下文信息进行编码,得到每一个实例的上下文向量,且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合,形成像素级特征向量的步骤具体包括:
首先,根据低分辨率的64×64图像子区域向量,在第一高分辨率生成器中从128×128语义布局中检索包含细节信息的相关实例向量,并为每个实例向量Vt′分配注意力权重wt,然后计算输入信息的权重和,得到每一个实例的上下文向量:
Figure FDA0002398504680000031
其中,
Figure FDA0002398504680000032
表示第t个对象的实例级别的上下文向量;
其次,根据所述每一个实例的上下文向量与其对应的掩码嵌入图,在第一高分辨率生成器中采用最大池化为每一个实例的上下文向量选择最相关的像素级特征向量:
Figure FDA0002398504680000033
其中,
Figure FDA0002398504680000034
表示向量外积,V表示像素级特征向量。
6.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,所述根据128×128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量,在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128×128图像的步骤具体包括:
在第一高分辨率生成器中对128×128语义布局下采样,得到第一布局编码μ1,并将所述第二布局编码、所述粗粒度的图像潜在特征及所述像素级特征向量送入预设的第三残差块后再进行上采样,得到第一细粒度的图像潜在特征;
将所述第一粒度的图像潜在特征导入3×3卷积神经网络中,输出高分辨率的128×128图像。
7.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,所述根据256×256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量,在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256×256图像的步骤具体包括:
在第二高分辨率生成器中对256×256语义布局下采样,得到第三布局编码μ2,并将所述第三布局编码、所述第一细粒度的图像潜在特征及所述像素级特征向量送入预设的第四残差块后再进行上采样,得到第二细粒度的图像潜在特征;
将所述第二粒度的图像潜在特征导入3×3卷积神经网络中,输出高分辨率的256×256图像。
8.如权利要求3、6-7中任一项所述的自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,所述低分辨率的64×64图像、高分辨率的128×128图像及高分辨率的256×256图像均采用词级自适应属性的判别器进行对抗训练;
其中,每一个词级自适应属性的判别器均能判断生成的图像是否包含每一个属性描述,并为生成器提供反馈信号,指导其生成包含准确属性特征的图像。
9.如权利要求8所述的自适应属性和实例掩码嵌入图的文本到图像生成方法,其特征在于,每一个词级自适应属性的判别器可表示为
Figure FDA0002398504680000051
其中,T表示输入文本中单词的总数,γtn是softmax函数的权重,αt,n是对第n层图像特征中第t个词分配的注意力权重。
CN202010139353.5A 2020-03-03 2020-03-03 一种自适应属性和实例掩码嵌入图的文本到图像生成方法 Pending CN111340907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010139353.5A CN111340907A (zh) 2020-03-03 2020-03-03 一种自适应属性和实例掩码嵌入图的文本到图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010139353.5A CN111340907A (zh) 2020-03-03 2020-03-03 一种自适应属性和实例掩码嵌入图的文本到图像生成方法

Publications (1)

Publication Number Publication Date
CN111340907A true CN111340907A (zh) 2020-06-26

Family

ID=71187491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010139353.5A Pending CN111340907A (zh) 2020-03-03 2020-03-03 一种自适应属性和实例掩码嵌入图的文本到图像生成方法

Country Status (1)

Country Link
CN (1) CN111340907A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858954A (zh) * 2020-06-29 2020-10-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
CN111968193A (zh) * 2020-07-28 2020-11-20 西安工程大学 一种基于StackGAN网络的文本生成图像方法
CN112001431A (zh) * 2020-08-11 2020-11-27 天津大学 一种基于梳状卷积的高效图像分类方法
CN112069868A (zh) * 2020-06-28 2020-12-11 南京信息工程大学 一种基于卷积神经网络的无人机实时车辆检测方法
CN112686506A (zh) * 2020-12-18 2021-04-20 海南电网有限责任公司电力科学研究院 基于多试验方法异步检测数据的配网设备综合评估方法
CN112734881A (zh) * 2020-12-01 2021-04-30 北京交通大学 基于显著性场景图分析的文本合成图像方法及系统
CN113191375A (zh) * 2021-06-09 2021-07-30 北京理工大学 一种基于联合嵌入的文本到多对象图像生成方法
CN113920313A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 图像处理方法、装置、电子设备及存储介质
WO2022007685A1 (en) * 2020-07-06 2022-01-13 Ping An Technology (Shenzhen) Co., Ltd. Method and device for text-based image generation
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114078172A (zh) * 2020-08-19 2022-02-22 四川大学 基于分辨率递进生成对抗网络的文本生成图像方法
CN114359741A (zh) * 2022-03-19 2022-04-15 江西财经大学 基于区域特征的图像描述模型注意力机制评价方法与系统
CN114610893A (zh) * 2021-03-19 2022-06-10 山东大学 基于深度学习的剧本到故事板序列自动生成方法及系统
CN114758202A (zh) * 2022-04-01 2022-07-15 山东大学 基于语义感知特征增强的短波红外舰船检测方法及系统
CN115393396A (zh) * 2022-08-18 2022-11-25 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法
CN115797495A (zh) * 2023-02-07 2023-03-14 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648197A (zh) * 2018-04-12 2018-10-12 天津大学 一种基于图像背景掩膜的目标候选区域提取方法
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统
US10467500B1 (en) * 2018-12-31 2019-11-05 Didi Research America, Llc Method and system for semantic segmentation involving multi-task convolutional neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN108648197A (zh) * 2018-04-12 2018-10-12 天津大学 一种基于图像背景掩膜的目标候选区域提取方法
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
US10467500B1 (en) * 2018-12-31 2019-11-05 Didi Research America, Llc Method and system for semantic segmentation involving multi-task convolutional neural network
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
倪建成等: "Instance Mask Embedding and Attribute-Adaptive Generative Adversarial Network for Text-to-Image Synthesis" *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069868A (zh) * 2020-06-28 2020-12-11 南京信息工程大学 一种基于卷积神经网络的无人机实时车辆检测方法
CN111858954A (zh) * 2020-06-29 2020-10-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
CN111858954B (zh) * 2020-06-29 2022-12-13 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向任务的文本生成图像网络模型
WO2022007685A1 (en) * 2020-07-06 2022-01-13 Ping An Technology (Shenzhen) Co., Ltd. Method and device for text-based image generation
CN111968193A (zh) * 2020-07-28 2020-11-20 西安工程大学 一种基于StackGAN网络的文本生成图像方法
CN111968193B (zh) * 2020-07-28 2023-11-21 西安工程大学 一种基于StackGAN网络的文本生成图像方法
CN112001431A (zh) * 2020-08-11 2020-11-27 天津大学 一种基于梳状卷积的高效图像分类方法
CN112001431B (zh) * 2020-08-11 2022-06-28 天津大学 一种基于梳状卷积的高效图像分类方法
CN114078172A (zh) * 2020-08-19 2022-02-22 四川大学 基于分辨率递进生成对抗网络的文本生成图像方法
CN114078172B (zh) * 2020-08-19 2023-04-07 四川大学 基于分辨率递进生成对抗网络的文本生成图像方法
CN112734881A (zh) * 2020-12-01 2021-04-30 北京交通大学 基于显著性场景图分析的文本合成图像方法及系统
CN112734881B (zh) * 2020-12-01 2023-09-22 北京交通大学 基于显著性场景图分析的文本合成图像方法及系统
CN112686506A (zh) * 2020-12-18 2021-04-20 海南电网有限责任公司电力科学研究院 基于多试验方法异步检测数据的配网设备综合评估方法
CN114610893A (zh) * 2021-03-19 2022-06-10 山东大学 基于深度学习的剧本到故事板序列自动生成方法及系统
CN113191375A (zh) * 2021-06-09 2021-07-30 北京理工大学 一种基于联合嵌入的文本到多对象图像生成方法
CN113920313A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 图像处理方法、装置、电子设备及存储介质
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114359741B (zh) * 2022-03-19 2022-06-17 江西财经大学 基于区域特征的图像描述模型注意力机制评价方法与系统
CN114359741A (zh) * 2022-03-19 2022-04-15 江西财经大学 基于区域特征的图像描述模型注意力机制评价方法与系统
CN114758202A (zh) * 2022-04-01 2022-07-15 山东大学 基于语义感知特征增强的短波红外舰船检测方法及系统
CN114758202B (zh) * 2022-04-01 2024-05-24 山东大学 基于语义感知特征增强的短波红外舰船检测方法及系统
CN115393396A (zh) * 2022-08-18 2022-11-25 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法
CN115393396B (zh) * 2022-08-18 2024-02-02 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法
CN115797495A (zh) * 2023-02-07 2023-03-14 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法
CN115797495B (zh) * 2023-02-07 2023-04-25 武汉理工大学 一种句子-字符语义空间融合感知的文本生成图像的方法

Similar Documents

Publication Publication Date Title
CN111340907A (zh) 一种自适应属性和实例掩码嵌入图的文本到图像生成方法
CN110706302B (zh) 一种文本合成图像的系统及方法
US20220230276A1 (en) Generative Adversarial Networks with Temporal and Spatial Discriminators for Efficient Video Generation
US11507800B2 (en) Semantic class localization digital environment
US20240168625A1 (en) Simulated handwriting image generator
WO2022007685A1 (en) Method and device for text-based image generation
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN112163401B (zh) 基于压缩与激励的gan网络的汉字字体生成方法
Prudviraj et al. Incorporating attentive multi-scale context information for image captioning
CN113934890B (zh) 一种文字自动生成场景视频的方法及系统
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN115222998B (zh) 一种图像分类方法
CN115797495B (zh) 一种句子-字符语义空间融合感知的文本生成图像的方法
CN114037674B (zh) 一种基于语义上下文的工业缺陷图像分割检测方法及装置
Zhu et al. Label-guided generative adversarial network for realistic image synthesis
CN113140020A (zh) 一种基于伴随监督生成对抗网络的文本生成图像的方法
CN112070174A (zh) 一种基于深度学习的自然场景下文本检测方法
Porkodi et al. Generic image application using GANs (generative adversarial networks): A review
CN114529940A (zh) 基于姿态引导的人体图像生成方法
CN115512096A (zh) 基于CNN与Transformer的低分辨率图像分类方法及系统
CN115718815A (zh) 一种跨模态检索方法和系统
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN111339734B (zh) 一种基于文本生成图像的方法
Liu et al. SWF-GAN: A Text-to-Image model based on sentence–word fusion perception
CN115862039A (zh) 基于多尺度特征的文本生成图像算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination