CN111898456B - 基于多层次注意力机制的文本修改图片网络模型训练方法 - Google Patents

基于多层次注意力机制的文本修改图片网络模型训练方法 Download PDF

Info

Publication number
CN111898456B
CN111898456B CN202010639352.7A CN202010639352A CN111898456B CN 111898456 B CN111898456 B CN 111898456B CN 202010639352 A CN202010639352 A CN 202010639352A CN 111898456 B CN111898456 B CN 111898456B
Authority
CN
China
Prior art keywords
picture
training
text
features
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010639352.7A
Other languages
English (en)
Other versions
CN111898456A (zh
Inventor
宋井宽
叶芊
高联丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Guizhou University
Original Assignee
University of Electronic Science and Technology of China
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Guizhou University filed Critical University of Electronic Science and Technology of China
Priority to CN202010639352.7A priority Critical patent/CN111898456B/zh
Publication of CN111898456A publication Critical patent/CN111898456A/zh
Application granted granted Critical
Publication of CN111898456B publication Critical patent/CN111898456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层次注意力机制的文本修改图片网络模型训练方法,涉及计算机处理技术领域,该方法提出了用局部注意力网络和全局注意力网络,结合文本特征与图片特征训练文本修改图片网络模型,且在模型训练的过程中,考虑了cycle loss,继而利用最终得到的文本修改图片网络模型修改图片时,能精确修改图片的视觉属性,不会对文本信息中未提及的视觉属性进行修改;采用该训练方法训练出的模型,已在当前主流的数据集上进行了验证,取得了当前最好的结果。

Description

基于多层次注意力机制的文本修改图片网络模型训练方法
技术领域
本发明涉及计算机处理技术领域,具体而言,涉及一种基于多层次注意力机制的文本修改图片网络模型训练方法。
背景技术
随着视觉和语言交互领域的发展,文本修改图片算法近些年取得了巨大的进步。作为图片生产的一个分支,文本修改图片算法把算法的重心放在如何挖掘图片和文本的联系,并使用文本来修改图片的对应视觉属性(例如修改图片某一颜色),它在现实应用当中也是应用广泛,例如图片编辑等等。相比较于传统的图片生成算法,文本修改图片算法的目标是要求模型能够同时理解图片中的视觉属性信息和给定的文本信息,在这些重要线索的前提之下进行推理,并最终根据文本的语义信息来修改图片中对应的视觉属性。如果要完成如上的要求,此任务将涉及到多个领域的知识,例如文本识别、图片生成和多模态推理等等。因为其系统算法的复杂性,它现在是机器智能方面一个亟待解决的问题。
对于如何让计算机正确理解图片内容与文本内容的问题,当前大多数的文本修改图像的任务都是基于生成对抗网络,甚至同时采用好几个生成对抗网络进行学习。但是这样的超大型网络普遍存在训练成本大,耗时长等问题。起初,文本修改图片的方法修改图片尺寸较小,图片质量较低;为了增大尺寸,之后的方法采用增加卷积神经网络的层数提取出分辨率更高的原始图像信息进而生成更高分辨率的图片,但是这些网络通常具有复杂的网络结构,并且对计算硬件要求高,导致于网络训练过程复杂,耗时长而且整个训练过程比较不稳定。并且之前的一系列方法只使用了文本的全局信息来修改图片,这对于精确修改图片的视觉属性是远远不够的,之前的方法也没有考虑如何更好的不修改文本信息里未提及的视觉属性,例如背景等。
发明内容
本发明在于提供一种基于多层次注意力机制的文本修改图片网络模型训练方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
一种基于多层次注意力机制的文本修改图片网络模型训练方法,在模型训练的每个epoch中,均包括:
获取当前原始训练图片及其文本信息,以及与其图片内容同类的随机文本信息;
提取当前原始训练图片的视觉属性特征,以及所述随机文本信息的全局特征和局部特征;
利用全局注意力网络对所述随机文本信息的全局特征和当前原始训练图片的视觉属性特征进行融合,得到融合特征Ⅰ;
对所述融合特征Ⅰ进行上采样得到特征矩阵Ⅰ,将所述随机文本信息的局部特征和所述特征矩阵Ⅰ输入局部注意力网络,输出得到融合特征Ⅱ;
将所述融合特征Ⅱ和特征矩阵Ⅰ结合后,通过残差块输入到上采样网络,输出得到修改后的图片Ⅰ;
将所述修改后的图片Ⅰ和随机文本信息作为一组训练数据,当前原始训练图片及其文本信息作为一组训练数据,当前原始训练图片和所述随机文本信息作为一组训练数据;
利用三组所述训练数据对判别器和生成器进行训练,其中,在生成器的训练过程中,其损失计算过程包括cycle loss的计算;
训练后的判别器和生成器组成当前epoch训练好的文本修改图片网络模型。
本方案的技术效果是:提出了用注意力机制结合文本特征与图片特征训练文本修改图片网络模型,且在模型训练的过程中,考虑了cycle loss,继而利用最终得到的模型修改图片时,能精确修改图片的视觉属性,不会对文本信息中未提及的视觉属性进行修改;采用该训练方法训练出的模型,已在当前主流的数据集上进行了验证,取得了当前最好的结果。
进一步地,所述随机文本信息,是在与当前原始训练图片同类的图片集的文本信息中随机选择得到。
本方案的技术效果是:能够使文本修改图片网络模型更好的适应各种不同语义的文本信息,并且生成内容具有多样性而不会固定生成某项内容。
进一步地,获取所述融合特征Ⅰ的方法具体为:首先将随机文本信息的全局特征复制成16*16*128的矩阵;然后通过卷积神经网络将所述16*16*128的矩阵变换为16*16*512的矩阵;最后将所述16*16*512的矩阵和当前原始训练图片的视觉属性特征输入所述全局注意力网络,并输出得到所述融合特征Ⅰ。
本方案的技术效果是:其中采用了矩阵变换法,使两种不同属性的特征能够在同一维度进行计算。
更进一步地,所述融合特征Ⅰ的计算公式如下:
Fi=P(Ftext⊙Wi⊙Fi-1)
Wi=SoftMax(Ftext⊙Fi-1)
其中,Fi表示融合特征Ⅰ,F0表示当前原始训练图片的视觉属性特征,Ftext表示所述随机文本信息的全局特征,Wi是所述随机文本信息的全局特征,与当前原始训练图片的视觉属性特征的权值矩阵,P是一层卷积神经网络。
本方案的技术效果是:能有效的将文本的全局特征与视觉属性特征更好的融合起来,而不仅仅是简单的相连。
更进一步地,所述融合特征Ⅱ的计算公式如下:
Figure GDA0003728503790000031
Figure GDA0003728503790000032
其中,Fattn表示融合特征Ⅱ,Fword表示所述随机文本信息的全局特征,k代表随机文本信息的第k个词,L表示局部特征所属文本信息的长度,βk代表第k个词对于视觉属性修改的重要程度,h0表示特征矩阵Ⅰ。
本方案的技术效果是:能够计算文本信息中每个词对于视觉属性的重要程度,这可以使得我们视觉属性的细节信息更好的被完善。
进一步地,所述cycle loss的计算包括以下步骤:
S1、提取修改后的图片Ⅰ的视觉属性特征;
S2、提取当前原始训练图片的文本信息的全局特征和局部特征;
S3、利用全局注意力网络对当前原始训练图片的文本信息的全局特征,和修改后的图片Ⅰ的视觉属性特征进行融合,得到融合特征Ⅲ;
S4、对所述融合特征Ⅲ进行上采样得到特征矩阵Ⅱ,将当前原始训练图片的文本信息的局部特征,和所述特征矩阵Ⅱ输入局部注意力网络,输出得到融合特征Ⅳ;
S5、将所述融合特征Ⅳ和特征矩阵Ⅱ结合后,通过残差块输入到上采样网络,输出得到修改后的图片Ⅱ;
S6、根据修改后的图片Ⅱ和当前原始训练图片计算得到cycle loss。
本方案的技术效果是:cycle loss是指一个循环最终又得到假的原始图片,将这个假的原始图片与真实原始图片做loss可以更好的限制网络不去修改文本无关内容。
进一步地,所述视觉属性特征通过预训练好的Vgg-16网络模型提取,其中,所述Vgg-16网络模型的预训练过程在ImageNet数据集上完成。
本方案的技术效果是:可以直接引用而不用训练并且适应度很高,能够精准的提取出图片的视觉属性特征。
进一步地,所述全局特征和局部特征通过双向GRU网络模型提取。
本方案的技术效果是:GRU训练更快,并且效果不比LSTM差。
更进一步地,所述全局特征是一个128维的向量,所述局部特征是一个L*128的矩阵,其中L是局部特征所属文本信息的长度。
进一步地,整个文本修改图片网络模型的训练过程包括600个epoch,各epoch所采用的原始训练图片不同。
本方案的技术效果是:epoch过短,模型训练的效果会较差,epoch过高,则模型会在早已经收敛的情况下继续训练,效果并没有进一步的提高,浪费时间成本,600个epoch既不浪费时间成本,而且能确保得到好的训练效果。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例文本修改图片网络模型训练方法的流程图;
图2是本发明实施例文本修改图片网络模型框架示意图;
图3是本发明实施例获取cycle loss的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参照图1和图2,本发明实施例公开了一种基于多层次注意力机制的文本修改图片网络模型训练方法,在模型训练的每个epoch中,均包括:
获取当前原始训练图片及其文本信息,以及与其图片内容同类的随机文本信息;
提取当前原始训练图片的视觉属性特征,以及随机文本信息的全局特征和局部特征;
利用全局注意力网络对随机文本信息的全局特征和当前原始训练图片的视觉属性特征进行融合,得到融合特征Ⅰ;
对融合特征Ⅰ进行上采样得到特征矩阵Ⅰ,将随机文本信息的局部特征和特征矩阵Ⅰ输入局部注意力网络,输出得到融合特征Ⅱ;
将融合特征Ⅱ和特征矩阵Ⅰ结合后,通过残差块输入到上采样网络,输出得到修改后的图片Ⅰ;
将修改后的图片Ⅰ和随机文本信息作为一组训练数据,当前原始训练图片及其文本信息作为一组训练数据,当前原始训练图片和随机文本信息作为一组训练数据;
利用三组训练数据对判别器和生成器进行训练,其中,在生成器的训练过程中,其损失计算过程包括cycle loss的计算;训练后的判别器和生成器组成当前epoch训练好的文本修改图片网络模型。
在本实施例中,原始图片集为关于鸟的图片集,每个epoch的当前原始训练图片均从该原始图片集中获取,随机文本信息,是在与当前原始训练图片同类的图片集-CUB-200-2011图片集的文本信息中随机选择得到。
在本实施例中,获取融合特征Ⅰ的方法具体为:首先将随机文本信息的全局特征复制成16*16*128的矩阵;然后通过卷积神经网络将16*16*128的矩阵变换为16*16*512的矩阵;最后将16*16*512的矩阵和当前原始训练图片的视觉属性特征输入全局注意力网络,并输出得到融合特征Ⅰ。
融合特征Ⅰ的计算公式如下:
Fi=P(Ftext⊙Wi⊙Fi-1)
Wi=SoftMax(Ftext⊙Fi-1)
其中,Fi表示第i个网络输出的结果,Fo表示融合特征Ⅰ,即最后一个网络输出的结果,F0表示当前原始训练图片的视觉属性特征,Ftext表示随机文本信息的全局特征,Wi是随机文本信息的全局特征,与当前原始训练图片的视觉属性特征的权值矩阵,P是一层卷积神经网络。
在本实施例中,特征矩阵Ⅰ为64*64*128的矩阵。
融合特征Ⅱ的计算公式如下:
Figure GDA0003728503790000071
Figure GDA0003728503790000072
其中,Fattn表示融合特征Ⅱ,Fword表示随机文本信息的全局特征,k代表随机文本信息的第k个词,L表示局部特征所属文本信息的长度,βk代表第k个词对于视觉属性修改的重要程度,h0表示特征矩阵Ⅰ。
在本实施例中,如图2和图3所示,cycle loss的计算包括以下步骤:
S1、提取修改后的图片Ⅰ的视觉属性特征;
S2、提取当前原始训练图片的文本信息的全局特征和局部特征;
S3、利用全局注意力网络对当前原始训练图片的文本信息的全局特征,和修改后的图片Ⅰ的视觉属性特征进行融合,得到融合特征Ⅲ;
S4、对融合特征Ⅲ进行上采样得到特征矩阵Ⅱ,将当前原始训练图片的文本信息的局部特征,和特征矩阵Ⅱ输入局部注意力网络,输出得到融合特征Ⅳ;
S5、将融合特征Ⅳ和特征矩阵Ⅱ结合后,通过残差块输入到上采样网络,输出得到修改后的图片Ⅱ;
S6、根据修改后的图片Ⅱ和当前原始训练图片计算得到cycle loss。
Cycle loss的计算如下所示:
Lcycle=||x-x'||
其中,Lcycle表示Cycle loss,x是当前原始训练图片,x'是经过两次网络得到的修改后的图片Ⅱ。
其中,修改后的图片Ⅱ与修改后的图片Ⅰ的获取方法类似,只是用于提取视觉属性特征的图片由当前原始训练图片换成了修改后的图片Ⅰ,用于提取全局特征和局部特征的文本信息,由随机文本信息换成了当前原始训练图片的文本信息。
在本实施例中,视觉属性特征通过预训练好的Vgg-16网络模型提取,其中,Vgg-16网络模型的预训练过程在ImageNet数据集上完成。对于每个epoch,针对每张原始训练图片,采用Vgg-16网络模型提取出长宽都为16的512维矩阵作为视觉属性特征。
在本实施例中,全局特征和局部特征通过双向GRU网络模型提取,全局特征是一个128维的向量,局部特征是一个L*128的矩阵,其中L是局部特征所属文本信息的长度。
在本实施例中,整个文本修改图片网络模型的训练过程包括600个epoch,即epochsize=600,各epoch所采用的原始训练图片不同。
本发明基于多层次注意力机制的文本修改图片网络模型训练方法,将之前工作忽略的文本局部信息提取出用来修改图片中对应的视觉属性,如文本中提到的背部,我们可以根据此定位到图片中对应的背部视觉属性上,基于这种联系,我们构建了注意力机制,它能够保证文本的局部信息可以与图片中对应的视觉属性一一对应起来,这样的话就会使得我们最终生成的图片更加细致化,在细节的处理上更好,这正是文本修改图片算法所需要的。并且我们对图片特征以及文本的全局特征也使用了注意力机制进行融合而不是与之前的方法一样直接进行拼接,这会使得我们生成的图片更加自然;我们也使用了cycle loss来限制网络不修改文本信息中未提及的视觉属性。我们对模型在当前主流的数据集上进行了验证,取得了当前最好的结果,这个也证明了我们的方法要比当前主流的方法取得了更好的效果,生成的图片质量更好,也更符合我们输入文本的语义信息。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,在模型训练的每个epoch中,均包括:
获取当前原始训练图片及其文本信息,以及与其图片内容同类的随机文本信息;
提取当前原始训练图片的视觉属性特征,以及所述随机文本信息的全局特征和局部特征;
利用全局注意力网络对所述随机文本信息的全局特征和当前原始训练图片的视觉属性特征进行融合,得到融合特征Ⅰ;
对所述融合特征Ⅰ进行上采样得到特征矩阵Ⅰ,将所述随机文本信息的局部特征和所述特征矩阵Ⅰ输入局部注意力网络,输出得到融合特征Ⅱ;
将所述融合特征Ⅱ和特征矩阵Ⅰ结合后,通过残差块输入到上采样网络,输出得到修改后的图片Ⅰ;
将所述修改后的图片Ⅰ和随机文本信息作为一组训练数据,当前原始训练图片及其文本信息作为一组训练数据,当前原始训练图片和所述随机文本信息作为一组训练数据;
利用三组所述训练数据对判别器和生成器进行训练,其中,在生成器的训练过程中,其损失计算过程包括cycleloss的计算;
训练后的判别器和生成器组成当前epoch训练好的文本修改图片网络模型。
2.根据权利要求1所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,所述随机文本信息,是在与当前原始训练图片同类的图片集的文本信息中随机选择得到。
3.根据权利要求1所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,获取所述融合特征Ⅰ的方法具体为:首先将随机文本信息的全局特征复制成16*16*128的矩阵;然后通过卷积神经网络将所述16*16*128的矩阵变换为16*16*512的矩阵;最后将所述16*16*512的矩阵和当前原始训练图片的视觉属性特征输入所述全局注意力网络,并输出得到所述融合特征Ⅰ。
4.根据权利要求3所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,所述融合特征Ⅰ的计算公式如下:
Fi=P(Ftext⊙Wi⊙Fi-1)
Wi=SoftMax(Ftext⊙Fi-1)
其中,Fi表示第i个网络输出的结果,Ftext表示所述随机文本信息的全局特征,Wi是所述随机文本信息的全局特征,与当前原始训练图片的视觉属性特征的权值矩阵,P是一层卷积神经网络。
5.根据权利要求4所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,所述融合特征Ⅱ的计算公式如下:
Figure FDA0003728503780000021
Figure FDA0003728503780000022
其中,Fattn表示融合特征Ⅱ,Fword表示所述随机文本信息的全局特征,k代表随机文本信息的第k个词,L表示局部特征所属文本信息的长度,βk代表第k个词对于视觉属性修改的重要程度,h0表示特征矩阵Ⅰ。
6.根据权利要求1所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,所述cycle loss的计算包括以下步骤:
S1、提取修改后的图片Ⅰ的视觉属性特征;
S2、提取当前原始训练图片的文本信息的全局特征和局部特征;
S3、利用全局注意力网络对当前原始训练图片的文本信息的全局特征,和修改后的图片Ⅰ的视觉属性特征进行融合,得到融合特征Ⅲ;
S4、对所述融合特征Ⅲ进行上采样得到特征矩阵Ⅱ,将当前原始训练图片的文本信息的局部特征,和所述特征矩阵Ⅱ输入局部注意力网络,输出得到融合特征Ⅳ;
S5、将所述融合特征Ⅳ和特征矩阵Ⅱ结合后,通过残差块输入到上采样网络,输出得到修改后的图片Ⅱ;
S6、根据修改后的图片Ⅱ和当前原始训练图片计算得到cycleloss。
7.根据权利要求1或6所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,所述视觉属性特征通过预训练好的Vgg-16网络模型提取,其中,所述Vgg-16网络模型的预训练过程在ImageNet数据集上完成。
8.根据权利要求1或6所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,所述全局特征和局部特征通过双向GRU网络模型提取。
9.根据权利要求8所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,所述全局特征是一个128维的向量,所述局部特征是一个L*128的矩阵,其中L是局部特征所属文本信息的长度。
10.根据权利要求1所述基于多层次注意力机制的文本修改图片网络模型训练方法,其特征在于,整个文本修改图片网络模型的训练过程包括600个epoch,各epoch所采用的原始训练图片不同。
CN202010639352.7A 2020-07-06 2020-07-06 基于多层次注意力机制的文本修改图片网络模型训练方法 Active CN111898456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010639352.7A CN111898456B (zh) 2020-07-06 2020-07-06 基于多层次注意力机制的文本修改图片网络模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010639352.7A CN111898456B (zh) 2020-07-06 2020-07-06 基于多层次注意力机制的文本修改图片网络模型训练方法

Publications (2)

Publication Number Publication Date
CN111898456A CN111898456A (zh) 2020-11-06
CN111898456B true CN111898456B (zh) 2022-08-09

Family

ID=73193002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010639352.7A Active CN111898456B (zh) 2020-07-06 2020-07-06 基于多层次注意力机制的文本修改图片网络模型训练方法

Country Status (1)

Country Link
CN (1) CN111898456B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN111158648A (zh) * 2019-12-18 2020-05-15 西安电子科技大学 一种基于实景语义理解的互动帮助系统开发方法及其平台

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN111158648A (zh) * 2019-12-18 2020-05-15 西安电子科技大学 一种基于实景语义理解的互动帮助系统开发方法及其平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Optimized Graph Learning Using Partial Tags and Multiple Features for Image and Video Annotation;Jingkuan Song 等;《IEEE Transactions on Image Processing》;20160818;第25卷(第11期);第4999-5011页 *
基于宏块内部特征的H.264快速预测模式决策算法;傅彦 等;《计算机应用研究》;20090531;第26卷(第5期);第1955-1957页 *
基于视频流的文本识别研究与实现;唐结玲;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200115;I138-1773 *

Also Published As

Publication number Publication date
CN111898456A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN111260740B (zh) 一种基于生成对抗网络的文本到图像生成方法
CN107066583B (zh) 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN111340122B (zh) 一种多模态特征融合的文本引导图像修复方法
AU2019202063B2 (en) Synthesizing new font glyphs from partial observations
CN110675329B (zh) 基于视觉语义引导的图像去模糊方法
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN109800768A (zh) 半监督gan的散列特征表示学习方法
CN114820871A (zh) 字体生成方法、模型的训练方法、装置、设备和介质
CN110427864B (zh) 一种图像处理方法、装置及电子设备
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
KR20230073751A (ko) 레이아웃 기반의 동일 화풍 영상 생성 시스템 및 방법
Kim et al. Game effect sprite generation with minimal data via conditional GAN
CN111898456B (zh) 基于多层次注意力机制的文本修改图片网络模型训练方法
CN114155560B (zh) 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
Wang et al. VPU: a video-based point cloud upsampling framework
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer
CN113628107B (zh) 人脸图像超分辨率方法和系统
CN113449808B (zh) 多源图文信息分类方法及其相应的装置、设备、介质
Zhu et al. Text style transfer based on multi-factor disentanglement and mixture
Jiang et al. Tcgan: Semantic-aware and structure-preserved gans with individual vision transformer for fast arbitrary one-shot image generation
CN114677569A (zh) 一种基于特征解耦合的文字-图像对生成方法和装置
Kang Multiple GAN Inversion for Exemplar-based Image-to-Image Translation
Huang et al. Gentext: Unsupervised artistic text generation via decoupled font and texture manipulation
Kong et al. DualPathGAN: Facial reenacted emotion synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant