CN109271537A - 一种基于蒸馏学习的文本到图像生成方法和系统 - Google Patents

一种基于蒸馏学习的文本到图像生成方法和系统 Download PDF

Info

Publication number
CN109271537A
CN109271537A CN201810910954.4A CN201810910954A CN109271537A CN 109271537 A CN109271537 A CN 109271537A CN 201810910954 A CN201810910954 A CN 201810910954A CN 109271537 A CN109271537 A CN 109271537A
Authority
CN
China
Prior art keywords
network
text
image
production
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810910954.4A
Other languages
English (en)
Other versions
CN109271537B (zh
Inventor
彭宇新
袁明宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810910954.4A priority Critical patent/CN109271537B/zh
Publication of CN109271537A publication Critical patent/CN109271537A/zh
Application granted granted Critical
Publication of CN109271537B publication Critical patent/CN109271537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于蒸馏学习的文本到图像生成方法和系统。该方法包括以下步骤:1.建立包含图像及其对应文本的数据库,提取所有文本的特征向量。2.利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,通过两阶段蒸馏方法生成与文本内容相符的图像。3.对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。与现有方法相比,本发明能够显著提高生成图像的质量。

Description

一种基于蒸馏学习的文本到图像生成方法和系统
技术领域
本发明涉及图像生成领域,具体涉及一种基于蒸馏学习的文本到图像生成方法和系统。
背景技术
近年来,随着互联网和多媒体技术的快速发展,多媒体数据的总量不断增长,已经成为大数据的主要内容,因此如何快速找到用户需要的信息就成为了大数据利用和管理的关键问题。人们通常会采用检索的方式寻找有用信息,如文本检索、图像检索等。以图像检索为例,现在常用的检索方式为基于文本关键词的检索,即用户输入查询文本,系统将用户查询文本与图像数据的文本标签进行匹配,从而得到图像检索结果。然而,这种检索方式只能为用户提供数据库中已经存在的图像数据,并且需要对图像数据集进行大量的人工标注,因此限制了信息获取的灵活性。文本到图像生成是指,用户提供一段文本描述,系统能够自动生成内容与这段文本描述一致的图像。文本到图像生成大大提高了图像信息获取的灵活性和全面性,在许多重要领域都有着良好的发展前景和重要意义,例如:公安领域的模拟画像、教育领域的概念启蒙、艺术领域的视觉创作等。
现有的文本到图像生成方法主要是基于生成式对抗网络(GenerativeAdversarial Networks,简称GAN)的深度模型方法。例如,Reed等人提出的GAN-INT-CLS方法将文本特征向量作为输入,利用生成式网络生成一幅图像,再利用判别式网络对该图像进行解析,判断该生成图像与输入文本的关联性与真实性。由于生成式网络希望生成的图像能够“以假乱真”,判别式网络希望可以区分出生成图像与真实图像,两者通过对抗式训练互相促进,最终使得生成式网络具有文本到图像生成的能力。在GAN-INT-CLS方法的基础上,Reed等人又提出了一种“内容-位置”生成式对抗网络GAWWN,通过给出“内容-位置”的说明来生成图像。GAWWN方法将空间遮挡和裁剪模块合并到文本条件生成式对抗网络中,同时以部件位置作为条件,使得生成器和判别器能够使用乘法门控机制来关注相关部件的位置,从而可以为输入文本生成空间结构上更加合理的图像。StackGAN方法将两个生成式对抗网络叠加在一起,改进了输入条件的部分,实现了较大尺寸图像的生成。两个阶段的生成式对抗网络的作用是:第一阶段的生成式网络利用文本描述粗略勾画物体主要的形状和颜色,生成低分辨率的图像;第二阶段的生成式网络将第一阶段的结果和文本描述作为输入,生成细节丰富的高分辨率图像。尽管以上基于生成式对抗网络的方法可以取得一定效果,但由于其生成式网络具有较多网络层,训练仅依靠一个对抗损失函数导致训练过程不稳定,限制了生成图像的效果。
发明内容
本发明提出了一种基于蒸馏学习和对称结构生成式网络的文本到图像生成方法和系统,能够建立文本特征向量空间到图像像素空间的映射,从而生成在内容上与文本一致的图像,与现有方法相比能够显著提高生成图像的质量。
为达到以上目的,本发明采用的技术方案如下:
一种基于蒸馏学习的文本到图像生成方法,包括以下步骤:
(1)建立包含图像及其对应文本的数据库,提取所有文本的特征向量;
(2)利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,训练过程通过两阶段蒸馏方法生成与文本内容相符的图像;
(3)对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。
进一步,上述一种基于蒸馏学习的文本到图像生成方法,所述步骤(1)中的文本特征向量具体为:利用长短期记忆(Long Short Term Memory,简称LSTM)网络提取的特征向量。
进一步,上述一种基于蒸馏学习的文本到图像生成方法,所述步骤(2)中的通用判别式网络是卷积神经网络,并在ImageNet图像分类数据集上进行预训练。生成式网络结构与所使用的通用判别式网络对称,每层可以与通用判别式网络层层对应。
进一步,上述一种基于蒸馏学习的文本到图像生成方法,所述步骤(2)中的训练过程使用两阶段蒸馏方法,将通用判别式网络的知识迁移到生成式网络中。第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色;第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。本发明所述蒸馏是指对知识进行迁移的过程。
与上面方法对应地,本发明还提供一种基于蒸馏学习的文本到图像生成系统,其包括:
数据库建立模块,负责建立包含图像及其对应文本的数据库,提取所有文本的特征向量;
网络训练模块,负责利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,训练过程通过两阶段蒸馏方法生成与文本内容相符的图像;
图像生成模块,负责对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。
进一步,所述数据库建立模块提取的文本特征向量为:利用长短期记忆网络提取的特征向量。
进一步,所述网络训练模块采用的通用判别式网络是卷积神经网络,并在ImageNet图像分类数据集上进行预训练;生成式网络与所使用的通用判别式网络对称。
进一步,所述网络训练模块的训练过程使用两阶段蒸馏方法,将通用判别式网络的知识迁移到生成式网络中;第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色;第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。
本发明的效果在于:与现有方法相比,本方法通过蒸馏学习将知识以多层特征向量的形式从一个通用判别式网络迁移到生成式网络中,从而在该生成式网络中建立文本特征向量空间到图像像素空间的映射,有效提高生成图像的质量。
本方法之所以具有上述发明效果,其原因在于:文本到图像生成的主要难点在于语义级别的文本与像素级别的图像在内容和形式上都存在很大的差异,并且真实图像与生成图像的数据分布也存在一定差异。而通用判别式网络具有强大的多层特征表达能力,可以引导文本到图像生成式网络的训练。因为通用判别式网络是基于图像分类实现的,因此其高层特征具备与图像类别标签相关的语义信息,而低层特征具备与图像像素内容相关的结构信息。这与文本到图像生成式网络中利用的特征表达是一致的:文本到图像生成式网络中输入的文本特征向量需要转化为具备语义信息的高层特征,而生成图像需要利用具备结构信息的低层特征。如果将通用判别式网络的多层信息作为指导来训练文本到图像生成式网络,那么生成式网络可以更容易地得到从语义空间到像素空间的最优映射,生成真实的图像。因此本发明提出的生成式网络结构与蒸馏学习的网络训练方法,可以有效提高生成图像的质量。
附图说明
图1是本发明的一种基于蒸馏学习的文本到图像生成方法流程图。
图2是本发明的网络结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述。
本发明的一种基于蒸馏学习的文本到图像生成方法,其流程如图1所示,包含以下步骤:
(1)建立包含图像及其对应文本的数据库,提取所有文本的特征向量。
本实施例中,用A表示训练数据库,其中其中为第p个训练图像,t(p)为第p个训练文本,定义n为数据个数,为文本t的特征向量,具体为利用预训练过的LSTM网络提取的特征向量。
(2)利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,通过两阶段蒸馏方法生成与文本内容相符的图像。
该步骤的过程如图2所示。本发明设计了一种两阶段蒸馏方法,能够将通用判别式网络的知识蒸馏到文本到图像生成式网络中。第一阶段是直接蒸馏,主要是使生成式网络学习物体的基础形状和颜色;第二阶段是间接蒸馏,主要是使生成式网络从细节上学习物体的形状和颜色。首先是第一阶段蒸馏,当文本特征向量输入至生成式网络G后,生成式网络G的每层网络l会生成作为输出,其中θl表示该网络层的参数,同时将与该文本对应的真实训练图像Ir输入至通用判别式网络D,每层网络会输出由于生成式网络G与通用判别式网络D的结构对称,其对应层输出的维度相同,所以可以计算两者对应层输出的特征向量的差异,作为第一阶段蒸馏的损失函数。当差异足够小时,说明模型拟合完毕。因此可以得到第一阶段蒸馏的损失函数公式:
其中||·||1表示L1距离,表示生成的图像。
在第二阶段蒸馏中,本实施例采用了间接蒸馏的方式。当文本特征向量输入至生成式网络G后,生成式网络G会生成图像作为最终输出,将它与真实图像Ir一起输入至通用判别式网络D,这样可以分别得到多层特征向量计算的差异,作为第二蒸馏的损失函数,公式如下:
其中||·||1表示L1距离,l表示网络层编号,θl表示该网络层的参数。
利用上面两个阶段的蒸馏过程,可以将通用判别式网络的知识迁移到文本到图像生成式网络中。
(3)对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。
当生成式网络训练完毕之后,可以为用户提供的文本提取特征向量,利用该网络生成与输入文本生成内容一致的图像。
下面的实验结果表明,与现有方法相比,本发明基于蒸馏学习的文本到图像生成方法,能够取得更好的图像质量。
本实施例采用CUB-200-2011数据集进行实验,包括上文提到的训练数据库和评测用的测试数据库。该数据集由文献“The Caltech-UCSD Birds-200-2011 Dataset”(作者Catherine Wah,Steve Branson,Peter Welinder,Pietro Perona,和Serge Belongie)提出,其中包含200种不同种类的鸟,共11788张图像,其中8855张图像为训练数据库,2933张图像为测试数据库。测试了以下3种方法作为实验对比:
现有方法一:文献“Generative adversarial text to image synthesis”(作者Scott Reed,Zeynep Akata,Xinchen Yan,Lajanugen Logeswaran,Bernt Schiele,和Honglak Lee)中的GAN-INT-CLS方法;
现有方法二:文献“Learning what and where to draw”(作者Scott E Reed,Zeynep Akata,Santosh Mohan,Samuel Tenka,Bernt Schiele,和Honglak Lee)中的GAWWN方法。
现有方法三:文献“StackGAN:Text to photo-realistic image synthesis withstacked generative adversarial networks”(作者Han Zhang,Tao Xu,Hongsheng Li,Shaoting Zhang,Xiaogang Wang,Xiaolei Huang,和Dimitris Metaxas)中的StackGAN方法。
本发明:本实施例的方法。
实验采用Inception score、SSIM和FSIM三种指标来评测生成图像的质量。Inception score是一种通用的生成图像评估标准,其利用一个Inception图像分类模型对生成的多张图像(本实施中为每个方法生成了29330张图像)计算类别概率向量,然后对这多个类别概率向量计算KL散度,以此表示生成图像的质量,得分值越高越好。SSIM和FSIM是图像质量评估算法,可以对生成图像与真实图像做对比(本实施中为每个方法生成了2933张图像,与2933张真实图像成对计算相似度),计算两者相似度,得分值同样越高越好。
表1.本发明的实验结果展示
Inception score SSIM FSIM
现有方法一 5.08±0.08 0.2934 0.6082
现有方法二 5.22±0.08 0.2370 0.5653
现有方法三 4.95±0.04 0.2812 0.5853
本发明 6.89±0.06 0.3160 0.6264
从表1可以看出,本发明在生成图像的质量上比现有方法取得了较大提高。三种现有方法都使用生成式对抗网络生成图像,尽管生成式对抗网络的训练方式可以收敛并取得一定效果,但由于其生成式网络具有很多网络层,训练仅依靠一个对抗损失函数导致训练过程的不稳定,限制了生成图像的效果。本发明能够充分利用通用判别式网络的知识,通过蒸馏学习的方式将知识以多层特征向量的形式从一个通用判别式网络迁移到该生成式网络中,为每一层网络的训练都提供参考和指导,从而稳定地在该生成式网络中建立文本特征向量空间到图像像素空间的映射,生成在内容上与文本一致的图像。
本发明另一实施例提供一种基于蒸馏学习的文本到图像生成系统,其包括:
数据库建立模块,负责建立包含图像及其对应文本的数据库,提取所有文本的特征向量;
网络训练模块,负责利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,训练过程通过两阶段蒸馏方法生成与文本内容相符的图像;
图像生成模块,负责对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。
所述数据库建立模块提取的文本特征向量为:利用长短期记忆网络提取的特征向量。所述网络训练模块采用的通用判别式网络是卷积神经网络,并在ImageNet图像分类数据集上进行预训练;生成式网络与所使用的通用判别式网络对称。所述网络训练模块的训练过程使用两阶段蒸馏方法,将通用判别式网络的知识迁移到生成式网络中;第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色;第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于蒸馏学习的文本到图像生成方法,包括以下步骤:
(1)建立包含图像及其对应文本的数据库,提取所有文本的特征向量;
(2)利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,训练过程通过两阶段蒸馏方法生成与文本内容相符的图像;
(3)对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。
2.如权利要求1所述的方法,其特征在于,步骤(1)中的文本特征向量为:利用长短期记忆网络提取的特征向量。
3.如权利要求1所述的方法,其特征在于,步骤(2)中的通用判别式网络是卷积神经网络,并在ImageNet图像分类数据集上进行预训练;生成式网络与所使用的通用判别式网络对称。
4.如权利要求1所述的方法,其特征在于,步骤(2)中的训练过程使用两阶段蒸馏方法,将通用判别式网络的知识迁移到生成式网络中;第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色;第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。
5.如权利要求4所述的方法,其特征在于,所述的第一阶段蒸馏具体过程如下:当文本特征向量输入至生成式网络G后,生成式网络G的每层网络l会生成作为输出,其中θl表示该网络层的参数,同时将与该文本对应的真实训练图像Ir输入至通用判别式网络D,每层网络会输出由于生成式网络G与通用判别式网络D的结构对称,其对应层输出的维度相同,因此定义如下损失函数,使得对应层输出的特征向量的差异尽可能小:
其中||·||1表示L1距离,表示生成的图像。
6.如权利要求5所述的方法,其特征在于,所述第二阶段蒸馏具体过程如下:当文本特征向量输入至生成式网络G后,生成式网络G会生成图像作为最终输出,将它与真实图像Ir一起输入至通用判别式网络D,这样可以分别得到多层特征向量计算的差异,作为第二蒸馏的损失函数,公式如下:
其中||·||1表示L1距离,l表示网络层编号,θl表示该网络层的参数。
7.一种基于蒸馏学习的文本到图像生成系统,其特征在于,包括:
数据库建立模块,负责建立包含图像及其对应文本的数据库,提取所有文本的特征向量;
网络训练模块,负责利用数据库中的图像和文本以及一个通用判别式网络训练一个生成式网络,训练过程通过两阶段蒸馏方法生成与文本内容相符的图像;
图像生成模块,负责对于用户输入的文本,提取文本特征向量,利用训练好的生成式网络,生成与输入文本内容相符的图像。
8.如权利要求7所述的系统,其特征在于,所述数据库建立模块提取的文本特征向量为:利用长短期记忆网络提取的特征向量。
9.如权利要求7所述的系统,其特征在于,所述网络训练模块采用的通用判别式网络是卷积神经网络,并在ImageNet图像分类数据集上进行预训练;生成式网络与所使用的通用判别式网络对称。
10.如权利要求7所述的系统,其特征在于,所述网络训练模块的训练过程使用两阶段蒸馏方法,将通用判别式网络的知识迁移到生成式网络中;第一阶段通过直接蒸馏使生成式网络学习物体的基础形状和颜色;第二阶段通过间接蒸馏使生成式网络从细节上学习物体的形状和颜色。
CN201810910954.4A 2018-08-10 2018-08-10 一种基于蒸馏学习的文本到图像生成方法和系统 Active CN109271537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810910954.4A CN109271537B (zh) 2018-08-10 2018-08-10 一种基于蒸馏学习的文本到图像生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810910954.4A CN109271537B (zh) 2018-08-10 2018-08-10 一种基于蒸馏学习的文本到图像生成方法和系统

Publications (2)

Publication Number Publication Date
CN109271537A true CN109271537A (zh) 2019-01-25
CN109271537B CN109271537B (zh) 2021-11-23

Family

ID=65153373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810910954.4A Active CN109271537B (zh) 2018-08-10 2018-08-10 一种基于蒸馏学习的文本到图像生成方法和系统

Country Status (1)

Country Link
CN (1) CN109271537B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110222705A (zh) * 2019-04-23 2019-09-10 华为技术有限公司 一种网络模型的训练方法以及相关装置
CN110930469A (zh) * 2019-10-25 2020-03-27 北京大学 一种基于过渡空间映射的文本生成图像方法和系统
CN111046904A (zh) * 2019-10-30 2020-04-21 中国科学院深圳先进技术研究院 一种图像描述方法、图像描述装置及计算机存储介质
CN111062865A (zh) * 2020-03-18 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111178036A (zh) * 2019-12-06 2020-05-19 云知声智能科技股份有限公司 一种知识蒸馏的文本相似度匹配模型压缩方法及系统
CN111553335A (zh) * 2020-04-23 2020-08-18 上海风秩科技有限公司 图像生成方法和装置及存储介质
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111723812A (zh) * 2020-06-05 2020-09-29 南强智视(厦门)科技有限公司 一种基于序列知识蒸馏的实时语义分割方法
CN111968193A (zh) * 2020-07-28 2020-11-20 西安工程大学 一种基于StackGAN网络的文本生成图像方法
CN113793404A (zh) * 2021-08-19 2021-12-14 西南科技大学 一种基于文本和轮廓的人为可控图像合成方法
CN116710910A (zh) * 2020-12-29 2023-09-05 迪真诺有限公司 以通过学习生成的条件为基础的设计生成方法及其装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107590531A (zh) * 2017-08-14 2018-01-16 华南理工大学 一种基于文本生成的wgan方法
CN107886169A (zh) * 2017-11-14 2018-04-06 华南理工大学 一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107590531A (zh) * 2017-08-14 2018-01-16 华南理工大学 一种基于文本生成的wgan方法
CN107886169A (zh) * 2017-11-14 2018-04-06 华南理工大学 一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GEOFFREY HINTON 等: "Distilling the knowledge in a neural network", 《ARXIV》 *
HASEEB SHAH 等: "Distillation techniques for pseudo-rehearsal based incremental learning", 《ARXIV》 *
虢齐: "基于深度学习的图像生成技术研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222705A (zh) * 2019-04-23 2019-09-10 华为技术有限公司 一种网络模型的训练方法以及相关装置
CN110222705B (zh) * 2019-04-23 2023-10-24 华为技术有限公司 一种网络模型的训练方法以及相关装置
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110111399B (zh) * 2019-04-24 2023-06-30 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110930469A (zh) * 2019-10-25 2020-03-27 北京大学 一种基于过渡空间映射的文本生成图像方法和系统
CN110930469B (zh) * 2019-10-25 2021-11-16 北京大学 一种基于过渡空间映射的文本生成图像方法和系统
CN111046904A (zh) * 2019-10-30 2020-04-21 中国科学院深圳先进技术研究院 一种图像描述方法、图像描述装置及计算机存储介质
CN111178036A (zh) * 2019-12-06 2020-05-19 云知声智能科技股份有限公司 一种知识蒸馏的文本相似度匹配模型压缩方法及系统
CN111178036B (zh) * 2019-12-06 2023-08-29 云知声智能科技股份有限公司 一种知识蒸馏的文本相似度匹配模型压缩方法及系统
CN111062865A (zh) * 2020-03-18 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111611377B (zh) * 2020-04-22 2021-10-29 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111553335A (zh) * 2020-04-23 2020-08-18 上海风秩科技有限公司 图像生成方法和装置及存储介质
CN111723812A (zh) * 2020-06-05 2020-09-29 南强智视(厦门)科技有限公司 一种基于序列知识蒸馏的实时语义分割方法
CN111723812B (zh) * 2020-06-05 2023-07-07 南强智视(厦门)科技有限公司 一种基于序列知识蒸馏的实时语义分割方法
CN111968193A (zh) * 2020-07-28 2020-11-20 西安工程大学 一种基于StackGAN网络的文本生成图像方法
CN111968193B (zh) * 2020-07-28 2023-11-21 西安工程大学 一种基于StackGAN网络的文本生成图像方法
CN116710910A (zh) * 2020-12-29 2023-09-05 迪真诺有限公司 以通过学习生成的条件为基础的设计生成方法及其装置
CN113793404A (zh) * 2021-08-19 2021-12-14 西南科技大学 一种基于文本和轮廓的人为可控图像合成方法
CN113793404B (zh) * 2021-08-19 2023-07-04 西南科技大学 一种基于文本和轮廓的人为可控图像合成方法

Also Published As

Publication number Publication date
CN109271537B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN109271537A (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
Zhao et al. 3DVG-Transformer: Relation modeling for visual grounding on point clouds
Hendricks et al. Deep compositional captioning: Describing novel object categories without paired training data
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
Tan et al. KT-GAN: Knowledge-transfer generative adversarial network for text-to-image synthesis
CN106358444B (zh) 用于面部验证的方法和系统
Peng et al. Learning multi-region features for vehicle re-identification with context-based ranking method
Hossain et al. Text to image synthesis for improved image captioning
CN110059217A (zh) 一种两级网络的图像文本跨媒体检索方法
CN108446271A (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN105205501A (zh) 一种多分类器联合的弱标注图像对象检测方法
CN108765383A (zh) 基于深度迁移学习的视频描述方法
CN109933686A (zh) 歌曲标签预测方法、装置、服务器及存储介质
CN115017358B (zh) 一种多模态交互的跨模态检索方法及系统
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN110502743A (zh) 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN107220598A (zh) 基于深度学习特征和Fisher Vector编码模型的虹膜图像分类方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
Pezzelle et al. Is the red square big? MALeViC: Modeling adjectives leveraging visual contexts
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
Chen et al. Object grounding via iterative context reasoning
Ye et al. Cross-modality pyramid alignment for visual intention understanding
Tong et al. Gang and moniker identification by graffiti matching
He et al. Multi-level progressive learning for unsupervised vehicle re-identification
CN107506370A (zh) 多媒体数据深度挖掘方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant