CN113220891A - 基于无监督的概念到句子的生成对抗网络图像描述算法 - Google Patents

基于无监督的概念到句子的生成对抗网络图像描述算法 Download PDF

Info

Publication number
CN113220891A
CN113220891A CN202110658282.4A CN202110658282A CN113220891A CN 113220891 A CN113220891 A CN 113220891A CN 202110658282 A CN202110658282 A CN 202110658282A CN 113220891 A CN113220891 A CN 113220891A
Authority
CN
China
Prior art keywords
sentence
concept
concepts
generator
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110658282.4A
Other languages
English (en)
Other versions
CN113220891B (zh
Inventor
李丽香
赵珊珊
党中恺
田艳昭
彭海朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110658282.4A priority Critical patent/CN113220891B/zh
Publication of CN113220891A publication Critical patent/CN113220891A/zh
Application granted granted Critical
Publication of CN113220891B publication Critical patent/CN113220891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

基于无监督的概念到句子的生成对抗网络图像描述算法涉及图像描述技术领域,解决了现有不能在没有成对数据集的情况下描述图像的问题,具体为:生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接两语义相关性得到语义关系信息,生成器将语义关系信息解码成句子。本发明利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述语句,实现了在没有成对数据集的情况下描述图像。

Description

基于无监督的概念到句子的生成对抗网络图像描述算法
技术领域
本发明涉及图像描述技术领域,具体涉及基于无监督的概念到句子的生成 对抗网络图像描述算法。
背景技术
图像描述算法是近几年前沿的一个多模态研究方向,该任务目的是将一幅 图像自动地生成一段描述该图像的文字。图像描述算法不仅需要计算机视觉方 向的算法来提取图像特征,而且还需要自然语言处理相关的算法将这些表示图 像的特征转换成文字。图像描述算法应用领域较广,其可以应用到机器人、跨 模态搜索以及盲人导航等方面。随着深度学习的发展,大量的学者开展了图像 描述方面的研究,促进了图像描述算法在近几年获得了非常大的性能提升。
传统的图像描述算法通常是指基于有监督训练的模型。此类模型大多采用 编码器-解码器结构,其中编码器是卷积神经网络CNN,而解码器是循环神经网 络RNN。有监督训练时使用Microsoft COCO数据集,该数据集包含有113287 张图像,每张图像对应五个人工标注的英文描述语句。通过使用该数据集,基 于有监督的图像描述算法取得了接近于人类对于图像理解的能力。但是,基于 有监督的图像描述算法严重依赖成对的图像-句子数据集,且MSCOCO数据集 只有英文的标注语句。而世界上语言种类较多,对每一种语言都做图像-句子的 标注是耗费时间、精力和金钱的一项工作。因此,无监督的图像描述算法将会为多语言图像描述打下坚实的基础。
目前已有的无监督图像描述模型主要采用GAN网络,生成器和判别器分别 是一个LSTM。模型先利用预训练好的卷积神经网络Inception-V4提取图像的视 觉特征,并将视觉特征输入到生成器中。生成器LSTM将视觉特征转换为文字, 并由判别器LSTM来判断每个单词的真假。这样经过一次次地博弈,最终生成 器能够生成语法和目标都正确的句子。但是该类方法单纯使用图像的视觉特征, 而无监督图像描述算法很难在没有对应标注语句的情况下推断出图像中目标物 体间的关系,因此加入图像中物体间的关系及属性等语义信息将会有助于提高 算法对图像的理解。
综上可知,由于目前大多数的图像描述算法依赖于成对的图像-句子数据集Microsoft COCO,而这种成对的图像-句子数据集需要大量的人力物力才能标注 出来。因此,如何实现在没有成对数据集的情况下描述图像是一个难题。另外, 图像描述是一个跨模态的任务,如何减小不同模态数据间的差距也是一个重要 难点。因此,亟需解决如何在不使用成对图像-句子数据集的情况下,利用一些 预训练的目标检测模型及分类模型提取图像中包含的概念信息,并且通过 CGAN网络将这一模态的离散概念转换为同一模态的图像描述语句。
发明内容
为了解决上述问题,本发明提供基于无监督的概念到句子的生成对抗网络 图像描述算法。
本发明为解决技术问题所采用的技术方案如下:
基于无监督的概念到句子的生成对抗网络图像描述算法,包括如下步骤:
生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关 性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关 性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、 关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的 语义相关性得到语义关系信息,将语义关系信息解码成句子。
基于无监督的概念到句子的生成对抗网络图像描述算法,所述算法的模型 包括所述生成器Gθ和判别器
Figure BDA0003114185480000021
所述判别器
Figure BDA0003114185480000022
能够判别生成器Gθ得到的句子是 否来自句子语料库,如果判别器
Figure BDA0003114185480000023
认为句子不是来自句子语料库,则生成器Gθ根 据损失函数更新生成器Gθ的参数并再次生成句子给判别器
Figure BDA0003114185480000024
判断,直至判别器
Figure BDA0003114185480000025
认为该句子来自句子语料库。
基于无监督的概念到句子的生成对抗网络图像描述算法,所述算法训练的 步骤为:
步骤一、用随机的权重θ初始化生成器Gθ,用判别器
Figure BDA0003114185480000026
的参数
Figure BDA0003114185480000027
初始化判别 器
Figure BDA0003114185480000028
步骤二、在训练集S上用最大似然估计预训练生成器Gθ;所述训练集S为句 子语料库;
步骤三、用生成器Gθ生成若干句子
Figure BDA0003114185480000031
表示生成器生成的长度为1至L 的句子;
步骤四、利用步骤三中生成器Gθ生成的句子预训练
Figure BDA0003114185480000032
步骤五、用Gθ生成若干句子
Figure BDA0003114185480000033
计算句子
Figure BDA0003114185480000034
为真的概率p,根据句子评估 器模块Q'计算主观评价得分s,根据p和s计算奖励值,再根据奖励值更新生成 器Gθ的权重θ,得到更新的生成器Gθ
步骤六、判别器
Figure BDA0003114185480000035
判断生成器Gθ生成的句子
Figure BDA0003114185480000036
是否为真,若为真,进行步 骤七;若不为真,则以更新权重θ后的生成器Gθ返回步骤五;
步骤七、生成器Gθ生成句子
Figure BDA0003114185480000037
根据
Figure BDA0003114185480000038
更新判别器的参数
Figure BDA0003114185480000039
即得到更新 的判别器
Figure BDA00031141854800000310
步骤八、判断生成器Gθ和判别器
Figure BDA00031141854800000311
是否均收敛,若均收敛则,训练完成; 否则返回步骤七。
本发明的有益效果是:
本发明基于无监督的概念到句子的生成对抗网络图像描述算法能够在不使 用成对图像-句子数据集的情况下,对测试集中的图片做出语法和语义正确的文 字描述。本发明的图像描述算法不需要大量的人力物力标注,在不使用成对图 像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像 中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述 语句。本发明的图像描述算法实现了在没有成对数据集的情况下描述图像,减 小了不同模态数据间的差距。
附图说明
图1为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的 CSGAN框架图
图2为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的双 向语义编码器框架图。
图3为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的判 别器结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和 具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具 体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述 的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的 限制。
基于无监督的概念到句子的生成对抗网络图像描述算法(Concept to SentenceGAN,简称CSGAN),算法具体为:(概念提取器)提取图像中语义 概念并分类成离散概念,包括目标概念(即表示目标的概念)、关系概念(即 表示关系的概念)和属性概念(即表示属性的概念),离散概念即离散的语义 概念,为单词。生成器根据离散概念计算出其中目标概念与关系概念之间的语 义相关性,生成器根据离散概念计算出其中目标概念与属性概念之间的语义相 关性,生成器拼接目标概念与关系概念之间的语义相关性和目标概念与属性概 念之间的语义相关性得到语义关系信息,生成器将语义关系信息解码成句子。
对于图像中语义概念的提取,本发明采用预训练好的Faster R-CNN网络提 取每幅图像中包含的目标,利用多标签分类器对不同目标间存在的关系进行提 取,并利用多标签分类器对每个目标包含的属性进行提取。这样便能提取出一 幅图像中包含的目标、关系和属性概念。具体的,使用在Visual Genome数据集 上预训练过的Faster R-CNN对图片进行目标提取,采用MOTIFS作为关系提取 器,最后额外增加一个分类器作为属性提取器。
对于句子语料中语义概念的提取,本发明直接使用那些在ground truth(句 子语料库的句子)和语义概念词典中同时出现的单词作为句子的概念。
通过对于图像或句子语料中语义概念提取得到离散的概念,即得到表示目 标概念、关系概念或属性概念的单词。句子语料库中句子和图像均能够被提取 得到离散概念。
本发明提出的CSGAN网络模型包含一个生成器和一个判别器,生成器包括 双向语义编码器和一个解码器,判别器是一个LSTM。CSGAN网络模型还可包 括句子评估器模块,如图1。其中双向语义编码器由两个子编码器组成:目标关 系编码器(又叫目标-关系子编码器)和目标属性编码器(又叫目标-属性子编码 器)。解码器是一个基于注意力机制的解码器。
双向语义编码器,由一个目标关系编码器和一个目标属性编码器组成。将 提取到的图像中语义概念分类成目标概念、关系概念和属性概念,目标概念、 关系概念、属性概念均为单词,通过目标关系编码器计算出离散概念中所有的 目标概念与关系概念之间的语义相关性:“目标-关系-目标”,如“女孩-打-网球”。 通过目标属性编码器计算出离散概念中包含的所有目标概念与属性概念之间的 语义相关性:“目标-属性”,如“绿色的-网球”(“绿色的”为属性)。双向编码 器主要由多头注意力机制实现。双向语义编码器采用多头注意力机制计算目标 概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关 性。而多头注意力机制则由多个点乘注意力机制拼接而成。如图2,目标关系编码器和目标属性编码器均由两个子层构成,每个子层后面都有一个残差连接模 块和归一化模块(Residual、Add&Norm),第一个子层是多头注意力模块 (Multi-head attention),第二个子层是全连接的前馈神经网络(Feed-forward)。
目标关系编码器根据离散概念计算离散概念中目标概念与关系概念之间的 语义相关性,目标属性编码器根据离散概念计算离散概念中目标概念与属性概 念之间的语义相关性,生成器拼接目标与关系之间的语义相关性和目标与属性 之间的语义相关性得到语义关系信息,解码器将语义关系信息解码成句子;判 别器判别解码器解码得到的句子是否来自句子语料库,如果判别器认为句子不 是来自句子语料库,则生成器根据损失函数更新生成器的参数并再次生成句子 给判别器判断,直至判别器认为该句子来自句子语料库。
为了计算离散概念中每一对概念间(一个目标概念与一个关系概念之间、 一个目标概念与一个属性概念之间)的关系权重,从一组查询矩阵Q=(q1,…,ql)中 给出一个查询qi(即查询),i∈(1,…,l),i表示的是第i个离散概念(第i个单词), l为正整数,l表示离散概念的数量(就是有多少个单词),即表示查询矩阵中 的查询元素的数量,同时从Q中给出另一组关键字ki*(即键)和数值vi*(即值), i*∈(1,…,l),i*表示的是第i*个离散概念(第i*个单词)。点乘注意力机制输出vi*的加权和,其中vi*的权重由qi和ki*的点乘决定。为了通过高度优化的矩阵乘法 实现点积运算,将查询、键和值打包成矩阵Q=(q1,…,ql),K=(k1,…,kl)和 V=(v1,…,vl)。点乘注意力机制可定义为:
Figure BDA0003114185480000061
其中,Q表示查询矩阵,
Figure BDA0003114185480000062
表示Q为l×dh的向量,K表示键矩阵,
Figure BDA0003114185480000063
表示K是维度为k×dh的向量,V表示值矩阵,
Figure BDA0003114185480000064
表示V是维 度为k×dh的向量,k表示K和V的长度,dh表示Q、K和V宽度、dh也表示 WQ、WK和WV的长度,WQ、WK和WV均为可学习参数,WQ表示查询矩阵Q 的可学习参数,
Figure BDA0003114185480000065
表示WQ是维度为dh×dk的向量,WK表示键矩阵K 的可学习参数,
Figure BDA0003114185480000066
表示WK是维度为dh×dk的向量,WV表示值矩阵V 的可学习参数,
Figure BDA0003114185480000067
表示WV是维度为dh×dk的向量,dk=dh/n,dk代表 WQ、WK和WV的宽度,其中n代表双向语义编码器所用多头注意力机制中子空 间的数量,即点乘注意力机制的数量。k、dh、dk均为正整数。多头注意力机制 包含平行的点乘注意力机制共n个。输入向量Q、K、V、WQ、WK和WV被映 射到n个子空间中,并且多头注意力分别在子空间中表示为:
Hm=Attention(QWQ,KWK,VWV) (2)
MultiHead(Q,K,V)=Concat(H1,…,Hn)WO (3)
其中Hm表示第m个子空间,1≤m≤n;WO表示线性变换;Concat(·)表示矩 阵拼接;MultiHead(·)表示多头注意力机制,是n个点乘注意力机制拼接后做线性 变换的结果。本发明使用基于多头注意力机制的方法使得目标概念可以找到与 其最相关的属性概念和关系概念。
具体地,目标-关系子编码器可表示为:
ROR=MultiHead(SR,SO,SO) (4)
其中,SO表示从一幅图像或句子中提取到的一组目标概念;SR表示从一幅图 像或句子中提取到的一组关系概念。SR作为查询矩阵Q(称为查询矩阵一),公 式(4)中第一个SO作为键矩阵K(称为键矩阵一),公式(4)中第二个SO作 为值矩阵V(称为值矩阵一),
Figure BDA0003114185480000068
表示ROR为NR×e的向量,NR表示 ROR的长度,e表示ROR的宽度,NR、NO、e均为正整数。通过多头注意力机制ROR的计算可以获取一组目标-关系-目标的关系信息,从而达到计算离散单词之 间关系的目的。
同样地,目标-属性子编码器可表示为:
ROA=MultiHead(SO,SA,SA) (5)
其中,SA表示从一幅图像或句子中提取的一组属性概念,SO作为查询矩阵 Q(称为查询矩阵二),公式(5)中第一个SA作为键矩阵K(称为键矩阵二), 公式(5)中第二个SA作为值矩阵V(称为值矩阵二),
Figure BDA0003114185480000071
表示ROR是 维度为NO×e的向量,NO表示ROA的长度。通过ROA可获取一组目标-属性的关 系信息。
由于最后计算出来的ROR和ROA包含的维度不同,因此本发明使用注意力机 制的计算使ROR和ROA具有相同的维度,便于后续解码。具体是:
Figure BDA0003114185480000072
Mβ=BRβ,β∈{OA,OR) (7)
其中,
Figure BDA0003114185480000073
表示Rβ的可学习参数,
Figure BDA0003114185480000074
表示
Figure BDA0003114185480000075
是维度为r'×da的向量,r'表示概念数,同时表示
Figure BDA0003114185480000076
的长度、
Figure BDA0003114185480000077
的宽度、Mβ的长度,
Figure BDA0003114185480000078
表示激活函 数tanh的可学习参数,
Figure BDA0003114185480000079
表示
Figure BDA00031141854800000710
是维度为da×r'的向量,
Figure BDA00031141854800000711
表示Rβ的 转置矩阵,Mβ∈Rr '×e表示Mβ是维度为r'×e的向量,Mβ表示最终维度相同的语 义关系嵌入。r'、da均为正整数。
通过上述计算,可以得到维度相同的语义关系嵌入MOA和MOR,MOA作为 目标-属性语义关系嵌入,MOR作为目标-关系语义关系嵌入。MOA和MOR统称为 M,M表示语义关系嵌入,MOA表示目标概念与属性概念之间的语义相关性, MOR表示目标概念与关系概念之间的语义相关性。
在得到维度一致的语义关系以后,我们采用基于注意力机制的LSTM解码 器对语义关系进行解码。本发明图像描述算法使用的是图片的语义关系信息(即 语义相关性)而不是用CNN提取的图像的视觉信息。具体是在每一个时刻T(T 表示解码过程的时刻),将对应T时刻的单词嵌入向量
Figure BDA00031141854800000712
与语义概念向量的平 均值
Figure BDA0003114185480000081
做拼接后的
Figure BDA0003114185480000082
作为解码器的输入,Nl表示语义 概念向量的数量,ci'表示第i'个语义概念向量,xT表示T时刻拼接后的单词嵌 入向量
Figure BDA0003114185480000083
和语义概念向量的平均值cavg。单词嵌入向量是指对T时刻一个单词 编码的嵌入向量表示;语义概念向量是指对句子或图像中提取出来的所有概念 编码成语义概念向量。并且在每个时刻T,插入拼接后的语义关系嵌入向量M=[MOA;MOR]。根据时刻T的隐藏状态hT∈Rd(hT是维度为d的向量),LSTM 解码器在2r’个语义关系嵌入向量M上(在r’个目标概念与关系概念之间的语义 相关性和r’个目标概念与属性概念之间的语义相关性上)生成注意力分布:
Figure BDA0003114185480000084
其中,
Figure BDA0003114185480000085
表示Mβ的转置,WM表示语义关系嵌入向量Mβ的可学习参数, Wh表示隐藏状态hT的可学习参数,wα表示tanh函数的可学习参数,
Figure BDA0003114185480000086
表示WM是维度为da×e的向量,
Figure BDA0003114185480000087
表示Wh是维度为da×d的向量,
Figure BDA0003114185480000088
表示wα是维度为da的向量,n'和d均为正整数,
Figure BDA0003114185480000089
是矩阵相加,αT∈Rn' 表示αT是维度为n'的向量,αT是M的注意力权重,并且注意力关系向量 rT∈Re(rT维度为e)可定义如下:
rT=αTM (9)
rT是指T时刻关系嵌入表示,
Figure BDA00031141854800000810
是指T时刻某个单词嵌入向量表示
最终,当前单词的注意力关系可预测为:
yT=softmax(Wp,rrT+Wp,hhT) (10)
其中,Wp,r∈R|D'|×e表示Wp,r是维度为|D'|×e的向量,|D'|表示语义概念词典D' 的单词数量,Wp,r表示rT的可学习参数,Wp,h∈R|D'|×e表示Wp,h是维度为|D'|×d的 向量,d表示Wp,h的向量宽度,Wp,h表示隐藏状态hT的可学习参数,yT表示T时 刻输出的单词。
本发明所提出的CSGAN模型结构如图1所示,有一个生成器和一个判别器。 其中生成器包含一个目标-关系子编码器ROR、一个目标-属性子编码器RAO和一个 基于注意力机制的解码器。判别器
Figure BDA0003114185480000091
是一个LSTM,用于判断句子的真假。生 成器中的ROR用于离散概念中目标概念与关系概念之间的语义相关性。RAO用于计 算离散概念中目标概念与属性概念之间的语义相关性。生成器将这两种拼接后 的语义关系信息输入解码器中解码成句子。而判别器
Figure BDA0003114185480000092
用于判别这些句子是来 自句子语料库还是生成器生成的,如果判别器
Figure BDA0003114185480000093
判断其输入是生成器生成的, 生成器就根据损失函数更新自己的参数并再次生成句子给判别器判断,直到判 别器认为该句子来自句子语料库,通过这种博弈的训练方式直至CSGAN模型收 敛,训练结束。
由于最常用的序列建模网络是循环神经网络RNN,所以本发明使用标准的 LSTM作为判别器,如图3(其中的embedding表示嵌入层)。
ht'=LSTM(xt',ht'-1),t'∈{1,…,n} (11)
ht'表示t'时刻的隐藏状态,xt'表示t'时刻的输入单词,ht'-1表示t'-1时刻的 隐藏状态,t'表示判别器的t'时刻。
判别器的LSTM之后有一个全连接层(MLP)和一个softmax层,即判别 器包括LSTM(称为判别器的LSTM)、全连接层和softmax层,全连接层和softmax 层对于输入句子是真假的概率可通过下述公式进行计算:
p=σ(WRht'+1+bR) (12)
其中,WR表示全连接层的权重,WR∈R2×N'表示WR为2×N'的向量,N'为正整 数,bR表示全连接层的偏置项,bR∈R2,表示bR为向量长度为2,ht'+1表示t'+1时 刻的隐藏状态,p表示输入句子是真的概率,σ(·)表示sigmoid激活函数。
本发明使用句子语料库对模型进行有监督训练,本发明基于一个纯图片数 据集和一个与图片无关的句子语料库。在有句子语料库及对句子语料库提取到 的离散概念(单词)的情况下,可以通过使用公式(13)预训练生成器网络Gθ, 使得生成器能够将从句子语料库中的离散出的概念生成原句子(句子语料库中 的句子)。通过这种方式,生成器网络可以学习到句子语料库中的单词(离散 概念)间的关系,通过生成对抗的方式最终生成语法和语义正确的句子。在使 用最大似然估计训练模型Gθ达到收敛后,再利用强化学习(奖励值r更新生成 器Gθ的方法)进一步优化句子的评价指标CIDEr(CentroInterdisciplinario de Estudios Regionales),使得模型Gθ的翻译性能在所有指标上均获得提升。需要 注意的是,强化学习只在对句子语料进行有监督训练时用到。当我们的Gθ生成 器模型可以把句子语料库中的句子重建以后,生成器Gθ便可以根据一组离散单 词生成一个句子。所以此时给出一张图片,我们先用概念提取器提取出图片中 离散的概念(目标概念、关系概念、属性概念),然后只需要用到生成器Gθ便 可将这些离散概念生成对图像的描述语句。
传统RNN的训练是使用最大似然估计MLE,也就是生成描述语句的模型Gθ 生成器,Gθ的参数θ是通过最大似然估计来训练的:
Figure BDA0003114185480000101
其中,N表示句子语料库的句子数量即训练语句的总数,xj表示句子语料 库的第j个句子,Cj表示xj提取出的离散概念,Lj表示句子语料库的第j个句 子的长度,
Figure BDA0003114185480000102
表示t'时刻句子语料库的第j个句子,
Figure BDA0003114185480000103
表示1时刻至t'-1时刻 句子语料库的第j个句子。因为本发明要使用强化学习的方法来训练,因此,生 成器中的解码器可被看作是“代理”,与输入单词之间的交互称为“环境”, 生成器Gθ被看作是“策略”,生成器Gθ对下一个单词的预测称为“行动”。当 生成器Gθ采取“行动”以后,“代理”便会更新它的“状态”(即解码器的权 重,注意力模型的参数等)。当生成结束标志EOS后,“代理”返回一个“奖 励”r,例如语言评价指标(基于共识的图像描述评估CIDEr,双语评估辅助工具 BLEU,语义命题图像标题评估SPICE等)计算的结果用r表示。因此,强化学 习训练的目标是最大化生成器的期望奖励,最大化生成器的期望奖励LG(θ)为:
Figure BDA0003114185480000104
其中,
Figure BDA0003114185480000105
是判别器从生成器Gθ中采样出来的句子(Gθ解码得到 的句子),
Figure BDA0003114185480000106
表示采样出来的句子xs中的第一个单词,
Figure BDA0003114185480000107
表示采样出来的句子xs中的第二个单词……
Figure BDA0003114185480000108
表示采样出来句子xs中的第L个单词,L为正整数,r(·) 表示计算奖励值的函数,E表示期望,
Figure BDA0003114185480000109
表示生成器Gθ期望的奖励。 期望值用蒙特卡罗近似:
LG(θ)≈r(xs) (15)
其梯度
Figure BDA0003114185480000111
可以通过策略梯度计算一个基线函数b去有效降低梯度估计 的方差:
Figure BDA0003114185480000112
其中,Ls表示生成器Gθ采样出来的句子的最大长度,
Figure BDA0003114185480000113
表示生成器Gθ采样 出来的长度为1至L的句子,L大于1,
Figure BDA0003114185480000114
表示生成器Gθ采样出来的第t'个单词,
Figure BDA0003114185480000115
表示生成器Gθ采样出来的1至t'-1个单词。
基线b可以是任意函数,但它不依赖于“行动”xs。SCST训练(self-criticalsequence training)方法以当前生成器模型在测试时使用的贪婪解码算法下得到 的奖赏r作为基线函数。然后,梯度函数可表示如下:
Figure BDA0003114185480000116
其中,xg表示生成器采用贪婪解码策略采样出来的句子。
如图1所示,生成器的训练过程中还采用了句子评估模块Q',生成器生成 一个句子
Figure BDA0003114185480000117
判别器
Figure BDA0003114185480000118
和句子评估模块Q'将会基于不同的标准各计算一个值 来评价生成器Gθ生成的句子质量:判别器
Figure BDA0003114185480000119
会计算一个概率值p~[0,1]来表示所 给句子是人生成的(句子语料库中的)还是机器生成的(生成器得到的)。而 句子评估模块Q'将会计算一个主观评价得分s。注意,在训练期间,判别器将与 生成器一起交替改进,而句子评估器模块Q'是预定义的函数(如CIDEr)在训练 期间是严格固定的。因此,判别器
Figure BDA00031141854800001110
和句子评估模块Q'这两个模块协同工作, 在评估指标下获得高分。最终,给定离散概念C(C为概念提取器得到的)和给 定基本ground truth句子x后(x为句子语料库的句子,x∈S),强化学习奖励的计 算为:
Figure BDA00031141854800001111
其中,
Figure BDA00031141854800001112
表示生成器生成的长度为1至L的句子,λ是一个位于0和1之 间的超参数。
CSGAN通过有监督的方式在句子语料上训练,过程为:句子→概念提取器 →生成器将离散概念生成句子→判别器根据原句子判断生成句子的真假。训练 判别器
Figure BDA0003114185480000121
的参数
Figure BDA0003114185480000122
使其最大化,最大化判别器
Figure BDA0003114185480000123
的参数
Figure BDA0003114185480000124
的期望奖励
Figure BDA0003114185480000125
Figure BDA0003114185480000126
Figure BDA0003114185480000127
其中,x1:L表示句子语料库中长度为1至L的句子,pdata表示句子语料库中 的句子,x1:L~pdata表示x1:L属于句子语料库,
Figure BDA0003114185480000128
表示
Figure BDA0003114185480000129
属于生成器Gθ生成 的句子。
需要注意的是,本发明的CSGAN算法需要先预训练生成器和判别器。然后 再通过标准GAN的训练过程交替地微调生成器和判别器。训练过程可描述如下:
该算法需要:生成器Gθ;判别器
Figure BDA00031141854800001210
句子评估器Q',如CIDEr-D;训练集 S={x1:L},句子语料库作为训练集。
步骤一、用随机的权重θ初始化生成器Gθ,用判别器的参数
Figure BDA00031141854800001211
初始化判别器
Figure BDA00031141854800001212
步骤二、在训练集S上用最大似然估计公式(13)预训练生成器Gθ
步骤三、用生成器Gθ生成若干假句子
Figure BDA00031141854800001213
步骤四、利用步骤三中生成器Gθ生成的句子,通过公式(19)
Figure BDA00031141854800001214
预训练
Figure BDA00031141854800001215
步骤五、如图1,用Gθ生成一个mini-batch的句子
Figure BDA00031141854800001216
判别器
Figure BDA00031141854800001217
通过公式 (11)和公式(12)计算句子
Figure BDA00031141854800001218
为真的概率p,句子评估器模块Q'根据x1:L和本步骤 的
Figure BDA00031141854800001219
计算主观评价得分s,根据p和s采用公式(18)计算奖励值,再通过公 式(17)用SCST方法更新生成器Gθ的权重θ,即得到更新的生成器Gθ
步骤六、判别器
Figure BDA00031141854800001220
判断生成器Gθ生成的句子
Figure BDA00031141854800001221
是否为真,若为真,进行步 骤七;若不为真,则以更新权重θ后的生成器Gθ返回步骤五;
步骤七、生成器Gθ生成句子
Figure BDA00031141854800001222
通过公式(19)更新判别器的参数
Figure BDA00031141854800001223
即 得到更新的判别器
Figure BDA00031141854800001224
步骤八、判断生成器和判别器是否均收敛,若均收敛则结束训练,训练完 成;否则以目前的
Figure BDA00031141854800001225
返回步骤七。
在训练阶段,只使用某个数据集中的标注语句并将标注语句离散成离散概 念。在整个模型的训练过程中,采用判别器判断生成器所生成的句子是否准确, 促使生成器生成更加准确的句子。训练过程中需要判别器认为生成的句子与原 句子是否一致且直到生成器和判别器均收敛才停止训练。在推理阶段,输入一 张图片并且提取出图片中的离散概念,生成器可以将这些离散概念生成语义和 语法正确的描述语句。也就是在基于无监督的概念到句子的生成对抗网络图像 描述算法的模型的训练过程中采用判别器,根据判别器对生成器解码得到句子 判断训练基于无监督的概念到句子的生成对抗网络图像描述算法的模型。
本发明的CSGAN经过有监督的训练后,任给一张图片,概念提取器首先提 取图片中包含的目标、关系和属性的概念信息。CSGAN的生成器Gθ,根据有监 督训练得到的参数θ,能首先计算出这些离散概念之前的关系,然后再将这些语 义关系送入解码器生成句子。最终实现对图片在没有对应句子语料训练的情况 下生成描述。
在本实施方式的实验实现中,如果使用MSCOCO中的标注语句,用有监督 的方式训练CSGAN,那么就使用Flickr30k中测试集的图片来做推断。如果使 用Shutterstock中的句子来训练CSGAN,则使用MSCOCO中的测试集图片作为 推断时所用的数据。其中MSCOCO数据集包含113287张训练图片,5000张测 试图片和4000张验证图片,且每张图片对应五个人工标注的英文句子。Flickr30k 包含30000张图片,使用1000张图片作为测试集,每张图片也对应五个人工标 注的句子。关于评价指标,使用CIDEr、BLEU、SPICE、ROUGE-L(面向召回 率的摘要评估辅助工具,计算的是候选摘要与参考摘要的最长公共子序列长 度)、METEOR(显式排序的翻译评估指标)这几个图像描述领域通过的指标 来评价模型生成句子的质量。
对于语料库中句子和图片中语义概念的提取,语料库中的人工标注语句在 CSGAN训练阶段,首先需要先提取出句子中包含的语义概念。我们直接使用在 标注语句和语义概念词典中同时出现的概念作为对应句子的语义概念。概念提 取器是一个在Visual Genome上预训练过的模型,可提取图片中的包含的语义概 念。这些概念可划分为目标,属性和关系。针对每张图片会提取出前20个概念 来表示这张图片。
生成器的双向子编码器中的单词嵌入
Figure BDA0003114185480000141
维度e是512,多头注意力机制中 头的数量N设为8,前向传播的维度dff维度是2048,关系嵌入的维度r’为30, da是350。解码器LSTM的隐藏状态d是512。判别器LSTM中隐藏状态的维度 也是512。dh为512,k为键矩阵和值矩阵包含的单词数。dk为64。
本发明的CSGAN网络模型通过10个epoch最小化交叉熵损失来做初始化, 使用批量batch为16,利用ADAM优化模型参数,初始学习率为1×10-3,动量 值为0.9和0.999。同样地,生成器使用25个epoch的MLE来训练,在验证和 测试的时候使用集束为5的集束搜索,超参数λ=0.3。
本发明提出了一种基于生成对抗网络的概念到句子的无监督图像描述模型CSGAN,该模型在不使用成对图像-句子数据集的情况下,能够对测试集中的图 片做出语法和语义正确的文字描述。首先,使用一个单纯的句子语料库Flickr30K 这个数据集中标注的描述语句,并使用概念提取器提取出句子中包含在预定义 词典中的概念信息。通过使用有监督的方式训练CSGAN,使CSGAN能够将离 散的概念生成语法和语义正确的原句子。在有监督的训练中除了用到交叉熵损 失以外,还用到了句子重建损失,以及强化学习的进一步训练。其次,对于图 像,使用概念提取器提取出图片中包含的目标概念、属性概念和关系概念这些 概念信息。
通过这一系列的训练,本实施方式中使用MSCOCO测试集中的图片测试模 型,并取得了SOTA(State-of-the-art,最优)的实验结果。此时MSCOCO和 Flickr30K是两个完全不相关的数据集。例如一幅主要展示长颈鹿的图片,该图 片中还具有树木、草坪和木栅栏的图片,标准描述为:A giraffe walking during the day near a wood fence.(即:白天在木栅栏附近散步的长颈鹿。),本发明生成器输 出的句子为:A giraffe walking on alawn.(即:走在草坪上的长颈鹿。);例如一 幅6个穿着滑雪板的人站在雪地上合影留念的图片,标准描述为:A group of people in ski wear and skis standing in the snownext to each other.(即:一群穿着滑 雪服和滑雪板的人并排站在雪地里。),本发明生成器输出的句子为:people standing on the snow.(即:人们站在雪地上。);例如一幅只有一名成年男士和一 名成年女士的图片,两人均穿着得体的黑色礼服并站立着,相对不易观察的是: 男士手中拿着一杯酒,该图片的标准描述为:A couple is dressed in blackand the male has a drink.(即:一对夫妇穿着黑色衣服,男性拥有一杯饮品。),本发明生成器输出的句子为:a man and a woman standing together with black dress.(即:一男一女穿着黑色站在一起。);例如一幅主要展示摩托车和骑手的图片,该图片 中还具有平坦道路,标准描述为:A man wearing black is riding a red and sliver motorcycle.(即:一个穿黑衣的男人骑着一辆红银色的摩托车),本发明生成器输 出的句子为:A manriding a black and red motorcycle.(即:一个骑着具有黑色和 红色摩托车的人。)。
通过在不同数据集上做无监督图像描述的实验,本发明的算法性能与 UC-GAN(unsupervised image captioning GAN,无监督的生成对抗网络图像描述 算法)和SME-GAN(Shared Multimodal Embedding GAN,共享多模态嵌入的生 成对抗网络图像描述算法)这两个无监督方法相比,取得了更优的性能,如表1。
表1不同模型在相同数据集上算法结果对比
Figure BDA0003114185480000151
表1中的GCC表示谷歌的概念描述数据集(Google’s Conceptual Captionsdataset),Bleu-1和Bleu-2是自然语言处理领域两个公用的评价模型生成的句 子有多准确的评价方法。从表1可以看出,本发明所提出的算法在相同的评价 指标和相同的数据集下,与另外两个方法相比均取得更好的结果。因此,本发 明所提出的无监督概念到句子的生成对抗网络描述模型在利用图像的语义信息 的情况下也能通过计算离散语义概念间的关系来实现图像描述的目的。
本发明基于无监督的概念到句子的生成对抗网络图像描述算法能够在不使 用成对图像-句子数据集的情况下,对测试集中的图片做出语法和语义正确的文 字描述。本发明的图像描述算法不需要大量的人力物力标注,在不使用成对图 像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像 中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述 语句。本发明的图像描述算法实现了在没有成对数据集的情况下描述图像,减 小了不同模态数据间的差距。

Claims (10)

1.基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,包括如下步骤:
生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子。
2.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述生成器采用多头注意力机制计算目标概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关性。
3.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述生成器包括一个目标-关系子编码器ROR、一个目标-属性子编码器ROA和一个基于注意力机制的解码器,所述目标-关系子编码器能够根据离散概念计算出离散概念中目标与关系之间的语义相关性,目标-属性子编码器能够离散概念计算出离散概念中目标与属性之间的语义相关性,解码器能够将语义关系信息解码成句子。
4.如权利要求3所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述目标-关系子编码器ROR和目标-属性子编码器ROA表示为:
ROR=MultiHead(SR,SO,SO) (4)
ROA=MultiHead(SO,SA,SA) (5)
Figure FDA0003114185470000011
Mβ=BRβ,β∈{OA,OR} (7)
其中,SO表示从一幅图像或句子中提取到的一组目标概念;SR表示从一幅图像或句子中提取到的一组关系概念;SR作为查询矩阵Q,公式(4)中第一个SO作为键矩阵,公式(4)中第二个SO作为值矩阵,
Figure FDA0003114185470000012
表示ROR为NR×e的向量,通过ROR能够获取一组目标概念和关系概念的关系信息;SA表示从一幅图像或句子中提取的一组属性概念,SO作为查询矩阵,公式(5)中第一个SA作为键矩阵,公式(5)中第二个SA作为值矩阵,
Figure FDA0003114185470000021
表示ROR是维度为NO×e的向量,NR、NO、e均为正整数,通过ROA能够获取一组目标概念和属性概念的关系信息;
Figure FDA0003114185470000022
表示Rβ的可学习参数,
Figure FDA0003114185470000023
表示
Figure FDA0003114185470000024
是维度为r'×da的向量,
Figure FDA0003114185470000025
表示激活函数tanh的可学习参数,
Figure FDA0003114185470000026
表示
Figure FDA0003114185470000027
是维度为da×r'的向量,
Figure FDA0003114185470000028
表示Rβ的转置矩阵,Mβ∈Rr'×e表示Mβ是维度为r'×e的向量,MOA表示目标概念与属性概念之间的语义相关性,MOR表示目标概念与关系概念之间的语义相关性,r'、da均为正整数。
5.如权利要求4所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述解码器为LSTM解码器,LSTM解码器在r’个目标概念与关系概念之间的语义相关性和r’个目标概念与属性概念之间的语义相关性上生成注意力分布为:
Figure FDA0003114185470000029
其中,WM表示Mβ的可学习参数,Wh表示隐藏状态hT的可学习参数,wα表示tanh函数的可学习参数,
Figure FDA00031141854700000210
表示WM是维度为da×e的向量,
Figure FDA00031141854700000211
表示Wh是维度为da×d的向量,
Figure FDA00031141854700000212
表示wα是维度为da的向量,d为正整数,
Figure FDA00031141854700000213
是矩阵相加,αT∈Rn'表示αT是维度为n'的向量,注意力关系向量为:
rT=αTM (9)
rT∈Re表示rT维度为e;
T时刻输出的单词为:
yT=softmax(Wp,rrT+Wp,hhT) (10)
其中,Wp,r∈R|D'|×e表示Wp,r是维度为|D'|×e的向量,|D'|表示语义概念词典D'的单词数量,Wp,r表示rT的可学习参数,Wp,h∈R|D'|×e表示Wp,h是维度为|D'|×d的向量,Wp,h表示隐藏状态hT的可学习参数。
6.如权利要求1至5中任意一项所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述算法的模型包括所述生成器Gθ和判别器
Figure FDA0003114185470000031
所述判别器
Figure FDA0003114185470000032
能够判别生成器Gθ得到的句子是否来自句子语料库,如果判别器
Figure FDA0003114185470000033
认为句子不是来自句子语料库,则生成器Gθ根据损失函数更新生成器Gθ的参数并再次生成句子给判别器
Figure FDA0003114185470000034
判断,直至判别器
Figure FDA0003114185470000035
认为该句子来自句子语料库。
7.如权利要求6所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述算法的模型还包括句子评估器模块Q',所述句子评估器模块Q'能够根据句子语料库的句子评价生成器Gθ得到的句子。
8.如权利要求1至5中任意一项所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述算法训练的步骤为:
步骤一、用随机的权重θ初始化生成器Gθ,用判别器
Figure FDA0003114185470000036
的参数
Figure FDA0003114185470000037
初始化判别器
Figure FDA0003114185470000038
步骤二、在训练集S上用最大似然估计预训练生成器Gθ;所述训练集S为句子语料库;
步骤三、用生成器Gθ生成若干句子
Figure FDA0003114185470000039
Figure FDA00031141854700000310
表示生成器生成的长度为1至L的句子;
步骤四、利用步骤三中生成器Gθ生成的句子预训练
Figure FDA00031141854700000311
步骤五、用Gθ生成若干句子
Figure FDA00031141854700000312
计算句子
Figure FDA00031141854700000313
为真的概率p,根据句子评估器模块Q'计算主观评价得分s,根据p和s计算奖励值,再根据奖励值更新生成器Gθ的权重θ,得到更新的生成器Gθ
步骤六、判别器
Figure FDA00031141854700000314
判断生成器Gθ生成的句子
Figure FDA00031141854700000315
是否为真,若为真,进行步骤七;若不为真,则以更新权重θ后的生成器Gθ返回步骤五;
步骤七、生成器Gθ生成句子
Figure FDA00031141854700000316
根据
Figure FDA00031141854700000317
更新判别器的参数
Figure FDA00031141854700000318
即得到更新的判别器
Figure FDA00031141854700000319
步骤八、判断生成器Gθ和判别器
Figure FDA00031141854700000320
是否均收敛,若均收敛则,训练完成;否则返回步骤七。
9.如权利要求8所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述步骤二中最大似然估计的公式为:
Figure FDA0003114185470000041
其中,N表示句子语料库的句子数量,即训练语句的总数,xj表示句子语料库的第j个句子,Cj表示xj提取出的离散概念,Lj表示句子语料库的第j个句子的长度,
Figure FDA0003114185470000042
表示t'时刻句子语料库的第j个句子,
Figure FDA0003114185470000043
表示1时刻至t'-1时刻句子语料库的第j个句子;
所述步骤四通过
Figure FDA0003114185470000044
预训练
Figure FDA0003114185470000045
所述步骤七中通过
Figure FDA0003114185470000046
更新判别器的参数
Figure FDA0003114185470000047
Figure FDA0003114185470000048
其中,x1:L表示句子语料库中长度为1至L的句子,pdata表示句子语料库中的句子,x1:L~pdata表示x1:L属于句子语料库,
Figure FDA0003114185470000049
表示
Figure FDA00031141854700000410
属于生成器Gθ生成的句子,E表示期望。
10.如权利要求8所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述步骤五中,通过公式(11)和公式(12)计算句子
Figure FDA00031141854700000411
为真的概率p,根据p和s采用公式(18)计算奖励值,再通过公式(17)用SCST方法更新生成器Gθ的权重θ;
ht'=LSTM(xt',ht'-1),t'∈{1,…,n} (11)
p=σ(WRht'+1+bR) (12)
其中,ht'表示t'时刻的隐藏状态,xt'表示t'时刻的输入单词,ht'-1表示t'-1时刻的隐藏状态,t'表示判别器的t'时刻;WR表示全连接层的权重,WR∈R2×N'表示WR为2×N'的向量,bR表示全连接层的偏置项,bR∈R2表示bR为向量长度为2,ht'+1表示t'+1时刻的隐藏状态,p表示输入句子是真的概率,σ(·)表示sigmoid激活函数;
Figure FDA00031141854700000412
其中,r(·)表示计算奖励值的函数,
Figure FDA0003114185470000051
表示生成器生成的长度为1至L的句子,λ是一个位于0和1之间的超参数;C表示离散概念,x为S的句子;
Figure FDA0003114185470000052
其中,xs是判别器从生成器Gθ中采样出来的句子,xg表示生成器Gθ采用贪婪解码策略采样出来的句子,Ls表示生成器Gθ采样出来的句子的最大长度,
Figure FDA0003114185470000053
表示生成器Gθ采样出来的第t'个单词,
Figure FDA0003114185470000054
表示生成器Gθ采样出来的1至t'-1个单词。
CN202110658282.4A 2021-06-15 2021-06-15 基于无监督的概念到句子的生成对抗网络图像描述方法 Active CN113220891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110658282.4A CN113220891B (zh) 2021-06-15 2021-06-15 基于无监督的概念到句子的生成对抗网络图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110658282.4A CN113220891B (zh) 2021-06-15 2021-06-15 基于无监督的概念到句子的生成对抗网络图像描述方法

Publications (2)

Publication Number Publication Date
CN113220891A true CN113220891A (zh) 2021-08-06
CN113220891B CN113220891B (zh) 2022-10-18

Family

ID=77080273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110658282.4A Active CN113220891B (zh) 2021-06-15 2021-06-15 基于无监督的概念到句子的生成对抗网络图像描述方法

Country Status (1)

Country Link
CN (1) CN113220891B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609326A (zh) * 2021-08-25 2021-11-05 广西师范大学 基于外部知识和目标间关系的图像描述生成方法
CN114882292A (zh) * 2022-05-31 2022-08-09 武汉理工大学 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法
CN115953779A (zh) * 2023-03-03 2023-04-11 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN110287357A (zh) * 2019-05-31 2019-09-27 浙江工业大学 一种基于条件生成对抗网络的图像描述生成方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111242059A (zh) * 2020-01-16 2020-06-05 合肥工业大学 基于递归记忆网络的无监督图像描述模型的生成方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN110287357A (zh) * 2019-05-31 2019-09-27 浙江工业大学 一种基于条件生成对抗网络的图像描述生成方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111242059A (zh) * 2020-01-16 2020-06-05 合肥工业大学 基于递归记忆网络的无监督图像描述模型的生成方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609326A (zh) * 2021-08-25 2021-11-05 广西师范大学 基于外部知识和目标间关系的图像描述生成方法
CN113609326B (zh) * 2021-08-25 2023-04-28 广西师范大学 基于外部知识和目标间关系的图像描述生成方法
CN114882292A (zh) * 2022-05-31 2022-08-09 武汉理工大学 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法
CN114882292B (zh) * 2022-05-31 2024-04-12 武汉理工大学 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法
CN115953779A (zh) * 2023-03-03 2023-04-11 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法
CN115953779B (zh) * 2023-03-03 2023-06-16 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法

Also Published As

Publication number Publication date
CN113220891B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
Biten et al. Good news, everyone! context driven entity-aware captioning for news images
CN113220891B (zh) 基于无监督的概念到句子的生成对抗网络图像描述方法
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
Wang et al. Show, recall, and tell: Image captioning with recall mechanism
Zhao et al. A Multi-task Learning Approach for Image Captioning.
Peirson V et al. Dank learning: Generating memes using deep neural networks
CN111897913A (zh) 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN107480132A (zh) 一种基于图像内容的古诗词生成方法
CN110390397A (zh) 一种文本蕴含识别方法及装置
Zhang et al. Semantic sentence embeddings for paraphrasing and text summarization
CN109165563A (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述系统及方法
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
Puscasiu et al. Automated image captioning
Zhao et al. Text-to-remote-sensing-image generation with structured generative adversarial networks
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
Guan et al. Repeated review based image captioning for image evidence review
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
CN115017279A (zh) 基于文本语义匹配的Stack Overflow相关问答检索方法
Cao et al. Visual question answering research on multi-layer attention mechanism based on image target features
Yang et al. Att-bm-som: A framework of effectively choosing image information and optimizing syntax for image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant