CN113220891B - 基于无监督的概念到句子的生成对抗网络图像描述方法 - Google Patents

基于无监督的概念到句子的生成对抗网络图像描述方法 Download PDF

Info

Publication number
CN113220891B
CN113220891B CN202110658282.4A CN202110658282A CN113220891B CN 113220891 B CN113220891 B CN 113220891B CN 202110658282 A CN202110658282 A CN 202110658282A CN 113220891 B CN113220891 B CN 113220891B
Authority
CN
China
Prior art keywords
sentence
concept
generator
concepts
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110658282.4A
Other languages
English (en)
Other versions
CN113220891A (zh
Inventor
李丽香
赵珊珊
党中恺
田艳昭
彭海朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110658282.4A priority Critical patent/CN113220891B/zh
Publication of CN113220891A publication Critical patent/CN113220891A/zh
Application granted granted Critical
Publication of CN113220891B publication Critical patent/CN113220891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于无监督的概念到句子的生成对抗网络图像描述算法涉及图像描述技术领域,解决了现有不能在没有成对数据集的情况下描述图像的问题,具体为:生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接两语义相关性得到语义关系信息,生成器将语义关系信息解码成句子。本发明利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述语句,实现了在没有成对数据集的情况下描述图像。

Description

基于无监督的概念到句子的生成对抗网络图像描述方法
技术领域
本发明涉及图像描述技术领域,具体涉及基于无监督的概念到句子的生成对抗网络图像描述算法。
背景技术
图像描述算法是近几年前沿的一个多模态研究方向,该任务目的是将一幅图像自动地生成一段描述该图像的文字。图像描述算法不仅需要计算机视觉方向的算法来提取图像特征,而且还需要自然语言处理相关的算法将这些表示图像的特征转换成文字。图像描述算法应用领域较广,其可以应用到机器人、跨模态搜索以及盲人导航等方面。随着深度学习的发展,大量的学者开展了图像描述方面的研究,促进了图像描述算法在近几年获得了非常大的性能提升。
传统的图像描述算法通常是指基于有监督训练的模型。此类模型大多采用编码器-解码器结构,其中编码器是卷积神经网络CNN,而解码器是循环神经网络RNN。有监督训练时使用Microsoft COCO数据集,该数据集包含有113287 张图像,每张图像对应五个人工标注的英文描述语句。通过使用该数据集,基于有监督的图像描述算法取得了接近于人类对于图像理解的能力。但是,基于有监督的图像描述算法严重依赖成对的图像-句子数据集,且MSCOCO数据集只有英文的标注语句。而世界上语言种类较多,对每一种语言都做图像-句子的标注是耗费时间、精力和金钱的一项工作。因此,无监督的图像描述算法将会为多语言图像描述打下坚实的基础。
目前已有的无监督图像描述模型主要采用GAN网络,生成器和判别器分别是一个LSTM。模型先利用预训练好的卷积神经网络Inception-V4提取图像的视觉特征,并将视觉特征输入到生成器中。生成器LSTM将视觉特征转换为文字,并由判别器LSTM来判断每个单词的真假。这样经过一次次地博弈,最终生成器能够生成语法和目标都正确的句子。但是该类方法单纯使用图像的视觉特征,而无监督图像描述算法很难在没有对应标注语句的情况下推断出图像中目标物体间的关系,因此加入图像中物体间的关系及属性等语义信息将会有助于提高算法对图像的理解。
综上可知,由于目前大多数的图像描述算法依赖于成对的图像-句子数据集Microsoft COCO,而这种成对的图像-句子数据集需要大量的人力物力才能标注出来。因此,如何实现在没有成对数据集的情况下描述图像是一个难题。另外,图像描述是一个跨模态的任务,如何减小不同模态数据间的差距也是一个重要难点。因此,亟需解决如何在不使用成对图像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像中包含的概念信息,并且通过 CGAN网络将这一模态的离散概念转换为同一模态的图像描述语句。
发明内容
为了解决上述问题,本发明提供基于无监督的概念到句子的生成对抗网络图像描述算法。
本发明为解决技术问题所采用的技术方案如下:
基于无监督的概念到句子的生成对抗网络图像描述算法,包括如下步骤:
生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子。
基于无监督的概念到句子的生成对抗网络图像描述算法,所述算法的模型包括所述生成器Gθ和判别器
Figure GDA0003151150310000021
所述判别器
Figure GDA0003151150310000022
能够判别生成器Gθ得到的句子是否来自句子语料库,如果判别器
Figure GDA0003151150310000023
认为句子不是来自句子语料库,则生成器Gθ根据损失函数更新生成器Gθ的参数并再次生成句子给判别器
Figure GDA0003151150310000024
判断,直至判别器
Figure GDA0003151150310000025
认为该句子来自句子语料库。
基于无监督的概念到句子的生成对抗网络图像描述算法,所述算法训练的步骤为:
步骤一、用随机的权重θ初始化生成器Gθ,用判别器
Figure GDA0003151150310000026
的参数
Figure GDA0003151150310000027
初始化判别器
Figure GDA0003151150310000028
步骤二、在训练集S上用最大似然估计预训练生成器Gθ;所述训练集S为句子语料库;
步骤三、用生成器Gθ生成若干句子
Figure GDA0003151150310000031
表示生成器生成的长度为1至L 的句子;
步骤四、利用步骤三中生成器Gθ生成的句子预训练
Figure GDA0003151150310000032
步骤五、用Gθ生成若干句子
Figure GDA0003151150310000033
计算句子
Figure GDA0003151150310000034
为真的概率p,根据句子评估器模块Q'计算主观评价得分s,根据p和s计算奖励值,再根据奖励值更新生成器Gθ的权重θ,得到更新的生成器Gθ
步骤六、判别器
Figure GDA00031511503100000311
判断生成器Gθ生成的句子
Figure GDA0003151150310000035
是否为真,若为真,进行步骤七;若不为真,则以更新权重θ后的生成器Gθ返回步骤五;
步骤七、生成器Gθ生成句子
Figure GDA0003151150310000036
根据
Figure GDA0003151150310000037
更新判别器的参数
Figure GDA0003151150310000038
即得到更新的判别器
Figure GDA0003151150310000039
步骤八、判断生成器Gθ和判别器
Figure GDA00031511503100000310
是否均收敛,若均收敛则,训练完成;否则返回步骤七。
本发明的有益效果是:
本发明基于无监督的概念到句子的生成对抗网络图像描述算法能够在不使用成对图像-句子数据集的情况下,对测试集中的图片做出语法和语义正确的文字描述。本发明的图像描述算法不需要大量的人力物力标注,在不使用成对图像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述语句。本发明的图像描述算法实现了在没有成对数据集的情况下描述图像,减小了不同模态数据间的差距。
附图说明
图1为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的 CSGAN框架图
图2为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的双向语义编码器框架图。
图3为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的判别器结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
基于无监督的概念到句子的生成对抗网络图像描述算法(Concept to SentenceGAN,简称CSGAN),算法具体为:(概念提取器)提取图像中语义概念并分类成离散概念,包括目标概念(即表示目标的概念)、关系概念(即表示关系的概念)和属性概念(即表示属性的概念),离散概念即离散的语义概念,为单词。生成器根据离散概念计算出其中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算出其中目标概念与属性概念之间的语义相关性,生成器拼接目标概念与关系概念之间的语义相关性和目标概念与属性概念之间的语义相关性得到语义关系信息,生成器将语义关系信息解码成句子。
对于图像中语义概念的提取,本发明采用预训练好的Faster R-CNN网络提取每幅图像中包含的目标,利用多标签分类器对不同目标间存在的关系进行提取,并利用多标签分类器对每个目标包含的属性进行提取。这样便能提取出一幅图像中包含的目标、关系和属性概念。具体的,使用在Visual Genome数据集上预训练过的Faster R-CNN对图片进行目标提取,采用MOTIFS作为关系提取器,最后额外增加一个分类器作为属性提取器。
对于句子语料中语义概念的提取,本发明直接使用那些在ground truth(句子语料库的句子)和语义概念词典中同时出现的单词作为句子的概念。
通过对于图像或句子语料中语义概念提取得到离散的概念,即得到表示目标概念、关系概念或属性概念的单词。句子语料库中句子和图像均能够被提取得到离散概念。
本发明提出的CSGAN网络模型包含一个生成器和一个判别器,生成器包括双向语义编码器和一个解码器,判别器是一个LSTM。CSGAN网络模型还可包括句子评估器模块,如图1。其中双向语义编码器由两个子编码器组成:目标关系编码器(又叫目标-关系子编码器)和目标属性编码器(又叫目标-属性子编码器)。解码器是一个基于注意力机制的解码器。
双向语义编码器,由一个目标关系编码器和一个目标属性编码器组成。将提取到的图像中语义概念分类成目标概念、关系概念和属性概念,目标概念、关系概念、属性概念均为单词,通过目标关系编码器计算出离散概念中所有的目标概念与关系概念之间的语义相关性:“目标-关系-目标”,如“女孩-打-网球”。通过目标属性编码器计算出离散概念中包含的所有目标概念与属性概念之间的语义相关性:“目标-属性”,如“绿色的-网球”(“绿色的”为属性)。双向编码器主要由多头注意力机制实现。双向语义编码器采用多头注意力机制计算目标概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关性。而多头注意力机制则由多个点乘注意力机制拼接而成。如图2,目标关系编码器和目标属性编码器均由两个子层构成,每个子层后面都有一个残差连接模块和归一化模块(Residual、Add&Norm),第一个子层是多头注意力模块 (Multi-head attention),第二个子层是全连接的前馈神经网络(Feed-forward)。
目标关系编码器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,目标属性编码器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,生成器拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,解码器将语义关系信息解码成句子;判别器判别解码器解码得到的句子是否来自句子语料库,如果判别器认为句子不是来自句子语料库,则生成器根据损失函数更新生成器的参数并再次生成句子给判别器判断,直至判别器认为该句子来自句子语料库。
为了计算离散概念中每一对概念间(一个目标概念与一个关系概念之间、一个目标概念与一个属性概念之间)的关系权重,从一组查询矩阵Q=(q1,…,ql)中给出一个查询qi(即查询),i∈(1,…,l),i表示的是第i个离散概念(第i个单词), l为正整数,l表示离散概念的数量(就是有多少个单词),即表示查询矩阵中的查询元素的数量,同时从Q中给出另一组关键字ki*(即键)和数值vi*(即值),i*∈(1,…,l),i*表示的是第i*个离散概念(第i*个单词)。点乘注意力机制输出vi*的加权和,其中vi*的权重由qi和ki*的点乘决定。为了通过高度优化的矩阵乘法实现点积运算,将查询、键和值打包成矩阵Q=(q1,…,ql),K=(k1,…,kl)和 V=(v1,…,vl)。点乘注意力机制可定义为:
Figure GDA0003151150310000061
其中,Q表示查询矩阵,
Figure GDA0003151150310000062
表示Q为l×dh的向量,K表示键矩阵,
Figure GDA0003151150310000063
表示K是维度为k×dh的向量,V表示值矩阵,
Figure GDA0003151150310000064
表示V是维度为k×dh的向量,k表示K和V的长度,dh表示Q、K和V宽度、dh也表示 WQ、WK和WV的长度,WQ、WK和WV均为可学习参数,WQ表示查询矩阵Q 的可学习参数,
Figure GDA0003151150310000065
表示WQ是维度为dh×dk的向量,WK表示键矩阵K 的可学习参数,
Figure GDA0003151150310000066
表示WK是维度为dh×dk的向量,WV表示值矩阵V 的可学习参数,
Figure GDA0003151150310000067
表示WV是维度为dh×dk的向量,dk=dh/n,dk代表 WQ、WK和WV的宽度,其中n代表双向语义编码器所用多头注意力机制中子空间的数量,即点乘注意力机制的数量。k、dh、dk均为正整数。多头注意力机制包含平行的点乘注意力机制共n个。输入向量Q、K、V、WQ、WK和WV被映射到n个子空间中,并且多头注意力分别在子空间中表示为:
Hm=Attention(QWQ,KWK,VWV) (2)
MultiHead(Q,K,V)=Concat(H1,…,Hn)WO (3)
其中Hm表示第m个子空间,1≤m≤n;WO表示线性变换;Concat(·)表示矩阵拼接;MultiHead(·)表示多头注意力机制,是n个点乘注意力机制拼接后做线性变换的结果。本发明使用基于多头注意力机制的方法使得目标概念可以找到与其最相关的属性概念和关系概念。
具体地,目标-关系子编码器可表示为:
ROR=MultiHead(SR,SO,SO) (4)
其中,SO表示从一幅图像或句子中提取到的一组目标概念;SR表示从一幅图像或句子中提取到的一组关系概念。SR作为查询矩阵Q(称为查询矩阵一),公式(4)中第一个SO作为键矩阵K(称为键矩阵一),公式(4)中第二个SO作为值矩阵V(称为值矩阵一),
Figure GDA0003151150310000068
表示ROR为NR×e的向量,NR表示 ROR的长度,e表示ROR的宽度,NR、NO、e均为正整数。通过多头注意力机制ROR的计算可以获取一组目标-关系-目标的关系信息,从而达到计算离散单词之间关系的目的。
同样地,目标-属性子编码器可表示为:
ROA=MultiHead(SO,SA,SA) (5)
其中,SA表示从一幅图像或句子中提取的一组属性概念,SO作为查询矩阵 Q(称为查询矩阵二),公式(5)中第一个SA作为键矩阵K(称为键矩阵二),公式(5)中第二个SA作为值矩阵V(称为值矩阵二),
Figure GDA0003151150310000071
表示ROR是维度为NO×e的向量,NO表示ROA的长度。通过ROA可获取一组目标-属性的关系信息。
由于最后计算出来的ROR和ROA包含的维度不同,因此本发明使用注意力机制的计算使ROR和ROA具有相同的维度,便于后续解码。具体是:
Figure GDA0003151150310000072
Mβ=BRβ,β∈{OA,OR} (7)
其中,
Figure GDA0003151150310000073
表示Rβ的可学习参数,
Figure GDA0003151150310000074
表示
Figure GDA0003151150310000075
是维度为r'×da的向量, r'表示概念数,同时表示
Figure GDA0003151150310000076
的长度、
Figure GDA0003151150310000077
的宽度、Mβ的长度,
Figure GDA0003151150310000078
表示激活函数tanh的可学习参数,
Figure GDA0003151150310000079
表示
Figure GDA00031511503100000710
是维度为da×r'的向量,
Figure GDA00031511503100000711
表示Rβ的转置矩阵,Mβ∈Rr'×e表示Mβ是维度为r'×e的向量,Mβ表示最终维度相同的语义关系嵌入。r'、da均为正整数。
通过上述计算,可以得到维度相同的语义关系嵌入MOA和MOR,MOA作为目标-属性语义关系嵌入,MOR作为目标-关系语义关系嵌入。MOA和MOR统称为 M,M表示语义关系嵌入,MOA表示目标概念与属性概念之间的语义相关性, MOR表示目标概念与关系概念之间的语义相关性。
在得到维度一致的语义关系以后,我们采用基于注意力机制的LSTM解码器对语义关系进行解码。本发明图像描述算法使用的是图片的语义关系信息(即语义相关性)而不是用CNN提取的图像的视觉信息。具体是在每一个时刻T(T 表示解码过程的时刻),将对应T时刻的单词嵌入向量
Figure GDA00031511503100000712
与语义概念向量的平均值
Figure GDA0003151150310000081
做拼接后的
Figure GDA0003151150310000082
作为解码器的输入,Nl表示语义概念向量的数量,ci'表示第i'个语义概念向量,xT表示T时刻拼接后的单词嵌入向量
Figure GDA0003151150310000083
和语义概念向量的平均值cavg。单词嵌入向量是指对T时刻一个单词编码的嵌入向量表示;语义概念向量是指对句子或图像中提取出来的所有概念编码成语义概念向量。并且在每个时刻T,插入拼接后的语义关系嵌入向量 M=[MOA;MOR]。根据时刻T的隐藏状态hT∈Rd(hT是维度为d的向量),LSTM 解码器在2r’个语义关系嵌入向量M上(在r’个目标概念与关系概念之间的语义相关性和r’个目标概念与属性概念之间的语义相关性上)生成注意力分布:
Figure GDA0003151150310000084
其中,
Figure GDA0003151150310000085
表示Mβ的转置,WM表示语义关系嵌入向量Mβ的可学习参数,Wh表示隐藏状态hT的可学习参数,wα表示tanh函数的可学习参数,
Figure GDA0003151150310000086
表示WM是维度为da×e的向量,
Figure GDA0003151150310000087
表示Wh是维度为da×d的向量,
Figure GDA0003151150310000088
表示wα是维度为da的向量,n'和d均为正整数,
Figure GDA0003151150310000089
是矩阵相加,αT∈Rn' 表示αT是维度为n'的向量,αT是M的注意力权重,并且注意力关系向量rT∈Re(rT维度为e)可定义如下:
rT=αTM (9)
rT是指T时刻关系嵌入表示,
Figure GDA00031511503100000810
是指T时刻某个单词嵌入向量表示
最终,当前单词的注意力关系可预测为:
yT=softmax(Wp,rrT+Wp,hhT) (10)
其中,Wp,r∈R|D'|×e表示Wp,r是维度为|D'|×e的向量,|D'|表示语义概念词典D' 的单词数量,Wp,r表示rT的可学习参数,Wp,h∈RD'×e表示Wp,h是维度为|D'|×d的向量,d表示Wp,h的向量宽度,Wp,h表示隐藏状态hT的可学习参数,yT表示T时刻输出的单词。
本发明所提出的CSGAN模型结构如图1所示,有一个生成器和一个判别器。其中生成器包含一个目标-关系子编码器ROR、一个目标-属性子编码器RAO和一个基于注意力机制的解码器。判别器
Figure GDA0003151150310000093
是一个LSTM,用于判断句子的真假。生成器中的ROR用于离散概念中目标概念与关系概念之间的语义相关性。RAO用于计算离散概念中目标概念与属性概念之间的语义相关性。生成器将这两种拼接后的语义关系信息输入解码器中解码成句子。而判别器
Figure GDA0003151150310000091
用于判别这些句子是来自句子语料库还是生成器生成的,如果判别器
Figure GDA0003151150310000092
判断其输入是生成器生成的,生成器就根据损失函数更新自己的参数并再次生成句子给判别器判断,直到判别器认为该句子来自句子语料库,通过这种博弈的训练方式直至CSGAN模型收敛,训练结束。
由于最常用的序列建模网络是循环神经网络RNN,所以本发明使用标准的 LSTM作为判别器,如图3(其中的embedding表示嵌入层)。
ht'=LSTM(xt',ht'-1),t'∈{1,…,n} (11)
ht'表示t'时刻的隐藏状态,xt'表示t'时刻的输入单词,ht'-1表示t'-1时刻的隐藏状态,t'表示判别器的t'时刻。
判别器的LSTM之后有一个全连接层(MLP)和一个softmax层,即判别器包括LSTM(称为判别器的LSTM)、全连接层和softmax层,全连接层和softmax层对于输入句子是真假的概率可通过下述公式进行计算:
p=σ(WRht'+1+bR) (12)
其中,WR表示全连接层的权重,WR∈R2×N'表示WR为2×N'的向量,N'为正整数,bR表示全连接层的偏置项,bR∈R2,表示bR为向量长度为2,ht'+1表示t'+1时刻的隐藏状态,p表示输入句子是真的概率,σ(·)表示sigmoid激活函数。
本发明使用句子语料库对模型进行有监督训练,本发明基于一个纯图片数据集和一个与图片无关的句子语料库。在有句子语料库及对句子语料库提取到的离散概念(单词)的情况下,可以通过使用公式(13)预训练生成器网络Gθ,使得生成器能够将从句子语料库中的离散出的概念生成原句子(句子语料库中的句子)。通过这种方式,生成器网络可以学习到句子语料库中的单词(离散概念)间的关系,通过生成对抗的方式最终生成语法和语义正确的句子。在使用最大似然估计训练模型Gθ达到收敛后,再利用强化学习(奖励值r更新生成器Gθ的方法)进一步优化句子的评价指标CIDEr(Centro Interdisciplinario deEstudios Regionales),使得模型Gθ的翻译性能在所有指标上均获得提升。需要注意的是,强化学习只在对句子语料进行有监督训练时用到。当我们的Gθ生成器模型可以把句子语料库中的句子重建以后,生成器Gθ便可以根据一组离散单词生成一个句子。所以此时给出一张图片,我们先用概念提取器提取出图片中离散的概念(目标概念、关系概念、属性概念),然后只需要用到生成器Gθ便可将这些离散概念生成对图像的描述语句。
传统RNN的训练是使用最大似然估计MLE,也就是生成描述语句的模型Gθ生成器,Gθ的参数θ是通过最大似然估计来训练的:
Figure GDA0003151150310000101
其中,N表示句子语料库的句子数量即训练语句的总数,xj表示句子语料库的第j个句子,Cj表示xj提取出的离散概念,Lj表示句子语料库的第j个句子的长度,
Figure GDA0003151150310000102
表示t'时刻句子语料库的第j个句子,
Figure GDA0003151150310000103
表示1时刻至t'-1时刻句子语料库的第j个句子。因为本发明要使用强化学习的方法来训练,因此,生成器中的解码器可被看作是“代理”,与输入单词之间的交互称为“环境”,生成器Gθ被看作是“策略”,生成器Gθ对下一个单词的预测称为“行动”。当生成器Gθ采取“行动”以后,“代理”便会更新它的“状态”(即解码器的权重,注意力模型的参数等)。当生成结束标志EOS后,“代理”返回一个“奖励”r,例如语言评价指标(基于共识的图像描述评估CIDEr,双语评估辅助工具 BLEU,语义命题图像标题评估SPICE等)计算的结果用r表示。因此,强化学习训练的目标是最大化生成器的期望奖励,最大化生成器的期望奖励LG(θ)为:
Figure GDA0003151150310000104
其中,
Figure GDA0003151150310000105
是判别器从生成器Gθ中采样出来的句子(Gθ解码得到的句子),
Figure GDA0003151150310000106
表示采样出来的句子xs中的第一个单词,
Figure GDA0003151150310000107
表示采样出来的句子xs中的第二个单词……
Figure GDA0003151150310000108
表示采样出来句子xs中的第L个单词,L为正整数,r(·) 表示计算奖励值的函数,E表示期望,
Figure GDA0003151150310000109
表示生成器Gθ期望的奖励。期望值用蒙特卡罗近似:
LG(θ)≈r(xs) (15)
其梯度
Figure GDA0003151150310000111
可以通过策略梯度计算一个基线函数b去有效降低梯度估计的方差:
Figure GDA0003151150310000112
其中,Ls表示生成器Gθ采样出来的句子的最大长度,
Figure GDA0003151150310000113
表示生成器Gθ采样出来的长度为1至L的句子,L大于1,
Figure GDA00031511503100001112
表示生成器Gθ采样出来的第t'个单词,
Figure GDA0003151150310000114
表示生成器Gθ采样出来的1至t'-1个单词。
基线b可以是任意函数,但它不依赖于“行动”xs。SCST训练(self-criticalsequence training)方法以当前生成器模型在测试时使用的贪婪解码算法下得到的奖赏r作为基线函数。然后,梯度函数可表示如下:
Figure GDA0003151150310000115
其中,xg表示生成器采用贪婪解码策略采样出来的句子。
如图1所示,生成器的训练过程中还采用了句子评估模块Q',生成器生成一个句子
Figure GDA0003151150310000116
判别器
Figure GDA0003151150310000117
和句子评估模块Q'将会基于不同的标准各计算一个值来评价生成器Gθ生成的句子质量:判别器
Figure GDA0003151150310000118
会计算一个概率值p~[0,1]来表示所给句子是人生成的(句子语料库中的)还是机器生成的(生成器得到的)。而句子评估模块Q'将会计算一个主观评价得分s。注意,在训练期间,判别器将与生成器一起交替改进,而句子评估器模块Q'是预定义的函数(如CIDEr)在训练期间是严格固定的。因此,判别器
Figure GDA0003151150310000119
和句子评估模块Q'这两个模块协同工作,在评估指标下获得高分。最终,给定离散概念C(C为概念提取器得到的)和给定基本ground truth句子x后(x为句子语料库的句子,x∈S),强化学习奖励的计算为:
Figure GDA00031511503100001110
其中,
Figure GDA00031511503100001111
表示生成器生成的长度为1至L的句子,λ是一个位于0和1之间的超参数。
CSGAN通过有监督的方式在句子语料上训练,过程为:句子→概念提取器→生成器将离散概念生成句子→判别器根据原句子判断生成句子的真假。训练判别器
Figure GDA0003151150310000121
的参数
Figure GDA0003151150310000122
使其最大化,最大化判别器
Figure GDA0003151150310000123
的参数
Figure GDA0003151150310000124
的期望奖励
Figure GDA0003151150310000125
为:
Figure GDA0003151150310000126
其中,x1:L表示句子语料库中长度为1至L的句子,pdata表示句子语料库中的句子,x1:L~pdata表示x1:L属于句子语料库,
Figure GDA0003151150310000127
表示
Figure GDA0003151150310000128
属于生成器Gθ生成的句子。
需要注意的是,本发明的CSGAN算法需要先预训练生成器和判别器。然后再通过标准GAN的训练过程交替地微调生成器和判别器。训练过程可描述如下:
该算法需要:生成器Gθ;判别器
Figure GDA00031511503100001223
句子评估器Q',如CIDEr-D;训练集 S={x1:L},句子语料库作为训练集。
步骤一、用随机的权重θ初始化生成器Gθ,用判别器的参数
Figure GDA0003151150310000129
初始化判别器
Figure GDA00031511503100001210
步骤二、在训练集S上用最大似然估计公式(13)预训练生成器Gθ
步骤三、用生成器Gθ生成若干假句子
Figure GDA00031511503100001211
步骤四、利用步骤三中生成器Gθ生成的句子,通过公式(19)
Figure GDA00031511503100001212
预训练
Figure GDA00031511503100001213
步骤五、如图1,用Gθ生成一个mini-batch的句子
Figure GDA00031511503100001214
判别器
Figure GDA00031511503100001215
通过公式 (11)和公式(12)计算句子
Figure GDA00031511503100001216
为真的概率p,句子评估器模块Q'根据x1:L和本步骤的
Figure GDA00031511503100001217
计算主观评价得分s,根据p和s采用公式(18)计算奖励值,再通过公式(17)用SCST方法更新生成器Gθ的权重θ,即得到更新的生成器Gθ
步骤六、判别器
Figure GDA00031511503100001224
判断生成器Gθ生成的句子
Figure GDA00031511503100001218
是否为真,若为真,进行步骤七;若不为真,则以更新权重θ后的生成器Gθ返回步骤五;
步骤七、生成器Gθ生成句子
Figure GDA00031511503100001219
通过公式(19)更新判别器的参数
Figure GDA00031511503100001220
即得到更新的判别器
Figure GDA00031511503100001221
步骤八、判断生成器和判别器是否均收敛,若均收敛则结束训练,训练完成;否则以目前的
Figure GDA00031511503100001222
返回步骤七。
在训练阶段,只使用某个数据集中的标注语句并将标注语句离散成离散概念。在整个模型的训练过程中,采用判别器判断生成器所生成的句子是否准确,促使生成器生成更加准确的句子。训练过程中需要判别器认为生成的句子与原句子是否一致且直到生成器和判别器均收敛才停止训练。在推理阶段,输入一张图片并且提取出图片中的离散概念,生成器可以将这些离散概念生成语义和语法正确的描述语句。也就是在基于无监督的概念到句子的生成对抗网络图像描述算法的模型的训练过程中采用判别器,根据判别器对生成器解码得到句子判断训练基于无监督的概念到句子的生成对抗网络图像描述算法的模型。
本发明的CSGAN经过有监督的训练后,任给一张图片,概念提取器首先提取图片中包含的目标、关系和属性的概念信息。CSGAN的生成器Gθ,根据有监督训练得到的参数θ,能首先计算出这些离散概念之前的关系,然后再将这些语义关系送入解码器生成句子。最终实现对图片在没有对应句子语料训练的情况下生成描述。
在本实施方式的实验实现中,如果使用MSCOCO中的标注语句,用有监督的方式训练CSGAN,那么就使用Flickr30k中测试集的图片来做推断。如果使用Shutterstock中的句子来训练CSGAN,则使用MSCOCO中的测试集图片作为推断时所用的数据。其中MSCOCO数据集包含113287张训练图片,5000张测试图片和4000张验证图片,且每张图片对应五个人工标注的英文句子。Flickr30k 包含30000张图片,使用1000张图片作为测试集,每张图片也对应五个人工标注的句子。关于评价指标,使用CIDEr、BLEU、SPICE、ROUGE-L(面向召回率的摘要评估辅助工具,计算的是候选摘要与参考摘要的最长公共子序列长度)、METEOR(显式排序的翻译评估指标)这几个图像描述领域通过的指标来评价模型生成句子的质量。
对于语料库中句子和图片中语义概念的提取,语料库中的人工标注语句在 CSGAN训练阶段,首先需要先提取出句子中包含的语义概念。我们直接使用在标注语句和语义概念词典中同时出现的概念作为对应句子的语义概念。概念提取器是一个在Visual Genome上预训练过的模型,可提取图片中的包含的语义概念。这些概念可划分为目标,属性和关系。针对每张图片会提取出前20个概念来表示这张图片。
生成器的双向子编码器中的单词嵌入
Figure GDA0003151150310000141
维度e是512,多头注意力机制中头的数量N设为8,前向传播的维度dff维度是2048,关系嵌入的维度r’为30,da是350。解码器LSTM的隐藏状态d是512。判别器LSTM中隐藏状态的维度也是512。dh为512,k为键矩阵和值矩阵包含的单词数。dk为64。
本发明的CSGAN网络模型通过10个epoch最小化交叉熵损失来做初始化,使用批量batch为16,利用ADAM优化模型参数,初始学习率为1×10-3,动量值为0.9和0.999。同样地,生成器使用25个epoch的MLE来训练,在验证和测试的时候使用集束为5的集束搜索,超参数λ=0.3。
本发明提出了一种基于生成对抗网络的概念到句子的无监督图像描述模型CSGAN,该模型在不使用成对图像-句子数据集的情况下,能够对测试集中的图片做出语法和语义正确的文字描述。首先,使用一个单纯的句子语料库Flickr30K 这个数据集中标注的描述语句,并使用概念提取器提取出句子中包含在预定义词典中的概念信息。通过使用有监督的方式训练CSGAN,使CSGAN能够将离散的概念生成语法和语义正确的原句子。在有监督的训练中除了用到交叉熵损失以外,还用到了句子重建损失,以及强化学习的进一步训练。其次,对于图像,使用概念提取器提取出图片中包含的目标概念、属性概念和关系概念这些概念信息。
通过这一系列的训练,本实施方式中使用MSCOCO测试集中的图片测试模型,并取得了SOTA(State-of-the-art,最优)的实验结果。此时MSCOCO和 Flickr30K是两个完全不相关的数据集。例如一幅主要展示长颈鹿的图片,该图片中还具有树木、草坪和木栅栏的图片,标准描述为:A giraffe walking during the day near a wood fence.(即:白天在木栅栏附近散步的长颈鹿。),本发明生成器输出的句子为:A giraffe walking on a lawn.(即:走在草坪上的长颈鹿。);例如一幅6个穿着滑雪板的人站在雪地上合影留念的图片,标准描述为:A group of people in ski wear and skis standing in the snow next toeach other.(即:一群穿着滑雪服和滑雪板的人并排站在雪地里。),本发明生成器输出的句子为:people standing on the snow.(即:人们站在雪地上。);例如一幅只有一名成年男士和一名成年女士的图片,两人均穿着得体的黑色礼服并站立着,相对不易观察的是:男士手中拿着一杯酒,该图片的标准描述为:A couple is dressed in black and the malehas a drink.(即:一对夫妇穿着黑色衣服,男性拥有一杯饮品。),本发明生成器输出的句子为:a man and a woman standing together with black dress.(即:一男一女穿着黑色站在一起。);例如一幅主要展示摩托车和骑手的图片,该图片中还具有平坦道路,标准描述为:A man wearing black is riding a red and sliver motorcycle.(即:一个穿黑衣的男人骑着一辆红银色的摩托车),本发明生成器输出的句子为:A man riding a blackand red motorcycle.(即:一个骑着具有黑色和红色摩托车的人。)。
通过在不同数据集上做无监督图像描述的实验,本发明的算法性能与 UC-GAN(unsupervised image captioning GAN,无监督的生成对抗网络图像描述算法)和SME-GAN(Shared Multimodal Embedding GAN,共享多模态嵌入的生成对抗网络图像描述算法)这两个无监督方法相比,取得了更优的性能,如表1。
表1不同模型在相同数据集上算法结果对比
Figure GDA0003151150310000151
表1中的GCC表示谷歌的概念描述数据集(Google’s Conceptual Captionsdataset),Bleu-1和Bleu-2是自然语言处理领域两个公用的评价模型生成的句子有多准确的评价方法。从表1可以看出,本发明所提出的算法在相同的评价指标和相同的数据集下,与另外两个方法相比均取得更好的结果。因此,本发明所提出的无监督概念到句子的生成对抗网络描述模型在利用图像的语义信息的情况下也能通过计算离散语义概念间的关系来实现图像描述的目的。
本发明基于无监督的概念到句子的生成对抗网络图像描述算法能够在不使用成对图像-句子数据集的情况下,对测试集中的图片做出语法和语义正确的文字描述。本发明的图像描述算法不需要大量的人力物力标注,在不使用成对图像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述语句。本发明的图像描述算法实现了在没有成对数据集的情况下描述图像,减小了不同模态数据间的差距。

Claims (8)

1.基于无监督的概念到句子的生成对抗网络图像描述方法,其特征在于,包括如下步骤:
生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子;
所述生成器包括一个目标-关系子编码器ROR、一个目标-属性子编码器ROA和一个基于注意力机制的解码器,所述目标-关系子编码器能够根据离散概念计算出离散概念中目标与关系之间的语义相关性,目标-属性子编码器能够根据离散概念计算出离散概念中目标与属性之间的语义相关性,解码器能够将语义关系信息解码成句子;
所述目标-关系子编码器ROR和目标-属性子编码器ROA表示为:
ROR=MultiHead(SR,SO,SO) (4)
ROA=MultiHead(SO,SA,SA) (5)
Figure FDA0003837893010000011
Mβ=BRβ,β∈{OA,OR} (7)
其中,SO表示从一幅图像或句子中提取到的一组目标概念;SR表示从一幅图像或句子中提取到的一组关系概念;SR作为查询矩阵Q,公式(4)中第一个SO作为键矩阵,公式(4)中第二个SO作为值矩阵,
Figure FDA0003837893010000012
表示ROR为NR×e的向量,通过ROR能够获取一组目标概念和关系概念的关系信息;SA表示从一幅图像或句子中提取的一组属性概念,SO作为查询矩阵,公式(5)中第一个SA作为键矩阵,公式(5)中第二个SA作为值矩阵,
Figure FDA0003837893010000013
表示ROR是维度为NO×e的向量,NR、NO、e均为正整数,通过ROA能够获取一组目标概念和属性概念的关系信息;
Figure FDA0003837893010000014
表示Rβ的可学习参数,
Figure FDA0003837893010000015
表示
Figure FDA0003837893010000016
是维度为r'×da的向量,
Figure FDA0003837893010000017
表示激活函数tanh的可学习参数,
Figure FDA0003837893010000018
表示
Figure FDA0003837893010000019
是维度为da×r'的向量,
Figure FDA00038378930100000110
表示Rβ的转置矩阵,Mβ∈Rr'×e表示Mβ是维度为r'×e的向量,MOA表示目标概念与属性概念之间的语义相关性,MOR表示目标概念与关系概念之间的语义相关性,r'、da均为正整数。
2.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述方法,其特征在于,所述生成器采用多头注意力机制计算目标概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关性。
3.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述方法,其特征在于,所述解码器为LSTM解码器,LSTM解码器在r’个目标概念与关系概念之间的语义相关性和r’个目标概念与属性概念之间的语义相关性上生成注意力分布为:
Figure FDA0003837893010000021
其中,WM表示Mβ的可学习参数,Wh表示隐藏状态hT的可学习参数,wα表示tanh函数的可学习参数,
Figure FDA0003837893010000022
表示WM是维度为da×e的向量,
Figure FDA0003837893010000023
表示Wh是维度为da×d的向量,
Figure FDA0003837893010000024
表示wα是维度为da的向量,d为正整数,
Figure FDA0003837893010000025
是矩阵相加,αT∈Rn'表示αT是维度为n'的向量,注意力关系向量为:
rT=αTM (9)
rT∈Re表示rT维度为e;
T时刻输出的单词为:
yT=soft max(Wp,rrT+Wp,hhT) (10)
其中,Wp,r∈R|D'|×e表示Wp,r是维度为|D'|×e的向量,|D'|表示语义概念词典D'的单词数量,Wp,r表示rT的可学习参数,Wp,h∈R|D'|×e表示Wp,h是维度为|D'|×d的向量,Wp,h表示隐藏状态hT的可学习参数。
4.如权利要求1至3中任意一项所述的基于无监督的概念到句子的生成对抗网络图像描述方法,其特征在于,所述方法的模型包括生成器Gθ和判别器
Figure FDA0003837893010000026
所述判别器
Figure FDA0003837893010000027
能够判别生成器Gθ得到的句子是否来自句子语料库,如果判别器
Figure FDA0003837893010000028
认为句子不是来自句子语料库,则生成器Gθ根据损失函数更新生成器Gθ的参数并再次生成句子给判别器
Figure FDA0003837893010000029
判断,直至判别器
Figure FDA00038378930100000210
认为该句子来自句子语料库。
5.如权利要求4所述的基于无监督的概念到句子的生成对抗网络图像描述方法,其特征在于,所述方法的模型还包括句子评估器模块Q',所述句子评估器模块Q'能够根据句子语料库的句子评价生成器Gθ得到的句子。
6.如权利要求1至3中任意一项所述的基于无监督的概念到句子的生成对抗网络图像描述方法,其特征在于,所述方法训练的步骤为:
步骤一、用随机的权重θ初始化生成器Gθ,用判别器
Figure FDA0003837893010000031
的参数
Figure FDA0003837893010000032
初始化判别器
Figure FDA0003837893010000033
步骤二、在训练集S上用最大似然估计预训练生成器Gθ;所述训练集S为句子语料库;
步骤三、用生成器Gθ生成若干句子
Figure FDA0003837893010000034
Figure FDA0003837893010000035
表示生成器生成的长度为1至L的句子;
步骤四、利用步骤三中生成器Gθ生成的句子预训练
Figure FDA0003837893010000036
步骤五、用Gθ生成若干句子
Figure FDA0003837893010000037
计算句子
Figure FDA0003837893010000038
为真的概率p,根据句子评估器模块Q'计算主观评价得分s,根据p和s计算奖励值,再根据奖励值更新生成器Gθ的权重θ,得到更新的生成器Gθ
步骤六、判别器
Figure FDA0003837893010000039
判断生成器Gθ生成的句子
Figure FDA00038378930100000310
是否为真,若为真,进行步骤七;若不为真,则以更新权重θ后的生成器Gθ返回步骤五;
步骤七、生成器Gθ生成句子
Figure FDA00038378930100000311
根据
Figure FDA00038378930100000312
更新判别器的参数
Figure FDA00038378930100000313
即得到更新的判别器
Figure FDA00038378930100000314
步骤八、判断生成器Gθ和判别器
Figure FDA00038378930100000315
是否均收敛,若均收敛则,训练完成;否则返回步骤七。
7.如权利要求6所述的基于无监督的概念到句子的生成对抗网络图像描述方法,其特征在于,所述步骤二中最大似然估计的公式为:
Figure FDA00038378930100000316
其中,N表示句子语料库的句子数量,即训练语句的总数,xj表示句子语料库的第j个句子,Cj表示xj提取出的离散概念,Lj表示句子语料库的第j个句子的长度,
Figure FDA0003837893010000041
表示t'时刻句子语料库的第j个句子,
Figure FDA0003837893010000042
表示1时刻至t'-1时刻句子语料库的第j个句子;
所述步骤四通过
Figure FDA0003837893010000043
预训练
Figure FDA0003837893010000044
所述步骤七中通过
Figure FDA0003837893010000045
更新判别器的参数
Figure FDA0003837893010000046
Figure FDA0003837893010000047
其中,x1:L表示句子语料库中长度为1至L的句子,pdata表示句子语料库中的句子,x1:L~pdata表示x1:L属于句子语料库,
Figure FDA0003837893010000048
表示
Figure FDA0003837893010000049
属于生成器Gθ生成的句子,E表示期望。
8.如权利要求6所述的基于无监督的概念到句子的生成对抗网络图像描述方法,其特征在于,所述步骤五中,通过公式(11)和公式(12)计算句子
Figure FDA00038378930100000410
为真的概率p,根据p和s采用公式(18)计算奖励值,再通过公式(17)用SCST方法更新生成器Gθ的权重θ;
ht'=LSTM(xt',ht'-1),t'∈{1,…,n} (11)
p=σ(WRht'+1+bR) (12)
其中,ht'表示t'时刻的隐藏状态,xt'表示t'时刻的输入单词,ht'-1表示t'-1时刻的隐藏状态,t'表示判别器的t'时刻;WR表示全连接层的权重,WR∈R2×N'表示WR为2×N'的向量,bR表示全连接层的偏置项,bR∈R2表示bR为向量长度为2,ht'+1表示t'+1时刻的隐藏状态,p表示输入句子是真的概率,σ(·)表示sigmoid激活函数;
Figure FDA00038378930100000411
其中,r(·)表示计算奖励值的函数,
Figure FDA00038378930100000412
表示生成器生成的长度为1至L的句子,λ是一个位于0和1之间的超参数;C表示离散概念,x为S的句子;
Figure FDA00038378930100000413
其中,xs是判别器从生成器Gθ中采样出来的句子,xg表示生成器Gθ采用贪婪解码策略采样出来的句子,Ls表示生成器Gθ采样出来的句子的最大长度,
Figure FDA00038378930100000414
表示生成器Gθ采样出来的第t'个单词,
Figure FDA0003837893010000051
表示生成器Gθ采样出来的1至t'-1个单词。
CN202110658282.4A 2021-06-15 2021-06-15 基于无监督的概念到句子的生成对抗网络图像描述方法 Active CN113220891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110658282.4A CN113220891B (zh) 2021-06-15 2021-06-15 基于无监督的概念到句子的生成对抗网络图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110658282.4A CN113220891B (zh) 2021-06-15 2021-06-15 基于无监督的概念到句子的生成对抗网络图像描述方法

Publications (2)

Publication Number Publication Date
CN113220891A CN113220891A (zh) 2021-08-06
CN113220891B true CN113220891B (zh) 2022-10-18

Family

ID=77080273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110658282.4A Active CN113220891B (zh) 2021-06-15 2021-06-15 基于无监督的概念到句子的生成对抗网络图像描述方法

Country Status (1)

Country Link
CN (1) CN113220891B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609326B (zh) * 2021-08-25 2023-04-28 广西师范大学 基于外部知识和目标间关系的图像描述生成方法
CN114882292B (zh) * 2022-05-31 2024-04-12 武汉理工大学 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法
CN115953779B (zh) * 2023-03-03 2023-06-16 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287357A (zh) * 2019-05-31 2019-09-27 浙江工业大学 一种基于条件生成对抗网络的图像描述生成方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111242059A (zh) * 2020-01-16 2020-06-05 合肥工业大学 基于递归记忆网络的无监督图像描述模型的生成方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113599B2 (en) * 2017-06-22 2021-09-07 Adobe Inc. Image captioning utilizing semantic text modeling and adversarial learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287357A (zh) * 2019-05-31 2019-09-27 浙江工业大学 一种基于条件生成对抗网络的图像描述生成方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111242059A (zh) * 2020-01-16 2020-06-05 合肥工业大学 基于递归记忆网络的无监督图像描述模型的生成方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法

Also Published As

Publication number Publication date
CN113220891A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Agrawal et al. Nocaps: Novel object captioning at scale
Biten et al. Good news, everyone! context driven entity-aware captioning for news images
CN113220891B (zh) 基于无监督的概念到句子的生成对抗网络图像描述方法
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
Dai et al. Towards diverse and natural image descriptions via a conditional gan
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
Wang et al. Show, recall, and tell: Image captioning with recall mechanism
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
Perez-Martin et al. Improving video captioning with temporal composition of a visual-syntactic embedding
CN109800434B (zh) 基于眼动注意力的抽象文本标题生成方法
Zhao et al. A Multi-task Learning Approach for Image Captioning.
CN110390397A (zh) 一种文本蕴含识别方法及装置
Zhang et al. Semantic sentence embeddings for paraphrasing and text summarization
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN113987129A (zh) 基于变分自动编码器的数字媒体保护文本隐写方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
Yang et al. ATT-BM-SOM: a framework of effectively choosing image information and optimizing syntax for image captioning
Ma et al. Hierarchical similarity learning for language-based product image retrieval
CN115577072A (zh) 一种基于深度学习的短文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant