CN113220891A - 基于无监督的概念到句子的生成对抗网络图像描述算法 - Google Patents
基于无监督的概念到句子的生成对抗网络图像描述算法 Download PDFInfo
- Publication number
- CN113220891A CN113220891A CN202110658282.4A CN202110658282A CN113220891A CN 113220891 A CN113220891 A CN 113220891A CN 202110658282 A CN202110658282 A CN 202110658282A CN 113220891 A CN113220891 A CN 113220891A
- Authority
- CN
- China
- Prior art keywords
- sentence
- concept
- concepts
- generator
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000011156 evaluation Methods 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000007476 Maximum Likelihood Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 230000003042 antagnostic effect Effects 0.000 claims 1
- 238000013145 classification model Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 241000282818 Giraffidae Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 241000282819 Giraffa Species 0.000 description 2
- 235000019987 cider Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000013599 spices Nutrition 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于无监督的概念到句子的生成对抗网络图像描述算法涉及图像描述技术领域,解决了现有不能在没有成对数据集的情况下描述图像的问题,具体为:生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接两语义相关性得到语义关系信息,生成器将语义关系信息解码成句子。本发明利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述语句,实现了在没有成对数据集的情况下描述图像。
Description
技术领域
本发明涉及图像描述技术领域,具体涉及基于无监督的概念到句子的生成 对抗网络图像描述算法。
背景技术
图像描述算法是近几年前沿的一个多模态研究方向,该任务目的是将一幅 图像自动地生成一段描述该图像的文字。图像描述算法不仅需要计算机视觉方 向的算法来提取图像特征,而且还需要自然语言处理相关的算法将这些表示图 像的特征转换成文字。图像描述算法应用领域较广,其可以应用到机器人、跨 模态搜索以及盲人导航等方面。随着深度学习的发展,大量的学者开展了图像 描述方面的研究,促进了图像描述算法在近几年获得了非常大的性能提升。
传统的图像描述算法通常是指基于有监督训练的模型。此类模型大多采用 编码器-解码器结构,其中编码器是卷积神经网络CNN,而解码器是循环神经网 络RNN。有监督训练时使用Microsoft COCO数据集,该数据集包含有113287 张图像,每张图像对应五个人工标注的英文描述语句。通过使用该数据集,基 于有监督的图像描述算法取得了接近于人类对于图像理解的能力。但是,基于 有监督的图像描述算法严重依赖成对的图像-句子数据集,且MSCOCO数据集 只有英文的标注语句。而世界上语言种类较多,对每一种语言都做图像-句子的 标注是耗费时间、精力和金钱的一项工作。因此,无监督的图像描述算法将会为多语言图像描述打下坚实的基础。
目前已有的无监督图像描述模型主要采用GAN网络,生成器和判别器分别 是一个LSTM。模型先利用预训练好的卷积神经网络Inception-V4提取图像的视 觉特征,并将视觉特征输入到生成器中。生成器LSTM将视觉特征转换为文字, 并由判别器LSTM来判断每个单词的真假。这样经过一次次地博弈,最终生成 器能够生成语法和目标都正确的句子。但是该类方法单纯使用图像的视觉特征, 而无监督图像描述算法很难在没有对应标注语句的情况下推断出图像中目标物 体间的关系,因此加入图像中物体间的关系及属性等语义信息将会有助于提高 算法对图像的理解。
综上可知,由于目前大多数的图像描述算法依赖于成对的图像-句子数据集Microsoft COCO,而这种成对的图像-句子数据集需要大量的人力物力才能标注 出来。因此,如何实现在没有成对数据集的情况下描述图像是一个难题。另外, 图像描述是一个跨模态的任务,如何减小不同模态数据间的差距也是一个重要 难点。因此,亟需解决如何在不使用成对图像-句子数据集的情况下,利用一些 预训练的目标检测模型及分类模型提取图像中包含的概念信息,并且通过 CGAN网络将这一模态的离散概念转换为同一模态的图像描述语句。
发明内容
为了解决上述问题,本发明提供基于无监督的概念到句子的生成对抗网络 图像描述算法。
本发明为解决技术问题所采用的技术方案如下:
基于无监督的概念到句子的生成对抗网络图像描述算法,包括如下步骤:
生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关 性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关 性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、 关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的 语义相关性得到语义关系信息,将语义关系信息解码成句子。
基于无监督的概念到句子的生成对抗网络图像描述算法,所述算法的模型 包括所述生成器Gθ和判别器所述判别器能够判别生成器Gθ得到的句子是 否来自句子语料库,如果判别器认为句子不是来自句子语料库,则生成器Gθ根 据损失函数更新生成器Gθ的参数并再次生成句子给判别器判断,直至判别器 认为该句子来自句子语料库。
基于无监督的概念到句子的生成对抗网络图像描述算法,所述算法训练的 步骤为:
步骤二、在训练集S上用最大似然估计预训练生成器Gθ;所述训练集S为句 子语料库;
本发明的有益效果是:
本发明基于无监督的概念到句子的生成对抗网络图像描述算法能够在不使 用成对图像-句子数据集的情况下,对测试集中的图片做出语法和语义正确的文 字描述。本发明的图像描述算法不需要大量的人力物力标注,在不使用成对图 像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像 中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述 语句。本发明的图像描述算法实现了在没有成对数据集的情况下描述图像,减 小了不同模态数据间的差距。
附图说明
图1为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的 CSGAN框架图
图2为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的双 向语义编码器框架图。
图3为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的判 别器结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和 具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具 体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述 的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的 限制。
基于无监督的概念到句子的生成对抗网络图像描述算法(Concept to SentenceGAN,简称CSGAN),算法具体为:(概念提取器)提取图像中语义 概念并分类成离散概念,包括目标概念(即表示目标的概念)、关系概念(即 表示关系的概念)和属性概念(即表示属性的概念),离散概念即离散的语义 概念,为单词。生成器根据离散概念计算出其中目标概念与关系概念之间的语 义相关性,生成器根据离散概念计算出其中目标概念与属性概念之间的语义相 关性,生成器拼接目标概念与关系概念之间的语义相关性和目标概念与属性概 念之间的语义相关性得到语义关系信息,生成器将语义关系信息解码成句子。
对于图像中语义概念的提取,本发明采用预训练好的Faster R-CNN网络提 取每幅图像中包含的目标,利用多标签分类器对不同目标间存在的关系进行提 取,并利用多标签分类器对每个目标包含的属性进行提取。这样便能提取出一 幅图像中包含的目标、关系和属性概念。具体的,使用在Visual Genome数据集 上预训练过的Faster R-CNN对图片进行目标提取,采用MOTIFS作为关系提取 器,最后额外增加一个分类器作为属性提取器。
对于句子语料中语义概念的提取,本发明直接使用那些在ground truth(句 子语料库的句子)和语义概念词典中同时出现的单词作为句子的概念。
通过对于图像或句子语料中语义概念提取得到离散的概念,即得到表示目 标概念、关系概念或属性概念的单词。句子语料库中句子和图像均能够被提取 得到离散概念。
本发明提出的CSGAN网络模型包含一个生成器和一个判别器,生成器包括 双向语义编码器和一个解码器,判别器是一个LSTM。CSGAN网络模型还可包 括句子评估器模块,如图1。其中双向语义编码器由两个子编码器组成:目标关 系编码器(又叫目标-关系子编码器)和目标属性编码器(又叫目标-属性子编码 器)。解码器是一个基于注意力机制的解码器。
双向语义编码器,由一个目标关系编码器和一个目标属性编码器组成。将 提取到的图像中语义概念分类成目标概念、关系概念和属性概念,目标概念、 关系概念、属性概念均为单词,通过目标关系编码器计算出离散概念中所有的 目标概念与关系概念之间的语义相关性:“目标-关系-目标”,如“女孩-打-网球”。 通过目标属性编码器计算出离散概念中包含的所有目标概念与属性概念之间的 语义相关性:“目标-属性”,如“绿色的-网球”(“绿色的”为属性)。双向编码 器主要由多头注意力机制实现。双向语义编码器采用多头注意力机制计算目标 概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关 性。而多头注意力机制则由多个点乘注意力机制拼接而成。如图2,目标关系编码器和目标属性编码器均由两个子层构成,每个子层后面都有一个残差连接模 块和归一化模块(Residual、Add&Norm),第一个子层是多头注意力模块 (Multi-head attention),第二个子层是全连接的前馈神经网络(Feed-forward)。
目标关系编码器根据离散概念计算离散概念中目标概念与关系概念之间的 语义相关性,目标属性编码器根据离散概念计算离散概念中目标概念与属性概 念之间的语义相关性,生成器拼接目标与关系之间的语义相关性和目标与属性 之间的语义相关性得到语义关系信息,解码器将语义关系信息解码成句子;判 别器判别解码器解码得到的句子是否来自句子语料库,如果判别器认为句子不 是来自句子语料库,则生成器根据损失函数更新生成器的参数并再次生成句子 给判别器判断,直至判别器认为该句子来自句子语料库。
为了计算离散概念中每一对概念间(一个目标概念与一个关系概念之间、 一个目标概念与一个属性概念之间)的关系权重,从一组查询矩阵Q=(q1,…,ql)中 给出一个查询qi(即查询),i∈(1,…,l),i表示的是第i个离散概念(第i个单词), l为正整数,l表示离散概念的数量(就是有多少个单词),即表示查询矩阵中 的查询元素的数量,同时从Q中给出另一组关键字ki*(即键)和数值vi*(即值), i*∈(1,…,l),i*表示的是第i*个离散概念(第i*个单词)。点乘注意力机制输出vi*的加权和,其中vi*的权重由qi和ki*的点乘决定。为了通过高度优化的矩阵乘法 实现点积运算,将查询、键和值打包成矩阵Q=(q1,…,ql),K=(k1,…,kl)和 V=(v1,…,vl)。点乘注意力机制可定义为:
其中,Q表示查询矩阵,表示Q为l×dh的向量,K表示键矩阵,表示K是维度为k×dh的向量,V表示值矩阵,表示V是维 度为k×dh的向量,k表示K和V的长度,dh表示Q、K和V宽度、dh也表示 WQ、WK和WV的长度,WQ、WK和WV均为可学习参数,WQ表示查询矩阵Q 的可学习参数,表示WQ是维度为dh×dk的向量,WK表示键矩阵K 的可学习参数,表示WK是维度为dh×dk的向量,WV表示值矩阵V 的可学习参数,表示WV是维度为dh×dk的向量,dk=dh/n,dk代表 WQ、WK和WV的宽度,其中n代表双向语义编码器所用多头注意力机制中子空 间的数量,即点乘注意力机制的数量。k、dh、dk均为正整数。多头注意力机制 包含平行的点乘注意力机制共n个。输入向量Q、K、V、WQ、WK和WV被映 射到n个子空间中,并且多头注意力分别在子空间中表示为:
Hm=Attention(QWQ,KWK,VWV) (2)
MultiHead(Q,K,V)=Concat(H1,…,Hn)WO (3)
其中Hm表示第m个子空间,1≤m≤n;WO表示线性变换;Concat(·)表示矩 阵拼接;MultiHead(·)表示多头注意力机制,是n个点乘注意力机制拼接后做线性 变换的结果。本发明使用基于多头注意力机制的方法使得目标概念可以找到与 其最相关的属性概念和关系概念。
具体地,目标-关系子编码器可表示为:
ROR=MultiHead(SR,SO,SO) (4)
其中,SO表示从一幅图像或句子中提取到的一组目标概念;SR表示从一幅图 像或句子中提取到的一组关系概念。SR作为查询矩阵Q(称为查询矩阵一),公 式(4)中第一个SO作为键矩阵K(称为键矩阵一),公式(4)中第二个SO作 为值矩阵V(称为值矩阵一),表示ROR为NR×e的向量,NR表示 ROR的长度,e表示ROR的宽度,NR、NO、e均为正整数。通过多头注意力机制ROR的计算可以获取一组目标-关系-目标的关系信息,从而达到计算离散单词之 间关系的目的。
同样地,目标-属性子编码器可表示为:
ROA=MultiHead(SO,SA,SA) (5)
其中,SA表示从一幅图像或句子中提取的一组属性概念,SO作为查询矩阵 Q(称为查询矩阵二),公式(5)中第一个SA作为键矩阵K(称为键矩阵二), 公式(5)中第二个SA作为值矩阵V(称为值矩阵二),表示ROR是 维度为NO×e的向量,NO表示ROA的长度。通过ROA可获取一组目标-属性的关 系信息。
由于最后计算出来的ROR和ROA包含的维度不同,因此本发明使用注意力机 制的计算使ROR和ROA具有相同的维度,便于后续解码。具体是:
Mβ=BRβ,β∈{OA,OR) (7)
其中,表示Rβ的可学习参数,表示是维度为r'×da的向量,r'表示概念数,同时表示的长度、的宽度、Mβ的长度,表示激活函 数tanh的可学习参数,表示是维度为da×r'的向量,表示Rβ的 转置矩阵,Mβ∈Rr '×e表示Mβ是维度为r'×e的向量,Mβ表示最终维度相同的语 义关系嵌入。r'、da均为正整数。
通过上述计算,可以得到维度相同的语义关系嵌入MOA和MOR,MOA作为 目标-属性语义关系嵌入,MOR作为目标-关系语义关系嵌入。MOA和MOR统称为 M,M表示语义关系嵌入,MOA表示目标概念与属性概念之间的语义相关性, MOR表示目标概念与关系概念之间的语义相关性。
在得到维度一致的语义关系以后,我们采用基于注意力机制的LSTM解码 器对语义关系进行解码。本发明图像描述算法使用的是图片的语义关系信息(即 语义相关性)而不是用CNN提取的图像的视觉信息。具体是在每一个时刻T(T 表示解码过程的时刻),将对应T时刻的单词嵌入向量与语义概念向量的平 均值做拼接后的作为解码器的输入,Nl表示语义 概念向量的数量,ci'表示第i'个语义概念向量,xT表示T时刻拼接后的单词嵌 入向量和语义概念向量的平均值cavg。单词嵌入向量是指对T时刻一个单词 编码的嵌入向量表示;语义概念向量是指对句子或图像中提取出来的所有概念 编码成语义概念向量。并且在每个时刻T,插入拼接后的语义关系嵌入向量M=[MOA;MOR]。根据时刻T的隐藏状态hT∈Rd(hT是维度为d的向量),LSTM 解码器在2r’个语义关系嵌入向量M上(在r’个目标概念与关系概念之间的语义 相关性和r’个目标概念与属性概念之间的语义相关性上)生成注意力分布:
其中,表示Mβ的转置,WM表示语义关系嵌入向量Mβ的可学习参数, Wh表示隐藏状态hT的可学习参数,wα表示tanh函数的可学习参数,表示WM是维度为da×e的向量,表示Wh是维度为da×d的向量, 表示wα是维度为da的向量,n'和d均为正整数,是矩阵相加,αT∈Rn' 表示αT是维度为n'的向量,αT是M的注意力权重,并且注意力关系向量 rT∈Re(rT维度为e)可定义如下:
rT=αTM (9)
最终,当前单词的注意力关系可预测为:
yT=softmax(Wp,rrT+Wp,hhT) (10)
其中,Wp,r∈R|D'|×e表示Wp,r是维度为|D'|×e的向量,|D'|表示语义概念词典D' 的单词数量,Wp,r表示rT的可学习参数,Wp,h∈R|D'|×e表示Wp,h是维度为|D'|×d的 向量,d表示Wp,h的向量宽度,Wp,h表示隐藏状态hT的可学习参数,yT表示T时 刻输出的单词。
本发明所提出的CSGAN模型结构如图1所示,有一个生成器和一个判别器。 其中生成器包含一个目标-关系子编码器ROR、一个目标-属性子编码器RAO和一个 基于注意力机制的解码器。判别器是一个LSTM,用于判断句子的真假。生 成器中的ROR用于离散概念中目标概念与关系概念之间的语义相关性。RAO用于计 算离散概念中目标概念与属性概念之间的语义相关性。生成器将这两种拼接后 的语义关系信息输入解码器中解码成句子。而判别器用于判别这些句子是来 自句子语料库还是生成器生成的,如果判别器判断其输入是生成器生成的, 生成器就根据损失函数更新自己的参数并再次生成句子给判别器判断,直到判 别器认为该句子来自句子语料库,通过这种博弈的训练方式直至CSGAN模型收 敛,训练结束。
由于最常用的序列建模网络是循环神经网络RNN,所以本发明使用标准的 LSTM作为判别器,如图3(其中的embedding表示嵌入层)。
ht'=LSTM(xt',ht'-1),t'∈{1,…,n} (11)
ht'表示t'时刻的隐藏状态,xt'表示t'时刻的输入单词,ht'-1表示t'-1时刻的 隐藏状态,t'表示判别器的t'时刻。
判别器的LSTM之后有一个全连接层(MLP)和一个softmax层,即判别 器包括LSTM(称为判别器的LSTM)、全连接层和softmax层,全连接层和softmax 层对于输入句子是真假的概率可通过下述公式进行计算:
p=σ(WRht'+1+bR) (12)
其中,WR表示全连接层的权重,WR∈R2×N'表示WR为2×N'的向量,N'为正整 数,bR表示全连接层的偏置项,bR∈R2,表示bR为向量长度为2,ht'+1表示t'+1时 刻的隐藏状态,p表示输入句子是真的概率,σ(·)表示sigmoid激活函数。
本发明使用句子语料库对模型进行有监督训练,本发明基于一个纯图片数 据集和一个与图片无关的句子语料库。在有句子语料库及对句子语料库提取到 的离散概念(单词)的情况下,可以通过使用公式(13)预训练生成器网络Gθ, 使得生成器能够将从句子语料库中的离散出的概念生成原句子(句子语料库中 的句子)。通过这种方式,生成器网络可以学习到句子语料库中的单词(离散 概念)间的关系,通过生成对抗的方式最终生成语法和语义正确的句子。在使 用最大似然估计训练模型Gθ达到收敛后,再利用强化学习(奖励值r更新生成 器Gθ的方法)进一步优化句子的评价指标CIDEr(CentroInterdisciplinario de Estudios Regionales),使得模型Gθ的翻译性能在所有指标上均获得提升。需要 注意的是,强化学习只在对句子语料进行有监督训练时用到。当我们的Gθ生成 器模型可以把句子语料库中的句子重建以后,生成器Gθ便可以根据一组离散单 词生成一个句子。所以此时给出一张图片,我们先用概念提取器提取出图片中 离散的概念(目标概念、关系概念、属性概念),然后只需要用到生成器Gθ便 可将这些离散概念生成对图像的描述语句。
传统RNN的训练是使用最大似然估计MLE,也就是生成描述语句的模型Gθ 生成器,Gθ的参数θ是通过最大似然估计来训练的:
其中,N表示句子语料库的句子数量即训练语句的总数,xj表示句子语料 库的第j个句子,Cj表示xj提取出的离散概念,Lj表示句子语料库的第j个句 子的长度,表示t'时刻句子语料库的第j个句子,表示1时刻至t'-1时刻 句子语料库的第j个句子。因为本发明要使用强化学习的方法来训练,因此,生 成器中的解码器可被看作是“代理”,与输入单词之间的交互称为“环境”, 生成器Gθ被看作是“策略”,生成器Gθ对下一个单词的预测称为“行动”。当 生成器Gθ采取“行动”以后,“代理”便会更新它的“状态”(即解码器的权 重,注意力模型的参数等)。当生成结束标志EOS后,“代理”返回一个“奖 励”r,例如语言评价指标(基于共识的图像描述评估CIDEr,双语评估辅助工具 BLEU,语义命题图像标题评估SPICE等)计算的结果用r表示。因此,强化学 习训练的目标是最大化生成器的期望奖励,最大化生成器的期望奖励LG(θ)为:
其中,是判别器从生成器Gθ中采样出来的句子(Gθ解码得到 的句子),表示采样出来的句子xs中的第一个单词,表示采样出来的句子xs中的第二个单词……表示采样出来句子xs中的第L个单词,L为正整数,r(·) 表示计算奖励值的函数,E表示期望,表示生成器Gθ期望的奖励。 期望值用蒙特卡罗近似:
LG(θ)≈r(xs) (15)
基线b可以是任意函数,但它不依赖于“行动”xs。SCST训练(self-criticalsequence training)方法以当前生成器模型在测试时使用的贪婪解码算法下得到 的奖赏r作为基线函数。然后,梯度函数可表示如下:
其中,xg表示生成器采用贪婪解码策略采样出来的句子。
如图1所示,生成器的训练过程中还采用了句子评估模块Q',生成器生成 一个句子判别器和句子评估模块Q'将会基于不同的标准各计算一个值 来评价生成器Gθ生成的句子质量:判别器会计算一个概率值p~[0,1]来表示所 给句子是人生成的(句子语料库中的)还是机器生成的(生成器得到的)。而 句子评估模块Q'将会计算一个主观评价得分s。注意,在训练期间,判别器将与 生成器一起交替改进,而句子评估器模块Q'是预定义的函数(如CIDEr)在训练 期间是严格固定的。因此,判别器和句子评估模块Q'这两个模块协同工作, 在评估指标下获得高分。最终,给定离散概念C(C为概念提取器得到的)和给 定基本ground truth句子x后(x为句子语料库的句子,x∈S),强化学习奖励的计 算为:
需要注意的是,本发明的CSGAN算法需要先预训练生成器和判别器。然后 再通过标准GAN的训练过程交替地微调生成器和判别器。训练过程可描述如下:
步骤二、在训练集S上用最大似然估计公式(13)预训练生成器Gθ。
步骤五、如图1,用Gθ生成一个mini-batch的句子判别器通过公式 (11)和公式(12)计算句子为真的概率p,句子评估器模块Q'根据x1:L和本步骤 的计算主观评价得分s,根据p和s采用公式(18)计算奖励值,再通过公 式(17)用SCST方法更新生成器Gθ的权重θ,即得到更新的生成器Gθ;
在训练阶段,只使用某个数据集中的标注语句并将标注语句离散成离散概 念。在整个模型的训练过程中,采用判别器判断生成器所生成的句子是否准确, 促使生成器生成更加准确的句子。训练过程中需要判别器认为生成的句子与原 句子是否一致且直到生成器和判别器均收敛才停止训练。在推理阶段,输入一 张图片并且提取出图片中的离散概念,生成器可以将这些离散概念生成语义和 语法正确的描述语句。也就是在基于无监督的概念到句子的生成对抗网络图像 描述算法的模型的训练过程中采用判别器,根据判别器对生成器解码得到句子 判断训练基于无监督的概念到句子的生成对抗网络图像描述算法的模型。
本发明的CSGAN经过有监督的训练后,任给一张图片,概念提取器首先提 取图片中包含的目标、关系和属性的概念信息。CSGAN的生成器Gθ,根据有监 督训练得到的参数θ,能首先计算出这些离散概念之前的关系,然后再将这些语 义关系送入解码器生成句子。最终实现对图片在没有对应句子语料训练的情况 下生成描述。
在本实施方式的实验实现中,如果使用MSCOCO中的标注语句,用有监督 的方式训练CSGAN,那么就使用Flickr30k中测试集的图片来做推断。如果使 用Shutterstock中的句子来训练CSGAN,则使用MSCOCO中的测试集图片作为 推断时所用的数据。其中MSCOCO数据集包含113287张训练图片,5000张测 试图片和4000张验证图片,且每张图片对应五个人工标注的英文句子。Flickr30k 包含30000张图片,使用1000张图片作为测试集,每张图片也对应五个人工标 注的句子。关于评价指标,使用CIDEr、BLEU、SPICE、ROUGE-L(面向召回 率的摘要评估辅助工具,计算的是候选摘要与参考摘要的最长公共子序列长 度)、METEOR(显式排序的翻译评估指标)这几个图像描述领域通过的指标 来评价模型生成句子的质量。
对于语料库中句子和图片中语义概念的提取,语料库中的人工标注语句在 CSGAN训练阶段,首先需要先提取出句子中包含的语义概念。我们直接使用在 标注语句和语义概念词典中同时出现的概念作为对应句子的语义概念。概念提 取器是一个在Visual Genome上预训练过的模型,可提取图片中的包含的语义概 念。这些概念可划分为目标,属性和关系。针对每张图片会提取出前20个概念 来表示这张图片。
生成器的双向子编码器中的单词嵌入维度e是512,多头注意力机制中 头的数量N设为8,前向传播的维度dff维度是2048,关系嵌入的维度r’为30, da是350。解码器LSTM的隐藏状态d是512。判别器LSTM中隐藏状态的维度 也是512。dh为512,k为键矩阵和值矩阵包含的单词数。dk为64。
本发明的CSGAN网络模型通过10个epoch最小化交叉熵损失来做初始化, 使用批量batch为16,利用ADAM优化模型参数,初始学习率为1×10-3,动量 值为0.9和0.999。同样地,生成器使用25个epoch的MLE来训练,在验证和 测试的时候使用集束为5的集束搜索,超参数λ=0.3。
本发明提出了一种基于生成对抗网络的概念到句子的无监督图像描述模型CSGAN,该模型在不使用成对图像-句子数据集的情况下,能够对测试集中的图 片做出语法和语义正确的文字描述。首先,使用一个单纯的句子语料库Flickr30K 这个数据集中标注的描述语句,并使用概念提取器提取出句子中包含在预定义 词典中的概念信息。通过使用有监督的方式训练CSGAN,使CSGAN能够将离 散的概念生成语法和语义正确的原句子。在有监督的训练中除了用到交叉熵损 失以外,还用到了句子重建损失,以及强化学习的进一步训练。其次,对于图 像,使用概念提取器提取出图片中包含的目标概念、属性概念和关系概念这些 概念信息。
通过这一系列的训练,本实施方式中使用MSCOCO测试集中的图片测试模 型,并取得了SOTA(State-of-the-art,最优)的实验结果。此时MSCOCO和 Flickr30K是两个完全不相关的数据集。例如一幅主要展示长颈鹿的图片,该图 片中还具有树木、草坪和木栅栏的图片,标准描述为:A giraffe walking during the day near a wood fence.(即:白天在木栅栏附近散步的长颈鹿。),本发明生成器输 出的句子为:A giraffe walking on alawn.(即:走在草坪上的长颈鹿。);例如一 幅6个穿着滑雪板的人站在雪地上合影留念的图片,标准描述为:A group of people in ski wear and skis standing in the snownext to each other.(即:一群穿着滑 雪服和滑雪板的人并排站在雪地里。),本发明生成器输出的句子为:people standing on the snow.(即:人们站在雪地上。);例如一幅只有一名成年男士和一 名成年女士的图片,两人均穿着得体的黑色礼服并站立着,相对不易观察的是: 男士手中拿着一杯酒,该图片的标准描述为:A couple is dressed in blackand the male has a drink.(即:一对夫妇穿着黑色衣服,男性拥有一杯饮品。),本发明生成器输出的句子为:a man and a woman standing together with black dress.(即:一男一女穿着黑色站在一起。);例如一幅主要展示摩托车和骑手的图片,该图片 中还具有平坦道路,标准描述为:A man wearing black is riding a red and sliver motorcycle.(即:一个穿黑衣的男人骑着一辆红银色的摩托车),本发明生成器输 出的句子为:A manriding a black and red motorcycle.(即:一个骑着具有黑色和 红色摩托车的人。)。
通过在不同数据集上做无监督图像描述的实验,本发明的算法性能与 UC-GAN(unsupervised image captioning GAN,无监督的生成对抗网络图像描述 算法)和SME-GAN(Shared Multimodal Embedding GAN,共享多模态嵌入的生 成对抗网络图像描述算法)这两个无监督方法相比,取得了更优的性能,如表1。
表1不同模型在相同数据集上算法结果对比
表1中的GCC表示谷歌的概念描述数据集(Google’s Conceptual Captionsdataset),Bleu-1和Bleu-2是自然语言处理领域两个公用的评价模型生成的句 子有多准确的评价方法。从表1可以看出,本发明所提出的算法在相同的评价 指标和相同的数据集下,与另外两个方法相比均取得更好的结果。因此,本发 明所提出的无监督概念到句子的生成对抗网络描述模型在利用图像的语义信息 的情况下也能通过计算离散语义概念间的关系来实现图像描述的目的。
本发明基于无监督的概念到句子的生成对抗网络图像描述算法能够在不使 用成对图像-句子数据集的情况下,对测试集中的图片做出语法和语义正确的文 字描述。本发明的图像描述算法不需要大量的人力物力标注,在不使用成对图 像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像 中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述 语句。本发明的图像描述算法实现了在没有成对数据集的情况下描述图像,减 小了不同模态数据间的差距。
Claims (10)
1.基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,包括如下步骤:
生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子。
2.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述生成器采用多头注意力机制计算目标概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关性。
3.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述生成器包括一个目标-关系子编码器ROR、一个目标-属性子编码器ROA和一个基于注意力机制的解码器,所述目标-关系子编码器能够根据离散概念计算出离散概念中目标与关系之间的语义相关性,目标-属性子编码器能够离散概念计算出离散概念中目标与属性之间的语义相关性,解码器能够将语义关系信息解码成句子。
4.如权利要求3所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述目标-关系子编码器ROR和目标-属性子编码器ROA表示为:
ROR=MultiHead(SR,SO,SO) (4)
ROA=MultiHead(SO,SA,SA) (5)
Mβ=BRβ,β∈{OA,OR} (7)
其中,SO表示从一幅图像或句子中提取到的一组目标概念;SR表示从一幅图像或句子中提取到的一组关系概念;SR作为查询矩阵Q,公式(4)中第一个SO作为键矩阵,公式(4)中第二个SO作为值矩阵,表示ROR为NR×e的向量,通过ROR能够获取一组目标概念和关系概念的关系信息;SA表示从一幅图像或句子中提取的一组属性概念,SO作为查询矩阵,公式(5)中第一个SA作为键矩阵,公式(5)中第二个SA作为值矩阵,表示ROR是维度为NO×e的向量,NR、NO、e均为正整数,通过ROA能够获取一组目标概念和属性概念的关系信息;表示Rβ的可学习参数,表示是维度为r'×da的向量,表示激活函数tanh的可学习参数,表示是维度为da×r'的向量,表示Rβ的转置矩阵,Mβ∈Rr'×e表示Mβ是维度为r'×e的向量,MOA表示目标概念与属性概念之间的语义相关性,MOR表示目标概念与关系概念之间的语义相关性,r'、da均为正整数。
5.如权利要求4所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述解码器为LSTM解码器,LSTM解码器在r’个目标概念与关系概念之间的语义相关性和r’个目标概念与属性概念之间的语义相关性上生成注意力分布为:
其中,WM表示Mβ的可学习参数,Wh表示隐藏状态hT的可学习参数,wα表示tanh函数的可学习参数,表示WM是维度为da×e的向量,表示Wh是维度为da×d的向量,表示wα是维度为da的向量,d为正整数,是矩阵相加,αT∈Rn'表示αT是维度为n'的向量,注意力关系向量为:
rT=αTM (9)
rT∈Re表示rT维度为e;
T时刻输出的单词为:
yT=softmax(Wp,rrT+Wp,hhT) (10)
其中,Wp,r∈R|D'|×e表示Wp,r是维度为|D'|×e的向量,|D'|表示语义概念词典D'的单词数量,Wp,r表示rT的可学习参数,Wp,h∈R|D'|×e表示Wp,h是维度为|D'|×d的向量,Wp,h表示隐藏状态hT的可学习参数。
7.如权利要求6所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述算法的模型还包括句子评估器模块Q',所述句子评估器模块Q'能够根据句子语料库的句子评价生成器Gθ得到的句子。
8.如权利要求1至5中任意一项所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述算法训练的步骤为:
步骤二、在训练集S上用最大似然估计预训练生成器Gθ;所述训练集S为句子语料库;
10.如权利要求8所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述步骤五中,通过公式(11)和公式(12)计算句子为真的概率p,根据p和s采用公式(18)计算奖励值,再通过公式(17)用SCST方法更新生成器Gθ的权重θ;
ht'=LSTM(xt',ht'-1),t'∈{1,…,n} (11)
p=σ(WRht'+1+bR) (12)
其中,ht'表示t'时刻的隐藏状态,xt'表示t'时刻的输入单词,ht'-1表示t'-1时刻的隐藏状态,t'表示判别器的t'时刻;WR表示全连接层的权重,WR∈R2×N'表示WR为2×N'的向量,bR表示全连接层的偏置项,bR∈R2表示bR为向量长度为2,ht'+1表示t'+1时刻的隐藏状态,p表示输入句子是真的概率,σ(·)表示sigmoid激活函数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110658282.4A CN113220891B (zh) | 2021-06-15 | 2021-06-15 | 基于无监督的概念到句子的生成对抗网络图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110658282.4A CN113220891B (zh) | 2021-06-15 | 2021-06-15 | 基于无监督的概念到句子的生成对抗网络图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220891A true CN113220891A (zh) | 2021-08-06 |
CN113220891B CN113220891B (zh) | 2022-10-18 |
Family
ID=77080273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110658282.4A Active CN113220891B (zh) | 2021-06-15 | 2021-06-15 | 基于无监督的概念到句子的生成对抗网络图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220891B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609326A (zh) * | 2021-08-25 | 2021-11-05 | 广西师范大学 | 基于外部知识和目标间关系的图像描述生成方法 |
CN114882292A (zh) * | 2022-05-31 | 2022-08-09 | 武汉理工大学 | 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法 |
CN115953779A (zh) * | 2023-03-03 | 2023-04-11 | 中国科学技术大学 | 基于文本对抗生成网络的无监督图像描述生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180373979A1 (en) * | 2017-06-22 | 2018-12-27 | Adobe Systems Incorporated | Image captioning utilizing semantic text modeling and adversarial learning |
CN110287357A (zh) * | 2019-05-31 | 2019-09-27 | 浙江工业大学 | 一种基于条件生成对抗网络的图像描述生成方法 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
CN111242059A (zh) * | 2020-01-16 | 2020-06-05 | 合肥工业大学 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
CN112818159A (zh) * | 2021-02-24 | 2021-05-18 | 上海交通大学 | 一种基于生成对抗网络的图像描述文本生成方法 |
-
2021
- 2021-06-15 CN CN202110658282.4A patent/CN113220891B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180373979A1 (en) * | 2017-06-22 | 2018-12-27 | Adobe Systems Incorporated | Image captioning utilizing semantic text modeling and adversarial learning |
CN110287357A (zh) * | 2019-05-31 | 2019-09-27 | 浙江工业大学 | 一种基于条件生成对抗网络的图像描述生成方法 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
CN111242059A (zh) * | 2020-01-16 | 2020-06-05 | 合肥工业大学 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
CN112818159A (zh) * | 2021-02-24 | 2021-05-18 | 上海交通大学 | 一种基于生成对抗网络的图像描述文本生成方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609326A (zh) * | 2021-08-25 | 2021-11-05 | 广西师范大学 | 基于外部知识和目标间关系的图像描述生成方法 |
CN113609326B (zh) * | 2021-08-25 | 2023-04-28 | 广西师范大学 | 基于外部知识和目标间关系的图像描述生成方法 |
CN114882292A (zh) * | 2022-05-31 | 2022-08-09 | 武汉理工大学 | 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法 |
CN114882292B (zh) * | 2022-05-31 | 2024-04-12 | 武汉理工大学 | 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法 |
CN115953779A (zh) * | 2023-03-03 | 2023-04-11 | 中国科学技术大学 | 基于文本对抗生成网络的无监督图像描述生成方法 |
CN115953779B (zh) * | 2023-03-03 | 2023-06-16 | 中国科学技术大学 | 基于文本对抗生成网络的无监督图像描述生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113220891B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Biten et al. | Good news, everyone! context driven entity-aware captioning for news images | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN113220891B (zh) | 基于无监督的概念到句子的生成对抗网络图像描述方法 | |
Wang et al. | Show, recall, and tell: Image captioning with recall mechanism | |
Karpathy et al. | Deep visual-semantic alignments for generating image descriptions | |
CN109992686A (zh) | 基于多角度自注意力机制的图像-文本检索系统及方法 | |
Zhao et al. | A Multi-task Learning Approach for Image Captioning. | |
Peirson V et al. | Dank learning: Generating memes using deep neural networks | |
CN107480132A (zh) | 一种基于图像内容的古诗词生成方法 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
Zhang et al. | Semantic sentence embeddings for paraphrasing and text summarization | |
CN111291556A (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN113408430B (zh) | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 | |
Cheng et al. | A semi-supervised deep learning image caption model based on Pseudo Label and N-gram | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
Zhao et al. | Text-to-remote-sensing-image generation with structured generative adversarial networks | |
Puscasiu et al. | Automated image captioning | |
CN113204675A (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
CN115062174A (zh) | 基于语义原型树的端到端图像字幕生成方法 | |
CN116402066A (zh) | 多网络特征融合的属性级文本情感联合抽取方法及系统 | |
CN115017279A (zh) | 基于文本语义匹配的Stack Overflow相关问答检索方法 | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |