CN113220891A

CN113220891A - 基于无监督的概念到句子的生成对抗网络图像描述算法

Info

Publication number: CN113220891A
Application number: CN202110658282.4A
Authority: CN
Inventors: 李丽香; 赵珊珊; 党中恺; 田艳昭; 彭海朋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-08-06
Anticipated expiration: 2041-06-15
Also published as: CN113220891B

Abstract

基于无监督的概念到句子的生成对抗网络图像描述算法涉及图像描述技术领域，解决了现有不能在没有成对数据集的情况下描述图像的问题，具体为：生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性，生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性，所述离散概念为通过提取图像中语义概念得到，离散概念包括目标概念、关系概念和属性概念，拼接两语义相关性得到语义关系信息，生成器将语义关系信息解码成句子。本发明利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息，将这一模态的离散概念转换为同一模态的图像描述语句，实现了在没有成对数据集的情况下描述图像。

Description

基于无监督的概念到句子的生成对抗网络图像描述算法

技术领域

本发明涉及图像描述技术领域，具体涉及基于无监督的概念到句子的生成对抗网络图像描述算法。

背景技术

图像描述算法是近几年前沿的一个多模态研究方向，该任务目的是将一幅图像自动地生成一段描述该图像的文字。图像描述算法不仅需要计算机视觉方向的算法来提取图像特征，而且还需要自然语言处理相关的算法将这些表示图像的特征转换成文字。图像描述算法应用领域较广，其可以应用到机器人、跨模态搜索以及盲人导航等方面。随着深度学习的发展，大量的学者开展了图像描述方面的研究，促进了图像描述算法在近几年获得了非常大的性能提升。

传统的图像描述算法通常是指基于有监督训练的模型。此类模型大多采用编码器-解码器结构，其中编码器是卷积神经网络CNN，而解码器是循环神经网络RNN。有监督训练时使用Microsoft COCO数据集，该数据集包含有113287 张图像，每张图像对应五个人工标注的英文描述语句。通过使用该数据集，基于有监督的图像描述算法取得了接近于人类对于图像理解的能力。但是，基于有监督的图像描述算法严重依赖成对的图像-句子数据集，且MSCOCO数据集只有英文的标注语句。而世界上语言种类较多，对每一种语言都做图像-句子的标注是耗费时间、精力和金钱的一项工作。因此，无监督的图像描述算法将会为多语言图像描述打下坚实的基础。

目前已有的无监督图像描述模型主要采用GAN网络，生成器和判别器分别是一个LSTM。模型先利用预训练好的卷积神经网络Inception-V4提取图像的视觉特征，并将视觉特征输入到生成器中。生成器LSTM将视觉特征转换为文字，并由判别器LSTM来判断每个单词的真假。这样经过一次次地博弈，最终生成器能够生成语法和目标都正确的句子。但是该类方法单纯使用图像的视觉特征，而无监督图像描述算法很难在没有对应标注语句的情况下推断出图像中目标物体间的关系，因此加入图像中物体间的关系及属性等语义信息将会有助于提高算法对图像的理解。

综上可知，由于目前大多数的图像描述算法依赖于成对的图像-句子数据集Microsoft COCO，而这种成对的图像-句子数据集需要大量的人力物力才能标注出来。因此，如何实现在没有成对数据集的情况下描述图像是一个难题。另外，图像描述是一个跨模态的任务，如何减小不同模态数据间的差距也是一个重要难点。因此，亟需解决如何在不使用成对图像-句子数据集的情况下，利用一些预训练的目标检测模型及分类模型提取图像中包含的概念信息，并且通过 CGAN网络将这一模态的离散概念转换为同一模态的图像描述语句。

发明内容

为了解决上述问题，本发明提供基于无监督的概念到句子的生成对抗网络图像描述算法。

本发明为解决技术问题所采用的技术方案如下：

基于无监督的概念到句子的生成对抗网络图像描述算法，包括如下步骤：

生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性，生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性，所述离散概念为通过提取图像中语义概念得到，离散概念包括目标概念、关系概念和属性概念，拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息，将语义关系信息解码成句子。

基于无监督的概念到句子的生成对抗网络图像描述算法，所述算法的模型包括所述生成器G_θ和判别器

所述判别器

能够判别生成器G_θ得到的句子是否来自句子语料库，如果判别器

认为句子不是来自句子语料库，则生成器G_θ根据损失函数更新生成器G_θ的参数并再次生成句子给判别器

判断，直至判别器

认为该句子来自句子语料库。

基于无监督的概念到句子的生成对抗网络图像描述算法，所述算法训练的步骤为：

步骤一、用随机的权重θ初始化生成器G_θ，用判别器

的参数

初始化判别器

步骤二、在训练集S上用最大似然估计预训练生成器G_θ；所述训练集S为句子语料库；

步骤三、用生成器G_θ生成若干句子

表示生成器生成的长度为1至L 的句子；

步骤四、利用步骤三中生成器G_θ生成的句子预训练

步骤五、用G_θ生成若干句子

计算句子

为真的概率p，根据句子评估器模块Q'计算主观评价得分s，根据p和s计算奖励值，再根据奖励值更新生成器G_θ的权重θ，得到更新的生成器G_θ；

步骤六、判别器

判断生成器G_θ生成的句子

是否为真，若为真，进行步骤七；若不为真，则以更新权重θ后的生成器G_θ返回步骤五；

步骤七、生成器G_θ生成句子

根据

更新判别器的参数

即得到更新的判别器

步骤八、判断生成器G_θ和判别器

是否均收敛，若均收敛则，训练完成；否则返回步骤七。

本发明的有益效果是：

本发明基于无监督的概念到句子的生成对抗网络图像描述算法能够在不使用成对图像-句子数据集的情况下，对测试集中的图片做出语法和语义正确的文字描述。本发明的图像描述算法不需要大量的人力物力标注，在不使用成对图像-句子数据集的情况下，利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息，将这一模态的离散概念转换为同一模态的图像描述语句。本发明的图像描述算法实现了在没有成对数据集的情况下描述图像，减小了不同模态数据间的差距。

附图说明

图1为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的 CSGAN框架图

图2为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的双向语义编码器框架图。

图3为本发明基于无监督的概念到句子的生成对抗网络图像描述算法的判别器结构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

基于无监督的概念到句子的生成对抗网络图像描述算法(Concept to SentenceGAN，简称CSGAN)，算法具体为：(概念提取器)提取图像中语义概念并分类成离散概念，包括目标概念(即表示目标的概念)、关系概念(即表示关系的概念)和属性概念(即表示属性的概念)，离散概念即离散的语义概念，为单词。生成器根据离散概念计算出其中目标概念与关系概念之间的语义相关性，生成器根据离散概念计算出其中目标概念与属性概念之间的语义相关性，生成器拼接目标概念与关系概念之间的语义相关性和目标概念与属性概念之间的语义相关性得到语义关系信息，生成器将语义关系信息解码成句子。

对于图像中语义概念的提取，本发明采用预训练好的Faster R-CNN网络提取每幅图像中包含的目标，利用多标签分类器对不同目标间存在的关系进行提取，并利用多标签分类器对每个目标包含的属性进行提取。这样便能提取出一幅图像中包含的目标、关系和属性概念。具体的，使用在Visual Genome数据集上预训练过的Faster R-CNN对图片进行目标提取，采用MOTIFS作为关系提取器，最后额外增加一个分类器作为属性提取器。

对于句子语料中语义概念的提取，本发明直接使用那些在ground truth(句子语料库的句子)和语义概念词典中同时出现的单词作为句子的概念。

通过对于图像或句子语料中语义概念提取得到离散的概念，即得到表示目标概念、关系概念或属性概念的单词。句子语料库中句子和图像均能够被提取得到离散概念。

本发明提出的CSGAN网络模型包含一个生成器和一个判别器，生成器包括双向语义编码器和一个解码器，判别器是一个LSTM。CSGAN网络模型还可包括句子评估器模块，如图1。其中双向语义编码器由两个子编码器组成：目标关系编码器(又叫目标-关系子编码器)和目标属性编码器(又叫目标-属性子编码器)。解码器是一个基于注意力机制的解码器。

双向语义编码器，由一个目标关系编码器和一个目标属性编码器组成。将提取到的图像中语义概念分类成目标概念、关系概念和属性概念，目标概念、关系概念、属性概念均为单词，通过目标关系编码器计算出离散概念中所有的目标概念与关系概念之间的语义相关性：“目标-关系-目标”，如“女孩-打-网球”。通过目标属性编码器计算出离散概念中包含的所有目标概念与属性概念之间的语义相关性：“目标-属性”，如“绿色的-网球”(“绿色的”为属性)。双向编码器主要由多头注意力机制实现。双向语义编码器采用多头注意力机制计算目标概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关性。而多头注意力机制则由多个点乘注意力机制拼接而成。如图2，目标关系编码器和目标属性编码器均由两个子层构成，每个子层后面都有一个残差连接模块和归一化模块(Residual、Add&Norm)，第一个子层是多头注意力模块 (Multi-head attention)，第二个子层是全连接的前馈神经网络(Feed-forward)。

目标关系编码器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性，目标属性编码器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性，生成器拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息，解码器将语义关系信息解码成句子；判别器判别解码器解码得到的句子是否来自句子语料库，如果判别器认为句子不是来自句子语料库，则生成器根据损失函数更新生成器的参数并再次生成句子给判别器判断，直至判别器认为该句子来自句子语料库。

为了计算离散概念中每一对概念间(一个目标概念与一个关系概念之间、一个目标概念与一个属性概念之间)的关系权重，从一组查询矩阵Q＝(q₁，…，q_l)中给出一个查询q_i(即查询)，i∈(1，…，l)，i表示的是第i个离散概念(第i个单词)， l为正整数，l表示离散概念的数量(就是有多少个单词)，即表示查询矩阵中的查询元素的数量，同时从Q中给出另一组关键字k_i*(即键)和数值v_i*(即值)， i*∈(1,…,l)，i*表示的是第i*个离散概念(第i*个单词)。点乘注意力机制输出v_i*的加权和，其中v_i*的权重由q_i和k_i*的点乘决定。为了通过高度优化的矩阵乘法实现点积运算，将查询、键和值打包成矩阵Q＝(q₁，…，q_l)，K＝(k₁，…，k_l)和 V＝(v₁，…，v_l)。点乘注意力机制可定义为：

其中，Q表示查询矩阵，

表示Q为l×d_h的向量，K表示键矩阵，

表示K是维度为k×d_h的向量，V表示值矩阵，

表示V是维度为k×d_h的向量，k表示K和V的长度，d_h表示Q、K和V宽度、d_h也表示 W^Q、W^K和W^V的长度，W^Q、W^K和W^V均为可学习参数，W^Q表示查询矩阵Q 的可学习参数，

表示W^Q是维度为d_h×d_k的向量，W^K表示键矩阵K 的可学习参数，

表示W^K是维度为d_h×d_k的向量，W^V表示值矩阵V 的可学习参数，

表示W^V是维度为d_h×d_k的向量，d_k＝d_h/n，d_k代表 W^Q、W^K和W^V的宽度，其中n代表双向语义编码器所用多头注意力机制中子空间的数量，即点乘注意力机制的数量。k、d_h、d_k均为正整数。多头注意力机制包含平行的点乘注意力机制共n个。输入向量Q、K、V、W^Q、W^K和W^V被映射到n个子空间中，并且多头注意力分别在子空间中表示为：

H_m＝Attention(QW^Q，KW^K，VW^V) (2)

MultiHead(Q，K，V)＝Concat(H₁，…，H_n)W^O (3)

其中H_m表示第m个子空间，1≤m≤n；W^O表示线性变换；Concat(·)表示矩阵拼接；MultiHead(·)表示多头注意力机制，是n个点乘注意力机制拼接后做线性变换的结果。本发明使用基于多头注意力机制的方法使得目标概念可以找到与其最相关的属性概念和关系概念。

具体地，目标-关系子编码器可表示为：

R_OR＝MultiHead(S_R，S_O，S_O) (4)

其中，S_O表示从一幅图像或句子中提取到的一组目标概念；S_R表示从一幅图像或句子中提取到的一组关系概念。S_R作为查询矩阵Q(称为查询矩阵一)，公式(4)中第一个S_O作为键矩阵K(称为键矩阵一)，公式(4)中第二个S_O作为值矩阵V(称为值矩阵一)，

表示R_OR为N_R×e的向量，N_R表示 R_OR的长度，e表示R_OR的宽度，N_R、N_O、e均为正整数。通过多头注意力机制R_OR的计算可以获取一组目标-关系-目标的关系信息，从而达到计算离散单词之间关系的目的。

同样地，目标-属性子编码器可表示为：

R_OA＝MultiHead(S_O,S_A,S_A) (5)

其中，S_A表示从一幅图像或句子中提取的一组属性概念，S_O作为查询矩阵 Q(称为查询矩阵二)，公式(5)中第一个S_A作为键矩阵K(称为键矩阵二)，公式(5)中第二个S_A作为值矩阵V(称为值矩阵二)，

表示R_OR是维度为N_O×e的向量，N_O表示R_OA的长度。通过R_OA可获取一组目标-属性的关系信息。

由于最后计算出来的R_OR和R_OA包含的维度不同，因此本发明使用注意力机制的计算使R_OR和R_OA具有相同的维度，便于后续解码。具体是：

M_β＝BR_β，β∈{OA，OR) (7)

其中，

表示R_β的可学习参数，

表示

是维度为r'×d_a的向量，r'表示概念数，同时表示

的长度、

的宽度、M_β的长度，

表示激活函数tanh的可学习参数，

表示

是维度为d_a×r'的向量，

表示R_β的转置矩阵，M_β∈R^r ^'×e表示M_β是维度为r'×e的向量，M_β表示最终维度相同的语义关系嵌入。r'、d_a均为正整数。

通过上述计算，可以得到维度相同的语义关系嵌入M_OA和M_OR，M_OA作为目标-属性语义关系嵌入，M_OR作为目标-关系语义关系嵌入。M_OA和M_OR统称为 M，M表示语义关系嵌入，M_OA表示目标概念与属性概念之间的语义相关性， M_OR表示目标概念与关系概念之间的语义相关性。

在得到维度一致的语义关系以后，我们采用基于注意力机制的LSTM解码器对语义关系进行解码。本发明图像描述算法使用的是图片的语义关系信息(即语义相关性)而不是用CNN提取的图像的视觉信息。具体是在每一个时刻T(T 表示解码过程的时刻)，将对应T时刻的单词嵌入向量

与语义概念向量的平均值

做拼接后的

作为解码器的输入，N_l表示语义概念向量的数量，c_i'表示第i'个语义概念向量，x_T表示T时刻拼接后的单词嵌入向量

和语义概念向量的平均值c_avg。单词嵌入向量是指对T时刻一个单词编码的嵌入向量表示；语义概念向量是指对句子或图像中提取出来的所有概念编码成语义概念向量。并且在每个时刻T，插入拼接后的语义关系嵌入向量M＝[M_OA；M_OR]。根据时刻T的隐藏状态h_T∈R^d(h_T是维度为d的向量)，LSTM 解码器在2r’个语义关系嵌入向量M上(在r’个目标概念与关系概念之间的语义相关性和r’个目标概念与属性概念之间的语义相关性上)生成注意力分布：

其中，

表示M_β的转置，W_M表示语义关系嵌入向量M_β的可学习参数， W_h表示隐藏状态h_T的可学习参数，w_α表示tanh函数的可学习参数，

表示W_M是维度为d_a×e的向量，

表示W_h是维度为d_a×d的向量，

表示w_α是维度为d_a的向量，n'和d均为正整数，

是矩阵相加，α_T∈Rⁿ' 表示α_T是维度为n'的向量，α_T是M的注意力权重，并且注意力关系向量 r_T∈R^e(r_T维度为e)可定义如下：

r_T＝α_TM (9)

r_T是指T时刻关系嵌入表示，

是指T时刻某个单词嵌入向量表示

最终，当前单词的注意力关系可预测为：

y_T＝softmax(W_p,rr_T+W_p,hh_T) (10)

其中，W_p,r∈R^|D'|×e表示W_p,r是维度为|D'|×e的向量，|D'|表示语义概念词典D' 的单词数量，W_p,r表示r_T的可学习参数，W_p,h∈R^|D'|×e表示W_p,h是维度为|D'|×d的向量，d表示W_p,h的向量宽度，W_p,h表示隐藏状态h_T的可学习参数，y_T表示T时刻输出的单词。

本发明所提出的CSGAN模型结构如图1所示，有一个生成器和一个判别器。其中生成器包含一个目标-关系子编码器R_OR、一个目标-属性子编码器R_AO和一个基于注意力机制的解码器。判别器

是一个LSTM，用于判断句子的真假。生成器中的R_OR用于离散概念中目标概念与关系概念之间的语义相关性。R_AO用于计算离散概念中目标概念与属性概念之间的语义相关性。生成器将这两种拼接后的语义关系信息输入解码器中解码成句子。而判别器

用于判别这些句子是来自句子语料库还是生成器生成的，如果判别器

判断其输入是生成器生成的，生成器就根据损失函数更新自己的参数并再次生成句子给判别器判断，直到判别器认为该句子来自句子语料库，通过这种博弈的训练方式直至CSGAN模型收敛，训练结束。

由于最常用的序列建模网络是循环神经网络RNN，所以本发明使用标准的 LSTM作为判别器，如图3(其中的embedding表示嵌入层)。

h_t'＝LSTM(x_t',h_t'-1),t'∈{1,…,n} (11)

h_t'表示t'时刻的隐藏状态，x_t'表示t'时刻的输入单词，h_t'-1表示t'-1时刻的隐藏状态，t'表示判别器的t'时刻。

判别器的LSTM之后有一个全连接层(MLP)和一个softmax层，即判别器包括LSTM(称为判别器的LSTM)、全连接层和softmax层，全连接层和softmax 层对于输入句子是真假的概率可通过下述公式进行计算：

p＝σ(W_Rh_t'+1+b_R) (12)

其中，W_R表示全连接层的权重，W_R∈R^2×N'表示W_R为2×N'的向量，N'为正整数，b_R表示全连接层的偏置项，b_R∈R²，表示b_R为向量长度为2，h_t'+1表示t'+1时刻的隐藏状态，p表示输入句子是真的概率，σ(·)表示sigmoid激活函数。

本发明使用句子语料库对模型进行有监督训练，本发明基于一个纯图片数据集和一个与图片无关的句子语料库。在有句子语料库及对句子语料库提取到的离散概念(单词)的情况下，可以通过使用公式(13)预训练生成器网络G_θ，使得生成器能够将从句子语料库中的离散出的概念生成原句子(句子语料库中的句子)。通过这种方式，生成器网络可以学习到句子语料库中的单词(离散概念)间的关系，通过生成对抗的方式最终生成语法和语义正确的句子。在使用最大似然估计训练模型G_θ达到收敛后，再利用强化学习(奖励值r更新生成器G_θ的方法)进一步优化句子的评价指标CIDEr(CentroInterdisciplinario de Estudios Regionales)，使得模型G_θ的翻译性能在所有指标上均获得提升。需要注意的是，强化学习只在对句子语料进行有监督训练时用到。当我们的G_θ生成器模型可以把句子语料库中的句子重建以后，生成器G_θ便可以根据一组离散单词生成一个句子。所以此时给出一张图片，我们先用概念提取器提取出图片中离散的概念(目标概念、关系概念、属性概念)，然后只需要用到生成器G_θ便可将这些离散概念生成对图像的描述语句。

传统RNN的训练是使用最大似然估计MLE，也就是生成描述语句的模型G_θ 生成器，G_θ的参数θ是通过最大似然估计来训练的：

其中，N表示句子语料库的句子数量即训练语句的总数，x^j表示句子语料库的第j个句子，C^j表示x^j提取出的离散概念，L_j表示句子语料库的第j个句子的长度，

表示t'时刻句子语料库的第j个句子，

表示1时刻至t'-1时刻句子语料库的第j个句子。因为本发明要使用强化学习的方法来训练，因此，生成器中的解码器可被看作是“代理”，与输入单词之间的交互称为“环境”，生成器G_θ被看作是“策略”，生成器G_θ对下一个单词的预测称为“行动”。当生成器G_θ采取“行动”以后，“代理”便会更新它的“状态”(即解码器的权重，注意力模型的参数等)。当生成结束标志EOS后，“代理”返回一个“奖励”r，例如语言评价指标(基于共识的图像描述评估CIDEr,双语评估辅助工具 BLEU,语义命题图像标题评估SPICE等)计算的结果用r表示。因此，强化学习训练的目标是最大化生成器的期望奖励，最大化生成器的期望奖励L_G(θ)为：

其中，

是判别器从生成器G_θ中采样出来的句子(G_θ解码得到的句子)，

表示采样出来的句子x^s中的第一个单词，

表示采样出来的句子x^s中的第二个单词……

表示采样出来句子x^s中的第L个单词，L为正整数，r(·) 表示计算奖励值的函数，E表示期望，

表示生成器G_θ期望的奖励。期望值用蒙特卡罗近似：

L_G(θ)≈r(x^s) (15)

其梯度

可以通过策略梯度计算一个基线函数b去有效降低梯度估计的方差：

其中，L_s表示生成器G_θ采样出来的句子的最大长度，

表示生成器G_θ采样出来的长度为1至L的句子，L大于1，

表示生成器G_θ采样出来的第t'个单词，

表示生成器G_θ采样出来的1至t'-1个单词。

基线b可以是任意函数，但它不依赖于“行动”x^s。SCST训练(self-criticalsequence training)方法以当前生成器模型在测试时使用的贪婪解码算法下得到的奖赏r作为基线函数。然后，梯度函数可表示如下：

其中，x^g表示生成器采用贪婪解码策略采样出来的句子。

如图1所示，生成器的训练过程中还采用了句子评估模块Q'，生成器生成一个句子

判别器

和句子评估模块Q'将会基于不同的标准各计算一个值来评价生成器G_θ生成的句子质量：判别器

会计算一个概率值p～[0，1]来表示所给句子是人生成的(句子语料库中的)还是机器生成的(生成器得到的)。而句子评估模块Q'将会计算一个主观评价得分s。注意，在训练期间，判别器将与生成器一起交替改进，而句子评估器模块Q'是预定义的函数(如CIDEr)在训练期间是严格固定的。因此，判别器

和句子评估模块Q'这两个模块协同工作，在评估指标下获得高分。最终，给定离散概念C(C为概念提取器得到的)和给定基本ground truth句子x后(x为句子语料库的句子，x∈S)，强化学习奖励的计算为：

其中，

表示生成器生成的长度为1至L的句子，λ是一个位于0和1之间的超参数。

CSGAN通过有监督的方式在句子语料上训练，过程为：句子→概念提取器 →生成器将离散概念生成句子→判别器根据原句子判断生成句子的真假。训练判别器

的参数

使其最大化，最大化判别器

的参数

的期望奖励

其中，x_1:L表示句子语料库中长度为1至L的句子，p_data表示句子语料库中的句子，x_1:L～p_data表示x_1:L属于句子语料库，

表示

属于生成器G_θ生成的句子。

需要注意的是，本发明的CSGAN算法需要先预训练生成器和判别器。然后再通过标准GAN的训练过程交替地微调生成器和判别器。训练过程可描述如下：

该算法需要：生成器G_θ；判别器

句子评估器Q'，如CIDEr-D；训练集 S＝{x_1:L}，句子语料库作为训练集。

步骤一、用随机的权重θ初始化生成器G_θ，用判别器的参数

初始化判别器

步骤二、在训练集S上用最大似然估计公式(13)预训练生成器G_θ。

步骤三、用生成器G_θ生成若干假句子

步骤四、利用步骤三中生成器G_θ生成的句子，通过公式(19)

预训练

步骤五、如图1，用G_θ生成一个mini-batch的句子

判别器

通过公式 (11)和公式(12)计算句子

为真的概率p，句子评估器模块Q'根据x_1:L和本步骤的

计算主观评价得分s，根据p和s采用公式(18)计算奖励值，再通过公式(17)用SCST方法更新生成器G_θ的权重θ，即得到更新的生成器G_θ；

步骤六、判别器

判断生成器G_θ生成的句子

步骤七、生成器G_θ生成句子

通过公式(19)更新判别器的参数

即得到更新的判别器

步骤八、判断生成器和判别器是否均收敛，若均收敛则结束训练，训练完成；否则以目前的

返回步骤七。

在训练阶段，只使用某个数据集中的标注语句并将标注语句离散成离散概念。在整个模型的训练过程中，采用判别器判断生成器所生成的句子是否准确，促使生成器生成更加准确的句子。训练过程中需要判别器认为生成的句子与原句子是否一致且直到生成器和判别器均收敛才停止训练。在推理阶段，输入一张图片并且提取出图片中的离散概念，生成器可以将这些离散概念生成语义和语法正确的描述语句。也就是在基于无监督的概念到句子的生成对抗网络图像描述算法的模型的训练过程中采用判别器，根据判别器对生成器解码得到句子判断训练基于无监督的概念到句子的生成对抗网络图像描述算法的模型。

本发明的CSGAN经过有监督的训练后，任给一张图片，概念提取器首先提取图片中包含的目标、关系和属性的概念信息。CSGAN的生成器G_θ，根据有监督训练得到的参数θ，能首先计算出这些离散概念之前的关系，然后再将这些语义关系送入解码器生成句子。最终实现对图片在没有对应句子语料训练的情况下生成描述。

在本实施方式的实验实现中，如果使用MSCOCO中的标注语句，用有监督的方式训练CSGAN，那么就使用Flickr30k中测试集的图片来做推断。如果使用Shutterstock中的句子来训练CSGAN，则使用MSCOCO中的测试集图片作为推断时所用的数据。其中MSCOCO数据集包含113287张训练图片，5000张测试图片和4000张验证图片，且每张图片对应五个人工标注的英文句子。Flickr30k 包含30000张图片，使用1000张图片作为测试集，每张图片也对应五个人工标注的句子。关于评价指标，使用CIDEr、BLEU、SPICE、ROUGE-L(面向召回率的摘要评估辅助工具，计算的是候选摘要与参考摘要的最长公共子序列长度)、METEOR(显式排序的翻译评估指标)这几个图像描述领域通过的指标来评价模型生成句子的质量。

对于语料库中句子和图片中语义概念的提取，语料库中的人工标注语句在 CSGAN训练阶段，首先需要先提取出句子中包含的语义概念。我们直接使用在标注语句和语义概念词典中同时出现的概念作为对应句子的语义概念。概念提取器是一个在Visual Genome上预训练过的模型，可提取图片中的包含的语义概念。这些概念可划分为目标，属性和关系。针对每张图片会提取出前20个概念来表示这张图片。

生成器的双向子编码器中的单词嵌入

维度e是512，多头注意力机制中头的数量N设为8，前向传播的维度d_ff维度是2048，关系嵌入的维度r’为30， d_a是350。解码器LSTM的隐藏状态d是512。判别器LSTM中隐藏状态的维度也是512。d_h为512，k为键矩阵和值矩阵包含的单词数。d_k为64。

本发明的CSGAN网络模型通过10个epoch最小化交叉熵损失来做初始化，使用批量batch为16，利用ADAM优化模型参数，初始学习率为1×10^-3，动量值为0.9和0.999。同样地，生成器使用25个epoch的MLE来训练，在验证和测试的时候使用集束为5的集束搜索，超参数λ＝0.3。

本发明提出了一种基于生成对抗网络的概念到句子的无监督图像描述模型CSGAN，该模型在不使用成对图像-句子数据集的情况下，能够对测试集中的图片做出语法和语义正确的文字描述。首先，使用一个单纯的句子语料库Flickr30K 这个数据集中标注的描述语句，并使用概念提取器提取出句子中包含在预定义词典中的概念信息。通过使用有监督的方式训练CSGAN，使CSGAN能够将离散的概念生成语法和语义正确的原句子。在有监督的训练中除了用到交叉熵损失以外，还用到了句子重建损失，以及强化学习的进一步训练。其次，对于图像，使用概念提取器提取出图片中包含的目标概念、属性概念和关系概念这些概念信息。

通过这一系列的训练，本实施方式中使用MSCOCO测试集中的图片测试模型，并取得了SOTA(State-of-the-art，最优)的实验结果。此时MSCOCO和 Flickr30K是两个完全不相关的数据集。例如一幅主要展示长颈鹿的图片，该图片中还具有树木、草坪和木栅栏的图片，标准描述为：A giraffe walking during the day near a wood fence.(即：白天在木栅栏附近散步的长颈鹿。)，本发明生成器输出的句子为：A giraffe walking on alawn.(即：走在草坪上的长颈鹿。)；例如一幅6个穿着滑雪板的人站在雪地上合影留念的图片，标准描述为：A group of people in ski wear and skis standing in the snownext to each other.(即：一群穿着滑雪服和滑雪板的人并排站在雪地里。)，本发明生成器输出的句子为：people standing on the snow.(即：人们站在雪地上。)；例如一幅只有一名成年男士和一名成年女士的图片，两人均穿着得体的黑色礼服并站立着，相对不易观察的是：男士手中拿着一杯酒，该图片的标准描述为：A couple is dressed in blackand the male has a drink.(即：一对夫妇穿着黑色衣服，男性拥有一杯饮品。)，本发明生成器输出的句子为：a man and a woman standing together with black dress.(即：一男一女穿着黑色站在一起。)；例如一幅主要展示摩托车和骑手的图片，该图片中还具有平坦道路，标准描述为：A man wearing black is riding a red and sliver motorcycle.(即：一个穿黑衣的男人骑着一辆红银色的摩托车)，本发明生成器输出的句子为：A manriding a black and red motorcycle.(即：一个骑着具有黑色和红色摩托车的人。)。

通过在不同数据集上做无监督图像描述的实验，本发明的算法性能与 UC-GAN(unsupervised image captioning GAN，无监督的生成对抗网络图像描述算法)和SME-GAN(Shared Multimodal Embedding GAN，共享多模态嵌入的生成对抗网络图像描述算法)这两个无监督方法相比，取得了更优的性能，如表1。

表1不同模型在相同数据集上算法结果对比

表1中的GCC表示谷歌的概念描述数据集(Google’s Conceptual Captionsdataset)，Bleu-1和Bleu-2是自然语言处理领域两个公用的评价模型生成的句子有多准确的评价方法。从表1可以看出，本发明所提出的算法在相同的评价指标和相同的数据集下，与另外两个方法相比均取得更好的结果。因此，本发明所提出的无监督概念到句子的生成对抗网络描述模型在利用图像的语义信息的情况下也能通过计算离散语义概念间的关系来实现图像描述的目的。

Claims

1.基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述生成器采用多头注意力机制计算目标概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关性。

3.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述生成器包括一个目标-关系子编码器R_OR、一个目标-属性子编码器R_OA和一个基于注意力机制的解码器，所述目标-关系子编码器能够根据离散概念计算出离散概念中目标与关系之间的语义相关性，目标-属性子编码器能够离散概念计算出离散概念中目标与属性之间的语义相关性，解码器能够将语义关系信息解码成句子。

4.如权利要求3所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述目标-关系子编码器R_OR和目标-属性子编码器R_OA表示为：

R_OR＝MultiHead(S_R,S_O,S_O) (4)

R_OA＝MultiHead(S_O,S_A,S_A) (5)

M_β＝BR_β，β∈{OA，OR} (7)

其中，S_O表示从一幅图像或句子中提取到的一组目标概念；S_R表示从一幅图像或句子中提取到的一组关系概念；S_R作为查询矩阵Q，公式(4)中第一个S_O作为键矩阵，公式(4)中第二个S_O作为值矩阵，

表示R_OR为N_R×e的向量，通过R_OR能够获取一组目标概念和关系概念的关系信息；S_A表示从一幅图像或句子中提取的一组属性概念，S_O作为查询矩阵，公式(5)中第一个S_A作为键矩阵，公式(5)中第二个S_A作为值矩阵，

表示R_OR是维度为N_O×e的向量，N_R、N_O、e均为正整数，通过R_OA能够获取一组目标概念和属性概念的关系信息；

表示R_β的可学习参数，

表示

是维度为r'×d_a的向量，

表示激活函数tanh的可学习参数，

表示

是维度为d_a×r'的向量，

表示R_β的转置矩阵，M_β∈R^r'×e表示M_β是维度为r'×e的向量，M_OA表示目标概念与属性概念之间的语义相关性，M_OR表示目标概念与关系概念之间的语义相关性，r'、d_a均为正整数。

5.如权利要求4所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述解码器为LSTM解码器，LSTM解码器在r’个目标概念与关系概念之间的语义相关性和r’个目标概念与属性概念之间的语义相关性上生成注意力分布为：

其中，W_M表示M_β的可学习参数，W_h表示隐藏状态h_T的可学习参数，w_α表示tanh函数的可学习参数，

表示W_M是维度为d_a×e的向量，

表示W_h是维度为d_a×d的向量，

表示w_α是维度为d_a的向量，d为正整数，

是矩阵相加，α_T∈R^n'表示α_T是维度为n'的向量，注意力关系向量为：

r_T＝α_TM (9)

r_T∈R^e表示r_T维度为e；

T时刻输出的单词为：

y_T＝softmax(W_p,rr_T+W_p,hh_T) (10)

其中，W_p,r∈R^|D'|×e表示W_p,r是维度为|D'|×e的向量，|D'|表示语义概念词典D'的单词数量，W_p,r表示r_T的可学习参数，W_p,h∈R^|D'|×e表示W_p,h是维度为|D'|×d的向量，W_p,h表示隐藏状态h_T的可学习参数。

6.如权利要求1至5中任意一项所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述算法的模型包括所述生成器G_θ和判别器

所述判别器

判断，直至判别器

认为该句子来自句子语料库。

7.如权利要求6所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述算法的模型还包括句子评估器模块Q'，所述句子评估器模块Q'能够根据句子语料库的句子评价生成器G_θ得到的句子。

8.如权利要求1至5中任意一项所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述算法训练的步骤为：

步骤一、用随机的权重θ初始化生成器G_θ，用判别器

的参数

初始化判别器

步骤三、用生成器G_θ生成若干句子

表示生成器生成的长度为1至L的句子；

步骤四、利用步骤三中生成器G_θ生成的句子预训练

步骤五、用G_θ生成若干句子

计算句子

步骤六、判别器

判断生成器G_θ生成的句子

步骤七、生成器G_θ生成句子

根据

更新判别器的参数

即得到更新的判别器

步骤八、判断生成器G_θ和判别器

是否均收敛，若均收敛则，训练完成；否则返回步骤七。

9.如权利要求8所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述步骤二中最大似然估计的公式为：

其中，N表示句子语料库的句子数量，即训练语句的总数，x^j表示句子语料库的第j个句子，C^j表示x^j提取出的离散概念，L_j表示句子语料库的第j个句子的长度，

表示t'时刻句子语料库的第j个句子，

表示1时刻至t'-1时刻句子语料库的第j个句子；

所述步骤四通过

预训练

所述步骤七中通过

更新判别器的参数

表示

属于生成器G_θ生成的句子，E表示期望。

10.如权利要求8所述的基于无监督的概念到句子的生成对抗网络图像描述算法，其特征在于，所述步骤五中，通过公式(11)和公式(12)计算句子

为真的概率p，根据p和s采用公式(18)计算奖励值，再通过公式(17)用SCST方法更新生成器G_θ的权重θ；

h_t'＝LSTM(x_t',h_t'-1),t'∈{1,…,n} (11)

p＝σ(W_Rh_t'+1+b_R) (12)

其中，h_t'表示t'时刻的隐藏状态，x_t'表示t'时刻的输入单词，h_t'-1表示t'-1时刻的隐藏状态，t'表示判别器的t'时刻；W_R表示全连接层的权重，W_R∈R^2×N'表示W_R为2×N'的向量，b_R表示全连接层的偏置项，b_R∈R²表示b_R为向量长度为2，h_t'+1表示t'+1时刻的隐藏状态，p表示输入句子是真的概率，σ(·)表示sigmoid激活函数；

其中，r(·)表示计算奖励值的函数，

表示生成器生成的长度为1至L的句子，λ是一个位于0和1之间的超参数；C表示离散概念，x为S的句子；

其中，x^s是判别器从生成器G_θ中采样出来的句子，x^g表示生成器G_θ采用贪婪解码策略采样出来的句子，L_s表示生成器G_θ采样出来的句子的最大长度，

表示生成器G_θ采样出来的第t'个单词，

表示生成器G_θ采样出来的1至t'-1个单词。