CN114020954A

CN114020954A - 一种用于体现用户意图和风格的个性化图像描述方法

Info

Publication number: CN114020954A
Application number: CN202111345659.7A
Authority: CN
Inventors: 张灿龙; 王宇航
Original assignee: Guangxi Normal University
Current assignee: Shenzhen Wanzhida Technology Co ltd
Priority date: 2021-09-10
Filing date: 2021-11-15
Publication date: 2022-02-08

Abstract

本发明公开了一种用于体现用户意图和风格的个性化图像描述方法，包括：构建一个包含三类抽象节点的空间关系图；利用图注意力机制获取用户所希望描述的内容和顺序，并通过添加控制阀门调节图流动的方向，利用图语义注意力机制结合上下文的关联度使语句更为流畅；加入动态访问节点，记录所访问过的节点，加入没有访问过的节点，并擦除废词，使描述更具多样性且不遗漏或者重复描述；在解码器中加入基于用户画像的字幕风格因子，输出符合用户期望的风格化语句。本发明可以控制图像描述生成中的不同细节，使描述语句更贴合图像且更流畅，生成的描述具有特定风格，从而实现生成结果的个性化和多样性。

Description

一种用于体现用户意图和风格的个性化图像描述方法

技术领域

本发明涉及图像描述的技术领域，尤其涉及一种用于体现用户意图和风格的个性化图像描述方法。

背景技术

图像描述(Image Captioning)是一个结合计算机视觉和自然语言处理的跨领域任务，其计算涉及自然文本的语义提取、图像目标的检测与特征提取、以及目标之间关系的识别与推理等，最终将图像识别的结果表述为一个自然语句；深度学习技术的应用使计算机描述图像场景的能力得到了大幅提升，在某些评估指标上甚至超过了人类。然而，若要让机器按照用户的意愿和个性去描述一个场景，就必须使它们拥有感知用户兴趣和个性的能力。

遗憾的是，现有的图像描述模型虽然可以生成较为流畅的描述语句，但是存在与用户交互性差、多样性低等问题。具体体现在以下两个方面：大多数图像描述模型仅机械地生成描述图像场景整体内容的句子，并没有考虑用户感兴趣的内容或者期望描述的详细程度；这种生成模式倾向于使用常见的高频词来表达生成较为“简单安全”的句子，容易造成句子缺乏多样性，无法体现用户的个性特征和用语习惯。如图1所示，现有模型可以准确地描述出“两个棒球运动员在运动场打球”，却不能依据用户的期望描述出男子的具体细节，如体态，衣服颜色，背景等细节内容，也不能控制是全局描述还是局部描述某一个男子，并且只是用简单的语言表达出来。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有的图像描述模型虽然可以生成较为流畅的描述语句，但是存在与用户交互性差、多样性低等问题。

为解决上述技术问题，本发明提供如下技术方案：构建一个包含三类抽象节点的空间关系图，所述三类抽象节点分别代表目标、特征、目标之间的关系，每个抽象节点在图中有具体区域的定位；利用图注意力机制获取用户所希望描述的内容和顺序，并通过添加控制阀门调节图流动的方向，利用图语义注意力机制结合上下文的关联度使语句更为流畅；加入动态访问节点，记录所访问过的节点，加入没有访问过的节点，并擦除废词，使描述更具多样性且不遗漏或者重复描述；在解码器中加入基于用户画像的字幕风格因子，输出符合用户期望的风格化语句。

作为本发明所述的用于体现用户意图和风格的个性化图像描述方法的一种优选方案，其中：构建所述包含三类抽象节点的空间关系图包括，以输入图片I为基础，通过在VisualGenome数据集上运用图像卷积和目标检测进行图像预处理，获得场景图像中的目标、目标的特征，以及目标之间的空间关系，以此生成抽象空间关系图。

作为本发明所述的用于体现用户意图和风格的个性化图像描述方法的一种优选方案，其中：还包括，构建角色感知图编码器，在所述编码器中嵌入了一个角色感知节点体现用户意图，并使用一个多关系图卷积网络进行上下文编码，所述角色感知节点的编码方法为：对第i个节点，将其目标节点和特征节点均初始化为其对应图像区域的视觉特征vi，将关系节点的特征初始化为两相关目标的并集区域的图像特征，使用角色嵌入进一步增强每个节点，获得如下列公式所示的嵌入了角色感知的节点

其中，

为角色嵌入矩阵，d为特征维度，W_r[k]为W_r的第k行，pos[i]为一种位置嵌入，用于区分同一目标的同属性节点，r表示关系节点，o表示目标节点，f表示特征节点；

采用多关系图卷积神经网络在Gm中编码图的上下文信息，用下列公式进行计算：

其中，

和

为多关系卷积神经网络中需要学习的参数，σ为RELU激活函数，

表示相关联的第i个节点，

x表示用户意图，i、j表示不同的目标，l表示层数。

作为本发明所述的用于体现用户意图和风格的个性化图像描述方法的一种优选方案，其中：所述图注意力机制包括，为了同时考虑图形结构与语义内容的相关性，把图内容注意力和图流动注意力相结合形成图注意力机制，用节点x_t和查询

之间的上下文的语义相关性计算出图内容注意力向量

，计算公式如下：

其中，W_xc、W_hc和ω_c表示网络训练参数，

表示计算生成，

表示注意力得分向量；

因为两节点间的连接可忽略不计，内容注意力在不同的解码时从一个节点传送到图中更远距离的另一个节点，图流动注意力用下列公式来表示：

其中，W_s、W_sh、W_sz都表示网络训练参数，

表示图流动注意力，Zt表示第t步预测单词的上下文向量；

利用下列公式将上述图内容注意力

与图流动注意力

进行动态融合，得到最终的图注意力α_t：

其中，参数ω_g、W_gh、W_gz是可学习参数，第t步预测单词的上下文向量为

β_t是图内容注意力权重参数。

作为本发明所述的用于体现用户意图和风格的个性化图像描述方法的一种优选方案，其中：所述动态访问节点包括，为了解不同节点访问的情况，在每个解码阶段进行了记录，用α_t表示每个节点的注意力得分，并加入视觉哨兵门实现注意力强度的修改，使模型更专注于重点单词而不是一些不可视的虚词，其计算公式为：

其中，f_vs是一个有由θ_vs参数化的全连接网络，其生成的一个标量表示是否生成节点相关的词，α_t表示每个节点的注意力得分；

为了保证图中所有节点都应被文本描述所表达，不能出现缺失或者重复的现象，则采用一种图节点动态更新机制，通过动态增加和动态擦除来实现动态节点更新，对于已表达过的节点采用下式进行动态擦除，对第i个节点表示为x_t,i，根据其强度u_t,i更新：

x_t+1,i＝x_t,i(1-u_t,ie_t,i)

如果一个节点并不需要再表达，则可置为0，采用下式对新加入的节点进行更新，包括节点的特征：

其中，f_ers、f_add为擦除和添加，该式表示具有不同参数的全连接网络。

作为本发明所述的用于体现用户意图和风格的个性化图像描述方法的一种优选方案，其中：所述用户画像的构建以及其风格归类过程包括，采用句向量和词向量混合训练的Doc2vec模型对关键词进行向量构建；采用S-TFIWF权重计算策略对所述关键词加权，并基于K-means算法对加权后的数据进行聚类处理，通过计算所述关键词之间的相似度建立用户喜好词库；采用Stacking集成模型，融合SVM分类算法对搜索关键词进行分类和预测，得到用户的标签信息，即用户的用语风格。

作为本发明所述的用于体现用户意图和风格的个性化图像描述方法的一种优选方案，其中：所述S-TFIWF权重计算策略包括，

作为本发明所述的用于体现用户意图和风格的个性化图像描述方法的一种优选方案，其中：还包括，在语言解码的过程中，采用包含注意力LSTM和语言LSTM的双层LSTM结构，其中，所述注意力LSTM以全局编码特征

、语言LSTM前一个输出

以及上一个单词嵌入w_t-1作为输入，经过LSTM解码成

用下式进行计算：

其中，θ^a作为参数串联输入经过LSTM解码成

作为本发明所述的用于体现用户意图和风格的个性化图像描述方法的一种优选方案，其中：还包括，分解式语言LSTM模块，将传统语言LSTM模型中输入x_t的权重矩阵W_x分解为三个矩阵U_x,S_x,V_x的乘积，用下式来计算：

W_x＝U_xS_xV_x

在分解式LSTM模型中，利用S_P表示标准语言描述中的专业型文体的因子矩阵集，S_R表示浪漫型文体的因子矩阵集，S_H表示幽默型文体的因子矩阵集，最终，得到分解式LSTM的计算过程用下式来表示。

其中，

本发明的有益效果：本发明构建了基于细粒度的场景控制模型，以控制所希望描述的图像内容，如描述几个物体，是否描述背景，物体之间的关系，以及对物体进行简要描述还是详细描述；加入了门控阀，使图流动注意力机制与图内容注意力机制相结合，使描述语句更贴合图像且更流畅；提出了基于用户画像的风格因子生成方法，并将风格因子加入到语言解码器中，使生成的描述具有特定风格，从而实现生成结果的个性化和多样性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种用于体现用户意图和风格的个性化图像描述方法的现有图像描述实例示意图；

图2为本发明一个实施例提供的一种用于体现用户意图和风格的个性化图像描述方法的个性化图像描述模型示意图；

图3为本发明一个实施例提供的一种用于体现用户意图和风格的个性化图像描述方法的目标空间位置关系示意图；

图4为本发明一个实施例提供的一种用于体现用户意图和风格的个性化图像描述方法的原始图像示意图；

图5为本发明一个实施例提供的一种用于体现用户意图和风格的个性化图像描述方法的另一个原始图像示意图；

图6为本发明一个实施例提供的一种用于体现用户意图和风格的个性化图像描述方法的另一个原始图像示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

一个真正有用且能与人沟通的图像描述模型，应该是一个能体现用户个性、可供用户选择的可控型图像描述模型。基于这一认知，本发明提出了一种细粒度场景控制的个性化图像描述(Personalized Image Captioning with Fine-grained Control ofScene,PICFCS)模型，如图2所示。该模型由场景细粒度控制模块和用语风格控制模块组成，其中，场景控制模块是通过图结构来控制用户所希望表达的场景中的特定目标、目标特征和目标间的关系，以反映用户的描述意图，从而生成更具有多样性的图像描述，而用语风格控制模块则是通过由用户画像所控制的风格因子来生成特定风格的描述语句，以生成个性化的图像描述。本发明采用编码器—解码器框架来构建模型，编码器会根据用户意图和用户画像对给定图像I和风格因子进行编码，而解码器则会生成符合用户意图和个性的描述语句Y＝{y₁,y₂......,y_T}(T为最大生成语句长度)。

参照图1～3，为本发明的一个实施例，提供了一种用于体现用户意图和风格的个性化图像描述方法，包括：

S1：构建一个包含三类抽象节点的空间关系图，三类抽象节点分别代表目标(object)、特征(feature)、目标之间的关系(relationship)，每个抽象节点在图中有具体区域的定位(如图2所示，1、4为特征节点，2、3为目标节点，5为关系节点)；

需要说明的是，首先，以输入图片I为基础，通过在VisualGenome数据集上运用图像卷积和目标检测等一系列预处理，获得场景图像中的目标、目标的特征，以及目标之间的空间关系，以此来生成抽象空间关系图。具体如下：添加用户感兴趣的目标节点o_i，构建出目标在图中的位置，如果对多个目标感兴趣则添加多个目标节点，如果用户希望具体了解目标的信息则添加一个或多个特征节点f，并建立目标与特征之间的有向边，当用户希望描述目标与目标之间的关系时，则生成目标与目标之间的关系节点r，并建立从主语目标指向关系r和从关系r指向宾语目标的两条边，角色刻画不仅需要描述节点在图像中对应的视觉特征，还要体现出它所代表的角色意图。

由于PICFCS中的节点不是单独的，结合相邻节点的上下文信息有益于对节点的语义和角色信息的理解；尽管PICFCS中的边是单向的，但节点之间的影响却是相互的；此外，由于节点的类型不同，信息从一种类型节点传递到另一种类型节点的传递方式与其反方向也是不同的，因此，本发明将原始PICFCS的边扩展为不同的双向边，从而生成一个具有多关系的图，利用多关系图卷积神经网络进行图中上下文编码。以图3为例，模型先检测到了目标节点“horse”、“man”、“grass”然后模型添加了其特征节点“a brown”、“a young”、“dry”最后建立与“horse”相关的两个关系节点。

角色感知图编码器将基于图像I的目标空间关系图编码为节点嵌入的集合χ＝{x₁,…x_i,…,x_|v|}，其中节点x_i不仅要表现出其在图像中对应的视觉特征，而且要能反映出它的角色意图，这对于区分具有相同图像区域的目标节点和属性节点来说至关重要，此外，因为目标空间关系图中的节点并不是单独存在的，因此结合相邻节点的上下文信息有利于节点的语义识别和角色理解。基于以上原因，本发明构建了一个角色感知图编码器，在该编码器中嵌入了一个角色感知节点来体现用户意图，还使用了一个多关系图卷积网络来进行上下文编码。

角色感知节点的编码方法如下：对第i个节点，将其目标节点和特征节点均初始化为其对应图像区域的视觉特征v_i，而关系节点的特征则被初始化为两相关目标的并集区域的图像特征。由于仅凭视觉特征不能区分不同节点的意图，所以本发明使用角色嵌入来进一步增强每个节点，从而获得如下公式所示的嵌入了角色感知的节点

其中，

为角色嵌入矩阵，d为特征维度，W_r[k]为W_r的第k行，pos[i]为一种位置嵌入，用于区分同一目标的同属性节点；

虽然目标空间关系图中的边是单向的，但相连节点之间的影响是相互的。而且，由于节点的类型不一样，本发明对原有的不具有双向边的目标空间关系图进行了扩展，从而得到了一个多关系图G_m＝{V,ε,R}。R中有六种边来捕捉相邻节点之间的相互关系，分别是：目标到目标、目标到属性、目标到关系及其反方向。本发明使用了多关系图卷积神经网络在G_m中编码图的上下文信息，用下列公式来计算。

其中，

和

表示相关联的第i个节点，

使用一层可以为每个节点带来来自其相邻节点的上下文信息，而堆叠多个层可以在图中编码更广泛的上下文。本发明堆叠L层，并将最后一层的输出作为最终的节点嵌入χ，也可以通过取χ的平均值

来获得全局嵌入图，并将其与全局图像特征表示进行融合，从而得到全局编码特征

S2：利用图注意力机制获取用户所希望描述的内容和顺序，并通过添加控制阀门调节图流动的方向，利用图语义注意力机制结合上下文的关联度使语句更为流畅；

需要说明的是，图注意力机制具体为：

为了同时考虑图形结构与语义内容的相关性，把图内容注意力和图流动注意力相结合形成图注意力机制，用节点x_t和查询

之间的上下文的语义相关性来计算出图内容注意力向量

用下列公式来计算：

其中，W_xc、W_hc和ω_c表示网络训练参数，

表示计算生成；

因为两节点间的连接可忽略不计，因此，类似于电报的远距离传送，内容注意力可以在不同的解码时从一个节点传送到图中更远距离的另一个节点，图流动注意力用以下公式来表示：

其中，W_s、W_sh、W_sz都表示网络训练参数；

利用下列公式将上述图内容注意力

与图流动注意力

进行动态融合，得到最终的图注意力α_t：

β_t是图内容注意力权重参数。

S3：加入动态访问节点(Dynamic access node)，记录所访问过的节点，加入没有访问过的节点，并擦除废词，如介词(with)、助词(have)等，使描述更具多样性且不遗漏或者重复描述；

需要说明的是，为了了解不同节点访问的情况，本发明在每个解码阶段进行了记录，用α_t表示每个节点的注意力得分；本发明加入了视觉哨兵门来实现注意力强度的修改，使模型更专注于重点单词而不是一些不可视的虚词，用下式来计算：

其中，f_vs是一个有由θ_vs参数化的全连接网络，其生成的一个标量表示是否生成节点相关的词；

x_t+1,i＝x_t,i(1-u_t,ie_t,i)

S4：在解码器中加入基于用户画像的字幕风格因子，如专业型(Professional)、浪漫型(Romantic)或幽默型(Humorous)，输出符合用户期望的风格化语句；

需要说明的是，用户画像与风格化具体包括：

要实现可控的个性化的图像描述，就必须知道用户的特征，而用户的特征可以通过用户画像来刻画。由于用户在搜索数据的过程中，所使用的关键词和用户本身属于从属关系，对同一类用户而言，他们所使用的关键词通常具有一定的相似性和相关性，即同类用户所用关键词之间的相似度较高，因此，本发明采用基于搜索关键词的用户画像构建方法；为了简单起见，基于用户画像，本发明将用户的风格简化成三类，分别是专业型、幽默型和浪漫型。因此，本发明提出的用户画像的构建以及其风格归类过程如下：

首先，采用句向量和词向量混合训练的Doc2vec模型对关键词进行向量构建；

其次，采用S-TFIWF权重计算策略对关键词加权，并基于K-means算法对加权后的数据进行聚类处理，通过计算关键词之间的相似度建立用户喜好词库；

最后，采用Stacking集成模型，融合SVM分类算法对搜索关键词进行分类和预测，得到用户的标签信息，即用户的用语风格。

进一步的，在语言解码的过程中，本发明采用了包含注意力LSTM和语言LSTM的双层LSTM结构，其中，注意力LSTM是以全局编码特征

、语言LSTM前一个输出

以及上一个单词嵌入w_t-1作为输入，经过LSTM解码成

，用下式来计算。

传统的语言LSTM网络用于生成图像描述时，主要是捕捉句子中单词之间的长期顺序依赖关系，而没有考虑语言中其他语言模式的风格。为了解决这个问题，本发明提出一个分解式语言LSTM模块，将传统语言LSTM模型中输入x_t的权重矩阵W_x分解为三个矩阵U_x,S_x,V_x的乘积，用下式来计算：

W_x＝U_xS_xV_x

在分解式LSTM模型中，矩阵集U_x、V_x在不同的样式之间共享，这些样式被设计用来对所有文本数据中的一般事实描述建模。矩阵S_x代表特定的用户用语风格，因此可以提取文本数据中的底层样式因素。具体来说，本发明用S_P表示标准语言描述中的专业型文体的因子矩阵集，S_R表示浪漫型文体的因子矩阵集，S_H表示幽默型文体的因子矩阵集。最终，本发明得到了分解式LSTM的计算过程用下式来表示。

其中，

i_t表示输入门，f_t表示忘记门，c_t-1表示以前的记忆，o_t表示输出门，LSTM块中的门和单元格定时更新规则t，w表示待学习的LSTM参数，W_ih、W_fh、W_oh、W_ch表示应用于递归更新隐藏状态值的权重矩阵。

实施例2

参照图4～6为本发明另一个实施例，该实施例不同于第一个实施例的是，提供了一种用于体现用户意图和风格的个性化图像描述方法，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

本实施例用实验来评估所提出的模型的有效性,首先介绍了实验用的基准数据集和评估指标,并给出了实验的实现细节,然后将本发明方法与最新的一些方法进行了比较,并对生成描述语句的结果进行了定量和定性的分析。

本实施例主要使用FlickrStyle10K和MSCOCO 2014数据集来验证模型的有效性。FlickrStyle10K是在Flickr 30K数据集中创建的，该数据包含10000图片，每张图片至少标注了1个幽默型语句和1个浪漫型语句和5个真实标注语句，实验使用了7000张图像用于训练，2000张图像用于测试，1000张图像用于验证，测试集中收集了由5名不同工作人员撰写的5种浪漫和幽默型的评价说明。MSCOCO 2014数据集包含123287张图像，每张图像至少有5个真实标注语句用于图像描述任务，实验中使用113,287幅图像用于训练，5000幅图像用于验证，5000幅图像用于测试。实验中使用的评价指标包括BLEU[1-4]、METEOR、CIDER、SPICE和ROUGE-L。

本实施例实验在pytorch框架上实现，使用python 3.6语言编程,使用NVIDIAGeForce RTX 3090进行实验；本实施例使用Faster R-CNN来检测图像中包含的目标，Faster R-CNN首先在Visual Genome数据集上进行预训练,然后在MSCOCO数据集上进行微调；因此,对于每一幅经过预处理得到的大小为256×256的图像,可以得到36个2048维的图像特征向量；在解码阶段，使用LSTM作为语言生成器,其输入层和隐藏层数量均设置为512，设置嵌入向量的维度为512；设置参数λ的值为0.2，整个训练过程分为以下两个阶段:在第一阶段,利用交叉熵损失函数训练模型,训练的批量大小为64，设置动量大小为0.9，设置学习率为1×10^-4，在训练过程中，每经过5个epoch，学习率衰减为原来的0.7倍，使用集束搜索技术从候选语句集中选择最合适的描述语句,集束的大小设置为3，其实验结果如下：

(1)在FlickrStyle上生成描述示例。

表1展示了所提出的模型在FlickrStyle上的实验结果。从表1的第二列不难看出，本发明提出的方法可以有效地从位置、属性、关系等方面按照用户的意图生成相应的图像描述，以图4为例，“Two people”既可描述成“A man and awoman”，也可以更加细粒度的描述成“A group of skiers”；从第二列的描述语句对图6中目标与目标之间的动作关系“jumping to catch”的描述，可以发现模型可以通过有向节点的控制来表达用户所希望描述的物体及物体之间的关系，从而更加细粒度地描述用户所感兴趣的内容或要忽略的内容，从而更高效地表达关键性的、用户需要的细节信息；从图5第四列可以看出，“Twohorses graze in a field near trees.”可以浪漫的表述成“Two horses graze in afield,as a landscape painting.”，也可以幽默的表述成“A horse graze in a fieldnear trees,wants go home.”，本模型可以显著地提升句子的可读性，极大地丰富了图像描述中文字的表现力。

表1：在数据集FlickrStyle的实验结果表。

表2展示了本发明提出方法与其他方法的性能对比，其中OURS_P、OURS_R和OURS_H分别代表本发明的专业型、浪漫型以及幽默型字幕生成方法，与普通的图像描述数据集相比，FlickrStyle数据集中的标准描述语句更具多样性、表现力和吸引力，从表2中本发明方法的各项评价指标都要优于其他方法的现象可以说明，本发明方法所产生的描述更具多样性、更受欢迎和易于记忆，这也说明带有样式的图像字幕任务有望为许多现实世界的应用程序提供便利。

表2：不同图像描述生成方法在FlickrStyle性能比较表。

(2)消融实验结果分析。

本发明提出的模型主要包含以下几个模块：空间关系图(Spatial Relation，SR)、多关系卷积神经网络(MR-GCN，MG)、图语义注意力(Graph Content Attention，GCA)、图流动注意力(Graph Flow Attention，GLA)、动态访问节点(Dynamic Access Node，DAN)、风格因子(Factored，FAT)和集束搜索(Beam Search，BS)。为了验证各模块的贡献，本实施例进行了如表3所示的消融实验，其中√表示对应的模块被选中，由于MSCOCO数据集中的描述语句是不带风格化的，因此表3中最后一行在加入了风格化模块后就无法测试MSCOCO数据集了，其对应的实验结果本实施例用--表示。在第3行中本实施例在编码器中加入了空间关系图极大的提升了模型的性能，这说明区分同一区域不同的节点至关重要，在第4和第5行中分别加入了图语义注意力和图流动注意力，可以看出两个注意力之间有一定的互补性，使得描述语句更通顺。第6第7行中的动态访问节点以及集束搜索均在数据量更大的MSCOCO上表现更佳，而加入了风格因子后模型的性能得到了进一步提升，这主要得益于风格因子的多样性。

表3：消融实验结果表。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。