CN110458282A

CN110458282A - 一种融合多角度多模态的图像描述生成方法及系统

Info

Publication number: CN110458282A
Application number: CN201910721397.6A
Authority: CN
Inventors: 杨振宇; 张姣
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-15
Anticipated expiration: 2039-08-06
Also published as: CN110458282B

Abstract

本发明公开了一种融合多角度多模态的图像描述生成方法及系统，所述方法包括以下步骤：接收待描述图像，提取所述图像的全局视觉特征和局部视觉特征并进行融合，得到融合视觉特征；采用单层长短期记忆网络，将融合视觉特征作为输入，得到第一句图像描述；根据第一句图像描述生成第一句语义向量；采用基于注意力的长短期记忆网络语言生成模型，将局部视觉特征和所述第一句语义向量作为输入，生成下一句图像描述句子，进而得到完整的图像描述。本发明融合视觉特征和文本语义特征两种模态，并结合注意力机制，实现了图像的多角度全面描述。

Description

一种融合多角度多模态的图像描述生成方法及系统

技术领域

本发明属于图像处理技术领域，尤其涉及一种融合多角度多模态的图像描述生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，自然语言处理(NLP)和计算机视觉(CV)领域在分析和生成文本以及理解图像和视频方面取得了巨大的进步。日常工作中对于需要结合语言和视觉信息的场景很多，例如在报纸文章的背景下解读照片等。除此之外，网络还提供了大量的语言和视觉信息相结合的数据：标签照片，报纸插图，带有字幕的视频以及社交媒体上的多模式信息。在这些场景下，自动图像描述已经成为关键任务。这项任务涉及分析图像视觉内容，并生成文字描述(通常是一个句子)，用语言表达图像最显着的方面，而好的图像描述需要全面的图像理解。传统的图像描述方法对于图像描述内容角度单一，内容匮乏，不能充分地描述图像中所展现的内容。

发明内容

为克服上述现有技术的不足，本发明提供了一种融合多角度多模态的图像描述生成方法及系统，该方法从文本和图像两个模态进行信息挖掘，基于融合的语义向量和视觉特征生成描述语句，并且，引入了注意力机制来提高模型的学习能力和描述效果。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种融合多角度多模态的图像描述生成方法，包括以下步骤：

接收待描述图像，提取所述图像的全局视觉特征和局部视觉特征并进行融合，得到融合视觉特征；

采用单层长短期记忆网络，将融合视觉特征作为输入，得到第一句图像描述；

根据第一句图像描述生成第一句语义向量；

采用基于注意力的长短期记忆网络语言生成模型，将局部视觉特征和所述第一句语义向量作为输入，生成下一句图像描述句子，进而得到完整的图像描述。

一个或多个实施例提供了一种融合多角度多模态的图像描述生成系统，包括：

视觉特征提取模块，接收待描述图像，提取所述图像的全局视觉特征和局部视觉特征并进行融合，得到融合视觉特征；

句子生成模块，采用单层长短期记忆网络，将融合视觉特征作为输入，得到第一句图像描述；

句子再生成模块，根据第一句图像描述生成第一句语义向量；采用基于注意力的长短期记忆网络语言生成模型，将局部视觉特征和所述第一句语义向量作为输入，生成下一句图像描述句子，进而得到完整的图像描述。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的融合多角度多模态的图像描述生成方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，用于指纹图谱相似度计算，该程序被处理器执行时实现所述的融合多角度多模态的图像描述生成方法。

以上一个或多个技术方案存在以下有益效果：

本发明提出了一种融合多角度多模态的图像描述生成方法，从文本和图像两个模态进行信息挖掘，融合语义向量和视觉特征，并以此来生成描述语句，多模态表示学习通过多模态之间的互补性，能够剔除模态间的冗余性，学习更好的特征表示；并且，在预测描述语句时，引入了注意力机制进行端到端的训练来提高模型的学习能力，通过注意力机制衡量图像上不同区域的注意力分布，从而能够从多个角度对图像进行信息的挖掘，生成多角度的全面的图像描述语句。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为一个图像描述示例；

图2为本发明一个或多个实施例中融合多角度多模态的图像描述生成方法模型架构图；

图3为本发明一个或多个实施例中句子编码器结构示意图；

图4为网络VGG16，VGG19和Inception-resnet三个网络模型的图像特征提取的可视化结果示例；

图5为基于全局图像和基于局部图像整体模型的测试图片的描述效果；

图6为本文模型的图片描述效果示例图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，有人会看到穿蓝色上衣，带着蓝色棒球帽的大人，有人看到拿着玩偶的小朋友，有人看到成人旁边的红色轿车，有人看到红色轿车旁边的白色小轿车，人们看到的这些场景都是图像上展现的画面，只是观察角度不同。图1中(a)-(d)分别为从图中识别出的不同对象，针对图1的相应描述语句可以包括：

1.a man in a blue shirt playing frisbee with a little boy in thepark.

2.a red car beside the man dressing a blue shirt in the park.

3.a little boy holding a toy in the park.

4.a white beside the tree in the park.

本实施例的目的就是从多个角度，结合图像和文本两个模态来学习完整地图像描述，从而充分的表达出图像中所包含的内容。基于此，本实施例公开了一种融合多角度多模态的图像描述生成方法，如图2所示，包括以下步骤：

步骤1：接收待描述图像，对所述图像进行编码，提取全局特征和局部特征并进行融合；

具体地，我们使用深度残差网络Inception-resnet对图像的全局特征进行提取。使用RetinaNet网络对图像特定候选区域的局部特征进行提取。使用注意力机制将两个特征相融合，得到最佳的融合特征。

图像特征的融合对于图像表示非常重要。全局特性通常包含对象周围的上下文信息，局部图像包含对象的细粒度信息。得益于深度残差网络Inception-resnet在图像分类上的强大能力以及深度网络RetinaNet在图像目标识别的强大能力。我们利用深度残差网络Inception-resnet提取图像的全局图像特征，使用残差结构的RetinaNet网络提取图像的局部特征。通过特征变换，将他们转换为统一大小的特征向量。通过视觉注意力将两者进行融合，输入到基线语言生成模型，生成第一句图像描述。图像编码的实现过程如下：

全局图像特征：对于图像的全局特征H_i，c(x)，我们使用Inception-resnet进行了全局图像特征提取训练。我们提取Inception-resnet最后池化层的1×1×1792维图像特征。然后通过特征变换重新调整为统一的1×1×1024维的特征大小：H_i，c(x)＝{x₁，x₂，...x_L}，x_i∈R^D。其中L表示特征向量的个数，D表示特征向量的维数。此输出将与RetinaNet网络的输出在视觉注意力模块进行特征融合。

局部图像特征：对于局部图像特征I_box，我们使用网络RetinaNet网络提取候选区域的局部图像特征。我们主要使用ROI Pooling区域的图像特征。RetinaNet是残差网络ResNet和金字塔网络FPN的结合。在提高准确率的同时能更好地检测小目标，能提取高质量、细粒度的图像特征。我们选取最大池化层1×1×1024维的图像特征为输入嵌入向量：I_box＝{I_box1，I_box2，...I_boxn}。其中boxn表示特征向量的个数。

局部与全局图像特征的融合：本文采用视觉注意力机制来融合这两种特征：

其中表示每个图像特征在时间t的注意力权重，且

这种注意力机制通过给每个特征分配一个权重动态地进行加权。通过这种方式，我们的方法可以在不同的时间选择性地集中在不同的对象上，并能同时考虑它们的上下文信息。注意权重测量每个特征在时间t时的重要程度以及每个特征与先前信息的相关性。因此，可以基于先前的信息和每个特征V_i∈{H_i，c(x)，I_box1，I_box2，...I_boxn}采用下面的公式来计算权重：

其中，表示特征V_i与单词的关联评分。权重是通过用SoftMax回归对进行归一化得到的。是隐藏状态输出。W^t，W_h，b是由模型学习，且在所有时间步骤中由所有特征共享的参数。Tanh是我们的激活函数。

为了有效说明本文所提融合图像特征在图像描述生成的有效性，我们做了大量的对比试验。具体实验结果可在实验效果部分进行查看。

步骤2：采用单层的长短期记忆网络LSTM语言模型生成第一个完整的描述语句。

一般来说，多句话中的第一句包含图片中的概要信息和高级信息。因此，我们采用了比较流行的基于长短期记忆网络(LSTM)语言生成模型。我们通过视觉注意力改进了以往语言生成模型的输入向量，而不是单纯的使用深度卷积神经网络提取的图像特征作为输入。所述步骤2具体包括：

步骤2.1：在输入LSTM之前，利用一个全连接层对融合视觉特征向量进行变换，使其与词嵌入具有相同的维数；

步骤2.2：我们使用单层的LSTM用于句子解码，LSTM的隐藏状态和cell的初始值都设为零。该模型通过将图像数据和相应的描述语句作为训练数据进行学习得到。

该模型主要以图像编码器学习的融合视觉特征作预测第一句话的第一个词的初始输入，进行下一个单词的预测。继而生成图片的第一句描述。具体地，采用单层长短期记忆网络，首先将融合视觉特征作为输入，将预测得到的句子中的第一个词记为第一句图像描述的第一个词；将第一个词与融合视觉特征作为输入，将本次预测得到的句子中的第一个词记为第一句图像描述的第二个词；将第一个词、第二个词和融合视觉特征作为输入，将本次预测得到的句子中的第一个词记为第一句图像描述的第三个词；以此类推，预测得到第一句图像描述。

在本文所使用的所有LSTM模块中，字嵌入的维度和隐藏状态的维度分别是512和1024。

步骤3：根据第一句图像描述生成语义向量；采用基于注意力的长短期记忆网络语言生成模型，将局部视觉特征和所述语义向量作为输入，生成下一句图像描述句子。具体包括：

步骤3.1：先将生成的第一句图像描述输入句子编码器模型，提取句子中重要的词向量，生成句子的语义向量。

句子编码器用于从文本描述中提取语义向量。本文提出了两种著名的文本编码器。第一个是双向长短期记忆网络(Bi-LSTM)。其可以比传统的定向LSTM更好地编码上下文信息。第二个是使用一维卷积神经网络用于句子编码。

在Bi-LSTM中，每个单词对应于两个隐藏状态，一个方向对应于一个。对于生成的首句我们首先用独热向量将每一个词w_t嵌入到向量集e_t中，然后使用双向的Bi-LSTM对整个表达式进行编码。每个单词的最后隐藏表示是隐藏向量在两个方向上的级联。这个隐向量包含了以w_t为中心的整个句子的信息。可用以下公式进行表示：

e_t＝embedding(w_t) (4)

但是在一句话中，并不是每个词都能平等地表达句意。比如图1语句中的“man”，“woman”，“snow”这些词。因此，我们引入注意机制来提取对句子意义重要的词。然后将这些信息词的表示集合起来，形成句子特征向量。为了使神经网络能自动地将“注意力”放在这些词汇上，我们设计了基于单词的注意力模型。其计算公式如下：

u_t＝tanh(W_wh_t+b_w) (8)

也就是说，我们首先通过单层的MLP输入h_t，以获得u_t，即为h_t的隐藏表示。我们用单词级上下文向量u_w和u_t的相似度度量单词的重要性。并通过一个Softmax函数得到一个归一化的权重α_t来计算每个单词的重要性。然后，我们通过对双向Bi-LSTM的输出进行加权平均得到每个句子的表示。结构图如图3所示。

本实施例将一维卷积神经网络应用于句子编码。我们的CNN模型将512维单词嵌入作为输入，并具有三个卷积层，以学习分层特征。每个卷积层具有核大小3、步长1和1024个特征信道。最大池化操作被应用于从每个卷积层提取的特征映射u_i，产生1024维特征向量。最后一句特征是将不同层次的特征向量连在一起：u＝[u₁，u₂，...u_n]。我们在实验部分对提出的这两个编码器网络的实验效果进行了比较。

将生成的第一个句子向量和特定候选区域的局部图像特征作为输入，依次生成多条语句。

步骤3.2：结合局部视觉特征和句子语义向量的联合输入到采用基于注意力的长短期记忆网络A-LSTM语言生成模型，生成下一句图像描述句子生成。以此类推，继而生成多个描述句子。

我们使用注意力机制构造句子解码器。句子解码器是一个叠加的两层LSTM模型。局部图像特征向量被转换为2层LSTM的初始输入。将特定候选区域的局部视觉特征和先前生成的第一个句子向量表示进行融合，并将其作为句子解码器的多模态输入，生成下一个描述句子。前面句子的学习编码过程引导我们的模型生成下一个句子。我们重复这一过程，直到达到生成句子个数的预设上限。具体地，采用基于注意力的长短期记忆网络，将第一句语义向量和局部视觉特征作为输入，预测得到第二句图像描述；根据第二句图像描述生成第二句语义向量，将第一句语义向量、第二句语义向量和局部视觉特征作为输入，预测得到第三句图像描述；以此类推，直至预测的描述句子数量达到设定阈值，从而生成完整的图像描述。

为了使不同的句子聚焦于不同的图像区域，捕捉句子之间的依赖关系，我们采用了一种注意机制模型。前句的语义特征和区域视觉表示是通过一个完全连接的层和一个Softmax层来提供的，从而得到图像区域的注意力分布。首先，我们将区域上的注意力权重计算为：

a＝W_attTanh(W_vv+W_ss) (11)

其中是由图像编码器学习的区局部视觉特征。表示第一句描述的向量编码。W_att∈R^1×k，是注意力网络的参数。d_v＝1024是区域视觉特征的维度。d_s＝2048是句子特征的维度(d_s＝2048用于Bi-LSTM编码器。d_s＝3072用于CNN句子编码器)。接下来，我们对所有区域进行标准化，以获得注意力分布：

其中a_i是向量a中的第i个向量。最后，我们计算加权视觉表示：

句子解码器的初始输入是特定候选区域的局部图像特征和句子语义特征向量的联合加权表示。当生成不同的句子时，注意力模型基于前面句子的上下文来关注图像的不同区域。然后过滤出与当前句子不相关的特征或区域。模型不能直接看到句子编码，因此对于语义输入不太可能过度拟合。对于有和没有注意模块的模型表达效果，可以在实验分析部分看到性能比较。

实施例二

本实施例的目的是提供一种融合多角度多模态的图像描述生成系统。

为了实现上述目的，本实施例提供了一种融合多角度多模态的图像描述生成系统，包括：

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

根据第一句图像描述生成第一句语义向量；

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

根据第一句图像描述生成第一句语义向量；

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

实验结果

为了验证本文方法相比于其他模型在图像描述上的独特性能，我们进行了大量的实验。我们针对图像特征编码模块和句子解码模块两个模型，分别进行了相关的实验验证。

1.全局图像特征、局部图像特征和图像特征融合的对比试验：为验证图像的全局特征和局部细粒度特征对图像描述生成的重要作用，通过评估图像描述生成的第一句描述，我们进行了多组对比试验。为了公平比较，我们都是用基于长短期记忆网络(LSTM)的语言生成模型来生成第一句描述。这一过程主要包括以下几个部分：

(1)只使用深度网络提取的全局图像特征H_(i，c)(x)来生成图像描述内容的第一句话。我们使用网络VGG16、VGG19和Inception-resnet分别进行了对比实验。如表2所示。我们提取VGG16的fc7层的4096维图像特征、VGG19的fc7层的图像特征和Inception-resnet最后池化层的1×1×1792维图像特征。通过特征转换调整为统一的输入大小，并用于LSTM的初始输入。我们还展示了三个网络模型的图像特征提取的可视化结果。如图4中(a)-(c)所示。基于该全局图像特征的模型生成图片描述的结果图示例，针对图5的全局图像特征生成的第一句话为“a group ofpeople standing on top of a snow covered slope”。

从表1中可以看出，使用网络VGG16和VGG19的图像编码器的模型，在整个模型的流行评分指标上的数值相差很少。但是采用Inception-resnet网络在模型的评分上取得了不错的评分。所以最终的图像编码器本文采用网络Inception-resnet进行全局图像特征的提取。

表1对于模型生成的第一句话，采用网络VGG16、VGG19和Inception-resnet这三个不同的基于全局图像特征的图像编码器在整个模型的评分对比试验。

(2)只使用深度区域检测网络提取的局部细粒度图像特征I_box＝{I_box1，I_box2，...I_boxn}来生成图像内容描述的第一句话。我们使用图像局部特征提取网络Faster-RCNN和RetinaNet网络分别进行了对比试验。我们提取候选区域的局部图像特征，主要使用ROIPooling区域的图像特征。如表3所示。基于局部图像特征模型的图片描述，针对图5为“aman dressed in black coat”。

从表2中，我们可以看到基于局部图像特征和基于全局图像特征的模型相比，评估得分没有低很多。有时候的评分还会高一点。使用网络RestinaNet的效果整体上看比使用Faster-RCNN网络的评分要高一些。测试集图片生成的描述更具有针对性，更详细。所以本文的最终模型采用网络RestinaNet进行局部图像特征提取。

表2对于模型生成的第一句话，使用网络Faster-RCNN和RetinaNet这两个不同的基于局部图像特征的图像编码器在整个模型评分上对比试验

(3)使用图像全局与局部的融合特征y^t来生成图像描述内容的第一句话。我们使用网络Inception-resnet提取的全局图像特征和RetinaNet提取的局部图像特征的融合特征进行了模型训练。对以上模型进行的对比如表3所示。

从表3中，我们发现基于融合图像特征的评分效果比基于全局或者局部图像特征的评分结果高很多。通常我们注重图像中重要的对象，但是细小对象也许是不能忽视的。基于融合特征的编码方法可以获得最佳性能。

表3对于模型生成的第一句话，基于全局特征、局部特征以及与融合图像特征的图像描述语句的比较试验结果。

2.在句子再生成模型部分：为了比较，我们重新复现了两个图像描述的基线模型。对于所有模型，我们使用相同的预先训练的RetiaNet局部图像特征编码器。由于Bi-LSTM编码在实验中比卷积编码取得了更好的性能，所以我们的最终模型采用了Bi-LSTM语句编码。我们还实现了一个没有注意模块的基线模型。在不加注意力的语句再生成模型中，语句编码器所学习的文本语义编码被用作句子解码器的初始隐藏状态和单元状态。

从表4中我们可以看到，我们的最后一个带有注意力的模型在所有评估指标中都比基线模型有显著的改进。此外，尽管分层模型取得了相当高的评价分数，但生成的描述内容单一、缺乏针对性、内容宽泛。相比之下，我们所提出的模型生成的描述包含多个对象，内容丰富，清晰明确。如图6，图中(a)-(d)分别为从该图像中识别出的不同对象，采用本方法针对该图像生成的描述如下：

Captions for image：little baby playing bear each other standing ontop of grass.

1)a baby dressing in white T-shirt with a little teddy bear.

2)a baby in the middle with a bread.

3)a baby dressing a pink trouser with a big teddy bear.

4)three babies standing in green grass with a stuffed animal

表4我们的模型与两个基线模型进行比较：使用BLEU，Meteor和CIDER指标对测试集生成的报告进行评估

以上一个或多个实施例具有以下技术效果：

从文本和图像两个模态进行信息挖掘，融合语义向量和视觉特征，并以此来生成描述语句，多模态表示学习通过多模态之间的互补性，能够剔除模态间的冗余性，学习更好的特征表示；并且，在预测描述语句时，引入了注意力机制进行端到端的训练来提高模型的学习能力，通过注意力机制衡量图像上不同区域的注意力分布，从而能够从多个角度对图像进行信息的挖掘，生成多角度的全面的图像描述语句。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种融合多角度多模态的图像描述生成方法，其特征在于，包括以下步骤：

根据第一句图像描述生成第一句语义向量；

2.如权利要求1所述的一种融合多角度多模态的图像描述生成方法，其特征在于，提取所述图像的全局视觉特征和局部视觉特征并进行融合具体包括：

利用深度残差网络Inception-resnet提取图像的全局特征；

使用残差结构的RetinaNet网络提取图像的局部特征；

将全局特征和局部特征进行特征变换，转换为统一大小的特征向量；

通过视觉注意力机制将转换后的全局特征和局部特征进行融合。

3.如权利要求2所述的一种融合多角度多模态的图像描述生成方法，其特征在于，通过视觉注意力机制为每个全局视觉特征和局部视觉特征进行权重分配，对所有全局视觉特征和局部视觉特征加权求和得到融合视觉特征。

4.如权利要求1所述的一种融合多角度多模态的图像描述生成方法，其特征在于，所述单层长短期记忆网络通过将图像数据和相应的描述语句作为训练数据进行学习得到；采用单层长短期记忆网络生成第一句图像描述包括：

利用一个全连接层对融合视觉特征进行变换，使其与词嵌入具有相同的维数；

采用单层长短期记忆网络，首先将融合视觉特征作为输入，将预测得到的句子中的第一个词记为第一句图像描述的第一个词；将第一个词与融合视觉特征作为输入，将预测得到的句子中的第一个词记为第一句图像描述的第二个词；将第一个词、第二个词和融合视觉特征作为输入，将预测得到的句子中的第一个词记为第一句图像描述的第三个词；以此类推，预测得到第一句图像描述。

5.如权利要求1所述的一种融合多角度多模态的图像描述生成方法，其特征在于，根据第一句图像描述生成第一句语义向量采用双向长短期记忆网络或一维卷积神经网络。

6.如权利要求1所述的一种融合多角度多模态的图像描述生成方法，其特征在于，采用基于注意力的长短期记忆网络生成完整的图像描述包括：

采用基于注意力的长短期记忆网络，将第一句语义向量和局部视觉特征作为输入，预测得到第二句图像描述；根据第二句图像描述生成第二句语义向量，将第一句语义向量、第二句语义向量和局部视觉特征作为输入，预测得到第三句图像描述；以此类推，直至预测的描述句子数量达到设定阈值，从而生成完整的图像描述。

7.如权利要求6所述的一种融合多角度多模态的图像描述生成方法，其特征在于，所述基于注意力的长短期记忆网络为两层长短期记忆网络，每一次预测所采用的前句语义向量和局部视觉特征均通过一个全连接层和一个Softmax层，得到在图像上区域的注意力分布。

8.一种融合多角度多模态的图像描述生成系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的融合多角度多模态的图像描述生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，用于指纹图谱相似度计算，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的融合多角度多模态的图像描述生成方法。