CN108171283A

CN108171283A - 一种基于结构化语义嵌入的图像内容自动描述方法

Info

Publication number: CN108171283A
Application number: CN201711493993.0A
Authority: CN
Inventors: 纪荣嵘; 陈福海; 苏劲松
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2017-12-31
Filing date: 2017-12-31
Publication date: 2018-06-15
Anticipated expiration: 2037-12-31
Also published as: CN108171283B

Abstract

一种基于结构化语义嵌入的图像内容自动描述方法，涉及图像内容理解领域。包括以下步骤：获取文本解析树；构建视觉解析树；嵌入视觉解析树。通过对图像进行语义解析获得视觉语义结构树，获取关键的实体以及它们之间的关系，通过新的结构化的语义嵌入方法将关键的实体和它们的关系嵌入到神经解码器模型中，来引导文本的生成。解决了图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题。在多数指标上都优于其他的方法，生成的图像内容的描述也比最流行的方法更为准确。

Description

一种基于结构化语义嵌入的图像内容自动描述方法

技术领域

本发明涉及图像内容理解领域，尤其是涉及一种基于结构化语义嵌入的图像内容自动描述方法。

背景技术

图像内容自动描述(image captioning)，即用自然语言对图像的内容进行自动的描述。由于图像内容自动描述有着广泛的应用前景，如人机交互和导盲系统，近来成为计算机视觉和人工智能领域一个新的焦点。与图像分类或物体检测不同，图像自动描述以对对象、场景及其关系的全面描述为目标，涉及视觉场景解析，内容语义理解以及自然语言处理，是混合任务中尖端技术的集成设计。

针对图像内容自动描述主要采用神经编码器-解码器框架，其中神经编码器采用深度卷积网络(Convolutional Neural Network，简称CNN)提取图像的高层语义特征。神经解码器采用长短期记忆神经网络(Long Short-Term Memory，简称LSTM)将图像的高层语义特征转化为文本每个词的输出，如专利《INTELLIGENT IMAGE CAPTIONING(美国专利 US:201615166177:A)》。然而，这样一个“黑箱”过程缺少足够的高层语义线索来引导句子的生成，甚至很难在高层语义空间被解释。为了解决这个问题，最近的工作大多引入了注意模型，如专利《一种基于视觉注意模型的图像文字描述方法(中国专利CN201611207945.6)》。该方法利用视觉上检测的所有实体作为语义线索，加强视觉语义内容与文本生成之间的关联。然而，这样做法忽视了关键实体以及实体之间的关系，在描述图像主要内容上缺少判别性。

总而言之，现有技术存在如下缺陷：第一，现有技术缺少足够的高层语义线索来引导句子的生成，而且也难以解释这个“黑箱”过程中不同部分的特征所表示的含义；第二，现有技术引入注意模型并利用视觉上检测的所有实体作为语义线索，这一方面忽视了关键实体，而正常情况下不可能用自然语言描述一幅图像中的所有内容，因此这些技术在描述图像主要内容上容易产生干扰，缺少判别性。另一方面这些技术忽视了实体之间的关系，而实体之间的关系这就好比语言中主语和宾语之间的谓语，对整个语义结构和语义内容的表示具有重要的引导作用。因此本发明提出一种基于结构化语义嵌入的图像内容自动描述方法，通过对图像进行语义解析获得视觉语义结构树，获取关键的实体以及它们之间的关系，通过新的结构化的语义嵌入方法将关键的实体和它们的关系嵌入到神经解码器模型中，来引导文本的生成。

发明内容

本发明的目的是针对图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题，提供一种基于结构化语义嵌入的图像内容自动描述方法。

本发明包括以下步骤：

步骤1获取文本解析树；

步骤2构建视觉解析树；

步骤3嵌入视觉解析树。

在步骤1中，所述获取文本解析树的具体方法可为：

通过现成最佳的解析工具包，Stanford Parser，来获得文本解析树，按照主语在左叶子结点，宾语在右叶子结点，谓语在父结点，仅保留名词、动词、动词介词短语、介词、连词这四个的原则，对文本解析树进行重塑，获得三层全二叉树形式的文本解析树，保留高频出现的词(实体或关系)，对其他在文本解析树中出现的词都用特殊符号“null”替换。

在步骤2中，所述构建视觉解析树的具体方法可为：

构建一个三层全二叉树结构的视觉解析树模型，每个叶子结点表示视觉的一个实体，每个父结点表示两个实体或子关系之间的关系，实例如下所示：

<<“狗”,“玩”,“球”>,“在…上”,<无,无,“草地”>>

其中，根据基本的子树<实体1,关系,实体2>可以看出，“狗”、“球”和“草地”都为实体，“玩”和“在…上”都为关系，在特征表示层面，每个结点都为一个特征向量，其中叶子结点向量为实体的特征表示，父结点向量为关系的特征表示；所述视觉解析树中节结点特征向量可以通过语义映射器(Semantic Mapper)、结合器(Combiner)和分类器(Categorizer)操作获取；

所述使用语义映射器获取实体的语义特征表示的具体方法可为：采用CNN对图像进行深度视觉特征提取，然后将深度视觉特征做四种线性变换对应到四个实体上，四个实体对应三层全二叉树的四个叶子结点，经过一个非线性函数映射到四个实体的语义空间上，得到四个实体的语义特征表示；

所述使用结合器获取关系的语义特征表示的具体方法可为：在全二叉树中，两个孩子结点的语义特征向量在结合器中被串联在一起并经过一次非线性变换得到与孩子结点维度相同的父结点语义特征向量，即关系语义特征，得到整个视觉解析树中每个结点的特征表示；

所述使用分类器指导视觉解析树结构参数的训练阶段优化与预测阶段类别生成的具体方法可为：使用步骤1中获得的文本解析树对视觉解析树的构建进行指导，进而实现语义映射器、结合器和分类器的参数优化，首先以文本解析树中的每个结点的词作为视觉解析树中对应位置的类别标签，所述类别为实体类别或关系类别；然后在模型训练阶段，基于每个结点的特征映射到类别空间并计算分类损失，通过损失反向传递来优化整个视觉解析树的参数；最后在预测阶段，利用优化的参数可以对每个图像的深度视觉特征进行解析，获得每个结点的类别标签。

在步骤3中，所述嵌入视觉解析树的具体方法可为：

(1)视觉解析树模型作为初始化编码器嵌入到深度编码器-解码器模型中，视觉解析树的根结点表示全局的视觉语义结构，利用视觉解析树模型对一个图像的深度视觉特征进行解析后，得到根结点的语义特征向量，将这一过程作为一个初始化编码过程并将该根节点的语义特征向量作为深度解码器初始状态的输入；

(2)采用结构化注意模型将视觉解析树的每个结点嵌入到深度解码器模型中，对于深度解码器，一开始输入的结构化语义信息可能在生成每个词的过程中被丢失，因此在深度解码器生成每个词的过程中将视觉解析树的每个结点嵌入到每个状态的LSTM上来指导当前词的生成，具体而言，首先计算每个结点特征向量与前一状态LSTM输出的隐特征向量之间的相关度；然后将每个结点特征向量按照对应的相关度加权求平均，获得带注意的特征向量；最后将带注意的特征向量与前一状态LSTM输出的隐特征向量进行串联并经过一次非线性变换获得新的隐特征向量，作为当前状态LSTM的输入，由此循环来指导不同状态词的生成，直到生成终止符号。

本发明解决了图像内容自动描述任务中注意模型的关键实体以及实体之间的关系被忽视的问题，提供一种基于结构化语义嵌入的图像内容自动描述方法，实验评价标准为机器翻译中的的评价指标，分别有：双语评价替补(Bilingual Evaluation Understudy，简称BLEU)，带显式顺序的翻译评估指标(Metric for Evaluation of Translation withExplicit Ordering，简称METEOR)。这些指标都反映了模型生成的文本句子和参考的文本句子之间的相似性度量。本发明所提出的方法在多数指标上都优于其他的方法，生成的图像内容的描述也比最流行的方法(NIC)更为准确。

具体实施方式

以下对本发明作进一步的说明。

本发明的具体实施例包括以下步骤：

步骤1文本解析树的获取。获取文本解析树是为了指导视觉解析树的构建，首先通过现成最佳的解析工具包，Stanford Parser，来获得文本解析树；然后按照主语在左叶子结点，宾语在右叶子结点，谓语在父结点，仅保留名词、动词、动词介词短语、介词、连词这四个的原则，对文本解析树进行重塑，获得三层全二叉树形式的文本解析树；最后保留高频出现的词(实体或关系)，对其他在文本解析树中出现的词都用特殊符号“null”替换。

步骤2视觉解析树的构建，具体方法如下：

首先构建一个三层全二叉树结构的视觉解析树模型，每个叶子结点表示视觉的一个实体，每个父结点表示两个实体或子关系之间的关系。如下例所示：

<<“狗”,“玩”,“球”>,“在…上”,<无,无,“草地”>>

其中，根据基本的子树<实体1,关系,实体2>可以看出，“狗”、“球”和“草地”都为实体，“玩”和“在…上”都为关系。在特征表示层面，每个结点都为一个特征向量，其中叶子结点向量为实体的特征表示，父结点向量为关系的特征表示。视觉解析树中节结点特征向量可以通过语义映射器(Semantic Mapper)、结合器(Combiner)和分类器(Categorizer)操作来获取。

(1)使用语义映射器来获取实体的语义特征表示。首先采用CNN对图像进行深度视觉特征提取，然后将深度视觉特征做四种线性变换对应到四个实体的上(四个实体对应三层全二叉树的四个叶子结点)，最后经过一个非线性函数映射到四个实体的语义空间上，进而得到四个实体的语义特征表示。

(2)使用结合器来获取关系的语义特征表示。在全二叉树中，两个孩子结点的语义特征向量在结合器中被串联在一起并经过一次非线性变换得到与孩子结点维度相同的父结点语义特征向量(关系语义特征)。由此，可以得到整个视觉解析树中每个结点的特征表示。

(3)使用分类器来指导视觉解析树结构参数的优化(训练阶段)与类别生成(预测阶段)。使用步骤1中获得的文本解析树对视觉解析树的构建进行指导，进而实现语义映射器、结合器和分类器的参数优化。首先以文本解析树中的每个结点的词作为视觉解析树中对应位置的类别标签(实体类别/关系类别)；然后在模型训练阶段，基于每个结点的特征映射到类别空间并计算分类损失，通过损失反向传递来优化整个视觉解析树的参数；最后在预测阶段，利用优化的参数可以对每个图像的深度视觉特征进行解析，获得每个结点的类别标签。

步骤3视觉解析树的嵌入，具体方法如下：

(1)视觉解析树模型作为初始化编码器嵌入到深度编码器-解码器模型中。视觉解析树的根结点表示了全局的视觉语义结构，利用视觉解析树模型对一个图像的深度视觉特征进行解析后，得到根结点的语义特征向量，将这一过程作为一个初始化编码过程并将该根节点的语义特征向量作为深度解码器初始状态的输入；

(2)采用结构化注意模型将视觉解析树的每个结点嵌入到深度解码器模型中。对于深度解码器，一开始输入的结构化语义信息可能在生成每个词的过程中被丢失。因此在深度解码器生成每个词的过程中将视觉解析树的每个结点嵌入到每个状态的LSTM上来指导当前词的生成。具体而言，首先计算每个结点特征向量与前一状态LSTM输出的隐特征向量之间的相关度；然后将每个结点特征向量按照对应的相关度加权求平均，获得带注意的特征向量；最后将带注意的特征向量与前一状态LSTM输出的隐特征向量进行串联并经过一次非线性变换获得新的隐特征向量，作为当前状态LSTM的输入，由此循环来指导不同状态词的生成，直到生成终止符号。

实验评价标准为机器翻译中的的评价指标，分别有：双语评价替补(BilingualEvaluation Understudy，简称BLEU)，带显式顺序的翻译评估指标(Metric forEvaluation of Translation with Explicit Ordering，简称METEOR)。这些指标都反映了模型生成的文本句子和参考的文本句子之间的相似性度量。

在标准数据集Flickr30k和MS-COCO上图像内容自动描述任务的各种方法的实验效果比较参见表1。

表1

其中，StructCap为本发明提出的基于结构化语义嵌入的图像内容自动描述方法，其余方法为近两年来在图像内容自动描述任务上取得最佳效果的几种技术方法。可以看到本发明的方法在多数指标上都优于其他的方法。

Claims

1.一种基于结构化语义嵌入的图像内容自动描述方法，其特征在于包括以下步骤：

步骤1获取文本解析树；

步骤2构建视觉解析树；

步骤3嵌入视觉解析树。

2.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法，其特征在于在步骤1中，所述获取文本解析树的具体方法为：

通过现成最佳的解析工具包，Stanford Parser，获得文本解析树，按照主语在左叶子结点，宾语在右叶子结点，谓语在父结点，仅保留名词、动词、动词介词短语、介词、连词这四个的原则，对文本解析树进行重塑，获得三层全二叉树形式的文本解析树，保留高频出现的词，实体或关系，对其他在文本解析树中出现的词都用特殊符号“null”替换。

3.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法，其特征在于在步骤2中，所述构建视觉解析树的具体方法为：

构建一个三层全二叉树结构的视觉解析树模型，每个叶子结点表示视觉的一个实体，每个父结点表示两个实体或子关系之间的关系，在特征表示层面，每个结点都为一个特征向量，其中叶子结点向量为实体的特征表示，父结点向量为关系的特征表示；所述视觉解析树中节结点特征向量通过语义映射器、结合器和分类器操作获取。

4.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法，其特征在于所述通过语义映射器获取实体的语义特征表示的具体方法为：采用CNN对图像进行深度视觉特征提取，然后将深度视觉特征做四种线性变换对应到四个实体上，四个实体对应三层全二叉树的四个叶子结点，经过一个非线性函数映射到四个实体的语义空间上，得到四个实体的语义特征表示。

5.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法，其特征在于通过结合器获取关系的语义特征表示的具体方法为：在全二叉树中，两个孩子结点的语义特征向量在结合器中被串联在一起并经过一次非线性变换得到与孩子结点维度相同的父结点语义特征向量，即关系语义特征，得到整个视觉解析树中每个结点的特征表示。

6.如权利要求3所述一种基于结构化语义嵌入的图像内容自动描述方法，其特征在于通过分类器指导视觉解析树结构参数的训练阶段优化与预测阶段类别生成的具体方法为：使用步骤1中获得的文本解析树对视觉解析树的构建进行指导，进而实现语义映射器、结合器和分类器的参数优化，首先以文本解析树中的每个结点的词作为视觉解析树中对应位置的类别标签，所述类别为实体类别或关系类别；然后在模型训练阶段，基于每个结点的特征映射到类别空间并计算分类损失，通过损失反向传递来优化整个视觉解析树的参数；最后在预测阶段，利用优化的参数对每个图像的深度视觉特征进行解析，获得每个结点的类别标签。

7.如权利要求1所述一种基于结构化语义嵌入的图像内容自动描述方法，其特征在于在步骤3中，所述嵌入视觉解析树的具体方法为：

(2)采用结构化注意模型将视觉解析树的每个结点嵌入到深度解码器模型中，对于深度解码器，一开始输入的结构化语义信息可能在生成每个词的过程中被丢失，在深度解码器生成每个词的过程中将视觉解析树的每个结点嵌入到每个状态的LSTM上来指导当前词的生成，首先计算每个结点特征向量与前一状态LSTM输出的隐特征向量之间的相关度；然后将每个结点特征向量按照对应的相关度加权求平均，获得带注意的特征向量；最后将带注意的特征向量与前一状态LSTM输出的隐特征向量进行串联并经过一次非线性变换获得新的隐特征向量，作为当前状态LSTM的输入，由此循环来指导不同状态词的生成，直到生成终止符号。