CN110188772A

CN110188772A - 基于深度学习的中文图像描述方法

Info

Publication number: CN110188772A
Application number: CN201910430128.4A
Authority: CN
Inventors: 王哲; 郑海涛; 赵从志
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-30

Abstract

本发明提供基于深度学习的中文图像描述方法，包括如下步骤：S1、基本描述特征抽取：使用Sequence‑to‑sequence深度神经网络从图像中提取基本描述特征；S2、图像实体特征抽取：引入Faster RCNN目标检测网络检测图像中的重要物体，转化为语义作为上下文信息，提取实体特征；S3、丰富语义描述生成：构建基于短语的统计语言模型，基于最大概率将主题信息与上下文信息进行整合，生成语义更丰富的图像描述。本方法可以从缺乏上下文信息标注的数据中自动学习图像实体并转化为上下文信息，极大地减小人工参与程度，无需编制提取规则，并且可以生成内容丰富概括性更强的描述。与目前先进的算法比较，证实本发明的方法在多方面都有着突出的效果。

Description

基于深度学习的中文图像描述方法

技术领域

本发明涉及图像处理领域，尤其是一种基于深度学习的中文图像描述方法。

背景技术

图像语义理解领域的主要任务是通过算法设计，使计算机自动理解一张图像中的主要内容，并用文字准确地概括出来。图像语义理解涉及了多个方面的知识和领域，包括计算机视觉技术、自然语言处理技术等。对于输入图像语义理解模型的任意一张图片，模型先利用计算机视觉技术对图片进行分析，生成图片的特征向量，之后再利用自然语言处理技术，对特征向量进行转化，依据最大概率生成单词。在生成过程中，特征向量与单词一一对应，保证了生成描述的合理性。

目前深度学习神经网络在图像语义理解领域成为主流，效果拔群。一个简单完整的图像语义理解深度网络包含以下两个关键的部分:

(一)视觉理解部分。图像描述任务会涵盖图片的每一个细节：图像中的物体、图像属性、场景特征(室内或室外)以及图像内物体之间的交互。更具挑战的是，图像中的内容是具有联想性的。例如，一个人在车站等车，也许火车并没有在图像中出现，但是人还是可以通过周遭的其它物体推断出人是在等车的。因此，图像描述往往还要基于大量的背景知识才能给出一个足够合理的描述。换句话说，理解图像内容只能产生一个比较基本的描述，而为了达到逼近人工级别的描述，只是单纯理解图像内容还是不够充分的。一个好的描述应该是综合而简明，同时结构正确，并包含着语法通顺的句子。视觉理解部分是图像语义理解的基础，负责将图像内容转换为特征向量。目前，由于卷积神经网络(CNN)在图像领域的优异表现，我们一般也会采用CNN来完成转化图像的任务。一般的卷积神经网络包含着输入层、隐含层和输出层。在本任务中，因为我们需要的是特征向量，因此去掉输出层，直接使用隐含层的结果。输入层读入图像，通过包含着卷积、池化和全连接三种结构的隐含层之后即可得到特征向量；

(二)自然语言处理部分。在自然语言处理领域，图像描述任务是将一个非语言化的实体——图片，转化为人为可读的文字。产生文字需要一系列的步骤，我们需要决定以什么样的内容作为输入、要决定如何组织语言文字，还要决定以什么样的形式输出。其中形式输出包含了单词选择、单词修饰(选择合适的介词和代词成分)和组织安排句子的相关信息。自然语言理解部分负责将图片的特征向量转化为可读的语言，所以该部分要兼顾生成的准确性和可读性。目前，循环神经网络RNN是生成语言的重要工具。RNN是一类以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接形成闭合回路的递归神经网络。利用RNN单元的记忆性，可以根据序列中较早的约束生成序列后一部分的内容。而我们的语言正好符合这一特性，因此RNN在自然语言生成方面取得了较好的效果。

虽然图像语义理解领域蓬勃发展，大多只关注了生成描述的合理性和可读性，却忽略了描述的丰富性以及对图像整体的概括性。究其原因，有以下几点。第一，以往模型所采用的训练集中，图像对应的描述只包含着图像的基本信息，而缺少足够丰富的上下文信息，也就是非主体的图像内容。这样的描述虽然合理但不具体。因此，使用这样的数据集进行训练的模型，也会聚焦于图像主体，而忽视上下文信息，导致描述合理而不丰富。除此之外，有一些情况下，过于缺少上下文信息也会让生成的描述产生语法错误。

发明内容

本发明的目的是为了解决现有技术中的问题，提出基于深度学习的中文图像描述方法。

为解决上述技术问题，本发明提出一种基于深度学习的中文图像描述方法，包括如下步骤：S1、基本描述特征抽取：使用Sequence-to-sequence深度神经网络从图像中提取基本描述特征；S2、图像实体特征抽取：引入Faster RCNN目标检测网络检测图像中的重要物体，转化为语义作为上下文信息，提取实体特征；S3、丰富语义描述生成：构建基于短语的统计语言模型，基于最大概率将主题信息与上下文信息进行整合，生成语义更丰富的图像描述。

在本发明的一些实施例中，还包括以下技术特征：

步骤S1中，使用Sequence-to-sequence深度神经网络从图像中提取基本描述特征时，将第一个编码RNN替换为一个卷积神经网络CNN，利用卷积神经网络提取图像特征，并转化为一个定长的向量，卷积神经网络的隐层输出是一个对应图片的表示向量。

对所述卷积神经网CNN基于图像分类数据集进行预训练，并将其最后一个隐层单元的输出作为第二个解码RNN的输入。

在预训练过程中，每一张图片和其对应的描述被成对输入到模型中，训练以梯度下降的方式完成。

使用长短期记忆神经网络LSTM进行计算，其中句子不同的词数将用隐层中一个定长的向量来进行表示，在训练过程中，LSTM单元接收的是图片的高阶特征，以及在当前单词之前的所有单词；所有的LSTM单元都会被同时训练，并共享所有的参数。

利用Faster-RCNN模型自动实现步骤S2中的过程，以图片为输入，输出为一系列的候选实体框，框中是识别出的实体，每一个框还包含了一个置信分数，用于标注识别实体是物体的可能性。

先使用CNN将输入的图片提取为特征图，再使用一个小型神经网络在特征图上滑动来侦测所有候选实体；每个滑动网络得到的结果被映射成一个低维向量并输入两个全连接层，即一个回归层一个分类层；回归层有四个输出坐标，这四个坐标会标定一个可能的候选框实体，而分类层输出的概率则标定了这个候选框有多大的概率是一个实体；利用这两个全连接层，将候选实体提取出来。

在步骤S3中，将基本描述特征和上下文信息打碎为一个个短语，并将所有短语归类为名词短语NP、动词短语VP、介词短语PP三个词性；基于词语组合的概率来对现有的文字信息进行排列组合。

在得到图像中的基本描述特征和丰富的上下文信息之后，基于词语的语言模型利用它们生成丰富语义描述生成方式就是最大化句子的生成概率。

本发明还涉及一种计算机介质，其存储有计算机程序，所述计算机程序可以被执行以实现如上所述的方法。

与现有技术相比，本发明的有益效果有：本发明通过提取图片中的物体特征形成语境信息来产生更加详细的图像语义描述，通过将sequence-to-sequence深度神经网络与Faster-rcnn目标检测神经网络相结合，有效提高神经网络对图片特征的提取能力，获得图片中物体之间更详细的关系。最后构建了基于短语的语言模型将以上两种特征结合，生成含有丰富语境信息的图像语义描述。

本发明相对传统的监督学习的描述生成方法，本方法可以从缺乏上下文信息标注的数据中自动学习图像实体并转化为上下文信息，极大地减小人工参与程度，无需编制提取规则，并且可以生成内容丰富概括性更强的描述。通过一系列大量的对照实验，与目前先进的算法比较，证实本发明的方法在多方面都有着突出的效果。

附图说明

图1是本发明实施例基于弱监督学习的描述生成方法流程示意图。

图2是本发明实施例图像基本信息抽取示意图。

图3是本发明实施例图像实体信息抽取示意图。

图4是本发明实施例丰富语义描述生成示意图。

图5是本发明实施例中用的示例图片一。

图6是本发明实施例中用的示例图片二。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本方法下述实施例通过深入探究图片中元素的特征，总结现有算法的优势和不足，提出一种基于弱监督学习的方法，在原有的一句话描述生成的基础上，通过增加检测图像实体从而转化为语义的方式，增强了模型对图像的概括能力，丰富了图像描述的内容，减少了语法错误。

本方法包含三个阶段，框架如图1所示，其中，Image表示输入图片，Encoder-Decoder表示编解码网络，Object Features表示实体特征，Object Detection表示目标检测模型，Phrase-based Language Model表示基于短语的语言模型，Captain Generation表示描述生成阶段，Caption Ranking表示描述评价阶段，Rich表示是否丰富，Reasonable表示是否合理，Captions表示最终描述结果。第一阶段是基本的描述特征抽取，我们利用Seq2seq(sequence-to-sequence)模型编解码神经网络来从图片中抽取基本的图像特征。第二阶段是实体特征抽取阶段，为了用图片上下文信息丰富描述，我们建立了一个Faster-RCNN目标检测模型来检测图片中的实体。通过这些实体，我们可以获取图片中的上下文信息。第三阶段是丰富语义描述生成阶段，描述将整合以上两种特征进行生成。我们构建了基于短语的语言模型来完成这一阶段的工作。为了在构建过程中评估描述的好坏并加以优化，我们还定义了两个指标：用合理度来在语义层面评价好坏，再用丰富度来在上下文层面评价好坏。三个阶段的主要算法内容为：

基本描述特征抽取阶段：使用Sequence-to-sequence深度神经网络从图像中提取基本描述特征；

图像实体特征抽取阶段：引入Faster RCNN目标检测网络检测图像中的重要物体，转化为语义作为上下文信息，提取实体特征；

丰富语义描述生成阶段：构建基于短语的统计语言模型，基于最大概率将主题信息与上下文信息进行整合，生成语义更丰富的图像描述。同时我们定义了合理度来衡量描述在语法级别上的优劣，又定义了丰富度来衡量描述在内容级别上的优劣。

基本描述特征抽取阶段：

我们使用了Sequence-to-sequence模型来抽取基本描述特征。Seq2seq模型最起始是应用于机器翻译领域。在该模型中，首先是用一个循环神经网络(RNN)来将源语言的句子编码并将其表示为一个定长的向量。而这个定长的向量将作为第二个循环神经网络(RNN)的初始隐层输入，并由此产生目标语言的句子。我们受到机器翻译的启发，对seq2seq模型进行了改进。将第一个编码RNN替换为一个卷积神经网络CNN，利用卷积神经网络在图像识别上的卓越性能，提取图像特征，并转化为一个定长的向量。卷积神经网络的隐层输出正好是一个对应图片的表示向量，因此可以直接加以利用。为了提高CNN的识别提取能力，我们对这个CNN基于图像分类数据集进行了预训练，并将其最后一个隐层单元的输出作为第二个解码RNN的输入，完成这一“图像翻译”的过程。整个模型需要进行提前的训练，在训练过程中，每一张图片和其对应的描述会被成对输入到模型中，训练会以梯度下降的方式完成。因为句子的概率以时序的形态出现，因此使用长短期记忆神经网络LSTM来计算是最为高效的，其中句子不同的词数将用隐层中一个定长的向量来进行表示。在训练过程中，LSTM单元接收的是图片的高阶特征，以及在当前单词之前的所有单词。所有的LSTM单元都会被同时训练，并共享所有的参数。在训练过程之后，seq2seq模型就可以产生基本的图像描述。

图像实体特征抽取阶段：

为了在无人工干预的情况下丰富图像描述中的上下文信息，我们需要利用模型来自动实现这一过程。在本方法中，我们选择了效果较好的Faster-RCNN模型来完成这一过程。Faster-RCNN以图片为输入，输出为一系列的候选实体框，框中是识别出的实体，每一个框还包含了一个置信分数，用于标注识别实体是物体的可能性。为了完成这一目标，模型会先使用CNN将输入的图片提取为特征图，再使用一个小型神经网络在特征图上滑动来侦测所有候选实体。每个滑动网络得到的结果会被映射成一个低维向量并输入两个全连接层，即一个回归层一个分类层。回归层有四个输出坐标，这四个坐标会标定一个可能的候选框实体，而分类层输出的概率则标定了这个候选框有多大的概率是一个实体。利用这两个全连接层，候选实体就可以成功被提取出来。如图2所示，其中Image表示输入图片，LSTM表示长短期记忆网络(即RNN)，其余为数学公式或变量名称，We为权重参数，S为输入的单词，P为输出概率，Log为最终结果，图2左边的带有“不清楚文字”模样方框是卷积神经网络的示意图，因为该网络是通用的网络，因此在此不展开详细描述。

举例如图3所示。通过目标检测模型的定位，我们可以成功地抽取出“自行车”、“人群”和“狗”这三个实体，并把它们作为上下文信息保存下来。

我们设置了20类实体：飞机、自行车、鸟、船、瓶子、公交车、汽车、椅子、牛、桌子、猫、狗、马、摩托车、人、植物、羊、沙发、火车和电视机，这几类为图片中出现最普遍的实体。从图像中抽取实体之后，我们将所有的实体分类为以上20类。如果实体可以分入以上20类，则模型可以产生一个对应类别的词语，代表着一个上下文信息。(如果想要增加新的识别实体类型就需要提前设置好，但是因为方法是通用的，所以在使用时可以根据需要增加所需实体类型)

丰富语义描述生成阶段模块：

经过了上述两个阶段，我们得到了基本描述特征和额外的上下文信息。在本节中，我们会详细讲述如何构建一个基于短语的语言模型来组合以上两种信息并生成语义更加丰富的描述。

首先，我们要定义生成描述中短语的词性和语法规则，以便于生成规范合理的描述。我们定义了三个短语词性：“NP”、“VP”和“PP”。“NP”表示名词短语，“VP”表示动词短语，“PP”表示介词短语。除此之外，我们定义“.”为一个描述的结尾。在生成过程中，我们将基本描述特征和上下文信息打碎为一个个短语，并将所有短语归类为以上三个词性(不是对单词进行词性划分而是对短语进行划分。例如a beautiful girl一词，虽然短语中有量词、形容词和名词，但是因为核心词是名词，因此我们将该短语划分为名词短语NP。我们生成的句子中只会包含上述三类词语)。同样的，我们定义了下述语法规则，使得生成的丰富语义描述更加合理减少错误：1)“NP”后面只能跟随“VP”、“PP”和“.”；2)“VP”后面只能跟随“NP”、“PP”和“.”；3)“PP”后面只能跟随“NP”。如图4所示。

我们的语言模型基于词语组合的概率来对现有的文字信息进行排列组合，因此我们首先需要在语料库中计算出所有词语组合为k元组的先验概率。K元组的先验概率的意思就是k个中文词语顺序出现在同一个句子中的概率。为了计算先验概率，我们选择训练集中所有的语义描述作为候选集来进行统计。我们会将所有的语义描述都打碎为一个个单个词语并归类为“NP”、“VP”和“PP”。之后我们基于语法规则计算所有k元词组的出现概率来计算先验概率。在得到图像中的基本描述特征和丰富的上下文信息之后，基于词语的语言模型利用它们生成丰富语义描述生成方式就是最大化句子的生成概率。我们将基本描述特征和丰富的上下文信息都打碎为单词并用深度优先搜索的方式来不断计算概率，选择使概率最大化的单词放入句子中。我们重复以上的计算过程直到句子概率在“.”处最大化，说明句子构建完成。所有的短语只允许出现一次。例如，我们选择k＝3，即考虑三元词组来构建句子。由seq2seq模型得到的基本描述特征为“A boat is in the water.”，而上下文信息是“boat，person，person”。我们将他们打碎为一个个词语并合并去除重复词汇，得到结果为“a boat”(NP)、“in”(VP)、“the water”(NP)、“two people”(NP)和“.”。最终，依照3元组的先验概率计算，可以得到“Two people on a boat in the water.”(本段描述中所针对的示例图片如图5、6)。

本发明实施例的主要目的在于提供一个自动生成图像描述的方法，且生成效果对图像的概括性更强，消耗资源更小。其中主要涉及3个关键点，一、对图像主体信息的抽取；二、基于目标检测对图像实体特征的抽取；三、构建语言模型生成丰富语义描述。

下面进一步详细进行举例说明。

如图1所示，本发明技术主要由图像信息抽取模块和图像描述生成模块组成。其中图像信息抽取模块包含两个子模块：图像基本特征抽取模块和图像实体特征抽取模块。各个模块的实施细节如下。在叙述过程中，我们将以图5为例，叙述每一步得到的结果。

图像基本特征抽取模块：

我们的模型会基于图片最大化描述生成的概率，概率的计算方法如下：

在训练过程中，每一张图片I和其对应的描述S会被成对输入到模型中，训练会以梯度下降的方式最大化公式2中的概率。因为句子的概率以时序的形态出现，因此使用长短期记忆神经网络LSTM来计算是最为高效的，其中句子不同的词数将用隐层中一个定长的向量来进行表示。当前的隐层结果是由上一层的隐层结果和当前层的输入共同决定。LSTM中每个单元内的计算过程如下：

i_t＝σ(W_xix_t+W_hih_t-1)

f_t＝σ(W_xfx_t+W_hfh_t-1)

o_t＝σ(W_xox_t+W_hoh_t-1)

g_t＝tanh(W_xcx_t+W_hch_t-1)

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

LSTM可以克服梯度消失和梯度爆炸，而这个问题正是训练RNN的主要困难。在训练过程中，LSTM网络被训练用于预测描述中的单词。所有的LSTM单元都会同时进行训练并分享同样的参数。在t时间，LSTM单元同时接受t-1时间单元的输出和t时间的输入。以图5为例，我们将该图片输入到模型中，通过seq2seq模型的特征提取，在本阶段将得到图片的主体信息，即“a boat in the water.”

图像实体特征抽取模块：

在本方法中，我们改进了目标检测模型，模型输出的结果为代表实体的词语。我们根据候选实体用以下公式来最大化识别实体的概率：

在目标检测模型整体特征图，并用一个滑动的窗口网络在特征图上提取上千个候选实体框，输入到全连接层中。全连接层分为分类和回归两个任务，分类用来确定候选实体框是否是真正的图像实体，回归则精确确定图像实体的坐标并标记出来。在标记之后，我们将实体的信息保存下来，并作为上下文信息，在下一阶段与主体信息进行合并。以图5为例，我们将从该图片中提取到“boat”和“people”两个实体信息，我们将其保存为上下文信息。

丰富语义描述生成模块：

在基于短语的语言模型中，我们最大化以下的句子概率来生成一个句子：

在一个句子中，某个词语是否会出现在某个位置上是大概率由之前几个词语决定的，两个词语距离越远，它们之间的相关性越低。基于以上推论以及马尔科夫过程，我们将以上公式以k元词组的形式进行改进：

在以上公式中，第i个位置上的词语由它之前的k-1个词语来决定。为了计算先验概率，我们选择训练集中所有的语义描述作为候选集来进行统计。我们会将所有的语义描述都打碎为一个个单个词语并归类为“NP”、“VP”和“PP”。之后我们基于语法规则计算所有k元词组的出现概率来计算先验概率。在得到图像中的基本描述特征和丰富的上下文信息之后，基于词语的语言模型利用它们生成丰富语义描述生成方式就是最大化句子的生成概率。我们将基本描述特征和丰富的上下文信息都打碎为单词并用深度优先搜索的方式来不断计算概率，选择使概率最大化的单词放入句子中。以图5为例，得到了该图片的主题信息“a boat in the water”和实体信息“boat”、“people”之后，我们将两种信息输入到第三阶段的模型中，通过不断迭代生成句子中的每个词语，最终可以得到最大概率的句子为“people on a boat in the water.”

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的中文图像描述方法，其特征在于包括如下步骤：

S1、基本描述特征抽取：使用Sequence-to-sequence深度神经网络从图像中提取基本描述特征；

S2、图像实体特征抽取：引入Faster RCNN目标检测网络检测图像中的重要物体，转化为语义作为上下文信息，提取实体特征；

S3、丰富语义描述生成：构建基于短语的统计语言模型，基于最大概率将主题信息与上下文信息进行整合，生成语义更丰富的图像描述。

2.如权利要求1所述的基于深度学习的中文图像描述方法，其特征在于，步骤S1中，使用Sequence-to-sequence深度神经网络从图像中提取基本描述特征时，将第一个编码RNN替换为一个卷积神经网络CNN，利用卷积神经网络提取图像特征，并转化为一个定长的向量，卷积神经网络的隐层输出是一个对应图片的表示向量。

3.如权利要求2所述的基于深度学习的中文图像描述方法，其特征在于，对所述卷积神经网CNN基于图像分类数据集进行预训练，并将其最后一个隐层单元的输出作为第二个解码RNN的输入。

4.如权利要求3所述的基于深度学习的中文图像描述方法，其特征在于，在预训练过程中，每一张图片和其对应的描述被成对输入到模型中，训练以梯度下降的方式完成。

5.如权利要求4所述的基于深度学习的中文图像描述方法，其特征在于，使用长短期记忆神经网络LSTM进行计算，其中句子不同的词数将用隐层中一个定长的向量来进行表示，在训练过程中，LSTM单元接收的是图片的高阶特征，以及在当前单词之前的所有单词；所有的LSTM单元都会被同时训练，并共享所有的参数。

6.如权利要求1所述的基于深度学习的中文图像描述方法，其特征在于，利用Faster-RCNN模型自动实现步骤S2中的过程，以图片为输入，输出为一系列的候选实体框，框中是识别出的实体，每一个框还包含了一个置信分数，用于标注识别实体是物体的可能性。

7.如权利要求6所述的基于深度学习的中文图像描述方法，其特征在于，先使用CNN将输入的图片提取为特征图，再使用一个小型神经网络在特征图上滑动来侦测所有候选实体；每个滑动网络得到的结果被映射成一个低维向量并输入两个全连接层，即一个回归层一个分类层；回归层有四个输出坐标，这四个坐标会标定一个可能的候选框实体，而分类层输出的概率则标定了这个候选框有多大的概率是一个实体；利用这两个全连接层，将候选实体提取出来。

8.如权利要求1所述的基于深度学习的中文图像描述方法，其特征在于，在步骤S3中，将基本描述特征和上下文信息打碎为一个个短语，并将所有短语归类为名词短语NP、动词短语VP、介词短语PP三个词性；基于词语组合的概率来对现有的文字信息进行排列组合。

9.如权利要求8所述的基于深度学习的中文图像描述方法，其特征在于，在得到图像中的基本描述特征和丰富的上下文信息之后，基于词语的语言模型利用它们生成丰富语义描述生成方式就是最大化句子的生成概率。

10.一种计算机介质，其特征在于，存储有计算机程序，所述计算机程序可以被执行以实现如权利要求1-9中任一项所述的方法。