CN107918782A

CN107918782A - 一种生成描述图像内容的自然语言的方法与系统

Info

Publication number: CN107918782A
Application number: CN201711265210.3A
Authority: CN
Inventors: 唐胜; 李灵慧; 张勇东; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2016-12-29
Filing date: 2017-12-05
Publication date: 2018-04-17
Anticipated expiration: 2037-12-05
Also published as: CN107918782B

Abstract

本发明提供了一种训练用于生成描述图像内容的自然语言的模型的方法，以及采用所述模型生成描述图像内容的自然语言的方法。其中，所述训练方法，包括：A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入，以获得同时包含全局特征以及局部特征的融合的结果；A2)将所述融合的结果和单词训练集作为长短记忆网络的输入，利用损失函数对所述注意力机制以及所述长短记忆网络进行训练，获得所述注意力机制的权值以及所述长短记忆网络的权值；其中，所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数，i＝1,…i_max。

Description

一种生成描述图像内容的自然语言的方法与系统

技术领域

本发明涉及图像处理，尤其涉及对图像内容的描述。

背景技术

图像自动描述指的是通过计算机自动生成自然语言语句以描述给定图像的内容。相较于图像分类、目标检测等基础任务，图像自动描述生成任务更复杂并且更具有挑战性,其对于图像内容理解具有重要意义。图像自动描述生成不仅需要计算机识别出一幅图像中存在的物体，还要识别出物体间的关系、行为活动等，并且使用自然语言描述识别出的语义信息。图像自动描述可以应用到许多场景，例如图像文本检索系统、儿童早教系统以及盲人导航等应用。

迄今为止，研究者已经提出很多方法生成图像描述。根据描述的生成方式，可将这些方法分成三个类别：基于模板的方法、基于迁移的方法、以及基于神经网络的方法。

基于模板的方法，首先使用分类器识别出图像的物体、属性以及关系，然后使用一个自然语言句子模板将识别出的物体、属性、和关系组成一个完整的句子。这类方法的优点是简单直观，缺点是受限于句子模板，不能生成语义丰富的句子。

基于迁移的方法，首先利用基于内容的检索方法检索到待生成图像的相似图像，然后直接将相似图像的描述应用到待检索图像。这类方法的优点是可以生成语法准确的句子，缺点是生成的句子可能会偏离图像的真实内容。

最近，受深度神经网络在图像识别任务和机器翻译上的成功应用，出现了许多基于神经网络的图像自动描述生成方法。这类方式是基于卷积神经网络(ConvolutionalNeural Network，CNN)和循环神经网络(Recurrent Neural Network，RNN)框架。此类方法首先利用卷积神经网络编码图像，其次利用循环神经网络解码图像为自然语句。与前两类方法相比，受益于循环神经网络可以捕获动态时序信息、以及卷积神经网络可以捕获图像视觉信息的能力，基于神经网络的方法可以产生语义丰富且语法更准确的句子。

然而，大多数被提出的基于卷积神经网络的方法仅仅使用了图像的全局特征，以至于图像的某些物体就识别不到。因此，当生成图像的文本描述时，就会导致图像中的某些物体信息丢失。例如，在图1(i)的(a)中，通过上述现有技术生成的句子中仅描述了“一组人站在被雪覆盖的斜坡上”而遗漏了这些人身穿的“滑雪板”，致使在描述所述图像时缺少对图像中人们正在执行的行为的信息描述。除此之外，由于图像的全局特征是一种较粗粒度的特征，这可能导致在生成描述句子时图像识别错误。例如，参考图1(ii)的(a)，通过上述现有技术生成的句子中将放置在足球场上的物体识别为“足球”，这样的粗粒度描述使得图像中的“风筝”被错误地描述为“足球”。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种训练用于生成描述图像内容的自然语言的模型的方法，包括：

A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入，以获得同时包含全局特征以及局部特征的融合的结果；

A2)将所述融合的结果和单词训练集作为长短记忆网络的输入，利用损失函数对所述注意力机制以及所述长短记忆网络进行训练，获得所述注意力机制的权值以及所述长短记忆网络的权值；

其中，所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数，i＝1,…i_max。

优选地，根据所述方法，其中步骤A1)包括：

在所述注意力机制执行融合的过程中，分别基于所述注意力机制的权值，为图像训练集中图像的全局特征以及局部特征中的每一个提供权重，以将执行加权后的结果作为所述融合的结果。

优选地，根据所述方法，其中步骤A1)包括：

采用所述注意力机制的权值，为图像训练集中图像的全局特征以及局部特征中的每一个提供权重，所述同时包含全局特征以及局部特征的结果表示为：

其中，W,W_h,W_o,b是所述注意力机制的权值，是激活函数，h^(t-1)是训练的t-1时刻所述长度记忆网络的隐藏层值，f_k为所述全局特征以及所述局部特征的集合中的第k个特征，表示所述第k个特征与h^(t-1)的相关度，表示针对所述第k个特征提供的权重，Gf表示所述全局特征，Lf_j表示第j个局部特征，ψ^(t)(I)是训练的t个时刻融合获得的同时包含全局特征以及局部特征的结果。

优选地，根据所述方法，其中所述损失函数为：

p(s_i|I,s₀,s₁,...,s_i-1)＝softmax(w_ph_i)

s_i是描述所述图像训练集中图像I的内容的第i个单词，s₀,...,s_i均为所述单词训练集中的单词，p(s_i|I,s₀,s₁,...,s_i-1)是已知描述图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为s_i的条件概率，w_p是所述长短记忆网络中输入到softmax的隐藏层的权值，h_i是计算第i个单词时所述长短记忆网络的隐藏层值。

优选地，根据所述方法，其中步骤A2)包括：

针对所述损失函数采用梯度下降法进行训练。

优选地，根据所述方法，其中所述长短记忆网络包含多个LSTM网络层，所述多个LSTM网络层中的一个以所述融合的结果作为其输入，所述多个LSTM网络层中的一个以单词训练集作为其输入。

以及，一种生成的模型生成描述图像内容的自然语言的方法，包括：

B1)将待描述的测试图像的全局特征以及局部特征作为注意力机制的输入，以获得同时包含全局特征以及局部特征的融合的结果；

B2)将所述融合的结果作为长短记忆网络的输入，输出描述所述测试图像的自然语言；

其中，所述注意力机制的权值、以及所述长短记忆网络的权值由前述任意一项所述方法确定。

优选地，根据所述方法，其中步骤B2)包括：

B2-1)将所述融合的结果以及已获得的前n个描述所述测试图像的单词中的至少一个作为长短记忆网络的输入，得到描述所述测试图像的第n+1个单词；

B2-2)则依照所获得的各个单词的顺序输出描述所述测试图像的自然语言。

优选地，根据所述方法，其中，步骤B2-1)包括：

在尚未获得描述所述测试图像的单词时，将定义的开始符作为长短记忆网络的输入；

步骤B2-2)包括：

若得到的描述所述测试图像的单词同于定义的结束符，或者描述所述测试图像的单词的总数达到设置的上限，则依照所获得的各个单词的顺序输出描述所述测试图像的自然语言。

优选地，根据所述方法，其中步骤B2-1)包括：

根据所述长短记忆网络得到已知描述所述测试图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为备选词s_i的条件概率p(s_i|I,s₀,s₁,...,s_i-1)，将具有最大条件概率的备选词作为所述第i个单词。

优选地，根据所述方法，其中步骤B2-2)包括：

针对所获得的全部m个单词中的每一个选择针对所述单词具有最大条件概率的多个备选词，对全部m个单词进行排列组合以计算在所述组合形式下完整的自然语句为s₀,s₁,...,s_m的概率：

选择p(s₀,s₁,...,s_m)最大的一种组合方式，依照s₀,s₁,...,s_m的顺序作为所输出的自然语句。

优选地，根据所述方法，其中所述待描述的测试图像的全局特征通过VGG16网络获得，并且所述待描述的测试图像的局部特征通过FasterR-CNN模型获得。

以及，一种用于生成描述图像内容的自然语言的系统，包括：

处理器、和存储装置，

其中，所述存储装置用于存储计算机程序，所述计算机程序在被所述处理器执行时用于实现如权利要求1-12中任意一项所述的方法。

与现有技术相比，本发明的优点在于：

提供了一种训练用于生成描述图像内容的自然语言的模型的方法，所述模型可被用于生成兼具图像的全局特征和局部特征的自然语句，其中采用注意力机制来融合图像的全局特征和局部特征，以基于全局特征保留图像的上下文信息，并且基于局部特征准确地表达图像中各个目标的细节信息。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1示出了现有基于神经网络的方法与根据本发明的方法针对相同图像进行描述的结果对比，

其中，语句a是现有基于神经网络的方法对图像物体信息丢失以及信息误判样例，语句b是根据本发明的方法所生成的图像描述；

图2示出了根据本发明的一个实施例生成描述图像内容的自然语言的模型的流程图；

图3是根据本发明的一个实施例的训练根据本发明的模型的流程的简化框图；

图4是根据本发明的一个实施例训练用于生成描述图像内容的自然语言的模型的方法的流程图；

图5是根据本发明的一个实施例用于生成描述图像内容的自然语言的模型中注意力机制的示意图，其中(a)为图2中的注意力机制在t时刻的输入和输出的示意图，(b)为(a)中注意力机制的内部构造图；

图6是根据本发明的一个实施例用于生成描述图像内容的自然语言的模型中两层长短记忆网络的示意图，其中(a)为图2中的第一层长短记忆网络LSTM₁在t时刻的输入和输出的示意图，(b)为(a)中LSTM₁的内部构造图，(c)为图2中的第二层长短记忆网络LSTM₂在t时刻的输入和输出的示意图，(d)为(c)中LSTM₂的内部构造图；

图7示出了根据本发明的一个实施例的使用根据本发明的模型的流程的简化框图；

图8示出了根据本发明的一个实施例利用生成的模型生成描述图像内容的自然语言的方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作详细说明。

为了能够全面地获取待处理图像上的各类特征，在本申请中使用“全局特征”和“局部特征”这两个概念。其中，全局特征指的是用于描述包含图像物体的上下文信息的图像特征；相比之下，局部特征指的是用于描述包含图像物体的细节信息的图像特征。在表示一幅图像时，全局特征和局部特征都是重要的。

举例说明，参考图1(i)，“人群”、“雪”、“斜坡”属于全局特征，而“穿着在人脚下的滑雪板”、“戴在人头上的帽子”、“房子上的窗户”等则属于局部特征。类似地，参考图1(ii)，“人”、“足球场”属于全局特征，而“放置在足球场地面上的风筝”、“出现在画面中的人的年龄、性别”则属于局部特征。

为了实现本申请的发明目的，不仅需要获取图像中的全局特征，还需要获取图像中的局部特征，从而准确地描述图像所表达的内容；在本发明中可以采用任意现有技术来获取图像中的全局特征以及局部特征，例如采用现有的深度卷积神经网络的算法分别针对图像中的全局特征以及局部特征进行抽取。并且，可以理解，在以采用自然语言来描述图像内容为目的时，仅单纯地对所获得的全部全局特征和局部特征进行叠加往往难以获得令人满意的结果，因此还需要采用专门的算法和规则来融合获得的全局特征和局部特征。此外，还可以采用循环神经网络将融合了全局特征和局部特征的结果翻译成符合自然语言习惯的文本。

图2示出了根据本发明的一个实施例生成描述图像内容的自然语言的模型的流程，所生成的模型用于针对待描述的测试图像生成描述其内容的自然语言。所述模型采用了两层长短记忆网络(Long-Short Term Memory,LSTM)，分别表示为LSTM₁和LSTM₂，以实现生成符合自然语言习惯的文本，在所述LSTM₁和LSTM₂之间还设置了注意力机制(AttentionMechanism，即图2中的attention layer)以对从输入图像I中提取的全局特征Gf和局部特征Lf₁,…,Lf_n进行融合，并将融合后的结果输入到LSTM₂中。

在训练所述模型时，首先需要从已知的图像训练集中提取出全局特征Gf和局部特征Lf₁,…,Lf_n，利用该模型中的注意力机制对所述全局特征和所述局部特征进行融合，并将融合后的结果I、以及已知的单词训练集x输入到基于循环神经网络的长短记忆网络(Long-Short Term Memory,LSTM)中(图2中I、x的上标t、t+1…T表示其为针对某一训练时刻的值，下标表示其与长短记忆网络中的第几个网络层对应)，通过所述注意力机制以及所述长短记忆网络的隐藏层值的反向传播，最终训练获得针对所述注意力机制以及所述长短记忆网络的权值。

在获得了所述训练的模型之后，可以利用所获得的所述注意力机制以及所述长短记忆网络的权值，通过图2所示出的模型对待描述的测试图像进行处理，并获得描述其内容的自然语言。

为了便于介绍训练根据本发明的模型的具体过程，图3提供了针对训练模型的简化的框图。

参考图3，将已知的图像训练集中图像的全局特征以及局部特征输入到注意力机制中以获得融合了全局特征和局部特征的结果，所述结果、以及已知的单词训练集被输入到长短记忆网络中，根据损失函数计算在采用上述输入的情况下最优的注意力机制的权值以及长短记忆网络的权值。

下面将参考图3和图4所示出的根据本发明的一个具体的实施例，介绍训练用于生成描述图像内容的自然语言的模型的方法，包括：

步骤A1.基于注意力机制获得同时包含图像训练集中图像的全局特征以及局部特征的结果。在本实施例中通过为所述全局特征以及局部特征中的每一个分别提供相应的权重，以将加权后的结果作为融合了全局特征以及局部特征的结果。

以下计算式(1)至(3)示出了采用注意力机制对全局特征以及局部特征进行融合的结果。其中，利用注意力机制的权值为全局特征以及局部特征中的每一个提供相应的权重，将加权获得的结果作为同时包含全局特征以及局部特征的结果。

其中，权值{W,W_h,W_o,b}是注意力机制中需要通过学习而获得的权值，在本实施例中对于所有全局特征和局部特征均采用相同的W,W_h,W_o,b值；是激活函数，在本实施例中采用双曲正弦函数；t表示针对训练所述模型这一过程所处的时刻，训练模型属于反向传播的过程；h^(t-1)是在t-1时刻用于生成图像描述文本的循环神经网络中隐藏层的数值，其属于反向传播过程中的历史数据；Gf为全局特征，Lf_i为编号为i的局部特征；f_k为所述全局特征以及所述局部特征的集合{Gf,Lf₁,Lf₂…}中的编号为k的特征；表示所述编号为k的特征与h^(t-1)的相关度；表示针对所述编号为k的特征提供的权重，并且在本实施例中是全局特征Gf的权重，是编号为i的局部特征的权重，并且所述权重之和为1，即ψ^(t)(I)是训练的t个时刻融合获得的同时包含全局特征以及局部特征的结果。

图5(a)示出了图2中的注意力机制在t时刻的输入和输出的示意图。其中，h₂ ^(t-1)表示在前一个时刻t-1产生的来自长短记忆网络的隐藏层值，h₂ ^(t-1)的脚标表示该隐藏层值来自于长短记忆网络中的第二个网络层(在本发明的实施例中采用了两层长短记忆网络，分别表示为LSTM₁和LSTM₂，应当理解在本发明中可以采用单层的长短记忆网络，也可以采用多层的长短记忆网络，层数越多则对应于更大的计算量)。可以看到，所述注意力机制以长短记忆网络的历史信息、图像训练集中图像的全局特征以及局部特征为输入，输出融合了所述全局特征以及局部特征的结果。

图5(b)示出了图5(a)的内部结构示意图。参考图5(b)，针对全局特征以及局部特征中的每一个，均采用了相同的注意力机制的权值W,W_h,W_o,b，以计算其与长短记忆网络在前一时刻的隐藏层值h₂ ^(t-1)的相关程度k＝0,1,2…n，所述相关程度经过归一化处理后获得了针对所述全局特征或局部特征提供的权重通过加权对全局特征和局部特征进行融合，获得了融合的结果I^t＝ψ^t(I)。

步骤A2.将所述融合后的结果、和单词训练集作为长短记忆网络的输入，利用损失函数对所述注意力机制、以及所述长短记忆网络进行训练，获得所述注意力机制的权值以及所述长短记忆网络中的忘记门、输入门、细胞单元、输出门的权值、以及输入到softmax的隐藏层的权值。

如步骤A1中所述，在本发明中可以采用单层或多层的长短记忆网络。图6(a)至(d)示出了根据本发明的一个实施例，针对所述模型采用双层长短记忆网络的示例，其中图6(a)为在t时刻第一层长短记忆网络LSTM₁的输入和输出的示意图，图6(b)为图6(a)中LSTM₁的内部构造图，图6(c)为在t时刻第二层长短记忆网络LSTM₂的输入和输出的示意图，图6(d)为图6(c)中LSTM₂的内部构造图。

参考图6(a)，LSTM₁以其本身在前一时刻t-1产生的隐藏层值h₁ ^(t-1)、单词训练集的特征x^t为输入，输出供其本身、以及LSTM₂使用的隐藏层值h₁ ^t-1。

参考图6(b)所示出的LSTM₁的内部构造，其中单词训练集的特征x^t是单词训练集中单词s_t的特征，其与embedding的权值w_x相乘得到x^t，x^t＝w_xs_t。单词训练集中单词的特征x^t被输入到LSTM₁的忘记门(forget gate)、输入门(input gate)、细胞单元(cell)、输出门(output gate)中，利用LSTM₁的针对忘记门的权值{w¹ _fs,w¹ _fh,b_f}、输入门的权值{w¹ _is,w¹ _ih,b_i}、输出门的权值{w¹ _os,w¹ _oh,b_o}、细胞单元的权值{w¹ _cs,w¹ _ch}，可以得到针对它们的输出，由计算式(4)至(7)示出。

LSTM₁的输入门结果i₁ ^t：

i₁ ^t＝σ(w¹ _isx^t+w¹ _ihh₁ ^(t-1)+b_i) (4)

其中，σ表示sigmoid函数。

LSTM₁的忘记门结果f₁ ^t：

f₁ ^t＝σ(w¹ _fsx^t+w¹ _fhh₁ ^(t-1)+b_f) (5)

LSTM₁的输出门结果o₁ ^t：

o₁ ^t＝σ(w¹ _osx^t+w¹ _ohh₁ ^(t-1)+b_o) (6)

LSTM₁的细胞结果c₁ ^t：

其中，Ф表示tanh函数。

其中，权值{w¹ _fs,w¹ _fh,b_f，w¹ _is,w¹ _ih,b_i，w¹ _os,w¹ _oh,b_o，w¹ _cs,w¹ _ch}为需要通过训练获得的LSTM₁的权值。

图6(c)为与所述LSTM₁连接的第二层长短记忆网络，表示为LSTM₂，LSTM₂以LSTM₁在前一时刻t-1所产生的隐藏层值h₁ ^(t-1)、注意力机制所提供的融合的结果I^t、其本身在前一时刻t-1所产生的隐藏层值h₂ ^(t-1)为输入，输出隐藏层值h₂ ^t-1。

参考图6(d)所示出的针对图6(c)的内部结构示意图，其中h₁ ^(t-1)和I^t均被输入到LSTM₂的输入门、忘记门、输出门、和细胞单元中，利用LSTM₂的针对忘记门的权值{w² _fs,w² _fh,w² _fI,b² _f}、输入门的权值{w² _is,w² _ih,w² _iI,b² _i}、输出门的权值{w² _os,w² _oh,w² _oI,b² _o}、细胞单元的权值{w² _cs,w² _ch,w² _cI}，产生LSTM₂的隐藏层结果h₂ ^t，根据h₂ ^t以及输入到softmax的隐藏层的权值{w_p}可以获得当前时刻t的单词的概率。具体的计算表达由计算式(8)至(13)示出。

LSTM₂的输入门结果i₂ ^t：

i₂ ^t＝σ(w² _ish₁ ^t+w² _ihh₂ ^(t-1)+w² _iII^t+b² _i) (8)

LSTM₂的忘记门结果f₂ ^t：

f₂ ^t＝σ(w² _fsh₁ ^t+w² _fhh₂ ^(t-1)+w² _fII^t+b² _f) (9)

LSTM₂的输出门结果o₂ ^t

o₂ ^t＝σ(w² _osh₁ ^t+w² _ohh₂ ^(t-1)+w² _oII^t+b² _o) (10)

LSTM₂的细胞结果c₂ ^t：

LSTM₂当前时刻t的隐藏层结果h₂ ^t:

已知针对图像I在前t-1个时刻得到的单词分别为s₀,s₁,...,s_t-1时，第t个单词为s_t的条件概率为:

p(s_t|I,s₀,s₁,...,s_t-1)＝soft max(w_ph₂ ^t) (13)

其中，权值{w² _fs,w² _fh,w² _fI,b² _f，w² _is,w² _ih,w² _iI,b² _i，w² _os,w² _oh,w² _oI,b² _o，w² _cs,w² _ch,w² _cI，w_p}为需要通过训练获得的LSTM₂的权值。

可以理解，针对多层的长短记忆网络，可以选择其中的任意一层以注意力机制的输出作为其输入，选择其中的任意一层以单词训练集中单词的特征作为其输入。

在上述采用两层长短记忆网络以及注意力机制的实施例中，总共需要通过训练获得以下权值，即注意力机制的权值{W,W_h,W_o,b}，第一层长短记忆网络的权值{w¹ _fs,w¹ _fh,b_f，w¹ _is,w¹ _ih,b_i，w¹ _os,w¹ _oh,b_o，w¹ _cs,w¹ _ch}、和第二层长短记忆网络的权值{w² _fs,w² _fh,w² _fI,b² _f，w² _is,w² _ih,w² _iI,b² _i，w² _os,w² _oh,w² _oI,b² _o，w² _cs,w² _ch,w² _cI，w_p}。

这些权值可以通过设立一个训练目标而获得，可以输出满足所述目标的注意力机制的权值、以及长短记忆网络时的各项权值以作为所述模型的参数。

在本发明中提供了一种损失函数，以使得所述损失函数值下降到趋于稳定或者在达到最大训练次数时，将注意力机制的权值、以及长短记忆网络的各项权值作为所述模型的参数。这里的损失可以被理解为是错误率过高、或计算结果的准确率过低、或者预测获得的描述图像内容的语句本身的概率过低。换句话说，凡是不利于描述图像内容的语句准确度的函数均可以被用于根据本发明的损失函数。

因此，本发明将所采用的损失函数设置为是已知图像的内容中前一个或多个单词时第i个单词的条件概率的函数，i＝1,…i_max。根据本发明的一个实施例，对上述针对各个单词的条件概率取对数后再求和以作为损失函数L(I,s)，其表达式为：

p(s_i|I,s₀,s₁,...,s_i-1)＝softmax(w_ph_i) (15)

其中，s_i是描述所述图像训练集中图像I的内容的第i个单词，s₀,...,s_i均为所述单词训练集中的单词，p(s_i|I,s₀,s₁,...,s_i-1)是已知描述图像I的内容中的前i-1个单词时第i个单词为s_i的条件概率，w_p是所述输入到softmax的隐藏层的，h_i是计算第i个单词时所述长短记忆网络的隐藏层值。

根据本发明的一个实施例，可以采用梯度下降法进行训练，目标为使得所述损失函数的取值下降达到稳定或在达到最大迭代次数时，输出所述注意力机制的权值以及所述长短记忆网络中的忘记门、输入门、细胞单元、输出门、输入到softmax的隐藏层的以作为根据本发明的模型的参数。

例如，将动量设置为0.9，学习率初始化为0.01，以已知的图像训练集和单词训练集作为模型的输入，每迭代两万次学习率下降一次，最终在损失函数L(I,s)不再下降或者达到最大训练次数时，将当前的注意力机制的权值以及所述长短记忆网络中的忘记门、输入门、细胞单元、输出门、softmax的权值作为模型的参数。

在获得了上述所述注意力机制的权值以及所述长短记忆网络的权值后，则认为完成了对根据本发明的生成描述图像内容的自然语言的模型的训练过程。

下面将具体地介绍如何利用根据本发明上述实施例所生成的模型来生成描述图像内容的自然语言。

图7示出了使用根据本发明的模型的流程的简化的模块图，将提取的待描述的测试图像的全局特征以及局部特征输入到训练好的注意力机制中，并将由注意力机制所输出的融合了全局特征以及局部特征的结果、以及在前一时刻t-1生成的第t-1个单词(或者是前t-1个单词)输入到训练好的长短记忆网络中，由长短记忆网络输出基于上述历史数据、第t个单词为某个备选词的条件概率。

图8示出了根据本发明的一个实施例，参考图7和图8生成的模型生成描述图像内容的自然语言的方法，包括：

步骤B1.提取所述待描述的测试图像的全局特征以及局部特征。

在本发明中可以采用任意现有技术来提取所述待描述的测试图像的全局特征以及局部特征。根据本发明的一个实施例，发明人通过研究发现卷积神经网络具有强大的表达能力，尤其适用于图像识别和目标检测。因此，本发明优选地采用深度卷积神经网络对待处理图像提取全局特征和局部特征。

根据本发明的一个实施例，采用Faster R-CNN提取4096维的图像局部特征{Lf₁，Lf₂，...，Lf_n}，所述Faster R-CNN被描述于Ren,S.等人2015年在Neural InformationProcessing Systems上发表的文章“Faster RCNN:Towards real-time object detectionwith region proposal networks”中。在本实施例中，采用Faster R-CNN检测图像中的所有目标，然后根据每个目标的置信度分数从大到小排序，然后选取前n个作为该图像的重要区域，从而确定局部特征{Lf₁，Lf₂，...，Lf_n}。所述Faster RCNN模型在ImageNet的分类数据集上训练获得。并且，在MS COC目标检测数据集上对所述Faster RCNN模型进行微调。

根据本发明的一个实施例，采用VGG16网络提取图像全局特征Gf，所述VGG16网络被描述于Simonyan,K.和Zisserman,A.2014年在CoRR abs/1409.1556发表的文章“Verydeep convolutional networks for large-scale image recognition”中。在本实施例中，将VGG16网络的fc7层的特征作为图像的全局特征Gf，该特征为4096维。可以对图像中的重要区域提取4096维度的fc7层特征。所述VGG16网络在ImageNet的分类数据集上训练获得。可以将所获得的全局特征和局部特征作为一个4096维特征的集合I＝{Gf,Lf₁,...,Lf_n}。发明人发现每幅图像平均所包含的目标数量一般低于10，因此，根据本发明的优选实施例，设置n＝10。

步骤B2.模型采用通过根据本发明的上述方法所获得的注意力机制的权值以及长短记忆网络的权值，将待描述的测试图像的全局特征以及局部特征作为注意力机制的输入，并且将所述注意力机制的输出、以及已获得的前n-1个描述所述测试图像的单词中的至少一个作为长短记忆网络的输入，得到描述所述测试图像的第n个单词。

在生成第一个描述所述测试图像的单词时，尚未获得描述所述测试图像的历史数据，因此可以定义一个开始符，将其作为所述长短记忆网络的输入。

可以理解，参考计算式(13)，利用根据本发明的模型可以通过长短记忆网络输出第n个单词s_n为某一备选词的条件概率p(s_n|I,s₀,s₁,...,s_n-1)，在实际使用时可以得到多个备选词的概率。这里可以将条件概率最大的单词作为第n个单词s_n，并将s_n用于针对第n+1个单词的判断。

步骤B3.重复上述步骤B2的判断过程，直到得到描述所述测试图像的单词同于定义的结束符，或者描述所述测试图像的单词的总数达到设置的上限时，依照顺序输出已获得的各个单词以作为描述所述测试图像的自然语言。

如步骤B2中所述，在针对每个单词计算时可以得到不止一个备选词，为了尽可能多的涵盖优选的自然语句，可以针对每个单词选择条件概率最大的多个备选词的条件概率以计算各个单词组合在一起作为一个完整自然语句时的概率。例如，针对全部m个单词中的每一个(表示为s_i)，选择p(s_i|I,s₀,s₁,...,s_i-1)最大的两个备选词的条件概率，针对全部m个单词进行排练组合，计算在该组合形式下完整的自然语句为s₀,s₁,...,s_m的概率，即对该组合下的各个备选词的条件概率进行累乘：

通过上述实施例可以看出，本发明提供了一种训练用于生成描述图像内容的自然语言的模型的方法，所述模型可被用于生成兼具图像的全局特征和局部特征的自然语句，其中采用注意力机制来融合图像的全局特征和局部特征，以基于全局特征保留图像的上下文信息，并且基于局部特征准确地表达图像中各个目标的细节信息。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种训练用于生成描述图像内容的自然语言的模型的方法，包括：

2.根据权利要求1所述的方法，其中步骤A1)包括：

3.根据权利要求2所述的方法，其中步骤A1)包括：

<mrow> <msup> <mi>&psi;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&alpha;</mi> <mn>0</mn> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mi>G</mi> <mi>f</mi> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>j</mi> <mi>max</mi> </mrow> </munderover> <msubsup> <mi>&alpha;</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <msub> <mi>Lf</mi> <mi>j</mi> </msub> </mrow>

<mrow> <msubsup> <mi>&alpha;</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msubsup> <mi>&beta;</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </msup> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>j</mi> <mi>max</mi> </mrow> </msubsup> <msup> <mi>e</mi> <msubsup> <mi>&beta;</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </msup> </mrow> </mfrac> </mrow>

4.根据权利要求1所述的方法，其中所述损失函数为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>I</mi> <mo>,</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>I</mi> <mo>,</mo> <msub> <mi>s</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

p(s_i|I,s₀,s₁,...,s_i-1)＝softmax(w_ph_i)

5.根据权利要求1所述的方法，其中步骤A2)包括：

针对所述损失函数采用梯度下降法进行训练。

6.根据权利要求1-5中任意一项所述的方法，其中所述长短记忆网络包含多个LSTM网络层，所述多个LSTM网络层中的一个以所述融合的结果作为其输入，所述多个LSTM网络层中的一个以单词训练集作为其输入。

7.一种生成的模型生成描述图像内容的自然语言的方法，包括：

其中，所述注意力机制的权值、以及所述长短记忆网络的权值由权利要求1-6中任意一项所述方法确定。

8.根据权利要求7所述的方法，其中步骤B2)包括：

9.根据权利要求8所述的方法，其中，步骤B2-1)包括：

步骤B2-2)包括：

10.根据权利要求9所述地方法，其中步骤B2-1)包括：

11.根据权利要求10所述地方法，其中步骤B2-2)包括：

12.根据权利要求7-11中任意一项所述的方法，其中所述待描述的测试图像的全局特征通过VGG16网络获得，并且所述待描述的测试图像的局部特征通过Faster R-CNN模型获得。

13.一种用于生成描述图像内容的自然语言的系统，包括：

处理器、和存储装置，