CN106503055B

CN106503055B - 一种从结构化文本到图像描述的生成方法

Info

Publication number: CN106503055B
Application number: CN201610854169.2A
Authority: CN
Inventors: 马书博; 韩亚洪; 李广
Original assignee: Tianjin University
Current assignee: Harbin Mido Technology Co ltd
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2019-06-04
Anticipated expiration: 2036-09-27
Also published as: CN106503055A

Abstract

本发明公开了一种从结构化文本到图像描述的生成方法，从互联网下载图片，构成图片训练集；对训练集中图像对应的描述进行词法分析，构造结构化文本；利用现有的神经网络模型，提取训练集图像的卷积神经网络特征，并以<图像特征，结构化文本>作为输入，构造多任务识别模型；以训练集中提取的结构化文本和相应描述作为递归神经网络的输入，训练得到递归神经网络模型的参数；输入待描述图像的卷积神经网络特征，通过多任务识别模型得到预测结构化文本；输入预测结构化文本，通过递归神经网络模型得到图像描述。与现有技术相比，本发明能够产生更好的图像描述效果和准确性以及句子的多样性，可以有效地推广到图像检索的应用当中。

Description

一种从结构化文本到图像描述的生成方法

技术领域

本发明涉及计算机视觉内容自动理解和多媒体检索技术领域，尤其涉及一种从结构化文本到图像描述的生成方法。

背景技术

在计算机视觉和多媒体领域中，通过生成自然语言来描述图像的语义信息是一项非常重要和极具挑战的任务。例如：当人们看到一张图片时，特别是图片中的物体具有鲜明的特征或属性，便会对该图片有一定程度的了解，并可以通过语言去讲述图像中所发生的事情。例如使用“一辆黄色的校车”这样的句子对图像进行描述，特别是“黄色”以及“校车”，都可以详细的描绘这辆汽车的属性。然而，面对大量的图像，采用人工的方式对图像进行逐一的描述需要的大量的时间，人力和财力。使用计算机技术对图像特征进行分析，并与自然语言处理的方法进行结合，生成对图像的描述是非常有必要的。一方面，通过图像描述的方法，人们可以从语义的角度更加精确的去理解图像。另一方面，在图像检索领域，当用户输入一段文字性的描述来检索出相应的图像这件事情是非常困难的并且具有一定的挑战。

在过去的几年中已经涌现出了各种各样的图像描述方法，比如：通过对图像特征进行分析，可以识别图片中存在的物体以及物体之间所具有的动作关系；然后采用固定的语言模板：主语+动词+宾语，具体为从所识别物体中确定主语和宾语以及将物体之间的动作关系作为谓语，采用这样的方式生成句子对图像的描述。但是这样的方法存在一定的局限性，例如语言的模板形式的单一导致生成的句子句式相对固定，以及需要大量的时间对图像特征进行训练，才能实现对图像中的物体和动作进行识别和前期图像各个物体以及动作类别的标注。最重要的是，这种方法忽略掉了物体所固有的属性，使得生成的句子丢失了大量的信息。

随着自然语言处理中使用深度学习的方法对机器翻译效果取得显著的提升，人们从中受到启发，在图像中运用深度学习的方法，其生成的图像描述多样性和正确性有了一定的提高。

主要参考文献：

1、L.A.Hendricks,S.Venugopalan,M.Rohrbach,R.Mooney,K.Saenko,andT.Darrell.《深度组成的描述：描述新的物体类别采用非配对的训练数据》，计算机视觉和模式识别会议，2015.

2、J.Donahue,L.A.Hendricks,S.Guadarrama.,M.Rohrbach,S.Venugopalan,K.Saenko,and T.Darrell.《基于长系列循环卷积神经网络的视觉识别和描述》1411.4389,2014.

3、I.Sutskever,O.Vinyals,and Q.V.Le.《序列到序列学习通过神经网络》,先进的神经信息处理系统，2014，pp.3104-3112.

4、Y.Han and G.Li.《描述图像通过层次结构的概念和物体类别定位》，多媒体检索国际会议，2015，pp.251-258.

5、A.Farhadi,M.Hejrati,A.Sadeghi,P.Young,C.Rashtchian,J.Hockenmaier,and D.Forsyt.《每一幅图像都讲述了一个故事：从图像中生成句子》，欧洲计算机视觉会议，2008，P1-14

6、A.Karpathy and L.Fei-Fei.《基于深度视觉-语义对应生成图像描述》，计算机视觉和模式识别，2015，pp.3128-3137.

发明内容

基于现有技术，本发明提出了一种从结构化文本到图像描述的生成方法，通过自然语言描述一张图片中正在发生的事件以及与事件相关的物体属性和场景等，使用卷积神经网络提取图像的底层特征，并通过多任务识别的方式得到图像所具有的结构化文本信息可以得到图像中更多的语义信息，特别是结构化文本中包含了属性和场景等内容，从而达到对图像内容进行描述和总结的目的。

本发明的一种从结构化文本到图像描述的生成方法，该方法包括以下步骤：

步骤1、从互联网下载图片，并对每个图片进行描述，形成<图像，描述>对，构成文本描述训练集；图像表示为集合N_d是集合IMG中的图像总数；每个图像对应多个描述，描述表示为集合Sentences＝{Sentence₁,…,Sentence_N}，N表示每一个图像所对应的句子(Sentence₁,…,Sentence_N)的描述个数，通过现有的图像集合IMG以及每个图像对应的句子描述Sentences组成<图像，描述>对，构成文本描述训练集；

步骤2、对训练集中图像对应的描述进行词法分析，构造结构化文本，结构化文本组成包括物体和属性、活动、场景；

步骤3、利用现有的神经网络模型，提取训练集图像的卷积神经网络特征，并以<图像特征，结构化文本>作为输入，构造多任务识别模型，模型表示如下：

其中，i＝1,2,3，l＝3表示该模型分为三个任务，第一个任务为识别图像存在的物体和相应的属性，第二个任务为识别图像中存在的活动，第三个任务为识别图像中具有的场景；X_i指的是从图像中提取的卷积神经网络特征，Y_i指的是从文本描述中获得物体及对应、活动、场景；1^T _i表示单位矩阵，L指的是超图拉普拉斯，表示矩阵的迹，α,β,γ为目标函数的正则项参数，W_i,b_i为待优化参数；

步骤4、以训练集中提取的结构化文本和相应描述作为递归神经网络的输入，训练得到递归神经网络模型的参数；

步骤5、输入待描述图像的卷积神经网络特征，通过多任务识别模型得到预测结构化文本：

步骤6、输入预测结构化文本，通过递归神经网络模型得到图像描述。

本发明具有以下积极的实施技术效果：

相比较传统的图像描述方法而言，本发明能够有效避免通过识别主语，谓语，宾语来生成句子所造成的描述的准确性和多样性较低的缺点；并且，使用训练好的循环神经网络将结构化文本转化成句子；能够产生更好的图像描述效果和准确性以及句子的多样性，从而克服了使用固定模板生成句子所带来的句式单一，容易出现语法错误的困难；同时，可以有效地推广到图像检索的应用当中。

附图说明

图1为本发明的结构化文本中关于活动的结构示意图；

图2为本发明的训练集例子示例图；

图3为本发明所使用的深度学习模型示意图；

图4为本发明所使用的深度学习模型中的每一个长短期记忆网络(LSTM)单元示意图；

图5为使用本发明所生产的结构化文本以及图像描述的结果示意图；

图6为本发明的一种从结构化文本到图像描述的生成方法的整体流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

如图1所示，其中是文本描述中的活动，表示图像中的物体所具有的动作，可在候选的类集合Activity中的任意一个元素处取值(即)，其中0表示不具有该活动，1表示具有该活动；是文本描述中的物体，表示图像描述中所包含的物体，可在候选的子类集合Object中任意一个元素处取值(即其中0表示不具有该物体，1表示具有该物体；是文本描述中的属性，表示图像描述中所包含的物体所具有的属性，可在候选的子类集合Attribute中任意一个元素处取值(即)，其中0表示物体不具有该属性，1表示物体具有该属性；是文本描述中的场景，表示图像描述中所包含的场景，可在候选的子类集合Scene中任意一个元素处取值(即)，其中0表示不具有该场景，1表示具有该场景。

如图2所示，本发明使用的训练集中的若干例子，其中第一行的图像为从网络上下载的自然图像。第二行为每个图像相对应的结构化文本标签，分别为物体，属性，活动和场景。本发明使用以上训练集进行多任务识别的参数训练。

如图3所示，本发明所使用的深度学习模型，该模型由多个长短时间记忆网络(LSTM)构成，其中P＝{p₀,...,p_m}为结构化文本序列，Q＝{q₀,...,q_n}为结构化文本对应的文本描述。

如图4所示，本发明所使用的深度学习模型中的每一个长短期记忆网络(LSTM)单元。其中h_t-1为上一个输入，x_t为当前输入，h_t为本单元的输出。

如图5所示，使用本发明所生产的结构化文本以及图像描述的结果，其中，ACT，O，A，S分别表示通过将该图片的卷积神经网络特征输入多任务识别模型后所预测出的活动，物体，属性以及场景；“Our Method”为本发明通过结构化文本生成的图像描述，“Groundtruth”为该图片人为描述结果。

这里选取两个图像作为待描述图像，分别为图5中的两幅图像，使用本发明中从结构化文本到图像描述的生成方法对其进行预测输出相应的图像描述,如图6所示。

步骤1、从互联网下载图片，并对每个图片进行描述，形成<图像，描述>对，构成文本描述训练集的步骤如下：

(1)从互联网中下载微软上下文中的常见对象数据集(MS-COCO)，构成图像集合其中N_d是集合IMG中的图像总数，其中训练集图像个数N_d＝＝82783；

(2)每个图像都会有多个对应的描述，每一个图像的句子描述为Sentences＝{Sentence₁,…,Sentence_N}，其中，N表示每一个图像所对应的句子(Sentence₁,…,Sentence_N)的描述个数，本次实施中N＝5；

(3)通过现有的图像集合IMG以及每个视频对应的句子描述Sentences组成<图像，描述>对，构成文本描述训练集。

步骤2、利用词法分析工具，对训练集中图像对应的描述进行词法分析，构造结构化文本<物体和属性，活动，场景>的步骤如下：

(1)采用开放的自然语言处理(OPENNLP)词法分析工具对训练集中文本描述进行分词，并统计出现频率较高的名词，形容词和动词。其中，名词主要为文本描述中的物体和场景N_o表示训练集文本描述中统计的高频率物体的个数，本次实施中选取的物体个数N_o＝105；N_s表示训练集文本描述中高频率的场景的个数，本次实施中选取的场景个数N_s＝44；形容词主要为文本描述中的物体的属性N_a表示训练集文本描述中统计的高频率属性的个数，本次实施中选取的属性个数N_a＝37；动词主要为文本描述中存在的活动N_v表示训练集文本描述中统计的高频率活动的个数，本次实施中选取的活动个数N_v＝42。

根据筛选出的物体，属性，活动和场景构成集合

(3)对训练集中每一个描述分词后与集合DIC进行匹配，生成结构化文本标签其中表示第i个文本描述所具有的物体，其值分别为0或1，0表示该文本描述不具有该物体，1表示该文本描述具有该物体；Attribute_i1,L,Attrivute_Nia表示第i个文本描述中物体所具有的属性，其值分别为0或1，0表示该文本描述中的物体不具有该属性，1表示该文本描述中的物体具有该属性；表示第i个文本描述所具有的活动，其值分别为0或1，0表示该文本描述不具有该活动，1表示该文本描述具有该活动；表示第i个文本描述所具有的场景，其值分别为0或1，0表示该文本描述不具有该场景，1表示该文本描述具有该场景。

步骤3、提取训练集图像的卷积神经网络特征，并以<图像特征，结构化文本>作为输入，构造多任务识别模型，训练得到模型参数的步骤如下：

(1)利用现有的神经网络模型例如：VggNet，提取训练集图像的VggNet特征X；

(2)构造如图1中所示的多任务识别模型：

其中是文本描述中的活动，表示图像中的物体所具有的动作，可在候选的类集合Activity中的任意一个元素处取值(即)，其中0表示不具有该活动，1表示具有该活动；是文本描述中的物体，表示图像描述中所包含的物体，可在候选的子类集合Object中任意一个元素处取值(即)，其中0表示不具有该物体，1表示具有该物体；是文本描述中的属性，表示图像描述中所包含的物体所具有的属性，可在候选的子类集合Attribute中任意一个元素处取值(即)，其中0表示物体不具有该属性，1表示物体具有该属性；是文本描述中的场景，表示图像描述中所包含的场景，可在候选的子类集合Scene中任意一个元素处取值(即)，其中0表示不具有该场景，1表示具有该场景。使用代替来表示文本描述所具有的物体和对应的属性；代替来表示文本描述所具有的活动；代替来表示文本描述所具有的场景。多任务识别模型需要最小化如下公式：

其中，i＝1,2,3，l＝3表示该模型分为三个任务，第一个任务为识别图像存在的物体和相应的属性，第二个任务为识别图像中存在的活动，第三个任务为识别图像中具有的场景。X_i指的是从图像中提取的卷积神经网络特征，Y_i指的是从文本描述中获得物体及对应描述，活动，场景。1^T _i表示单位矩阵，L指的是超图拉普拉斯，表示矩阵的迹，α,β,γ为该目标函数的正则项参数，W_i,b_i为待优化参数。

(3)根据公式(1),对其进行变换得到公式(2)其中D_i，D为对角矩阵

(4)对公式(2)进行推导，可得：

其中，根据公式(3)，可以得到：

进而可以求解W_i：

4、以训练集中提取的结构化文本和相应描述(<结构化文本，图像描述>)作为递归神经网络的输入，训练得到递归神经网络模型的参数的步骤如下：

(1)构造如图3所示的深度学习模型，根据结构化文本P，以及对应的文本描述Q进行建模，其目标函数为：

其中，(P,Q)代表训练数据中的结构化文本-文本对；θ为模型待优化参数；θ*为优化后的参数；训练的目的是使得所有样本在给定输入图像I的观察下生成的句子的对数概率之和最大，采用条件概率的链式法则计算概率p(Q|P；θ)，表达式为：

其中，P＝{p₀,...,p_m}表示结构化文本中的单词，q₀,q₁,...,q_n-1,q_n表示句子中的单词。对公式中的未知量p(q_t|P,q₀,q₁,...,q_t-1)使用递归神经网络进行建模。

(2)构造递归神经网络(RNN)

在t-1个单词作为条件下，并将这些词表示为固定长度的隐态h_t，直到出现新的输入x_t，并通过非线性函数f对隐态进行更新，表达式为：

h_t+1＝f(h_t,x_t) (8)

其中，h_t+1表示下一隐态。

(3)对于非线性函数f，通过构造如图4所示的长短时间记忆网络(LSTM)进行建模；

其中，i_t为输入门inputgate，f_t为遗忘门forgetgate，o_t为输出门outputgate，c为细胞cell，各个状态的更新和输出可表示为：

i_t＝σ(W_ixx_t+W_imm_t-1) (9)

f_t＝σ(W_fxx_t+W_fmm_t-1) (10)

o_t＝σ(W_oxx_t+W_omm_t-1) (11)

c_t＝f_t⊙c_t-1+i_t⊙h(W_cxx_t+W_cmm_t-1) (12)

m_t＝o_t⊙c_t (13)

p_t+1＝Softmax(m_t) (14)

其中，⊙表示为gate值之间的乘积，矩阵W＝{W_ix；W_im；W_fx；W_fm；W_ox；W_om；W_cx；W_ix；W_cm}为需要训练的参数，σ(·)为sigmod函数，h(·)为双曲线正切函数。p_t+1为经过softmax分类后下一个词的概率分布；m_t为当前状态特征。

(4)、使用梯度下降的方式优化目标函数，并得到训练后的长短时间记忆网络LSTM参数W。

5，输入待描述图像的卷积神经网络特征，通过多任务识别模型得到预测结构化文本的步骤如下；

(1)提取测试集N_t为测试集图像的个数，t为测试集图像；

(2)利用现有的VggNet卷积神经网络模型提取IMG^t中每个图像的CNN特征，得到图像特征

(3)将图像特征X^t作为输入并利用训练好的多任务识别模型的参数{W_i,b_i,α,β,γ}，i＝1,2,3，求得公式预测出图像对应的结构化文本P^t＝{p^t ₀,...,p^t _m}，图4为生成结构化文本结果展示；

步骤6、输入预测结构化文本，通过递归神经网络模型得到图像描述的步骤如下：

(1)将基于多任务识别模型预测的结构化文本P^t＝{p^t ₀,...,p^t _m}作为输入并利用训练好的递归神经网络模型的参数W＝{W_ix；W_im；W_fx；W_fm；W_ox；W_om；W_cx；W_ix；W_cm}，求得公式(7)，得到图像对应的描述Q^t＝{q^t ₀,...,,q^t _n}，图5为生成图像描述结果展示。

结论：本发明针对图像描述问题提出了一种从结构化文本到图像描述的生成方法。将每一个图像通过卷积神经网络提取底层特征，并通过多任务模型生成相应的结构化文本，将这些结构化文本作为递归神经网络的输入生成高质量的图像描述。用户可以使用这种方法得到图像的描述，其描述的准确性较高，并且可以推广到图像检索中去。

Claims

1.一种从结构化文本到图像描述的生成方法，其特征在于，该方法包括以下步骤：

步骤(1)、从互联网下载图片，并对每个图片进行描述，形成<图像，描述>对，构成文本描述训练集；图像表示为集合N_d是集合IMG中的图像总数；每个图像对应多个描述，描述表示为集合Sentences＝{Sentence₁,…,Sentence_N}，N表示每一个图像所对应的句子(Sentence₁,…,Sentence_N)的描述个数，通过现有的图像集合IMG以及每个图像对应的句子描述Sentences组成<图像，描述>对，构成文本描述训练集；

步骤(2)、对训练集中图像对应的描述进行词法分析，构造结构化文本，结构化文本组成包括物体和属性、活动、场景；

步骤(3)、利用现有的神经网络模型，提取训练集图像的卷积神经网络特征，并以<图像特征，结构化文本>作为输入，构造多任务识别模型，模型表示如下：

其中，i＝1,2,3，l＝3表示该模型分为三个任务，第一个任务为识别图像存在的物体和相应的属性，第二个任务为识别图像中存在的活动，第三个任务为识别图像中具有的场景；X_i表示从图像中提取的卷积神经网络特征，Y_i指的是从文本描述中获得物体及对应描述、活动、场景；1^T _i表示单位矩阵，L表示是超图拉普拉斯，表示矩阵的迹，α,β,γ为目标函数的正则项参数，W_i,b_i为待优化参数；

步骤(4)、以训练集中提取的结构化文本和相应描述作为递归神经网络的输入，训练得到递归神经网络模型的参数；

步骤(5)、输入待描述图像的卷积神经网络特征，通过多任务识别模型得到预测结构化文本；

步骤(6)、输入预测结构化文本，通过递归神经网络模型得到图像描述。

2.如权利要求1所述的一种从结构化文本到图像描述的生成方法，其特征在于，所述步骤(4)的具体步骤还包括：

(1)、构造深度学习模型，根据结构化文本P，以及对应的文本描述Q进行建模，其目标函数为：

其中，P＝{p₀,...,p_m}表示结构化文本中的单词，q₀,q₁,...,q_n-1,q_n表示句子中的单词，对公式中的未知量p(q_t|P,q₀,q₁,...,q_t-1)使用递归神经网络进行建模；

(2)、构造递归神经网络，在t-1个单词作为条件下，并将这些词表示为固定长度的隐态h_t，直到出现新的输入x_t，并通过非线性函数f对隐态进行更新，表达式为：

h_t+1＝f(h_t,x_t)

其中，h_t+1表示下一隐态；

(3)、对于非线性函数f，通过构造长短时间记忆网络进行建模；

其中，i_t为输入门input gate，f_t为遗忘门forget gate，o_t为输出门output gate，c为细胞cell，各个状态的更新和输出表示为：

i_t＝σ(W_ixx_t+W_imm_t-1)

f_t＝σ(W_fxx_t+W_fmm_t-1)

o_t＝σ(W_oxx_t+W_omm_t-1)

c_t＝f_t⊙c_t-1+i_t⊙h(W_cxx_t+W_cmm_t-1)

m_t＝o_t⊙c_t

p_t+1＝Softmax(m_t)

其中，⊙表示为gate值之间的乘积，矩阵W＝{W_ix；W_im；W_fx；W_fm；W_ox；W_om；W_cx；W_ix；W_cm}为需要训练的参数，σ(·)为sigmod函数，h(·)为双曲线正切函数；p_t+1为经过softmax分类后下一个词的概率分布；m_t为当前状态特征；

3.如权利要求1所述的一种从结构化文本到图像描述的生成方法，其特征在于，所述步骤(5)的具体步骤还包括：

(1)、提取测试集N_t为测试集图像的个数，t为测试集图像；

(2)、利用现有的VggNet卷积神经网络模型提取IMG^t中每个图像的CNN特征，得到图像特征

(3)、将图像特征X^t作为输入并利用训练好的多任务识别模型的参数{W_i,b_i,α,β,γ}，i＝1,2,3，求得公式预测出图像对应的结构化文本P^t＝{p^t ₀,...,p^t _m}。

4.如权利要求1所述的一种从结构化文本到图像描述的生成方法，其特征在于，所述步骤(6)的具体步骤还包括：

将基于多任务识别模型预测的结构化文本P^t＝{p^t ₀,...,p^t _m}作为输入并利用训练好的递归神经网络模型的参数W＝{W_ix；W_im；W_fx；W_fm；W_ox；W_om；W_cx；W_ix；W_cm}，求得概率。