CN108805260A

CN108805260A - 一种图说生成方法及装置

Info

Publication number: CN108805260A
Application number: CN201710283733.4A
Authority: CN
Inventors: 黄欢; 赵刚
Original assignee: Shanghai Jinghong Electronic Technology Co Ltd
Current assignee: Shenzhen Jinghong Technology Co., Ltd
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2018-11-13

Abstract

本发明提供了一种图说生成方法及装置。该方法包括：采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；将训练集的图像的全局特征以及描述语句特征输入至递归神经网络，对递归神经网络进行训练；根据递归神经网络的输出构建损失函数，根据损失函数对递归神经网络的参数进行优化；采用预先训练的卷积神经网络提取目标图像的全局特征，将目标图像的全局特征输入至递归神经网络，生成与目标图像对应的描述语句。本发明实施例采用递归神经网络作为语言模型，避免了现有技术生成的描述语句形式单一的缺陷，能够针对目标图像生成描述丰富、长短可变的描述语句。

Description

一种图说生成方法及装置

技术领域

本发明涉及多模态融合技术领域，具体涉及一种图说生成方法及装置。

背景技术

随着人工智能从概念到逐渐进入人类的生活，并逐渐成为人类生活中的一部分，计算机视觉同语音、自然语言等其他模态的信息融合技术广泛的被研究和应用。随着深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大的突破，为了实现根据图像自动生成描述语句(描述语句中包括多个单词)，研究设计了图说生成方法。

现有的图说生成方法中，提前定义图像中的目标、属性等概念，同时定义描述语句的模板，在测试阶段采用检索排序的方式生成图说。现有的图说生成方法受定义模板概念数的影响，生成的图说体现的概念非常有限，描述语句形式单一。

发明内容

本发明实施例提供一种图说生成方法及装置，用于解决现有的图说生成方法生成的描述语句形式单一的问题。

本发明实施例提供了一种图说生成方法，包括:

采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；

对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；

将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；

根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；

采用所述预先训练的卷积神经网络提取目标图像的全局特征，将所述目标图像的全局特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。

可选地，所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征，包括：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

其中，v表示图像I的全局特征；W_I表示权重矩阵，b_I表示偏置；Fc(I)表示所述卷积神经网络对所述图像I处理后全连接层的输出。

可选地，对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征，包括：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

其中，s_t表示图像I的描述语句特征；W_s表示权重矩阵；所述图像I的描述语句S＝(w₁,w₂,…,w_T)，T为描述语句中单词的个数；表示该描述语句的第i个单词，N₀为所述图文数据库中的单词总数；w_i为单词one-hot向量。

可选地，所述递归神经网络为门控递归神经网络GRU。

可选地，所述根据所述递归神经网络的输出构建损失函数，包括：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

其中，C(S,I；θ)表示通过参数为θ的递归神经网络针对图像I产生描述语句S的条件概率，λ_θ||θ||²是对所述递归神经网络所有参数θ的正则约束；N表示所述图文数据库中训练集的图像的个数；T_i表示所述训练集中的第i幅图像对应的描述语句的长度；p_t,i表示所述训练集中的第i幅图像在t时刻产生单词的概率。

可选地，根据所述损失函数对所述递归神经网络的参数进行优化，包括：

根据所述损失函数采用反时传播BPTT算法对所述递归神经网络的参数进行优化。

可选地，所述方法还包括：

获取生成的目标图像对应的描述语句与参考描述语句的相关性。

本发明实施例提供一种图说生成装置，包括：

图像特征提取单元，用于采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；

描述语句特征获取单元，对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；

递归神经网络训练单元，用于将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；

网络参数优化单元，用于根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；

描述语句生成单元，用于采用所述预先训练的卷积神经网络提取目标图像的全局特征，将所述目标图像的全局特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。

可选地，所述图像特征提取单元进一步用于：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

可选地，所述描述语句特征获取单元进一步用于：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

可选地，所述递归神经网络为门控递归神经网络GRU。

可选地，所述网络参数优化单元进一步用于：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

可选地，所述网络参数优化单元进一步用于：

可选地，还包括：

相关性获取单元，用于获取生成的目标图像对应的描述语句与参考描述语句的相关性。

本发明实施例提供一种电子设备，包括：处理器、存储器和总线；其中，

处理器和存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行上述的图说生成方法。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的图说生成方法。

本发明实施例提供的图说生成方法及装置，采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；将训练集的图像的全局特征以及描述语句特征输入至递归神经网络，对递归神经网络进行训练；根据递归神经网络的输出构建损失函数，根据损失函数对递归神经网络的参数进行优化；采用预先训练的卷积神经网络提取目标图像的全局特征，将目标图像的全局特征输入至递归神经网络，生成与目标图像对应的描述语句。本发明实施例采用递归神经网络作为语言模型，避免了现有技术生成的描述语句形式单一的缺陷，能够针对目标图像生成描述丰富、长短可变的描述语句。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的图说生成方法的流程示意图；

图2a、图2b和图2c是本发明一个实施例的参考图说示意图；

图3是本发明一个实施例的图说生成装置的结构示意图；

图4是本发明一个实施例的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的图说生成方法的流程示意图。如图1所示，该实施例的方法包括：

S11：采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；

在实际应用中，本发明实施例采用ImageNet数据库对卷积神经网络进行训练，ImageNet是目前最大的计算机视觉系统识别数据库，通过ImageNet数据库中的大量数据对卷积神经网络进行训练，解决卷积神经网络训练过程中的过拟合问题。

需要说明的是，本发明实施例中的图文数据库中包括训练集和测试集；训练集中包括多个图说，即图像和与图像对应的描述语句。本发明实施例通过训练好的卷积神经网络提取图像中的全局特征。

S12：对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；

需要说明的是，本发明并不限定步骤S11和步骤S12的执行顺序，可以先执行步骤S11、再执行步骤S12，或者先执行步骤S12、再执行步骤S11，二者还可以并行执行。

S13：将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；

S14：根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；

S15：采用所述预先训练的卷积神经网络提取目标图像的全局特征，将所述目标图像的全局特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句；

在实际应用中，本发明实施例的目标图像为图文数据库中测试集中的一幅图像。

本发明实施例提供的图说生成方法，采用递归神经网络作为语言模型，避免了现有技术生成的描述语句形式单一的缺陷，能够针对目标图像生成描述丰富、长短可变的描述语句。

在本发明一种可选的实施方式中，所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征，包括：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

在实际应用中，将卷积神经网络VGG-19在ImageNet上预训练好，将卷积神经网络VGG-19的全连接层fc-7输出向量作为全局特征。图像经过VGG-19得到4096维的特征向量，Fc(I)表示图像I经过VGG-19后全连接层fc-7的输出。

需要说明的是，卷积神经网络VGG-19在图像分类识别领域表现出较好的性能，但本发明实施例不是解决图像分类问题，因此，在本发明实施例中将此网络的分类层(最后一层全连接层和softmax层)去掉后的卷积神经网络作为图像特征提取器。

需要说明的是，本发明实施例获取到图像的全局特征v后，对其进行编码投影到多模态融合空间，即：

x₀＝W_Iv+b_I

其中，W_I∈R^h×4096为映射矩阵，b_I∈R^h×1为偏置，x₀∈R^h×1表示图像的全局特征向量在多模态空间的映射向量，h为隐层神经元个数。

进一步地，对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征，包括：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

w_i是一个one-hot向量，即w_i这个单词在词汇表的位置处取值为1，其他维数的值均为0，然后通过嵌入矩阵对这些单词进行编码，投影到多模态空间中。

为避免传统递归神经网络在训练时存在梯度消失和梯度爆炸，导致递归神经网络训练困难的缺陷，所述递归神经网络为门控递归神经网络GRU。

具体地，门控递归神经网络GRU的计算公式为：

r_t＝σ(W_rx_t+U_rh_t-1+b_r)(重置门)

z_t＝σ(W_zx_t+U_zh_t-1+b_z)(更新门)

(待选激活单元)

(隐层单元)

其中，r_t∈R^h×1、z_t∈R^h×1、和h_t∈R^h×1分别表示门控递归单元GRU的重置门、更新门、待选激活单元和隐层单元，σ(·)和分别代表Sigmoid和双曲正切函数，W_x和U_x表示权重矩阵，b_x表示偏置，x＝r,z,h分别表示重置门、更新门和待选激活单元。

则，门控递归单元GRU输出为：

y_t+1＝W_dh_t+b_d

进一步地，所述根据所述递归神经网络的输出构建损失函数，包括：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

本发明实施例模仿语言概率模型，使产生的描述语句概率达到最大，因此对每一步门控递归神经网络GRU的输出进行概率化，即：

p_t+1＝softmax(y_t+1)

p_t+1表示t时刻预测生成描述语句的概率。

进一步地，所述方法还包括：

如图2a、图2b和图2c所示，为权威的图说示意图，图中右侧包括描述图像的参考描述语句。在实际应用中，本发明实施例计算生成的描述语句与参考描述GroundTruth语句的相关指标。

以下通过仿真实验说明本发明实施例的图说生成方法的技术效果。

本发明实施例的仿真实验是在中央处理器为Intel(R)Xeon(R)E5-2697 2.60GHZ、内存4G、Ubuntu 14操作系统上，运用Python及其他相关工具包进行的。

实验中使用的训练和测试的图说为flickr8K(如图2a)、flickr30K(如图2b)和MSCOCO(如图2c)。

将应用本发明实施例的方法生成的图说和参考描述GroundTruth语句作比较，计算出相关指标(B-1B-2B-3)的分数并记录，同其他方法的对比结果如表1所示：

表1：不同方法的相关指标的分数对比

图3是本发明一个实施例的图说生成装置的结构示意图。如图3所示，本发明实施例的装置包括图像特征提取单元31、描述语句特征获取单元32、递归神经网络训练单元33、网络参数优化单元34和描述语句生成单元35，具体地：

图像特征提取单元31，用于采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；

描述语句特征获取单元32，对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；

递归神经网络训练单元33，用于将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；

网络参数优化单元34，用于根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；

描述语句生成单元35，用于采用所述预先训练的卷积神经网络提取目标图像的全局特征，将所述目标图像的全局特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。

本发明实施例提供的图说生成装置，采用递归神经网络作为语言模型，避免了现有技术生成的描述语句形式单一的缺陷，能够针对目标图像生成描述丰富、长短可变的描述语句。

可选地，所述图像特征提取单元进一步用于：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

可选地，所述描述语句特征获取单元进一步用于：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

可选地，所述递归神经网络为门控递归神经网络GRU。

可选地，所述网络参数优化单元进一步用于：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

可选地，所述网络参数优化单元进一步用于：

可选地，还包括：

图4是本发明一个实施例的电子设备的结构示意图。

参照图4，电子设备包括：处理器(processor)41、存储器(memory)42和总线43；其中，

处理器41和存储器42通过总线43完成相互间的通信；

处理器41用于调用存储器42中的程序指令，以执行上述各方法实施例所提供的方法。

此外，上述的存储器42中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

本发明实施例提供的图说生成方法及装置，采用递归神经网络作为语言模型，避免了现有技术生成的描述语句形式单一的缺陷，能够针对目标图像生成描述丰富、长短可变的描述语句，可协助视觉受损的用户感知世界，具有广阔的应用前景。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图说生成方法，其特征在于，包括:

2.根据权利要求1所述的方法，其特征在于，所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征，包括：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

3.根据权利要求1所述的方法，其特征在于，对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征，包括：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

4.根据权利要求1所述的方法，其特征在于，所述递归神经网络为门控递归神经网络GRU。

5.根据权利要求1所述的方法，其特征在于，所述根据所述递归神经网络的输出构建损失函数，包括：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

6.根据权利要求1所述的方法，其特征在于，根据所述损失函数对所述递归神经网络的参数进行优化，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种图说生成装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述图像特征提取单元进一步用于：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

10.根据权利要求8所述的装置，其特征在于，所述描述语句特征获取单元进一步用于：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

11.根据权利要求8所述的装置，其特征在于，所述递归神经网络为门控递归神经网络GRU。

12.根据权利要求8所述的装置，其特征在于，所述网络参数优化单元进一步用于：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

13.根据权利要求8所述的装置，其特征在于，所述网络参数优化单元进一步用于：

14.根据权利要求8所述的装置，其特征在于，还包括：

15.一种电子设备，其特征在于，包括：处理器、存储器和总线；其中，

处理器和存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行权利要求1-7任一项所述的图说生成方法。

16.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1-7任一项所述的图说生成方法。