CN110084250B

CN110084250B - 一种图像描述的方法及系统

Info

Publication number: CN110084250B
Application number: CN201910346442.4A
Authority: CN
Inventors: 李长亮; 廖敏鹏; 史红亮; 唐剑波
Original assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2024-03-12
Anticipated expiration: 2039-04-26
Also published as: CN110084250A

Abstract

本申请提供一种图像描述的方法及系统，所述方法包括：将目标图像进行编码，得到对应的编码特征和全局池化特征；根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并生成第1个输出词语；根据编码特征、全局池化特征以及第t个输出词语得到第t个聚合特征，将第t个聚合特征输入至第二语言模型生成第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词语；根据第1至第t+1个输出词语生成目标图像对应的描述语句，可以根据聚合特征的生成实现对图像的感兴趣区域的灵活选取，更完整地保留图像的局部信息，更灵活地选取图像信息。

Description

一种图像描述的方法及系统

技术领域

本申请涉及计算机技术领域，特别涉及一种图像描述的方法及系统、计算设备、存储介质和芯片。

背景技术

图像描述(Image Caption)，就是从图片中自动生成一段描述性文字，有点类似于“看图说话”。对于机器模型来说，图像描述的过程比较复杂，首先要检测出图像中的物体，并且要理解物体之间的相互关系，最后还要用合理的语言进行描述。

现有技术中，在图像描述任务中，需要选择感兴趣区域(ROI,region ofinterest)，然后对ROI区域进行描述。ROI区域在对图像进行编码的过程中就已开始生成，编码完成即代表这些区域已经生成，在后期并不能变化。这就限制了在图像生成过程中根据语境和语义信息去关注相对应区域的能力。

发明内容

有鉴于此，本申请实施例提供了一种图像描述的方法及系统、计算设备、存储介质和芯片，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种图像描述的方法，包括：将目标图像进行编码，得到对应的编码特征和全局池化特征；

根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词语；

根据编码特征、全局池化特征以及第t个输出词语得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词语，其中t≥1且t为正整数；

根据第1个至第t+1个输出词语生成所述目标图像对应的描述语句。

可选地，将目标图像进行编码得到对应的编码特征和全局池化特征，包括：

将目标图像通过卷积神经网络模型进行编码，得到对应的编码特征；

将编码特征通过卷积神经网络模型的池化层进行池化处理，得到对应的全局池化特征。

可选地，根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，包括：

根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征；

将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征。

可选地，根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征，包括：

根据全局池化特征和第一语言模型的初始参考特征，得到初始仿射变换矩阵；根据所述初始仿射变换矩阵对所述编码特征进行仿射变换，得到初始局部特征。

可选地，将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征，包括：将初始局部特征进行关联度计算，得到处理后的关联初始局部特征；

将关联初始局部特征和初始参考特征进行拼接，得到初始聚合特征。

可选地，将初始局部特征进行关联度计算，得到处理后的关联初始局部特征，包括：

将初始局部特征和第一语言模型的初始参考特征分别乘以对应的权重系数，然后相加，得到初始中间向量矩阵；

将所述初始中间向量矩阵的双曲正切值乘以对应的权重系数，得到注意力初始权重系数；

根据注意力初始权重系数和初始局部特征，得到关联初始局部特征。

可选地，第一语言模型的初始参考特征通过以下方法生成：

将初始化词语输入至第一语言模型，得到第一语言模型的第1个输出特征作为初始参考特征。

可选地，根据编码特征、全局池化特征以及第t个输出词语得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词语，包括：

S1、将第t个输出词语输入至第一语言模型，得到第一语言模型的第t个非初始参考特征；

S2、根据所述全局池化特征和第t个非初始参考特征对所述编码特征进行处理，得到第t个局部特征；

S3、将第t个局部特征和第t个非初始参考特征进行聚合处理得到第t个聚合特征；

S4、将第t个聚合特征输入至第二语言模型生成第二语言模型的第t个非初始参考特征，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词语；

S5、判断是否达到迭代的终止条件，若否，执行步骤S6，若是，结束；

S6、将t自加1，返回执行步骤S1。

可选地，所述步骤S2包括：

根据全局池化特征和第t个非初始参考特征，得到第t个仿射变换矩阵；

根据所述第t个仿射变换矩阵对所述编码特征进行仿射变换，得到第t个局部特征。

可选地，所述步骤S3包括：

将第t个局部特征进行关联度计算，得到处理后的第t个关联局部特征；

将第t个关联局部特征和第t个非初始参考特征进行拼接，得到第t个聚合特征。

可选地，将第t个局部特征进行关联度计算，得到处理后的第t个关联局部特征，包括：

将第t个局部特征和第一语言模型的第t个非初始参考特征分别乘以对应的权重系数，然后相加，得到中间向量矩阵；

将所述中间向量矩阵的双曲正切值乘以对应的权重系数，得到注意力权重系数；

根据注意力权重系数和第t个局部特征，得到第t个关联局部特征。

可选地，步骤S4中，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词语，包括：将所述第二语言模型的第t个非初始参考特征进行分类处理，得到对应的第t+1个输出词语。

本申请实施例公开了一种图像描述的系统，所述系统包括：

编码模块，被配置为将目标图像进行编码，得到对应的编码特征和全局池化特征；

第一输出词语生成模块，被配置为根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词语；

第二输出词语生成模块，被配置为根据编码特征、全局池化特征以及第t个输出词语得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词语，其中t≥1且t为正整数；

描述语句生成模块，被配置为根据第1个至第t+1个输出词语生成所述目标图像对应的描述语句。

本申请实施例公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述图像描述的方法的步骤。

本申请实施例公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述图像描述的方法的步骤。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被芯片执行时实现如上所述图像描述的方法的步骤。

本申请提供的图像描述的方法及系统，根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到第二语言模型的初始聚合特征，然后根据第二语言模型的初始聚合特征得到第1个输出词语；根据编码特征、全局池化特征和第一语言模型的第t个参考特征，得到第二语言模型的第t个聚合特征，然后根据第二语言模型的第t个聚合特征得到第t个输出词语，生成目标图像对应的描述语句，从而可以根据聚合特征的生成实现对图像的感兴趣区域的灵活选取，与现有技术中在编码阶段选择好区域的方式相比，可以更完整地保留图像的局部信息，更灵活地选取图像信息。

附图说明

图1是本申请实施例的计算设备的结构示意图；

图2是本申请一实施例的图像描述的方法的流程示意图；

图3是本申请一实施例的图像描述的方法的流程示意图；

图4是本申请一实施例的图像描述的方法的流程示意图；

图5是本申请一实施例的图像描述的系统的具体应用示意图；

图6是本申请一实施例的图像描述的系统的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

感兴趣区域(region of interest，ROI)：机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。在图像处理领域，感兴趣区域(ROI)是从图像中选择的一个图像区域，以便进行进一步处理。这个区域是图像分析所关注的重点。圈定该区域可以减少处理时间，增加精度。

图像描述(image caption)：一个融合计算机视觉、自然语言处理和机器学习的综合问题，根据图像给出能够图像描述内容的自然语言语句，通俗讲，它就是翻译一副图片为一段描述文字。

仿射变换：是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。

编码特征(image feats)：将目标图像输入至卷积神经网络模型进行编码，得到的编码后的特征。

全局池化特征(global feats)：将编码特征输入至池化层进行池化处理后得到的特征。池化层可以非常有效地缩小参数矩阵的尺寸，从而减少参数数量。

局部特征(local feats)：将全局池化特征、编码特征和第一语言模型的参考特征输入至网格选择器进行ROI处理，得到当前时刻的特征为局部特征。

聚合特征：将当前时刻网格选择器输出的局部特征和第一语言模型输出的参考特征进行聚合生成的特征。

参考特征：第一语言模型和第二语言模型输出的特征。

在本申请中，提供了一种图像描述的方法及系统、计算设备、存储介质和芯片，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如JEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的图像描述的方法的示意性流程图，包括步骤201至步骤204。

201、将目标图像进行编码，得到对应的编码特征和全局池化特征。

其中，目标图像指企业能获取的图像资源，包括用户上传图像、企业自有图像、爬取图像等。

具体地，步骤201包括下述步骤S2011～S2012：

S2011、将目标图像通过卷积神经网络模型进行编码，得到对应的编码特征。

本实施例中，卷机网络模型可以使用CNN(Convolutional Neural Network，卷积神经网络)模型对目标图像进行编码，得到的为整个目标图像对应的编码特征。具体的结构可以采用预训练的ResNet(残差网络)、VGG(Visual Geometry Group Network，视觉几何群网络)等网络模型。

S2012、将编码特征通过卷积神经网络模型的池化层进行池化处理，得到对应的全局池化特征。

其中，池化处理可以包括多种，常用的池化处理有最大池化(max pooling)或者平均池化(average pooling)的处理操作。经过池化操作，得到目标图像的全局池化特征(global feats)。

本实施例中，通过卷积神经模型对目标图像进行编码得到编码特征后，并非仅仅将编码特征输入至后续的解码层进行解码，还会进一步池化得到的全局池化特征，然后将编码特征和池化特征共同输入至解码层进行解码，以保证在解码过程中，可以更有效地利用图像信息，在选取感兴趣区域(ROI)的时候可以保证选取的结果更加准确。

202、根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词语。

需要解释的是，第一语言模型的初始参考特征通过以下方法生成：将初始化词语输入至第一语言模型，得到第一语言模型的第1个输出特征作为初始参考特征。

其中，初始化词语可以人为设定的初始值。

具体地，参见图3，步骤202包括下述步骤301～302：

301、根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征。

具体地，步骤301中对编码特征进行处理得到初始局部特征，包括：

S311、根据全局池化特征和第一语言模型的初始参考特征，得到初始仿射变换矩阵。

仿射变换，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。

S312、根据所述初始仿射变换矩阵对所述编码特征进行仿射变换，得到初始局部特征。

具体地，通过网格选择器Grid selector输出初始局部特征。例如，在步骤S311中生成了一个2*3的初始仿射变换矩阵，然后在步骤S312中，使用该2*3的初始放射变换矩阵对编码特征进行选择，得到对应的初始局部特征，从而实现对图像的感兴趣区域ROI的选取。

其中，网格选择器(Grid selector)作为底层组件，可以实现感兴趣区域(ROI)的选取。

302、将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征。

具体地，步骤302包括：

S321、将初始局部特征进行关联度计算，得到处理后的关联初始局部特征。

具体地，步骤S321包括：

S3211、将初始局部特征和第一语言模型的初始参考特征分别乘以对应的权重系数，然后相加，得到初始中间向量矩阵。

S3212、将所述初始中间向量矩阵的双曲正切值乘以对应的权重系数，得到注意力初始权重系数。

其中，双曲正切函数在计算上等于双曲正弦与双曲余弦的比值，即tanh(x)＝sinh(x)/cosh(x)。

由于那么双曲正切函数的定义式为：

S3213、根据注意力初始权重系数和初始局部特征，得到关联初始局部特征。

具体地，注意力初始权重系数可以通过下述公式(1)得到：

α_i,1＝w_a ^Ttanh(W_vav_i+W_hah₁ ¹) (1)

其中，α_i,1代表注意力初始权重系数；

W_va、W_ha、W_a均为权重参数，W_va∈R^H*V，W_ha∈R^H*M，W_a∈R^H；

h¹ ₁代表第一语言模型的初始参考特征；

v_i代表初始局部特征。

具体地，关联初始局部特征可以通过下述公式(2)得到：

其中，α_i,1代表注意力初始权重系数；

v_i代表初始局部特征，i＝[1,k]；

代表关联初始局部特征。

S322、将关联初始局部特征和初始参考特征进行拼接，得到初始聚合特征。

需要说明的是，初始局部特征为将全局池化特征、第一语言模型的初始参考特征和编码特征输入至网格选择器Grid selector所输出的特征向量，初始参考特征为将初始化词语输入第一语言模型输出的特征向量，初始局部特征和第一语言模型的初始参考特征之间的聚合，需要满足的条件为两个特征向量的维度相同。所以，将初始局部特征转换为关联初始局部特征，以生成一维向量。这样，两个一维向量直接拼接，便可以得到对应的初始聚合特征。

例如，2个一维向量a和b，拼接起来后，生成的向量A＝[a,b]。

通过此步骤302的处理，可以将图像信息和文字信息进行合并，然后输入至第二语言模型生成第二语言模型的初始参考特征，然后得到第1个输出词语。

203、根据编码特征、全局池化特征以及第t个输出词语得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词语，其中t≥1且t为正整数。

具体地，参见图4，步骤203包括下述步骤401～406：

401、将第t个输出词语输入至第一语言模型，得到第一语言模型第t个非初始参考特征。

具体地，第一语言模型可以为LSTM(Long Short-Term Memory，长短期记忆网络)模型。

LSTM(Long Short-Term Memory，长短期记忆网络)模型：是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型可以用来连接先前的信息到当前的任务上，例如使用过去的语句来推测对当前语句的理解。

LSTM模型在接收到第t个输出词语的情况下，根据第t个输出词语和上次得到的第t-1个非初始参考特征，得到第一语言模型的第t个非初始参考特征。

402、根据所述全局池化特征和第t个非初始参考特征对所述编码特征进行处理，得到第t个局部特征。

具体地，通过网格选择器Grid selector实现局部特征的获取，从而表征对图像的感兴趣区域ROI的选取。与现有技术相比，本申请通过在解码层进行感兴趣区域ROI的选取，并且每次根据输入的非初始参考特征，可以更改感兴趣区域ROI的选取范围，从而可以更灵活地选取图像信息。

具体地，所述步骤402包括下述步骤S4021～S4022：

S4021、根据全局池化特征和第t个非初始参考特征，得到第t个仿射变换矩阵。

S4022、根据所述第t个仿射变换矩阵对所述编码特征进行仿射变换，得到第t个局部特征。

具体地，通过网格选择器Grid selector实现第t个局部特征的获取。例如，在步骤S4021中生成了一个2*3的第t个仿射变换矩阵，然后在步骤S4022中，使用该2*3的第t个仿射变换矩阵对编码特征进行选择，得到对应的第t个局部特征，从而实现对图像的感兴趣区域ROI的选取。

403、将第t个局部特征和第t个非初始参考特征进行聚合处理得到第t个聚合特征。

具体地，步骤403包括：

S431、将第t个局部特征进行关联度计算，得到处理后的第t个关联局部特征。

具体地，步骤S431包括：

S4311、将第t个局部特征和第一语言模型的第t个非初始参考特征分别乘以对应的权重系数，然后相加，得到中间向量矩阵；

S4312、将所述中间向量矩阵的双曲正切值乘以对应的权重系数，得到注意力权重系数；

S4313、根据注意力权重系数和第t个局部特征，得到第t个关联局部特征。

具体地，注意力权重系数可以通过下述公式(3)得到：

α_i,t＝W_a ^Ttanh(W_vav_i+W_hah_t ¹) (3)

其中，α_i,t代表注意力权重系数；

h¹ _t代表第一语言模型的第t个非初始参考特征；

v_i代表第t个局部特征。

第t个关联局部特征通过下述公式(4)得到：

其中，α_i,t代表注意力权重系数；

v_i代表第t个局部特征；

代表第t个关联局部特征。

S432、将第t个关联局部特征和第t个非初始参考特征进行拼接，得到第t个聚合特征。

需要说明的是，第t个局部特征(local feats)为网格选择器Grid selector所生成的特征向量，第t个非初始参考特征为经过第一语言模型生成的特征向量，二者之间的聚合，需要满足的条件为两个特征向量的维度相同。所以，将局部特征转换为关联局部特征，以生成一维向量。这样，两个一维向量直接拼接，便可以得到对应的第t个聚合特征。

例如，2个一维向量a和b，拼接起来后，生成的向量A＝[a,b]。

通过此步骤403的处理，可以将图像信息和文字信息进行合并，然后执行后续步骤，以预测下一个输出词语。

404、将第t个聚合特征输入至第二语言模型生成第二语言模型的第t个非初始参考特征，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词语。

本实施例中，第二语言模型可以为LSTM模型。

LSTM模型在接收到第t个聚合特征的情况下，根据第t个聚合特征和上次得到的第t-1个输出词语，得到第二语言模型的第t个非初始参考特征。

本实施例中，通过第一语言模型输出的初始参考特征与全局池化特征进行处理，可以进一步生成初始仿射变换矩阵，然后通过初始仿射变换矩阵对编码特征进行处理，得到初始局部特征，然后利用初始局部特征和第一语言模型输出的初始参考特征生成聚合特征，将聚合特征输入至第二语言模型，以实现预测下一个输出的词语。

步骤404中，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词语，包括：将所述第二语言模型的第t个非初始参考特征进行分类处理，得到对应的第t+1个输出词语。

具体地，可以通过分类器(classifier)利用束搜索(beam search)的方法，输出当前时刻概率最大的词语。

405、判断是否达到迭代的终止条件，若否，执行步骤406，若是，结束。

406、将t自加1，返回执行步骤401。

通过上述步骤401～406，得到除去第1个输出词语之外的其他个输出词语。

204、根据第1个至第t+1个输出词语生成所述目标图像对应的描述语句。

以生成的描述语句为“一个苹果”，那么该描述语句包括3个输出词语“一”“个”“苹果”。

根据初始化词语，得到第一语言模型的初始参考特征，然后通过网格选择器Gridselector根据编码特征(image feats)、全局池化特征(global feats)以及第一语言模型的初始参考特征，得到输入至第二语言模型的聚合特征，并根据第二语言模型输出的初始参考特征得到第1个输出词语“一”。

然后将第1个输出词语“一”输入第一语言模型，得到第一语言模型的输出的第1个非初始参考特征，然后通过网格选择器Grid selector根据编码特征(image feats)、全局池化特征(global feats)以及第一语言模型的第1个非初始参考特征，得到输入至第二语言模型的聚合特征，并根据第二语言模型输出的初始参考特征得到第2个输出词语“个”。

然后将第2个输出词语“个”输入第一语言模型，得到第一语言模型的输出的第2个非初始参考特征，然后通过网格选择器Grid selector根据编码特征(image feats)、全局池化特征(global feats)以及第一语言模型的第2个非初始参考特征，得到输入至第二语言模型的聚合特征，并根据第二语言模型输出的初始参考特征得到第3个输出词语“苹果”。

本申请提供的图像描述的方法，根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到第二语言模型的初始聚合特征，然后根据第二语言模型的初始聚合特征得到第1个输出词语；根据编码特征、全局池化特征和第一语言模型的第t个参考特征，得到第二语言模型的第t个聚合特征，然后根据第二语言模型的第t个聚合特征得到第t个输出词语，生成目标图像对应的描述语句，从而可以根据聚合特征的生成实现对图像的感兴趣区域的灵活选取，与现有技术中在编码阶段选择好区域的方式相比，可以更完整地保留图像的局部信息，更灵活地选取图像信息。

为了便于理解，本申请实施例以一个具体实例进行示意性的说明。参见图5，图5以一个摩托车骑手在路上骑车为例进行说明。图5中的图像描述的系统包括编码层和解码层。其中，编码层采用CNN模型的隐层输出，得到目标图像的编码特征(image feats)和全局池化特征(global feats)。

解码层采用了4个模块或模型，依次为网格选择器Grid selector、第一语言模型LSTM1、第二语言模型LSTM2和分类器classifier。

图像描述的方法包括：

1)将目标图像输入至CNN模型，根据CNN模型的隐层输出得到编码特征。并根据编码特征的池化处理，得到全局池化特征(global feats)。

2)将编码特征(image feats)和全局池化特征(global feats)输入至解码层侧的网格选择器Grid selector。然后根据初始化词语，得到LSTM1的初始参考特征h¹ ₁。

3)通过网格选择器Grid selector根据全局池化特征(global feats)以及初始参考特征h¹ ₁得到初始仿射变换矩阵，根据所述初始仿射变换矩阵对所述编码特征(imagefeats)进行仿射变换，得到初始局部特征，将初始局部特征(local feats)进行关联度计算，得到处理后的关联初始局部特征，将关联初始局部特征和初始参考特征进行拼接，得到初始聚合特征。得到的初始聚合特征输入至LSTM2，且LSTM2输出的初始参考特征h² ₁。将初始参考特征h² ₁输入至分类器classifier，得到第1个输出词语“motorcycle”。

4)将第1个输出词语“motorcycle”输入至LSTM1，得到输出的非初始参考特征h¹ ₂，通过网格选择器Grid selector根据全局池化特征(global feats)以及非初始参考特征h¹ ₂得到仿射变换矩阵，根据仿射变换矩阵对编码特征进行仿射变换，得到局部特征，将局部特征(local feats)进行关联度计算，得到处理后的关联初始局部特征，将关联初始局部特征和初始参考特征进行拼接，得到聚合特征。将得到的聚合特征输入至LSTM2，且LSTM2输出的非初始参考特征h² ₂。将非初始参考特征h² ₂输入至分类器classifier，得到第2个输出词语“driver”。

5)依次类推，得到第3个输出词语“driving”、第4个输出词语“on”、第4个输出词语“the”和第6个输出词语“road”。

6)根据输出词语，得到目标图像的描述语句“motorcycle driver driving onthe road”。

本申请一实施例还提供一种图像描述的系统，参见图6，包括：

编码模块601，被配置为将目标图像进行编码，得到对应的编码特征和全局池化特征；

第一输出词语生成模块602，被配置为根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词语；

第二输出词语生成模块603，被配置为根据编码特征、全局池化特征以及第t个输出词语得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词语，其中t≥1且t为正整数；

描述语句生成模块604，被配置为根据第1个至第t+1个输出词语生成所述目标图像对应的描述语句。

可选地，编码模块601具体被配置为：将目标图像通过卷积神经网络模型进行编码，得到对应的编码特征；将编码特征通过卷积神经网络模型的池化层进行池化处理，得到对应的全局池化特征。

可选地，第一输出词语生成模块602具体被配置为：根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征；将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征。

可选地，第一输出词语生成模块602具体被配置为：根据全局池化特征和第一语言模型的初始参考特征，得到初始仿射变换矩阵；

根据所述初始仿射变换矩阵对所述编码特征进行仿射变换，得到初始局部特征。

可选地，第一输出词语生成模块602具体被配置为：将初始局部特征进行关联度计算，得到处理后的关联初始局部特征；将关联初始局部特征和初始参考特征进行拼接，得到初始聚合特征。

可选地，第一输出词语生成模块602具体被配置为：将初始局部特征和第一语言模型的初始参考特征分别乘以对应的权重系数，然后相加，得到初始中间向量矩阵；

可选地，第一语言模型的初始参考特征通过以下方法生成：将初始化词语输入至第一语言模型，得到第一语言模型的第1个输出特征作为初始参考特征。

可选地，第二输出词语生成模块603具体被配置为：

第一非初始参考特征生成模块，被配置为将第t个输出词语输入至第一语言模型，得到第一语言模型的第t个非初始参考特征；

局部特征生成模块，被配置为根据所述全局池化特征和第t个非初始参考特征对所述编码特征进行处理，得到第t个局部特征；

聚合特征生成模块，被配置为将第t个局部特征和第t个非初始参考特征进行聚合处理得到第t个聚合特征；

第二非初始参考特征生成模块，被配置为将第t个聚合特征输入至第二语言模型生成第二语言模型的第t个非初始参考特征，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词语；

判断模块，被配置为判断是否达到迭代的终止条件，若否，执行自增模块，若是，结束；

自增模块，被配置为将t自加1，返回执行第一非初始参考特征生成模块。

可选地，第二输出词语生成模块603具体被配置为：

可选地，第二输出词语生成模块603具体被配置为：将第t个局部特征进行关联度计算，得到处理后的第t个关联局部特征；将第t个关联局部特征和第t个非初始参考特征进行拼接，得到第t个聚合特征。

可选地，第二输出词语生成模块603具体被配置为：将第t个局部特征和第一语言模型的第t个非初始参考特征分别乘以对应的权重系数，然后相加，得到中间向量矩阵；

可选地，第二输出词语生成模块603具体被配置为：将所述第二语言模型的第t个非初始参考特征进行分类处理，得到对应的第t+1个输出词语。

本申请提供的图像描述的系统，根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到第二语言模型的初始聚合特征，然后根据第二语言模型的初始聚合特征得到第1个输出词语；根据编码特征、全局池化特征和第一语言模型的第t个参考特征，得到第二语言模型的第t个聚合特征，然后根据第二语言模型的第t个聚合特征得到第t个输出词语，生成目标图像对应的描述语句，从而可以根据聚合特征的生成实现对图像的感兴趣区域的灵活选取，与现有技术中在编码阶段选择好区域的方式相比，可以更完整地保留图像的局部信息，更灵活地选取图像信息。

上述为本实施例的一种图像描述的系统的示意性方案。需要说明的是，该系统的技术方案与上述的图像描述的方法的技术方案属于同一构思，系统的技术方案未详细描述的细节内容，均可以参见上述图像描述的方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述图像描述的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像描述的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像描述的方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像描述的方法，其特征在于，所述方法包括：

将目标图像进行编码，得到对应的编码特征和全局池化特征；

根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，将所述初始聚合特征输入至第二语言模型生成第二语言模型的初始参考特征，并根据第二语言模型的初始参考特征生成第1个输出词语，其中，所述根据编码特征、全局池化特征和第一语言模型的初始参考特征，得到初始聚合特征，包括：根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征，所述初始局部特征表示：选取所述目标图像的感兴趣区域；将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征；

2.如权利要求1所述的图像描述的方法，其特征在于，将目标图像进行编码，得到对应的编码特征和全局池化特征，包括：

3.如权利要求1所述的图像描述的方法，其特征在于，根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征，包括：

根据全局池化特征和第一语言模型的初始参考特征，得到初始仿射变换矩阵；

4.如权利要求1所述的图像描述的方法，其特征在于，将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征，包括：

将初始局部特征进行关联度计算，得到处理后的关联初始局部特征；

5.如权利要求4所述的图像描述的方法，其特征在于，将初始局部特征进行关联度计算，得到处理后的关联初始局部特征，包括：

6.如权利要求1或3所述的图像描述的方法，其特征在于，第一语言模型的初始参考特征通过以下方法生成：

7.如权利要求1所述的图像描述的方法，其特征在于，根据编码特征、全局池化特征以及第t个输出词语得到第t个聚合特征，将所述第t个聚合特征输入至第二语言模型生成第二语言模型的第t个参考特征，直至满足迭代终止条件，得到第t+1个输出词语，包括：

S6、将t自加1，返回执行步骤S1。

8.如权利要求7所述的图像描述的方法，其特征在于，所述步骤S2包括：

9.如权利要求8所述的图像描述的方法，其特征在于，所述步骤S3包括：

10.如权利要求9所述的图像描述的方法，其特征在于，将第t个局部特征进行关联度计算，得到处理后的第t个关联局部特征，包括：

11.如权利要求7所述的图像描述的方法，其特征在于，步骤S4中，根据第二语言模型的第t个非初始参考特征生成第t+1个输出词语，包括：

将所述第二语言模型的第t个非初始参考特征进行分类处理，得到对应的第t+1个输出词语。

12.一种图像描述的系统，其特征在于，所述系统包括：

描述语句生成模块，被配置为根据第1个至第t+1个输出词语生成所述目标图像对应的描述语句；

其中，所述第一输出词语生成模块，具体被配置为根据所述全局池化特征和第一语言模型的初始参考特征对所述编码特征进行处理，得到初始局部特征，所述初始局部特征表示：选取所述目标图像的感兴趣区域；将初始局部特征和初始参考特征进行聚合处理得到初始聚合特征。

13.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-11任意一项所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。

15.一种芯片，其存储有计算机指令，其特征在于，该指令被芯片执行时实现权利要求1-11任意一项所述方法的步骤。