CN108230413A

CN108230413A - 图像描述方法和装置、电子设备、计算机存储介质、程序

Info

Publication number: CN108230413A
Application number: CN201810067500.5A
Authority: CN
Inventors: 戴勃; 林达华
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-06-29
Anticipated expiration: 2038-01-23
Also published as: CN108230413B

Abstract

本公开实施例公开了一种图像描述方法和装置、电子设备、计算机存储介质、程序，其中，方法包括：获取图像对应的二维多通道形式表达的图像特征；基于所述二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量；基于所述至少一个二维多通道形式表达的状态变量，得到所述图像的至少一个描述词语。本公开上述实施例有效保留了图像中的空间信息，能更好的指导解码过程中词语的产生；基于二维多通道形式表达的状态变量保留和传递了图像的空间信息。

Description

图像描述方法和装置、电子设备、计算机存储介质、程序

技术领域

本公开涉及计算机视觉技术，尤其是一种图像描述方法和装置、电子设备、计算机存储介质、程序。

背景技术

图像描述的技术发展已久，一种常用算法是“编码-解码”机制。“编码-解码”机制的思路是把图片编码成特征向量，包含图片的主要语义内容。在得到图片对应的特征向量以后，以它为指导，采用每次生成一个单词的方式生成整个句子。

发明内容

本公开实施例提供的一种图像描述技术。

根据本公开实施例的一个方面，提供的一种图像描述方法，包括：

获取图像对应的二维多通道形式表达的图像特征；

基于所述二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量；

基于所述至少一个二维多通道形式表达的状态变量，得到所述图像的至少一个描述词语。

在基于本发明上述方法的另一个实施例中，所述基于所述二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量，包括：

将所述二维多通道形式表达的图像特征输入循环神经网络，得到至少一个二维多通道形式表达的状态变量。

基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量，得到二维多通道形式表达的第i+1状态变量，其中，所述至少一个二维多通道形式表达的状态变量包括所述第i状态变量和所述第i+1状态变量，其中，i≥1。

在基于本发明上述方法的另一个实施例中，所述基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量，得到二维多通道形式表达的第i+1状态变量，包括：

基于二维多通道形式表达的第i词语特征、所述图像特征和所述第i状态变量，得到二维多通道形式表达的所述第i+1状态变量，其中，所述第i词语特征是由所述第i状态变量对应的词语得到的。

对所述第i状态变量进行卷积处理，得到所述第i+1状态变量。

在基于本发明上述方法的另一个实施例中，所述对所述第i状态变量进行卷积处理，得到所述第i+1状态变量，包括：

分别对所述第i状态变量、第i词语特征、所述图像特征进行卷积处理，得到第一卷积结果、第二卷积结果和第三卷积结果；

利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理，得到所述第i+1状态变量。

在基于本发明上述方法的另一个实施例中，所述利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理，得到所述第i+1状态变量，包括：

对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行相加处理，得到合并卷积结果；

利用激活函数对所述合并卷积结果进行处理，得到所述第i+1状态变量。

在基于本发明上述方法的另一个实施例中，所述激活函数具体为线性单元修正函数ReLu。

在基于本发明上述方法的另一个实施例中，所述获取图像对应的二维多通道形式表达的图像特征，包括：

对图像执行卷积操作，得到所述图像对应的二维多通道形式表达的图像特征。

在基于本发明上述方法的另一个实施例中，所述基于所述至少一个二维多通道形式表达的状态变量，得到所述图像的至少一个描述词语，包括：

对所述至少一个二维多通道形式表达的状态变量中的第j状态变量进行池化操作，得到池化结果；

基于池化结果，得到所述至少一个描述词语中的第j词语，其中，j≥1。

在基于本发明上述方法的另一个实施例中，所述基于池化结果，得到所述至少一个描述词语中的第j词语，包括：

基于池化结果，得到概率向量；

基于所述概率向量中的最大概率值，确定所述第j词语。

在基于本发明上述方法的另一个实施例中，所述状态变量为隐含态。

在基于本发明上述方法的另一个实施例中，还包括：

确定所述至少一个词语中每个词语的关联通道；

确定所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域，其中，所述激活区域包括至少一个激活像素点；

基于所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域，对所述词语对应的激活状态变化实现可视化。

在基于本发明上述方法的另一个实施例中，所述至少一个状态变量中的第k状态变量包括的所述关联通道对应于二维特征图；

所述确定所述关联通道在所述至少一个状态变量中每个状态变量对应的激活区域，包括：

对所述二维特征图进行插值处理，以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸；

基于插值处理后的所述二维特征图，获得所述图像中对应数值达到预设阈值的至少一个激活像素点。

在基于本发明上述方法的另一个实施例中，所述对所述二维特征图进行插值处理，以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸，包括：

对所述二维特征图进行双三次插值处理，以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸。

在基于本发明上述方法的另一个实施例中，所述确定所述至少一个词语中每个词语的关联通道，包括：

确定所述至少一个词语中每个词语与多个通道中每个通道的关联分数；

基于所述每个词语与所述多个通道中每个通道的关联分数，从所述多个通道中确定所述每个词语的关联通道。

根据本公开实施例的另一个方面，提供的一种图像描述装置，包括：

特征获取单元，用于获取图像对应的二维多通道形式表达的图像特征；

状态变量单元，用于基于所述二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量；

词语描述单元，用于基于所述至少一个二维多通道形式表达的状态变量，得到所述图像的至少一个描述词语。

在基于本发明上述装置的另一个实施例中，所述状态变量单元，具体用于将所述二维多通道形式表达的图像特征输入循环神经网络，得到至少一个二维多通道形式表达的状态变量。

在基于本发明上述装置的另一个实施例中，所述状态变量单元，具体用于基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量，得到二维多通道形式表达的第i+1状态变量，其中，所述至少一个二维多通道形式表达的状态变量包括所述第i状态变量和所述第i+1状态变量，其中，i≥1。

在基于本发明上述装置的另一个实施例中，所述状态变量单元，用于基于二维多通道形式表达的第i词语特征、所述图像特征和所述第i状态变量，得到二维多通道形式表达的所述第i+1状态变量，其中，所述第i词语特征是由所述第i状态变量对应的词语得到的。

在基于本发明上述装置的另一个实施例中，所述状态变量单元，用于对所述第i状态变量进行卷积处理，得到所述第i+1状态变量。

在基于本发明上述装置的另一个实施例中，所述状态变量单元，包括：

卷积处理模块，用于分别对所述第i状态变量、第i词语特征、所述图像特征进行卷积处理，得到第一卷积结果、第二卷积结果和第三卷积结果；

激活处理模块，用于利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理，得到所述第i+1状态变量。

在基于本发明上述装置的另一个实施例中，所述激活处理模块，具体用于对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行相加处理，得到合并卷积结果；利用激活函数对所述合并卷积结果进行处理，得到所述第i+1状态变量。

在基于本发明上述装置的另一个实施例中，所述激活函数具体为线性单元修正函数ReLu。

在基于本发明上述装置的另一个实施例中，所述特征获取单元，具体用于对图像执行卷积操作，得到所述图像对应的二维多通道形式表达的图像特征。

在基于本发明上述装置的另一个实施例中，所述词语描述单元，包括：

池化处理模块，用于对所述至少一个二维多通道形式表达的状态变量中的第j状态变量进行池化操作，得到池化结果；

词语获取模块，用于基于池化结果，得到所述至少一个描述词语中的第j词语，其中，j≥1。

在基于本发明上述装置的另一个实施例中，所述词语获取模块，具体用于基于池化结果，得到概率向量；

基于所述概率向量中的最大概率值，确定所述第j词语。

在基于本发明上述装置的另一个实施例中，所述状态变量为隐含态。

在基于本发明上述装置的另一个实施例中，还包括：

通道确定单元，用于确定所述至少一个词语中每个词语的关联通道；

激活区域单元，用于确定所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域，其中，所述激活区域包括至少一个激活像素点；

可视化单元，用于基于所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域，对所述词语对应的激活状态变化实现可视化。

在基于本发明上述装置的另一个实施例中，所述至少一个状态变量中的第k状态变量包括的所述关联通道对应于二维特征图；

所述激活区域单元，包括：

尺寸处理模块，用于对所述二维特征图进行插值处理，以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸；

激活像素模块，用于基于插值处理后的所述二维特征图，获得所述图像中对应数值达到预设阈值的至少一个激活像素点。

在基于本发明上述装置的另一个实施例中，所述尺寸处理模块，具体用于对所述二维特征图进行双三次插值处理，以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸。

在基于本发明上述装置的另一个实施例中，所述通道确定单元，具体用于确定所述至少一个词语中每个词语与多个通道中每个通道的关联分数；

根据本公开实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的图像描述装置。

根据本公开实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述图像描述方法的操作。

根据本公开实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述图像描述方法的操作。

根据本公开实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上所述图像描述方法中各步骤的指令。

根据本公开实施例的再一个方面，提供的一种计算机程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任一可能的实现方式中所述的图像描述方法。

在一个可选实施方式中，所述计算机程序产品具体为计算机存储介质，在另一个可选实施方式中，所述计算机程序产品具体为软件产品，例如SDK等。

根据本公开实施例还提供了另一种图像描述方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：获取图像对应的二维多通道形式表达的图像特征；基于所述二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量；基于所述至少一个二维多通道形式表达的状态变量，得到所述图像的至少一个描述词语。

基于本公开上述实施例提供的图像描述方法和装置、电子设备、计算机存储介质、程序，获取图像对应的二维多通道形式表达的图像特征，通过二维多通道形式的图像特征获得的描述词语，有效保留了图像中的空间信息，能更好的指导解码过程中词语的产生；基于二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量，基于二维多通道形式表达的状态变量保留和传递了图像的空间信息；基于至少一个二维多通道形式表达的状态变量，得到图像的至少一个描述词语，能够提高得到的描述词语的准确性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开实施例提供的图像描述方法的流程图。

图2为本公开实施例提供的图像描述方法的一个具体示例的流程示意图。

图3为本公开实施例提供的图像描述方法一个具体示例中描述可视化的示意图。

图4为本公开实施例提供的图像描述装置的结构示意图。

图5为适于用来实现本公开实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在编码-解码机制的一个可选例子中，可以采用卷积神经网络作为编码器，此时，将图像输入该卷积神经网络，该卷积神经网络可以抽取特定层的响应作为该图像对应的特征向量。然后，以该特征向量为基础，可以使用循环神经网络作为解码器，对状态变量(即隐含态latentstate)进行建模，并根据状态变量依次获得描述图像的第一个词，第二个词，…，以及最后一个词的条件概率。

图1为本公开实施例提供的图像描述方法的流程图。如图1所示，该方法包括：

步骤110，获取图像对应的二维多通道形式表达的图像特征。

其中，图像特征可以表示图像的语义内容。

这里的二维多通道形式表达的图像特征可以指三维张量，具体地，该二维多通道形式表达的图像特征可以包括多个通道，每个通道可以表达为二维特征图。例如：图像特征可以为C×H×W的特征，其中，C为该特征的通道数(channel)，H和W分别为特征的长和宽，表示该图像特征包括C个通道，每个通道为H×W的二维特征图，但本公开实施例不限于此。

在一个或多个可选的实施例中，该图像描述方法可以采用编码-解码算法。此时，可选地，可以使用卷积神经网络作为编码器。具体地，可以将图像输入该卷积神经网络，利用卷积神经网络，对图像执行卷积操作，然后抽取特定层(即某一卷积层)的响应作为该图像对应的二维多通道形式表达的图像特征，例如，可以将该卷积神经网络的最后一个卷积层输出的图像特征作为该二维多通道形式表达的图像特征，但本公开实施例不限于此。相对于利用卷积神经网络中的最后的全连接层输出的一维特征向量进行解码，二维多通道形式表达的图像特征中保留了图像中的空间信息，可以获得更准确的图像描述词语。

步骤120，基于二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量。

在一个或多个可选的实施例中，可以将二维多通道形式表达的图像特征输入循环神经网络，利用循环神经网络对该二维多通道形式表达的图像特征进行处理，得到至少一个二维多通道形式表达的状态变量，例如，可以利用循环神经网络对该二维多通道形式表达的图像特征进行解码处理。可选地，也可以通过其他类型的网络对二维多通道形式表达的图像特征进行处理，得到至少一个状态变量，本公开实施例对此不做限定。

可选地，本公开实施例中的状态变量可以为隐含态，但本公开实施例不限于此。

二维多通道形式表达的状态变量可保留和传递空间信息，使空间信息不会因为在神经网络的不同层的传递过程中丢失，从而使得最后得到的描述词汇更准确。

步骤130，基于至少一个二维多通道形式表达的状态变量，得到图像的至少一个描述词语。

可选地，该至少一个状态变量中的每个状态变量可以对应一个描述词汇，在一些实施例中，可以基于至少一个状态变量中的第j状态变量，得到至少一个描述词汇中的第j词汇。

在一个或多个可选的实施例中，操作130，包括：

对至少一个二维多通道形式表达的状态变量中的第j状态变量进行池化操作，得到池化结果；

基于池化结果，得到至少一个描述词语中的第j词语，其中，j≥1。

可选地，该池化操作可以为平均池化操作。在一个例子中，当得到某个状态变量之后，可以用一个平均池化average pooling把状态变量的C个通道由H×W的二维特征图转换成长度为1的向量；相应地，该池化结果可以包括长度为l的C个通道。

在一些可选实施例中，在得到池化结果之后，还可以再通过一个全连接层，进一步把C×1的池化结果转换成|V|×1的向量，表示单词表V上的概率分布，此时，可以该概率向量中选出数值最大的概率，并将该最大概率对应的单词作为该状态变量对应的描述词语。

可选地，可以基于池化结果，得到概率向量，并基于概率向量中的最大概率值，确定第j词语。

在一些实施例中，在确定第j词语之后，可以基于第j词语，确定第j词语对应的词语特征，其中，该词语特征可以是二维多通道形式表达的特征，例如，词语特征为C×H×W的特征。可选地，可以采用查找表的方式确定第j词语对应的词语特征。其中，该查找表可以包括单词表中每个词语对应的词语特征，假设单词表中包括的单词数量为V，则总共需要|V|×C×H×W个参数。如果直接将这些参数进行存储，整个模型的存储空间会有一大部分用在单词表参数的存储上，但单词表参数中很多参数是冗余的，因此，在一些实施例中，可以采用较小的查找表，例如，可以在查找表中利用c₂×h₂×w₂来表示词语特征，在通过查找表得到词语特征之后，可以通过两个卷积层把维度较小的词语特征放大成C×H×W，从而可以节省大量的存储空间，提高整个模型的整体性能。

基于本公开上述实施例提供的图像描述方法，获取图像对应的二维多通道形式表达的图像特征，通过二维多通道形式的图像特征获得的描述词语，有效保留了图像中的空间信息，能更好的指导解码过程中词语的产生；基于二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量，基于二维多通道形式表达的状态变量保留和传递了图像的空间信息；基于至少一个二维多通道形式表达的状态变量，得到图像的至少一个描述词语，能够提高得到的描述词语的准确性。

在一些实施例中，上述至少一个状态变量可以包括初始状态变量，其中，该初始状态变量可以是预设的，或者随机选择的，或者通过其他方式确定的，例如，该初始状态变量可以为0，但本公开实施例对此不做限定。

可选地，该至少一个状态变量可以包括第i状态变量和第i+1状态变量，其中，i≥1。此时，可以基于二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量，得到二维多通道形式表达的第i+1状态变量。

以循环神经网络为例，下一个状态变量是基于上一个状态变量和输入网络的图像特征获得的。其中，可选地，该第i状态变量可以为初始状态变量，或者为中间的任意状态变量，本公开实施例对此不做限定。

可选地，可以基于二维多通道形式表达的第i词语特征、图像特征和第i状态变量，得到二维多通道形式表达的第i+1状态变量。

其中，第i词语特征是由第i状态变量对应的词语得到的。

这里的词语特征、图像特征和状态变量可以均为二维多通道形式表达的，从而使得在得到词语的过程中保留空间信息。

在本公开实施例中，某个状态变量是基于该状态变量的前一状态变量得到的。在一些实施例中，可以基于卷积操作进行状态变量的传递或演进。例如，可以对第i状态变量进行卷积处理，得到第i+1状态变量。通过卷积处理进行状态变量之间的转换，可以保留状态变量中的空间信息。

在一个具体例子中，可以分别对二维多通道形式表达的第i状态变量进行卷积处理，得到第一卷积结果，对二维多通道形式表达的第i词语特征进行卷积处理，得到第二卷积结果，并对二维多通道形式表达的图像特征进行卷积处理，得到第三卷积结果，然后，利用激活函数对第一卷积结果、第二卷积结果和第三卷积结果进行处理，得到第i+1状态变量。

可选地，可以通过循环神经网络中的卷积层，对以二维多通道形式表达的图像特征、第i状态变量和第i词语特征分别执行卷积操作，基于卷积操作的结果得到第i+1状态变量，将第i+1状态变量作为第i+1状态的输出。其中，循环神经网络包括至少一个卷积层；本实施例通过卷积操作取代其他方案中的循环神经网络的全连接操作，能够实现二维多通道形式的状态变量的传递和演进。

在一个或多个可选的实施例中，利用激活函数对第一卷积结果、第二卷积结果和第三卷积结果进行处理，得到第i+1状态变量，包括：

对第一卷积结果、第二卷积结果和第三卷积结果进行相加处理，得到合并卷积结果；

利用激活函数对合并卷积结果进行处理，得到第i+1状态变量。

其中，可选地，激活函数可以为线性单元修正函数ReLu。在一个具体例子中，状态变量可以基于公式(1)得到：

其中，H_t+1表示第t+1状态(或者第t+1步)输出的状态变量，即第i+1状态变量，H_t表示第t状态(或第t步)输出的状态变量，即第i状态变量，K_h、K_x和K_v分别表示用于处理状态变量、词语特征和图像特征的三个卷积层对应的卷积核，X_t表示第t状态输出的词语对应的词语特征，即第i词语特征，V表示以二维多通道形式表达的图像特征，表示卷积操作，ReLU线性单元修正函数表示激活函数。

或者，该激活函数也可以为其他类型的函数，本公开实施例对此不做限定。

在本公开实施例中，初始状态变量可以是根据预设规定进行初始化的，例如是随机选择的，或者为默认值，例如，初始状态变量的分量均为0，等等，本公开实施例对此不做限定。可选地，可以利用循环神经网络，基于该初始状态变量，获得各个状态点对应的状态变量。在所有词语特征中包括设定的两个特殊特征：X_初始和X_结束，其中X_初始表示开始，其中的二维多通道中的每个值可以初始化为默认值或者随机选择的数值，例如，其二维多通道中的每个值均为0，此时，第1状态变量可以由公式(2)中的t取值为0的形式确定：而当基于循环神经网络获得的X_t为X_结束，结束循环。

具体地，基于循环神经网络的特性通过记忆每个状态点的状态变量获得下一个状态点的状态变量，循环神经网络的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。从系统观点看，它是一个反馈动力系统，在计算过程中体现过程动态特性，比前馈神经网络具有更强的动态行为和计算能力。

图2为本公开图像描述方法的一个具体示例的结构示意图。如图2所示，输入一张图像，经过编码和转换获得二维多通道特征V，该图像特征V的通道数为C，每个通道中的特征图长宽分别为H和W，获取描述图像的词语集合，将该词语集合转换为二维多通道表达的词语特征X_t，该词语特征的通道数同样为C，每个通道中的特征图长宽分别为H和W；利用循环神经网络，基于图像特征和词语特征，获得二维多通道表达的状态变量H_t，该状态变量的通道数同样为C，每个通道中的特征图长宽分别为H和W，在循环神经网络中，通过卷积和合并操作，获得新的状态变量，再经过池化操作获得一维向量，向量中的向量值个数为C，利用全连接层(图中fc)获得输出词语，具体地，通过获得单词概率的对数(图中log p(w)，p(w)是单词的概率，通常概率非常小，在建模的时候可以对概率的对数建模，即log p(w)，从而获得较为稳定的数值)获得对应的词语，通过至少一个词语组成一个句子对该图像进行描述；本实施例中采用的基于二维多通道形式表达的图像特征获得对应图像的描述词语的方法，除应用在编码-解码器中，还可以应用到其他图像描述方法中，基于二维多通道形式表达的图像特征保留图像的空间特征，使获得的图像的描述词语更准确；特别的，在应用的图像描述方法中应用到循环神经网络时，将其中的状态变量也表达为二维多通道形式，能够实现二维多通道形式的状态变量的传递和演进。可选地，在本公开一个可选实施例中，编码器采用ResNet-152，解码器采用循环神经网络(如：GRU)，将原解码器中的状态变量表示为二维多通道特征图，并以卷积操作替代原来的全连接操作。通过pooling综合各位置的信息，将每一步的状态变量(二维特征图)转换成一维的向量，并根据此向量生成每一步的条件概率分布。根据该条件概率分布生成每一步的单词。

在本公开实施例中，基于二维多通道形式表达的状态变量，还可以实现对描述词语与状态变化之间的关联关系的可视化。

本公开实施例提供的图像描述方法的另一个示例中，在上述各实施例的基础上，还包括：

确定至少一个词语中每个词语的关联通道；

确定至少一个状态变量中每个状态变量包括的关联通道对应的激活区域。

可选地，对于某个词语，可以确定其对应的关联通道，例如通道c，则可以确定所有状态变量中的部分状态变量或每个状态变量包括的该关联通道对应的激活区域，其中，激活区域包括至少一个激活像素点。这样，可以基于激活区域实现对状态变化的可视化。可选地，可以基于至少一个状态变量中每个状态变量包括的关联通道对应的激活区域，对词语对应的激活状态变化实现可视化。例如，可以查看词语出现前后的激活状态的变化，但本公开实施例不限于此。

本实施例实现了对应每个词语在原图像中的可视化，使研究人员可以在进行图像语义描述的过程中了解到每个词语在原图像中对应的激活区域的变化情况，为后续的词语产生的理解和进一步研究提供基础。

在本公开的一些实施例中，针对某个状态变量，可以确定该状态变量包括的每个通道对应的激活区域，例如，对于给定的图像I，状态变量H_t的通道c可以表示为该通道c可以表示为尺寸为H×W的图，即二维特征图，则可以基于该图确定图像I中的至少一个激活像素点。

在一个或多个可选的实施例中，该至少一个状态变量中的第k状态变量包括的关联通道对应于二维特征图，可以通过以下方式确定第k状态变量的某个通道对应的激活区域。首先，可以将该二维特征图缩放到原始图像的大小，然后基于阈值确定激活像素点。作为一个例子，可以对二维特征图进行插值处理，以使得插值处理后的二维特征图的尺寸等于图像的尺寸，并将在插值处理后的二维特征图中对应的数值达到预设阈值的像素点确定为激活像素点。

具体地，在一个例子中，可以对二维特征图进行双三次插值Bicubicinterpolation处理，以使得插值处理后的二维特征图的尺寸等于图像的尺寸。双三次插值是一种更加复杂的插值方式，它能创造出比双线性插值更平滑的图像边缘。双三次插值方法通常运用在一部分图像处理软件、打印机驱动程序和数码相机中，对原图像或原图像的某些区域进行放大。

在一些实施例中，将那些在状态变量H_t包含的通道c，即中的对应数值高于阈值的像素确定为激活像素。其中，可选地，该阈值可以为λ·v^*，其中，v^*是所有状态变量中通道对应的最大值，λ为用来控制激活区域的范围的参数，其取值范围为[0，1]，但本公开实施例不限于此。

为了将词语与图像中的激活区域进行对应，需要基于词语对应的状态变量获得对应的二维特征图，而经过处理的二维特征图的大小与原图像大小不同，大小不同将无法对应区域，因此，首先将二维特征图进行处理获得尺寸与图像相同的二维特征图，此时，即可从图像中获得数值大于或等于预设阈值的激活像素点，基于所有激活像素点构成激活区域，研究人员可通过查看图像中的激活区域实行可视化。

在一个或多个可选的实施例中，确定至少一个词语中每个词语的关联通道，包括：

确定至少一个词语中每个词语与多个通道中每个通道的关联分数；

基于每个词语与多个通道中每个通道的关联分数，从多个通道中确定每个词语的关联通道。

通过词语与二维多通道的状态变量中每个通道的关联分数，获得关联分数最大值对应的通道，基于该通道获得对应的二维特征图，以该二维特征图确定该词语在图像中对应的激活区域。

在一个例子中，词语w和通道c之间的关联分数可以表示为s(w,c)，关联分数s(w,c)可以等于从初始状态到产生词语w的状态变量包括的通道c的平均激活水平与产生词语w之后的状态变量包括的通道c的平均激活水平之间的差，其中，该差值可以在包含词语w的所有样本做平均。具体地，关联分数s(w,c)可以表示为公式(2)：

其中，I(w)表示得到的至少一个词语中包含词语w的所有图像的集合；T_I是图像I的描述长度，是基于I得到词语w的状态或步骤，和分别表示产生w之前和产生w之后的平均激活，其数值可以由公式(3)确定：

其中，表示在时间段[t₁，t₂]之间的激活水平的平均，表示对于给定的图像I，表示通道c在第j步或第j状态的激活水平，具体可以等于状态变量H_t包含的通道c的所有数值之和。

在一些实施例中，基于上述关联分数，对于每个词语w，可以找到其最相关的通道(即关联通道)：c^*＝argmax_cs(w,c)，但本公开实施例不限于此。

图3为本公开实施例图像描述方法一个具体示例中可视化的示意图。如图3所示，基于输入的图像获得二维多通道形式表达的状态变量H_t，在状态变量H_t对应的隐藏通道c的中的对应值高于阈值的像素获得激活像素，经过对通道c输出的激活像素调整大小，获得激活区域，即可在输入的图中确定激活像素，实现在状态变量变化的时候在图像中可查看到对应的区域，实现研究过程的可视化。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本公开实施例提供的图像描述装置的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图4所示，该实施例的装置包括：

特征获取单元41，用于获取图像对应的二维多通道形式表达的图像特征。

其中，图像特征可以表示图像的语义内容。

这里的二维多通道形式表达的图像特征可以指三维张量，具体地，该二维多通道形式表达的图像特征可以包括多个通道，每个通道可以表达为二维特征图。

状态变量单元42，用于基于二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量。

词语描述单元43，用于基于至少一个二维多通道形式表达的状态变量，得到图像的至少一个描述词语。

基于本公开上述实施例提供的图像描述装置，获取图像对应的二维多通道形式表达的图像特征，通过二维多通道形式的图像特征获得的描述词语，有效保留了图像中的空间信息，能更好的指导解码过程中词语的产生；基于二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量，基于二维多通道形式表达的状态变量保留和传递了图像的空间信息；基于至少一个二维多通道形式表达的状态变量，得到图像的至少一个描述词语，能够提高得到的描述词语的准确性。

在一些实施例中，状态变量单元42，具体用于基于二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量，得到二维多通道形式表达的第i+1状态变量。

其中，至少一个二维多通道形式表达的状态变量包括第i状态变量和第i+1状态变量，其中，i≥1。

可选地，状态变量单元，用于基于二维多通道形式表达的第i词语特征、图像特征和第i状态变量，得到二维多通道形式表达的第i+1状态变量，其中，第i词语特征是由第i状态变量对应的词语得到的。

可选地，状态变量单元，用于对第i状态变量进行卷积处理，得到第i+1状态变量。

在一个或多个可选的实施例中，状态变量单元，包括：

卷积处理模块，用于分别对第i状态变量、第i词语特征、图像特征进行卷积处理，得到第一卷积结果、第二卷积结果和第三卷积结果；

激活处理模块，用于利用激活函数对第一卷积结果、第二卷积结果和第三卷积结果进行处理，得到第i+1状态变量。

在一个或多个可选的实施例中，激活处理模块，具体用于对第一卷积结果、第二卷积结果和第三卷积结果进行相加处理，得到合并卷积结果；利用激活函数对合并卷积结果进行处理，得到第i+1状态变量。

可选地，激活函数具体可以为线性单元修正函数ReLu，或者，该激活函数也可以为其他类型的函数，本公开实施例对此不做限定。

在一个或多个可选的实施例中，词语描述单元43，包括：

池化处理模块，用于对至少一个二维多通道形式表达的状态变量中的第j状态变量进行池化操作，得到池化结果；

词语获取模块，用于基于池化结果，得到至少一个描述词语中的第j词语，其中，j≥1。

在一些实施例中，词语获取模块，具体用于基于池化结果，得到概率向量；基于概率向量中的最大概率值，确定第j词语。

本公开实施例提供的图像描述装置的另一个示例中，在上述各实施例的基础上，还包括：

通道确定单元，用于确定至少一个词语中每个词语的关联通道；

激活区域单元，用于确定至少一个状态变量中每个状态变量包括的关联通道对应的激活区域，其中，激活区域包括至少一个激活像素点；

可视化单元，用于基于至少一个状态变量中每个状态变量包括的关联通道对应的激活区域，对词语对应的激活状态变化实现可视化。

可选地，至少一个状态变量中的第k状态变量包括的关联通道对应于二维特征图；

激活区域单元，包括：

尺寸处理模块，用于对二维特征图进行插值处理，以使得插值处理后的二维特征图的尺寸等于图像的尺寸；

激活像素模块，用于基于插值处理后的二维特征图，获得图像中对应数值达到预设阈值的至少一个激活像素点。

在一个或多个可选的实施例中，尺寸处理模块，具体用于对二维特征图进行双三次插值处理，以使得插值处理后的二维特征图的尺寸等于图像的尺寸。

在一个或多个可选的实施例中，通道确定单元，具体用于确定至少一个词语中每个词语与多个通道中每个通道的关联分数；

根据本公开实施例的另一个方面，提供的一种电子设备，包括处理器，处理器包括本公开上述任一实施例的图像描述装置。

以及处理器，用于与存储器通信以执行可执行指令从而完成本公开图像描述方法上述任一实施例的操作。

根据本公开实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，指令被执行时执行本公开图像描述方法上述任一实施例的操作。

根据本公开实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行本公开图像描述方法中各步骤的指令。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任一实施例中所述的图像描述方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

根据本公开实施例还提供了另一种图像描述方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：获取图像对应的二维多通道形式表达的图像特征；基于二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量；基于至少一个二维多通道形式表达的状态变量，得到图像的至少一个描述词语。

在一些实施例中，该图像描述指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行图像描述，相应地，响应于接收到调用指令，第二装置可以执行上述图像描述方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。

还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，计算机系统500包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器502和/或随机访问存储器530中通信以执行可执行指令，通过总线504与通信部512相连、并经通信部512与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，获取图像对应的二维多通道形式表达的图像特征；基于二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量；基于至少一个二维多通道形式表达的状态变量，得到图像的至少一个描述词语。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使处理器501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，获取图像对应的二维多通道形式表达的图像特征；基于二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量；基于至少一个二维多通道形式表达的状态变量，得到图像的至少一个描述词语。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像描述方法，其特征在于，包括：

获取图像对应的二维多通道形式表达的图像特征；

2.根据权利要求1所述的方法，其特征在于，所述基于所述二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述二维多通道形式表达的图像特征，得到至少一个二维多通道形式表达的状态变量，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量，得到二维多通道形式表达的第i+1状态变量，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量，得到二维多通道形式表达的第i+1状态变量，包括：

对所述第i状态变量进行卷积处理，得到所述第i+1状态变量。

6.一种图像描述装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求6所述的图像描述装置。

8.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至5任意一项所述图像描述方法的操作。

9.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至5任意一项所述图像描述方法的操作。

10.一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1至5任意一项所述图像描述方法中各步骤的指令。