CN112508048A

CN112508048A - 图像描述的生成方法和装置

Info

Publication number: CN112508048A
Application number: CN202011136029.4A
Authority: CN
Inventors: 魏忠钰; 范智昊
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-03-16
Anticipated expiration: 2040-10-22
Also published as: CN112508048B

Abstract

本申请实施例提供了一种图像描述的生成方法和装置，其中，该方法包括：获取目标图像中的物体数据和关系数据；根据物体数据和关系数据确定出目标图像的主题数据；调用预训练的图像处理模型获取并根据上述数据通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，上述预训练的图像处理模型具有对底层表征进行抽象的能力。该方法通过先从物体数据和关系数据中抽象出主题数据，再利用包含有主题节点的预训练的图像处理模型，根据主题数据、物体数据和关系数据，来共同确定出目标图像的图像描述，从而可以高效地得到能准确地表征出目标图像中的高层语义信息的图像描述。

Description

图像描述的生成方法和装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像描述的生成方法和装置。

背景技术

应用现有的图像描述的生成方法在生成用于描述图像中的语义信息的图像描述时，大多是根据图像得到对应的场景图，再基于场景图的区域特征和文本特征来生成对应的图像描述。

但是，基于上述方法往往只能够表征出较为简单的低层语义信息，而无法准确地表征出图像中更加复杂、更加重要的高层语义信息。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像描述的生成方法和装置，以解决现有方法中存在的而无法准确表征出图像中较为复杂的高层语义信息，生成的图像描述准确度差的技术问题，达到可以高效地生成能准确地表征出目标图像中的高层语义信息的图像描述。

本申请实施例提供了一种图像描述的生成方法，包括：

获取目标图像中的物体数据和关系数据；

根据所述物体数据和关系数据确定出目标图像的主题数据；

调用预训练的图像处理模型获取并根据所述目标图像的主题数据、物体数据和关系数据，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构，所述预训练的图像处理模型具有对底层表征进行抽象的能力。

在一个实施例中，所述预训练的图像处理模型包括改进的编码器和改进的解码器。

在一个实施例中，所述改进的编码器至少包括Embedding层；其中，所述Embedding层包括对象节点、关系节点和主题节点。

在一个实施例中，所述改进的编码器还包括Group Attention层和Self-Attention层。

在一个实施例中，所述改进的编码器还包括前馈网络。

在一个实施例中，所述改进的解码器还包括三个堆叠的解码层；其中，所述解码层包括：Self-Attention子层、encoder-decoder-attention子层、前馈子层。

在一个实施例中，所述预训练的图像处理模型按照以下方式训练得到：

获取样本图像；

获取样本图像的文本说明，以及与样本图像对应的场景图；

根据所述样本图像的文本说明，对样本图像进行标注，得到标注后的样本图像；

根据所述标注后的样本图像，以及与样本图像对应的场景图，建立训练数据；

根据所述训练数据，对初始模型进行模型训练，以得到预训练的图像处理模型。

在一个实施例中，在确定出与目标图像对应的图像描述之后，所述方法还包括：根据所述图像描述，对目标图像进行主题标注。

本申请实施例还提供了一种图像描述的生成装置，包括：

获取模块，用于获取目标图像中的物体数据和关系数据；

第一确定模块，用于根据所述物体数据和关系数据确定出目标图像的主题数据；

第二确定模块，用于调用预训练的图像处理模型获取并根据所述目标图像的主题数据、物体数据和关系数据，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构，所述预训练的图像处理模型具有对底层表征进行抽象的能力。

本申请实施例还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现获取目标图像中的物体数据和关系数据；根据所述物体数据和关系数据确定出目标图像的主题数据；调用预训练的图像处理模型获取并根据所述目标图像的主题数据、物体数据和关系数据，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构，所述预训练的图像处理模型具有对底层表征进行抽象的能力。

在本申请实施例中，通过先根据目标图像的物体数据和关系数据抽象出对应的主题数据；再利用包含有主题节点具有对底层表征进行抽象能力的预训练的图像处理模型，根据上述主题数据、物体数据和关系数据的组合来识别处理目标图像，从而可以高效地生成能准确地表征出目标图像中的高层语义信息的图像描述，解决了现有方法中存在的无法准确表征出图像中较为复杂的高层语义信息，生成的图像描述准确度差的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用现有的图像描述的生成方法的一个实施例示意图；

图2是根据本申请实施例提供的图像描述的生成方法的处理流程图；

图3是根据本申请实施例提供的图像描述的生成方法的一个实施例示意图；

图4是根据本申请实施例提供的图像描述的生成装置的组成结构图；

图5是基于本申请实施例提供的服务器组成结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

申请人在通过创造性的思考后，考虑到现有的图像描述的生成方法大多是依赖场景图来整合待处理的图像中的对象、以及对象之间的关系信息，基于场景图提取相应的区域特征，记为region features(作为一种描述物体对象的数据，例如objects)，以及文本特征，记为textual features(作为一种描述关系的数据，例如，relationships)，再综合上述两种数据来生成用于表征图像中语义信息的文本数据作为与该图像对应的图像描述(可以记为Image Captioning)。

进一步，申请人发现，基于上述方式只利用到区域特征、文本特征这两种简单的相对较表象的数据来确定图像描述，忽略了基于上述表象数据所隐含的较为抽象、复杂的主题概念(theme concept)，进而导致所确定出的图像描述只能表征出较为简单的低层语义信息，无法准确地表征出图像中更加重要的高层语义信息(high level semanticfeatures)。例如，基于现有方法通常只能表征出8种较为简单的语义信息(即，with、under、of、behind、in、wear、have和on)。可以参阅图1所示。与图像对应的场景图中只显示出了物体数据“桌子(table)”与“人(包括man、woman、boy、people)”之间的位置关系。但是基于现有方法却无法表征出图像中更高层的语义信息。

针对产生上述技术问题的根本原因，申请人通过创造性的劳动提出了可以构建一种包含有主题节点的预训练的图像处理模型，使得模型具有了对底层表征进行抽象的能力。具体实施时，可以先根据目标图像中的物体数据和关系数据抽象出主题数据；进而可以利用上述主题数据对场景图进行扩展，通过利用上述预训练的图像处理模型获取并根据上述物体数据、关系数据和主题数据这三种数据的组合，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述，从而能够更加深入地挖掘出图像中所包含的高层语义信息，生成得到能够准确地表征出图像中的高层语义信息的图像描述，提高所生成的图像描述的准确度。

基于上述思考思路，本申请实施例提供了一种图像描述的生成方法。具体请参阅图2所示。本申请实施例提供的图像描述的生成方法，具体实施时，可以包括以下步骤。

S201：获取目标图像中的物体数据和关系数据。

S202：根据所述物体数据和关系数据确定出目标图像的主题数据。

S203：调用预训练的图像处理模型获取并根据所述目标图像的主题数据、物体数据和关系数据，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构，所述预训练的图像处理模型具有对底层表征进行抽象的能力。

在一个实施例中，上述目标图像具体可以理解为一种待处理的图像。具体的，上述目标图像可以是照片，也可以是从一段视频中截取的图像，还可以是人工或电脑绘制的图像等等。对于上述目标图像的具体类型和内容，本说明书不作限定。

在一个实施例中，上述物体数据(例如，objects)具体可以包括：目标图像中的物体对象、人物对象、动物对象等等。上述关系数据(例如，relationships)具体可以包括用于描述目标图像中不同对象之间的关系的文本数据。

在一个实施例中，具体实施时，可以利用图像处理模型对目标图像进行特征提取，以获取目标图像中的物体数据和关系数据。

在一个实施例中，上述图像处理模型具体可以是一种基于Faster RCNN(RCNN，Rich feature hierarchies for accurate object detection and semanticsegmentation)的图像处理模型或者图像探测器(image detector)。

具体实施时，可以利用上述图像处理模型或者图像探测器处理目标图像，将目标图像划分为多个区域，进而可以提取各个区域中的区域特征作为物体数据，并获取目标图像中的不同特征之间的连接关系，作为关系数据。

在一个实施例中，上述主题数据具体可以包括一种基于物体数据和关系数据所抽象出的与主题概念等相关的特征数据。

在一个实施例中，具体实施时，可以根据上述物体数据和关系数据，结合预设的主题判定规则，确定出对应的主题数据。也可以调用预先训练好的主题数据提取模型对上述物体数据和关系数据进行处理，以得到对应的主题数据。当然，上述所列举的确定主题数据的方式只是一种示意性说明。具体实施时，根据具体情况和处理要求，还可以采用其他合适的方式来基于物体数据和关系数据获取相应的主题数据，对此，本说明书不作限定。

在一个实施例中，具体实施时，可以调用预训练的图像处理模型根据所述物体数据和关系数据确定出目标图像的主题数据；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构。

在一个实施例中，上述预训练的图像处理模型具体可以包括一种包含有主题节点的模型结构。上述预训练的图像处理模型可以是一种经过修改的，包含有主题节点、对象节点和关系节点，能够以主题数据、物体数据和关系数据三种数据作为模型输入，根据上述三种数据来识别确定出目标图像中的高层语义信息的神经网络模型。

具体的，上述预训练的图像处理模型具体可以是一种基于Transformer的模型结构。其中，上述Transformer具体是一种用于机器翻译的包含有encoder-decoder结构的模型。

在一个实施例中，具体的可以参阅图3所示，所述预训练的图像处理模型具体可以包括改进的编码器(对应图中的Encoder)和改进的解码器(对应图中的Decoder)。

在一个实施例中，上述改进的编码器集成有主题节点、对象节点和关系节点，可以理解为是一种基于TNN(Transformer with Theme Nodes)的视觉编码器。

在一个实施例中，可以参阅图3所示，所述改进的编码器至少包括Embedding层(例如，图中的Group Embedding层)。其中，所述Embedding层中具体可以包括有对象节点(Objects)、关系节点(Relations)和主题节点(Themes)。

其中，上述主题节点具体可以理解为基于对场景图的扩展得到一种虚拟超节点。通过该节点可以在表征图像语义的过程中引入主题概念，进而可以识别出图像中的高层语义信息。

在本实施例中，可以通过上述包含有对象节点、关系节点和主题节点的Embedding层，区分不同类型的节点，并交互使用不同类型的数据，来对模型中的每一个节点使用组嵌入的方式进行敏感表征学习。

在一个实施例中，所述改进的编码器还包括Group Attention层(群体注意网络)和Self-Attention层(自我注意网络)。

在本实施例中，通过在改进的编码器中设置Group Attention层，在原有的自我注意机制中进一步引入群体注意机制，从而可以更好地建立节点与群体之间的联系，得到更加准确、效果更好的模型。

在一个实施例中，所述改进的编码器还包括前馈网络(例如，feed-forwardnetworks，FFN)。

在一个实施例中，所述改进的解码器具体还可以包括三个堆叠在一起的解码层。其中，所述解码层具体又可以包括：Self-Attention子层、encoder-decoder-attention子层、前馈子层。

在一个实施例中，上述预训练的图像处理模型中的不同层具体可以通过残差相连。

在一个实施例中，所述预训练的图像处理模型具体可以按照以下方式训练得到。

S1：获取样本图像；

S2：获取样本图像的文本说明，以及与样本图像对应的场景图；

S3：根据所述样本图像的文本说明，对样本图像进行标注，得到标注后的样本图像；

S4：根据所述标注后的样本图像，以及与样本图像对应的场景图，建立训练数据；

S5：根据所述训练数据，对初始模型进行模型训练，以得到预训练的图像处理模型。

在一个实施例中，可以根据具体情况，设置合适的数量作为预训练的图像处理模型中主题节点的数量。当主题节点数较少时，由于其建模能力不足以覆盖数据集中的所有主题概念，这时所构建的预训练的图像处理模型的覆盖效果相对较差。当主题概念的数量较多时，不同主题节点可能会发生冲突和重叠，从而影响预训练的图像处理模型的性能效果。因此，具体实施时，可以根据具体的应用场景，预判该应用场景中可能涉及到的主题概念的数量；再根据主题概念的数量来设置主题节点的数量，从而可以得到覆盖较广、效果较好的预训练的图像处理模型，基于该预训练的图像处理模型可以更加精准地确定出目标图像的图像描述。

在一个实施例中，所述预训练的图像处理模型中的Embedding层具体可以包括以下算式：

其中，

为系数矩阵，是种可训练参数，d_o为区域特征的维数，d_m为编码器的隐藏维数(hidden dimension)。

表示区域特征(即物体数据)，

表示图像水平轴和垂直轴的起始坐标，以及这些轴和区域的结束坐标。

在一个实施例中，为了能够得到上述预训练的图像处理模型，可以使用参数θ来构建的相应的模型M_θ。具体实施时，可以获取照片I作为样本图像。其中，每一张照片都携带有对应的人工标注的文本说明T，以及对应的场景图

其中，场景图中的区域特征(对应物体数据)可以记为o₁，…，o_n，文本关系(对应关系数据)可以记为

在一个实施例中，可以根据Transformer来构建预训练的图像处理模型初始的框架结构。具体的，Transformer中的编码器通常可以分为两个网络层：自我注意网络(SAN，Self-Attention Network)与前馈网络(FFN，Feed-Forward Network)。

基于上述编码器，可以通过自我注意函数(attention function)将查询和一组键值对映射到输出，即：

其中，查询表示为

键参数表示为K，值参数表示为V

d_k表示为注意力隐藏参数(即attention hidden size)，n_q和n_k分别对应表示为查询的数量和键参数的数量。

进一步，在自我注意网络中，可以通过对每一对来自输入序列的标记数据使用自我注意函数来生成赌赢表征数据。通过使用多个不同的自我注意函数，有助于捕捉到不同的语境特征。

具体的，给定一个文本表示序列(text representation sequence)：

在第y层可以表示为：

H^y+1＝W_H[A¹，…，A^X]

其中，

x表示为注意头(attention head)，d表示注意力隐藏参数。

在前馈网络中，H^y中每个

的计算是独立的。它是由两个具有非线性的仿射变换函数组成，可以表示为：H^y+1＝W₂ReLU(W₁H^y)

其中，W₁和W₂分别是维数d_f×d和d×d_f的系数矩阵。

在上述构建的编码器的基础，再通过引入主题节点，对编码器进行改进，以得到基于TTN(Transformer with Theme Nodes)的适用于挖掘图像的高层语义信息的改进后的编码器。

具体的，为了能够捕捉不同的主题概念，使用了多个主题节点、对象节点、关系节点来构成模型的输入，即输入G可以由三组节点组成，表示为：

其中，

分别对应表示所有元素、对象、关系和主题的索引集。

可以是由图像检测器检测出的对象组成(即物体数据)，

可以是

中对象之间的文本关系组(即关系数据)，

可以是被整个图像数据集所共享的主题节点。其中，上述图像数据集是可以动态更新的。

又考虑到上述三组节点的组成是不同的，为了更好地进行语义建模，还引入对上述三组节点的分歧进行建模。具体的，为了区分G中的每一个g_j所属的群，可以根据各个g_j所属的群，对各个g_j进行嵌入{E_o，E_r，E_v}，分为三组。

相应的，的模型中的嵌入函数(也是编码器层的输入)可以遵循以下算式：

其中，

表示区域特征(即物体数据)，

其中，区域中的文本特征和区域的几何特征连接用来表示o_u。而E_r*、E_v*则表示为关系和主题的上下文嵌入。

进一步，设置编码中的Self-Attention层。考虑到自我关注网络存在对模型输入的依赖性。然而，对于预训练的图像处理模型中有一个重要的问题，即输入的G不是纯文本，它是包含有关系、对象，以及关系与其所连接的相关的对象之间的内在关系。因此，在语义建模中需要保持三元组关系(o_u，r_u，v，o_v)，以防关系连接到不相关的对象。

具体的，对于G中不构成显式三元关系的关系和对象节点，可以采用硬掩码。其中，用于硬掩码的掩模矩阵

可以使用G来初始化。

由于在场景图

的意识下，对于任意

和任意

如果不存在一些

则

因此，可以设M(r_u，o_v)＝0和M(r_v，o_u)＝0。通过这种方式，可以将对象和关系之间的注意力计算限制为在

中直接连接的三元组中。

在第y层的自我注意网络层中，可以将掩模矩阵M作为方程加入到注意机制中，进而可以得到以下算式：

其中，

分别对应表示为在第x的注意头，且第y层的自我注意网络层中的查询、键参数和值参数，x为注意头的数值。

在上述Self-Attention层的基础上，进一步设置Group Attention层。

具体的，每个节点G中的g_j都将参与到三个不同组，即：

和

通常，不同组中的节点将反映不同尺度下的图像特征。例如，关系节点往往与某些区域性更相关，而主题节点有大多具有全局视图。因此，在节点和组之间建立连接是很重要的。而每个组的总注意力权重与g_j可见的节点数高度相关。例如，假设有100个主题节点，只有1个关系节点对g_j可见，来自关系组的信息很可能会被忽略，这是因为

的100个注意权重之和相当大。

为了克服上述数值问题，鼓励每个节点g_j能够更好地管理来自不同规模的组的信息。通过设置Group Attention层引入群体注意机制，来避免整个群体信息对每个节点g_j是不可见的。

首先，可以调整算式(1)中的注意机制。每个节点g_j不再关注G而是它的三个组。利用算式(1)中的注意函数，将关键值从G变为

和

得到以下算式：

通过该算式可以表示

在不同群体中的注意结果。此外，还可以使用

来表示

其次，可以以

和

作为关键值，采用群体注意机制来管理群体信息。对于每一个

*∈{o，r，v}，有：

其中，[·，·]表示拼接操作(concatenation operation)，

分别表示不同群体中的询问、键参数和值参数，可以使用

*∈{o，r，v}来表示在相应的组中的

在一个实施例中，按照上述方式构建，完成了关于输入G的嵌入机制，可以保持针对三组数据的自我注意机制，并加强不同群体间互动的群体注意机制。在得到算式(3)中的

后，可以利用算式(4)

中的残差进行连接得到一个新的表示。

获得新的输出后，可以再附加一个前馈网络来构建得到一个的新编码器层(或称编码层)。再通过对堆叠三层T的编码器层，可以建立得到一种新的基于TTN的编码器，作为所述改进的编码。

在一个实施例中，在构建改进的解码器时，可以Transformer的解码器，堆叠3个解码器层(或称解码层)。其中，每个解码器层由三个子层组成：自我注意子层(即Self-Attention子层)、编解码注意子层(即encoder-decoder-attention子层)和前馈层。不同于普通的解码器，上述改进的解码器不仅关注了场景图

中节点的输出状态，还关注到了输入G中的主题节点。

在一个实施例中，在根据所述训练数据，对初始模型进行模型训练时，训练过程具体可以包括两个步骤，第一步是根据以下算式最大化给定G的对数似然。

其中，t_k为T中第k个标识，t_＜k为T中第k-1个标识。

第二步是使用强化学习来微调M_θ。具体可以使用CIDEr-D score作为奖励函数r，因为该奖励函数与人类的判断有很好的相关性。训练的目标是使得基于以下算式得到的

得到最大的期望回报：

然后，可以采用随机抽样译码策略，以奖励函数的均值为基线，生成K个序列，分别为：

因此，一个样本的最终梯度表达式可以如下所示：

在训练预测的过程中，可以使用波束搜索进行解码，并在最后一个波束中保持预测概率最高的序列。

在一个实施例中，在确定出与目标图像对应的图像描述之后，所述方法具体实施时，还可以包括以下内容：根据所述图像描述，对目标图像进行主题标注。

在本实施例中，通过上述方法可以确定出能够表征出目标图像中的高层语义信息的图像描述，进而可以根据上述图像描述自动、精准地标注出该目标图像的主题，得到标注出图像中所隐含的更深层语义信息、更符合人类思维认知的目标图像，从而为使用者提供更多、更有价值的信息。

在本申请实施例中，相较于现有方法，通过先根据目标图像的物体数据和关系数据抽象出对应的主题数据；再利用包含有主题节点具有对底层表征进行抽象的能力的预训练的图像处理模型，根据上述主题数据、物体数据和关系数据的组合来识别处理目标图像，从而可以高效地生成能准确地表征出目标图像中的高层语义信息的图像描述，解决现有方法中存在的无法准确表征出图像中较为复杂的高层语义信息，生成的图像描述准确度差的技术问题。

在一个具体的场景示例中，可以使用MSCOCO(一种数据集)来测试评估基于本申请实施例所建立的预训练的图像处理模型。

其中，上述数据集中的每个图片可以包含5个人类注释的标题。可以对数据集进行了拆分，在训练集中有113287幅图像，在验证集和测试集中有5000幅图像。进一步还可以在MSCOCO在线测试数据集(40775幅图像)上测试评估上述预训练的图像处理模型。

在测试评估的过程中，针对图像表示方面，可以先利用快速RCNN提取的图像特征，对图像进行视觉基因组预训练。其中，每个图像有10～100个信息区域。视觉基因组具有丰富的场景图，可以用来训练关系分类器跟随，并与目标检测器作为场景图分类器协同构建场景图。并且，在测试评估的过程中删去出现不到五次的单词以减少词汇量。

在本场景示例中，上述预训练的图像处理模型中的编码器和解码器都具有三层结构，隐藏维数为1024，注意头为4，前馈网络的内部维数为2048。模型中的参数数量为33M。这里的拒绝率是0.3。

在本实施例中，利用0.2标签平滑率的交叉熵训练计划的40个时段，40k个更新步骤；然后用强化学习训练40个时段，40k个更新步骤。采用逆sqrt学习速率调度器和4k预热步骤，交叉熵和强化学习的学习速率分别设置为5e-4和2e-5。所使用的模型的优化器是Adam和(0.9,0.999)。每批最大指令数为16384。解码时，波束搜索的大小为3，长度惩罚为0.3。

通过上述测试评估发现：首先，当主题节点数较少时，其建模能力不足以覆盖数据集中的所有主题概念；当主题概念的数量较多时，不同主题节点的功能可能会发生冲突和重叠，从而影响建模性能。

其次，主题节点通过学习图像中对象和关系的组合可以来捕捉到不同的主题概念。通过构建预训练的图像处理模型，将主题节点与编码器中的对象节点和解码器中的关键词基于注意权重连接起来，可以观察到主题节点能够将描述相似主题概念的元素(对象或关键词)聚集在一起。

然后，在译码器中，主题节点不仅可以连接名词，而且连接到相似主题下的动词，例如节点中的“transit”和另一个节点中的“fries”。

此外，编码器和解码器中的主题节点之间还存在相关性。例如，测试评估时编码器和解码器中的主题节点都是与食物有关。这揭示了TTN在视觉语义和语言语义上所具有的协调能力。

综上，通过上述实施例的测试评估，在MS-COCO上的实验表明，与现有的方法相比，通过使用预训练的图像处理模型来处理图像，确实能够提高所确定的图像描述的质量，得到能够准确地表征出图像中高层次语义信息的图像描述。

基于同一发明构思，本申请实施例中还提供了一种图像描述的生成装置，如下面的实施例所述。由于图像描述的生成装置解决问题的原理与图像描述的生成方法相似，因此图像描述的生成装置的实施可以参见图像描述的生成方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。请参阅图4所示，是本申请实施例提供的图像描述的生成装置的一种组成结构图，该装置具体可以包括：获取模块401、第一确定模块402和第二确定模块403，下面对该结构进行具体说明。

获取模块401，具体可以用于获取目标图像中的物体数据和关系数据；

第一确定模块402，具体可以用于根据所述物体数据和关系数据确定出目标图像的主题数据；

第二确定模块403，具体可以用于调用预训练的图像处理模型获取并根据所述目标图像的主题数据、物体数据和关系数据，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构，所述预训练的图像处理模型具有对底层表征进行抽象的能力。

在一个实施例中，所述预训练的图像处理模型具体可以包括改进的编码器和改进的解码器。

在一个实施例中，所述改进的编码器至少可以包括Embedding层；其中，所述Embedding层具体可以包括对象节点、关系节点和主题节点。

在一个实施例中，所述改进的编码器具体还可以包括Group Attention层和Self-Attention层。

在一个实施例中，所述改进的编码器具体还可以包括前馈网络。

在一个实施例中，所述改进的解码器具体还可以包括三个堆叠的解码层；其中，所述解码层包括：Self-Attention子层、encoder-decoder-attention子层、前馈子层。

在一个实施例中，所述装置还包括训练模块用于训练预训练的图像处理模型。其中，上述训练模块具体实施可以用于获取样本图像；获取样本图像的文本说明，以及与样本图像对应的场景图；根据所述样本图像的文本说明，对样本图像进行标注，得到标注后的样本图像；根据所述标注后的样本图像，以及与样本图像对应的场景图，建立训练数据；根据所述训练数据，对初始模型进行模型训练，以得到预训练的图像处理模型。

在一个实施例中，所述装置还包括标注模块，具体可以用于根据所述图像描述，对目标图像进行主题标注。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，在本说明书中，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

此外，在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

从以上的描述中，可以看出，本申请实施例提供的图像描述的生成装置，通过第一确定模块先根据目标图像的物体数据和关系数据抽象出对应的主题数据；再通过第二确定模块利用包含有主题节点具有对底层表征进行抽象的能力的预训练的图像处理模型，根据上述主题数据、物体数据和关系数据的组合来识别处理目标图像，从而可以高效地生成能准确地表征出目标图像中的高层语义信息的图像描述，解决现有方法中存在的无法准确表征出图像中较为复杂的高层语义信息，生成的图像描述准确度差的技术问题。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取目标图像中的物体数据和关系数据；调用预训练的图像处理模型根据所述物体数据和关系数据确定出目标图像的主题数据；调用预训练的图像处理模型获取并根据所述目标图像的主题数据、物体数据和关系数据，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构，所述预训练的图像处理模型具有对底层表征进行抽象的能力。

为了能够更加准确地完成上述指令，参阅图5所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口501、处理器502以及存储器503，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口501，具体可以用于获取目标图像中的物体数据和关系数据。

所述处理器502，具体可以用于根据所述物体数据和关系数据确定出目标图像的主题数据；调用预训练的图像处理模型获取并根据所述目标图像的主题数据、物体数据和关系数据，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构，所述预训练的图像处理模型具有对底层表征进行抽象的能力。

所述存储器503，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口501可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器502可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器503可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本申请实施例还提供了一种基于图像描述的生成方法的计算机可读存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取目标图像中的物体数据和关系数据；调用预训练的图像处理模型根据所述物体数据和关系数据确定出目标图像的主题数据；调用预训练的图像处理模型获取并根据所述目标图像的主题数据、物体数据和关系数据，通过底层表征隐式地推断出目标图像中的高层语义信息，来生成与目标图像对应的图像描述；其中，所述预训练的图像处理模型包括包含有主题节点的模型结构，所述预训练的图像处理模型具有对底层表征进行抽象的能力。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

尽管本申请内容中提到不同的具体实施例，但是，本申请并不局限于必须是行业标准或实施例所描述的情况等，某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例，仍然可以属于本申请的可选实施方案范围之内。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的实施方式包括这些变形和变化而不脱离本申请。

Claims

1.一种图像描述的生成方法，其特征在于，包括：

获取目标图像中的物体数据和关系数据；

根据所述物体数据和关系数据确定出目标图像的主题数据；

2.根据权利要求1所述的方法，其特征在于，所述预训练的图像处理模型包括改进的编码器和改进的解码器。

3.根据权利要求2所述的方法，其特征在于，所述改进的编码器至少包括Embedding层；其中，所述Embedding层包括对象节点、关系节点和主题节点。

4.根据权利要求3所述的方法，其特征在于，所述改进的编码器还包括GroupAttention层和Self-Attention层。

5.根据权利要求4所述的方法，其特征在于，所述改进的编码器还包括前馈网络。

6.根据权利要求5所述的方法，其特征在于，所述改进的解码器还包括三个堆叠的解码层；其中，所述解码层包括：Self-Attention子层、encoder-decoder-attention子层、前馈子层。

7.根据权利要求6所述的方法，其特征在于，所述预训练的图像处理模型按照以下方式训练得到：

获取样本图像；

获取样本图像的文本说明，以及与样本图像对应的场景图；

8.根据权利要求1所述的方法，其特征在于，在确定出与目标图像对应的图像描述之后，所述方法还包括：

根据所述图像描述，对目标图像进行主题标注。

9.一种图像描述的生成装置，其特征在于，包括：

获取模块，用于获取目标图像中的物体数据和关系数据；

10.一种服务器，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。