CN114693944A

CN114693944A - 训练方法、图像描述方法及模型

Info

Publication number: CN114693944A
Application number: CN202210379254.3A
Authority: CN
Inventors: 潘滢炜; 李业豪; 姚霆; 梅涛
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-01

Abstract

本公开涉及训练方法、图像描述方法及模型、电子设备、计算机可存储介质，涉及计算机技术领域。用于图像描述模型的训练方法包括：获取训练图像及其实际图像描述；根据所述训练图像及其实际图像描述，生成实际对象特征序列，其中，所述实际对象特征序列包括按照所述实际图像描述中对象出现的先后顺序排列的实际对象特征；根据所述训练图像，利用所述图像描述模型，生成预测图像描述；根据所述预测图像描述、所述实际对象特征序列和所述实际图像描述，训练所述图像描述模型，得到训练后的图像描述模型，其中，所述实际对象特征序列和所述实际图像描述为训练所述图像描述模型的监督信号。根据本公开，可以提高图像描述的准确性。

Description

训练方法、图像描述方法及模型

技术领域

本公开涉及计算机技术领域，特别涉及训练方法、图像描述方法及模型、电子设备、计算机可存储介质。

背景技术

图像描述技术是计算机视觉与语言领域的基础课题之一。给定由图像以及描述其内容的句子构成的数据对，图像描述的目标是利用这些数据对学习一个图像描述模型，该模型能够为图像自动生成一个语法正确的句子，作为图像的图像描述。该句子能囊括图像的语义内容，并且以恰当的顺序把这些语义内容描述出来。

相关技术中，将训练图像输入到图像描述模型中进行编解码，得到预测图像描述，然后根据训练图像的实际图像描述和预测图像描述，训练图像描述模型，得到训练后的图像描述模型。在训练过程中，训练图像的实际图像描述作为训练图像描述模型的监督信号。

发明内容

相关技术中，训练后的图像描述模型在编解码过程中会引入与图像描述无关的对象特征，从而引入大量噪声，导致训练后的图像描述模型的图像描述的准确性较低。

针对上述技术问题，本公开提出了一种解决方案，可以提高图像描述的准确性。

根据本公开的第一方面，提供了一种用于图像描述模型的训练方法，包括：获取训练图像及其实际图像描述；根据所述训练图像及其实际图像描述，生成实际对象特征序列，其中，所述实际对象特征序列包括按照所述实际图像描述中对象出现的先后顺序排列的实际对象特征；根据所述训练图像，利用所述图像描述模型，生成预测图像描述；根据所述预测图像描述、所述实际对象特征序列和所述实际图像描述，训练所述图像描述模型，得到训练后的图像描述模型，其中，所述实际对象特征序列和所述实际图像描述为训练所述图像描述模型的监督信号。

在一些实施例中，根据所述训练图像，利用所述图像描述模型，生成预测图像描述包括：根据所述训练图像，利用所述图像描述模型，生成预测对象特征序列，所述预测对象特征序列包括顺序排列的预测对象特征；根据所述预测对象特征序列，利用所述图像描述模型，生成预测图像描述，其中，所述预测图像描述中对象出现的先后顺序与所述预测对象特征序列中对象特征所对应的对象的先后顺序一致，所述预测对象特征序列用于与所述预测图像描述、所述实际对象特征序列和所述实际图像描述共同训练所述图像描述模型。

在一些实施例中，训练所述图像描述模型包括：根据所述预测对象特征序列和所述实际对象特征序列，确定第一损失值；根据所述预测图像描述和所述实际图像描述，确定第二损失值；根据所述第一损失值和所述第二损失值，训练所述图像描述模型。

在一些实施例中，确定第一损失值包括：对于所述预测对象特征序列中的每个预测对象特征，从所述实际对象特征序列中，确定与所述每个预测对象特征在所述预测对象特征序列中的位置相同的实际对象特征为正样本对象特征；对于所述每个预测对象特征，确定所述实际对象特征序列中除所述正样本特征以外的其他实际对象特征为负样本对象特征；根据所有预测对象特征对应的正样本对象特征和负样本对象特征，确定所述第一损失值。

在一些实施例中，根据所有预测对象特征对应的正样本对象特征和负样本对象特征，确定所述第一损失值包括：确定所述每个预测对象特征与对应的正样本对象特征之间的相似度，作为第一相似度；确定所述每个预测对象特征与对应的负样本特征之间的相似度，作为第二相似度；根据所述第一相似度和所述第二相似度，确定所述第一损失值。

在一些实施例中，所述第一损失值与所述第一相似度成负相关，所述第一损失值与所述第二相似度成正相关。

在一些实施例中，确定第二损失值包括：根据所述预测图像描述和所述实际图像描述，利用交叉熵损失函数，确定所述第二损失值。

在一些实施例中，根据所述第一损失值和所述第二损失值，训练所述图像描述模型包括：根据所述第一损失值与所述第二损失值的和，训练所述图像描述模型。

在一些实施例中，根据所述训练图像，利用所述图像描述模型，生成预测对象特征序列包括：对所述训练图像中的对象进行编码，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括目标对象特征和目标图像特征；根据所述训练图像中对象的目标视觉特征，生成所述预测对象特征序列；其中，根据所述预测对象特征序列，利用所述图像描述模型，生成预测图像描述包括：根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，生成所述预测图像描述。

在一些实施例中，所述图像描述模型包括序列生成模型，所述序列生成模型包括第一注意力模型和时间序列预测模型，根据所述训练图像中对象的目标视觉特征，生成所述预测对象特征序列包括：利用所述第一注意力模型，对所述训练图像中对象的目标视觉特征进行注意力计算；根据所述第一注意力模型的注意力计算结果，利用所述时间序列预测模型，生成所述预测对象特征序列。

在一些实施例中，所述时间序列预测模型为双层长短期记忆网络LSTM模型，所述双层LSTM模型包括位于第一层的第一LSTM模型和位于第二层的第二LSTM模型，所述第二LSTM模型的输入包括所述第一注意力模型的注意力计算结果和所述第一LSTM模型的输出。

在一些实施例中，所述第一LSTM模型的输入包括所述训练图像的目标图像特征。

在一些实施例中，所述图像描述模型包括解码模型，根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，生成所述预测图像描述包括：根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，利用所述解码模型，生成所述预测图像描述。

在一些实施例中，所述解码模型包括第二注意力模型和第三注意力模型，所述第三注意力模型的输入包括所述第二注意力模型的输出、所述训练图像中对象的目标视觉特征和所述预测对象特征序列。

在一些实施例中，根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，利用所述解码模型，生成所述预测图像描述包括：利用所述第二注意力模型对其输入进行处理，得到所述第二注意力模型的输出；利用所述第三注意力模型，对所述第二注意力模型的输出进行线性变换，得到所述第三注意力模型中的第一向量矩阵；对所述训练图像中对象的目标对象特征和所述预测对象特征序列分别进行线性变换，得到所述第三注意力模型中的分别与所述训练图像中对象的目标视觉特征和所述预测对象特征序列对应的第二向量矩阵和第三向量矩阵；根据所述第三注意力模型中的第一向量矩阵、第二向量矩阵和第三向量矩阵，生成所述预测图像描述。

在一些实施例中，根据所述第三注意力模型中的第一向量矩阵、第二向量矩阵和第三向量矩阵，生成所述预测图像描述包括：根据所述第三注意力模型中的第一向量矩阵和与所述训练图像中对象的目标视觉特征对应的第二向量矩阵，确定第一注意力分数矩阵；根据所述第一注意力分数矩阵和与所述训练图像中对象的目标视觉特征对应的第三向量矩阵，确定所述第三注意力模型的第一输出；根据所述第三注意力模型中的第一向量矩阵和与所述预测对象特征序列对应的第二向量矩阵，确定第二注意力分数矩阵；根据所述第一注意力分数矩阵和与所述预测对象特征序列对应的第三向量矩阵，确定所述第三注意力模型的第二输出；根据所述第一输出和所述第二输出，生成所述预测图像描述。

在一些实施例中，所述图像描述模型包括编码模型，所述编码模型包括目标检测模型和特征融合模型，对所述训练图像中的对象进行编码，得到所述训练图像中对象的目标视觉特征包括：利用所述目标检测模型，对所述训练图像进行目标检测，得到所述训练图像中对象的初始对象特征；获取所述训练图像的初始图像特征；利用所述特征融合模型，对所述训练图像中对象的初始对象特征和所述初始图像特征进行融合，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括对象的目标对象特征和所述训练图像的目标图像特征。

在一些实施例中，所述特征融合模型包括编码器，所述编码器用于对所述训练图像中对象的初始对象特征和所述初始图像特征进行融合。

在一些实施例中，根据所述训练图像及其实际图像描述，生成实际对象特征序列包括：获取所述实际图像描述中属于预设词性的词，作为目标词；获取与所述目标词对应的对象在所述训练图像中的目标对象特征，作为实际对象特征；按照所述目标词在所述实际图像描述中出现的先后顺序，对所述实际对象特征进行排序，得到所述实际对象特征序列。

根据本公开第二方面，提供了一种基于上述任一实施例所述的训练方法得到的训练后的图像描述模型的图像描述方法，包括：获取待描述图像；根据所述待描述图像，利用所述训练后的图像描述模型，生成与所述待描述图像的图像描述。

根据本公开第三方面，提供了一种图像描述模型，包括：编码模型和解码模型，其中，所述编码模型被配置为获取训练图像及其实际图像描述，根据所述训练图像，生成所述编码模型的输出，并根据所述解码模型输出的预测图像描述、实际对象特征序列和所述实际图像描述，调整所述编码模型中的训练参数以训练所述编码模型；所述解码模型被配置为根据所述编码模型的输出，生成预测图像描述，并根据所述预测图像描述、所述实际对象特征序列和所述实际图像描述，调整所述解码模型中的训练参数以训练所述解码模型；其中，所述实际对象特征序列根据所述训练图像及其实际图像描述生成，所述实际对象特征序列包括按照所述实际图像描述中对象出现的先后顺序排列的实际对象特征，所述实际对象特征序列和所述实际图像描述为训练所述图像描述模型的监督信号。

在一些实施例中，图像描述模型，还包括：序列生成模型，被配置为根据所述编码模型的输出，生成预测对象特征序列，所述预测对象特征序列包括顺序排列的预测对象特征；其中，所述解码模型还被配置为根据所述预测对象特征序列，生成所述预测图像描述，其中，所述预测图像描述中对象出现的先后顺序与所述预测对象特征序列中对象特征所对应的对象的先后顺序一致，所述预测对象特征序列用于与所述预测图像描述、所述实际对象特征序列和所述实际图像描述共同训练所述编码模型、所述序列生成模型和所述解码模型。

在一些实施例中，所述编码模型还被配置为对所述训练图像中的对象进行编码，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括所述训练图像中对象的目标对象特征和所述训练图像的目标图像特征；所述序列生成模型包括：第一注意力模型，被配置为对所述训练图像中对象的目标对象特征进行注意力计算；和时间序列预测模型，被配置为根据所述第一注意力模型的注意力计算结果，生成所述预测对象特征序列。

在一些实施例中，所述编码模型包括：目标检测模型，被配置为对所述训练图像进行目标检测，得到所述训练图像中对象的初始对象特征；和特征融合模型，被配置为获取所述训练图像的初始图像特征，并对所述训练图像中对象的初始对象特征和所述初始图像特征进行融合，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括所述训练图像中对象的目标对象特征和所述训练图像的目标图像特征。

在一些实施例中，所述编码模型还被配置为对所述训练图像中的对象进行编码，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括所述训练图像中对象的目标对象特征和所述训练图像的目标图像特征；所述解码模型还被配置为根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，生成所述预测图像描述。

根据本公开的第四方面，提供了一种用于图像描述模型的训练装置，包括：获取模块，被配置为获取训练图像及其实际图像描述；第一生成模块，被配置为根据所述训练图像及其实际图像描述，生成实际对象特征序列，其中，所述实际对象特征序列包括按照所述实际图像描述中对象出现的先后顺序排列的实际对象特征；第二生成模块，被配置为根据所述训练图像，利用所述图像描述模型，生成预测图像描述；训练模块，被配置为根据所述预测图像描述、所述实际对象特征序列和所述实际图像描述，训练所述图像描述模型，得到训练后的图像描述模型，其中，所述实际对象特征序列和所述实际图像描述为训练所述图像描述模型的监督信号。

根据本公开的第五方面，提供了一种图像描述装置，包括：获取模块，被配置为获取待描述图像并从上述任一实施例所述的训练装置获取训练后的图像描述模型；生成模块，被配置为根据所述待描述图像，利用所述训练后的图像描述模型，生成与所述待描述图像的图像描述。

根据本公开的第六方面，提供了一种电子设备，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的训练方法或图像描述方法。

根据本公开的第七方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的训练方法或图像描述方法。

在上述实施例中，可以提高图像描述的准确性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的用于图像描述模型的训练方法的流程图；

图2是示出根据本公开一些实施例的生成预测图像描述的流程图；

图3是示出根据本公开一些实施例的序列生成模型的时间步示意图；

图4是示出根据本公开一些实施例的训练图像描述模型的流程图；

图5是示出根据本公开一些实施例的图像描述方法的流程图；

图6是示出根据本公开一些实施例的图像描述模型的框图；

图7是示出根据本公开一些实施例的电子设备的框图；

图8是示出用于实现本公开一些实施例的计算机系统的框图；

图9是示出根据本公开一些实施例的用于图像描述模型的训练装置的框图；

图10是示出根据本公开一些实施例的图像描述装置的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出根据本公开一些实施例的用于图像描述模型的训练方法的流程图。

如图1所示，用于图像描述模型的训练方法包括步骤S110-步骤S140。

在步骤S110中，获取训练图像及其实际图像描述。实际图像描述为图像的实际描述，在训练过程中作为标注句子。在一些实例中，训练图像I的实际图像描述的形式化表示为一个句子表示S＝{w₀,w₁,…,w_T-1}，T表示句子长度，w_i表示句子中第i个词。i为大于或等于0且小于或等于T-1的整数。

在步骤S120中，根据训练图像及其实际图像描述，生成实际对象特征序列。实际对象特征序列包括按照实际图像描述中对象出现的先后顺序排列的实际对象特征。实际对象特征为对象在训练图像中的实际特征。对象在训练图像中的实际特征为区域特征。

在一些实施例中，可以通过如下方式实现生成实际对象特征序列。

首先，获取实际图像描述中属于预设词性的词，作为目标词。例如，可以使用句法分析工具对实际图像描述中的每个单词进行词性标注，然后把名词词性的单词作为目标词。在此过程中，按照这些目标词在原实际图像描述中出现的先后顺序将目标词存储下来。

然后，获取与目标词对应的对象在训练图像中的目标对象特征，作为实际对象特征。在一些实施例中，可以对训练图像中的对象进行编码，得到训练图像中对象的目标视觉特征。目标视觉特征包括目标对象特征和目标图像特征。

例如，以图像描述模型包括编码模型且编码模型包括目标检测模型和特征融合模型为例，先利用目标检测模型，对训练图像进行目标检测，得到训练图像中对象的初始对象特征；再获取训练图像的初始图像特征；进而利用特征融合模型，对训练图像中对象的初始对象特征和初始图像特征进行融合，得到训练图像的目标视觉特征，目标视觉特征包括训练图像中对象的目标对象特征和训练图像的目标图像特征。特征融合模型包括编码器，编码器用于对训练图像中对象的初始对象特征和初始图像特征进行融合。目标图像特征为图像级别的全局特征。

在一些实施例中，目标检测模型为预训练模型，在训练图像描述模型的过程中不再训练。例如，目标检测模型为预训练得到的Faster-RCNN(Faster Region-basedConvolutional Neural Networks，快速的基于区域的卷积神经网络)模型。

在一些实施例中，编码器为基于注意力机制的编码器。例如，为基于自注意力机制的Transformer编码器。

在一些实施例中，训练图像中各个对象的初始对象特征表示为

v_i为第i个对象的初始对象特征，N_I为训练图像中对象的个数。i和N_I为正整数。

在一些实施例中，通过随机初始化获得初始图像特征。初始图像特征可以表示为v₀＝[IMG]。初始图像特征也可以称为视觉标记。

在一些实施例中，先将训练图像中各个对象的初始对象特征和初始图像特征拼接得到扩充后的视觉特征

将扩充后的视觉特征输入到一个堆叠了多层自注意力机制的Transformer视觉编码器进行特征间的相互融合操作，得到一个融合改善后的视觉特征

即目标视觉特征。

最后，按照目标词在实际图像描述中出现的先后顺序，对实际对象特征进行排序，得到实际对象特征序列。例如，实际对象特征序列表示为

o_t为第t个对象在训练图像中的实际特征。N_o为训练图像中对象的实际个数。t和N_o均为正整数。实际对象特征序列为实际感兴趣的物体对象的区域特征。在一些实施例中，S_o中也包含着两个特殊的文本标记[BOS]和[EOS]分别表示对象特征序列的开始和结束。

在上述实施例中，为了获取监督信号，从训练数据中提取出实际对象特征序列(也称为感兴趣的物体对象序列信号)，该实际对象特征序列模仿了人类在进行跨模态推理的主观经验，可以作为引导人类编写的描述性句子的骨架。

在步骤S130中，根据训练图像，利用图像描述模型，生成预测图像描述。

在一些实施例中，可以通过如图2所示的方式实现上述步骤S130。

图2是示出根据本公开一些实施例的生成预测图像描述的流程图。

如图2所示，生成预测图像描述包括步骤S131-步骤S132。

在步骤S131中，根据训练图像，利用图像描述模型，生成预测对象特征序列。预测对象特征序列包括顺序排列的预测对象特征。例如，预测对象特征序列表示为

其中，

表示第i个对象的预测对象特征。

例如，可以通过如下方式实现生成预测对象特征序列。

首先，对训练图像中的对象进行编码，得到训练图像中对象的目标视觉特征。目标视觉特征包括目标对象特征和目标图像特征对象特征。

在一些实施例中，以图像描述模型包括编码模型且编码模型包括目标检测模型和特征融合模型为例，可以先利用目标检测模型，对训练图像进行目标检测，得到训练图像中对象的初始对象特征；再获取训练图像的初始图像特征；进而利用特征融合模型，对训练图像中对象的初始对象特征和初始图像特征进行融合，得到训练图像中对象的目标视觉特征。目标视觉特征包括目标对象特征和训练图像的目标图像特征。

在一些实施例中，特征融合模型包括编码器，编码器用于对训练图像中对象的初始对象特征和初始图像特征进行融合。例如，编码模型还包括串联在特征融合模型之后的嵌入层或映射层，也称为embed层。嵌入层或映射层用于对特征融合模型的输出进行降维操作，提高运算效率。

在一些实施例中，编码器为基于注意力机制的编码器。例如，编码器为Transformer模型的编码层，包括多个堆叠的基于自注意力机制的编码器。具体结构参考Transformer模型，此处不再赘述。

然后，根据训练图像中对象的目标视觉特征，生成预测对象特征序列。在这种情况下，可以根据训练图像中对象的目标视觉特征和预测对象特征序列，生成预测图像描述。

在上述实施例中，目标视觉特征表征了自下而上的信号，预测对象特征序列表征自上而下的信号，通过两种信号的结合，进一步提高了图像描述的准确性。自上而下的为从整体到局部的特征体现，自下而上则是从局部到整体的特征体现。

在一些实施例中，图像描述模型包括序列生成模型。序列生成模型包括第一注意力模型和时间序列预测模型。在这种情况下，可以通过如下方式实现根据训练图像中对象的目标视觉特征，生成预测对象特征序列。

首先，利用第一注意力模型，对训练图像中对象的目标视觉特征进行注意力计算。

然后，根据第一注意力模型的注意力计算结果，利用时间序列预测模型，生成预测对象特征序列。通过注意力模型和时间序列预测模型的结合，可以辅助时间序列预测模型更加准确地生成预测对象特征序列，从而进一步提高图像描述的准确性。以编码模型还包括串联在特征融合模型之后的嵌入层或映射层为例，序列生成模型还包括串联在时间序列预测模型之后的嵌入层或映射层。

在一些实施例中，时间序列预测模型为双层LSTM(Long Short-Term Memory，长短期记忆网络)模型。双层LSTM模型包括位于第一层的第一LSTM模型和位于第二层的第二LSTM模型。第二LSTM模型的输入包括第一注意力模型的注意力计算结果和第一LSTM模型的输出。

在一些实施例中，第一LSTM模型的输入包括训练图像的目标图像特征。目标图像特征可以提供图像全局特征的上下文关系，用于对显著对象之间的依赖关系进行建模。

第一LSTM模型在每个当前时间步的输入还包括双层LSTM模型在该当前时间步的前一时间步的输出，即双层LSTM模型输出的隐藏状态。在序列生成模型还包括串联在时间序列预测模型之后的嵌入层或映射层的情况下，第一LSTM模型的输入还包括串联在时间序列预测模型之后的嵌入层或映射层在前一时间步的输出。在初始时间步，第一LSTM模型的输入为随机初始化的当前时间步的前一时间步的输出和开始符号[BOS]。

图3是示出根据本公开一些实施例的序列生成模型的时间步示意图。

如图3所示，序列生成模型共存在t个时间步。在每个时间步，第一注意力模型的输出均被输入到第二LSTM模型中进行处理。在第1时间步，第一LSTM模型的输入包括随机初始化的隐藏状态

开始符号[BOS]和目标图像特征

其中，上标2表示第二LSTM模型输出的隐藏状态，下标表示时间步。

例如，在第1时间步，第二LSTM模型的输出的隐藏状态为

其经过嵌入层得到对象“man”的预测对象特征。图中用圆圈表示。

又例如，在第2时间步，第一LSTM模型的输入包括

对象“man”的预测对象特征和目标图像特征

例如，直到第t时间步，第一LSTM模型的输出包括隐藏状态为

其经过嵌入层得到结束符号[EOS]。第t时间步的输入包括

第t-1时间步输出的对象的预测对象特征和目标图像特征

返回图2，在步骤S132中，根据预测对象特征序列，利用图像描述模型，生成预测图像描述。预测图像描述中对象出现的先后顺序与预测对象特征序列中对象特征所对应的对象的先后顺序一致。预测对象特征序列用于与预测图像描述、实际对象特征序列和实际图像描述共同训练图像描述模型。

在上述实施例中，图像描述模型在生成预测图像描述的过程中，先生成预测对象特征序列，进而根据预测对象特征序列，生成预测图像描述。在训练图像描述模型的过程中，在预测图像描述、实际对象特征序列和实际图像描述的基础上，进一步引入预测对象特征序列共同作为训练的监督信号，使得训练后的图像描述模型可以在图像描述场景中进一步准确地学习图像中的对象以及对象在图像描述中的先后顺序，从而进一步提高图像描述的准确性。

在一些实施例中，以根据训练图像中对象的目标视觉特征，生成预测对象特征序列为例，可以根据训练图像中对象的目标视觉特征和预测对象特征序列，生成预测图像描述。

在一些实施例中，图像描述模型包括解码模型。在这种情况下，可以根据训练图像中对象的目标视觉特征和预测对象特征序列，利用解码模型，生成预测图像描述。例如，将训练图像中对象的目标视觉特征和预测对象特征序列输入解码模型，得到预测图像描述。

在一些实施例中，解码模型包括第二注意力模型和第三注意力模型。第三注意力模型的输入包括第二注意力模型的输出、训练图像中对象的目标视觉特征和预测对象特征序列。

在一些实施例中，可以通过如下方式实现根据训练图像中对象的目标视觉特征和预测对象特征序列，利用解码模型，生成预测图像描述。

首先，利用第二注意力模型对其输入进行处理，得到第二注意力模型的输出。

在一些实施例中，在训练过程中，第二注意力模型的输入为训练图像的实际图像描述及其位置编码。在预测过程中，第二注意力模型在每个时间步的输入为前一时间步的解码模型的输出及其位置编码。例如，在将实际图像描述或者前一时间步的解码模型的输出输入到第二注意力模型之前，先对实际图像描述或者前一时间步的解码模型的输出进行词嵌入处理，得到相应的编码向量，再将编码向量与位置编码进行融合后的结果输入到第二注意力模型。

其次，利用第三注意力模型，对第二注意力模型的输出进行线性变换，得到第三注意力模型中的第一向量矩阵。例如，以第二注意力模型的输出为H_d为例，第一向量矩阵为W_q1H_d，W_q1为查询向量矩阵的权重矩阵。

然后，对训练图像中对象的目标视觉特征和预测对象特征序列分别进行线性变换，得到第三注意力模型中的分别与训练图像中对象的目标视觉特征和预测对象特征序列对应的第二向量矩阵和第三向量矩阵。

在一些实施例中，与目标视觉特征

对应的第二向量矩阵表示为

与预测对象特征序列

对应的第二向量矩阵表示为

W_k1和W_k2分别为键向量矩阵的权重矩阵。

在一些实施例中，与目标视觉特征

对应的第三向量矩阵表示为

与预测对象特征序列

对应的第三向量矩阵表示为

W_v1和W_v2分别为值向量矩阵的权重矩阵。

最后，根据第三注意力模型中的第一向量矩阵、第二向量矩阵和第三向量矩阵，生成预测图像描述。

例如，可以通过如下方式实现根据第三注意力模型中的第一向量矩阵、第二向量矩阵和第三向量矩阵，生成预测图像描述。

首先，根据第三注意力模型中的第一向量矩阵和与训练图像中对象的目标视觉特征对应的第二向量矩阵，确定第一注意力分数矩阵。例如，第一注意力分数矩阵为

其次，根据第一注意力分数矩阵和与训练图像中对象的目标视觉特征对应的第三向量矩阵，确定第三注意力模型的第一输出。例如，第三注意力模型的第一输出为

再次，根据第三注意力模型中的第一向量矩阵和与预测对象特征序列对应的第二向量矩阵，确定第二注意力分数矩阵。例如，第二注意力分数矩阵为

然后，根据第一注意力分数矩阵和与预测对象特征序列对应的第三向量矩阵，确定第三注意力模型的第二输出。例如，第三注意力模型的第二输出为

最后，根据第一输出和第二输出，生成预测图像描述。例如，解码模型包括多个串联的解码器，每个解码器包括一个第二注意力模型和一个串接在第二注意力模型之后的第三注意力模型。最后一个解码器之后串联一个线性归一化(Linear and Softmax)层。可以利用线性归一化层对最后一个解码器中第三注意力模型的第一输出和第二输出进行线性归一化操作，得到预测图像描述。解码模型是通过softmax函数预测下一个单词的概率分布，从而得到预测图像描述。

返回图1，在步骤S140中，根据预测图像描述、实际对象特征序列和实际图像描述，训练图像描述模型，得到训练后的图像描述模型。实际对象特征序列和实际图像描述为训练图像描述模型的监督信号。

在上述实施例中，在训练过程中，依据实际图像描述，从训练图像中提取实际对象特征序列。实际对象特征序列中的实际对象特征按照实际图像描述中对象出现的先后顺序排列。在训练过程中，引入实际图像描述和实际对象特征序列共同作为训练的监督信号，使得训练后的图像描述模型可以在图像描述场景中更加准确地学习图像中的对象以及对象在图像描述中的先后顺序，从而提高图像描述的准确性。

在一些实施例中，可以通过如图4所示的步骤实现训练图像描述模型。

图4是示出根据本公开一些实施例的训练图像描述模型的流程图。

如图4所示，训练图像描述模型包括步骤S141-步骤S143。

在步骤S141中，根据预测对象特征序列和实际对象特征序列，确定第一损失值。

例如，可以通过如下步骤1)-3)实现确定第一损失值。

步骤1)：对于预测对象特征序列中的每个预测对象特征，从实际对象特征序列中，确定与每个预测对象特征在预测对象特征序列中的位置相同的实际对象特征为正样本对象特征。例如，预测对象特征为

正样本对象特征表示为

为S_o中第t个对象的实际特征o_t，也就是

中的第t个目标视觉特征

表示双层LSTM模型输出的第t个对象的隐藏状态，即隐藏特征。

步骤2)：对于每个预测对象特征，确定实际对象特征序列中除正样本特征以外的其他实际对象特征为负样本对象特征。例如，负样本对象特征的集合表示为

即为S_o中除第t个对象的实际特征o_t以外的其他对象的实际特征，也就是

中除第t个目标视觉特征

和目标图像特征

以外的其他目标视觉特征，用j来标识。

步骤3)：根据所有预测对象特征对应的正样本对象特征和负样本对象特征，确定第一损失值。

在一些实施例中，对于上述步骤3)，可以通过如下方式实现。

首先，确定每个预测对象特征与对应的正样本对象特征之间的相似度，作为第一相似度。例如，第一相似度为

然后，确定每个预测对象特征与对应的负样本特征之间的相似度，作为第二相似度。例如，第二相似度为

最后，根据第一相似度和第二相似度，确定第一损失值。在一些实施例中，第一损失值与第一相似度成负相关且与第二相似度成正相关。

例如，通过公式(1)计算得到第一损失值。<a,b>为计算向量a与b之间的余弦相似度。exp()为指数计算函数。N_o+1个对象中包括训练图像中实际的N_o个对象以及1个结束文本标记[EOS]。公式(1)为基于InfoNCE(Information Noise Contrastive Estimation，信息噪声对比估计)损失函数的计算。

在上述实施例中，第一损失值基于预测对象特征和正负样本对象特征之间的相似度确定，使得图像描述模型在训练过程中不断学习如何区分对图像描述有正向作用的对象特征和对图像描述有负向作用的对象特征，从而可以进一步提高图像描述模型进行图像描述的准确性。

在步骤S142中，根据预测图像描述和实际图像描述，确定第二损失值。在一些实施例中，根据预测图像描述和实际图像描述，利用交叉熵损失函数，确定第二损失值。

在步骤S143中，根据第一损失值和第二损失值，训练图像描述模型。在一些实施例中，可以根据第一损失值与第二损失值的和，训练图像描述模型。例如，通过训练图像描述模型，使得第一损失值与第二损失值的和减小到满足预设损失条件。例如，预设损失条件可以是第一损失值与第二损失值的和小于损失值阈值或者满足损失值范围。

图5是示出根据本公开一些实施例的图像描述方法的流程图。

如图5所示，图像描述方法包括步骤S510-步骤S520。

在步骤S510中，获取待描述图像。

在步骤S520中，根据待描述图像，利用训练后的图像描述模型，生成与待描述图像的图像描述。训练后的图像描述模型为利用本公开任意一些实施例中的训练方法得到。利用训练后的图像描述模型，生成与待描述图像的图像描述可以参考图像描述模型的训练过程，此处不再赘述。

图6是示出根据本公开一些实施例的图像描述模型的框图。

如图6所示，图像描述模型6包括编码模型61和解码模型63。

编码模型61被配置为获取训练图像及其实际图像描述，根据训练图像，生成编码模型的输出，并根据解码模型输出的预测图像描述、实际对象特征序列和实际图像描述，调整编码模型中的训练参数以训练编码模型。

解码模型63被配置为根据编码模型的输出，生成预测图像描述，并根据预测图像描述、实际对象特征序列和实际图像描述，调整解码模型中的训练参数以训练解码模型。

实际对象特征序列根据训练图像及其实际图像描述生成，实际对象特征序列包括按照实际图像描述中对象出现的先后顺序排列的实际对象特征。实际对象特征序列和实际图像描述为训练图像描述模型的监督信号。实际对象特征为对象在训练图像中的实际特征。通过训练编码模型和解码模型来训练图像描述模型，得到训练后的图像描述模型。

在一些实施例中，编码模型61包括目标检测模型611和特征融合模型613。特征融合模型613串联在目标检测模型611之后。例如，特征融合模型613包括一个或多个编码器6131。在特征融合模型613包括多个编码器6131的情况下，多个编码器6131串联。例如，编码器的结构为Transformer模型的编码器结构。

目标检测模型611被配置为对训练图像进行目标检测，得到训练图像中对象的初始对象特征。

在一些实施例中，编码模型61还包括串联在目标检测模型611之后特征融合模型613之前的第一嵌入层612。第一嵌入层612被配置为对目标检测模型611的输出进行降维处理。

特征融合模型613被配置为获取训练图像的初始图像特征，并对训练图像中对象的初始对象特征和初始图像特征进行融合，得到训练图像中对象的目标视觉特征。目标视觉特征包括训练图像中对象的目标对象特征和训练图像的目标图像特征。

在一些实施例中，编码模型61还包括串联在特征融合模型613之后的第二嵌入层614。第二嵌入层614被配置为对特征融合模型613的输出进行嵌入处理或映射处理，以实现降维。

在一些实施例中，图像描述模型6还包括序列生成模型62。序列生成模型62被配置为根据编码模型的输出，生成预测对象特征序列。预测对象特征序列包括顺序排列的预测对象特征。解码模型还被配置为根据预测对象特征序列，生成预测图像描述，其中，预测图像描述中对象出现的先后顺序与预测对象特征序列中对象特征所对应的对象的先后顺序一致，预测对象特征序列用于与预测图像描述、实际对象特征序列和实际图像描述共同训练编码模型、序列生成模型和解码模型。

在一些实施例中，编码模型61还被配置为对训练图像中的对象进行编码，得到训练图像中对象的目标视觉特征。

序列生成模型62包括第一注意力模型621和时间序列预测模型622。第一注意力模型621被配置为对训练图像中对象的目标对象特征进行注意力计算。时间序列预测模型622被配置为根据第一注意力模型的注意力计算结果，生成预测对象特征序列。

在一些实施例中，时间序列预测模型622为双层长短期记忆网络LSTM模型。双层LSTM模型包括位于第一层的第一LSTM模型6221和位于第二层的第二LSTM模型6222。第二LSTM模型6222的输入包括第一注意力模型621的注意力计算结果和第一LSTM模型6221的输出。

在一些实施例中，序列生成模型62还包括第三嵌入层623。第三嵌入层623被配置为对时间序列预测模型622的输出进行降维处理。

在一些实施例中，以编码模型被配置为对训练图像中的对象进行编码，得到训练图像中对象的目标视觉特征为例，解码模型63还被配置为根据训练图像中对象的目标视觉特征和预测对象特征序列，生成预测图像描述。

在一些实施例中，解码模型63包括一个或多个解码器631。每个解码器631包括第二注意力模型6311和第三注意力模型6312。第三注意力模型6312的输入包括第二注意力模型6311的输出、训练图像中对象的目标视觉特征和预测对象特征序列。在解码器631存在多个的情况下，多个解码器631之间串联。例如，每个解码器631的结构与Transformer模型的解码器结构相同。

在一些实施例中，解码模型63还包括线性归一化层632。线性归一化层631被配置为对最后一个解码器631的输出进行线性归一化处理，得到预测图像描述。

在一些实施例中，解码模型63还包括第四嵌入层630。第四嵌入层630被配置为对解码模型的输入进行嵌入处理后与位置编码进行融合，并将融合结果输入到第一个解码器631中。

上述图像描述模型的各个部分也适用于图像描述过程，即给定待描述图像，得到相应的图像描述。图像描述过程与训练过程对训练图像的处理类似，此处不再赘述。

图7是示出根据本公开一些实施例的电子设备的框图。

如图7所示，电子设备7包括存储器71；以及耦接至该存储器71的处理器72。存储器71用于存储执行训练方法或图像描述方法对应实施例的指令。处理器72被配置为基于存储在存储器71中的指令，执行本公开中任意一些实施例中的训练方法或图像描述方法。

图8是示出用于实现本公开一些实施例的计算机系统的框图。

如图8所示，计算机系统80可以通用计算设备的形式表现。计算机系统80包括存储器810、处理器820和连接不同系统组件的总线800。

存储器810例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行训练方法和图像描述方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器820可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线800可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统80还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830、840、850以及存储器810和处理器820之间可以通过总线800连接。输入输出接口830可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口850为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

图9是示出根据本公开一些实施例的用于图像描述模型的训练装置的框图。

如图9所示，训练装置9包括获取模块91、第一生成模块92、第二生成模块93和训练模块94。

获取模块91被配置为获取训练图像及其实际图像描述，例如执行如图1所示的步骤S110。

第一生成模块92被配置为根据训练图像及其实际图像描述，生成实际对象特征序列，其中，实际对象特征序列包括按照实际图像描述中对象出现的先后顺序排列的实际对象特征，例如执行如图1所示的步骤S120。

第二生成模块93被配置为根据训练图像，利用图像描述模型，生成预测图像描述，例如执行如图1所示的步骤S130。

训练模块94被配置为根据预测图像描述、实际对象特征序列和实际图像描述，训练图像描述模型，得到训练后的图像描述模型，其中，实际对象特征序列和实际图像描述为训练图像描述模型的监督信号，例如执行如图1所示的步骤S140。

图10是示出根据本公开一些实施例的图像描述装置的框图。

如图10所示，图像描述装置10包括获取模块101和生成模块102。

获取模块101被配置为获取待描述图像并从训练装置获取训练后的图像描述模型，例如执行如图5所示的步骤S510。训练装置为本公开任意一些实施例中的训练装置。图像描述模型为本公开任意一些实施例中的图像描述模型。

生成模块102被配置为根据待描述图像，利用训练后的图像描述模型，生成与待描述图像的图像描述，例如执行如图5所示的步骤S520。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的训练方法及装置、图像描述方法、装置及模型、电子设备、计算机可存储介质，可以提高图像描述的准确性。

至此，已经详细描述了根据本公开的训练方法及装置、图像描述方法、装置及模型、电子设备、计算机可存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种用于图像描述模型的训练方法，包括：

获取训练图像及其实际图像描述；

根据所述训练图像及其实际图像描述，生成实际对象特征序列，其中，所述实际对象特征序列包括按照所述实际图像描述中对象出现的先后顺序排列的实际对象特征；

根据所述训练图像，利用所述图像描述模型，生成预测图像描述；

根据所述预测图像描述、所述实际对象特征序列和所述实际图像描述，训练所述图像描述模型，得到训练后的图像描述模型，其中，所述实际对象特征序列和所述实际图像描述为训练所述图像描述模型的监督信号。

2.根据权利要求1所述的训练方法，其中，根据所述训练图像，利用所述图像描述模型，生成预测图像描述包括：

根据所述训练图像，利用所述图像描述模型，生成预测对象特征序列，所述预测对象特征序列包括顺序排列的预测对象特征；

根据所述预测对象特征序列，利用所述图像描述模型，生成预测图像描述，其中，所述预测图像描述中对象出现的先后顺序与所述预测对象特征序列中对象特征所对应的对象的先后顺序一致，所述预测对象特征序列用于与所述预测图像描述、所述实际对象特征序列和所述实际图像描述共同训练所述图像描述模型。

3.根据权利要求2所述的训练方法，其中，训练所述图像描述模型包括：

根据所述预测对象特征序列和所述实际对象特征序列，确定第一损失值；

根据所述预测图像描述和所述实际图像描述，确定第二损失值；

根据所述第一损失值和所述第二损失值，训练所述图像描述模型。

4.根据权利要求3所述的训练方法，其中，确定第一损失值包括：

对于所述预测对象特征序列中的每个预测对象特征，从所述实际对象特征序列中，确定与所述每个预测对象特征在所述预测对象特征序列中的位置相同的实际对象特征为正样本对象特征；

对于所述每个预测对象特征，确定所述实际对象特征序列中除所述正样本特征以外的其他实际对象特征为负样本对象特征；

根据所有预测对象特征对应的正样本对象特征和负样本对象特征，确定所述第一损失值。

5.根据权利要求4所述的训练方法，其中，根据所有预测对象特征对应的正样本对象特征和负样本对象特征，确定所述第一损失值包括：

确定所述每个预测对象特征与对应的正样本对象特征之间的相似度，作为第一相似度；

确定所述每个预测对象特征与对应的负样本特征之间的相似度，作为第二相似度；

根据所述第一相似度和所述第二相似度，确定所述第一损失值。

6.根据权利要求5所述的训练方法，其中，所述第一损失值与所述第一相似度成负相关，所述第一损失值与所述第二相似度成正相关。

7.根据权利要求3所述的训练方法，其中，确定第二损失值包括：

根据所述预测图像描述和所述实际图像描述，利用交叉熵损失函数，确定所述第二损失值。

8.根据权利要求3所述的训练方法，其中，根据所述第一损失值和所述第二损失值，训练所述图像描述模型包括：

根据所述第一损失值与所述第二损失值的和，训练所述图像描述模型。

9.根据权利要求2所述的训练方法，其中，根据所述训练图像，利用所述图像描述模型，生成预测对象特征序列包括：

对所述训练图像中的对象进行编码，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括目标对象特征和目标图像特征；

根据所述训练图像中对象的目标视觉特征，生成所述预测对象特征序列；其中，

根据所述预测对象特征序列，利用所述图像描述模型，生成预测图像描述包括：根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，生成所述预测图像描述。

10.根据权利要求9所述的训练方法，其中，所述图像描述模型包括序列生成模型，所述序列生成模型包括第一注意力模型和时间序列预测模型，根据所述训练图像中对象的目标视觉特征，生成所述预测对象特征序列包括：

利用所述第一注意力模型，对所述训练图像中对象的目标视觉特征进行注意力计算；

根据所述第一注意力模型的注意力计算结果，利用所述时间序列预测模型，生成所述预测对象特征序列。

11.根据权利要求10所述的训练方法，其中，所述时间序列预测模型为双层长短期记忆网络LSTM模型，所述双层LSTM模型包括位于第一层的第一LSTM模型和位于第二层的第二LSTM模型，所述第二LSTM模型的输入包括所述第一注意力模型的注意力计算结果和所述第一LSTM模型的输出。

12.根据权利要求11所述的训练方法，其中，所述第一LSTM模型的输入包括所述训练图像的目标图像特征。

13.根据权利要求9所述的训练方法，其中，所述图像描述模型包括解码模型，根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，生成所述预测图像描述包括：

根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，利用所述解码模型，生成所述预测图像描述。

14.根据权利要求13所述的训练方法，其中，所述解码模型包括第二注意力模型和第三注意力模型，所述第三注意力模型的输入包括所述第二注意力模型的输出、所述训练图像中对象的目标视觉特征和所述预测对象特征序列。

15.根据权利要求14所述的训练方法，其中，根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，利用所述解码模型，生成所述预测图像描述包括：

利用所述第二注意力模型对其输入进行处理，得到所述第二注意力模型的输出；

利用所述第三注意力模型，对所述第二注意力模型的输出进行线性变换，得到所述第三注意力模型中的第一向量矩阵；

对所述训练图像中对象的目标对象特征和所述预测对象特征序列分别进行线性变换，得到所述第三注意力模型中的分别与所述训练图像中对象的目标视觉特征和所述预测对象特征序列对应的第二向量矩阵和第三向量矩阵；

根据所述第三注意力模型中的第一向量矩阵、第二向量矩阵和第三向量矩阵，生成所述预测图像描述。

16.根据权利要求15所述的训练方法，其中，根据所述第三注意力模型中的第一向量矩阵、第二向量矩阵和第三向量矩阵，生成所述预测图像描述包括：

根据所述第三注意力模型中的第一向量矩阵和与所述训练图像中对象的目标视觉特征对应的第二向量矩阵，确定第一注意力分数矩阵；

根据所述第一注意力分数矩阵和与所述训练图像中对象的目标视觉特征对应的第三向量矩阵，确定所述第三注意力模型的第一输出；

根据所述第三注意力模型中的第一向量矩阵和与所述预测对象特征序列对应的第二向量矩阵，确定第二注意力分数矩阵；

根据所述第一注意力分数矩阵和与所述预测对象特征序列对应的第三向量矩阵，确定所述第三注意力模型的第二输出；

根据所述第一输出和所述第二输出，生成所述预测图像描述。

17.根据权利要求9所述的训练方法，其中，所述图像描述模型包括编码模型，所述编码模型包括目标检测模型和特征融合模型，对所述训练图像中的对象进行编码，得到所述训练图像中对象的目标视觉特征包括：

利用所述目标检测模型，对所述训练图像进行目标检测，得到所述训练图像中对象的初始对象特征；

获取所述训练图像的初始图像特征；

利用所述特征融合模型，对所述训练图像中对象的初始对象特征和所述初始图像特征进行融合，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括对象的目标对象特征和所述训练图像的目标图像特征。

18.根据权利要求17所述的训练方法，其中，所述特征融合模型包括编码器，所述编码器用于对所述训练图像中对象的初始对象特征和所述初始图像特征进行融合。

19.根据权利要求1所述的训练方法，其中，根据所述训练图像及其实际图像描述，生成实际对象特征序列包括：

获取所述实际图像描述中属于预设词性的词，作为目标词；

获取与所述目标词对应的对象在所述训练图像中的目标对象特征，作为实际对象特征；

按照所述目标词在所述实际图像描述中出现的先后顺序，对所述实际对象特征进行排序，得到所述实际对象特征序列。

20.一种基于如权利要求1-19任一项所述的训练方法得到的训练后的图像描述模型的图像描述方法，包括：

获取待描述图像；

根据所述待描述图像，利用所述训练后的图像描述模型，生成与所述待描述图像的图像描述。

21.一种图像描述模型，包括：

编码模型和解码模型，其中，

所述编码模型被配置为获取训练图像及其实际图像描述，根据所述训练图像，生成所述编码模型的输出，并根据所述解码模型输出的预测图像描述、实际对象特征序列和所述实际图像描述，调整所述编码模型中的训练参数以训练所述编码模型；

所述解码模型被配置为根据所述编码模型的输出，生成预测图像描述，并根据所述预测图像描述、所述实际对象特征序列和所述实际图像描述，调整所述解码模型中的训练参数以训练所述解码模型；

其中，所述实际对象特征序列根据所述训练图像及其实际图像描述生成，所述实际对象特征序列包括按照所述实际图像描述中对象出现的先后顺序排列的实际对象特征，所述实际对象特征序列和所述实际图像描述为训练所述图像描述模型的监督信号。

22.根据权利要求21所述的图像描述模型，还包括：

序列生成模型，被配置为根据所述编码模型的输出，生成预测对象特征序列，所述预测对象特征序列包括顺序排列的预测对象特征；

其中，所述解码模型还被配置为根据所述预测对象特征序列，生成所述预测图像描述，其中，所述预测图像描述中对象出现的先后顺序与所述预测对象特征序列中对象特征所对应的对象的先后顺序一致，所述预测对象特征序列用于与所述预测图像描述、所述实际对象特征序列和所述实际图像描述共同训练所述编码模型、所述序列生成模型和所述解码模型。

23.根据权利要求22所述的图像描述模型，其中，所述编码模型还被配置为对所述训练图像中的对象进行编码，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括所述训练图像中对象的目标对象特征和所述训练图像的目标图像特征；

所述序列生成模型包括：

第一注意力模型，被配置为对所述训练图像中对象的目标对象特征进行注意力计算；和

时间序列预测模型，被配置为根据所述第一注意力模型的注意力计算结果，生成所述预测对象特征序列。

24.根据权利要求23所述的图像描述模型，其中，所述时间序列预测模型为双层长短期记忆网络LSTM模型，所述双层LSTM模型包括位于第一层的第一LSTM模型和位于第二层的第二LSTM模型，所述第二LSTM模型的输入包括所述第一注意力模型的注意力计算结果和所述第一LSTM模型的输出。

25.根据权利要求21所述的图像描述模型，其中，所述编码模型包括：

目标检测模型，被配置为对所述训练图像进行目标检测，得到所述训练图像中对象的初始对象特征；和

特征融合模型，被配置为获取所述训练图像的初始图像特征，并对所述训练图像中对象的初始对象特征和所述初始图像特征进行融合，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括所述训练图像中对象的目标对象特征和所述训练图像的目标图像特征。

26.根据权利要求22所述的图像描述模型，其中，所述编码模型还被配置为对所述训练图像中的对象进行编码，得到所述训练图像中对象的目标视觉特征，所述目标视觉特征包括所述训练图像中对象的目标对象特征和所述训练图像的目标图像特征；

所述解码模型还被配置为根据所述训练图像中对象的目标视觉特征和所述预测对象特征序列，生成所述预测图像描述。

27.根据权利要求26所述的图像描述模型，其中，所述解码模型包括第二注意力模型和第三注意力模型，所述第三注意力模型的输入包括所述第二注意力模型的输出、所述训练图像中对象的目标视觉特征和所述预测对象特征序列。

28.一种电子设备，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至19任一项所述的训练方法或者如权利要求20所述的图像描述方法。

29.一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至19任一项所述的训练方法或者如权利要求20所述的图像描述方法。