CN108416059A

CN108416059A - 图像描述模型的训练方法和装置、设备、介质、程序

Info

Publication number: CN108416059A
Application number: CN201810242761.6A
Authority: CN
Inventors: 刘希慧; 李鸿升; 邵婧; 陈大鹏; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-08-17
Anticipated expiration: 2038-03-22
Also published as: CN108416059B

Abstract

本申请实施例公开了一种图像描述模型的训练方法和装置、设备、介质、程序，所述图像描述模型包括图像编码器和语言解码器，其中，所述训练方法包括：经所述图像编码器提取训练图像集中图像的图像特征；经所述语言解码器将所述图像特征解码为自然描述语言；根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异；基于所述差异调整所述图像编码器和/或所述语言解码器的参数。本申请上述实施例提高了训练获得的图像描述模型得到的自然描述语言的准确性。

Description

图像描述模型的训练方法和装置、设备、介质、程序

技术领域

本申请涉及计算机视觉技术，尤其是一种图像描述模型的训练方法和装置、设备、介质、程序。

背景技术

图像描述生成是计算机视觉和自然语言处理交叉领域的重要问题，要求机器理解图像内容，并用人类能理解的自然语言做出准确的描述。图像描述技术有很多应用场景，比如：辅助教学、辅助盲人和自动生成新闻标题等。

发明内容

本申请实施例提供的一种图像描述模型的训练技术。

根据本申请实施例的一个方面，提供的一种图像描述模型的训练方法，所述图像描述模型包括图像编码器和语言解码器，所述训练方法包括：

经所述图像编码器提取训练图像集中图像的图像特征；

经所述语言解码器将所述图像特征解码为自然描述语言；

根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异；

基于所述差异调整所述图像编码器和/或所述语言解码器的参数。

可选地，所述训练图像集包括有标注信息的图像。

可选地，所述训练图像集还包括未标注信息的图像。

可选地，所述根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异之前，还包括：

对自检索模块进行预先训练，所述自检索模块用于根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异。

可选地，所述自检索模块包括所述图像编码器和检索编码器；所述训练图像集中的图像与训练词语集中的词语存在对应关系；

所述对所述自检索模块进行预先训练，包括：

将存在对应关系的图像和词语输入所述自检索模块，训练所述自检索模块。

可选地，所述对所述自检索模块进行预先训练，包括：

经所述检索编码器基于所述词语检索获得所述词语对应的至少一个预测图像；

对所述至少一个预测图像进行特征提取，得到至少一个预测图像特征；

基于所述至少一个预测图像特征和所述图像经图像编码器得到的图像特征，确定第一差异；

基于所述第一差异调整所述自检索模块的参数。

可选地，基于所述至少一个预测图像特征和所述图像经图像编码器得到的图像特征，确定第一差异，包括：

基于所述至少一个预测图像特征与所述词语的词语特征之间的距离和所述图像特征与所述词语特征之间的距离，确定第一差异。

保持所述图像编码器的参数不变的情形下，对所述语言解码器进行预先训练。

可选地，所述保持所述图像编码器的参数不变的情形下，对所述语言解码器进行预先训练，包括：

经所述语言解码器将所述语言解码器获得的图像特征解码为自然描述语言；

基于所述自然描述语言和所述图像的标注信息，训练所述语言解码器。

可选地，所述根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异，包括：

根据所述自然描述语言进行检索获得至少一个检索图像；

分别基于所述至少一个检索图像的检索图像特征与所述自然描述语言的语言特征，确定所述自然描述语言和检索结果之间的差异。

可选地，基于所述差异调整所述图像编码器和/或所述语言解码器的参数之前，还包括：

基于所述语言解码器获得的自然描述语言和所述图像的标注信息，确定所述图像描述模型的损失；

基于所述差异调整所述图像编码器和/或所述语言解码器的参数，包括：

基于所述差异和/或所述损失，调整所述图像编码器和/或所述语言解码器的参数。

根据本申请实施例的另一个方面，提供的一种图像描述模型的训练装置，所述图像描述模型包括图像编码器和语言解码器，所述训练装置包括：

图像解码单元，用于经所述图像编码器提取训练图像集中图像的图像特征；

编码单元，用于经所述语言解码器将所述图像特征解码为自然描述语言；

差异确定单元，用于根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异；

训练单元，用于基于所述差异调整所述图像编码器和/或所述语言解码器的参数。

可选地，所述训练图像集包括有标注信息的图像。

可选地，所述训练图像集还包括未标注信息的图像。

可选地，还包括：

第一预训练单元，用于对自检索模块进行预先训练，所述自检索模块用于根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异。

所述第一预训练单元，用于将存在对应关系的图像和词语输入所述自检索模块，训练所述自检索模块。

可选地，所述第一预训练单元，包括：

检索模块，用于经检索编码器基于所述词语检索获得所述词语对应的至少一个预测图像；

特征提取模块，用于对所述至少一个预测图像进行特征提取，得到至少一个预测图像特征；

第一差异模块，用于基于所述至少一个预测图像特征和所述图像经图像编码器得到的图像特征，确定第一差异；

自检索训练模块，用于基于所述第一差异调整所述自检索模块的参数。

可选地，所述第一差异模块，具体用于基于所述至少一个预测图像特征与所述词语的词语特征之间的距离和所述图像特征与所述词语特征之间的距离，确定第一差异。

可选地，还包括：

第二预训练单元，用于保持所述图像编码器的参数不变的情形下，对所述语言解码器进行预先训练。

可选地，所述第二预训练单元，具体用于经所述语言解码器将所述语言解码器获得的图像特征解码为自然描述语言；基于所述自然描述语言和所述图像的标注信息，训练所述语言解码器。

可选地，所述差异确定单元，具体用于根据所述自然描述语言进行检索获得至少一个检索图像；分别基于所述至少一个检索图像的检索图像特征与所述自然描述语言的语言特征，确定所述自然描述语言和检索结果之间的差异。

可选地，还包括：

模型损失单元，用于基于所述语言解码器获得的自然描述语言和所述图像的标注信息，确定所述图像描述模型的损失；

所述训练单元，具体用于基于所述差异和/或所述损失，调整所述图像编码器和/或所述语言解码器的参数。

根据本公开实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的图像描述模型的训练装置。

根据本公开实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述图像描述模型的训练方法。

根据本公开实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述图像描述模型的训练方法。

根据本公开实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上所述图像描述模型的训练方法的指令。

基于本申请上述实施例提供的一种图像描述模型的训练方法和装置、设备、介质、程序，经图像编码器提取训练图像集中图像的图像特征；经语言解码器将图像特征解码为自然描述语言；经自检索模块根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异；基于差异调整图像编码器和/或语言解码器的参数；提高了训练获得的图像描述模型得到的自然描述语言的准确性。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请实施例提供的图像描述模型的训练方法的流程图。

图2为本申请一个示例提供的图像描述模型的训练方法的结构示意图。

图3为本发明实施例提供的图像描述模型的训练装置的结构示意图。

图4为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本申请实施例提供的图像描述模型的训练方法的流程图。图像描述模型包括图像编码器和语言解码器，如图1所示，该实施例训练方法包括：

步骤110，经图像编码器提取训练图像集中图像的图像特征。

步骤120，经语言解码器将图像特征解码为自然描述语言。

编码-解码器模型是图像描述生成的常用方法，本申请的图像描述模型采用的编码-解码器模型，即包括图像编码器和语言解码器，图像编码器用于提取图像的特征，语言解码器用于将图像特征解码器解码为自然描述语言，如文字描述等。例如，先通过图像编码器把图像编码成一个特征向量，再通过语言解码器把特征向量解码成一段文字(自然描述语言)。图像编码器和语言解码器可采用现有编码-解码器模型中的任意结构，例如可采用但限于卷积神经网络、残差神经网络等等。

步骤130，根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异。

步骤140，基于差异调整图像编码器和/或语言解码器的参数。

通过根据图像特征检索训练图像集，得到检索到的图片(即检索结果)，然后再计算自然描述语言和检索到的图片之间的距离等差异，相当于图像描述生成的“逆过程”，通过这个“逆过程”发现的差异来调整图像编码器、语言解码器中的之一或二者的参数(如卷积核参数、偏差参数等等)，由此为训练过程提供更为丰富的调节信息，使得训练后的图像生成模型对于图片能够生成表达更多细节的自然语言表达，提高了相似图像之间的区分度以及模型的泛化能力。

可见，基于本申请上述实施例提供的一种图像描述模型的训练方法，经图像编码器提取训练图像集中图像的图像特征；经语言解码器将图像特征解码为自然描述语言；经自检索模块根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异；基于差异调整图像编码器和/或语言解码器的参数；本申请提高了训练获得的图像描述模型得到的自然描述语言的准确性，提高了相似图像之间的区分度，以及提高了图像描述模型的泛化能力。

在一个或多个可选的实施例中，训练图像集包括有标注信息的图像。通过有标注信息的图像，可以在训练过程中的检测结果和标注信息的差异进行监督训练，提高图像描述模型的准确性。

在一个或多个可选的实施例中，为了提高训练的图像描述模型的性能和鲁棒性，本申请加入了未标注信息的图像，基于未标注信息的图像与标注信息的图像相结合对图像描述模型进行训练。例如，基于未标注信息的图像，可以在训练过程中对图像描述模型进行强化学习，同时基于有标注信息的图像，可以在训练过程中对图像描述模型进行监督学习，二者相结合的方式，明显丰富了训练图像集中图像的构成，也就是说增强了训练用的样本的多样性，由此使得训练后的图像描述模型能够学习到更多的特征，进而进一步提高了对相似图像之间的区分表示能力，即进一步提高了图像描述模型的泛化能力。

自检索模块用来根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异。本申请为了训练图像描述模型可引入自检索模块。其中自检索模块的具体结构可在满足上述条件的基础上灵活设计，例如可设计包括损失函数或奖励函数等模块的结构，本申请对此并不限制。

在一个或多个可选的实施例中，自检索模块可以包括图像编码器和检索编码器；图像编码器实现提取图像的特征，检索编码器基于词语检索获得相应图像，并对图像进行特征提取，得到对应词语的至少一个检索图像的检索图像特征。

可选地，自检索模块中的检索编码器基于自然描述语言进行检索，得到该自然描述语言对应的至少一个检索图像，并对该检索图像进行特征提取，得到至少一个检索图像特征。

自检索模块是为了提高图像描述模型输出的图像对应的自然描述语言的准确性的，因此，希望得到的检索结果与训练图像集中的图像尽量相似，此时，需要使该自然描述语言与训练图像集中图像之间的距离越小，并且该自然描述语言与其他检索图像之间的距离越大，可以类似于聚类；

在一个示例中，自检索模块的损失可通过公式(1)确定：

L_ret＝max[m-s(c_i,v_i)+s(c_i,v_j)] 公式(1)

其中，c_i是自然描述语言的特征(该实施例中表现为特征向量)，v_i是图像的特征，v_j是检索结果对应的检索特征。m是一个常数，s是度量相似度的函数，这里采用归一化之后的特征向量的点积作为相似度。这个损失函数要求成对图文(图像与其对应的自然描述语言)的距离尽可能小，不成对图文(检索获得的检索图像与自然描述语言)的距离尽可能大。

基于本申请上述实施例提供的一种图像描述模型的训练方法，经图像编码器提取训练图像集中图像的图像特征；经语言解码器将图像特征解码为自然描述语言；经自检索模块根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异；基于差异调整图像编码器和/或语言解码器的参数；提高了训练获得的图像描述模型得到的自然描述语言的准确性。

在一个或多个可选的实施例中，在操作130之前，还可以包括：

对自检索模块进行预先训练。

为了使经过调整的图像描述模型对图像获得的自然描述语言更准确，本实施例对自检索模块进行预先训练。

可选地，自检索模块包括图像编码器和检索编码器；

由于预先训练的过程中词语不是基于图像经过图像描述模型获得的，因此，需要训练图像集中的图像与训练词语集中的词语存在对应关系。

对自检索模块进行预先训练，包括：

将存在对应关系的图像和词语输入自检索模块，训练自检索模块。

该训练过程是对图像编码器和检索编码器进行训练，将存在对应关系的一对图像和词语作为正样本输入自检索模块的图像编码器和检索编码器中，经图像编码器提取图像的图像特征，经检索编码器基于词语检索获得词语对应的至少一个预测图像；

对至少一个预测图像进行特征提取，得到至少一个预测图像特征；

基于至少一个预测图像特征和图像经图像编码器得到的图像特征，确定第一差异；可选地，基于至少一个预测图像特征与词语的词语特征之间的距离和图像特征与词语特征之间的距离，确定第一差异。

该实施例中以两个特征之间的距离表达对应词语与图像之间的相似度，而公式(1)是以两个特征向量之间的点积表达对应词语与图像之间的相似度，本申请对具体如何确定词语与图像之间的相似度不作限定。

本实施例中的第一差异也可以基于公式(1)计算获得，此时，公式(1)中的c_i是输入词语的特征，v_i是图像的特征，v_j是基于词语检索获得的检索结果对应的检索特征；m是一个常数，s是度量相似度的函数，这里采用归一化之后的特征向量的点积作为相似度。

基于第一差异调整自检索模块的参数。

作为一个可选的实施例，以第一差异作为损失，反向传播到自检索模块，调整图像编码器和检索编码器中的参数，实现对自检索模块的预训练；还可以以第一差异作为奖励，反向传播到自检索模块，调整图像编码器和检索编码器中的参数，实现对自检索模块的预训练；损失和奖励互为负数，具体地，可以基于反向梯度方法调整图像编码器和检索编码器中的参数，本申请对基于第一差异具体如何训练自检索模块的方法不作限制。

保持图像编码器的参数不变的情形下，对语言解码器进行预先训练。

本实施例以经过预先训练的自检索模块获得训练后的图像编码器，或者以其他训练方式训练后的图像编码器，针对本申请的图像描述任务，以经过预先训练的自检索模块获得训练后的图像编码器作为训练基础，能得到较好的训练效果。

保持图像描述模型中图像编码器中的参数不变(设置图像编码器的学习率为0)，利用具有标注信息的图像作为训练图像集，对语言解码器进行预先训练，此时可获得针对图像描述任务达到较好效果的图像描述模型。

具体地的预先训练图像描述模型的过程与现有技术训练编码-解码器模型的训练过程类似，例如，包括：

经语言解码器将语言解码器获得的图像特征解码为自然描述语言；

基于自然描述语言和图像的标注信息，训练语言解码器。

其中，固定训练后的图像编码器的参数，先采用CIDEr(基于共识的图像描述评价)评价指标的值作为奖励函数，用强化学习算法训练语言解码器的参数。强化学习优化的目标是，最小化公式(2)表达的损失函数，

L_RL(θ)＝-E[r(C^s)] 公式(2)

其中θ是语言解码器的网络参数，C^s是生成的自然描述语言，r(C^s)是自然描述语言的奖励函数，E[r(C^s)]表示得到的奖励的期望。通过强化算法，为了避免奖励函数相对网络参数θ变换，可以基于公式(3)计算这个损失函数对网络参数的梯度，

然后通过计算的梯度，可以更新网络参数。

在这部分训练中，采用CIDEr评价指标的值作为奖励函数。

但此时由于训练图像集的限制，如果以预先训练后的图像描述模型对图像进行描述，会存在类似于现有技术的问题，可能会出现重复训练集中的词语。对于这种情况，将预先训练后的图像描述模型结合自检索模块进行训练。

在一个或多个可选的实施例中，在上述各实施例的基础上，操作130可以包括：

经自检索模块根据自然描述语言进行检索获得至少一个检索图像；

分别基于至少一个检索图像的检索图像特征与自然描述语言的语言特征，确定自然描述语言和检索结果之间的差异。

在本实施例中，训练图像集包括未标注信息的图像，未标注信息的图像经图像编码器提取训练图像集中图像的图像特征，经语言解码器将图像特征解码为自然描述语言，经检索编码器基于该自然描述语言检索得到至少一个检索图像，图像编码器和检索编码器的参数固定不变的情况下，基于自然描述语言和检索结果之间的差异训练语言解码器；训练的目标在于，使图像和自然描述语言之间越相似(差异越小)，使检索图像和自然描述语言之间越不相似(差异越大)，此时损失函数可通过上述公式(1)确定。可以理解，公式(1)表示的损失函数仅为一个示例，为了计算损失，本领域技术人员可以采用其他方法来构建损失函数，对损失函数的具体结构本申请并不限制。对本申请提及的其他公式，也应理解为示例性而不是对本申请实质范围的限制，后续不再赘述。

由于加入未标注信息的图像进行训练，使得到的图像描述模型具有更强的可扩展性和鲁棒性，有利于对未知图像得到更准确的自然描述语言。

在一个或多个可选的实施例中，训练图像集包括未标注信息的图像和标注信息的图像，其中未标注信息的图像和标注信息的图像的数量可以为预设比例；这种比例可根据实际需要设置，来平衡监督学习和强化学习之间的效果，以优化模型的整体性能。

在基于标注信息的图像进行训练时，在执行操作140之前，还可以包括：

基于语言解码器获得的自然描述语言和图像的标注信息，确定图像描述模型的损失；

获得图像描述模型的损失是基于图像的标注信息获得的，具体地，可以基于上述预先训练图像描述模型的方法获得图像描述模型的损失。

此时操作140，包括：

基于差异和/或损失，调整图像编码器和/或语言解码器的参数。

在获得了图像描述模型的损失之后，基于损失与差异的和或均值，通过反向传播调整语言解码器的参数，此时图像编码器的参数已经由预先训练获得，在调整语言解码器的参数的过程中，固定图像编码器和检索编码器的参数，由此提高训练效率。

图2为本申请一个示例提供的图像描述模型的训练方法的结构示意图。如图2所示，示例中涉及的训练方法应用到的结构包括图像描述模型和自检索模块两个模块部分；该示例训练过程可以包括三个过程：1、对自检索模块的预先训练：在该预先训练的过程中应用有标注图像和与图像存在对应关系的词语作为训练集，将有标注图像输入图像编码器，得到图像特征(如图中v^l)，将与图像存在对应关系的词语输入语言编码器，得到句子特征(如图中c^l)，并基于词语检索(可以对图像训练集中进行检索，或对其他数据库或网络进行检索)获得多个检索图像，对检索图像基于图像编码器获得对应的检索图像特征，此时利用公式(1)确定自检索模块的损失，基于该损失调整自检索模块中的参数。

2、对图像描述模型的预先训练：此时该图像编码器与自检索模块中的图像编码器相同，利用训练自检索模块得到的图像编码器对图像描述模型中的语言解码器进行训练，在该训练过程中，图像编码器的参数不变化；将有标注图像输入图像编码器，得到图像特征(如图中v^l)，经语言解码器对图像特征进行处理，得到有标注图像对应的句子(自然描述语句)，此时利用CIDEr评价指标的值作为奖励函数，用强化学习算法训练语言解码器的参数。

3、结合自检索模块对图像描述模型进行训练：训练图像集包括两个部分：有标注图像和无标注图像，利用设定比例(例如：1:1)的有标注图像和无标注图像对图像描述模型进行训练。

当无标注图像输入图像描述模型，得到无标注图像生成的句子，并将该句子输入到语言编码器得到对应的句子特征，基于该生成的句子进行检索，得到至少一个检索图像，结合图像编码器得到的图像特征，基于公式(1)确定差异，基于确定的差异反向传播到图像描述模型中，对语言解码器的参数进行调整。

当有标注图像输入图像描述模型时，除了得到上述基于公式(1)确定的差异之外，还基于过程2的CIDEr评价指标确定图像描述模型的监督损失，可选地，基于监督差异与损失的和，通过反向传播调整语言解码器的参数。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图3为本发明实施例提供的图像描述模型的训练装置的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。图像描述模型包括图像编码器和语言解码器，如图3所示，该实施例的训练装置包括：

图像解码单元31，用于经图像编码器提取训练图像集中图像的图像特征。

编码单元32，用于经语言解码器将图像特征解码为自然描述语言。

差异确定单元33，用于根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异；

训练单元34，用于基于差异调整图像编码器和/或语言解码器的参数。

通过根据图像特征检索训练图像集，得到检索到的图片(即检索结果)，然后再计算自然描述语言和检索到的图片之间的距离等差异，相当于图像描述生成的“逆过程”，通过这个“逆过程”发现的差异来调整图像编码器、语言解码器中的之一或二者的参数(如卷积核参数、偏差参数等等)，由此为训练过程提供更为丰富的调节信息，使得训练后的图像生成模型对于图片能够生成表达更多细节的自然语言表达，提高了相似图像之间的区分度以及模型的泛化能力。本实施例提供的图像描述模型的训练装置，提高了训练获得的图像描述模型得到的自然描述语言的准确性。

在一个或多个可选的实施例中，训练图像集包括有标注信息的图像。

在一个或多个可选的实施例中，训练图像集还包括未标注信息的图像。

在一个或多个可选的实施例中，还可以包括：

第一预训练单元，用于对自检索模块进行预先训练，自检索模块用于根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异。

可选，自检索模块包括图像编码器和检索编码器；训练图像集中的图像与训练词语集中的词语存在对应关系；

第一预训练单元，用于将存在对应关系的图像和词语输入自检索模块，训练自检索模块。

可选地，第一预训练单元，包括：

检索模块，用于经检索编码器基于词语检索获得词语对应的至少一个预测图像；

特征提取模块，用于对至少一个预测图像进行特征提取，得到至少一个预测图像特征；

第一差异模块，用于基于至少一个预测图像特征和图像经图像编码器得到的图像特征，确定第一差异；

自检索训练模块，用于基于第一差异调整自检索模块的参数。

可选地，第一差异模块，具体用于基于至少一个预测图像特征与词语的词语特征之间的距离和图像特征与词语特征之间的距离，确定第一差异。

在一个或多个可选的实施例中，还可以包括：

第二预训练单元，用于保持图像编码器的参数不变的情形下，对语言解码器进行预先训练。

可选地，第二预训练单元，具体用于经语言解码器将语言解码器获得的图像特征解码为自然描述语言；基于自然描述语言和图像的标注信息，训练语言解码器。

在一个或多个可选的实施例中，差异确定单元33，可以用于根据自然描述语言进行检索获得至少一个检索图像；分别基于至少一个检索图像的检索图像特征与自然描述语言的语言特征，确定自然描述语言和检索结果之间的差异。

在一个或多个可选的实施例中，还可以包括：

模型损失单元，用于基于语言解码器获得的自然描述语言和图像的标注信息，确定图像描述模型的损失；

训练单元34，具体用于基于差异和/或损失，调整图像编码器和/或语言解码器的参数。

根据本发明实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的图像描述模型的训练装置。

根据本发明实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述图像描述模型的训练方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述图像描述模型的训练方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上所述图像描述模型的训练方法中各步骤的指令。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备400的结构示意图：如图4所示，计算机系统400包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)401，和/或一个或多个图像处理器(GPU)413等，处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器402和/或随机访问存储器430中通信以执行可执行指令，通过总线404与通信部412相连、并经通信部412与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，经图像编码器提取训练图像集中图像的图像特征；经语言解码器将图像特征解码为自然描述语言；根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异；基于差异调整图像编码器和/或语言解码器的参数。

此外，在RAM 403中，还可存储有装置操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。在有RAM403的情况下，ROM402为可选模块。RAM403存储可执行指令，或在运行时向ROM402中写入可执行指令，可执行指令使处理器401执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

需要说明的，如图4所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，经图像编码器提取训练图像集中图像的图像特征；经语言解码器将图像特征解码为自然描述语言；根据图像特征检索训练图像集、并确定自然描述语言和检索结果之间的差异；基于差异调整图像编码器和/或语言解码器的参数。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像描述模型的训练方法，其特征在于，所述图像描述模型包括图像编码器和语言解码器，所述训练方法包括：

经所述图像编码器提取训练图像集中图像的图像特征；

经所述语言解码器将所述图像特征解码为自然描述语言；

2.根据权利要求1所述的方法，其特征在于，所述训练图像集包括有标注信息的图像。

3.根据权利要求2所述的方法，其特征在于，所述训练图像集还包括未标注信息的图像。

4.根据权利要求1-3任一所述的方法，其特征在于，所述根据所述图像特征检索所述训练图像集、并确定所述自然描述语言和检索结果之间的差异之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述自检索模块包括所述图像编码器和检索编码器；所述训练图像集中的图像与训练词语集中的词语存在对应关系；

所述对所述自检索模块进行预先训练，包括：

6.一种图像描述模型的训练装置，其特征在于，所述图像描述模型包括图像编码器和语言解码器，所述训练装置包括：

7.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求6所述的图像描述模型的训练装置。

8.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至5任意一项所述图像描述模型的训练方法。

9.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至5任意一项所述图像描述模型的训练方法。

10.一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1至5任意一项所述图像描述模型的训练方法的指令。