CN108228700B

CN108228700B - 图像描述模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN108228700B
Application number: CN201710919275.9A
Authority: CN
Inventors: 戴勃; 林达华; 汤晓鸥
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2021-01-26
Anticipated expiration: 2037-09-30
Also published as: CN108228700A

Abstract

本申请实施方式公开了图像描述模型的训练方法、装置、电子设备及存储介质，其中的方法包括：获取图像样本及其图像描述；至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率；至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率。

Description

图像描述模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术，尤其是涉及一种图像描述模型的训练方法、图像描述生成方法、图像描述模型的训练装置、图像描述生成装置、电子设备以及计算机可读存储介质。

背景技术

图像描述模型是计算机视觉技术的一个重要课题。图像描述模型可以针对输入的图像形成基于自然语言的图像描述，并输出，例如，针对输入的图像形成描述图像的一个句子或者一个段落的自然语言，并输出。

发明内容

本申请实施方式提供一种图像描述模型的训练技术方案。

根据本申请实施方式其中一个方面，提供了一种图像描述模型的训练方法，该方法主要包括：获取图像样本及其图像描述；至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的用于表示所述图像描述对应所述图像样本的第二概率；至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率。

在本申请一实施方式中，所述方法还包括：获取所述图像样本的干扰描述；

所述至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率，包括：

将所述图像样本及其图像描述和干扰描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率、所述图像描述模型输出的表示所述干扰描述对应所述图像样本的第三概率、所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率、以及所述参考图像描述模型输出的表示所述干扰描述对应所述图像样本的第四概率；

所述至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率，包括：

以所述第二概率和所述第四概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率。

在本申请又一实施方式中，所述获取所述图像样本的干扰描述包括：采用随机策略或概率分布策略从所述图像样本的干扰描述集中选取所述图像样本的干扰描述。

在本申请再一实施方式中，所述参考图像描述模型包括：采用最大似然估计训练方式训练完成的图像描述神经网络模型。

在本申请再一实施方式中，提供给待训练的图像描述模型和参考图像描述模型的正样本对的数量与提供给待训练的图像描述模型和参考图像描述模型的负样本对的数量相等或者二者的数量差在预定范围内；所述正样本对包括：图像样本及其图像描述，所述负样本对包括：图像样本和干扰描述。

在本申请再一实施方式中，所述方法在针对一个图像样本的多个干扰描述，形成多个负样本对的情况下，还包括：复制该图像样本的正样本对，使正样本对的数量和负样本对的数量相同或者二者的数量差在预定范围内。

在本申请再一实施方式中，所述至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率包括：至少以所述第二概率为指导信息，利用针对正样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率；所述正样本对包括：图像样本及其图像描述。

在本申请再一实施方式中，所述以所述第二概率和所述第四概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率包括：以所述第二概率和所述第四概率为指导信息，利用针对正样本对和负样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率；所述负样本对包括：图像样本和干扰描述。

在本申请再一实施方式中，所述至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率包括：最大化所述图像描述模型针对图像样本及其图像描述输出的第一概率与参考图像描述模型针对图像样本及其图像描述输出的第二概率的对数差值。

在本申请再一实施方式中，所述至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率包括：最大化所述图像描述模型针对图像样本和干扰描述输出的第三概率与所述参考图像描述模型针对图像样本和干扰描述输出的第四概率的对数差值。

根据本申请实施方式其中另一个方面，提供一种图像描述生成方法，该方法包括：获取待处理的图像；将所述图像输入图像描述模型，以获得所述图像描述模型输出的关于所述图像的基于自然语言的图像描述；其中，所述图像描述模型为利用上述图像描述模型的训练方法预先训练完成的图像描述模型。

根据本申请实施方式的其中再一个方面，提供一种图像描述模型的训练装置，该装置包括：第一获取模块，用于获取图像样本及其图像描述；第二获取模块，用于至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率；调整模块，用于至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率。

在本申请一实施方式中，所述装置还包括：第三获取模块，用于获取所述图像样本的干扰描述；

所述第二获取模块具体用于：将所述图像样本及其图像描述和干扰描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率、所述图像描述模型输出的表示所述干扰描述对应所述图像样本的第三概率、所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率、以及所述参考图像描述模型输出的表示所述干扰描述对应所述图像样本的第四概率；

所述调整模块具体用于：以所述第二概率和所述第四概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率。

在本申请又一实施方式中，所述第三获取模块在针对一个图像样本获取多个干扰描述，形成多个负样本对的情况下，所述装置还包括：复制模块，用于复制该图像样本的正样本对，使正样本对的数量和负样本对的数量相同或者二者的数量差在预定范围内。

根据本申请实施方式其中另一个方面，提供一种图像描述生成装置，该装置包括：第四获取模块，用于获取待处理的图像；第五获取模块，用于将所述图像输入图像描述模型，以获得所述图像描述模型输出的关于所述图像的基于自然语言的图像描述；其中，所述图像描述模型为利用上述图像描述模型的训练方法预先训练完成的图像描述模型。

根据本申请实施方式的再一个方面，提供了一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，下述指令被运行：用于获取图像样本及其图像描述的指令；用于至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率的指令；用于至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令。

在本申请一实施方式中，所述被运行的指令还包括：用于获取所述图像样本的干扰描述的指令；

所述用于至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率的指令，包括：

用于将所述图像样本及其图像描述和干扰描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率、所述图像描述模型输出的表示所述干扰描述对应所述图像样本的第三概率、所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率、以及所述参考图像描述模型输出的表示所述干扰描述对应所述图像样本的第四概率的指令；

所述用于至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令，包括：用于以所述第二概率和所述第四概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令。

在本申请又一实施方式中，所述用于获取所述图像样本的干扰描述的指令包括：用于采用随机策略或概率分布策略从所述图像样本的干扰描述集中选取所述图像样本的干扰描述的指令。

在本申请再一实施方式中，所述提供给待训练的图像描述模型和参考图像描述模型的正样本对的数量与提供给待训练的图像描述模型和参考图像描述模型的负样本对的数量相等或者二者的数量差在预定范围内；所述正样本对包括：图像样本及其图像描述，所述负样本对包括：图像样本和干扰描述。

在本申请再一实施方式中，在针对一个图像样本的多个干扰描述，形成多个负样本对的情况下，被运行的指令还包括：用于复制该图像样本的正样本对，使正样本对的数量和负样本对的数量相同或者二者的数量差在预定范围内的指令。

在本申请再一实施方式中，所述用于至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令包括：用于至少以所述第二概率为指导信息，利用针对正样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令；所述正样本对包括：图像样本及其图像描述。

在本申请再一实施方式中，所述用于以所述第二概率和所述第四概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令包括：用于以所述第二概率和所述第四概率为指导信息，利用针对正样本对和负样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令；所述负样本对包括：图像样本和干扰描述。

根据本申请实施方式的再一个方面，提供了一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，下述指令被运行：用于获取待处理的图像的指令；用于将所述图像输入图像描述模型，以获得所述图像描述模型输出的关于所述图像的基于自然语言的图像描述的指令；其中，所述图像描述模型为利用上述图像描述模型的训练方法预先训练完成的图像描述模型。

根据本申请实施方式的再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行本申请方法实施方式中的各步骤：

例如，获取图像样本及其图像描述；至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的用于表示所述图像描述对应所述图像样本的第二概率；至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率；

再例如，获取待处理的图像；将所述图像输入图像描述模型，以获得所述图像描述模型输出的关于所述图像的基于自然语言的图像描述；其中，所述图像描述模型为利用上述图像描述模型的训练方法预先训练完成的图像描述模型。

根据本申请实施方式的再一个方面，提供一种计算机程序，该计算机程序被处理器执行时，执行本申请方法实施方式中的各步骤。

基于本申请提供的图像描述模型的训练方法、装置、电子设备以及计算机可读存储介质，本申请通过在对图像描述模型的训练过程中，引入已训练完成的参考图像描述模型，可以将参考图像描述模型输出的用于表示图像描述对应图像样本的第二概率为指导信息调整待训练的图像描述模型的模型参数，从而可以实现待训练的图像描述模型输出的第一概率等于或大于参考图像描述模型输出的第二概率，使得待训练的图像描述模型的性能接近甚至优于参考图像描述模型，由此提高图像描述模型训练的效率。

下面通过附图和实施方式，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施方式，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请图像描述模型的训练方法一个实施方式的流程图；

图2为本申请图像描述模型的训练方法另一个实施方式的流程图；

图3为本申请一图像样本的示意图；

图4为本申请图像描述模型的训练方法的实现示意图；

图5为本申请图像描述生成方法一个实施方式的流程图；

图6为本申请图像描述模型的训练装置一个实施方式的结构示意图；

图7为本申请图像描述生成装置另一个实施方式的结构示意图；

图8为实现本申请实施方式的一示例性设备的框图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或者使用的任何限制。

对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法及设备应当被视为说明书的一部分。

应注意到：相似的标号以及字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统以及服务器等电子设备中，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统以及包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性实施例

下面结合图1至图8对本申请提供的图像描述模型的训练的技术方案进行说明。

图1为本申请方法一个实施例的流程图。如图1所示，该实施例方法包括：步骤S100、步骤S110以及步骤S120。

S100、获取图像样本及其图像描述。

在一个可选示例中，本申请中的图像样本是指用于训练图像描述模型的图像。本申请中的图像样本可以是图片或者照片或者视频帧等。图像样本所呈现出的画面内容可以是风景、人物、室内或者比赛场景等。本申请不限制图像样本的格式以及图像样本所呈现出的画面内容等。

在一个可选示例中，本申请设置有图像样本集合，该集合包括有多张图像样本，所述多张图像样本所呈现出的画面内容具有多样性。该集合中的每一个图像样本均预先标注有图像描述(即基于自然语言的图像描述，也可以称为图像样本的自然语言描述或者描述样本等)，图像描述可以具体为中文或者英文或者其他语种或形式的自然语言。

在一个可选示例中，本申请中的图像样本和图像描述之间具有较强的对应性，即一图像样本的图像描述表示该图像样本所呈现出的画面内容的所有语义或主要语义或关键语义等，且一个图像描述往往还具有一定程度的描述独特性，以尽可能的避免不同图像样本具有大致相同的图像描述的现象。

在一个可选示例中，本申请可以采用但不限于随机读取或者顺序读取等方式从图像样本集合中读取一个或者多个图像样本及其图像描述。本申请不限制获取图像样本及其图像描述的具体内容。

S110、至少将图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得图像描述模型输出的表示图像描述对应图像样本的第一概率和参考图像描述模型输出的表示图像描述对应图像样本的第二概率。

在一个可选示例中，本申请中的待训练的图像描述模型可以称为目标图像描述模型等。本申请预先设置有参考图像描述模型，该参考图像描述模型通常为已经成功训练的图像描述模型。在一个可选的例子中，本申请的参考图像模型可以是采用MLE(MzximumLikelihood Estimation，最大似然估计)训练方式成功训练的图像描述模型，例如，采用MLE训练方式基于Neural talk或者Neural talk2或者Adaptive Attention(自适应关注)等用于针对输入的图像形成自然语言的模型进行训练，成功训练后的图像描述模型可以作为本申请中的参考图像描述模型。另外，利用本申请的图像描述模型的训练方式成功训练的目标图像描述模型，也可以被作为训练其他目标图像描述模型过程中的参考图像描述模型。本申请不限制参考图像描述模型在训练过程中所采用的具体训练方式。

在一个可选示例中，本申请中的待训练的图像描述模型可以采用Neural talk或者Neural talk2或者Adaptive Attention(自适应关注)等用于针对输入的图像形成自然语言的模型结构；例如，本申请中的待训练的图像描述模型可以包括CNN(ConvolutionalNeural Network，卷积神经网络)和LSTM(Long Short-Term Memory，长短期记忆)神经网络，也可以包括：CNN和RNN(Recurrent Neural Networks，循环神经网络)；还可以包括：CNN和GRU(Gated Recurrent Unit，门控循环单元)神经网络；其中的CNN主要用于将输入的图像样本压缩为向量，并输入到LSTM中，且CNN可以包括VGG16(Visual Geometry Group，计算机视觉组)或者ResNet101(残差网络)，本申请不限制待训练的图像描述模型所采用的模型结构的具体表现形式。由于本申请在对待训练的图像描述模型的训练过程中，引入了参考图像描述模型，且通过对比两个模型针对相同的图像样本及其图像描述输出的概率信息来对待训练的图像描述模型进行监督学习，因此，本申请对待训练的图像描述模型的训练过程可以称为基于对比图像描述的训练过程。

在一个可选示例中，本申请可以将图像样本及其图像描述称为正样本对，正样本对可以表示为(图像样本，图像描述)的形式。在本申请的图像样本如图3所示的情况下，预先针对该图像样本标注的图像描述可以为：“A black and white photo of a parkbench”。

S120、至少以上述获得的第二概率为指导信息调整图像描述模型的模型参数，以至少使图像描述模型输出的第一概率等于或者大于参考图像描述模型输出的第二概率。

可选的，本申请通过最大化待训练的图像描述模型和参考图像描述模型针对图像样本及其图像描述输出的概率差异，有利于使待训练的图像描述模型针对输入图像产生的描述尽可能的涵盖输入图像所呈现出的画面内容的语义；可选的，本申请通过最大化待训练的图像描述模型和参考图像描述模型针对图像样本及其干扰描述输出的概率差异，有利于使待训练的图像描述模型针对输入图像产生的描述与针对其他输入图像产生的描述尽可能的不相似。即本申请的图像描述模型的训练技术有利于使图像描述模型针对输入图像产生的图像描述兼具描述准确全面以及独特性。

在一个可选示例中，本申请中的待训练的图像描述模型会针对输入的正样本对输出该正样本对中的图像描述对应图像样本的第一概率；参考图像描述模型也会针对输入的正样本对输出该正样本对中的图像描述对应图像样本的第二概率。本申请可以通过预先设置的损失函数(下述称为第一损失函数)基于两个模型分别输出的第一概率和第二概率来对待训练的图像描述模型中的参数进行调整(即本申请以第二概率为指导信息调整图像描述模型的模型参数)，例如，本申请可以采用迭代梯度下降的方式调整CNN和LSTM神经网络中的权重参数，从而逐步的使待训练的图像描述模型针对后续输入的正样本对所输出的第一概率尽可能多的超过参考图像描述模型针对后续输入的正样本对所输出的第二概率，例如，本申请预先设置的损失函数可以用于逐渐的促使待训练的图像描述模型针对正样本对所输出的第一概率与参考图像描述模型针对正样本对所输出的第二概率的对数差值最大化。

在一个可选示例中，本申请中的第一损失函数可以为针对正样本对的基于NCE的损失函数，该第一损失函数也可以称为类NCE损失函数，即受到NCE损失函数的启发而获得的损失函数。第一损失函数的一个可选例子如下述公式(1)所示：

在上述公式(1)中，L(θ；X，φ)表示第一损失函数，θ表示待训练的图像描述模型，也可以认为θ表示待训练的图像描述模型的参数；φ表示参考图像描述模型，也可以认为φ表示参考图像描述模型的参数；在公式(1)对应一个图像样本的情况下，公式(1)中的X表示基于该图像样本所形成的所有正样本对(如5个重复的正样本对)，且公式(1)中的T_m表示针对该图像样本所形成的所有正样本对的数量；In[*]表示以e为底*的对数，h((c_t，I_t)；θ，φ)可以分别表示为下述公式(2)的形式：

h((c_t，I_t)；θ，φ)＝r_v(G((c_t，I_t)；θ，φ)) 公式(2)

在上述公式(2)中，

其中的ν可以为常数，例如，v＝1。G((c_t，I_t)；θ，φ)可以表示为下述公式(3)的形式：

G((c_t，I_t)；θ，φ)＝Inp_s(c_t|I_t，θ)-Inp_r(c_t|I_t，φ) 公式(3)

在上述公式(3)中，p_s(c_t|I_t，θ)表示具有参数θ的待训练的图像描述模型针对正样本对(c_t，I_t)输出的图像样本I_t对应图像描述c_t的第一概率；p_r(c_t|I_t，φ)表示具有参数φ的参考图像描述模型针对正样本对(c_t，I_t)输出的图像样本I_t对应图像描述c_t的第二概率。

在图像样本的数量为多个的情况下，上述公式(1)可以变形为如下公式(4)的形式：

在上述公式(4)中，K表示获取的图像样本的数量；公式(4)中的T_m表示所有图像样本所形成的正样本对的数量；X_k表示针对第k个图像样本所形成的所有正样本对。

在一个可选示例中，本申请可以在L(θ；X，φ)或者J(θ)符合预定收敛条件的情况下，确定出待训练的图像描述模型的本次训练过程结束，例如，本申请可以在针对待训练的图像描述模型进行训练的迭代次数达到预定迭代次数(例如，使用的正样本对的数量达到预定数量)的情况下，确定出本次针对待训练的图像描述模型的训练过程结束；再例如，本申请可以在待训练的图像描述模型输出的第一概率满足一定要求的情况下，确定出本次针对待训练的图像描述模型的训练过程结束，此时，待训练的图像描述模型成为经过成功训练的图像描述模块。本申请不限制针对待训练的图像描述模型的训练设置的预定收敛条件的具体表现形式。

本申请通过在对待训练的图像描述模型的训练过程中，引入参考图像描述模型，并利用第一损失函数以及两个模型针对正样本对输出的第一概率和第二概率对待训练的图像描述模型进行监督学习，从而可以实现通过第一损失函数逐渐的促使待训练的图像描述模型针对正样本对所输出的第一概率与参考图像描述模型针对正样本对所输出的第二概率的差值最大化，进而可以使成功训练的图像描述模型在尽可能涵盖输入的图像所呈现出的语义内容方面，优于参考图像描述模型，即有利于提高待训练的图像描述模型的图像描述最优性(如准确性以及全面性等)。

图2为本申请方法一个实施例的流程图。如图2所示，该实施例方法包括：步骤S200、步骤S210以及步骤S220。

S200、获取图像样本及其图像描述，并获取该图像样本的干扰描述。

在一个可选示例中，本申请中的每一个图样样本均对应有一个包含多个干扰描述的干扰描述集合，本申请可以从图像样本的干扰描述集合中选取一个或者多个干扰描述；例如，设定图像样本集合中包含有5000个图像样本及其图像描述，在从图像样本集合中选取一个图像样本及其图像描述的情况下，该图像样本集合中的除了选取出的图像样本之外的4999个图像样本的图像描述，均为选取出的图像样本对应的干扰描述集合，本申请可以从该干扰描述集合中选取多个干扰描述，例如，选取3个或者5个干扰描述等。本申请不限制针对图像样本选取的干扰描述的数量。

在一个可选示例中，本申请可以基于均匀分布方式选取图像样本的干扰描述，即本申请可以根据等概率选取方式，从图像样本的干扰描述集合中选取图像样本的干扰描述。也就是说，干扰描述集合中的所有干扰描述具有均等的被选取概率；例如，本申请可以采用随机选取或者顺序选取的方式从干扰描述集合中选取图像样本的干扰描述。另外，本申请也可以基于特定分布方式选取图像样本的干扰描述，即本申请可以根据不等概率选取方式，从图像样本的干扰描述集合中选取图像样本的干扰描述：例如，本申请可以根据干扰描述集合中的各干扰描述与图像描述之间的相似度，选取相似度最高的多个干扰描述。本申请不限制选取图像样本的干扰描述的具体实现方式，例如，可以采用预先设置的策略(如随机策略等)来选图像样本的干扰描述。

在一个可选示例中，本申请针对一个图像样本所形成的正样本对的数量和负样本对的数量通常相同。可选的，针对一个图像样本所形成的正样本对的数量和负样本对的数量的差值应该在预定范围内，如相差1-3等。在针对一个图像样本选取了多个干扰描述的情况下，本申请可以通过复制正样本对的方式，使该图像样本的正样本对和负样本对的数量保持相同。

本申请获取图像样本及其图像描述的相关内容可以参见上述图1中的步骤S100中的相关描述，在此不再重复说明。

S210、将图像样本及其图像描述和干扰描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以获得图像描述模型输出的表示图像描述对应图像样本的第一概率、图像描述模型输出的表示干扰描述对应图像样本的第三概率、参考图像描述模型输出的表示图像描述对应图像样本的第二概率、以及参考图像描述模型输出的表示干扰描述对应图像样本的第四概率。

在一个可选示例中，本申请可以将图像样本及其图像描述称为正样本对，正样本对可以表示为(图像样本，图像描述)的形式。本申请可以将一个图像样本以及一个干扰描述称为负样本对，负样本对可以表示为(图像样本，干扰描述)的形式。

在一个可选示例中，本申请的待训练的图像描述模型会针对输入的正样本对输出该正样本对中的图像样本对应图像描述的第一概率，如图4中的P(图像描述|图像样本，待训练的图像描述模型)即表示一个第一概率；参考图像描述模型会针对输入的正样本对输出该正样本对中的图像样本对应图像描述的第二概率，如图4中的P(图像描述|图像样本，参考图像描述模型)即表示一个第二概率。

在一个可选示例中，本申请的待训练的图像描述模型会针对输入的负样本对输出该负样本对中的图像样本对应干扰描述的第三概率，如图4中的P(第一干扰样本|图像样本，待训练的图像描述模型)以及P(第二干扰样本|图像样本，待训练的图像描述模型)分别表示一个第三概率。本申请的参考图像描述模型也会针对输入的负样本对输出该负样本对中的图像样本对应干扰描述的第四概率，如图4中的P(第一干扰样本|图像样本，参考图像描述模型)以及P(第二干扰样本|图像样本，参考图像描述模型)分别表示一个第四概率。

在一个可选示例中，本申请中的一个图像样本如图3和图4所示，且该图像样本的图像描述为：A black and white photo of a park bench。本申请针对该图像样本选取了两个干扰描述，其中一个干扰描述(即图4中的第一干扰描述)为：A row of park bencheslined up in a park(公园里排了一排公园长凳)，其中另一个干扰描述(即图4中的第二干扰描述)为：A duck floating in the water(一只鸭子漂浮在水面上)。本申请可以根据两个干扰描述形成两个负样本对，即图4左侧两个方框中的(图像样本，第一干扰描述)和(图像样本，第二干扰描述)。由于本申请形成了两个负样本对，因此，本申请可以通过拷贝的形式形成两个正样本对，即图4右侧两个方框中的(图像样本，图像描述)和(图像样本，图像描述)。本申请可以分别顺序存储两个正样本对和两个负样本对，从而可以从顺序存储的正样本对中依次读取一个正样本对，并从顺序存储的负样本对中依次读取一个负样本对，并将读取出的正样本对和负样本对分别输入至待训练的图像描述模型和参考图像描述模型中(如图4所示)。

在一个可选示例中，本申请中的目标图像描述模型和参考图像描述模型可以参见上述图1中的步骤S110中的相关描述，在此不再重复说明。

S220、以第二概率和所述第四概率为指导信息调整图像描述模型的模型参数，以至少使图像描述模型输出的第一概率等于或大于参考图像描述模型输出的第二概率、且图像描述模型输出的第三概率小于或等于参考图像描述模型输出的第四概率。

在一个可选示例中，本申请可以通过预先设置的损失函数(下述称为第二损失函数)基于两个模型分别输出的第一概率、第二概率、第三概率以及第四概率，来对待训练的图像描述模型中的参数进行调整(即本申请以第二概率和第四概率为指导信息来调整图像描述模型的模型参数)，从而本申请在逐步的使待训练的图像描述模型针对后续输入的正样本对所输出的第一概率尽可能多的超过参考图像描述模型针对后续输入的正样本所输出的第二概率的同时，使待训练的图像描述模型针对后续输入的负样本对所输出的第三概率尽可能多的小于参考图像描述模型针对后续输入的负样本所输出的第四概率；例如，本申请预先设置的第二损失函数可以用于逐渐的促使待训练的图像描述模型针对正样本对所输出的第一概率与参考图像描述模型针对正样本对所输出的第二概率的对数差值最大化的同时，逐渐的促使参考图像描述模型针对负样本对所输出的第四概率与待训练的图像描述模型针对负样本对所输出的第三概率的对数差值最大化，以便于在使待训练的图像描述模型在成功训练后，针对输入图像产生的基于自然语言的图像描述尽可能的涵盖输入图像所呈现出的画面内容的语义的同时，针对输入图像产生的基于自然语言的图像描述与针对其他输入图像产生的基于自然语言的图像描述尽可能的不相类似。

在一个可选示例中，本申请中的第二损失函数可以为针对正样本对和负样本对的基于NCE的损失函数，该第二损失函数也可以称为类NCE损失函数，即受到NCE损失函数的启发而获得的损失函数。本申请的第二损失函数的一个可选例子如下述公式(5)所示：

在上述公式(5)中，L(θ；X，Y，φ)表示第二损失函数，θ表示待训练的图像描述模型，也可以认为θ表示待训练的图像描述模型的参数；φ表示参考图像描述模型，也可以认为φ表示参考图像描述模型的参数；X表示针对一个图像样本所形成的正样本对(如5个重复的正样本对)；Y表示针对一个图像样本所形成的负样本对(如5个负样本对)；T_m表示针对一个图像样本所形成的正样本对的数量；T_n表示针对一个图像样本所形成的负样本对的数量；In[*]表示以e为底*的对数，h((c_t，I_t)；θ，φ)和h((c_/t，I_t)；θ，φ)可以分别表示为下述公式(6)和公式(7)的形式：

h((c_t，I_t)；θ，φ)＝r_v(G((c_t，I_t)；θ，φ)) 公式(6)

h((c_/t，I_t)；θ，φ)＝r_v(G((c_/t，I_t)；θ，φ)) 公式(7)

在上述公式(6)和公式(7)中，

其中的

在T_m与T_n相等的情况下，ν＝1，上述公式(6)和公式(7)中的G((c_t，I_t)；θ，φ)和G((c_/t，I_t)；θ，φ)可以分别表示为下述公式(8)和公式(9)的形式：

G((c_t，I_t)；θ，φ)＝Inp_s(c_t|I_t，θ)-Inp_r(c_t|I_t，φ) 公式(8)

G((c_/t，I_t)；θ，φ)＝Inp_s(c_/t|I_t，θ)-Inp_r(c_/t|I_t，φ) 公式(9)

在上述公式(8)和公式(9)中，p_s(c_t|I_t，θ)表示具有参数θ的待训练的图像描述模型针对正样本对(c_t，I_t)输出的图像样本I_t对应图像描述c_t的第一概率；p_s(c_/t|I_t，θ)表示具有参数θ的待训练的图像描述模型针对负样本对(c_/t，I_t)输出的图像样本I_t对应干扰描述c_/t的第三概率；p_r(c_t|I_t，φ)表示具有参数φ的参考图像描述模型针对正样本对(c_t，I_t)输出的图像样本I_t对应图像描述c_t的第二概率；p_r(c_/t|I_t，φ)表示具有参数φ的参考图像描述模型针对负样本对(c_/t，I_t)输出的图像样本I_t对应干扰描述c_/t的第四概率。

在获取到的图像样本的数量为多个的情况下，上述公式(5)可以表示为如下公式(10)的形式：

在上述公式(10)中，K表示获取的图像样本的数量；在正样本对的数量和负样本对的数量相等的情况下，公式(10)中的T_m表示针对一个图像样本所形成的正/负样本对的数量(设定不同图像样本所形成的正/负样本对的数量相同)，与公式(4)中的T_m有差异；X_k表示针对第k个图像样本所形成的所有正样本对，Y_k表示针对第k个图像样本所形成的所有负样本对。

在正样本对的数量与负样本对的数量相同的情况下，上述公式(6)中的J(θ)的上限为o，在J(θ)＝0的情况下，所有的h((c_t，I_t)；θ，φ)＝1，且所有的h((c_/t，I_t)；θ，φ)＝0，G((c_t，I_t)；θ，φ)应趋于正无穷大，G((c_/t，I_t)；θ，φ)应趋于负无穷大。此时的目标图像描述模型针对正样本对输出的概率通常较高，而针对负样本对输出的概率通常较低。

在一个可选示例中，本申请可以在L(θ；X，Y，φ)或者J(θ)符合预定要求的情况下，确定出目标图像描述模型成为经过成功训练的图像描述模块。本申请可以在针对目标图像描述模型进行训练的迭代次数达到预定迭代次数(例如，使用的正样本对的数量达到预定数量)的情况下，确定出本次针对目标图像描述模型的训练过程结束。本申请不限制对目标图像描述模型进行训练的收敛条件的具体表现形式。

图5为本申请图像描述生成方法一个实施例的流程图。如图5所示，该实施例方法包括：步骤S500以及步骤S510。

S500、获取待处理的图像。

在一个可选示例中，本申请可以通过拍摄或者扫描或者屏幕截图或者从存储介质中读取等方式获得待处理的图像，本申请不限制获取待处理的图像的具体实现方式。

S510、将图像输入图像描述模型，以获得图像描述模型输出的关于该图像的基于自然语言的图像描述。

在一个可选示例中，本申请中的图像描述模型为基于上述图1或者图2所示的方法成功训练的图像描述模型。该图像描述模型针对输入的图像会输出基于自然语言的图像描述，输出的该基于自然语言的图像描述通常是选取出的概率最高图像描述，一图像描述的概率通常是针对一图像描述中的各个字/词的概率进行运算(例如，乘运算等)而获得的。

图6为本申请图像描述模型的训练装置一个实施例的结构示意图。如图6所示，该实施例的装置主要包括：第一获取模块600、第二获取模块610以及调整模块620。可选的，该实施例的装置还可以包括：第三获取模块630以及复制模块640。

第一获取模块600可以用于获取图像样本及其图像描述。第一获取模块600执行的具体操作可以参见上述针对图1的步骤S100中的描述，在此不再详细说明。

第二获取模块610可以用于至少将图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得图像描述模型输出的表示图像描述对应图像样本的第一概率和参考图像描述模型输出的表示图像描述对应图像样本的第二概率。第二获取模块610执行的具体操作可以参见上述针对图1的步骤S110中的描述，在此不再详细说明。

调整模块620可以用于至少以第二概率为指导信息调整图像描述模型的模型参数，以至少使图像描述模型输出的第一概率等于或大于参考图像描述模型输出的第二概率。调整模块620执行的具体操作可以参见上述针对图1的步骤S120中的描述，在此不再详细说明。

第三获取模块630可以用于获取图像样本的干扰描述。第三获取模块630执行的具体操作可以参见上述针对图2的步骤S200中的描述，在此不再详细说明。

在本申请的装置包括第三获取模块630的情况下，第二获取模块610可以用于：将图像样本及其图像描述和干扰描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以获得图像描述模型输出的表示图像描述对应图像样本的第一概率、图像描述模型输出的表示干扰描述对应图像样本的第三概率、参考图像描述模型输出的表示图像描述对应图像样本的第二概率、以及参考图像描述模型输出的表示干扰描述对应图像样本的第四概率。

在第二获取模块610针对一个图像样本获取多个干扰描述的情况下，通常需要复制模块640复制该图像样本的正样本对，使正样本对的数量和负样本对的数量相同或者二者的数量差在预定范围内。第二获取模块610和复制模块640执行的具体操作可以参见上述针对图2的步骤S210中的描述，在此不再详细说明。

在本申请的装置包括第三获取模块630的情况下，调整模块620可以用于以第二概率和第四概率为指导信息调整图像描述模型的模型参数，以至少使图像描述模型输出的第一概率等于或者大于参考图像描述模型输出的第二概率、且图像描述模型输出的第三概率小于或等于参考图像描述模型输出的第四概率。调整模块620执行的具体操作可以参见上述针对图2的步骤S220中的描述，在此不再详细说明。

图7为本申请图像描述生成装置一个实施例的结构示意图。如图7所示，该实施例的装置主要包括：第四获取模块700以及第五获取模块710。

第四获取模块700可以用于获取待处理的图像。第四获取模块700执行的具体操作可以参见上述针对图5的步骤S500中的描述，在此不再详细说明。

第五获取模块710可以用于将图像输入图像描述模型，以获得图像描述模型输出的关于图像的基于自然语言的图像描述；其中，该图像描述模型为利用上述针对图1和图2所示的图像描述模型的训练方法预先训练完成的图像描述模型。第五获取模块710执行的具体操作可以参见上述针对图5的步骤S510中的描述，在此不再详细说明。

上述图6和图7对应实施例涉及到各模块，其可通过软件、硬件或者软硬结合的方式实现，本申请对此并不限制。一个可选的实现方式中，上述模块可作为处理器中的一部分，通过处理器调用存储器存储的指令的方式来运行上述模块，以执行相应的操作。

示例性设备

图8示出了适于实现本申请的示例性设备800，设备800可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图8中，设备800包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)801，和/或，一个或者多个图像描述模型的训练器(GPU)813等，处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信部812可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令，通过总线804与通信部812相连、并经通信部812与其他目标设备通信，从而完成本申请中的相应步骤。

在一个可选的示例中，被处理器所执行的指令包括：用于获取图像样本及其图像描述的指令；用于至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率的指令；以及，用于至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令。

可选的，被处理器执行的指令还包括：用于获取图像样本的干扰描述的指令；此时，所述用于至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率和所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率的指令，包括：用于将所述图像样本及其图像描述和干扰描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以获得所述图像描述模型输出的表示所述图像描述对应所述图像样本的第一概率、所述图像描述模型输出的表示所述干扰描述对应所述图像样本的第三概率、所述参考图像描述模型输出的表示所述图像描述对应所述图像样本的第二概率、以及所述参考图像描述模型输出的表示所述干扰描述对应所述图像样本的第四概率的指令；所述用于至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令，包括：用于以所述第二概率和所述第四概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令。可选的，所述用于获取所述图像样本的干扰描述的指令包括：用于采用随机策略或概率分布策略从所述图像样本的干扰描述集中选取所述图像样本的干扰描述的指令。

可选的，被处理器执行的指令还包括：用于复制该图像样本的正样本对，使正样本对的数量和负样本对的数量相同或者二者的数量差在预定范围内的指令。

可选的，所述用于至少以所述第二概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令包括：用于至少以所述第二概率为指导信息，利用针对正样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令；所述正样本对包括：图像样本及其图像描述。

可选的，所述用于以所述第二概率和所述第四概率为指导信息调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令包括：用于以所述第二概率和所述第四概率为指导信息，利用针对正样本对和负样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令；所述负样本对包括：图像样本和干扰描述。

在另一个可选的示例中，被处理器所执行的指令包括：用于获取待处理的图像的指令；用于将所述图像输入图像描述模型，以获得所述图像描述模型输出的关于所述图像的基于自然语言的图像描述的指令；其中，所述图像描述模型为利用图像描述模型的训练方法预先训练完成的图像描述模型。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。

此外，在RAM 803中，还可以存储有装置操作所需的各种程序以及数据。CPU801、ROM802以及RAM803通过总线804彼此相连。在有RAM803的情况下，ROM802为可选模块。RAM803存储可执行指令，或在运行时向ROM802中写入可执行指令，可执行指令使中央处理单元801执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口805也连接至总线804。通信部812可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装在存储部分808中。

需要特别说明的是，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU和CPU可分离设置，再如理，可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请实施方式包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码在被执行时，本申请方法实施方式中的各步骤被执行。

在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载及安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请中记载的上述指令。

应用场景

经本申请的图像描述模型的训练技术方案，所获得的图像描述模型可以用于图像检索或者图像讲解等多种应用。一个可选的应用场景，用户希望从图像库中挑选出与“海洋”相关的图像，则用户可以将图像库中的所有图片分别作为输入，提供给经由本申请的训练技术方案成功训练的图像描述模型，从而经由该图像描述模型，可以针对每一张输入的图像输出相应的图像描述，并通过判断图像描述中是否包含有关键词“海洋”，即可实现从图像库中挑选出所有与“海洋”相关的图像。另一个可选的应用场景，将图像(例如，用户的智能移动电话中的照片或者展览馆展览的画作等)作为输入提供给经由本申请的训练技术方案成功训练的图像描述模型，从而经由该图像描述模型，可以针对每一张输入的图像输出相应的图像描述，通过将图像描述转换为音频信号并播放，可以实现为有视力障碍的用户提供图像讲解服务。

可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施方式是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

1.一种图像描述模型的训练方法，其特征在于，所述方法包括：

获取图像样本及其图像描述；

至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第一概率和所述参考图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第二概率；

至少以所述第二概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率。

2.根据权利要求1所述的方法，其特征在于，

所述方法还包括：获取所述图像样本的干扰描述；

所述至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第一概率和所述参考图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第二概率，包括：

将所述图像样本及其图像描述和干扰描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以获得所述图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第一概率、所述图像描述模型输出的表示所述干扰描述与所述图像样本之间具有对应性的第三概率、所述参考图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第二概率、以及所述参考图像描述模型输出的表示所述干扰描述与所述图像样本之间具有对应性的第四概率；

所述至少以所述第二概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率，包括：

以所述第二概率和所述第四概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率。

3.根据权利要求2所述的方法，其特征在于，所述获取所述图像样本的干扰描述包括：

采用随机策略或概率分布策略从所述图像样本的干扰描述集中选取所述图像样本的干扰描述。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述参考图像描述模型包括：采用最大似然估计训练方式训练完成的图像描述神经网络模型。

5.根据权利要求2或3所述的方法，其特征在于，提供给待训练的图像描述模型和参考图像描述模型的正样本对的数量与提供给待训练的图像描述模型和参考图像描述模型的负样本对的数量相等或者二者的数量差在预定范围内；

所述正样本对包括：图像样本及其图像描述，所述负样本对包括：图像样本和干扰描述。

6.根据权利要求5所述的方法，其特征在于，所述方法在针对一个图像样本的多个干扰描述，形成多个负样本对的情况下，还包括：

复制该图像样本的正样本对，使正样本对的数量和负样本对的数量相同或者二者的数量差在预定范围内。

7.根据权利要求1至3中任一项所述的方法，其特征在于，所述至少以所述第二概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率包括：

至少以所述第二概率为指导信息，利用针对正样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率；

所述正样本对包括：图像样本及其图像描述。

8.根据权利要求2或3所述的方法，其特征在于，所述以所述第二概率和所述第四概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率包括：

以所述第二概率和所述第四概率为指导信息，利用针对正样本对和负样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率；

所述负样本对包括：图像样本和干扰描述。

9.根据权利要求1至3中任一项所述的方法，其特征在于，所述至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率包括：

最大化所述图像描述模型针对图像样本及该图像样本的图像描述输出的第一概率与参考图像描述模型针对图像样本及该图像样本的图像描述输出的第二概率的对数差值。

10.根据权利要求2或3所述的方法，其特征在于，所述至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率包括：

最大化所述图像描述模型针对图像样本和干扰描述输出的第三概率与所述参考图像描述模型针对图像样本和干扰描述输出的第四概率的对数差值。

11.一种图像描述生成方法，其特征在于，包括：

获取待处理的图像；

将所述图像输入图像描述模型，以获得所述图像描述模型输出的关于所述图像的基于自然语言的图像描述；

其中，所述图像描述模型为利用权利要求1-10任一所述的方法预先训练完成的图像描述模型。

12.一种图像描述模型的训练装置，其特征在于，所述装置包括：

第一获取模块，用于获取图像样本及其图像描述；

第二获取模块，用于至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第一概率和所述参考图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第二概率；

调整模块，用于至少以所述第二概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于获取所述图像样本的干扰描述；

所述第二获取模块具体用于：

所述调整模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述第三获取模块在针对一个图像样本获取多个干扰描述，形成多个负样本对的情况下，所述装置还包括：

复制模块，用于复制该图像样本的正样本对，使正样本对的数量和负样本对的数量相同或者二者的数量差在预定范围内。

15.一种图像描述生成装置，其特征在于，包括：

第四获取模块，用于获取待处理的图像；

第五获取模块，用于将所述图像输入图像描述模型，以获得所述图像描述模型输出的关于所述图像的基于自然语言的图像描述；

16.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，下述指令被运行：

用于获取图像样本及其图像描述的指令；

用于至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第一概率和所述参考图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第二概率的指令；

用于至少以所述第二概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令。

17.根据权利要求16所述的电子设备，其特征在于，所述被运行的指令还包括：

用于获取所述图像样本的干扰描述的指令；

所述用于至少将所述图像样本及其图像描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以至少获得所述图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第一概率和所述参考图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第二概率的指令，包括：

用于将所述图像样本及其图像描述和干扰描述分别输入到待训练的图像描述模型和已经训练完成的参考图像描述模型，以获得所述图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第一概率、所述图像描述模型输出的表示所述干扰描述与所述图像样本之间具有对应性的第三概率、所述参考图像描述模型输出的表示所述图像描述与所述图像样本之间具有对应性的第二概率、以及所述参考图像描述模型输出的表示所述干扰描述与所述图像样本之间具有对应性的第四概率的指令；

所述用于至少以所述第二概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令，包括：

用于以所述第二概率和所述第四概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令。

18.根据权利要求17所述的电子设备，其特征在于，所述用于获取所述图像样本的干扰描述的指令包括：

用于采用随机策略或概率分布策略从所述图像样本的干扰描述集中选取所述图像样本的干扰描述的指令。

19.根据权利要求16至18中任一项所述的电子设备，其特征在于，所述参考图像描述模型包括：采用最大似然估计训练方式训练完成的图像描述神经网络模型。

20.根据权利要求17或18所述的电子设备，其特征在于，提供给待训练的图像描述模型和参考图像描述模型的正样本对的数量与提供给待训练的图像描述模型和参考图像描述模型的负样本对的数量相等或者二者的数量差在预定范围内；

21.根据权利要求20所述的电子设备，其特征在于，在针对一个图像样本的多个干扰描述，形成多个负样本对的情况下，在所述计算机程序被执行时，被运行的指令还包括：用于复制该图像样本的正样本对，使正样本对的数量和负样本对的数量相同或者二者的数量差在预定范围内的指令。

22.根据权利要求16至18中任一项所述的电子设备，其特征在于，所述用于至少以所述第二概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令包括：

用于至少以所述第二概率为指导信息，利用针对正样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率的指令；

所述正样本对包括：图像样本及其图像描述。

23.根据权利要求17或18所述的电子设备，其特征在于，所述用于以所述第二概率和所述第四概率为指导信息，利用预先设置的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令包括：

用于以所述第二概率和所述第四概率为指导信息，利用针对正样本对和负样本对的基于噪声对比估计的损失函数，调整所述图像描述模型的模型参数，以至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率的指令；

所述负样本对包括：图像样本和干扰描述。

24.根据权利要求16至18中任一项所述的电子设备，其特征在于，所述至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率包括：

25.根据权利要求17或18所述的电子设备，其特征在于，所述至少使所述图像描述模型输出的第一概率等于或大于所述参考图像描述模型输出的第二概率、且所述图像描述模型输出的第三概率小于或等于所述参考图像描述模型输出的第四概率包括：

26.一种电子设备，包括：

存储器，用于存储计算机程序；

用于获取待处理的图像的指令；

用于将所述图像输入图像描述模型，以获得所述图像描述模型输出的关于所述图像的基于自然语言的图像描述的指令；其中，所述图像描述模型为利用权利要求1-10任一所述的方法预先训练完成的图像描述模型。

27.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-11中任一项所述的方法。