CN115049899A

CN115049899A - 模型训练方法、指代表达式生成方法及相关设备

Info

Publication number: CN115049899A
Application number: CN202210977997.0A
Authority: CN
Inventors: 黄仕嘉; 李峰; 张�浩; 刘世隆; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-09-13
Anticipated expiration: 2042-08-16
Also published as: CN115049899B

Abstract

本发明实施例提供了一种模型训练方法、指代表达式生成方法及相关设备，根据对象描述训练样本中样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器，生成对象描述训练样本的第一特征向量；根据对象描述训练样本的非目标对象的视觉特征和指示对象描述网络模型的第二指示器，生成对象描述训练样本的第二特征向量；通过指示对象描述网络模型对第一特征向量和第二特征向量进行识别，生成目标对象的生成指代表达式；根据目标对象的原始指代表达式和生成指代表达式，对指示对象描述网络模型训练，得到指代表达式生成模型。通过上述方法得到的指代表达式生成模型生成用于图像中目标对象描述的指代表达式，能够使得图像描述的准确度提高。

Description

模型训练方法、指代表达式生成方法及相关设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种模型训练方法、指代表达式生成方法及相关设备。

背景技术

随着图像处理技术的发展，图像指代性分割技术应用而生。图像指代性分割是指给定一个自然语言描述作为查询，在图像中找到该自然语言描述对应的对象并输出该对象的分割mask。而指代表达式生成是图像指代性分割的逆任务，即给定图像中指定的对象（作为目标对象），为该目标对象生成一个自然语言描述，该自然语言描述能够精确地描述目标对象并且与图像中的其他对象区分开。

目前，生成指代表达式的方法主要是通过将图像中的目标对象的外包围框作为输入，提取出外包围框中的视觉特征，并将提取到的视觉特征输入至循环神经网络，以得到目标对象的指代表达式。但是，在目标对象与其他对象的重叠部分较大时，通过外包围框提取到的视觉特征无法准确表达目标对象的信息，从而造成生成的指代表达式准确性低，无法准确描述目标对象。另一方面，只使用目标对象的视觉特征来生成指代表达式，无法与图像中的其他对象充分区分开，也造成生成的指代表达式的准确性不足，无法准确描述目标对象。

发明内容

本发明实施例提供了一种模型训练方法、指代表达式生成方法、终端及存储介质，旨在解决现有技术中生成的用于描述图像中对象的指代表达式准确度差的问题。

为实现上述目的，本发明实施例提供了一种模型训练方法，所述模型训练方法包括：根据对象描述训练样本的样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器，生成所述对象描述训练样本的第一特征向量；以及根据所述对象描述训练样本的非目标对象的视觉特征和所述指示对象描述网络模型的第二指示器，生成所述对象描述训练样本的第二特征向量；其中，所述第一指示器与第二指示器为不同的可学习嵌入向量；所述非目标对象为所述样本图像中除目标对象外的其他对象；所述对象描述训练样本中包括：所述目标对象的原始指代表达式；通过指示对象描述网络模型对所述第一特征向量和所述第二特征向量进行识别，生成所述目标对象的生成指代表达式；根据所述目标对象的原始指代表达式和生成指代表达式，对所述指示对象描述网络模型的模型参数进行修正，并继续执行生成下一对象描述训练样本的第一特征向量的步骤，直至所述指示对象描述网络模型的训练情况满足预设条件，得到已训练的指代表达式生成模型；其中，所述指代表达式生成模型用于生成用于描述图像中目标对象的自然语言。

可选地，所述目标对象的数量至少为一个。

可选地，所述模型训练方法还包括：通过主干网络对所述样本图像进行特征提取，生成所述样本图像的图像特征图；将所述样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码；根据各候选对象的对象分割掩码，确定所述样本图像中各候选对象的视觉特征；基于所述样本图像中各候选对象的视觉特征，构建所述对象描述训练样本。

可选地，所述将所述样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码，具体包括：将所述图像特征图作为输入项，输入至候选对象提取网络模型，以通过候选对象提取网络模型的掩码注意力层，生成所述样本图像中候选对象的注意力掩码；通过候选对象提取网络模型，以根据所述掩码注意力层以及所述图像特征图，生成所述样本图像中各候选对象的对象分割掩码。

为了实现上述目的，本发明实施例还提供了一种指代表达式生成方法，应用如上任一所述的模型训练方法得到的指代表达式生成模型，所述指代表达式生成方法包括：获取待描述图像中的目标对象和非目标对象的视觉特征；将所述目标对象和非目标对象的视觉特征输入至所述指代表达式生成模型；根据所述目标对象的视觉特征和第一指示器，生成所述待描述图像的第一特征向量；以及根据所述非目标对象的视觉特征和第二指示器，生成所述待描述图像的第二特征向量；通过所述指代表达式生成模型对所述第一特征向量和第二特征向量进行识别，生成所述待描述图像中目标对象的生成指代表达式。

可选地，所述方法还包括：将所述待描述图像、所述待描述图像中目标对象的生成指代表达式、所述待描述图像中各候选对象的原始视觉特征，作为校验样本；将所述校验样本作为输入项，输入至对象选择网络模型；其中，所述对象选择网络模型为已训练的神经网络模型；通过所述对象选择网络模型，对所述校验样本进行识别，以得到所述校验样本中生成指代表达式的目标视觉特征；根据所述生成指代表达式的目标视觉特征，以及所述校验样本中目标对象的原始视觉特征，确定已训练的指代表达式生成模型的准确度；在所述准确度小于预设阈值的情况下，对已训练的指代表达式生成模型进行再训练。

可选地，通过所述对象选择网络模型，对所述校验样本进行识别，以得到所述校验样本中生成指代表达式的目标视觉特征，具体包括：通过所述对象选择网络模型，对所述校验样本中的生成指代表达式进行识别，得到对应的语言特征；通过所述对象网络选择模型，确定所述语言特征与所述校验样本中各原始视觉特征的匹配度；通过所述对象选择网络模型，选择匹配度最高的原始视觉特征作为目标视觉特征并输出。

可选地，在所述准确度大于或等于预设阈值的情况下，所述指代表达式生成方法还包括：将所述待描述图像、所述待描述图像中目标对象的生成指代表达式、所述待描述图像中各候选对象的原始视觉特征，作为对象选择训练样本；通过所述对象选择训练样本，对所述对象选择网络模型进行再训练，以得到训练优化后的对象选择网络模型。

此外，为了实现上述目的，本发明实施例还提供了一种终端，其特征在于，所述终端包括：处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如上任意一项所述的模型训练方法中的步骤，或者如上任意一项所述的指代表达式生成方法中的步骤。

为了实现上述目的，本发明实施例还一种计算机可读存储介质，其特征在于所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任意一项所述的模型训练方法中的步骤，或者如上任意一项所述的指代表达式生成方法中的步骤。

本发明实施例通过根据样本图像中的目标对象的视觉特征以及指示对象描述网络模型的第一指示器，生成样本图像的第一特征向量，以及根据样本图像中的非目标对象的视觉特征以及指示对象描述网络模型的第二指示器，生成样本图像的第二特征向量，指示对象描述网络模型根据样本图像的第一特征向量和第二特征向量生成生成指代表达式，并根据第一图像的原始指代表达式和生成指代表达式进行训练，得到指代表达式生成模型。由此可知，本发明通过指示对象描述网络模型设置的第一指示器和第二指示器，分别分配给目标对象和非目标对象，以生成第一特征向量和第二特征向量，并根据第一特征向量和第二特征向量生成目标对象的指代表达式，即充分利用了样本图像中除目标对象外的其他对象，使得生成的用于描述目标对象的指代表达式更加精确，提高了指代表达式的准确性，能够充分区别于其他对象，以更加准确描述目标对象。

附图说明

图1为本发明实施例提供的模型训练方法的应用场景示意图；

图2为本发明实施例提供的模型训练方法的一种流程图；

图3为本发明实施例提供的模型训练方法中步骤S201的流程图；

图4为本发明实施例提供的模型训练方法的一种示意图；

图5为本发明实施例提供的模型训练方法中步骤S202、S203的示意图；

图6为本发明实施例提供的指代表达式生成方法的一种流程图；

图7为本发明实施例提供的模型训练方法的一种流程示意图；

图8为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在人工智能发展阶段，对于图像内容的学习与理解是一个重要的过程。目前的图像描述主要是指生产成本图像整体的描述，而仅仅对图像整体进行描述并不能对图像内容进行充分的学习和理解。因此，对于图像中的对象进行针对性的描述应用而生。这里的对象是指具有实体特征的对象，比如说一图像中既有蓝天、又有人、车，具有实体特征的人和车可以作为对象。对象的指代表达式（即自然语言描述）能够更加准确的对图像进行描述，并且对象的指代表达式也有利于图像分割技术的发展。

目前的指代性表达式生成方法往往是以目标对象的外包围框作为输入，提取外包围框内的目标区域的视觉特征，然后通过循环神经网络产生目标对象的自然语言描述（即指代表达式）。但是，在目标对象与图像中的其他对象存在重叠的情况下，提取到的视觉特征无法准确表达目标对象的信息，另一方面，仅考虑了目标对象的视觉特征，无法与图像中的其他对象区分开，从而造成目标对象的指代表达式的准确性低，无法准确描述目标对象。

为了解决上述问题，本发明实施例提供了一种模型训练方法，指代表达式生成方法及相关设备。

举例说明，本发明实施例可以应用到如图1所示的场景。在该场景中，首先，终端设备1可以采集训练样本，并将训练样本输入到服务器2，以使服务器2根据训练样本对指示对象描述网络模型进行训练。服务器2可以预先存储有指示对象描述网络模型，并响应终端设备1输入的训练样本，将训练样本中的样本图像的目标对象和非目标对象的视觉特征作为输入项输入至指示对象描述网络模型，以获得目标对象的生成指代表达式，然后，通过目标对象的原始指代表达式和生成指代表达式对所述指示对象描述网络模型进行修正，并继续执行生成下一训练样本的第一特征向量的操作，直至指示对象描述网络模型的训练情况满足预设条件，以得到已训练的指代表达式生成模型。

可以理解的是，上述应用场景中，虽然将本发明实施例的动作描述为部分由终端设备1执行，部分由服务器2执行，但是这些动作可以完全由终端设备1执行，或者完全由服务器2执行。本发明实施例在执行主体方面不受限制，只要执行了本发明实施方式所公开的动作即可。

需要注意的是，上述应用场景仅是为了便于理解本发明而示出，本发明的实施例在此方面不收任何限制。相反，本发明实施例可以应用于适合的任何场景。

下面结合附图，通过对实施例的描述，对发明内容做进一步说明。

图2为本发明实施例提供的一种模型训练方法的流程图。如图2所示，本发明实施例提供的模型训练方法，至少可以包括以下步骤：

S201，获取多个对象描述训练样本。

其中，每个对象描述训练样本至少可以包括：样本图像、样本图像中目标对象的视觉特征、样本图像中非目标对象的视觉特征、以及目标对象的原始指代表达式。其中，非目标对象为样本图像中除目标对象外的其他对象。

目标对象的原始指代表达式可以是预先存储的，或者是基于用户的输入操作获取的。举例说明，样本图像A中包括的对象有：人、车、树，将样本图像中的人作为目标对象，那么除人外的其他对象（车、树）作为非目标对象。由于在图像描述过程中，用户可以不止对图像中的一个对象进行描述，也可能对图像中多个对象一起进行描述，亦或者是对图像中的所有对象进行描述（即对图像进行描述）。

因此，对象描述训练样本中目标对象的数量至少为一个。在本发明实施例中，可以将图像中的每个对象称为候选对象。也就是说，可以在样本图像的候选对象中选定一个候选对象作为目标对象，也可以选取多个候选对象作为目标对象，甚至可以选择所有的候选对象作为目标对象。

由于对象描述训练样本中目标对象的数量至少为一个，所以通过对象描述训练样本对指示对象描述网络模型训练后，得到已训练的指代表达式生成模型，可以同时完成对单个对象、多个对象以及整张图像（即图像中的全部对象）的指代表达式的生成，使得通过本发明实施例提供的模型训练方法所得到的指代表达式生成模型的灵活性增加，可以适用于多种不同的需求。

图3为本发明实施例提供的模型训练方法中步骤S201的流程图，如图3所示，步骤S201至少可以通过以下步骤：

S301，通过主干网络对样本图像进行特征提取，生成样本图像的图像特征图。

在本发明的一些实例中，主干网络可以是已训练完成的神经网络模型，将输入主干网络的图像进行特征提取，输出该图像的图像特征图。并且，本发明实施例中的主干网络可以预先设置在服务器等设备中，例如ResNet50或ResNet100。

S302，将样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过候选对象提取网络模型的掩码注意力层，生成样本图像中候选对象的注意力掩码。

S303，通过候选对象提取网络模型，以根据注意力掩码以及图像特征图，生成样本图像中各候选对象的对象分割掩码。

如图4所示，候选对象提取网络模型可以由多层组成，每层至少可以包括：自注意力层、掩码注意力层以及前馈网络。本实施例中，采用Mask2Former模型作为候选对象提取网络模型，候选对象提取网络模型中包含的N个对象查询向量query。以候选对象提取网络模型中包括有100个对象查询向量query为例， 100个对象查询向量query会产生100个对象特征输出，即100个对象的视觉特征。在候选对象的数量不足100的情况下，会使用空白特征补足到100个对象特征输出。

进一步地，候选对象提取网络模型中的掩码注意力层可以根据N个对象查询向量query与图像特征图叉乘后二值化（例如二值化阈值为0.5），从而得到样本图像中候选对象的注意力掩码（即图4所示的mask）。然后基于注意力掩码，从N个对象特征输出中确定候选对象的对象特征输出，再根据每个候选对象的对象特征输出和图像特征图叉乘后二值化，得到每个候选对象的对象分割掩码。

由上述可知，本发明实施例的候选对象提取网络模型中包括有N个对象查询向量query，对应有N个对象特征输出。而实际使用过程中，图像中的候选对象的数量可能远小于N，因此通过掩码注意力层获取候选对象的注意力掩码，以基于该注意力掩码快速的确定候选对象的对象特征输出（即视觉特征）。

S304，根据各候选对象的对象分割掩码，确定样本图像中的各候选对象的视觉特征。

每个对象分割掩码均对应一个候选对象，由此可以得到样本图像中所有的候选对象，并获取各候选对象对应的对象分割掩码中的视觉特征，作为候选对象的视觉特征。

S305，基于样本图像中各候选对象的视觉特征，构建上述对象描述训练样本。

具体地，可以先获取各候选对象的原始指代表达式，从所述候选对象中随机选择至少一个候选对象作为目标对象；根据目标对象的原始指代表达式及视觉特征、非目标对象的视觉特征，构建上述对象描述训练样本。

可以理解的是，候选对象的原始指代表达式可以是预先存储的，或者是根据用户的输入操作所生成的。由于可能存在样本图像中的有些候选对象不具有对应的原始指代表达式的情况，在这种情况下，可以从具有原始指代表达式的候选对象中选择目标对象，将除目标对象外的其他候选对象作为非目标对象。

在本发明实施例中，通过候选对象提取网络模型可以快速、准确地获得样本图像中每个候选对象的对象分割掩码以及视觉特征，其所构建的对象描述训练样本也更准确，有利于后期指代表达式生成模型的训练，以得到准确度高的指代表达式生成模型。

可以理解的是，目前有些开放的数据集中包含有图像和对象分割掩码，例如MS-COCO数据集。因此本发明实施例所提供的步骤S201不仅可以通过上述步骤S301-S305以构建对象描述训练样本，还可以基于现有的数据集中对象分割掩码得到对应的视觉特征，以构建对象描述训练样本。此外，本发明实施例中还可以在预设数据集库中，获取预先存储的对象描述训练样本。

S202，根据对象描述训练样本中样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器，生成对象描述训练样本的第一特征向量。

其中，上述指示对象描述网络模型为预设的神经网络模型，通过对该指示对象描述网络模型的训练，以得到指代表达式生成模型。

S203，根据对象描述训练样本中样本图像的非目标对象的视觉特征与指示对象描述网络模型的第二指示器，生成对象描述训练样本的第二特征向量。

在指示对象描述网络模型中可以预先设置有第一指示器和第二指示器，第一指示器与第二指示器为不同的可学习嵌入向量。具体地，可学习嵌入向量可以是可学习的高维向量。

在本申请实施例中，根据目标对象的视觉特征与第一指示器生成对象描述训练样本的第一特征向量，可以是指将目标对象的视觉特征与第一指示器相加，得到第一特征向量。非目标对象的视觉特征与第二指示器相加，得到第二特征向量。其中，上述目标对象的视觉特征以及非目标对象的视觉特征也均以向量的形式存在，并且视觉特征的向量维度、第一指示器的向量维度以及第二指示器的向量维度均一致，可以通过向量逐点相加的方式分别得到第一特征向量、第二特征向量。

由于目标对象可以是一个候选对象，也可以是多个候选对象，亦或者甚至可以是所有的候选对象，如图5所示（图5为本发明实施例提供模型的训练方法中步骤S102、S103的示意图），有三个候选对象为3匹斑马，在描述单个物体（即目标对象为一个）时，目标对象的视觉特征与第一指示器相加，非目标对象的视觉特征与第二指示器相加，如图5中指示器1所示；在描述多个物体（即目标对象为多个）时，多个目标对象的视觉特征与第一指示器相加，非目标对象的视觉特征与第二指示器相加，如图5中指示器2所示；在描述整张图像（即目标对象为图像中的所有对象）时，所有目标对象的视觉特征与第一指示器相加，没有与第二指示器相加的候选对象，如图5中指示器3所示。

可以理解的是，在本发明实施例中上述步骤S202与S203可以同时执行，也可以先执行步骤S202再执行步骤S203，亦或者先执行步骤S203再执行步骤S202，具体不做限定。

S204，通过指示对象描述网络模型对第一特征向量和第二特征向量进行识别，生成目标对象的生成指代表达式。

将第一特征向量和第二特征向量作为输入项输入至指示对象描述网络模型中，指示对象描述网络模型可以根据第一特征向量和第二特征向量，生成目标对象的生成指代表达式。

S205，根据所述目标对象的原始指代表达式和生成指代表达式，对指示对象描述网络模型的模型参数进行修正。

S206，继续执行生成下一对象描述训练样本的第一特征向量的步骤，直至所述指示对象描述网络模型的训练情况满足预设条件，得到已训练的指代表达式生成模型。

其中，指代表达式生成模型用于生成用于描述图像中对象的自然语言。

具体地，对指示对象描述网络模型的模型参数进行修正，直至指示对象描述网络模型的模型参数满足预设条件，该预设条件可以包括：损失函数值满足预设要求或者训练次数达到预设次数。其中，预设要求可以是根据指代表达式生成模型的精度来确定，在这里不做详细说明。预设次数可以是指示对象描述网络模型的最大训练次数，例如5000次。

因此，在指示对象描述网络模型输出目标对象的生成指代表达式后，根据目标对象的原始指代表达式和第二指代表达生计算指示对象描述网络模型的损失函数值，在计算得到损失函数值后，判断该损失函数值是否满足预设要求；若损失函数值满足预设要求，则结束训练；若损失函数值未满足预设要求，则判断指示对象描述网络模型的训练次数是否达到预设次数，若未达到预设次数，可以根据损失函数值对指示对象描述网络模型的模型参数进行修正；若达到预设次数，则结束训练。这种通过预设损失函数和训练次数来判断指示对象描述网络模型的训练是否结束，可以有效避免因损失函数值无法达到预设要求造成指示对象描述网络模型的训练进入死循环的问题。

进一步地，在指示对象描述网络模型的训练情况未满足预设条件的情况下，在对指示对象描述网络模型的模型参数进行修正后，需要继续对指示对象描述网络模型进行训练，即继续执行生成下一对象描述训练样本的第一指示器第一特征向量的步骤。其中，继续执行的下一对象描述训练样本可以是为作为输入项输入过指示对象描述网络模型的对象描述训练样本，也可以是从未作为输入项输入过指示对象描述网络模型的对象描述训练样本。可以理解的是，在对象描述训练样本的样本图像中包括多个候选对象时，可以选择不同的候选对象作为目标对象生成新的对象描述训练样本，作为从未作为输入项输入过指示对象描述网络模型的对象描述训练样本。例如，一样本图像的候选对象包括候选对象A、候选对象B、候选对象C，则至少可以生成3个不同的训练样本，其中，对象描述训练样本1为以候选对象A作为目标对象的训练样本，对象描述训练样本2为以候选对象B为目标对象的训练样本，对象描述训练样本3为以候选对象C为目标对象的训练样本。需要说明的是，可以为每个训练样本进行编号，按照训练样本的编号对指示对象描述网络模型进行训练。

由上述可知，本发明实施例中步骤S202和步骤S203之间的执行顺序不受限制，因此，可以理解的是步骤S206也可以是：继续执行生成下一对象描述训练样本的第二特征向量的步骤，直至所述指示对象描述网络模型的训练情况满足预设条件，得到已训练的指代表达式生成模型。也就是说，在执行完步骤S205后，根据下一对象描述训练样本继续执行步骤S202至S205，直至指示对象描述网络模型的训练条件满足预设情况再结束训练，得到已训练的指代表达式生成模型。

如图4所示，在本发明实施例中，指示对象描述网络模型的解码器可以有M层（本实施例中以传统Transformer解码器构建指示对象描述网络模型的解码器），每层都包括一个自注意力层、一个跨注意力层以及一个前馈网络。以候选对象提取网络模型为Mask2Former为例，假设产生100个对象特征输出，指示对象描述网络模型的解码器的跨注意力层可以查询图像中100个候选对象的视觉特征，为了产生第K个候选对象（即目标对象）的自然语言描述（即指代表达式），将第一指示器分配给第K个候选对象，将第二指示器分配给除目标对象外的非目标对象，其分配方式为将第一指示器以及第二指示器与分配的视觉特征相加。此外，指示对象描述网络模型的解码器还可以采用例如自回归的文本生成方式，即根据已有文本内容逐个预测出下一个词语，例如，由‘a fish in the’预测出‘a fish in thewater’，解码器的输入是文本描述的一个前缀，该前缀可以提供过指示对象描述网络模型预测下一个单词。在训练过程中，可以将原始指代表达式的不同前缀作为输入，监督指示对象描述网络模型对下一个单词的预测，以生成目标对象的生成指代表达式。

本发明实施例提供的模型训练方法中，通过在指示对象描述网络模型中设置第一指示器和第二指示器，并将第一指示器、第二指示器分别分配给样本图像中的目标对象、非目标对象，以得到对象描述训练样本的第一特征向量和第二特征向量，指示对象描述网络模型通过第一特征向量和第二特征向量生成目标对象的生成指代表达式，然后通过生成指代表达式以及对象描述训练样本中目标对象的原始指代表达式，调整指示对象描述网络模型的模型参数，以得到已训练的指代表达式生成模型。在训练过程中充分利用了样本图像中除目标对象外非目标对象的信息，可以将精确地将目标对象与图像中的非目标对象区分开，以得到更精确的自然语言描述，即提高生成的图像中对象的指代表达式的准确度，能够更加准确的描述图像中的对象，有利于人工智能的发展。

此外，由上述可知本发明实施例中的目标对象的数量至少为1个，故通过本发明实施例提供的模型训练方法得到的指代表达式生成模型，还可以同时完成图像中目标对象的自然语言描述，以及图像描述（即目标对象为图像中所有的候选对象）。

基于上述模型训练方法，本发明实施例还提供了一种指代表达式生成方法，该方法应用如上实施例所述的模型训练方法训练得到的指代表达式生成模型，如图6所示，该指代表达式生成方法可以包括：

S601，获取待描述图像中目标对象以及非目标对象的视觉特征。

其中，待描述图像中除目标对象外的其他对象均为非目标对象。

在步骤S601之前，可以将待描述图像输入至上述候选对象提取网络模型中，以使候选对象提取网络模型可以提取到待描述图像中各候选对象的视觉特征以及对象分割掩码，从而得到待描述图像的各候选对象并发送至终端设备进行展示，以便基于用户的操作，确定目标对象，并将该待描述图像中除目标对象外的其他候选对象作为非目标对象。

通过候选对象提取网络模型，获取图像中各候选对象的视觉特征、对象分割掩码，以获得图像中的各候选对象以及对应的视觉特征，在上述实施例中已进行阐述，再次不再加以赘述，具体参照上述实施例。

不论是在指代表达式生成模型的训练过程中，还是在其使用过程中，都可以通过候选对象提取网络模型，得到图像中每个候选对象的对象分割掩码以及视觉特征。

S602，将待描述图像中目标对象以及非目标对象的视觉特征输入至指代表达式生成模型。

S603，根据目标对象的视觉特征与指代表达式生成模型的第一指示器，生成待描述图像的第一特征向量。

S604，根据非目标对象的视觉特征与指代表达式生成模型的第二指示器，生成待描述图像的第二特征向量。

可以理解的是，在执行上述步骤S603和S604的过程中，可以先执行步骤S603再执行步骤S604，或者先执行步骤S604再执行步骤S603，亦或者步骤S603和步骤S604同步执行，在本发明实施例中不做具体限定。

S605，通过指代表达式生成模型对待描述图像的第一特征向量和第二特征向量进行识别，生成待描述图像中目标对象的生成指代表达式。

通过上述指代表达式生成方法，充分考虑了除目标对象外待描述图像中其他对象的信息，以使得生成的目标对象的指代表达式能够与待描述图像中的其他对象区分开，以精确的对目标对象进行自然语言描述，提高了目标对象的自然语言描述的准确性。

在一些现有的开放数据集中，例如MS-COCO数据集中，其有大量的数据包括图像与对象分割掩码，但是没有对应的自然语言描述。因此，通过上述指代表达式生成方法，生成开放数据集中各图像中候选对象的指代表达式。也即是说，可以对现有的数据集进行相应的数据扩充，使得具有图像以及对象分割掩码的数据集还可以包含图像中各候选对象的指代表达式，以生成新的数据集，便于后续的使用。但是由于数据集中的对象分割掩码存在一定的噪声，因此所生成的指代表达式也存在一定的噪声。

基于此，在本发明实施例中，确定开放数据集中各待描述图像中每个候选对象的对象分割掩码，确定各对象分割掩码在其待描述图像中所占的面积；在各对象分割掩码在其待描述图像中所占的面积小于预设阈值的情况下，将该对象分割掩码从该开发数据集中清除，得到数据清除的开发数据集；通过指代表达式生成模型，确定数据清除后的开发数据集中各候选对象的指代表达式并存储至数据清除后的数据集，组成数据扩充数据集。

通过上述方法，可以先将开放数据集中对象分割掩码进行清洗，避免噪声所造成指代表达式准确性降低的问题。并且，还可以对现有的开放数据集进行相应的数据扩充，数据扩充后的开放数据集中除了包括图像以及对象分割掩码之外，还可以包含图像中各候选对象的指代表达式，便于后续的使用。

此外，为了保证本发明实施例提供的模型训练方法得到的指代表达式生成模型的准确性，在本发明实施例中可以通过对象选择网络模型对指代表达式生成模型进行验证。其中，对象选择网络模型可以是已训练的神经网络模型，将图像、图像中各候选对象的视觉特征以及自然语言描述作为输入项输入对象选择网络模型，输出图像中自然语言描述对应的视觉特征。

具体地，将上述通过指代表达式生成模型得到的目标对象的生成指代表达式、待描述图像，以及各待描述图像中各候选对象的原始视觉特征作为校验样本，并将校验样本作为输入项输入至对象选择网络模型的。通过对象选择网络模型对校验样本中的生成指代表达式进行识别，得到对应的语言特征；通过对象选择网络模型确定语言特征与校验样本中各原始视觉特征的匹配度；通过对象选择网络模型选择匹配度最高的原始视觉特征，作为目标视觉特征并输出。根据校验样本中生成指代表达式对应的候选对象的原始视觉特征，以及对象选择网络模型输出的目标视觉特征，确定已训练的指代表达式生成模型的准确度；在该准确度小于预设阈值的情况下，对已训练的直达表达式生成模型进行再训练。

如图4所示，本发明实施例中的对象选择网络模型的结构也类似于传统的Transformer模型，具有解码器和编码器。对象选择网络模型也可以有多层组成，每层至少包括：自注意力层、跨注意力层以及前馈网络。对象选择网络模型中的语言特征编码器（例如BERT）对输入的生成指代表达式（即自然语言描述）进行识别，得到指代表达式对应的语言特征并输入至解码器的跨注意力层。将各候选对象的原始视觉特征输入对象选择网络模型中解码器，解码器的跨注意力层确定语言特征与各候选对象的原始视觉特征的匹配度，并根据各匹配度生成一个分数表，对象选择网络模型选择该分数表中匹配度最高的原始视觉特征作为目标视觉特征并输出。也就是说，对象选择网络模型将分数表中匹配度最高的视觉特征对应的候选对象，作为校验样本中生成指代表达式的目标对象。根据通过对象选择网络模型输出的目标视觉特征，与校验样本中生成指代表达式对应的候选对象的原始视觉特征，确定已训练的指代表达式生成模型的准确度。在准确度小于预设阈值的情况下，对该已训练的指代表达式生成模型进行再训练。

通过上述对象选择网络模型，可以实现对已训练的指代表达式生成模型进行校验，以保证指代表达式生成模型的准确度。

此外，在上述准确度大于或等于对应的预设阈值的情况下，还可以将通过指代表达式生成模型得到的目标对象的生成指代表达式、待描述图像，以及通过候选对象提取网络模型得到的各待描述图像中各候选对象的原始视觉特征，作为对象选择网络模型的对象选择训练样本，对对象选择网络模型进行再训练，以训练优化该对象选择网络模型。

具体地，通过对象选择网络模型，对对象选择训练样本的生成指代表达式进行识别，确定对应的语言特征；通过对象选择网络模型，确定该语言特征与待描述图像中各候选对象的原始视觉特征的匹配度；通过对象选择网络模型，将匹配度最高的原始视觉特征作为目标视觉特征并输出；根据对象选择网络模型输出的目标特征和对象选择训练样本中生成指代表达式对应的视觉特征，对对象选择网络模型的模型参数进行调整，得到训练优化后的对象选择网络模型。

上述实施例中已阐述将校验样本作为输入项输入至对象选择网络模型，以输出目标视觉特征的具体技术方案。在此参照上述阐述的具体技术方案，以实现本发明实施例中将对象选择训练样本作为输入项输入至对象选择网络模型，以输出目标视觉特征，再次不再多加赘述。

此外，除了通过上述构建的对象选择训练样本对对象选择网络模型进行再训练，还可以结合人为标注样本对对象选择网络模型进行再训练，并且为了避免构建的对象选择训练样本的噪声，在对对象选择网络模型进行再训练的过程中，可以将对象选择训练样本的损失函数之乘以预设阈值（例如0.1），以降低对象选择训练样本在训练过程中的比重。通过上述方式，可以将通过指代表达式生成模型生成的生成指代表达式作为训练样本，对对象选择网络模型进行再训练，以得到优化的对象选择网络模型，提高对象选择网络模型的精确度。

此外，本发明实施例中可以根据对象选择网络模型所输出的对象的视觉特征确定该对象的对象分割掩码，并以对象分割掩码构建对象提取训练样本，对上述候选对象提取网络模型进行再训练，以优化预设候选对象提取网络模型的输出精度。

也就是说，如图4、7所示，可以通过候选对象提取网络模型提取图像中的所有候选对象的视觉特征，将其作为训练样本以训练指示对象描述网络模型，然后根据训练得到的指代表达式生成模型对无语言描述的数据集识别，以生成指代表达式扩充该数据集，然后将扩充的数据集作为训练样本训练对象选择网络模型。并且，对象选择网络模型还能够对指代表达式生成模型进行校验。指代表达式生成模型、候选对象提取网络模型以及对象选择网络模型三者之间可以实现联合训练，充分利用相关数据，以进一步提高各个模型预测的精确度。

基于上述模型训练方法以及指代表达式生成方法，本发明实施例还提供了一种终端，如图8所示，其包括至少一个处理器（processor）80；显示屏81；以及存储器（memory）82，还可以包括通信接口（Communications Interface）83和总线84。其中，处理器80、显示屏81、存储器82和通信接口83可以通过总线84完成相互间的通信。显示屏81设置为显示初始设置模式中预设的用户引导界面。通信接口83可以传输信息。处理器80可以调用存储器82中的逻辑指令，以执行上述实施例中的模型训练方法或者指代表达式生成方法。

此外，上述的存储器82中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器82作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器80通过运行存储在存储器82中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器82可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器82可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，基于上述模型训练方法以及指代表达式生成方法，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述实施例所述的模型训练方法中的步骤，或者指代表达式生成方法中的步骤。

此外，上述存储介质以及终端中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种模型训练方法，其特征在于，所述模型训练方法包括：

根据对象描述训练样本的样本图像的目标对象的视觉特征和指示对象描述网络模型的第一指示器，生成所述对象描述训练样本的第一特征向量；以及

根据所述对象描述训练样本的非目标对象的视觉特征和所述指示对象描述网络模型的第二指示器，生成所述对象描述训练样本的第二特征向量；

其中，所述第一指示器与第二指示器为不同的可学习嵌入向量；所述非目标对象为所述样本图像中除目标对象外的其他对象；所述对象描述训练样本中包括：所述目标对象的原始指代表达式；

通过所述指示对象描述网络模型对所述第一特征向量和所述第二特征向量进行识别，生成所述目标对象的生成指代表达式；

根据所述目标对象的原始指代表达式和生成指代表达式，对所述指示对象描述网络模型的模型参数进行修正，并继续执行生成下一对象描述训练样本的第一特征向量的步骤，直至所述指示对象描述网络模型的训练情况满足预设条件，得到已训练的指代表达式生成模型；

其中，所述指代表达式生成模型用于生成用于描述图像中目标对象的自然语言。

2.根据权利要求1所述的模型训练方法，其特征在于，所述目标对象的数量至少为一个。

3.根据权利要求1所述的模型训练方法，其特征在于，所述模型训练方法还包括：

通过主干网络对所述样本图像进行特征提取，生成所述样本图像的图像特征图；

将所述样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码；

根据各候选对象的对象分割掩码，确定所述样本图像中各候选对象的视觉特征；

基于所述样本图像中各候选对象的视觉特征，构建所述对象描述训练样本。

4.根据权利要求3所述的模型训练方法，其特征在于，所述将所述样本图像的图像特征图作为输入项，输入至候选对象提取网络模型，以通过所述候选对象提取网络确定所述样本图像中各候选对象的对象分割掩码，具体包括：

将所述图像特征图作为输入项，输入至所述候选对象提取网络模型，以通过所述候选对象提取网络模型的掩码注意力层，生成所述样本图像中候选对象的注意力掩码；

通过所述候选对象提取网络模型，以根据所述掩码注意力层以及所述图像特征图，生成所述样本图像中各候选对象的对象分割掩码。

5.一种指代表达式生成方法，其特征在于，应用如权利要求1-4任一所述的模型训练方法得到的指代表达式生成模型，所述指代表达式生成方法包括：

获取待描述图像中的目标对象和非目标对象的视觉特征；

将所述目标对象和非目标对象的视觉特征输入至所述指代表达式生成模型；

根据所述目标对象的视觉特征和第一指示器，生成所述待描述图像的第一特征向量；以及根据所述非目标对象的视觉特征和第二指示器，生成所述待描述图像的第二特征向量；

通过所述指代表达式生成模型对所述第一特征向量和第二特征向量进行识别，生成所述待描述图像中目标对象的生成指代表达式。

6.根据权利要求5所述的指代表达式生成方法，其特征在于，所述指代表达式生成方法还包括：

将所述待描述图像、所述待描述图像中目标对象的生成指代表达式、所述待描述图像中各候选对象的原始视觉特征，作为校验样本；

将所述校验样本作为输入项，输入至对象选择网络模型；

其中，所述对象选择网络模型为已训练的神经网络模型；

通过所述对象选择网络模型，对所述校验样本进行识别，以得到所述校验样本中生成指代表达式的目标视觉特征；

根据所述生成指代表达式的目标视觉特征，以及所述校验样本中目标对象的原始视觉特征，确定已训练的指代表达式生成模型的准确度；

在所述准确度小于预设阈值的情况下，对已训练的指代表达式生成模型进行再训练。

7.根据权利要求6所述的指代表达式生成方法，其特征在于，通过所述对象选择网络模型，对所述校验样本进行识别，以得到所述校验样本中生成指代表达式的目标视觉特征，具体包括：

通过所述对象选择网络模型，对所述校验样本中的生成指代表达式进行识别，得到对应的语言特征；

通过所述对象选择网络模型，确定所述语言特征与所述校验样本中各原始视觉特征的匹配度；

通过所述对象选择网络模型，选择匹配度最高的原始视觉特征作为目标视觉特征并输出。

8.根据权利要求6所述的指代表达式生成方法，其特征在于，在所述准确度大于或等于预设阈值的情况下，所述指代表达式生成方法还包括：

将所述待描述图像、所述待描述图像中目标对象的生成指代表达式、所述待描述图像中各候选对象的原始视觉特征，作为对象选择训练样本；

通过所述对象选择训练样本，对所述对象选择网络模型进行再训练，以得到训练优化后的对象选择网络模型。

9.一种终端，其特征在于，所述终端包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序时实现如权利要求1～4任意一项所述的模型训练方法中的步骤，或者如权利要求5～8任意一项所述的指代表达式生成方法中的步骤。

10.一种计算机可读存储介质，其特征在于所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～4任意一项所述的模型训练方法中的步骤，或者如权利要求5～8任意一项所述的指代表达式生成方法中的步骤。