CN112686277A

CN112686277A - 模型训练的方法和装置

Info

Publication number: CN112686277A
Application number: CN201910995424.9A
Authority: CN
Inventors: 吕肖庆; 张晨睿; 黄翊峰; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2021-04-20

Abstract

本申请公开了模型训练的方法和装置，属于机器学习技术领域。模型训练的方法包括：获取训练对象数据集、验证对象数据集和各对象的类别关联信息；对训练对象的图像进行特征提取，得到训练对象的视觉特征；基于训练对象的视觉特征、训练对象的类别描述信息和验证对象的类别描述信息，生成验证对象的视觉特征；基于各对象的类别关联信息、验证对象和训练对象的视觉特征，对验证对象和训练对象的视觉特征进行更新；基于各对象的类别关联信息、更新后的验证对象的视觉特征、训练对象的视觉特征和训练对象的视觉特征的标签进行模型训练。采用本申请，使用的验证对象的视觉特征更加适用于模型的训练，使得训练完后的模型在进行实际工作时的效果较好。

Description

模型训练的方法和装置

技术领域

本申请涉及机器学习技术领域，具体涉及一种模型训练的方法和装置。

背景技术

在图像识别领域的机器学习可以分为有监督的学习和无监督的学习。有监督的学习依赖于大规模的标注数据，例如，训练用于识别斑马的模型，需要大量的带有标注的斑马图像。小样本学习和零样本学习是无监督学习中的两个重要的子领域，零样本学习不使用验证对象的图像进行训练，例如，同样是训练用于识别斑马的模型，零样本学习不使用斑马的图像进行训练，而可以使用普通马、老虎和熊猫的图像进行训练，使得训练得到的模型具有识别斑马的能力。而小样本学习与零样本学习相比，在训练时可以使用少量的验证对象的图像进行训练。与有监督学习相比，由于不直接使用验证对象的图像进行训练，无监督学习的效果较差。因此，如何提高无监督学习的效果，十分重要。

相关技术中提供了一种零样本学习算法，其具体的训练过程如下所述，首先，将训练对象数据集和验证对象数据集输入到待训练模型中，其中，训练对象数据集中包括训练对象的图像、训练对象的标签和训练样本的类别描述信息，验证对象数据集包括验证对象的标签和验证对象的类别描述信息，训练对象的图像可以为一个训练对象的图像，也可以为多个训练对象的图像，验证对象的图像可以为一个验证对象的图像，也可以为多个验证对象的图像。然后，待训练模型对各训练对象的图像进行特征提取，得到训练对象的视觉特征。再然后，待训练模型基于训练对象的视觉特征、训练对象的类别描述信息和训练对象的类别描述信息，生成验证对象的视觉特征。最后，待训练模型基于验证对象的视觉特征和验证对象的视觉特征对应的标签进行训练。可见，相关技术中提供的零样本学习算法，通过生成验证对象的视觉特征，将原来的零样本的训练转化为了传统的有监督的训练。

在实现本申请的过程中，发明人发现相关技术至少存在以下问题：

相关技术中仅仅基于训练对象的视觉特征、训练对象的类别描述信息和验证对象的类别描述信息，生成验证对象的视觉特征。生成的验证对象的视觉特征质量较差，使得根据该视觉特征训练完成的模型，在进行实际工作时的效果较差。

发明内容

本申请实施例提供了模型训练的方法和装置，可以解决相关技术中存在的技术问题。所述模型训练的方法和装置的技术方案如下：

第一方面，提供了一种模型训练的方法，所述方法包括：

获取训练对象数据集、验证对象数据集和各对象的类别关联信息，其中，所述训练对象数据集包括所述训练对象的图像、所述训练对象的标签和所述训练对象的类别描述信息，所述验证对象数据集包括所述验证对象的标签和所述验证对象的类别描述信息，所述各对象包括各训练对象和各验证对象；

对所述训练对象的图像进行特征提取，得到所述训练对象的视觉特征；

基于所述训练对象的视觉特征、所述训练对象的类别描述信息和所述验证对象的类别描述信息，生成验证对象的视觉特征；

基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述验证对象的视觉特征和所述训练对象的视觉特征进行更新；

基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征的标签进行模型训练。

可选的，所述基于所述训练对象的视觉特征、所述训练对象的类别描述信息和所述验证对象的类别描述信息，生成验证对象的视觉特征，包括：

将所述训练对象的视觉特征、所述训练对象的类别描述信息和所述验证对象的类别描述信息输入到生成式对抗网络中，生成验证对象的视觉特征。

可选的，所述基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述验证对象的视觉特征和所述训练对象的视觉特征进行更新，包括：

将各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征输入到第一图聚合网络中，对验证对象的视觉特征和训练对象的视觉特征进行初始更新；

基于初始更新后的验证对象的视觉特征、训练对象的视觉特征以及高斯相似度确定公式，对各对象的类别关联信息进行更新；

将更新后的各对象的类别关联信息、初始更新后的验证对象的视觉特征和训练对象的视觉特征输入到第二图聚合网络中，对初始更新后的验证对象的视觉特征和训练对象的视觉特征进行更新；

所述基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征的标签进行模型训练，包括：

基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征的标签进行模型训练。

可选的，所述将各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征输入到第一图聚合网络中，对验证对象的视觉特征和训练对象的视觉特征进行初始更新，包括：

基于验证对象的视觉特征、训练对象的视觉特征以及高斯相似度确定公式，对各对象的类别关联信息进行初始更新，得到各对象的视觉特征的样本关联信息；

对于每个待更新视觉特征，基于所述待更新视觉特征与其他视觉特征的类别关联信息和样本关联信息，确定所述待更新视觉特征与每个其他视觉特征的类别关联度和样本关联度；基于所述待更新视觉特征与每个其他视觉特征的类别关联度和样本关联度，确定多个目标视觉特征；基于所述待更新视觉特征、各个目标视觉特征以及所述待更新视觉特征与各个目标视觉特征的样本关联度和类别关联度，对所述待更新视觉特征进行初始更新。

可选的，所述基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征的标签进行模型训练，包括：

基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征、所述更新后的训练对象的视觉特征的标签和所述验证对象的视觉特征的标签进行模型训练。

可选的，所述基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征、所述更新后的训练对象的视觉特征的标签和所述验证对象的视觉特征的标签进行模型训练，包括：

将更新后的验证对象的视觉特征和更新后的训练对象的视觉特征划分为训练集和支撑集；

根据所述训练集中的视觉特征、所述训练集中的视觉特征的标签、更新后的各对象的类别关联信息和所述支撑集中的视觉特征，基于标签传播算法，预测所述支撑集中的视觉特征的标签；

将预测的所述支撑集中的视觉特征的标签和所述训练集中的视觉特征的标签组合，得到第一标签矩阵；

根据所述支撑集中的视觉特征、所述支撑集中的视觉特征的标签、更新后的各对象的类别关联信息和所述训练集中的视觉特征，基于标签传播算法，预测所述训练集中的视觉特征的标签；

将所述支撑集中的视觉特征的标签和预测的训练集中的视觉特征的标签组合，得到第二标签矩阵；

基于所述第一标签矩阵和所述第二标记矩阵对模型进行调整，当所述第一标签矩阵和所述第二标签矩阵分别收敛，且基于预测的所述支撑集中视觉特征的标签和实际的所述支撑集中视觉特征的标签得到的损失值小于目标阈值时，模型训练完成。

第二方面，提供了一种模型训练的方法，所述方法包括：

获取训练对象数据集、验证对象数据集和各对象的类别关联信息，其中，所述训练对象数据集包括所述训练对象的图像、所述训练对象的标签和所述训练对象的类别描述信息，所述验证对象数据集包括所述验证对象的图像、所述验证对象的标签和所述验证对象的类别描述信息，所述各对象包括各训练对象和各验证对象；

分别对所述训练对象的图像和所述验证对象的图像进行特征提取，得到所述训练对象的视觉特征和所述验证对象的视觉特征；

基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述训练对象的视觉特征和所述验证对象的视觉特征进行更新；

基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征对应的标签进行模型训练。

可选的，所述基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述训练对象的视觉特征和所述验证对象的视觉特征进行更新之前，还包括：

基于所述训练对象的视觉特征、所述训练对象的类别描述信息和所述验证对象的类别描述信息，生成新的验证对象的视觉特征。

第三方面，提供了一种模型训练的装置，所述装置包括：

获取模块，用于获取训练对象数据集、验证对象数据集和各对象的类别关联信息，其中，所述训练对象数据集包括所述训练对象的图像、所述训练对象的标签和所述训练对象的类别描述信息，所述验证对象数据集包括所述验证对象的标签和所述验证对象的类别描述信息，所述各对象包括各训练对象和各验证对象；

提取模块，用于对所述训练对象的图像进行特征提取，得到所述训练对象的视觉特征；

生成模块，用于基于所述训练对象的视觉特征、所述训练对象的类别描述信息和所述验证对象的类别描述信息，生成验证对象的视觉特征；

更新模块，用于基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述验证对象的视觉特征和所述训练对象的视觉特征进行更新；

训练模块，用于基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征的标签进行模型训练。

可选的，所述生成模块，用于：

可选的，所述更新模块，用于：

所述训练模块，用于：

可选的，所述更新模块，用于：

可选的，所述训练模块，用于：

第四方面，提供了一种模型训练的装置，所述装置包括：

获取模块，用于获取训练对象数据集、验证对象数据集和各对象的类别关联信息，其中，所述训练对象数据集包括所述训练对象的图像、所述训练对象的标签和所述训练对象的类别描述信息，所述验证对象数据集包括所述验证对象的图像、所述验证对象的标签和所述验证对象的类别描述信息，所述各对象包括各训练对象和各验证对象；

提取模块，用于分别对所述训练对象的图像和所述验证对象的图像进行特征提取，得到所述训练对象的视觉特征和所述验证对象的视觉特征；

更新模块，用于基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述训练对象的视觉特征和所述验证对象的视觉特征进行更新；

训练模块，用于基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征对应的标签进行模型训练。

可选的，所述装置还包括生成模块，用于：

可选的，所述更新模块，用于：

所述训练模块，用于：

可选的，所述更新模块，用于：

可选的，所述训练模块，用于：

第五方面，提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述第一方面或第二方面所述的模型训练的方法。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述第一方面或第二方面所述的模型训练的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的技术方案，通过基于各对象的类别关联信息、验证对象的视觉特征和训练对象的视觉特征，对训练对象的视觉特征和验证对象的视觉特征进行更新。使得更新后的视觉特征，更加适用于模型的训练，使得后续训练完成的模型，在进行实际工作时的效果较好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种模型训练的方法的流程图；

图2是本申请实施例提供的另一种模型训练的方法的流程图；

图3是本申请实施例提供的一种模型训练的装置的结构示意图；

图4是本申请实施例提供的另一种模型训练的装置的结构示意图；

图5是本申请实施例提供的一种计算机设备的结构示意图；

图6是本申请实施例提供的一种实例级别的语义关联图的生成框架图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的模型训练的方法可以由计算机设备实现，其中，该计算机设备可以为终端，也可以为服务器。

本申请实施例提供的模型训练的方法，作为迁移学习的分支领域，具有广泛的应用场景。具体的，可以用于图像分类场景、视频分类场景和目标检测场景，相应的，本申请实施例提供的模型训练的方法用于训练的模型为图像分类模型、视频分类模型和目标检测模型，也即待训练模型训练完成后可以用于图像分类、视频分类和目标检测，各场景的详细介绍可以如下所述。

图像分类场景：作为工业界最为常见的问题之一，图像分类是包括自动驾驶和医疗影像分析等视觉领域的基础感知问题之一。现有的图像分类算法需要大量的标注数据，而这样的条件在实际应用场景中往往难以实现。以医疗影像分析为例，由于法律法规、道德伦理和病人隐私等问题，可供公开使用的疾病相关类医疗图像的数量极少，不足以驱动深度学习模型的训练，已有图像分类算法难以实现在此类数据上的应用。而本申请实施例提供的模型训练的方法可以解决此类问题，只需要提供极少数验证对象的图像，甚至不需要验证对象的图像，就可以完成模型的训练，为解决智能医疗和计算机辅助诊断等提供了解决方案。

视频分类场景：随着社交网络和多媒体的兴起，视频逐渐成为人们日常生活中最重要的数据之一，且其增长速度迅猛。面对海量的视频数据，如何实现自动内容分析是一项亟待解决的难题，具有广阔的应用前景和市场价值。然而，相比于图像、文本和音频等其他类型的数据，视频具备本身独有的特性，这些特性为视频内容分析提出了巨大的挑战。第一，视频数据体量庞大，传统有监督深度学习在视频数据上的训练耗费的时间冗长，需要大量的服务器集群，且标注视频数据会耗费巨大的人力物力；第二，视频数据本身内容种类繁杂，但是视频动作识别这一个子领域，就不断有新的类别出现，传统有监督学习算法无法自适应地扩展到新出现的类别上；第三，视频数据的长尾分布明显，传统有监督学习算法在样本量少的视频类中极其容易产生过拟合现象，限制了模型的泛化性能。针对上述问题，本申请实施例提供的模型训练的方法，为实际场景中的视频内容分析提供了良好的解决方案，有利于工业界将基于深度学习的视频内容分析算法落地。

目标检测场景：作为视觉系统中底层感知领域的子问题，目标检测的应用前景也十分广阔。目标检测任务中，一个显著的问题是样本的不均衡问题，这对于复杂背景中的目标检测任务而言尤为突出。传统有监督算法在存在遮挡、光线变化和物体形变等实际应用场景中泛化性急救下降，限制了在真实环境中的应用。本申请实施例提供的方法，能凭借其较强的泛化能力，提高深度学习模型在复杂环境中检测目标。此外，本申请实施例提供的方法需要的训练样本远少于有监督学习，可以显著提高模型的训练效率并提高模型的可扩展性，为实时目标检测提供了解决方案。

如图1所示，本申请实施例提供了一种模型训练的方法，该模型训练的方法为一种零样本的学习算法，该模型训练的方法的处理流程可以包括如下步骤：

在步骤101中，获取训练对象数据集、验证对象数据集和各对象的类别关联信息。

其中，训练对象数据集包括训练对象的图像、训练对象的标签和训练对象的类别描述信息，验证对象数据集包括验证对象的标签和验证对象的类别描述信息，各对象包括各训练对象和各验证对象。

训练对象是指专门用于训练的对象，验证对象是指待训练模型训练完成后模型可以识别的对象。各对象的类别关联信息是指各验证对象之间、各训练对象之间以及验证对象与训练对象之间的类别关联信息，具体的，可以指各对象之间的相似度。根据训练的模型的不同，训练对象数据集和验证对象数据集也不同。当模型为图像分类模型时，训练对象数据集中的图像为图片，标签为每个图片的类别。当模型为目标检测模型时，训练对象数据集中的图像为图片，标签为每个图像中物体的类别。当模型为视频分类模型时，训练对象数据集中的图像为视频、标签为每个视频的类别。

例如，待训练模型为一个待训练的用于识别斑马的模型，则验证对象为斑马，训练对象可以为普通马、老虎和熊猫。则训练对象数据集包括普通马、老虎和熊猫的图像，普通马、老虎和熊猫的标签(标签指示哪张图像是普通马的图像，哪张图像是老虎的图像，哪张图像是熊猫的图像)以及普通马、老虎和熊猫的类别描述信息(例如，普通马的体型描述、老虎具有条纹的描述、熊猫的颜色为黑白的描述等)。验证对象数据集包括斑马的标签和斑马的类别描述(例如，斑马的颜色颜色为黑白、具有条纹和体型特征等描述)。各对象的类别关联信息即是指普通马、老虎和熊猫之间类别关联信息，以及普通马、老虎和熊猫分别与斑马的类别关联信息。类别关联信息可以包含有各类别的相似度，比方说普通马与斑马的相似度。

在实施中，技术人员收集和制作训练对象数据集、验证对象数据集和各对象的类别关联信息，并将其输入到待训练模型中。

例如，技术人员收集普通马、老虎和熊猫的图像，并为每个图像添加标签，并确定普通马、老虎和熊猫的类别描述信息，即得到训练数据集。技术人员确定斑马的类别描述信息和标签，即得到验证数据集。最后，技术人员确定各对象的类别关联信息，并与训练对象数据集、验证对象数据集一起输入到待训练模型中。则计算机设备可以获取训练对象数据集、验证对象数据集和各对象的类别关联信息。

在步骤102中，对训练对象的图像进行特征提取，得到训练对象的视觉特征。

其中，训练对象的视觉特征为训练对象的图像的特征图，其实质为一个特征矩阵，用于表示训练对象的图像。

在实施中，待训练模型对训练对象的图像进行特征提取，得到训练对象的视觉特征。

需要说明的是，进行特征提取的算法可以为本领域的现有算法，在此不再赘述。

在步骤103中，基于训练对象的视觉特征、训练对象的类别描述信息和验证对象的类别描述信息，生成验证对象的视觉特征。

其中，验证对象的视觉特征为合成的视觉特征，可以理解为虚拟的验证对象的图像的视觉特征。

在实施中，可以基于生成式对抗网络(Generative Adversarial Networks，GAN)来生成验证对象的视觉特征。

具体的，将训练对象的视觉特征、训练对象的类别描述信息和验证对象的类别描述信息输入到生成式对抗网络中，即可以生成验证对象的视觉特征。

在步骤104中，基于各对象的类别关联信息、验证对象的视觉特征和训练对象的视觉特征，对验证对象的视觉特征和训练对象的视觉特征进行更新。

其中，对验证对象的视觉特征和训练对象的视觉特征进行更新，即对训练对象和验证对象的特征矩阵进行处理，使其更适用于模型的训练。

在实施中，将各对象的类别关联信息、验证对象的视觉特征和训练对象的视觉特征输入到第一图聚合网络中，对验证对象的视觉特征和训练对象的视觉特征进行初始更新。

基于初始更新后的验证对象的视觉特征、训练对象的视觉特征以及高斯相似度确定公式，对各对象的类别关联信息进行更新。

将更新后的各对象的类别关联信息、初始更新后的验证对象的视觉特征和训练对象的视觉特征输入到第二图聚合网络中，对初始更新后的验证对象的视觉特征和训练对象的视觉特征进行更新。

需要说明的是，第一图聚合网络和第二图聚合网络可以相同，也可以不同。第一图聚合网络可以为graphsage，第二图聚合网络可以为图卷积神经网络(GraphConvolutional Network，GCN)。

可选的，为了提高对验证对象的视觉特征和训练对象的视觉特征进行初始更新的效果，可以基于多头注意力机制对第一图聚合网络进行改进，则相应的处理过程可以如下所述。

常规的图聚合网络对视觉特征进行初始更新的原理为：

对于每个待更新视觉特征，随机选取多个目标视觉特征，然后，根据多个目标视觉特征和待更新视觉特征对待更新视觉特征进行初始更新。

而基于多头注意力机制的图聚合网络的原理为：

基于各个验证对象的视觉特征、训练对象的视觉特征以及高斯相似度确定公式，对各对象的类别关联信息进行初始更新，得到各对象的视觉特征的样本关联信息。

对于每个待更新视觉特征，基于待更新视觉特征与其他视觉特征的类别关联信息和样本关联信息，确定待更新视觉特征与每个其他视觉特征的类别关联度和样本关联度。

基于待更新视觉特征与每个其他视觉特征的类别关联度和样本关联度，确定多个目标视觉特征。(例如，将类别关联度大于第一目标阈值，且样本关联度大于第二目标阈值的视觉特征，确定为目标视觉特征)

基于待更新视觉特征、各个目标视觉特征以及待更新视觉特征与各个目标视觉特征的样本关联度和类别关联度，对待更新视觉特征进行初始更新。

需要说明的是，上述每个视觉特征可以为训练对象的视觉特征，也可以为检测对象的视觉特征。

可以理解的是，与常规的图聚合网络相比，基于多头注意力机制的图聚合网络将随机选取目标视觉特征，改为基于关联度的大小来确定目标视觉特征，。并且，考虑到了样本关联度和类别关联度，使用样本关联度和类别关联度对目标视觉特征进行了加权处理，使得关联度大的目标视觉特征在待更新的视觉特征的更新过程中，起的作用较大。然后，即可以根据多个加权后的目标视觉特征和待更新视觉特征对待更新视觉特征进行初始更新。

在步骤105中，基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和更新后的训练对象的视觉特征的标签进行训练。

其中，各对象的类别关联信息为更新后的各对象的类别关联信息。

在实施中，可以基于标签的传播算法，对待训练的模型进行训练。具体的训练过程可以如下所述：

根据更新后的训练对象的视觉特征、更新后的训练对象的视觉特征的标签、更新后的验证对象的视觉特征以及各对象的类别关联信息，基于关系传播算法，预测更新后的验证对象的视觉特征的标签。

重复上述过程，直至预测得到的验证对象的视觉特征的标签收敛，且基于预测得到的标签与实际的标签得到的损失值小于目标阈值时，模型训练完成。

可以理解的是，基于上述训练过程训练完成的模型，可以用于识别验证对象的图像，具体的，可以用于目标检测、图像分类和视频分类。

可选的，为了提高训练的效率和效果，还可以采用对偶关系传播算法，对待训练模型进行训练。则步骤105相应的处理过程，可以如下所述：基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征、更新后的训练对象的视觉特征的标签和验证对象的视觉特征的标签进行模型训练。

在实施中，将更新后的验证对象的视觉特征和更新后的训练对象的视觉特征划分为两个集合，可以称为训练集和支撑集。

根据训练集中的视觉特征、训练集中的视觉特征的标签、更新后的各对象的类别关联信息和支撑集中的视觉特征，基于标签传播算法，预测支撑集中的视觉特征的标签。将预测的支撑集中的视觉特征的标签和训练集中的视觉特征的标签组合，得到第一标签矩阵。

根据支撑集中的视觉特征、支撑集中的视觉特征的标签、更新后的各对象的类别关联信息和训练集中的视觉特征，基于标签传播算法，预测训练集中的视觉特征的标签。将支撑集中的视觉特征的标签和预测的训练集中的视觉特征的标签组合，得到第二标签矩阵。

重复上述处理，当第一标签矩阵和第二标签矩阵分别收敛，且基于预测的支撑集中视觉特征的标签和实际的支撑集中视觉特征的标签得到的损失值小于目标阈值时，模型训练完成。

需要说明的是，将更新后的验证对象的视觉特征和更新后的训练对象的视觉特征划分为两个集合，可以为随机划分，也可以为有规则的划分。训练集中可以仅仅包括训练对象的视觉特征，也可以既包括训练对象的视觉特征，也包括验证对象的视觉特征；验证集中可以仅仅包括验证对象的视觉特征，也可以既包括验证对象的视觉特征，也包括训练对象的视觉特征。可以理解的是，由于第一标签矩阵和第二标签矩阵均为支撑集中的视觉特征的标签和训练集中的视觉特征的标签组合，所以在理想情况下，第一标签矩阵和第二标签矩阵应当相同。根据上述对偶关系传播算法训练得到的模型，既可以用于识别训练对象的图像，也可以用于识别验证对象的图像。具体的，可以用于目标检测、图像分类和视频分类。

如图2所示，本申请实施提供了又一种模型训练的方法，该模型训练的方法为一种小样本的学习算法，该模型训练的方法的处理流程可以包括如下步骤：

在步骤201中，获取训练对象数据集、验证对象数据集和各对象的类别关联信息。

其中，训练对象数据集包括训练对象的图像、训练对象的标签和训练对象的类别描述信息，验证对象数据集包括验证对象的图像、验证对象的标签和验证对象的类别描述信息，各对象包括各训练对象和各验证对象。

训练对象是指专门用于训练的对象，验证对象是指待训练模型训练完成后模型可以识别的对象。各对象的类别关联信息是指各验证对象之间、各训练对象之间以及验证对象与训练对象之间的类别关联信息，具体的，可以指各对象之间的相似度。

例如，待训练模型为一个待训练的用于识别斑马的模型，则验证对象为斑马，训练对象可以为普通马、老虎和熊猫。则训练对象数据集包括普通马、老虎和熊猫的图像，普通马、老虎和熊猫的标签(标签指示哪张图像是普通马的图像，哪张图像是老虎的图像，哪张图像是熊猫的图像)以及普通马、老虎和熊猫的类别描述信息(例如，普通马的体型描述、老虎具有条纹的描述、熊猫的颜色为黑白的描述等)。验证对象数据集包括斑马的图像、斑马的标签(标签指示哪张图像是斑马的图像)和斑马的类别描述(例如，斑马的颜色颜色为黑白、具有条纹和体型特征等描述)。各对象的类别关联信息即是指普通马、老虎和熊猫之间类别关联信息，以及普通马、老虎和熊猫分别与斑马的类别关联信息。类别关联信息可以包含有各类别的相似度，比方说普通马与斑马的相似度。

例如，技术人员收集普通马、老虎和熊猫的图像，并为每个图像添加标签，并确定普通马、老虎和熊猫的类别描述信息，即得到训练数据集。技术人员收集斑马的图像，并为斑马的图像添加标签，并确定斑马的类别描述信息，即得到验证数据集。最后，技术人员确定各对象的类别关联信息，并与训练对象数据集、验证对象数据集一起输入到待训练模型中。则计算机设备可以获取训练对象数据集、验证对象数据集和各对象的类别关联信息。

在步骤202中，分别对训练对象的图像和验证对象的图像进行特征提取，得到训练对象的视觉特征和验证对象的视觉特征。

其中，训练对象的视觉特征为训练对象的图像的特征图，其实质为一个特征矩阵，用于表示训练对象的图像。验证对象的视觉特征为验证对象的图像的特征图，其实质为一个特征矩阵，用于表示验证对象的图像。

在实施中，待训练模型分别对训练对象的图像和验证对象的图像进行特征提取，得到训练对象的视觉特征验证对象的视觉特征。

可选的，还可以生成新的验证对象的视觉特征，以对验证数据集中的样本进行扩展，则相应的处理过程可以如下所述，基于训练对象的视觉特征、训练对象的类别描述信息和验证对象的类别描述信息，生成新的验证对象的视觉特征。

其中，新的验证对象的视觉特征为合成的视觉特征，可以理解为虚拟的验证对象的图像的视觉特征。

在步骤203中，基于各对象的类别关联信息、验证对象的视觉特征和训练对象的视觉特征，对验证对象的视觉特征和训练对象的视觉特征进行更新。

常规的图聚合网络对视觉特征进行初始更新的原理为：

而基于多头注意力机制的图聚合网络的原理为：

基于待更新的视觉特征、各个目标视觉特征以及待更新视觉特征与各个目标视觉特征的样本关联度和类别关联度，对待更新视觉特征进行初始更新。

可以理解的是，与常规的图聚合网络相比，基于多头注意力机制的图聚合网络将随机选取目标视觉特征，改为基于关联度的大小来确定目标视觉特征。并且，考虑到了样本关联度和类别关联度，使用样本关联度和类别关联度对目标视觉特征进行了加权处理，使得关联度大的目标视觉特征在待更新的视觉特征的更新过程中，起的作用较大。然后，即可以根据多个加权后的目标视觉特征和待更新视觉特征对待更新视觉特征进行初始更新。

在步骤204中，基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和更新后的训练对象的标签进行模型训练。

可见，上述第二种模型训练的方法与第一种模型训练的方法相比，仅仅是其验证对象数据集中包含了验证对象的图像，因此，在某些情况下可以不去生成验证对象的视觉特征，也即第一种模型训练的方法为一种零样本的模型训练的方法，第二种模型训练的方法为一种小样本的模型训练的方法。除上述区别之外，其余技术特征均相似。

上述两种模型的训练方法，可以分为两个阶段，第一个阶段为图生成阶段，用于生成实例级别的语义关联图。第二阶段为关系传播阶段，用于基于实例级别的语义关联图以及关系传播算法，对模型进行训练。其中，实例级别的语义关联图中包含了更新后的各对象的类别关联信息、更新后的验证对象的视觉特征和更新后的训练对象的视觉特征，其实质为一个特征矩阵。具体过程可以如下所述：

图生成阶段：

首先，建立类别级别的语义关联图，其中，类别级别的语义关联图包含各对象的类别关联信息和各类别的类别表示，其实质为一个特征矩阵，可以参照图6，其中每个节点为类别表示，边的方向表示不同语义类别关联关系的具体含义，边的长短代表关联关系的强弱，节点之间无边相连则说明关联关系为0。

然后，完成类别级别的语义关联图建模之后，可以对类别级别的语义关联图中蕴含的类别关联信息加以利用。以视觉特征所属的类别包含的语义关联信息为出发点，用第一图聚合网络对不同节点代表的视觉特征进行初始更新(即用各视觉特征所属的类别的类别关联信息，代替各视觉特征的关联信息)。初始更新后的类别级别的语义关联图中每个节点代表一个视觉特征。在对视觉特征进行初始更新之前，为了避免样本不足或缺失造成的领域漂移问题，可以采用生成式对抗网络对验证对象数据集中的样本进行扩充，即训练一个条件生成式对抗网络，以词向量或属性特征作为辅助条件信息，用对抗学习的方式拟合训练的对象的视觉和语义特征的联合分布，以生成验证对象的视觉特征。这些视觉特征可以有效缓解后续图运算阶段验证对象的样本缺失以及不均衡的问题。

最后，如图6所示，对视觉特征进行初始更新之后，在由图神经网络调整过后的节点构成的表征空间中，用高斯相似度函数生成不同节点之间的连边，再使用图卷积网络(GCNs)对生成的图进行卷积操作，从而，对初始更新后的视觉特征进行再次更新，得到最终的实例级别的语义关联图，实例级别的语义关联图中，每个节点代表一个更新后的视觉特征，边的方向表示不同语义类别关联关系的具体含义，边的长短代表关联关系的强弱。该实例级别的语义关联图中嵌入了类别级语义关联与样本级视觉关联信息，用于后续关系传播阶段的知识迁移。为了防止实例级别的语义关联图与类别级别的语义关联图相差较大，还可以添加正则化约束。

图生成阶段对应第一种模型训练的方法中的步骤101-步骤104，对应第二种模型训练的方法中的步骤201-步骤203。

关系传播阶段：由上一阶段生成的实例级别的语义关联图，采用基于元学习的对偶关系传播(Dual Relation Propagation)算法，实现对上一阶段所建实例级别的语义关联图的充分利用。在关系传播阶段将实例级别的语义关联图的节点(也即更新后的视觉特征)随机划分成支撑集和训练集。分别以划分的支撑集和训练集作为带标签样本，由此出发运用标签传播算法，并施加约束使得两个关系传播过程构成对偶学习关系，让它们在标签传播之后得到的标签矩阵趋于一致。对偶学习约束可以使得两个关系传播过程互为指导，用样本数量多的一方指导样本数量少的一方，在最终分类阶段起到领域自适应的作用，弥补现有方法仅在特征提取阶段进行领域自适应的不足，大幅度缓解了数据量不均衡造成的算法性能偏斜问题。

关系传播阶段对应第一种模型训练的方法中的步骤105，对应第二种模型训练的方法中的步骤204。

本申请实施例提供的两种模型训练的方法，通过基于各对象的类别关联信息、验证对象的视觉特征和训练对象的视觉特征，对训练对象的视觉特征和验证对象的视觉特征进行更新。使得更新后的视觉特征，更加适用于模型的训练，使得后续训练完成的模型，在进行实际工作时的效果较好。并且将类别级别的语义关联和实例级别的语义关联显式建模，使得通过本申请实施例提供的模型训练的方法训练完成的模型可以达到工业使用的要求。

下面对本申请实施例使用到的一些算法公式进行介绍。

第一图聚合网络的算法公式可以为：

其中，AGGREGATE_k表示k阶邻居范围内的聚合函数，N(v)表示节点v的邻居节点的集合，CONCAT表示特征拼接操作。

其中，首先，对原始输入的视觉特征进行线性变换得到

然后使用邻居信息和可训练注意力向量

得到注意力权重并进行归一化。最后将计算得到的注意力得分用在邻域信息聚合中，得到更新之后的节点特征

a∈{att_C，att_I}分别表示类级别和实例级别的注意力权重向量。

高斯相似度确定公式为：

其中，

表示生成的中节点v和u之间边，Φ_Θ是一个以Θ为参数的神经网络，δ代表带宽超参数。

第二图聚合网络的公式可以为：

标签传播算法的公式可以为：

Y^*＝(I-μY^L)^-1Y

其中，I是单位矩阵，Y^L是Y中带标签的子矩阵，μ是控制信息传播量的超参数。

对偶关系传播的关系算法的公式可以为：

其中，Y^S和Y^L分别训练集和支撑集中带标签的子矩阵，

表示矩阵的弗罗贝尼乌斯范数。

为了防止实例级别的语义关联图与类别级别的语义关联图相差较大，还可以添加正则化约束，正则化约束的公式可以为：

其中，GraphKernel(·)为现有的图核算法，本申请中使用的是graph2vec。

为类别级别的语义关联图，

为实例级别的语义关联图。

表示类别级别的语义关联图与实例级别的语义关联图的误差。

在模型总的训练过程中，还可以设置总的损失函数，以控制总误差，则相应的公式为：

其中，

表示类别级别的语义关联图与实例级别的语义关联图的误差。Loss_d表示第一标签矩阵和第二标签矩阵的误差。Loss_c表示预测的支撑集中视觉特征的标签和实际的支撑集中视觉特征的标签的损失值。λ₁和λ₂为常数。

基于与第一种模型训练的方法相同的技术构思，本申请实施例还提供了一种模型训练的装置，该装置可以为计算机设备，如图3所示，该装置包括：

获取模块301，用于获取训练对象数据集、验证对象数据集和各对象的类别关联信息，其中，训练对象数据集包括训练对象的图像、训练对象的标签和训练对象的类别描述信息，验证对象数据集包括验证对象的标签和验证对象的类别描述信息，各对象包括各训练对象和各验证对象；

提取模块302，用于对训练对象的图像进行特征提取，得到训练对象的视觉特征；

生成模块303，用于基于训练对象的视觉特征、训练对象的类别描述信息和验证对象的类别描述信息，生成验证对象的视觉特征；

更新模块304，用于基于各对象的类别关联信息、验证对象的视觉特征和训练对象的视觉特征，对验证对象的视觉特征和训练对象的视觉特征进行更新；

训练模块305，用于基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和更新后的训练对象的视觉特征的标签进行模型训练。

可选的，生成模块303，用于：

将训练对象的视觉特征、训练对象的类别描述信息和验证对象的类别描述信息输入到生成式对抗网络中，生成验证对象的视觉特征。

可选的，更新模块304，用于：

将各对象的类别关联信息、验证对象的视觉特征和训练对象的视觉特征输入到第一图聚合网络中，对验证对象的视觉特征和训练对象的视觉特征进行初始更新；

训练模块305，用于：

基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和更新后的训练对象的视觉特征的标签进行模型训练。

可选的，更新模块304，用于：

对于每个待更新视觉特征，基于待更新视觉特征与其他视觉特征的类别关联信息和样本关联信息，确定待更新视觉特征与每个其他视觉特征的类别关联度和样本关联度；基于待更新视觉特征与每个其他视觉特征的类别关联度和样本关联度，确定多个目标视觉特征；基于待更新视觉特征、各个目标视觉特征以及所述待更新视觉特征与各个目标视觉特征的样本关联度和类别关联度，对待更新视觉特征进行初始更新。

可选的，训练模块305，用于：

基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征、更新后的训练对象的视觉特征的标签和验证对象的视觉特征的标签进行模型训练。

可选的，训练模块305，用于：

根据训练集中的视觉特征、训练集中的视觉特征的标签、更新后的各对象的类别关联信息和支撑集中的视觉特征，基于标签传播算法，预测支撑集中的视觉特征的标签；

将预测的支撑集中的视觉特征的标签和训练集中的视觉特征的标签组合，得到第一标签矩阵；

根据支撑集中的视觉特征、支撑集中的视觉特征的标签、更新后的各对象的类别关联信息和训练集中的视觉特征，基于标签传播算法，预测训练集中的视觉特征的标签；

将支撑集中的视觉特征的标签和预测的训练集中的视觉特征的标签组合，得到第二标签矩阵；

基于第一标签矩阵和第二标记矩阵对模型进行调整，当第一标签矩阵和第二标签矩阵分别收敛，且基于预测的支撑集中视觉特征的标签和实际的支撑集中视觉特征的标签得到的损失值小于目标阈值时，模型训练完成。

基于与第二种模型训练的方法相同的技术构思，本申请实施例还提供了另一种模型训练的装置，该装置可以为计算机设备，如图4所示，该装置包括：

获取模块401，用于获取训练对象数据集、验证对象数据集和各对象的类别关联信息，其中，训练对象数据集包括训练对象的图像、训练对象的标签和训练对象的类别描述信息，验证对象数据集包括验证对象的图像、验证对象的标签和验证对象的类别描述信息，各对象包括各训练对象和各验证对象；

提取模块402，用于分别对训练对象的图像和验证对象的图像进行特征提取，得到训练对象的视觉特征和验证对象的视觉特征；

更新模块403，用于基于各对象的类别关联信息、验证对象的视觉特征和训练对象的视觉特征，对训练对象的视觉特征和验证对象的视觉特征进行更新；

训练模块404，用于基于各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和更新后的训练对象的视觉特征对应的标签进行模型训练。

可选的，装置还包括生成模块，用于：

基于训练对象的视觉特征、训练对象的类别描述信息和验证对象的类别描述信息，生成新的验证对象的视觉特征。

可选的，更新模块403，用于：

训练模块404，用于：

可选的，更新模块403，用于：

可选的，训练模块404，用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的模型训练的装置在进行模型训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的模型训练的装置与模型训练的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)501和一个或一个以上的存储器502，其中，存储器502中存储有至少一条指令，所述至少一条指令由处理器501加载并执行以实现上述模型训练的方法。该计算机设备500可以为服务器，也可以为终端。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的模型训练的方法。例如，所述计算机可读存储介质可以是ROM(Read-Only Memory)、随机存取存储器(RandomAccess Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型训练的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练对象的视觉特征、所述训练对象的类别描述信息和所述验证对象的类别描述信息，生成验证对象的视觉特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述验证对象的视觉特征和所述训练对象的视觉特征进行更新，包括：

4.根据权利要求3所述的方法，其特征在于，所述将各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征输入到第一图聚合网络中，对验证对象的视觉特征和训练对象的视觉特征进行初始更新，包括：

5.根据权利要求3或4任一项所述的方法，其特征在于，所述基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征的标签进行模型训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征、所述更新后的训练对象的视觉特征的标签和所述验证对象的视觉特征的标签进行模型训练，包括：

7.一种模型训练的方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述训练对象的视觉特征和所述验证对象的视觉特征进行更新之前，还包括：

9.根据权利要求8所述的方法，其特征在于，所述基于各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征，对所述验证对象的视觉特征和所述训练对象的视觉特征进行更新，包括：

10.根据权利要求9所述的方法，其特征在于，所述将各对象的类别关联信息、所述验证对象的视觉特征和所述训练对象的视觉特征输入到第一图聚合网络中，对验证对象的视觉特征和训练对象的视觉特征进行初始更新，包括：

11.根据权利要求9或10任一项所述的方法，其特征在于，所述基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征和所述更新后的训练对象的视觉特征的标签进行模型训练，包括：

12.根据权利要求11所述的方法，其特征在于，所述基于更新后的各对象的类别关联信息、更新后的验证对象的视觉特征、更新后的训练对象的视觉特征、所述更新后的训练对象的视觉特征的标签和所述验证对象的视觉特征的标签进行模型训练，包括：

13.一种模型训练的装置，其特征在于，所述装置包括：

14.一种模型训练的装置，其特征在于，所述装置包括：