CN111753966A

CN111753966A - 利用缺失多标签数据实现多标签模型训练框架的实现方法

Info

Publication number: CN111753966A
Application number: CN202010627498.XA
Authority: CN
Inventors: 肖利; 喻杨洋; 王飞
Original assignee: Hangzhou Shufeng Technology Co ltd; Chengdu Ruima Technology Co ltd
Current assignee: Hangzhou Shufeng Technology Co ltd; Chengdu Ruima Technology Co ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-09

Abstract

本发明公开了利用缺失多标签数据实现多标签模型训练框架的实现方法，该方法整合多个单一标签数据集，形成不完整多标签数据集，采用共享分支网络结合非共享分支网络的结构，进行统一训练，实现对目标样本多标签进行同时输出的训练。本发明能够实现单一模型同时训练多个标签(属性)，方便部署；且本发明的训练框架，采用共享权值分支的存在，共享权值分支只需要进行唯一一次前向传播计算，显著地降低了网络前向传播过程中的计算次数和计算资源消耗，也因为共享特征提取器的原因，共享了共享特征提取器所包含的网络参数，显著地减少了模型的大小。

Description

利用缺失多标签数据实现多标签模型训练框架的实现方法

技术领域

本发明涉及，具体涉及利用缺失多标签数据实现多标签模型训练框架的实现方法。

背景技术

在监督学习的框架下，使用深度学习模型完成分类识别任务，需要每一份训练数据都具有标签(属性)。与此同时，当需要单个模型能够对多个标签(属性)进行同时预测时候，通常情况下需要保证每一个训练样本的每一个标签(属性)都是完整的。然而，获取具有多标签(属性)标注的数据需要耗费大量的人力；且通常情况下，更大规模的网络结构意味着更好的泛化能力。但如果数据集的大小不能与模型的规模相匹配，则网络会造成严重的过拟合情况，导致其泛化能力急剧下降。当训练多个单一属性模型的时候，由于各个数据集之间的规模可能不同，如果使用单一相同网络结构进行训练，则可能出现过拟合和欠拟合的情况。

发明内容

为了解决上述现有技术存在的技术问题，本发明提供了利用缺失多标签数据实现多标签模型训练框架的实现方法，本发明考虑到需要同时预测的一系列标签(属性)具有相关性，其在深度网络中对应的特征具有相似性，因此我们提出了一种整合多个单一标签(属性)数据集，形成不完整多标签数据集，进行统一训练，在预测阶段实现对目标样本多标签(属性)进行同时输出的训练方式。

本发明通过下述技术方案实现：

利用缺失多标签数据实现多标签模型训练框架的实现方法，包括以下步骤：

步骤一、整合多个单一标签数据集，生成不完整多标签数据集；

步骤二、从不完整多标签数据集中随机选取样本数据，将样本数据输入到共享分支网络中进行特征提取，获得共享分支的特征输出；

步骤三、将共享分支的特征输出分别输入到对应的非共享分支网络，在每一个非共享分支处得到对应任务的输出预测值集合；

步骤四、逐一利用每一个非共享分支处的输出预测值集合完成非共享分支网络的权重更新，在所有非共享分支网络完成更新之后，继续完成共享分支的权重更新，实现利用缺失多标签数据完成多标签模型的训练。

优选的，所述步骤一具体包括：

步骤1.1获取多个单一标签数据集并进行整合；

步骤1.2对多个单一标签数据集进行整合时，将合并后的数据集中来自某一标签数据集的样本的其他标签设置为-1，代表缺失标签值；

步骤1.3整合后，生成不完整多标签数据集，不完整多标签数据集中每一个样本为B＝(x_data，label₁，label₂,…,label_n)，其中，x_data代表原始数据，label_j代表n个属性中第j个属性的具体取值。

优选的，所述步骤四中采用改进的SGD反向传播算法进行权重更新。

优选的，所述步骤四具体包括：

步骤4.1利用每一个非共享分支处得到的输出预测值集合，并结合该预测值集合对应于该分支的标签，删除标签为-1对应索引的预测值和特征，根据剩下的标签为非-1对应的标签值和预测值，基于SGD使用损失函数Loss_i完成该非共享分支的权重W_i更新，并记录该分支顶点处的梯度▽_i；

步骤4.2重复步骤4.1，直到所有非共享分支完成更新；

步骤4.3利用所有非共享分支顶点处的梯度，基于SGD完成共享分支的权重W_shared更新。

优选的，所述共享分支网络基于深度学习网络的前向传播计算实现，采用一系列特征提取器实现从原始输入到低维特征再到高维特征的映射，获得共享分支的特征输出。

本发明具有如下的优点和有益效果：

1、本发明相较于现有的分开训练多个只能预测单一标签(属性)的模型，该框架能够实现单一模型同时训练多个标签(属性)，方便部署。

2、本发明在网络预测(部署)阶段，相较于传统的使用多个单标签模型逐一预测各个属性，每一个模型都需要进行一次完整的前向传播计算过程。而使用该训练框架，一方面，由于共享权值分支的存在，共享权值分支只需要进行唯一一次前向传播计算，其产生的特征图(Feature Maps)输出才会作为各非共享分支输入；另一方面，深度学习网络的前向传播是一个特征提取和特征从低维到高维逐级抽象的过程，在深度学习网络中需要大量的特征提取器对实现特征从原始输入到低维再到高维的映射，然而这些特征提取器绝大多数存在于计算网络低维特征图过程中。共享分支包含网络绝大部分的网络初级特征提取器和非任务特异性高级特征提取器，所以共享分支的存在显著地降低了网络前向传播过程中的计算次数和计算资源消耗，也因为共享特征提取器的原因，共享了共享特征提取器所包含的网络参数，显著地减少了模型的大小。

3、本发明基于该框架进行多标签模型的训练，对其任意一个属性而言，相当于增加了来自其他标签的大量数据集用来训练网络中的绝大部分权重(特征提取器，即共享部分)，故相较于单一属性模型，可以够选择更大规模，更具泛化性的模型。另外，多样化的数据集组合能够比单一模型训练处性能更加优秀和更具鲁棒性的特征提取器，所以能够提升网络对每一个属性的预测精度，以及泛化性。

4、本发明的框架能够接受缺失标签的数据，减少了人工对训练数据每一个属性都进行标注的要求，降低了成本。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的网络模型结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1所示，本实施例提出了利用缺失多标签数据实现多标签模型训练框架的实现方法，该方法主要包括以下步骤：

一、进行数据预处理：整合多个单一标签数据集，形成不完整多标签数据集。

1、获取多个单一标签数据集并进行整合；

2、对多个单一标签数据集进行整合时，将合并后的数据集中来自某一标签数据集的样本的其他标签设置为-1，代表缺失标签值；

在监督学习模式下，如果一个标签具有i个可能取值，则该标签每一个属性的具体取值按照0到i-1一一对应进行编号。当整合多个单标签数据集时，来自某一数据集I的数据可能不具有其他数据集具有的标签，因此我们将合并后的数据集中来自数据集I的样本的其他标签(属性)设置为-1，代表缺失标签值。

3、整合后，生成不完整多标签数据集，不完整多标签数据集中每一个样本为B＝(x_data，label₁，label₂,…,label_n)，其中，x_data代表原始数据，label_j代表n个属性中第j个属性的具体取值。

本实施例中，我们将以训练行人属性的帽子颜色，衣服颜色两个属性为例：当整合单标签帽子颜色数据集I_hat和单标签衣服颜色数据集I_cloth，合并后的数据集I_merge中，来自原始帽子颜色数据集的行人样本的衣服颜色标签(属性)值被手动设置为-1，代表未知。

合并后的样本具有(x_data，label₁，label₂，…，label_n)的组织形式，其中x_data代表原始数据，label_j代表地n个属性中第j个属性的具体取值。

二、网络结构设计：

网络模型结构如图1所示，主要分为共享分支网络和非共享分支网络。

1、从不完整多标签数据集中随机选取样本数据，将样本数据输入到共享分支网络中进行特征提取，获得共享分支的特征输出；

深度学习的网络是一个逐步使用特征提取器对输入样本数据进行特征抽象的步骤，特别是对于图像信息，使用卷积核完成从低维到高维特征的提取。由于图像信息的低维特征和部分高维特征具有与任务无关的相似性和通用性，所以我们使用了一系列的特征提取器对合并数据集进行特征提取，这些特征后续会被作为各分支的输入。

2、将共享分支的特征输出分别输入到对应的非共享分支网络，在每一个非共享分支处得到对应任务的输出预测值集合；

不同于图像的低维和部分高维特征，接近网络输出的高维特征具有明显的任务特异性，不同任务之间具有较大差别。我们将通过共享分支得到的特征图，分别输入到对应于各个具体任务的分支网络中，完整了针对具体任务的特征计算过程。

本实施例中，我们将以训练行人属性的帽子颜色，衣服颜色两个属性为例：合并后的帽子颜色和衣服颜色数据集，输入到由一系列不同尺度和权值的卷积核(特征提取器)组成的共享分支中，通过卷积和池化运算，获得共享分支的特征输出。再将这些特征分别输入到针对帽子颜色任务和衣服颜色任务的特定非共享分支中，用于计算任务特异性的高维特征。从而进一步利用所得到所有特征，利用改进的反向传播算法进行网络权重更新，达到训练学习的目的。

三、模型训练：

逐一利用每一个非共享分支处的输出预测值集合完成非共享分支网络的权重更新，在所有非共享分支网络完成更新之后，继续完成共享分支的权重更新，实现利用缺失多标签数据完成多标签模型的训练。

在深度学习网络中，通常使用SGD(随机梯度下降)算法，即随机抽取一批训练样本(简称一个batch)，利用损失函数对各个参数的梯度更新网络中参数，达到学习的目的。由于反向传播算法需要每一个数据都具有给定的标签，所以我们需要对SGD反向传播算法进行一定的修改，使其能够结构缺失标签的数据。

在训练阶段，使用从合并后的多标签数据集中随机选择一批样本输入到如图1的树形网络的，在每一个非共享分支处得到对应任务的一批输出预测值，并且结合该批数据对应于该分支的标签，删除标签为-1对应索引的预测值和特征。利用剩下的标签为非-1的标签和预测值，完成该非共享的分支的权重更新。带所有的非共享分支完成更新后，再继续完成共享分支的权重更新。从而实现了利用缺失多标签数据完成多标签(多分支)模型的训练。

具体的反向传播算法如下表1所示：

表1

由表1可知，该反向传播过程如下：

1、利用每一个非共享分支处得到的输出预测值集合，并结合该预测值集合对应于该分支的标签，删除标签为-1对应索引的预测值和特征，根据剩下的标签为非-1对应的标签值和预测值，基于SGD使用损失函数Loss_i完成该非共享分支的权重W_i更新，并记录该分支顶点处的梯度▽_i；

2、重复过程1，直到所有非共享分支完成更新；

3、利用所有非共享分支顶点处的梯度，基于SGD完成共享分支的权重W_shared更新。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.利用缺失多标签数据实现多标签模型训练框架的实现方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的利用缺失多标签数据实现多标签模型训练框架的实现方法，其特征在于，所述步骤一具体包括：

步骤1.1获取多个单一标签数据集并进行整合；

3.根据权利要求1所述的利用缺失多标签数据实现多标签模型训练框架的实现方法，其特征在于，所述步骤四中采用改进的SGD反向传播算法进行权重更新。

4.根据权利要求3所述的利用缺失多标签数据实现多标签模型训练框架的实现方法，其特征在于，所述步骤四具体包括：

步骤4.2重复步骤4.1，直到所有非共享分支完成更新；

5.根据权利要求1-4任一项所述的利用缺失多标签数据实现多标签模型训练框架的实现方法，其特征在于，所述共享分支网络基于深度学习网络的前向传播计算实现，采用一系列特征提取器实现从原始输入到低维特征再到高维特征的映射，获得共享分支的特征输出。