CN108717552A

CN108717552A - 基于新标签发现和标签增量学习的动态多标签分类方法

Info

Publication number: CN108717552A
Application number: CN201810470711.3A
Authority: CN
Inventors: 吴骏; 李永春; 闫梦奎; 陈港; 李宁
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-10-30

Abstract

本发明公开了一种基于新标签发现和标签增量学习的动态多标签分类方法，在初始阶段，根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型和初始集成聚类模型；数据流预测阶段，将具有新标签的样本放入一个缓冲区存储；模型更新阶段，构建新标签的子模型，将新标签子模型更新到分类模型中，并基于新标签样本对集成聚类模型更新。该方法不仅可以及时发现数据流中数据诞生的新标签，还避免了在数据流中存储大量的数据，只需要缓存一定的数据作为更新即可，进一步避免了重新训练模型导致的时间成本问题，同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。

Description

基于新标签发现和标签增量学习的动态多标签分类方法

技术领域

本发明涉及多标签学习和数据流分类计数，具体涉及集成聚类和基于标签的增量学习方法。

背景技术

21世纪是互联网技术飞速发展的世纪，随之而来的是数据量的与日俱增，各行各业都累积了海量的数据。这些数据中蕴含了许多高价值的信息，利用这些信息我们能够更好的改善人们的生活。然后现实中的数据大多是多标签数据，多标签数据最明显的特征就是一个示例同时属于多个标签，这也是它与传统的单标签(二分类或者多分类)问题最显著的区别。

以往针对多标签分类问题的研究大都基于这样的假设：数据的大小是已知的，固定的，数据所属的标签也是固定的，然而在现实的应用中，数据的标签是逐渐产生的，数据也是以流式数据的形式到来的，这就产生了新标签发现问题和模型的增量学习问题。

目前针对多标签环境中的新标签发现问题的研究还较少，更多的是多分类问题中的新类别发现问题，它们大都基于异常发现的思路去解决，这样的方法并不适用于多标签环境，因为多标签环境中一个新到来样本可能不仅具有新标签，还具有已知的标签，且在新标签1还未达到更新的阈值时，新标签2出现，也就是以往的新标签发现算法不具有同时发现两个或者更多的新标签的能力。数据流中的增量学习问题以往的解决办法多是基于集成的方式，将数据流划分成多个数据块，给每一个数据块训练一个模型，然后集成起来作为总的模型，这样的办法并不能直接应用于有新标签产生的多标签数据流分类环境中，因为在该过程中有新标签的诞生，这个模型的更新带来了更大的挑战。

发明内容

发明目的：本发明所要解决的问题是动态多标签分类问题(多标签数据流分类问题)中新标签发现问题和基于标签的增量学习问题，提出了基于集成聚类的新标签发现方法和基于pairwise label ranking loss和误分类损失的模型更新方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于新标签发现和标签增量学习的动态多标签分类方法，包括如下步骤：

步骤1，初始化阶段：根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型以及基于k-means的集成聚类新标签发现模型。

步骤2，数据流预测阶段：对于数据流中的每一个新样本，经过集成聚类新标签发现模型判断是否具有新标签，将具有新标签的样本放入一个缓冲区存储，然后传递给分类模型判断分类标签；

步骤3，模型更新阶段：当缓冲区达到设定的阈值，针对新标签基于pairwiselabel ranking loss和误分类损失构建新标签子模型，将新标签子模型更新到分类模型中，并基于新标签样本对集成聚类新标签发现模型更新。其中将新标签子模型更新到分类模型包括如下步骤：

S301、使用一个线性模型来表示新标签的分类模型：

S302、基于Buffer1和Buffer2的数据优化下列函数：

R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面：

S303、使用梯度下降法优化得到和b_new后，就得到了新标签的分类模型，然后将起集成到分类模型中，使得分类模型对新标签也具有分类能力。

优选的：步骤1中初始分类模型优化的损失函数为：

多标签中，对每一个标签，使用一个线性模型对其建模：

其中，是标签i的权值向量，b_i是偏移值，那么优化的目标损失函数为：

其中，R(i)根据标签第j个样本是相关标签还是不相关标签，定义为不同的值，如果标签i是第j个样本的相关标签，定义为不相关标签集合中排序在标签i之前的标签个数：

如果标签i是第j个样本的不相关标签，定义为相关标签集合中排序在标签i之的个数：

其中I[·]为指示函数。之后利用梯度下降法就可以求解目标函数，初始分类模型建立完成。

优选的：步骤1中，基于k-means的集成聚类模型建立如下：

S101、设定算法的样本抽样率μ₁和特征抽样率μ₂，集成的k-means模型个数l，并统计数据的标签个数|Y|。

S102、基于样本抽样率和特征抽样率对初始数据集抽样，形成l个训练数据集。

S103、基于这l个训练数据集建立l个k-means模型并集成到一起。

S104、统计每个单独的k-means模型中每个簇类的半径的平方R和平均距离的平方D_m。

S105、统计整个模型中最大的R值并记录为R_max。

优选的：数据流预测阶段包括如下步骤：

S201、设置一个Buffer1用来存储具有新标签的样本，一个Buffer2用来缓存不具有新标签的样本。

S202、每当一个新数据达到，都先经过新标签发现模型对齐判断是否具有新标签。

S203、如果新标签判断结果返回1，那么将这个新样本看作是具有新标签的候选样本并加入缓冲区Buffer1中，然后将样本传递给分类模型预测已知标签空间中的标签。

S204、如果新标签判断结果返回0，那么表示这个样本不具有新标签，将其加入Buffer2中，然后将其直接传递给分类模型预测一直标签空间的标签。

优选的：步骤3中新标签发现模型的更新包括如下步骤：

S311、基于Buffer1中的数据进行筛选和更新。

S312、对于集成k-means模型中的每一个单独的k-means模型都进行更新。

S313、根据每个单独的k-means模型的特征抽样对Buffer1中的数据抽样，形成对应的数据集。

S314、对每个单独的k-means模型，给对应的数据集中每一条数据分配一个离其最近的簇类，并将其加入其中，并更新该簇类的个数统计量v。

S315、中心点向量u更新公式为：

公式中带有下标g的变量表示更新后的值，否则代表之前的值

S316、平均距离D_m的更新公式为：

S317、每个簇类的半径R更新方法为，计算新加入的点和中心点的距离，如果改距离比原来的半径大，则将半径替换为该距离。

优选的：步骤S311中Buffer1的数据筛选方法为：

S311-1、统计出当前集成聚类模型中最大的半径R_max。

S311-2、把Buffer1中的数据当成一个簇类计算其中心均值向量u_b。

S311-3、计算Buffer1中每个数据距离u_b的距离，如果这个距离大于R_max，那么剔除该样本。

S311-4、清空Buffer1和Buffer2。

S311-5、将剔除出来的样本加入Buffer1中。

本发明相比现有技术，具有以下有益效果：

本发明使用集成聚类来解决新标签发现的问题，通过集成多个单一模型的方式解决了多标签数据流分类中新标签发现的难题，并且利用一个筛选方法将可能包含第二个新标签的样本剔除出出来作为下一个新标签的候选样本。基于pairwise label rankingloss和误分类损失充分考虑了标签对之间的关系，避免了传统的集成办法难以考虑新标签和已知标签之间关系的缺点。显著提高了动态多标签分类(多标签数据流分类)中的模型性能稳定性。本发明不仅可以及时发现数据流中数据诞生的新标签，还避免了在数据流中存储大量的数据，只需要缓存一定的数据作为更新即可，进一步避免了重新训练模型导致的时间成本问题，同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。

附图说明

图1是本发明的整体流程图。

图2是基于集成聚类的新标签发现算法的流程图。

图3是模型更新的流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于新标签发现和标签增量学习的动态多标签分类方法，如图1-3所示，该方法主要包括三个阶段，分别是：新标签发现模型和初始分类模型的初始化阶段。判断数据流中的数据是否具有新标签的数据流预测阶段。基于候选新标签样本的模型更新阶段，具体包括以下步骤：

步骤1，初始化阶段：根据初始数据基于pairwise label ranking loss(WestonJ,Bengio S,Usunier N.Wsabie:Scaling up to large vocabulary image annotation[C]//IJCAI.2011,11:2764-2770.)和误分类损失建立初始分类模型和基于k-means(JainA K.Data clustering:50years beyond K-means[J].Pattern recognition letters,2010,31(8):651-666.)的集成聚类新标签发现模型。

步骤1中初始分类模型优化的损失函数为：

多标签中，对每一个标签，使用一个线性模型对其建模：

其中，h_i(x)表示对线性模型的输出值按照φ(x)取值，f_i(x)表示线性模型，T表示对矩阵求转置，是标签i的权值向量，b_i是偏移值，那么优化的目标损失函数为：

其中，R(i)根据标签第j个样本是相关标签还是不相关标签，定义为不同的值，Y_t表示t时刻标签空间，λ₁表示平衡参数，y_k,j表示第j个样本的第k个标签，λ₂表示平衡参数，ε_i表示对第j个样本的在第i个标签上的惩罚因子，如果标签i是第j个样本的相关标签，定义为不相关标签集合中排序在标签i之前的标签个数：

步骤1中，基于k-means的集成聚类模型建立如下：

S103、基于这l个训练数据集建立l个k-means模型并集成到一起。

S105、统计整个模型中最大的R值并记录为R_max。

步骤2，数据流预测阶段：对于数据流中的每一个新样本，经过集成聚类模型判断是否具有新标签，将具有新标签的样本放入一个缓冲区存储，然后传递给分类模型判断分类标签。

数据流预测阶段包括如下步骤：

S203、如果新标签判断结果返回1，那么将这个新样本看做是具有新标签的候选样本并加入缓冲区Buffer1中，然后将样本传递给分类模型预测已知标签空间中的标签。

步骤3，模型更新阶段：当缓冲区达到设定的阈值，针对新标签基于pairwise laberanking loss和误分类损失构建新标签的子模型，将新标签子模型更新到分类模型中，并基

于新标签样本对集成聚类模型更新。

步骤3中将新标签子模型更新到分类模型包括如下步骤：

S301、使用一个线性模型来表示新标签的分类模型：

h_new(x)表示对线性模型的输出值按照φ(x)取值，表示新标签的权值向量的转置，b_new表示新标签的偏移值，f_new(x)表示新标签的线性模型,

S302、基于Buffer1和Buffer2的数据优化下列函数：

B1表示Buffer1中的样本，B2表示Buffer2中的样本，ε_new表示对新标签在第j个样本上的惩罚因子，w_new表示新标签的权值向量，x_j表示第j个样本的向量，y_new,j表示第j个样本新标签，f_new(x_j)表示线性模型对第j样本的输出值，R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面，c表示一个变量，

步骤3中新标签发现模型的更新包括如下步骤：

S311、基于Buffer1中的数据进行筛选和更新。

Buffer1的数据筛选方法为：

S311-1、统计出当前集成聚类模型中最大的半径R_max。

S311-4、清空Buffer1和Buffer2。

S311-5、将剔除出来的样本加入Buffer1中

S315、中心点向量u更新公式为：

公式中带有下标g的变量表示更新后的值，否则代表之前的值；v表示k-means模型中簇类的个数，u表示更新之前的簇类中心点向量，

S316、平均距离D_m的更新公式为：

D_m,g表示更新之后簇类的平均距离，D_m表示更新之前簇类的平均距离，x_i表示簇类中第i个样本的向量，

结合图2说明初始化阶段的实施步骤如下：

步骤0为开始状态。

步骤一设置优化算法的参数，根据参数使用梯度下降法得到初始分类模型中各个标签的权值向量，继而得到初始分类模型。

步骤二设置集成聚类的个数，数据抽样率和特征抽样率。

步骤三基于抽样率随机抽样形成各个训练数据集。

步骤四基于每个单独的训练数据集训练k-means模型，并集成在一起。

步骤五统计各个簇类的中心点向量，半径和平均距离三个统计量形成最终的初始标签发现模型。

图3是模型更新的详细流程图，具体步骤为：

步骤一是使用一个线性模型来表示新标签的分类模型：

步骤二基于Buffer1和Buffer2的数据优化下列函数：

步骤三使用梯度下降法优化得到和b_new后，就得到了新标签的分类模型，然后将起集成到分类模型中，是分类模型对新标签也具有分类能力。

步骤四基于Buffer1中的数据进行筛选和更新。

步骤五对于集成k-means模型中的每一个单独的k-means模型都进行更新。

步骤六根据每个单独的k-means模型的特征抽样对Buffer1中的数据抽样，形成对应的数据集。

步骤七对每个单独的k-means模型，给对应的数据集中每一条数据分配一个离其最近的簇类，并将其加入其中，并更新该簇类的个数统计量v。

步骤八中心点向量u更新公式为：

公式中带有下标g的变量表示更新后的值，否则代表之前的值

平均距离D_m的更新公式为：

每个簇类的半径R更新方法为，计算新加入的点和中心点的距离，如果改距离比原来的半径大，则将半径替换为该距离。

步骤九结束。

终上所述，本发明通过集成聚类和基于标签的增量学习来处理动态多标签学习中新标签发现问题和增量学习问题，借助多个k-means模型来处理数据流中诞生的新标签，集成模型可以大大降低单一模型的偏差，并且通过筛选算法解决了同时诞生多个新标签的问题，基于pairwise label ranking和误分类损失的目标函数来训练分类模型，不仅能在数据流中及时的更新新标签分类模型，同时充分考虑了新标签和已知标签之间的关系，还避免了在数据流中存储大量的样本数据，从而保证了数据流中模型性能的稳定性，具有良好的实用性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于新标签发现和标签增量学习的动态多标签分类方法，其特征在于，包括如下步骤：

步骤1，初始化阶段：根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型以及基于k-means的集成聚类新标签发现模型；

步骤2，数据流预测阶段：对于数据流中的每一个新样本，经过新标签发现模型判断是否具有新标签，将具有新标签的样本放入一个缓冲区存储，然后传递给分类模型判断分类标签；

步骤3，模型更新阶段：当缓冲区达到设定的阈值，针对新标签基于pairwise labelranking loss和误分类损失构建新标签子模型，将新标签子模型更新到分类模型中，并基于新标签样本对新标签发现模型更新；其中将新标签子模型更新到分类模型包括如下步骤：

S301、使用一个线性模型来表示新标签的分类模型：

其中，h_new(x)表示对线性模型的输出值按照φ(x)取值，表示新标签的权值向量的转置，b_new表示新标签的偏移值，f_new(x)表示新标签的线性模型；

S302、基于Buffer1和Buffer2的数据优化下列函数：

其中，B1表示Buffer1中的样本，B2表示Buffer2中的样本，ε_new表示对新标签在第j个样本上的惩罚因子，w_new表示新标签的权值向量，x_j表示第j个样本的向量，y_new,j表示第j个样本新标签，f_new(x_j)表示线性模型对第j样本的输出值，R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面，c表示一个变量；

2.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法，其特征在于：

步骤1中初始分类模型优化的损失函数为：

多标签中，对每一个标签，使用一个线性模型对其建模：

其中，R(i)根据标签第j个样本是相关标签还是不相关标签，Y_t表示t时刻标签空间，λ₁表示平衡参数，y_k,j表示第j个样本的第k个标签，λ₂表示平衡参数，ε_i表示对第j个样本的在第i个标签上的惩罚因子，如果标签i是第j个样本的相关标签，定义为不相关标签集合中排序在标签i之前的标签个数：

其中I[·]为指示函数；之后利用梯度下降法就可以求解目标函数，初始分类模型建立完成。

3.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法，其特征在于：

步骤1中，基于k-means的集成聚类模型建立如下：

S101、设定算法的样本抽样率μ₁和特征抽样率μ₂，集成的k-means模型个数l，并统计数据的标签个数|Y|；

S102、基于样本抽样率和特征抽样率对初始数据集抽样，形成l个训练数据集；

S103、基于这l个训练数据集建立l个k-means模型并集成到一起；

S104、统计每个单独的k-means模型中每个簇类的半径的平方R和平均距离的平方D_m；

S105、统计整个模型中最大的R值并记录为R_max。

4.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法，其特征在于：

数据流预测阶段包括如下步骤：

S201、设置一个Buffer1用来存储具有新标签的样本，一个Buffer2用来缓存不具有新标签的样本；

S202、每当一个新数据达到，都先经过新标签发现模型对齐判断是否具有新标签；

S203、如果新标签判断结果返回1，那么将这个新样本看做是具有新标签的候选样本并加入缓冲区Buffer1中，然后将样本传递给分类模型预测已知标签空间中的标签；

5.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法，其特征在于：

步骤3中新标签发现模型的更新包括如下步骤：

S311、基于Buffer1中的数据进行筛选和更新；

S312、对于集成k-means模型中的每一个单独的k-means模型都进行更新；

S313、根据每个单独的k-means模型的特征抽样对Buffer1中的数据抽样，形成对应的数据集；

S314、对每个单独的k-means模型，给对应的数据集中每一条数据分配一个离其最近的簇类，并将其加入其中，并更新该簇类的个数统计量v；

S315、中心点向量u更新公式为：

公式中带有下标g的变量表示更新后的值，否则代表之前的值；v表示k-means模型中簇类的个数，u表示更新之前的簇类中心点向量；

S316、平均距离D_m的更新公式为：

D_m,g表示更新之后簇类的平均距离，D_m表示更新之前簇类的平均距离，x_i表示簇类中第i个样本的向量；

S317、每个簇类的半径R更新方法为，计算新加入的点和中心点的距离，如果该距离比原来的半径大，则将半径替换为该距离。

6.根据权利要求5所述基于新标签发现和标签增量学习的动态多标签分类方法，其特征在于：

步骤S311中Buffer1的数据筛选方法为：

S311-1、统计出当前集成聚类模型中最大的半径R_max；

S311-2、把Buffer1中的数据当成一个簇类计算其中心均值向量u_b；

S311-3、计算Buffer1中每个数据距离u_b的距离，如果这个距离大于R_max，那么剔除该样本；

S311-4、清空Buffer1和Buffer2；

S311-5、将剔除出来的样本加入Buffer1中。