CN108717552A - 基于新标签发现和标签增量学习的动态多标签分类方法 - Google Patents
基于新标签发现和标签增量学习的动态多标签分类方法 Download PDFInfo
- Publication number
- CN108717552A CN108717552A CN201810470711.3A CN201810470711A CN108717552A CN 108717552 A CN108717552 A CN 108717552A CN 201810470711 A CN201810470711 A CN 201810470711A CN 108717552 A CN108717552 A CN 108717552A
- Authority
- CN
- China
- Prior art keywords
- label
- new
- model
- sample
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 9
- 238000011478 gradient descent method Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 abstract description 4
- 230000003139 buffering effect Effects 0.000 abstract 1
- 230000010354 integration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于新标签发现和标签增量学习的动态多标签分类方法,在初始阶段,根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型和初始集成聚类模型;数据流预测阶段,将具有新标签的样本放入一个缓冲区存储;模型更新阶段,构建新标签的子模型,将新标签子模型更新到分类模型中,并基于新标签样本对集成聚类模型更新。该方法不仅可以及时发现数据流中数据诞生的新标签,还避免了在数据流中存储大量的数据,只需要缓存一定的数据作为更新即可,进一步避免了重新训练模型导致的时间成本问题,同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。
Description
技术领域
本发明涉及多标签学习和数据流分类计数,具体涉及集成聚类和基于标签的增量学习方法。
背景技术
21世纪是互联网技术飞速发展的世纪,随之而来的是数据量的与日俱增,各行各业都累积了海量的数据。这些数据中蕴含了许多高价值的信息,利用这些信息我们能够更好的改善人们的生活。然后现实中的数据大多是多标签数据,多标签数据最明显的特征就是一个示例同时属于多个标签,这也是它与传统的单标签(二分类或者多分类)问题最显著的区别。
以往针对多标签分类问题的研究大都基于这样的假设:数据的大小是已知的,固定的,数据所属的标签也是固定的,然而在现实的应用中,数据的标签是逐渐产生的,数据也是以流式数据的形式到来的,这就产生了新标签发现问题和模型的增量学习问题。
目前针对多标签环境中的新标签发现问题的研究还较少,更多的是多分类问题中的新类别发现问题,它们大都基于异常发现的思路去解决,这样的方法并不适用于多标签环境,因为多标签环境中一个新到来样本可能不仅具有新标签,还具有已知的标签,且在新标签1还未达到更新的阈值时,新标签2出现,也就是以往的新标签发现算法不具有同时发现两个或者更多的新标签的能力。数据流中的增量学习问题以往的解决办法多是基于集成的方式,将数据流划分成多个数据块,给每一个数据块训练一个模型,然后集成起来作为总的模型,这样的办法并不能直接应用于有新标签产生的多标签数据流分类环境中,因为在该过程中有新标签的诞生,这个模型的更新带来了更大的挑战。
发明内容
发明目的:本发明所要解决的问题是动态多标签分类问题(多标签数据流分类问题)中新标签发现问题和基于标签的增量学习问题,提出了基于集成聚类的新标签发现方法和基于pairwise label ranking loss和误分类损失的模型更新方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于新标签发现和标签增量学习的动态多标签分类方法,包括如下步骤:
步骤1,初始化阶段:根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型以及基于k-means的集成聚类新标签发现模型。
步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过集成聚类新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;
步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwiselabel ranking loss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对集成聚类新标签发现模型更新。其中将新标签子模型更新到分类模型包括如下步骤:
S301、使用一个线性模型来表示新标签的分类模型:
S302、基于Buffer1和Buffer2的数据优化下列函数:
R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面:
S303、使用梯度下降法优化得到和bnew后,就得到了新标签的分类模型,然后将起集成到分类模型中,使得分类模型对新标签也具有分类能力。
优选的:步骤1中初始分类模型优化的损失函数为:
多标签中,对每一个标签,使用一个线性模型对其建模:
其中,是标签i的权值向量,bi是偏移值,那么优化的目标损失函数为:
其中,R(i)根据标签第j个样本是相关标签还是不相关标签,定义为不同的值,如果标签i是第j个样本的相关标签,定义为不相关标签集合中排序在标签i之前的标签个数:
如果标签i是第j个样本的不相关标签,定义为相关标签集合中排序在标签i之的个数:
其中I[·]为指示函数。之后利用梯度下降法就可以求解目标函数,初始分类模型建立完成。
优选的:步骤1中,基于k-means的集成聚类模型建立如下:
S101、设定算法的样本抽样率μ1和特征抽样率μ2,集成的k-means模型个数l,并统计数据的标签个数|Y|。
S102、基于样本抽样率和特征抽样率对初始数据集抽样,形成l个训练数据集。
S103、基于这l个训练数据集建立l个k-means模型并集成到一起。
S104、统计每个单独的k-means模型中每个簇类的半径的平方R和平均距离的平方Dm。
S105、统计整个模型中最大的R值并记录为Rmax。
优选的:数据流预测阶段包括如下步骤:
S201、设置一个Buffer1用来存储具有新标签的样本,一个Buffer2用来缓存不具有新标签的样本。
S202、每当一个新数据达到,都先经过新标签发现模型对齐判断是否具有新标签。
S203、如果新标签判断结果返回1,那么将这个新样本看作是具有新标签的候选样本并加入缓冲区Buffer1中,然后将样本传递给分类模型预测已知标签空间中的标签。
S204、如果新标签判断结果返回0,那么表示这个样本不具有新标签,将其加入Buffer2中,然后将其直接传递给分类模型预测一直标签空间的标签。
优选的:步骤3中新标签发现模型的更新包括如下步骤:
S311、基于Buffer1中的数据进行筛选和更新。
S312、对于集成k-means模型中的每一个单独的k-means模型都进行更新。
S313、根据每个单独的k-means模型的特征抽样对Buffer1中的数据抽样,形成对应的数据集。
S314、对每个单独的k-means模型,给对应的数据集中每一条数据分配一个离其最近的簇类,并将其加入其中,并更新该簇类的个数统计量v。
S315、中心点向量u更新公式为:
公式中带有下标g的变量表示更新后的值,否则代表之前的值
S316、平均距离Dm的更新公式为:
S317、每个簇类的半径R更新方法为,计算新加入的点和中心点的距离,如果改距离比原来的半径大,则将半径替换为该距离。
优选的:步骤S311中Buffer1的数据筛选方法为:
S311-1、统计出当前集成聚类模型中最大的半径Rmax。
S311-2、把Buffer1中的数据当成一个簇类计算其中心均值向量ub。
S311-3、计算Buffer1中每个数据距离ub的距离,如果这个距离大于Rmax,那么剔除该样本。
S311-4、清空Buffer1和Buffer2。
S311-5、将剔除出来的样本加入Buffer1中。
本发明相比现有技术,具有以下有益效果:
本发明使用集成聚类来解决新标签发现的问题,通过集成多个单一模型的方式解决了多标签数据流分类中新标签发现的难题,并且利用一个筛选方法将可能包含第二个新标签的样本剔除出出来作为下一个新标签的候选样本。基于pairwise label rankingloss和误分类损失充分考虑了标签对之间的关系,避免了传统的集成办法难以考虑新标签和已知标签之间关系的缺点。显著提高了动态多标签分类(多标签数据流分类)中的模型性能稳定性。本发明不仅可以及时发现数据流中数据诞生的新标签,还避免了在数据流中存储大量的数据,只需要缓存一定的数据作为更新即可,进一步避免了重新训练模型导致的时间成本问题,同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。
附图说明
图1是本发明的整体流程图。
图2是基于集成聚类的新标签发现算法的流程图。
图3是模型更新的流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于新标签发现和标签增量学习的动态多标签分类方法,如图1-3所示,该方法主要包括三个阶段,分别是:新标签发现模型和初始分类模型的初始化阶段。判断数据流中的数据是否具有新标签的数据流预测阶段。基于候选新标签样本的模型更新阶段,具体包括以下步骤:
步骤1,初始化阶段:根据初始数据基于pairwise label ranking loss(WestonJ,Bengio S,Usunier N.Wsabie:Scaling up to large vocabulary image annotation[C]//IJCAI.2011,11:2764-2770.)和误分类损失建立初始分类模型和基于k-means(JainA K.Data clustering:50years beyond K-means[J].Pattern recognition letters,2010,31(8):651-666.)的集成聚类新标签发现模型。
步骤1中初始分类模型优化的损失函数为:
多标签中,对每一个标签,使用一个线性模型对其建模:
其中,hi(x)表示对线性模型的输出值按照φ(x)取值,fi(x)表示线性模型,T表示对矩阵求转置,是标签i的权值向量,bi是偏移值,那么优化的目标损失函数为:
其中,R(i)根据标签第j个样本是相关标签还是不相关标签,定义为不同的值,Yt表示t时刻标签空间,λ1表示平衡参数,yk,j表示第j个样本的第k个标签,λ2表示平衡参数,εi表示对第j个样本的在第i个标签上的惩罚因子,如果标签i是第j个样本的相关标签,定义为不相关标签集合中排序在标签i之前的标签个数:
如果标签i是第j个样本的不相关标签,定义为相关标签集合中排序在标签i之的个数:
其中I[·]为指示函数。之后利用梯度下降法就可以求解目标函数,初始分类模型建立完成。
步骤1中,基于k-means的集成聚类模型建立如下:
S101、设定算法的样本抽样率μ1和特征抽样率μ2,集成的k-means模型个数l,并统计数据的标签个数|Y|。
S102、基于样本抽样率和特征抽样率对初始数据集抽样,形成l个训练数据集。
S103、基于这l个训练数据集建立l个k-means模型并集成到一起。
S104、统计每个单独的k-means模型中每个簇类的半径的平方R和平均距离的平方Dm。
S105、统计整个模型中最大的R值并记录为Rmax。
步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过集成聚类模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签。
数据流预测阶段包括如下步骤:
S201、设置一个Buffer1用来存储具有新标签的样本,一个Buffer2用来缓存不具有新标签的样本。
S202、每当一个新数据达到,都先经过新标签发现模型对齐判断是否具有新标签。
S203、如果新标签判断结果返回1,那么将这个新样本看做是具有新标签的候选样本并加入缓冲区Buffer1中,然后将样本传递给分类模型预测已知标签空间中的标签。
S204、如果新标签判断结果返回0,那么表示这个样本不具有新标签,将其加入Buffer2中,然后将其直接传递给分类模型预测一直标签空间的标签。
步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwise laberanking loss和误分类损失构建新标签的子模型,将新标签子模型更新到分类模型中,并基
于新标签样本对集成聚类模型更新。
步骤3中将新标签子模型更新到分类模型包括如下步骤:
S301、使用一个线性模型来表示新标签的分类模型:
hnew(x)表示对线性模型的输出值按照φ(x)取值,表示新标签的权值向量的转置,bnew表示新标签的偏移值,fnew(x)表示新标签的线性模型,
S302、基于Buffer1和Buffer2的数据优化下列函数:
B1表示Buffer1中的样本,B2表示Buffer2中的样本,εnew表示对新标签在第j个样本上的惩罚因子,wnew表示新标签的权值向量,xj表示第j个样本的向量,ynew,j表示第j个样本新标签,fnew(xj)表示线性模型对第j样本的输出值,R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面,c表示一个变量,
R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面:
S303、使用梯度下降法优化得到和bnew后,就得到了新标签的分类模型,然后将起集成到分类模型中,使得分类模型对新标签也具有分类能力。
步骤3中新标签发现模型的更新包括如下步骤:
S311、基于Buffer1中的数据进行筛选和更新。
Buffer1的数据筛选方法为:
S311-1、统计出当前集成聚类模型中最大的半径Rmax。
S311-2、把Buffer1中的数据当成一个簇类计算其中心均值向量ub。
S311-3、计算Buffer1中每个数据距离ub的距离,如果这个距离大于Rmax,那么剔除该样本。
S311-4、清空Buffer1和Buffer2。
S311-5、将剔除出来的样本加入Buffer1中
S312、对于集成k-means模型中的每一个单独的k-means模型都进行更新。
S313、根据每个单独的k-means模型的特征抽样对Buffer1中的数据抽样,形成对应的数据集。
S314、对每个单独的k-means模型,给对应的数据集中每一条数据分配一个离其最近的簇类,并将其加入其中,并更新该簇类的个数统计量v。
S315、中心点向量u更新公式为:
公式中带有下标g的变量表示更新后的值,否则代表之前的值;v表示k-means模型中簇类的个数,u表示更新之前的簇类中心点向量,
S316、平均距离Dm的更新公式为:
Dm,g表示更新之后簇类的平均距离,Dm表示更新之前簇类的平均距离,xi表示簇类中第i个样本的向量,
S317、每个簇类的半径R更新方法为,计算新加入的点和中心点的距离,如果改距离比原来的半径大,则将半径替换为该距离。
结合图2说明初始化阶段的实施步骤如下:
步骤0为开始状态。
步骤一设置优化算法的参数,根据参数使用梯度下降法得到初始分类模型中各个标签的权值向量,继而得到初始分类模型。
步骤二设置集成聚类的个数,数据抽样率和特征抽样率。
步骤三基于抽样率随机抽样形成各个训练数据集。
步骤四基于每个单独的训练数据集训练k-means模型,并集成在一起。
步骤五统计各个簇类的中心点向量,半径和平均距离三个统计量形成最终的初始标签发现模型。
图3是模型更新的详细流程图,具体步骤为:
步骤一是使用一个线性模型来表示新标签的分类模型:
步骤二基于Buffer1和Buffer2的数据优化下列函数:
步骤三使用梯度下降法优化得到和bnew后,就得到了新标签的分类模型,然后将起集成到分类模型中,是分类模型对新标签也具有分类能力。
步骤四基于Buffer1中的数据进行筛选和更新。
步骤五对于集成k-means模型中的每一个单独的k-means模型都进行更新。
步骤六根据每个单独的k-means模型的特征抽样对Buffer1中的数据抽样,形成对应的数据集。
步骤七对每个单独的k-means模型,给对应的数据集中每一条数据分配一个离其最近的簇类,并将其加入其中,并更新该簇类的个数统计量v。
步骤八中心点向量u更新公式为:
公式中带有下标g的变量表示更新后的值,否则代表之前的值
平均距离Dm的更新公式为:
每个簇类的半径R更新方法为,计算新加入的点和中心点的距离,如果改距离比原来的半径大,则将半径替换为该距离。
步骤九结束。
终上所述,本发明通过集成聚类和基于标签的增量学习来处理动态多标签学习中新标签发现问题和增量学习问题,借助多个k-means模型来处理数据流中诞生的新标签,集成模型可以大大降低单一模型的偏差,并且通过筛选算法解决了同时诞生多个新标签的问题,基于pairwise label ranking和误分类损失的目标函数来训练分类模型,不仅能在数据流中及时的更新新标签分类模型,同时充分考虑了新标签和已知标签之间的关系,还避免了在数据流中存储大量的样本数据,从而保证了数据流中模型性能的稳定性,具有良好的实用性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于,包括如下步骤:
步骤1,初始化阶段:根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型以及基于k-means的集成聚类新标签发现模型;
步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;
步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwise labelranking loss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对新标签发现模型更新;其中将新标签子模型更新到分类模型包括如下步骤:
S301、使用一个线性模型来表示新标签的分类模型:
其中,hnew(x)表示对线性模型的输出值按照φ(x)取值,表示新标签的权值向量的转置,bnew表示新标签的偏移值,fnew(x)表示新标签的线性模型;
S302、基于Buffer1和Buffer2的数据优化下列函数:
R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面:
其中,B1表示Buffer1中的样本,B2表示Buffer2中的样本,εnew表示对新标签在第j个样本上的惩罚因子,wnew表示新标签的权值向量,xj表示第j个样本的向量,ynew,j表示第j个样本新标签,fnew(xj)表示线性模型对第j样本的输出值,R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面,c表示一个变量;
S303、使用梯度下降法优化得到和bnew后,就得到了新标签的分类模型,然后将起集成到分类模型中,使得分类模型对新标签也具有分类能力。
2.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:
步骤1中初始分类模型优化的损失函数为:
多标签中,对每一个标签,使用一个线性模型对其建模:
其中,hi(x)表示对线性模型的输出值按照φ(x)取值,fi(x)表示线性模型,T表示对矩阵求转置,是标签i的权值向量,bi是偏移值,那么优化的目标损失函数为:
其中,R(i)根据标签第j个样本是相关标签还是不相关标签,Yt表示t时刻标签空间,λ1表示平衡参数,yk,j表示第j个样本的第k个标签,λ2表示平衡参数,εi表示对第j个样本的在第i个标签上的惩罚因子,如果标签i是第j个样本的相关标签,定义为不相关标签集合中排序在标签i之前的标签个数:
如果标签i是第j个样本的不相关标签,定义为相关标签集合中排序在标签i之的个数:
其中I[·]为指示函数;之后利用梯度下降法就可以求解目标函数,初始分类模型建立完成。
3.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:
步骤1中,基于k-means的集成聚类模型建立如下:
S101、设定算法的样本抽样率μ1和特征抽样率μ2,集成的k-means模型个数l,并统计数据的标签个数|Y|;
S102、基于样本抽样率和特征抽样率对初始数据集抽样,形成l个训练数据集;
S103、基于这l个训练数据集建立l个k-means模型并集成到一起;
S104、统计每个单独的k-means模型中每个簇类的半径的平方R和平均距离的平方Dm;
S105、统计整个模型中最大的R值并记录为Rmax。
4.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:
数据流预测阶段包括如下步骤:
S201、设置一个Buffer1用来存储具有新标签的样本,一个Buffer2用来缓存不具有新标签的样本;
S202、每当一个新数据达到,都先经过新标签发现模型对齐判断是否具有新标签;
S203、如果新标签判断结果返回1,那么将这个新样本看做是具有新标签的候选样本并加入缓冲区Buffer1中,然后将样本传递给分类模型预测已知标签空间中的标签;
S204、如果新标签判断结果返回0,那么表示这个样本不具有新标签,将其加入Buffer2中,然后将其直接传递给分类模型预测一直标签空间的标签。
5.根据权利要求1所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:
步骤3中新标签发现模型的更新包括如下步骤:
S311、基于Buffer1中的数据进行筛选和更新;
S312、对于集成k-means模型中的每一个单独的k-means模型都进行更新;
S313、根据每个单独的k-means模型的特征抽样对Buffer1中的数据抽样,形成对应的数据集;
S314、对每个单独的k-means模型,给对应的数据集中每一条数据分配一个离其最近的簇类,并将其加入其中,并更新该簇类的个数统计量v;
S315、中心点向量u更新公式为:
公式中带有下标g的变量表示更新后的值,否则代表之前的值;v表示k-means模型中簇类的个数,u表示更新之前的簇类中心点向量;
S316、平均距离Dm的更新公式为:
Dm,g表示更新之后簇类的平均距离,Dm表示更新之前簇类的平均距离,xi表示簇类中第i个样本的向量;
S317、每个簇类的半径R更新方法为,计算新加入的点和中心点的距离,如果该距离比原来的半径大,则将半径替换为该距离。
6.根据权利要求5所述基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于:
步骤S311中Buffer1的数据筛选方法为:
S311-1、统计出当前集成聚类模型中最大的半径Rmax;
S311-2、把Buffer1中的数据当成一个簇类计算其中心均值向量ub;
S311-3、计算Buffer1中每个数据距离ub的距离,如果这个距离大于Rmax,那么剔除该样本;
S311-4、清空Buffer1和Buffer2;
S311-5、将剔除出来的样本加入Buffer1中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810470711.3A CN108717552A (zh) | 2018-05-17 | 2018-05-17 | 基于新标签发现和标签增量学习的动态多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810470711.3A CN108717552A (zh) | 2018-05-17 | 2018-05-17 | 基于新标签发现和标签增量学习的动态多标签分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108717552A true CN108717552A (zh) | 2018-10-30 |
Family
ID=63900047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810470711.3A Pending CN108717552A (zh) | 2018-05-17 | 2018-05-17 | 基于新标签发现和标签增量学习的动态多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108717552A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866555A (zh) * | 2019-11-11 | 2020-03-06 | 广州国音智能科技有限公司 | 增量数据的聚类方法、装置、设备及可读存储介质 |
CN111352966A (zh) * | 2020-02-24 | 2020-06-30 | 交通运输部水运科学研究所 | 一种自主航行中的数据标签标定方法 |
CN111783997A (zh) * | 2020-06-29 | 2020-10-16 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN112580797A (zh) * | 2020-11-26 | 2021-03-30 | 广东工业大学 | 一种多模态多标签预测模型的增量学习方法 |
CN113160917A (zh) * | 2021-05-18 | 2021-07-23 | 山东健康医疗大数据有限公司 | 一种电子病历实体关系抽取方法 |
WO2022198477A1 (zh) * | 2021-03-24 | 2022-09-29 | 深圳大学 | 分类模型增量学习实现方法、装置、电子设备及介质 |
-
2018
- 2018-05-17 CN CN201810470711.3A patent/CN108717552A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866555A (zh) * | 2019-11-11 | 2020-03-06 | 广州国音智能科技有限公司 | 增量数据的聚类方法、装置、设备及可读存储介质 |
CN111352966A (zh) * | 2020-02-24 | 2020-06-30 | 交通运输部水运科学研究所 | 一种自主航行中的数据标签标定方法 |
CN111783997A (zh) * | 2020-06-29 | 2020-10-16 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN111783997B (zh) * | 2020-06-29 | 2024-04-23 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN112580797A (zh) * | 2020-11-26 | 2021-03-30 | 广东工业大学 | 一种多模态多标签预测模型的增量学习方法 |
CN112580797B (zh) * | 2020-11-26 | 2024-01-16 | 广东工业大学 | 一种多模态多标签预测模型的增量学习方法 |
WO2022198477A1 (zh) * | 2021-03-24 | 2022-09-29 | 深圳大学 | 分类模型增量学习实现方法、装置、电子设备及介质 |
CN113160917A (zh) * | 2021-05-18 | 2021-07-23 | 山东健康医疗大数据有限公司 | 一种电子病历实体关系抽取方法 |
CN113160917B (zh) * | 2021-05-18 | 2022-11-01 | 山东浪潮智慧医疗科技有限公司 | 一种电子病历实体关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717552A (zh) | 基于新标签发现和标签增量学习的动态多标签分类方法 | |
CN112561156A (zh) | 基于用户负荷模式分类的短期电力负荷预测方法 | |
CN102314614B (zh) | 一种基于类共享多核学习的图像语义分类方法 | |
CN113868366B (zh) | 一种面向流数据的在线跨模态检索方法与系统 | |
CN109376772B (zh) | 一种基于神经网络模型的电力负荷组合预测方法 | |
CN103116762A (zh) | 一种基于自调制字典学习的图像分类方法 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN111738532A (zh) | 一种事件对对象影响度的获取方法和系统 | |
CN114387473A (zh) | 一种基于基类样本特征合成的小样本图像分类方法 | |
CN116910571B (zh) | 一种基于原型对比学习的开集域适应方法及系统 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
CN111737294A (zh) | 一种基于动态增量集成模糊的数据流分类方法 | |
CN116912624A (zh) | 一种伪标签无监督数据训练方法、装置、设备及介质 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN101226521A (zh) | 一种用于多义性数据对象预测建模的机器学习方法 | |
CN112364980B (zh) | 一种弱监督场景下基于强化学习的深度神经网络训练方法 | |
Chen et al. | Improving the forecasting and classification of extreme events in imbalanced time series through block resampling in the joint predictor-forecast space | |
CN112418987A (zh) | 交通运输单位信用评级方法、系统、电子设备及存储介质 | |
CN116051924B (zh) | 一种图像对抗样本的分治防御方法 | |
CN116630718A (zh) | 一种基于原型的低扰动的图像类增量学习算法 | |
CN111489192A (zh) | 融合ict供应链网络拓扑特征的产品份额趋势预测方法 | |
CN112183580A (zh) | 一种基于动态知识路径学习的小样本分类方法 | |
CN114357869A (zh) | 一种基于数据关系学习和预测的多目标优化代理模型设计方法及系统 | |
CN110647671A (zh) | 一种基于AAE-DWMIL-LearnNSE的数据流分类算法 | |
Hulley et al. | Genetic algorithm based incremental learning for optimal weight and classifier selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181030 |