CN110110792A - 一种基于增量学习的多标签数据流分类方法 - Google Patents
一种基于增量学习的多标签数据流分类方法 Download PDFInfo
- Publication number
- CN110110792A CN110110792A CN201910385391.6A CN201910385391A CN110110792A CN 110110792 A CN110110792 A CN 110110792A CN 201910385391 A CN201910385391 A CN 201910385391A CN 110110792 A CN110110792 A CN 110110792A
- Authority
- CN
- China
- Prior art keywords
- follows
- data block
- label
- model
- base classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 2
- 238000004321 preservation Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 235000015170 shellfish Nutrition 0.000 claims 1
- 238000011160 research Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
Abstract
一种基于增量学习的多标签数据流分类方法,步骤一,初始训练阶段,将多标签数据流建模成固定实例数的数据块,根据初始的数据块,对于每个数据块进行朴素贝叶斯模型的训练以及应用KMeans算法得到簇心集合;训练好的朴素贝叶斯分类模型和簇心集合共同作为基分类器;步骤二,概念漂移检测阶段,初始学习阶段朴素贝叶斯集成模型中的基分类器数量达到一定个数时,分别从数据层面和模型层面进行概念漂移的检测;步骤三,增量更新阶段,当最新的数据块Dt到来时,针对集成模型中的每个基分类器,用Dt中的每个样本本身所携带的信息对基分类器进行更新,进行实例信息更新;能及时检测到数据流中的概念漂移,避免在遇到概念漂移时算法性能遭遇大幅下滑,而且能够对于最新到来的数据进行增量学习,保证了模型的性能。
Description
技术领域
本发明涉及数据流环境下的多标签分类方法,具体涉及增量学习与概念漂移检测方法。
背景技术
近些年来,随着互联网的快速发展,每天产生的数据也越来越多。我们当前正处于数据快速增长的时代,全球互联网每时每刻都产生了海量的数据。尤其在社交网络领域,腾讯的微信日活跃用户数量已达到9亿,活跃的用户量时时刻刻都在产生高速、动态的海量数据。与此类似的场景还有传感器网络、网站日志、电商交易记录等等。这种按照时间先后顺序产生的数据称为数据流,对于这些数据流挖掘分析是一个现实并且富有挑战性的问题。在单标签数据流分类领域,学术界已经做了大量的研究。然而,在很多的现实场景中,数据流的每个样本包含了多个标签。例如在一个在线网页新闻分类任务中,一篇网页新闻会包含了多个新闻主题(经济、政治、商业、体育等等)。在线的视频分类任务中,一段视频可能被打上多个标签(灾难、海洋、科幻等等)。因此,面向多标签数据流分类的算法研究是很有现实意义的。
在数据流环境下,算法无法获得所有的训练数据,随着时间的流逝,新的样本数据不断的到来,因此增量学习在多标签数据流分类研究中显得尤为重要。现有的数据流分类算法中应用到了增量学习思想的比较少,有用到了增量学习思想的是基于现有的增量学习算法,例如增量朴素贝叶斯算法。传统的增量朴素贝叶斯算法基于贝叶斯公式进行相关概率的计算与更新,但是由于其算法中的“朴素”,即假设样本的属性之间是互不相干的,并且由于完全丢掉了训练初始模型时的实例信息,因此其增量学习效果有一定改善空间。数据流中普遍存在着概念漂移问题,当分类算法遇到概念漂移时,以前所学习到的知识可能就不再适用了,为了避免分类算法性能在遇到概念漂移时遭遇大幅下滑,概念漂移检测便尤其重要。但是现有的一些方法中,都是以适应性的方式处理概念漂移,不能及时检测并处理概念漂移问题。
发明内容
发明目的:本发明所要解决的问题是,多标签数据流分类问题中的新数据到来的增量学习与概念漂移问题,提出了基于朴素贝叶斯与KMeans的增量学习方法和双层概念漂移检测方法。具体方案如下:
本发明的技术方案是,一种基于增量学习的多标签数据流分类方法,包括三个阶段,初始训练阶段、概念漂移检测阶段、增量更新阶段;步骤一,初始训练阶段,将多标签数据流建模成固定实例数的数据块,根据初始的数据块,对于每个数据块进行朴素贝叶斯模型的训练以及应用KMeans算法得到簇心集合;训练好的朴素贝叶斯分类模型和簇心集合共同作为基分类器;
步骤二,概念漂移检测阶段,初始学习阶段朴素贝叶斯集成模型中的基分类器数量达到一定个数时,分别从数据层面和模型层面进行概念漂移的检测;数据层面主要通过统计上的属性-标签概率相关性检测,根据“实例的属性信息足够相似,则标签信息也应足够相似”这一原则进行阈值判断,违背了这一原则且超过一定阈值可判断发生了概念漂移。模型层面检测则根据假设检验的思想,对于模型的分类错误率进行比较判断;
步骤三,增量更新阶段,当最新的数据块Dt到来时,针对集成模型中的每个基分类器,用Dt中的每个样本本身所携带的信息对基分类器进行更新,进行实例信息更新;在对Dt中的每个实例用基分类器进行预测,根据预测正确与否进行预测更新,即用基分类器对Dt中的每一个实例预测正确与否对基分类器执行不同的更新策略;
进一步的,初始训练阶段的模型建立包括如下步骤:
步骤一中初始训练阶段的朴素贝叶斯分类模型预测类别为:
其中K为类别数,n为属性数。得到类别计算公式后,能够知道要判断一个实例所属的类,需要计算类先验概率P(ci)和特征的类条件概率P(xj|ci)。对于第l个标签,其类先验概率用Pl(ci)表示,Pl(ci)的计算公式为:
其中为训练样本中第l个标签类别为ci的个数,N为训练样本总数。而Pl(xj|ci)的计算就复杂些,当Xj为离散属性时:
其中为训练样本中第l个标签类别为ci且第j个属性值为xj的实例个数。当Xj为连续属性时:
应用KMeans算法得到簇心集合O={O1,O2,...Oh},并根据训练好的朴素贝叶斯模型得到每个簇心的标签集合与真值向量,真值向量的计算公式如下:
得到这h个簇心的相关信息并保存,其保存的具体信息如下式所示:
S={(O1,Y1,R1),(O2,Y2,R2),...,(Oh,Yh,Rh)}
步骤一中根据初始的数据块学习出基分类器,包括如下步骤:
S1、对于初始的数据块,进行初始朴素贝叶斯模型的训练,对于每个标签学习出一个朴素贝叶斯分类模型,根据初始的数据块,得到f={f1,f2,...fq}
S2、在数据块上应用KMeans算法,得到簇心集合O={O1,O2,...Oh}。
S3、在O上应用模型f,得到标签集合Y与真知向量R。
S4、将簇心集合O={O1,O2,...Oh}、以及对应的标签集合真值向量R保存到S中。
概念漂移检测阶段包括如下步骤:
S1、首先进行数据层面的概念漂移检测,对于两个数据块D1,D2。属性的差异度量计算公式为:
S2、计算D1,D2的标签差异度量,其计算公式为:
其中pj的计算公式为:
S3、数据块D1,D2的标签密度差异度量dlden的计算公式如下:
dlden=||LDen1-LDen2||
其中LDen表示标签密度,其计算公式如下:
LCard表示标签基数,其计算公式如下:
其中Yi={-1,1}L,表示实例xi的标签集合,-1表示不相关标签,1表示相关标签,L表示标签集的大小。
S4、数据块D1,D2整体差异度量dall的计算公式如下:
如果dall大于2或者太小0.5时,则可判断发生了数据层面的概念漂移
S5、接着以下步骤进行模型层面的概念漂移检测,对于数据块的某个实例,其分类错误率的计算为:
S6、对于数据块的第i个实例,模型在对第i个实例预测并计算出pi和σi之后,需要进行比较,若pi+σi<pmin+σmin,则进行更新:pmin=pi,σmin=σi。
S7、对于数据块的第i个实例,如果pi+σi≥pi+3*σi条件满足,则可判断发生了模型层面的概念漂移,否则可判断没有发生概念漂移。
增量更新阶段包括如下步骤:
S1、根据是否检测到概念漂移,执行不同的更新策略。如果检测到概念漂移,则移除发生概念漂移数据块对应的基分类器;
S2、如果没有发生到概念漂移,在最新的数据块上训练出一个基分类器,根据当前集成模型的基分类器在当前数据块上的性能表现,淘汰掉性能最差的基分类器;
S3、对于集成模型的每个基分类器,在当前的数据块上执行更新策略。对于最新的数据块Dt的每个样本,进行实例信息更新流程,假设xi的真实标签集合为:Yi={y1,y2,...yL}∈{-1,1}L,第l个标签的类别先验概率更新公式如下:
类的特征条件概率更新则根据其属性值类型,当属性值类型为离散型的时候,其更新公式为:
其中为训练样本中第l个标签类别为ci的个数。当特征Xj为连续属性时,根据新来的实例所属类别对相应的类别属性的平均值和方差进行更新,特征的类条件概率更新公式如下:
其中分别表示第l个标签的类别为ci的实例属性的平均值和方差。
S4、实例信息更新流程完成后,对于集成模型的每个基分类器,执行预测更新策略。在对数据块的每个样本,用基分类器进行预测,根据预测正确与否执行不同的更新策略。假设其预测的标签集合为:当l个标签类别预测正确时,其第l个标签类别的先验概率更新公式如下:
当特征为离散值时,特征的类条件概率更新如下:
当特征为连续值时,特征的类条件概率更新如下:
当第l个标签类别预测错误时,其第l个标签类别的先验概率更新公式如下:
当特征为离散值时,特征的类条件概率更新如下:
对于连续型属性值,类的特征条件概率更新公式如下:
进一步的,对初始训练阶段得到的基分类器进行增量更新,包括以下步骤:
S1、根据是否检测到概念漂移,执行不同的更新策略。如果检测到概念漂移,则移除发生概念漂移数据块对应的基分类器;
S2、如果没有发生到概念漂移,在最新的数据块上训练出一个基分类器,根据当前集成模型的基分类器在当前数据块上的性能表现,淘汰掉性能最差的基分类器;
S3、对于集成模型的每个基分类器,在当前的数据块上执行更新策略。对于最新的数据块Dt的每个样本,进行实例信息更新流程,假设xi的真实标签集合为:Yi={y1,y2,...yL}∈{-1,1}L,第l个标签的类别先验概率更新公式如下:
类的特征条件概率更新则根据其属性值类型,当属性值类型为离散型的时候,其更新公式为:
其中为训练样本中第l个标签类别为ci的个数。当特征Xj为连续属性时,根据新来的实例所属类别对相应的类别属性的平均值和方差进行更新,其中分别表示第l个标签的类别为ci的实例属性的平均值和方差,特征的类条件概率更新公式如下:
S4、实例信息更新流程完成后,对于集成模型的每个基分类器,执行预测更新策略。在对数据块的每个样本,用基分类器进行预测,根据预测正确与否执行不同的更新策略。假设其预测的标签集合为:当l个标签类别预测正确时,其第l个标签类别的先验概率更新公式如下:
当特征为离散值时,特征的类条件概率更新如下:
当特征为连续值时,特征的类条件概率更新如下:
当第l个标签类别预测错误时,其第l个标签类别的先验概率更新公式如下:
当特征为离散值时,特征的类条件概率更新如下:
对于连续型属性值,类的特征条件概率更新公式如下:
增量更新阶段中模型对于某个实例的预测包括以下步骤:
S1、对于实例xt,根据步骤一得到的簇心集合,得到xt的K个最近邻簇心。实例xt的某个K近邻簇心的oi距离权重公式如下:
其中di计算公式如下:
S2、根据朴素贝叶斯模型与oi的真值向量Ri,簇心集合中第i个簇心的真值向量权重计算公式为:
表示第i个簇心对第l个标签的预测值的确信度,则该簇心对于实例的第l个标签的权重计算公式为:
S3、对于实例xt,假设其预测的标签集合为:其中L为标签数目,则预测的第l个标签为:
有益效果:本发明使用融入了KMean的增量朴素贝叶斯算法来解决数据流环境下新样本到来所带来的新知识问题,能够充分利用初始学习阶段中实例的特征信息。从概念漂移的诱因与影响模型分类效果的角度出发,分别从数据层面和模型层面进行概念漂移检测,显著提高了分类方法在数据流环境下的分类的稳定性。本发明解决了多标签数据流分类算法在时空限制的条件下进行模型的学习与预测问题,并在含有概念漂移的情况下维持了算法较高的性能。本发明方法不仅能及时检测到数据流中的概念漂移,避免在遇到概念漂移时算法性能遭遇大幅下滑,而且能够对于最新到来的数据进行增量学习,保证了模型的性能。
附图说明
图1是本发明的整体流程图;
图2是概念漂移检测流程图;
图3是增量学习流程图;
具体实施方式
为了更好的了解本发明的技术内容,特举例实施并配合所附图式说明如下。
图1为实施例中基于数据块机制和增量学习的多标签数据流分类方法的整体流程图,如图所示,该方法主要包括三个阶段,分别是初始训练阶段、概念漂移检测阶段、ze
结合图2说明概念漂移检测阶段的实施步骤如下:
步骤一首先进行数据层面的概念漂移检测,对于两个数据块D1,D2,进行属性的差异度量的计算;
步骤二计算D1,D2的标签差异度量;
步骤三计算D1,D2的标签密度差异度量;
步骤四进行数据块D1,D2整体差异度量计算,如果dall太大或者太小,则可判断发生了数据层面的概念漂移;
步骤五接着以下步骤进行模型层面的概念漂移检测,对于数据块的某个实例,计算其分类错误率与标准差。
步骤六对于数据块的每个实例,实时更新分类错误率与标准差和的最小值。对于数据块的第i个实例,模型在对第i个实例预测并计算出pi和σi之后,需要进行比较,若pi+σi<pmin+σmin,则进行更新:pmin=pi,σmin=σi。
步骤七进行模型层面概念漂移的判定,对于数据块的第i个实例,如果pi+σi≥pi+3*σi条件满足,则可判断发生了模型层面的概念漂移,否则可判断没有发生概念漂移。
图3是模型增量更新的流程图,具体步骤为:
步骤一根据是否检测到概念漂移,执行不同的更新策略。如果检测到概念漂移,则移除发生概念漂移数据块对应的基分类器;
步骤二根据检测没有发生到概念漂移,在最新的数据块上训练出一个基分类器,根据当前集成模型的基分类器在当前数据块上的性能表现,淘汰掉性能最差的基分类器;
步骤三对于集成模型的每个基分类器,在当前的数据块上执行更新策略。对于最新的数据块Dt的每个样本,进行实例信息更新流程,假设xi的真实标签集合为:Yi={y1,y2,...yL}∈{-1,1}L,第l个标签的类别先验概率更新公式如下:
类的特征条件概率更新则根据其属性值类型,当属性值类型为离散型的时候,其更新公式为:
其中为训练样本中第l个标签类别为ci的个数。当特征Xj为连续属性时,根据新来的实例所属类别对相应的类别属性的平均值和方差进行更新,分别表示第l个标签的类别为ci的实例属性的平均值和方差,特征的类条件概率更新公式如下:
步骤四实例信息更新流程完成后,对于集成模型的每个基分类器,执行预测更新策略。在对数据块的每个样本,用基分类器进行预测,根据预测正确与否执行不同的更新策略。假设其预测的标签集合为:当l个标签类别预测正确时,其第l个标签类别的先验概率更新公式如下:
当特征为离散值时,特征的类条件概率更新如下:
当特征为连续值时,特征的类条件概率更新如下:
当第l个标签类别预测错误时,其第l个标签类别的先验概率更新公式如下:
当特征为离散值时,特征的类条件概率更新如下:
对于连续型属性值,类的特征条件概率更新公式如下:
综上所述,种基于数据块机制和增量学习的多标签数据流分类方法,解决了多标签数据流分类算法在时空限制的条件下进行模型的学习与预测问题,并在含有概念漂移的情况下维持了算法较高的性能。通过融入了KMeans的增量朴素贝叶斯算法,有效利用了初始学习阶段中的实例特征信息。在多标签数据流分类过程中主动的去进行概念漂移的检测,从而保证了数据流中模型性能的稳定性,具有良好的实用性。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (5)
1.一种基于增量学习的多标签数据流分类方法,其特征在于,包括三个阶段,即初始训练阶段、概念漂移检测阶段、增量更新阶段;步骤一,初始训练阶段,将多标签数据流建模成固定实例数的数据块,根据初始的数据块,对于每个数据块进行朴素贝叶斯模型的训练以及应用KMeans算法得到簇心集合;训练好的朴素贝叶斯分类模型和簇心集合共同作为基分类器;
步骤二,概念漂移检测阶段,初始学习阶段朴素贝叶斯集成模型中的基分类器数量达到一定个数时,分别从数据层面和模型层面进行概念漂移的检测;数据层面主要通过统计上的属性-标签概率相关性检测,根据“实例的属性信息足够相似,则标签信息也应足够相似”这一原则进行阈值判断,违背了这一原则且超过一定阈值可判断发生了概念漂移;模型层面检测则根据假设检验的思想,对于模型的分类错误率进行比较判断;
步骤三,增量更新阶段,当最新的数据块Dt到来时,针对集成模型中的每个基分类器,用Dt中的每个样本本身所携带的信息对基分类器进行更新,进行实例信息更新;在对Dt中的每个实例用基分类器进行预测,根据预测正确与否进行预测更新,即用基分类器对Dt中的每一个实例预测正确与否对基分类器执行不同的更新策略。
2.根据权利要求1所述的多标签数据流分类方法,其特征在于,步骤一中初始的朴素贝叶斯分类模型预测类别为:
其中K为类别数,n为属性数;得到类别计算公式后,可知要判断一个实例所属的类,需要计算类先验概率P(ci)和特征的类条件概率P(xj|ci);对于第l个标签,其类先验概率用Pl(ci)表示,Pl(ci)的计算公式为:
其中为训练样本中第l个标签类别为ci的个数,N为训练样本总数;而Pl(xj|ci)的计算就复杂些,当Xj为离散属性时:
其中为训练样本中第l个标签类别为ci且第j个属性值为xj的实例个数;当Xj为连续属性时:
其中分别表示第l个标签的类别为ci的实例属性的平均值和方差。
同时应用KMeans算法得到簇心集合O={O1,O2,…Oh},并根据训练好的朴素贝叶斯模型得到每个簇心的标签集合与真值向量,真值向量的计算公式如下:
得到这h个簇心的相关信息并保存,其保存的具体信息如下式所示:
S={{(O1,Y1,R1),(O2,Y2,R2),…,(Oh,Yh,Rh)}
步骤一中根据初始的数据块学习出基分类器,其特征在于,包括如下步骤:
S1、根据初始的数据块,对于每个标签学习出一个朴素贝叶斯分类模型,得到f={f1,f2,…fq}
S2、在数据块上应用KMeans算法,得到簇心集合O={O1,O2,…Oh};
S3、在O上应用模型f,得到标签集合Y与真知向量R;
S4、将簇心集合O={O1,O2,…Oh}、以及对应的标签集合真值向量R保存到S中。
3.根据权利要求1述的多标签数据流分类方法,其特征在于,步骤二概念漂移检测阶段包括如下步骤:
S1、首先进行数据层面的概念漂移检测,对于两个拥有固定实例大小的数据块D1,D2,其属性的差异度量datt计算公式如下:
S2、数据块D1,D2的标签差异度量dpro计算公式如下:
其中pj表示第j个标签的频率,其计算公式为:
S3、数据块D1,D2的标签密度差异度量dlden的计算公式如下:
dlden=||LDen1-LDen2||
其中LDen表示标签密度,其计算公式如下:
LCard表示标签基数,其计算公式如下:
其中Yi={-1,1}L,表示实例xi的标签集合,-1表示不相关标签,1表示相关标签,L表示标签集的大小。
S4、数据块D1,D2整体差异度量dall的计算公式如下:
如果dall大于2或者太小0.5时,则可判断发生了数据层面的概念漂移;
S5、接着按以下步骤进行模型层面的概念漂移检测,对于数据块的某个实例,其分类错误率的计算为:
S6、对于数据块的第i个实例,模型在对第i个实例预测并计算出pi和σi之后,需要进行比较,若pi+σi<pmin+σmin,则进行更新:pmin=pi,σmin=σi;
S7、对于数据块的第i个实例,如果pi+σi≥pi+3*σi条件满足,则可判断发生了模型层面的概念漂移,否则可判断没有发生概念漂移。
4.根据权利要求1所述的所述的多标签数据流分类方法,其特征在于,步骤三增量更新阶段包括如下步骤:
S1、根据是否检测到概念漂移,执行不同的更新策略;如果检测到概念漂移,则移除发生概念漂移数据块对应的基分类器;
S2、如果没有发生到概念漂移,在最新的数据块上训练出一个基分类器,根据当前集成模型的基分类器在当前数据块上的性能表现,淘汰掉性能最差的基分类器;
S3、对于集成模型的每个基分类器,在当前的数据块上执行更新策略;对于最新的数据块Dt的每个样本,进行实例信息更新流程,假设xi的真实标签集合为:Yi={y1,y2,…yL}∈{-1,1}L,第l个标签的类别先验概率更新公式如下:
类的特征条件概率更新则根据其属性值类型,当属性值类型为离散型的时候,其更新公式为:
其中为训练样本中第l个标签类别为ci的个数;当特征Xj为连续属性时,根据新来的实例所属类别对相应的类别属性的平均值和方差进行更新,特征的类条件概率更新公式如下:
S4、实例信息更新流程完成后,对于集成模型的每个基分类器,执行预测更新策略;在对数据块的每个样本,用基分类器进行预测,根据预测正确与否执行不同的更新策略;假设其预测的标签集合为:当l个标签类别预测正确时,其第l个标签类别的先验概率更新公式如下:
当特征为离散值时,特征的类条件概率Pl(xj|ci)更新如下:
Xt表示第个标签
当特征为连续值时,特征的类条件概率更新如下:
当第l个标签类别预测错误时,其第l个标签类别的先验概率更新公式如下:
当特征为离散值时,特征的类条件概率更新如下:
对于连续型属性值,类的特征条件概率更新公式如下:
。
5.根据权利要求4所述的多标签数据流分类方法,其特征在于,所述的基分类器在增量更新对实例的预测过程,步骤为:
S1、对于实例xt,根据步骤一得到的簇心集合,得到xt的K个最近邻簇心;实例xt的某个K近邻簇心的oi距离权重公式αi的计算如下所示:
其中di计算公式如下:
S2、根据朴素贝叶斯模型与oi的真值向量Ri,簇心集合中第i个簇心的真值向量权重计算公式为:
表示第i个簇心对第l个标签的预测值的确信度,则该簇心对于实例的第l个标签的权重计算公式为:
S3、对于实例xt,假设其预测的标签集合为:其中L为标签数目,则预测的第l个标签为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910385391.6A CN110110792A (zh) | 2019-05-09 | 2019-05-09 | 一种基于增量学习的多标签数据流分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910385391.6A CN110110792A (zh) | 2019-05-09 | 2019-05-09 | 一种基于增量学习的多标签数据流分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110792A true CN110110792A (zh) | 2019-08-09 |
Family
ID=67489059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910385391.6A Pending CN110110792A (zh) | 2019-05-09 | 2019-05-09 | 一种基于增量学习的多标签数据流分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110792A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275089A (zh) * | 2020-01-16 | 2020-06-12 | 北京松果电子有限公司 | 一种分类模型训练方法及装置、存储介质 |
CN112328703A (zh) * | 2020-10-31 | 2021-02-05 | 同济大学 | 一种基于增量学习的数控设备健康状态诊断装置及方法 |
CN112528111A (zh) * | 2020-12-10 | 2021-03-19 | 重庆大学 | 一种面向变分布数据流的在线分类方法 |
CN112651444A (zh) * | 2020-12-29 | 2021-04-13 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
WO2022036995A1 (zh) * | 2020-08-17 | 2022-02-24 | 浙江宇视科技有限公司 | 向量数据处理方法、系统、计算节点、主节点、训练节点及存储介质 |
CN114826675A (zh) * | 2022-03-28 | 2022-07-29 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
CN115795466A (zh) * | 2023-02-06 | 2023-03-14 | 广东省科技基础条件平台中心 | 一种恶意软件组织识别方法及设备 |
CN116805157A (zh) * | 2023-08-25 | 2023-09-26 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
-
2019
- 2019-05-09 CN CN201910385391.6A patent/CN110110792A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275089A (zh) * | 2020-01-16 | 2020-06-12 | 北京松果电子有限公司 | 一种分类模型训练方法及装置、存储介质 |
CN111275089B (zh) * | 2020-01-16 | 2024-03-05 | 北京小米松果电子有限公司 | 一种分类模型训练方法及装置、存储介质 |
WO2022036995A1 (zh) * | 2020-08-17 | 2022-02-24 | 浙江宇视科技有限公司 | 向量数据处理方法、系统、计算节点、主节点、训练节点及存储介质 |
CN112328703A (zh) * | 2020-10-31 | 2021-02-05 | 同济大学 | 一种基于增量学习的数控设备健康状态诊断装置及方法 |
CN112528111A (zh) * | 2020-12-10 | 2021-03-19 | 重庆大学 | 一种面向变分布数据流的在线分类方法 |
CN112528111B (zh) * | 2020-12-10 | 2023-10-20 | 重庆大学 | 一种面向变分布数据流的在线分类方法 |
CN112651444A (zh) * | 2020-12-29 | 2021-04-13 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN112651444B (zh) * | 2020-12-29 | 2022-08-02 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN114826675A (zh) * | 2022-03-28 | 2022-07-29 | 杭州趣链科技有限公司 | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 |
CN115795466A (zh) * | 2023-02-06 | 2023-03-14 | 广东省科技基础条件平台中心 | 一种恶意软件组织识别方法及设备 |
CN116805157A (zh) * | 2023-08-25 | 2023-09-26 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
CN116805157B (zh) * | 2023-08-25 | 2023-11-17 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110792A (zh) | 一种基于增量学习的多标签数据流分类方法 | |
CN105138953B (zh) | 一种基于连续的多实例学习的视频中动作识别的方法 | |
JP2019521443A (ja) | 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム | |
CN105069483B (zh) | 一种对分类数据集进行测试的方法 | |
CN108804577B (zh) | 一种资讯标签兴趣度的预估方法 | |
CN108830417B (zh) | 一种基于arma和回归分析的生活能源消费预测方法及系统 | |
CN105095494A (zh) | 一种对分类数据集进行测试的方法 | |
EP4053757A1 (en) | Degradation suppression program, degradation suppression method, and information processing device | |
CN110458022A (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN110111370A (zh) | 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法 | |
Daniel Loyal et al. | A Bayesian nonparametric latent space approach to modeling evolving communities in dynamic networks | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
US11829442B2 (en) | Methods and systems for efficient batch active learning of a deep neural network | |
CN112541010B (zh) | 一种基于逻辑回归的用户性别预测方法 | |
Lo | Predicting software reliability with support vector machines | |
Hosseini et al. | Pool and accuracy based stream classification: a new ensemble algorithm on data stream classification using recurring concepts detection | |
CN113065447A (zh) | 一种图像集中自动识别商品的方法和设备 | |
CN115439919B (zh) | 模型更新方法、装置、设备、存储介质及程序产品 | |
CN115511012B (zh) | 一种最大熵约束的类别软标签识别训练方法 | |
JP5401885B2 (ja) | モデルの構築方法、構築システム及び構築用プログラム | |
Alasalmi et al. | Classification uncertainty of multiple imputed data | |
CN109460474A (zh) | 用户偏好趋势挖掘方法 | |
CN109754000A (zh) | 一种基于依赖度的半监督多标签分类方法 | |
Chiu | An early software-quality classification based on improved grey relational classifier | |
CN108805162A (zh) | 一种基于粒子群优化的酵母菌多标记特征选择方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |