CN115496133A - 基于自适应在线学习的密度数据流聚类方法 - Google Patents

基于自适应在线学习的密度数据流聚类方法 Download PDF

Info

Publication number
CN115496133A
CN115496133A CN202211094825.5A CN202211094825A CN115496133A CN 115496133 A CN115496133 A CN 115496133A CN 202211094825 A CN202211094825 A CN 202211094825A CN 115496133 A CN115496133 A CN 115496133A
Authority
CN
China
Prior art keywords
micro
cluster
data
clusters
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211094825.5A
Other languages
English (en)
Inventor
刘若辰
张锦伟
张有
王晗丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
AECC Sichuan Gas Turbine Research Institute
Original Assignee
Xidian University
AECC Sichuan Gas Turbine Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, AECC Sichuan Gas Turbine Research Institute filed Critical Xidian University
Priority to CN202211094825.5A priority Critical patent/CN115496133A/zh
Publication of CN115496133A publication Critical patent/CN115496133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自适应在线学习的数据流聚类方法,主要解决现有技术因固定参数及模型对参数的依赖性所导致聚类结果精度低的问题。其实现方案是:根据数据流中数据信息创建微簇;微簇接收到一个新的数据点后使用半径的自适应增长策略使活跃的微簇吸收更多的数据学习微簇结构,并通过不同类型微簇的能量更新策略处理数据流不断演化,使微簇能量衰减模拟演化过程,微簇消亡引起聚类改变;根据改变的微簇间距离,实现同类数据的聚合,输出数据聚类结果。本发明通过自适应调整策略对微簇模型的参数动态调优,在线学习数据更新微簇模型,提高了动态数据环境下数据流聚类的精度,可用于互联网数据的模型学习、网络入侵检测、网络点击流及天气监测。

Description

基于自适应在线学习的密度数据流聚类方法
技术领域
本发明属于智能信息处理技术领域,特别涉及一种密度数据流聚类方法,可用于互联网数据的模型学习、银行数据处理、网络入侵检测、交易流、网络点击流及天气监测。
背景技术
数据流,是指以高速传输的规模巨大的数据序列,其只能以事先规定好的顺序被读取。传统数据是静态的、稳定的。它可以在任何时候被访问和多次处理。数据流是动态的、是连续的,随着时间的推移而变化。“实时”、“连续”、“有序”是描述数据流的常用词汇,“数据量大”、“潜在无限”、“到达率不确定”也是其明显特征。在互联网数据的模型学习、银行数据处理、网络入侵检测、交易流、网络点击流及天气监测的大多数应用中,真正的类标签对于数据流实例是不可用的,且因为没有关于类别数量的先验知识,所以工作人员需要对数据流中的数据采用基于无监督的数据聚类方法。由于数据流通常以非常高的速度传输,对数据流数据的计算、存储都将变得很困难,通常只有在数据最初到达时有机会对其进行一次处理,其他时候很难再存取到这些数据,因此在线模式的数据流聚类就非常具有研究价值,这种方法可以快速的对聚类结果进行反馈。此外,在动态数据环境下,数据流产生的数据是不稳定的,存在数据分布随时间改变的现象,即概念漂移。在处理动态数据环境下的数据流聚类时,如何保存历史信息、如何使用历史信息以及如何维护历史信息是影响数据流聚类精度的重要问题。
现有数据流聚类方法主要分为基于层次的数据流聚类方法、基于划分的数据流聚类方法、基于密度的数据流聚类方法、基于网格的数据流聚类方法、基于模型的数据流聚类方法,其中:
基于层次的数据流聚类方法,是基于二叉树的数据结构,将给定的数据分组成一个簇树,该分层聚类分为两种:凝聚型和分裂型,凝聚型算法采用自下而上的方式,即假设每个实例本身就是一个簇,通过逐步合并实例来创建集群;分裂型算法采用自上而下的方式,即假设一个起始簇包含所有数据,然后将起始簇分裂成更小的簇。经典的基于层次算法有BRITH算法,其采用的CF数据表征的结构被后续很多两阶段算法采用,其局限性在于形成微簇过程是不可逆的。
基于划分的数据流聚类方法,根据数据实例与集群质心的相似性(或距离),将数据实例分割成预定义的若干个分区,其中每个分区代表一个集群。基于划分算法有Clustream算法、strAP算法,该方法虽然容易实现,但是只能找到球形的聚类结果,聚类结果容易受到噪声和分区数量的影响。。
基于网格的数据流聚类方法,采用网格结构,划分多个网格单元,每个实例都会映射到一个网格单元,算法根据网格单元的密度对网格单元进行聚类。在基于网格的算法中,运行时间不取决于输入数据的数量而是取决于网格单元的数量。
基于网格算法有D-stream、MR-stream算法,基于网格的算法是一种快速算法,对噪声也具有很强的鲁棒性,能够找到任意形状的簇。然而,由于算法复杂性取决于数据的维数,基于网格的算法更适合于低维数据,此外基于网格的算法需要预定义网格的尺寸。
基于模型的数据流聚类方法,一般是基于“数据集符合某种分布产生”的思想,将试图优化的数据集与各个数据模型进行拟合。EM算法可以看作是k-均值的扩展,EM根据表示成员概率的权重将对象分配给集群。基于模型的算法具有很大的局限性,很难找到具有普遍适用性的数据模型。
基于密度的数据流聚类方法,该密度聚类分为两种:两阶段模式和在线模式,两阶段模式采用微簇结构保存输入数据的概要信息,微簇是一组彼此非常接近的数据实例,根据特征向量计算出微集群的位置和轮廓,然后根据密度可达和密度连通性的概念,将这些微集群合并成最终的集群;在线模式利用微簇结构将数据空间划分为一个核心区域和一个非核心区域的子空间,微簇结构还可以对空间位置、半径和生命周期进行表征,在线模式算法维护一种图结构来表示当前微簇与其他微簇的相交关系,交叉的核心区域构成集群,图结构会大大减少微簇分离操作,提高处理速度。基于密度的数据流聚类算法是数据流聚类中最流行的方法,该方法可以处理任意形状的集群,对噪声也有很强的鲁棒性,具有较高的精度。现有基于密度的两阶段算法有Denstream算法和SOStream算法,基于密度的在线处理算法有CODAS算法和BOCEDS算法。
由于数据流均需要对数据对象进行快速和实时处理,而现有的Denstream算法和SOStream算法大多采用两阶段的聚类框架,数据聚类结果的反馈具有滞后性。CODAS算法无法处理数据演化问题,BOCEDS算法针对数据演化问题提出的衰减因子对微簇结构进行调整,其对用户设定不变的衰减因子,无法适应数据流高速演化导致的底层结构变化,从而导致最终聚类结果受到一定程度的影响。此外,现有基于密度的算法的很多参数设置都使用先验知识,且是固定不变,不能很好的利用已有信息进行参数调整来处理数据流的不断演化,导致聚类结果的精度低。
发明内容
本发明的目的在克服已有技术存在的不足,提出一种基于密度的自适应在线学习的数据流聚类方法,以利用已有信息进行自适应参数调整,处理数据流的不断演化,提高聚类结果的精度。
为实现上述目的,本发明的技术方案包括如下:
(1)接收动态数据环境下的数据流,并将数据流中的数据按照接收顺序,以1000个数据点作为一个间隔,将数据流划分为n个数据块,n≥3;
(2)根据数据块中的第一个数据点信息单独创建一个微簇结构,并将该微簇加入到起始为空的微簇列表中;
(3)计算数据块中其他数据点Xi逐个与微簇列表中的微簇中心C的欧式距离d,并将数据点映射到欧式距离最小的微簇,判断当前数据点是否加入到微簇中:
若欧式距离小于被映射的微簇的最小半径R,即d<R时,且该微簇是缓冲区中的弱微簇,此时微簇被激活成核心微簇,则将该微簇的能量变更为1,再将当前数据点加入到被映射的微簇,执行步骤(4);
否则,由当前数据点单独创建一个新的微簇结构,并加入到现有的微簇列表中,执行步骤(5);
(4)微簇列表中的微簇接收到一个新的数据点后,进行更新操作:
(4a)当数据点Xi加入后,对微簇的半径Rt进行自适应更新,得到更新后的微簇半径最新值Rt+1
Figure BDA0003831245820000031
其中,Nt+1=Nt+1为微簇的局部密度阈值,Nt’为微簇的空间信息计数值,Decay为微簇的衰减因子,
Figure BDA0003831245820000032
的比值为自适应调整因子,Rmax为微簇最大半径;
(4b)当数据点Xi位于壳区域,即数据点在微簇中心位置[0.5*Rt+1,Rt+1]范围构成的空间区域时,对微簇中心Ct进行自适应更新,得到更新后的中心最新值Ct+1
Figure BDA0003831245820000041
其中,Nt+1=Nt’+1为微簇的空间信息计数值;
(4c)对微簇的能量Et进行自适应更新,得到更新后的能量最新值Et+1
Figure BDA0003831245820000042
执行步骤(5);
(5)对微簇列表中的微簇能量E’t进行衰减,得到衰减后的能量最新值E’t+1
Figure BDA0003831245820000043
执行步骤(6);
(6)根据衰减后的微簇能量值与0的大小关系,判断当前时刻微簇是否发生变化:
如果微簇衰减后的能量值小于0,则该微簇发生变化,并根据微簇的类型进行相应的变化:若微簇是局部密度阈值Nt大于密度阈值Nth的核心微簇,将其变成缓冲区中弱微簇,对弱微簇的结构进行相应的变化;否则,微簇是缓冲区中的弱微簇,将其直接删除;
如果微簇衰减后的能量值大于等于0时,则微簇不发生变化,执行步骤(7);
(7)计算当前微簇与微簇列表中所有微簇的相交距离d′,将微簇中心的欧式距离d小于相交距离d′的微簇加入到各自的边缘列表EL中,即将属于相交的微簇划分为同一类,实现对宏观集群的更新;
(8)将更新宏观集群后属于同一类的结果在线输出,完成对数据流的聚类。
本发明与现有技术相比,具有以下优点:
第一,本发明首次利用数据潜在的空间信息,引入聚类模型中半径,能量,中心参数的自适应调整策略,在线对聚类参数动态调优,通过对半径的自适应更新过程,减少了专家性的先验知识输入,同时降低了因过分依赖用户参数对聚类参数造成的负面影响,提高了聚类结果的精度。
第二,本发明通过对能量的自适应更新以及能量衰减过程,实现微簇的再生与消亡,可在减少内存的同时,更好的契合数据流高速不断变化的演化过程。
第三,本发明通过更新宏观集群,不仅能快速输出聚类结果,而且可在任意时间检查聚类结果,更好的做到用户与聚类过程的及时交互。
附图说明
图1为本发明的实现流程图;
图2为分别用本发明和现有CODAS算法、BOCEDS算法使用F1评价指标对KDD-CUP数据集聚类的仿真结果图;
图3为分别用本发明和现有CODAS算法和BOCEDS算法使用recall评价指标对KDD-CUP数据集聚类的仿真结果图。
具体实施方式
以下结合附图对本发明的具体实施例和效果作进一步详细说明。
参照图1,本实例的实现步骤如下:
步骤1,数据流分块。
数据流不是一次性读入的,读入的数据会随着时间发生变化,为了更好的体现数据在设定阶段的聚类精度,数据流的数据在使用时,会根据一批次读取多少个数据进行数据流分块,数据块中数据过多会导致数据块中产生概念漂移,数据块中数据过少会加大噪声数据的权重,这些都会影响聚类算法对数据的学习,进而影响最终数据流聚类的精度,因此需要对数据流中的数据点按照指定的顺序进行分块。
本步骤的具体实现是:将在动态数据环境下接收的数据流,按照接收顺序以1000个数据点作为一个间隔,将数据流划分为n个数据块,n≥3。
本实例是将guassion数据集的数据流划分28个数据块,Spiral数据集分成9个数据块,KDD-CUP数据集分成480个数据块。但不限于只能对guassion数据集的划分。
步骤2,寻找数据点的目标微簇。
当数据流中新的数据Xi到达时,根据微簇中心C与数据点Xi之间的欧式距离d,需要将其映射到目标微簇。
所述目标微簇,其有3种类型的微簇,即核心微簇、弱微簇、潜在微簇。其中:
核心微簇是指它的局部密度大于最小密度阈值,它可参与到最终聚类结果输出的;
弱微簇是指在缓冲区中,由核心微簇退化而来的微簇,它既可以被重新激活成核心微簇,也可以随着数据演化的发生被彻底删除;
潜在微簇是指那些局部密度小于最小密度阈值的微簇,当潜在微簇接收到数据点时会对该潜在微簇的局部密度进行检查,当局部密度大于最小密度阈值时成长为核心微簇。
本步骤的具体实现如下:
2.1)根据数据块中的第一个数据点信息单独创建一个微簇结构,并将该微簇加入到初始创建为空的微簇列表中,微簇结构包括中心C、半径R、能量E、局部密度阈值N、空间信息计数N′和边缘列表EL,其中,C=Xi,Xi为当前数据点,E=1,R=Rmin,Rmin为用户输入的最小半径,N=1,N′=1,EL初始化为空集
Figure BDA0003831245820000061
微簇列表中可存放核心微簇和潜在微簇;
2.2)数据块中其他数据点Xj逐个计算其与微簇列表中微簇中心Ci的欧式距离dij
Figure BDA0003831245820000062
其中m为数据的维度,k是数据点第k维取值范围1到m;
2.3)找到欧氏距离中的距离最小值和距离最小值对应的微簇,此时该微簇为找到的目标微簇,并将当前数据点映射到目标微簇,判断当前数据点是否加入到微簇中:
若欧式距离小于目标微簇的最小半径R,即d<R时,且该微簇是缓冲区中的弱微簇,此时微簇被激活成核心微簇,则将该微簇的能量变更为1,再将当前数据点加入到目标微簇;
否则,由当前数据点单独创建一个新的潜在微簇,潜在微簇的创建与单独创建微簇的方法相同,并将潜在微簇加入到现有的微簇列表中,供后续的数据点选择。
步骤3,更新当前微簇。
当任何一个微簇接收到一个新的数据点时,微簇就会对微簇结构进行更新操作,由于半径在更新增长时不会超过用户设置的最大半径,而只有数据点位于指定区域范围时,才会更新微簇中心,因而更新的目的就是限制微簇无休止的跟随数据流进行漂移,具体实现如下:
3.1)当数据点Xi加入后,对微簇的半径Rt进行自适应更新,得到更新后的微簇半径最新值Rt+1
Figure BDA0003831245820000063
其中,Nt+1=Nt+1为微簇的局部密度阈值,N’t为微簇的空间信息计数值,
Figure BDA0003831245820000064
的比值为自适应调整因子,Decay是微簇的衰减系数,通过该系数对微簇能量的衰减可以及时去除已经过时的微簇,减少内存占用的同时,更好的适应数据流的演化过程。由于半径在更新增长时不会超过用户设置的最大半径Rmax,这样就避免了微簇的无限制增长,更加符合实际的聚类要求;
3.2)当数据点Xi位于壳区域,即数据点在微簇中心位置[0.5*Rt+1,Rt+1]范围构成的空间区域时,对微簇中心Ct进行自适应更新,得到更新后的中心最新值Ct+1
Figure BDA0003831245820000071
其中,N’t+1=N’t+1为微簇的空间信息计数值;
3.3)对微簇的能量Et进行自适应更新,得到更新后的能量最新值Et+1
Figure BDA0003831245820000072
通过对微簇能量的更新可以让符合当前数据流底层结构的微簇获得更大的生命值,同理也就有更大的机会去学习其他数据点。
步骤4,移除消亡微簇。
4.1)对微簇列表中的微簇能量E’t进行衰减,得到衰减后的能量最新值E’t+1
Figure BDA0003831245820000073
4.2)根据衰减后的微簇能量值与0的大小关系,判断当前时刻微簇是否发生变化:
如果能量大于0,即没有微簇消亡,则继续执行数据流聚类;
否则,进行以下三种消亡情况的判断,并执行相对应的操作:
如果核心微簇的能量值小于0,即核心微簇消亡,此时核心微簇会变成弱微簇,则将弱微簇放入缓冲区,微簇能量变成0.5,清空微簇的边缘列表。弱微簇可能不适用于当前的数据流演化,但是随着数据流的演化,它可能在某一时刻重新被捕捉到,这样就形成了对历史重要信息的保护,利用历史信息可以提高精度,发现数据流的演化过程以及演化趋势;
如果潜在微簇的能量值小于0,即潜在微簇消亡时,直接删除潜在微簇,减少内存消耗。
如果缓冲区中的弱微簇的能量值小于0,即弱微簇消亡,说明它包含的历史信息是被数据演化所淘汰的,或者已有新的微簇可以更好代替弱微簇处理数据流变化。此时为了减少内存消耗和适应数据流高速变化的特性,彻底将其删除。
步骤5,更新宏观集群。
维护一个集群图结构来在线生成宏观集群,实现聚类结果的实时输出,图结构会在一下几种情况中进行更新维护,其中:
当微簇变成核心微簇时,即局部密度Nt大于密度阈值Nth,说明微簇符合当前的数据流演化趋势,可以很好的表征数据信息;
当弱微簇被当前数据点捕捉,被激活成核心微簇时,说明当前数据与之前的历史信息可能存在底层的某种联系,这样的情况可以很好的体现变化,对之后的变化深入研究具有非常重要的意义;
当核心微簇的中心发生变化时,此时会涉及新的图节点边连接和已有边的断开;
当核心微簇退化成弱微簇移入缓冲区时。
具体实现如下:
5.1)计算当前微簇与微簇列表中所有微簇的相交距离d′:
Figure BDA0003831245820000081
其中,R是当前微簇的半径,R′是微簇列表中微簇的半径;
5.2)将微簇中心的欧式距离d小于相交距离d′的微簇加入到各自的边缘列表EL中,微簇的边缘列表维护的是与当前微簇相交的其他微簇信息,将相交的微簇划分为同一类,实现对宏观集群的更新;
5.3)根据更新后的宏观集群,将获取到的聚类结果在线实时输出。
本发明的聚类结果与集群图结构是相互关联的,当发生图结构变化时,聚类的结果也会随之发生变化,本发明可以在线实时的获取任意时刻的聚类结果以及及时捕捉变化的发生。不同于之前的算法需要指定时间间隔,才能获取聚类结果输出,与此同时,在一些领域,用户更感兴趣于变化的发生,以及挖掘发生变化的原因,本发明可以为后续的潜在信息挖掘提供帮助。
以下结合仿真实验,对本发明的技术效果进行说明:
1.仿真条件
实验数据使用KDD-CUP数据集,gaussian数据集和Spiral数据集。仿真平台为:主频为3.30GHz的Intel Core i5-4590 CPU,12.0GB的内存,Windows 10操作系统,Matlab2021a开发平台。
2.仿真内容
仿真1,用本发明和现有CODAS算法、BOCEDS算法分别对gaussian数据进行聚类仿真,使用F1分数、NMI、RI、recall、Purity纯度和Ac精度指标评价各自的聚类性能,结果如表1。
表1 guassian数据仿真结果评价
Figure BDA0003831245820000091
从表1可知,在实验所用的6个评价指标中,本发明均高于先有技术,证明与现有技术相比,本发明可以使动态数据环境下的数据流聚类结果得到提高。
仿真2,用本发明和现有CODAS算法、BOCEDS算法分别对Spiral数据进行聚类仿真,使用F1分数、NMI、RI、recall、Purity纯度和Ac精度指标评价各自聚类性能,结果如表2。
表2 Spiral数据仿真结果评价
Figure BDA0003831245820000092
Figure BDA0003831245820000101
从表2可知,在有噪声的情况下,在实验所用的6个评价指标中有5个指标本发明均高于先有技术且有较大提升,其中一项与现有技术相当,证明本发明在有噪声的情况下依旧可以提高聚类结果,且具有抗噪性。
仿真3,用本发明和现有CODAS算法、BOCEDS算法分别对KDD-CUP数据集进行聚类仿真,使用F1分数评价聚类性能,结果如图1,使用recall评价聚类结果,如图2,图中i-boceds对应曲线就是本发明的仿真结果。
从图1和图2可知,在真实的网络入侵数据集上,本发明的聚类结果好于现有技术BOCEDS,而CODAS的指标在一定程度上虽然高于本发明,但由于CODAS不涉及集群的演化,具有较高的时间复杂性和较大的内存消耗,不太适用于现有的数据流聚类发展趋势。通过对比先进的BOCEDS算法,可以得出本发明能够很好的处理真实的网络入侵数据,在真实数据中取得很好的聚类精度,同时本发明快速,高效的聚类能力可以应用到其他应用领域。
上述仿真结果表明,本发明可以更好的契合数据流高速,不断变化的演化过程,快速的在线的输出聚类结果,可以在任意时间检查聚类现状,更好的做到了及时交互。且减少了因过分依赖用户参数对聚类参数造成的负面影响,在保证可以处理任意形状的数据分布的同时,通过自适应和空间信息的利用,做到在线学习和更新聚类模型,更好的提高数据流的聚类精度。

Claims (4)

1.一种基于自适应在线学习的数据流聚类方法,其特征在于,包括如下步骤:
(1)接收动态数据环境下的数据流,并将数据流中的数据按照接收顺序,以1000个数据点作为一个间隔,将数据流划分为n个数据块,n≥3;
(2)根据数据块中的第一个数据点信息单独创建一个微簇结构,并将该微簇加入到起始为空的微簇列表中;
(3)计算数据块中其他数据点Xi逐个与微簇列表中的微簇中心C的欧式距离d,并将数据点映射到欧式距离最小的微簇,判断当前数据点是否加入到微簇中:
若欧式距离小于被映射的微簇的最小半径R,即d<R时,且该微簇是缓冲区中的弱微簇,此时微簇被激活成核心微簇,则将该微簇的能量变更为1,再将当前数据点加入到被映射的微簇,执行步骤(4);
否则,由当前数据点单独创建一个新的微簇结构,并加入到现有的微簇列表中,执行步骤(5);
(4)微簇列表中的微簇接收到一个新的数据点后,进行更新操作:
(4a)当数据点Xi加入后,对微簇的半径Rt进行自适应更新,得到更新后的微簇半径最新值Rt+1
Figure FDA0003831245810000011
其中,Nt+1=Nt+1为微簇的局部密度阈值,N′t为微簇的空间信息计数值,Decay为微簇的衰减因子,
Figure FDA0003831245810000012
的比值为自适应调整因子,Rmax为微簇最大半径;
(4b)当数据点Xi位于壳区域,即数据点在微簇中心位置[0.5*Rt+1,Rt+1]范围构成的空间区域时,对微簇中心Ct进行自适应更新,得到更新后的中心最新值Ct+1
Figure FDA0003831245810000013
其中,N′t+1=N′t+1为微簇的空间信息计数值;
(4c)对微簇的能量Et进行自适应更新,得到更新后的能量最新值Et+1
Figure FDA0003831245810000021
执行步骤(5);
(5)对微簇列表中的微簇能量E′t进行衰减,得到衰减后的能量最新值E′t+1
Figure FDA0003831245810000022
执行步骤(6);
(6)根据衰减后的微簇能量值与0的大小关系,判断当前时刻微簇是否发生变化:
如果微簇衰减后的能量值小于0,则该微簇发生变化,并根据微簇的类型进行相应的变化:若微簇是局部密度阈值Nt大于密度阈值Nth的核心微簇,将其变成缓冲区中弱微簇,对弱微簇的结构进行相应的变化;否则,微簇是缓冲区中的弱微簇,将其直接删除;
如果微簇衰减后的能量值大于等于0时,则微簇不发生变化,执行步骤(7);
(7)计算当前微簇与微簇列表中所有微簇的相交距离d′,将微簇中心的欧式距离d小于相交距离d′的微簇加入到各自的边缘列表EL中,即将属于相交的微簇划分为同一类,实现对宏观集群的更新;
(8)将更新宏观集群后属于同一类的结果在线输出,完成对数据流的聚类。
2.根据权利要求书1所述的方法,其特征在于,所述步骤(2)中微簇结构包括中心C、半径R、能量E、局部密度阈值N、空间信息计数N′和边缘列表EL,其中,C=Xi,Xi为当前数据点,E=1,R=Rmin,Rmin为用户输入的最小半径,N=1,N′=1,EL初始化为空集
Figure FDA0003831245810000024
3.根据权利要求书1所述的方法,其特征在于,所述步骤(6)中对弱微簇的结构进行相应的变化,是先将弱微簇的能量变为0.5,再将弱微簇边缘列表中的微簇找出,然后将微簇与弱微簇的信息记录清除,最后将弱微簇的边缘列表置成空集
Figure FDA0003831245810000025
4.据权利要求书1所述的方法,其特征在于,所述步骤(7)中计算当前微簇与微簇列表中所有微簇的相交距离d′,公式如下:
Figure FDA0003831245810000023
其中,R是当前微簇的半径,R′是微簇列表中微簇的半径。
CN202211094825.5A 2022-09-05 2022-09-05 基于自适应在线学习的密度数据流聚类方法 Pending CN115496133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211094825.5A CN115496133A (zh) 2022-09-05 2022-09-05 基于自适应在线学习的密度数据流聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211094825.5A CN115496133A (zh) 2022-09-05 2022-09-05 基于自适应在线学习的密度数据流聚类方法

Publications (1)

Publication Number Publication Date
CN115496133A true CN115496133A (zh) 2022-12-20

Family

ID=84468186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211094825.5A Pending CN115496133A (zh) 2022-09-05 2022-09-05 基于自适应在线学习的密度数据流聚类方法

Country Status (1)

Country Link
CN (1) CN115496133A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688412A (zh) * 2024-02-02 2024-03-12 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688412A (zh) * 2024-02-02 2024-03-12 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统
CN117688412B (zh) * 2024-02-02 2024-05-07 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统

Similar Documents

Publication Publication Date Title
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN111860340B (zh) 用于无人驾驶的三维激光雷达点云高效k-最近邻搜索算法
CN113282756B (zh) 一种基于混合聚类的文本聚类智能评估方法
CN113255873A (zh) 一种聚类天牛群优化方法、系统、计算机设备和存储介质
CN112598128A (zh) 一种模型训练以及联机分析处理方法及装置
CN110543913A (zh) 一种基于遗传算法的近邻传播聚类方法
CN110597986A (zh) 一种基于微调特征的文本聚类系统及方法
CN111159406A (zh) 基于并行改进的K-means算法的大数据文本聚类方法及系统
CN117290721A (zh) 数字孪生建模方法、装置、设备及介质
CN115496133A (zh) 基于自适应在线学习的密度数据流聚类方法
CN110580252B (zh) 多目标优化下的空间对象索引与查询方法
Chen et al. Distributed text feature selection based on bat algorithm optimization
Wu et al. Historical information-based differential evolution for dynamic optimization problem
CN115544033B (zh) 查重向量库更新、数据查重方法、装置、设备和介质
CN112329822A (zh) 一种提高支持向量机分类精度的方法、系统、设备及介质
CN111814979A (zh) 一种基于动态规划的模糊集自动划分方法
CN111737461A (zh) 文本的处理方法、装置、电子设备及计算机可读存储介质
CN117093885A (zh) 融合分层聚类和粒子群的联邦学习多目标优化方法
CN108614889B (zh) 基于混合高斯模型的移动对象连续k近邻查询方法及系统
CN110837845A (zh) 一种基于改进网格搜索算法的svm参数优化方法
CN112308122B (zh) 基于双树的高维向量空间样本快速搜索方法及装置
CN114662012A (zh) 一种面向基因调控网络的社区查询分析方法
Yan et al. A data clustering algorithm based on mussels wandering optimization
Butka et al. A proposal of the information retrieval system based on the generalized one-sided concept lattices
Zhu et al. A parallel attribute reduction algorithm based on Affinity Propagation clustering.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Ruochen

Inventor after: Guo Xianglong

Inventor after: Zhang You

Inventor after: Wang Handing

Inventor before: Liu Ruochen

Inventor before: Zhang Jinwei

Inventor before: Zhang You

Inventor before: Wang Handing