CN105069469B - 一种基于模糊c均值聚类算法和熵理论的数据流检测方法 - Google Patents

一种基于模糊c均值聚类算法和熵理论的数据流检测方法 Download PDF

Info

Publication number
CN105069469B
CN105069469B CN201510455282.9A CN201510455282A CN105069469B CN 105069469 B CN105069469 B CN 105069469B CN 201510455282 A CN201510455282 A CN 201510455282A CN 105069469 B CN105069469 B CN 105069469B
Authority
CN
China
Prior art keywords
data
entropy
degree
membership
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510455282.9A
Other languages
English (en)
Other versions
CN105069469A (zh
Inventor
赵航
赵一航
王为
秦姗
张宝菊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinhan Technology Co.,Ltd.
Original Assignee
Tianjin Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Normal University filed Critical Tianjin Normal University
Priority to CN201510455282.9A priority Critical patent/CN105069469B/zh
Publication of CN105069469A publication Critical patent/CN105069469A/zh
Application granted granted Critical
Publication of CN105069469B publication Critical patent/CN105069469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模糊C均值聚类算法和熵理论的数据流检测方法,它是将FCM算法引入数据流的聚类分析中,对数据流数据进行模糊C均值聚类分析;利用得到的数据的隶属度计算数据流的信息熵;通过分析数据流的熵的变化趋势,进行是否有属性改变的概念漂移的检测;包括隶属度的计算、数据流的熵。本发明将熵的理论引入,利用数据对类的隶属程度,计算数据流的熵,在时间轴上将熵值的变化表示出来,通过这一曲线的趋势来进行检测是否有属性变化的概念漂移。可以形象直观的通过观察熵值曲线的走势来进行属性改变的概念漂移的检测。该检测主要应用于及时提醒系统是否更新参数,以保证对不断涌入的数据流尽可能正确的聚类分析。

Description

一种基于模糊C均值聚类算法和熵理论的数据流检测方法
技术领域
本发明涉及一种数据流聚类,属性改变的概念漂移检测技术,该方法简单、实用,形象、直观,克服了以往数据挖掘中分类算法复杂的缺点。
背景技术
近些年随着数据流挖掘成为研宄热点,其分类问题也自然被学术界广泛关注。互联网和无线通信网的出现,产生了大量的数据流类型的数据:大型超市交易记录数据、股票交易所的股票价格、股票交易信息数据、网络监测数据、电信部门的通话记录数据、信用卡交易流、传感器传回的数据等,我们注意到这类数据大都与地理信息有一定关联,这主要是因为地理信息的维度较大,容易产生这类大量的细节数据。复杂分析折叠需要以近实时的方式对更新流进行复杂分析。对以上领域的数据进行复杂分析,如趋势分析,预测。以前往往是脱机进行的,然而一些新的应用,尤其是在网络安全和国家安全领域,对时间都非常敏感,如检测互联网上的极端事件、欺诈、入侵、异常,复杂人群监控,趋势监控,探查性分析,和谐度分析等,都需要进行联机的分析。对数据流进行很好的分类才能将数据流中蕴藏的信息量进行挖掘,所以对数据流进行分类的研究是一个重要的课题,并且已经取得了一些成果。对数据流聚类来说,2009年Alex等人针对海量实时数据流在聚类过程中受到时间和空间局限的问题,将两种聚类方法,即神经云(Neural gas, NG)与自组织映射(Self-organizing map, SOM)算法进行改进,提出一种基于单次通过(One pass)的NG和SOM模型,其主要思想是利用快速划分方法将动态数据流转变为静态数据块,进而使用数据块评估函数对这些数据块进行评估,如果此数据块对聚类的帮助程度达不到标准则将其删除,否则被使用进行聚类。Chen等人使用一种树形结构对数据流进行聚类,并且能够在一定程度上克服数据流概念漂移的问题。Chi等人同样针对动态更新的网页和博客数据流进行聚类,采用两种框架构建聚类模型。首先使用基于K-means的方法对数据流进行粗聚类,然后使用一种概念漂移检测函数去检测是否发生概念漂移,如果发生则重新聚类,否则不必再聚类。通过上述两步能够使得模型具有抗概念漂移的能力,保证聚类结果的准确性。但是现有的数据流聚类研究多使用传统的硬聚类的方法,这种分类是非此即彼的,而事实上,现实生活中,事物的属性是模糊的,并不是严格的区分的。
模糊聚类被引入用在数据流的聚类分析中是比较最近才提出来的,参考的文献也比较少。模糊划分的概念最早由Ruspini提出,由于模糊聚类得到的是样本属于各个类别的不确定性程度,这种表达体现了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界,从而成为聚类分析研究的主流。实际中受到普遍欢迎的是基于目标函数的方法,该方法设计简单、解决问题的范围广,最终还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算机实现。模糊C均值聚类(Fuzzy C-Means)算法又是基于目标函数中应用最广泛的一种。
随着时间的推移,数据不断地涌入,有时会发现待学习目标概念与之前的并不一致,通常这种改变是隐藏的、不可预知的、不明确的,甚至是随机的。隐含数据分布的改变会引起目标概念的改变从而产生概念漂移现象。数据发生了概念漂移,旧系统则对新的数据不能尽可能准确的进行处理,性能就会下降。为了保证系统对数据流的尽可能准确的分析,及时的检测出概念漂移并作出是否更新的决定,是维持系统正常运行的重要技术。
概念漂移又分为三类,属性改变的,类别改变的和两者都改变的。本发明针对属性改变的概念漂移检测提出了解决方案。
发明内容
本发明是为解决上述问题进行的研究,其目的是将模糊聚类的思想引用到数据流的聚类中,使聚类效果更真实的反映目标与类的关系;提供一种算法简单、直观形象的方法检测出属性改变的概念漂移,及时对系统是否更新做出判断。
为实现上述目的,本发明公开了如下的技术方案:
一种基于模糊C均值聚类算法和熵理论的数据流检测方法,它是将FCM算法引入数据流的聚类分析中,对数据流数据进行模糊C均值聚类分析;利用得到的数据的隶属度计算数据流的信息熵;通过分析数据流的熵的变化趋势,进行是否有属性改变的概念漂移的检测:特别是对数据流进行FCM聚类分析,会得到数据流中每个数据对类的隶属度;利用隶属度计算数据的熵值,将数据流的熵值在时间轴上表示,得到数据流熵的曲线,通过曲线趋势进行属性改变的概念漂移的检测,主要包括:
1. 隶属度的计算
模糊聚类是根据隶属度来划分的,同一目标可以根据隶属程度属于不同的类别。
2、数据流的熵
成立。
由公式(3)可知,变量的不确定性越大,变量的概率就越小,熵也就越大,即要充分了解则所需要的信息量也就越大。由此可知,若数据流平稳,隶属度高,信息熵就很低;反之,一若数据流发生了概念漂移,出现了混乱,隶属度就减小,信息熵就变高。
本发明进一步公开了基于模糊C均值聚类算法和熵理论的数据流检测方法在用于及时提醒系统是否更新参数,以保证对不断涌入的数据流尽可能正确的聚类分析方面的应用。实验结果显示:模糊聚类算法对数据流的聚类是准确的;基于熵理论的属性改变的概念漂移是敏感,有效的。该方法可以在实际中得到应用与推广。
本发明主要解决了:
(1)数据流环境下引入模糊聚类算法对数据聚类;根据隶属度对目标进行聚类,同一目标可以根据需要隶属于不同的类别,这样的结果更接近真实情况。
(2)将隶属度与熵值计算结合,直观形象的检测出属性改变的概念漂移;熵表示系统的不确定性,结合隶属度,表示了系统聚类的不确定性。
(3)该算法更简单,优于之前复杂的数据流算法;
本发明公开的基于模糊C均值聚类算法和熵理论的数据流检测方法的有益效果是:
(1)本发明基于模糊C均值聚类算法(FCM)和熵理论进行数据流聚类和概念漂移的检测,使数据流聚类算法更加简单、有效。
(2)将FCM算法引入数据流的聚类分析中,对数据流数据进行模糊C均值聚类分析;利用得到的数据的隶属度计算数据流的信息熵;通过分析数据流的熵的变化趋势,进行是否有属性改变的概念漂移的检测。在试验中取得了明显的效果。对数据流进行FCM聚类处理,将数据进行初步的分类,分类精度可以到达80%~90%。隶属度是模糊聚类中分类的依据,我们将熵的理论引入,利用数据对类的隶属程度,计算数据流的熵,在时间轴上将熵值的变化表示出来,通过这一曲线的趋势来进行检测是否有属性变化的概念漂移。如果没有属性变化,那么,所有数据的熵值都比较小;如果在数据不断流入的过程中,某一类中属性发生了改变,那么,数据流的熵会随着数据流的不断进入而增加,直到重新稳定,在新数据新属性的背景下,熵值逐渐减小,最后又趋于稳定,所以,在发生属性改变的概念漂移的过程中,会出现有峰值的熵值曲线。因此,可以形象直观的通过观察熵值曲线的走势来进行属性改变的概念漂移的检测。
(3)实验结果表明,对数据流进行模糊的软聚类方法,聚类结果可以真实地反映对象和类的实际关系,基于熵理论的概念漂移检测是有效、敏感的。采用这种新的方法,相对于传统聚类方法仍有较高的聚类正确率,并且同一目标可以根据不同的情形隶属于不同的类别,聚类更加灵活,方便,更接近真实情形。通过隶属度计算得到的熵,同样具有不确定性的含义,可以通过数据流熵值的随时间的变化曲线来检测属性改变的概念漂移,曲线的表达直观形象,有很好的可视性。
附图说明
图1 为 FCM对seed data数据集的聚类;
图2为seed data数据的熵值得曲线;
图3为FCM对两组高斯数据的聚类;
图4为高斯数据流的熵值曲线;
图5为0点和21点交界部分数据流熵值曲线;
图6为0点和1点交界部分数据流熵值曲线。
具体实施方式
实施例1:
我们选取了一个人工数据集和两个真实数据做实验。真实数据是从开放数据库UCI下载得到。首先是没有概念漂移发生的真实数据,Seeds Data数据集,这个数据集包括三类,分别是Kama, Rosa 和Canadian每类有70个样本,七个属性。从图1可以看出FCM对数据进行了较准确的聚类;图2 是该数据的熵值得曲线,可以从纵坐标看出,良好分类并且没有属性改变的概念漂移发生时,熵的值是比较低的。
实施例2:
高斯数据集是用来检测概念漂移的。两组高斯数据分别服从N([2;2], 1) 和 N([4;4], 8).的分布。数据流长度为1000,概念漂移长度为400。图3 是两组高斯数据的分类情况,因为均值和方差不同,说明了数据属性发生了变化,交界部分发生了属性改变的概念漂移。 图4是其数据流熵的曲线。可以看到在交界部分出现了熵曲线的峰值,说明发生了属性改变的概念漂移;之后熵值又趋于平稳,说明目前的系统可以适应新的数据流,不需要进行参数更新。
实施例3:
Power supply 数据集. 该数据集收集了24小时主网和子网的供电数据。每小时有1247个样本。实验选取了0点,1点,个21点三个时间段的数据。首先是0点和21点的数据进行实验,21点相比于0点是用电高峰点,可以认为与0点相比发生了属性改变的概念漂移,图5是两组数据在交界部分的熵值曲线,可以看出熵值明显的增加,数据稳定后,熵值减小。图6是0点和1点的数据流熵值曲线,0点和1点用电情况相似,可以看做是没有发生概念漂移的数据流,所以熵值曲线是平稳的。

Claims (2)

1.一种基于模糊C均值聚类算法和熵理论的数据流检测方法,它是将FCM算法引入数据流的聚类分析中,对数据流数据进行模糊C均值聚类分析;利用得到的数据的隶属度计算数据流的信息熵;通过分析数据流的熵的变化趋势,进行是否有属性改变的概念漂移的检测:包括:
(1)隶属度的计算
是数据集,i为数据集序号,数据集共有个元素,是聚类中心数,,聚类中心 表示的是每个类的平均特征,可以认为是这个类的代表点,其中为数据集所属类别,共有c种类别, 是样本点和聚类中心的欧氏距离,是第个样本属于第个类的隶属度,模糊C均值聚类算法中的隶属度反映了第个样本属于第 个类的程度,且满足概率约束条件:
(1)
(2)
式中为加权指数,模糊聚类是根据隶属度来划分的,同一目标可以根据隶属程度属于不同的类别;
(2)数据流的熵
设离散型随机变量Y的概率分布为
(3)
将隶属度类比于概率,由此计算数据流的熵值:对于任意则有数据集对应的隶属度信息熵
(4)
由公式(3)可知,变量的不确定性越大,变量的概率 就越小,熵也就越大,即要充分了解则所需要的信息量也就越大,由此可知,若数据流平稳,隶属度高,信息熵就很低;反之,若数据流发生了概念漂移,出现了混乱,隶属度就减小,信息熵就变高。
2.如权利要求1所述的基于模糊C均值聚类算法和熵理论的数据流检测方法,用于及时提醒系统更新参数。
CN201510455282.9A 2015-07-30 2015-07-30 一种基于模糊c均值聚类算法和熵理论的数据流检测方法 Active CN105069469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510455282.9A CN105069469B (zh) 2015-07-30 2015-07-30 一种基于模糊c均值聚类算法和熵理论的数据流检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510455282.9A CN105069469B (zh) 2015-07-30 2015-07-30 一种基于模糊c均值聚类算法和熵理论的数据流检测方法

Publications (2)

Publication Number Publication Date
CN105069469A CN105069469A (zh) 2015-11-18
CN105069469B true CN105069469B (zh) 2018-03-27

Family

ID=54498830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510455282.9A Active CN105069469B (zh) 2015-07-30 2015-07-30 一种基于模糊c均值聚类算法和熵理论的数据流检测方法

Country Status (1)

Country Link
CN (1) CN105069469B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3193227B1 (en) * 2016-01-04 2021-02-03 Siemens Aktiengesellschaft Entropy-based validation of sensor measurements
CN105933316B (zh) * 2016-04-21 2019-05-24 国家电网公司 网络安全级别的确定方法和装置
CN106326913A (zh) * 2016-08-09 2017-01-11 中国银联股份有限公司 一种洗钱账户的确定方法及装置
CN106682452A (zh) * 2017-01-17 2017-05-17 新疆大学 一种通过熵变分析生物进化规律的方法
CN106951727A (zh) * 2017-02-27 2017-07-14 新疆大学 一种通过熵变分析离子束注入全基因组突变及定向进化物理机制的方法
CN109446028B (zh) * 2018-10-26 2022-05-03 中国人民解放军火箭军工程大学 一种基于遗传模糊c-均值聚类的冷冻除湿机状态监测方法
CN110852374B (zh) * 2019-11-08 2023-05-02 腾讯云计算(北京)有限责任公司 数据检测方法、装置、电子设备以及存储介质
CN111626351B (zh) * 2020-05-26 2024-03-22 清华大学 一种用于获取数据分布的概念漂移量的方法和系统
CN112333147B (zh) * 2020-09-30 2022-04-01 中国核动力研究设计院 一种核电厂dcs平台网络运行态势感知方法及系统
CN113282446A (zh) * 2021-04-07 2021-08-20 广州汇通国信科技有限公司 基于多粒度过滤的日志数据收集方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931070B2 (en) * 2000-11-09 2005-08-16 Mediaware Solutions Pty Ltd. Transition templates for compressed digital video and method of generating the same
US8175403B1 (en) * 2008-06-05 2012-05-08 Google Inc. Iterative backward reference selection with reduced entropy for image compression
CN104244035A (zh) * 2014-08-27 2014-12-24 南京邮电大学 基于多层聚类的网络视频流分类方法
CN104657747A (zh) * 2015-01-30 2015-05-27 南京邮电大学 一种基于统计特征的网络游戏流分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931070B2 (en) * 2000-11-09 2005-08-16 Mediaware Solutions Pty Ltd. Transition templates for compressed digital video and method of generating the same
US8175403B1 (en) * 2008-06-05 2012-05-08 Google Inc. Iterative backward reference selection with reduced entropy for image compression
CN104244035A (zh) * 2014-08-27 2014-12-24 南京邮电大学 基于多层聚类的网络视频流分类方法
CN104657747A (zh) * 2015-01-30 2015-05-27 南京邮电大学 一种基于统计特征的网络游戏流分类方法

Also Published As

Publication number Publication date
CN105069469A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105069469B (zh) 一种基于模糊c均值聚类算法和熵理论的数据流检测方法
Tang et al. Exploring dynamic property of traffic flow time series in multi-states based on complex networks: Phase space reconstruction versus visibility graph
CN110059581A (zh) 基于场景深度信息的人群计数方法
Ke et al. A partitioned and asynchronous cellular automata model for urban growth simulation
Dao et al. Identification failure data for cluster heads aggregation in WSN based on improving classification of SVM
Tang et al. Dynamic analysis of traffic time series at different temporal scales: A complex networks approach
CN107742127A (zh) 一种改进的防窃电智能预警系统及方法
CN109034233B (zh) 一种结合OpenStreetMap的高分辨率遥感影像多分类器联合分类方法
CN108537265A (zh) 基于夜间灯光遥感数据的城镇人口时空分布估计方法
CN105843829B (zh) 一种基于分层模型的大数据可信性度量方法
CN107169145A (zh) 一种基于聚类算法的用户窃电严重等级检测的方法
Yu et al. Extracting and predicting taxi hotspots in spatiotemporal dimensions using conditional generative adversarial neural networks
Tang et al. Exploring urban travel patterns using density-based clustering with multi-attributes from large-scaled vehicle trajectories
CN109859480B (zh) 基于复杂网络的拥堵路段建模和评估方法
CN105760649A (zh) 一种面向大数据的可信度量方法
CN110379184A (zh) 交叉口信号控制时段划分方法
CN110445726A (zh) 一种基于信息熵的自适应网络流概念漂移检测方法
CN106980874B (zh) 一种面向配网大数据的多时态维度数据融合方法
Cai et al. Detecting spatial flow outliers in the presence of spatial autocorrelation
Liu et al. An improved fuzzy trajectory clustering method for exploring urban travel patterns
CN111310340B (zh) 基于人类移动的城市区域交互异常关系识别方法及设备
Zheng et al. An improved distributed PCA-based outlier detection in wireless sensor network
CN104820956B (zh) 一种基于数据特征分析的低压配电系统拓扑自动识别方法
CN110246542A (zh) 基于网络表示学习的表型关联关系分析方法
CN114969143A (zh) 基于数据挖掘的城市间大气污染物时空关联特征分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhao Yihang

Inventor after: Wang Wei

Inventor after: Qin Pan

Inventor after: Zhang Baoju

Inventor before: Wang Wei

Inventor before: Qin Pan

Inventor before: Zhang Baoju

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210202

Address after: 300384 k79, 11 / F, door 2, block D, Gonghua Road 1, Huayuan Industrial Zone, Binhai New Area, Tianjin

Patentee after: Tianjin Jinhan Technology Co.,Ltd.

Address before: 300387 Tianjin city Xiqing District West Binshui Road No. 393

Patentee before: TIANJIN NORMAL University