CN104156418B - 一种基于知识重用的演化聚类方法 - Google Patents

一种基于知识重用的演化聚类方法 Download PDF

Info

Publication number
CN104156418B
CN104156418B CN201410377347.8A CN201410377347A CN104156418B CN 104156418 B CN104156418 B CN 104156418B CN 201410377347 A CN201410377347 A CN 201410377347A CN 104156418 B CN104156418 B CN 104156418B
Authority
CN
China
Prior art keywords
matrix
sina
static
cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410377347.8A
Other languages
English (en)
Other versions
CN104156418A (zh
Inventor
张玉超
邓波
彭甫阳
李冬红
李海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing System Engineering Research Institute
Original Assignee
Beijing System Engineering Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing System Engineering Research Institute filed Critical Beijing System Engineering Research Institute
Priority to CN201410377347.8A priority Critical patent/CN104156418B/zh
Publication of CN104156418A publication Critical patent/CN104156418A/zh
Application granted granted Critical
Publication of CN104156418B publication Critical patent/CN104156418B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识重用的演化聚类方法,其通过截取t时刻和以时间窗口长度为限制的有限个历史时刻的数据,应用任一静态聚类方法对数据进行聚类分析,并将聚类结果生成离散化0-1矩阵,之后按时间衰减加权离散化0-1矩阵获得加权0-1矩阵,最后用静态聚类方法对加权0-1矩阵进行静态聚类分析,获得t时刻的演化聚类结果。本发明是通过融合历史时刻的多时间截面静态聚类结果,形成知识积累;从短期来看,可以消除数据噪音提高聚类准确率,从长期来看,可以防止数据扰动保持聚类的稳定性。

Description

一种基于知识重用的演化聚类方法
技术领域
本发明涉及属于数据挖掘和机器学习领域,特别涉及一种基于知识重用的演化聚类方法,用于多时间截面数据集的演化聚类分析,并可防止数据扰动、抵抗数据噪音。
背景技术
数据质量指数据满足明确或隐含需求程度的指标,是对于现实世界的真实写照。数据质量问题不仅仅指出现不正确的数据,还指数据不一致性问题。随着数据量的增加,数据的内部一致性问题变得极为重要,是广泛存在于各学科数据使用中的一个主题。噪声作为测量误差的随机部分,它可能涉及到值的失真或加入了伪造的对象数据。
传统的静态聚类方法只能针对单一时间截面的数据进行聚类,无法处理数据演化过程中可能出现的抖动和数据噪音。现有的演化聚类方法只能针对t时刻和前一时刻的动态数据的静态聚类结果进行聚类融合,知识利用程度不高。同时,这些模型往往需要设定参数,求解过程也极为复杂。另外,现有分析对于静态聚类结果的数量变化十分敏感,针对演化过程中点的变化情况也没有较好的应对策略。
鉴于上述描述,本发明提供一种基于知识重用的演化聚类方法,其为一种面向动态变化数据的聚类方法,广泛应用在社区识别、金融产品分析等应用领域,基于知识重用的演化聚类方法是通过融合历史时刻的多时间截面聚类结果,形成知识积累;短期来看,可以消除数据噪音提高聚类准确率,从长期来看,可以防止数据扰动保持聚类的稳定性。
发明内容
本发明的目的在于提供一种基于知识重用的演化聚类方法,本发明所述基于知识重用的演化聚类方法是通过融合历史时刻的多时间截面静态聚类结果,形成知识积累,以时间为轴构建出知识重用框架,从短期来看,可以消除数据噪音提高聚类准确率,从长期来看,可以防止数据扰动保持聚类的稳定性。
为了实现上述目的及一些其他目的,本发明提供的技术方案为:
一种基于知识重用的演化聚类方法,其特征在于,包括以下步骤:
步骤一、截取数据库中动态社区中或者金融产品中t时刻n个样本的数据作为基础数据;
步骤二、设定时间窗口长度为k,k<10,若t-k<0,则按相同时间间隔连续跟踪截取n个样本的t-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和t-1个单时间窗口的变化数据进行分析获得包括样本数n,n个样本所属聚类数m以及n个样本与所属聚类的对应关系的t个静态聚类结果,并将t个静态聚类结果分别转化为对应t个的离散化0-1矩阵;
步骤三、若t-k>0,则按相同时间间隔连续跟踪截取n个样本的k-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k-1个单时间窗口的变化数据进行分析获得包括样本数n,n个样本所属聚类数m以及n个样本与所属聚类的对应关系的k个静态聚类结果,并将k个静态聚类结果分别转化为对应的k个离散化0-1矩阵;
步骤四、通过时间顺序将步骤二的t个的离散化0-1矩阵或者步骤三的k个离散化0-1矩阵加权获得加权0-1矩阵I或II;
步骤五、最后应用所述静态聚类分析所述加权0-1矩阵I或II,剔除其中的数据噪音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确n个样本在动态社区中或者金融产品中的所属聚类,其中,t>1,n>1以及m>1。
优选的是,所述步骤三中将静态聚类结果生成离散化0-1矩阵具体方法为:矩阵中“行”代表样本,“列”代表该时刻的聚类,矩阵中每一行向量代表样本在对应聚类中是否出现,出现为1,否则为0。
优选的是,所述步骤三中将静态聚类结果生成离散化0-1矩阵具体方法中当生成离散化0-1矩阵时,如果出现了与静态聚类结果中不同的样本则在矩阵中相应“行”和“列”均记为0。
优选的是,步骤四中获得加权0-1矩阵,其中,权重值设置为以t时刻的权重值为最大,之前的单个时间窗口的权重值逐渐减小,加权方法为:所述“行”不变,所述“列”相接。
优选的是,所述步骤三中相邻两个单时间窗口的时间间隔值为任何时间单位的1。
优选的是,所述步骤二中t个静态聚类结果分别或者步骤三中k个静态聚类结果会储存在数据库中形成以时间为轴的知识重用框架。
优选的是,当服务器检测到在分析同一个动态社区或者金融产品中用到储存在数据库中相同时刻的知识重用框架的静态聚类结果时,可直接从数据库中调取相应的静态聚类结果。
优选的是,所述动态社区可以为“新浪微博”,所述样本为“新浪微博用户”,所述聚类为“新浪微博社团”,所述金融产品可以为“股票市场”,所述样本为不同的“股票”,所述聚类为按价格高低分成的“价格区”。
优选的是,还包括:
步骤一、截取数据库中“新浪微博”t时刻n个“新浪微博用户”的数据作为基础数据;
步骤二、设定时间窗口长度为k,k<10,若t-k<0,则按相同时间间隔连续跟踪截取n个样本的t-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和t-1个单时间窗口的变化数据进行分析获得包括n个“新浪微博用户”的数量,n个“新浪微博用户”属于哪个“新浪微博社团”,以及所具有的m个“新浪微博社团”数量的对应关系的t个静态聚类结果,并将t个静态聚类结果分别转化为对应t个的离散化0-1矩阵;
步骤三、若t-k>0,则按相同时间间隔连续跟踪截取n个样本的k-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k-1个单时间窗口的变化数据进行分析获得包括n个“新浪微博用户”的数量,n个“新浪微博用户”属于哪个“新浪微博社团”,以及所具有的m个“新浪微博社团”数量的对应关系的k个静态聚类结果,并将k个静态聚类结果分别转化为对应的k个离散化0-1矩阵;
步骤四、通过时间顺序将步骤二的t个的离散化0-1矩阵或者步骤三的k个离散化0-1矩阵加权获得加权0-1矩阵I或II,其中,具体方法为矩阵中“行”代表“新浪微博用户”,“列”代表k时刻的“新浪微博社团”,矩阵中每一行向量代表“新浪微博用户”在对应“新浪微博社团”中是否出现,出现为1,否则为0;
步骤五、最后应用所述静态聚类分析所述加权0-1矩阵I或II,剔除其中的数据噪音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确n个“新浪微博用户”在“新浪微博”中所属的“新浪微博社团”,其中,t>1,n>1以及m>1。
本发明所提供基于知识重用的演化聚类方法的有益效果是:
本发明所述基于知识重用的演化聚类方法是通过融合历史时刻的多时间截面静态聚类结果,形成知识积累,以时间为轴构建出知识重用框架,在获取某一历史时刻的聚类结果时,不用重复统计,可以直接从数据库中调取知识重用框架中的静态聚类结果,节省时间,从短期来看,可以消除数据噪音提高聚类准确率,从长期来看,可以防止数据扰动保持聚类的稳定性。本发明利用知识重用概念构建演化聚类算法,能够融合多个时间截面的知识信息,大大提高了聚类的准确性;本发明还能根据t时刻样本的移入和移出情况,自动调整0-1矩阵,具有一定的扩展性,并且当在将静态聚类结果生成离散化0-1矩阵中,如果生成离散化0-1矩阵时出现了与静态聚类结果中不同的样本则在矩阵中相应“行”和,列”均记为0,去除不必要的数据干扰;本发明还通过启发式求解策略进行演化问题求解,简单易行、灵活性强。
附图说明
图1为本发明所述的基于知识重用的演化聚类方法流程图。
图2为000011.SZ、000055.SZ、600008.SH、600138.SH和600742.SH在7月的开盘价的走势图。
图3为本发明实施例2中7月12日分成的5个聚类的股票分布图。
图4为本发明实施例2中不同时刻(时间窗口)每个类包含股票数目走势图。
图5为本发明实施例2中相邻时刻静态聚类结果的相似程度图。
图6为本发明实施例2中相邻时刻演化聚类结果的相似程度图。
具体实施方式
下面结合实施例,以及结合附图,对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供的基于知识重用的演化聚类方法,包括以下步骤:
步骤一、截取数据库中动态社区或者金融产品t时刻n个样本的数据作为基础数据;
步骤二、设定时间窗口长度为k,k<10,若t-k<0,则按相同时间间隔连续跟踪截取n个样本的t-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和t-1个单时间窗口的变化数据进行分析获得包括样本数n,n个样本所属聚类数m以及n个样本与所属聚类的对应关系的t个静态聚类结果,并将t个静态聚类结果分别转化为对应t个的离散化0-1矩阵;
步骤三、若t-k>0,则按相同时间间隔连续跟踪截取n个样本的k-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k-1个单时间窗口的变化数据进行分析获得包括样本数n,n个样本所属聚类数m以及n个样本与所属聚类的对应关系的k个静态聚类结果,并将k个静态聚类结果分别转化为对应的k个离散化0-1矩阵;
其中,将静态聚类结果生成离散化0-1矩阵具体方法为:矩阵中“行”代表样本,“列”代表该时刻的聚类,矩阵中每一行向量代表样本在对应聚类中是否出现,出现为1,否则为0,在次过程中如果出现了与静态聚类结果中不同的样本则在矩阵中相应“行”和“列”均记为0;
相邻两个单时间窗口的时间间隔值为任何时间单位的1;
步骤二中t个静态聚类结果分别或者步骤三中k个静态聚类结果会储存在数据库中形成以时间为轴的知识重用框架,当服务器检测到在分析同一个动态社区或者金融产品中用到储存在数据库中相同时刻的知识重用框架的静态聚类结果时,可直接从数据库中调取相应的静态聚类结果;
步骤四、通过时间顺序将步骤二的t个的离散化0-1矩阵或者步骤三的k个离散化0-1矩阵加权获得加权0-1矩阵I或II,其中,权重值设置为以t时刻的权重值为最大,之前的单个时间窗口的权重值逐渐减小,且权重值为按时间衰减顺序设置,加权方法为:“行”不变,“列”相接;
步骤五、最后应用静态聚类分析加权0-1矩阵I或II,剔除其中的数据噪音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确n个样本在动态社区中或者金融产品中的所属聚类,其中,t>1,n>1以及m>1。
动态社区可以为“新浪微博”,样本为“新浪微博用户”,聚类为“新浪微博社团”;所述金融产品可以为“股票市场”,所述样本为不同的“股票”,所述聚类为按价格高低分成的“价格区”。因此,本发明基于知识重用的演化聚类方法可以表述为还包括以下步骤:
步骤一、截取数据库中“新浪微博”t时刻n个“新浪微博用户”的数据作为基础数据;
步骤二、设定时间窗口长度为k,k<10,若t-k<0,则按相同时间间隔连续跟踪截取n个样本的t-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和t-1个单时间窗口的变化数据进行分析获得包括n个“新浪微博用户”的数量,n个“新浪微博用户”属于哪个“新浪微博社团”,以及所具有的m个“新浪微博社团”数量的对应关系的t个静态聚类结果,并将t个静态聚类结果分别转化为对应t个的离散化0-1矩阵;
步骤三、若t-k>0,则按相同时间间隔连续跟踪截取n个样本的k-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k-1个单时间窗口的变化数据进行分析获得包括n个“新浪微博用户”的数量,n个“新浪微博用户”属于哪个“新浪微博社团”,以及所具有的m个“新浪微博社团”数量的对应关系的k个静态聚类结果,并将k个静态聚类结果分别转化为对应的k个离散化0-1矩阵;
步骤四、通过时间顺序将步骤二的t个的离散化0-1矩阵或者步骤三的k个离散化0-1矩阵加权获得加权0-1矩阵I或II,其中,具体方法为矩阵中“行”代表“新浪微博用户”,“列”代表k时刻的“新浪微博社团”,矩阵中每一行向量代表“新浪微博用户”在对应“新浪微博社团”中是否出现,出现为1,否则为0;
步骤五、最后应用静态聚类分析加权0-1矩阵I或II,剔除其中的数据噪音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确n个“新浪微博用户”在“新浪微博”中所属的“新浪微博社团”,其中,t>1,n>1以及m>1。
实施例1
下面以社团动态演化为例,说明本发明方法:
假设动态变化个体集合D=[d1,d2,d3,d4,d5],其中di表示某个动态变化的个体,在不同时刻其可能属于不同的社团;同时,假设采取的历史时刻为k=3。为求解t时刻的社团演化聚类结果,需按照如下步骤操作:
首先,利用静态聚类算法凝聚层次聚类,对k个历史时刻的个体集合进行聚类,以识别不同时刻,某个个体所属的社团。本例中k=3,所以需要分别对t-2,t-1和t时刻的个人集合进行聚类,假设得到不同时刻的社团划分结果为Ct=[1,1,2,2,3],Ct-1=[1,1,2,2,1],Ct-2=[1,1,2,2,2];
其次,将k个时刻的社团划分结果Ct,Ct-1,Ct-2分别转化为相应的0-1矩阵Ut,Ut-1,Ut-2,矩阵中“行”代表某个个体,“列”代表k个时刻的所有社团标号,矩阵中每一行向量代表某个体在对应社团中是否出现,出现为1,否则为0;
第三,根据社团划分的时间窗口长度k=3,分别设置不同时刻的社团划分权重分别为wt=k=3,wt-1=k-1=2,wt-2=k-2=1。进行权重归一化后,得到 w t = 1 2 , w t - 1 = 1 3 , w t - 2 = 1 6 , 由此生成的加权为
U ^ = [ w t U t , w t - 1 U t - 1 , w t - 2 U t - 2 ] = 1 2 0 0 1 3 0 1 6 0 1 2 0 0 1 3 0 1 6 0 0 1 2 0 0 1 3 0 1 6 0 1 2 0 0 1 3 0 1 6 0 0 1 2 1 3 0 0 1 6
最后,利用Kmeans聚类算法对上述矩阵进行聚类,得到最终的t时刻下,社团演化聚类结果。
U ^ = [ 1,1 , 2 , 2,3 ]
结果为:第1、2个体属于一个社团;第3、4个体属于一个社团;第五个体属于一个社团。
实施例2
下面以金融分析-股票演化聚类为例,说明本发明方法:
本例选择上市的2463只股票在2013年7月1日至2013年7月31日,23个工作日的股票价格数据,具体包括:开盘价,收盘价,最高价,最低价,平均价。此外,不同时刻的股票数量也不相同:在7月上旬有2461只股票,在7月中旬有2462只股票,在7月下旬有2463只股票。也就是说随着时间的推移,股票数量不断增加,也就是说参与聚类的样本点的数量在发生变化。这个就是典型的样本不一致的演化聚类。接下来随机地选取5只股票,查看其7月份的股价变动情况。如图2所示,这5股票价格走势比较平稳。这5只股票是整个股市的一个缩影:事实上,中国股市在2013年7月份总体走势比较平稳,股价波动较小。
1)使用静态K均值对观察周期中每一天的数据进行聚类。如图3所示,黑色柱子表示每类股票的数量,黑色折线表示该类股票开票价的均值,当聚成5类时,K均值很好地区分了不同股价的股票,并得到了很好的聚类结果,即高股价的股票在同一个类中,低股价的股票在同一个类中。
2)使用K均值对各个时刻的股票数据进行静态聚类。从图4可以看出,每个类包含的股票数量趋近相同,这与前文分析得出的结论,7月的股市平稳相一致。但是7月18日每个类的股票数量发生了较大变化。为了进一步刻画,演化数据的变化程度,计算了相邻两个时刻的聚类结果的相似程度。这里使用聚类评价指标Rn,来衡量相邻时刻的聚类结果的相似程度。如图5所示,发现7月18日(第14个工作日),股票的聚类结构发生了很大变化。然而,这与7月份平稳的股市相矛盾;这就说明如果使用静态聚类结果对股票市场进行分析,得到的结果是不可靠的。
3)使用基于知识重用的演化聚类算法对中国2013年7月的股票数据进行聚类分析,这里使用静态K均值得到的聚类结果作为基础聚类器,选择10个窗口长度的基础聚类分量进行融合。由于窗口长度为10,因此由图6起始时刻为10。从图6可以很清楚地看出,相邻时间的演化聚类具有很高的相似程度。并且图5中第14个工作日出现的聚类结果的急剧变化,在演化聚类中得到了弥补。下表1展示了从第10个工作日到最后一直在同一个类股票代码。
表1
本实施例以股票动态数据为研究对象,利用基于知识重用的演化聚类算法对2013年7月的股票进行聚类分析,结果表明:基于知识重用的演化聚类方法不仅比静态聚类算法能够抵抗噪声的影响,得到稳定的结果,还能够处理不一致的样本点。因此,基于知识重用的演化聚类方法能够为股票提供更好的决策支持。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (9)

1.一种基于知识重用的演化聚类方法,其特征在于,包括以下步骤:
步骤一、截取数据库中动态社区中或者金融产品中t时刻n个样本的数据作为基础数据;
步骤二、设定时间窗口长度为k,k<10,若t-k<0,则按相同时间间隔连续跟踪截取n个样本的t-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和t-1个单时间窗口的变化数据进行分析获得包括样本数n,n个样本所属聚类数m以及n个样本与所属聚类的对应关系的t个静态聚类结果,并将t个静态聚类结果分别转化为对应t个的离散化0-1矩阵;
步骤三、若t-k>0,则按相同时间间隔连续跟踪截取n个样本的k-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k-1个单时间窗口的变化数据进行分析获得包括样本数n,n个样本所属聚类数m以及n个样本与所属聚类的对应关系的k个静态聚类结果,并将k个静态聚类结果分别转化为对应的k个离散化0-1矩阵;
步骤四、通过时间顺序将步骤二的t个的离散化0-1矩阵或者步骤三的k个离散化0-1矩阵加权获得加权0-1矩阵I或II;
步骤五、最后应用所述静态聚类分析所述加权0-1矩阵I或II,剔除其中的数据噪音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确n个样本在动态社区中或者金融产品中的所属聚类,其中,t>1,n>1以及m>1。
2.如权利要求1所述基于知识重用的演化聚类方法,其特征在于,所述步骤三中将静态聚类结果生成离散化0-1矩阵具体方法为:矩阵中“行”代表样本,“列”代表该时刻的聚类,矩阵中每一行向量代表样本在对应聚类中是否出现,出现为1,否则为0。
3.如权利要求2所述基于知识重用的演化聚类方法,其特征在于,所述步骤三中将静态聚类结果生成离散化0-1矩阵具体方法中当生成离散化0-1矩阵时,如果出现了与静态聚类结果中不同的样本则在矩阵中相应“行”和“列”均记为0。
4.如权利要求3所述基于知识重用的演化聚类方法,其特征在于,步骤四中获得加权0-1矩阵,其中,权重值设置为以t时刻的权重值为最大,之前的单个时间窗口的权重值逐渐减小,加权方法为:所述“行”不变,所述“列”相接。
5.如权利要求4所述的基于知识重用的演化聚类方法,其特征在于,所述步骤三中相邻两个单时间窗口的时间间隔值为任何时间单位的1。
6.如权利要求5所述的基于知识重用的演化聚类方法,其特征在于,所述步骤二中t个静态聚类结果分别或者步骤三中k个静态聚类结果会储存在数据库中形成以时间为轴的知识重用框架。
7.如权利要求6所述的基于知识重用的演化聚类方法,其特征在于,当服务器检测到在分析同一个动态社区或者金融产品中用到储存在数据库中相同时刻的知识重用框架的静态聚类结果时,可直接从数据库中调取相应的静态聚类结果。
8.如权利要求7所述的基于知识重用的演化聚类方法,其特征在于,所述动态社区为“新浪微博”,所述样本为“新浪微博用户”,所述聚类为“新浪微博社团”;所述金融产品为“股票市场”,所述样本为不同的“股票”,所述聚类为按价格高低分成的“价格区”。
9.如权利要求8所述的基于知识重用的演化聚类方法,其特征在于,还包括:
步骤一、截取数据库中“新浪微博”t时刻n个“新浪微博用户”的数据作为基础数据;
步骤二、设定时间窗口长度为k,k<10,若t-k<0,则按相同时间间隔连续跟踪截取n个样本的t-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和t-1个单时间窗口的变化数据进行分析获得包括n个“新浪微博用户”的数量,n个“新浪微博用户”属于哪个“新浪微博社团”,以及所具有的m个“新浪微博社团”数量的对应关系的t个静态聚类结果,并将t个静态聚类结果分别转化为对应t个的离散化0-1矩阵;
步骤三、若t-k>0,则按相同时间间隔连续跟踪截取n个样本的k-1个单时间窗口的变化数据,应用任一静态聚类方法将获得的t时刻的基础数据和k-1个单时间窗口的变化数据进行分析获得包括n个“新浪微博用户”的数量,n个“新浪微博用户”属于哪个“新浪微博社团”,以及所具有的m个“新浪微博社团”数量的对应关系的k个静态聚类结果,并将k个静态聚类结果分别转化为对应的k个离散化0-1矩阵;
步骤四、通过时间顺序将步骤二的t个的离散化0-1矩阵或者步骤三的k个离散化0-1矩阵加权获得加权0-1矩阵I或II,其中,具体方法为矩阵中“行”代表“新浪微博用户”,“列”代表k时刻的“新浪微博社团”,矩阵中每一行向量代表“新浪微博用户”在对应“新浪微博社团”中是否出现,出现为1,否则为0;
步骤五、最后应用所述静态聚类分析所述加权0-1矩阵I或II,剔除其中的数据噪音,获得最终动态数据的演化聚类结果,修正t时刻的静态聚类结果,明确n个“新浪微博用户”在“新浪微博”中所属的“新浪微博社团”,其中,t>1,n>1以及m>1。
CN201410377347.8A 2014-08-01 2014-08-01 一种基于知识重用的演化聚类方法 Expired - Fee Related CN104156418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410377347.8A CN104156418B (zh) 2014-08-01 2014-08-01 一种基于知识重用的演化聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410377347.8A CN104156418B (zh) 2014-08-01 2014-08-01 一种基于知识重用的演化聚类方法

Publications (2)

Publication Number Publication Date
CN104156418A CN104156418A (zh) 2014-11-19
CN104156418B true CN104156418B (zh) 2015-09-30

Family

ID=51881917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410377347.8A Expired - Fee Related CN104156418B (zh) 2014-08-01 2014-08-01 一种基于知识重用的演化聚类方法

Country Status (1)

Country Link
CN (1) CN104156418B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227907B (zh) * 2016-05-30 2019-06-07 重庆大学 一种基于演化聚类学习的液氢加注系统安全性评估方法
CN108234435A (zh) * 2016-12-22 2018-06-29 上海行邑信息科技有限公司 一种基于ip分类的自动检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1062590B1 (en) * 1998-03-17 2008-03-12 Microsoft Corporation A scalable system for clustering of large databases
CN101547172A (zh) * 2009-05-05 2009-09-30 南京信息工程大学 基于径向基函数的模糊神经网络盲均衡方法
CN101694670A (zh) * 2009-10-20 2010-04-14 北京航空航天大学 一种基于公共子串的中文Web文档在线聚类方法
CN101957850A (zh) * 2010-09-25 2011-01-26 浙江大学 动态数据聚类算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1062590B1 (en) * 1998-03-17 2008-03-12 Microsoft Corporation A scalable system for clustering of large databases
CN101547172A (zh) * 2009-05-05 2009-09-30 南京信息工程大学 基于径向基函数的模糊神经网络盲均衡方法
CN101694670A (zh) * 2009-10-20 2010-04-14 北京航空航天大学 一种基于公共子串的中文Web文档在线聚类方法
CN101957850A (zh) * 2010-09-25 2011-01-26 浙江大学 动态数据聚类算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
动态复杂网络社区挖掘—选择性聚类融合算法;张震 等;《计算机与数字工程》;20130331(第2013年03期);全文 *

Also Published As

Publication number Publication date
CN104156418A (zh) 2014-11-19

Similar Documents

Publication Publication Date Title
CN104866578B (zh) 一种不完整物联网数据混合填充方法
CN102915347B (zh) 一种分布式数据流聚类方法及系统
Rieck et al. Persistent homology for the evaluation of dimensionality reduction schemes
CN110570111A (zh) 企业风险预测方法、模型训练方法、装置及设备
Ma et al. Decomposition-based multiobjective evolutionary algorithm for community detection in dynamic social networks
CN103559303A (zh) 一种对数据挖掘算法的评估与选择方法
CN107169500A (zh) 一种基于邻域粗糙集约减的谱聚类方法及系统
CN109978042A (zh) 一种融合特征学习的自适应快速K-means聚类方法
CN107203772B (zh) 一种用户类型识别方法及装置
CN113674087A (zh) 企业信用等级评定方法、装置、电子设备和介质
CN104156418B (zh) 一种基于知识重用的演化聚类方法
CN102331987A (zh) 专利数据挖掘系统及方法
Saxena Educational data mining: performance evaluation of decision tree and clustering techniques using weka platform
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
CN109255433B (zh) 一种基于相似性的社区检测的方法
Müller et al. Extracting knowledge from life courses: Clustering and visualization
CN113378900B (zh) 一种基于聚类的大规模不规则kpi时间序列的异常检测方法
CN111984842B (zh) 银行客户数据处理方法及装置
CN111090708B (zh) 基于数据仓库的用户特征产出方法和系统
CN116502132A (zh) 账号集合识别方法、装置、设备、介质和计算机程序产品
Alcaide et al. MCLEAN: Multilevel clustering exploration as network
Mola et al. Discriminant analysis and factorial multiple splits in recursive partitioning for data mining
CN103530656B (zh) 基于隐结构学习的图像摘要生成方法
Menenberg et al. Topic modeling for management sciences: A network-based approach
CN111753027A (zh) 一种面向多实体的隐式知识图谱表示的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150930

Termination date: 20190801