CN104462139A - 用户行为的聚类方法和系统 - Google Patents

用户行为的聚类方法和系统 Download PDF

Info

Publication number
CN104462139A
CN104462139A CN201310438913.7A CN201310438913A CN104462139A CN 104462139 A CN104462139 A CN 104462139A CN 201310438913 A CN201310438913 A CN 201310438913A CN 104462139 A CN104462139 A CN 104462139A
Authority
CN
China
Prior art keywords
node
data point
distance
limit
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310438913.7A
Other languages
English (en)
Inventor
范志刚
许春玲
李明齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Advanced Research Institute of CAS
Original Assignee
Shanghai Advanced Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Advanced Research Institute of CAS filed Critical Shanghai Advanced Research Institute of CAS
Priority to CN201310438913.7A priority Critical patent/CN104462139A/zh
Publication of CN104462139A publication Critical patent/CN104462139A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种用户行为的聚类方法及系统。根据所述聚类方法,先计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点;再建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树;以及按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。本发明在用户行为的数据点之间建立最小生成树,能够简单、直接的用数据点之间的距离反应出用户行为的相似程度,再根据距离长短来划分用户行为的聚类,实现了以低运算量、高聚类精度来得到用户行为的聚类。

Description

用户行为的聚类方法和系统
技术领域
本发明涉及一种聚类方法,特别是涉及一种用户行为的聚类方法和系统。
背景技术
随着用户在网络上的行为种类越来越多,技术人员通过用户在网络上的各种行为所留下的数据进行分析,来统计、分析用户行为。其中,将用户行为的多维数据进行聚类是一种进行数据统计、分析用户行为的手段。
目前的聚类方法利用k-means方法来对多维数据进行聚类,这种方式主要适用于数据量不大的应用场景,例如,医学影像等专业领域。而对于网络上的用户行为的多维数据(如几十个维度的数据),使用现有方式则需要大量的运算,使用复杂度极高。因此,需要特别针对用户行为的聚类方法进行改进。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种用户行为的聚类方法和系统,用于解决现有技术中用户行为的数据的聚类运算量过大、使用不简便的问题。
为实现上述目的及其他相关目的,本发明提供一种用户行为的聚类方法,其至少包括:1)计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点;2)建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树;3)按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
优选地,所述步骤2)还包括:2-1)依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重叠的数据点;2-2)建立各所述超球体中的数据点的最小生成子树,将各所述最小生成子树连接起来,以构成最小生成树。
优选地,在执行步骤3)之前,所述聚类方法还执行步骤4):至少一次的将所述最小生成树中只有一条边的数据点予以删减。
优选地,所述步骤3)还包括:利用公式 Mcut ( m , n ) = cut ( m , n ) assoc ( A m ) + cut ( m , n ) assoc ( A n ) 来确定每条边两端的节点之间的距离因数,其中,m、n为一条边两端的节点,cut(m,n)为节点m和节点n之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合,其中,集合Am中不包含节点n,集合An中不包含节点m,assoc(Am)和assoc(An)分别集合Am、An中各节点之间的最小距离之和;按照各节点之间的距离因数Mcut(m,n)由大到小的排序,根据预设的条件将各所述距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
基于上述目的,本发明还提供一种用户行为的聚类系统,其至少包括:提取模块,用于计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点;最小生成树生成模块,用于建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树;聚类确定模块,用于按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
优选地,所述最小生成树生成模块包括:超球体划分单元,用于依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重叠的数据点;最小生成树生成单元,用于建立各所述超球体中的数据点的最小生成子树,将各所述最小生成子树连接起来,以构成最小生成树。
优选地,所述最小生成树生成模块还包括:删减模块,用于至少一次的将所述最小生成树中只有一条边的数据点予以删减。
优选地,所述聚类确定模块包括:距离因数计算单元,用于利用公式 Mcut ( m , n ) = cut ( m , n ) assoc ( A m ) + cut ( m , n ) assoc ( A n ) 来确定每条边两端的节点之间的距离因数,其中,m、n为一条边两端的节点,cut(m,n)为节点m和节点n之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合,其中,集合Am中不包含节点n,集合An中不包含节点m,assoc(Am)和assoc(An)分别集合Am、An中各节点之间的最小距离之和;聚类确定单元,用于按照各节点之间的距离因数Mcut(m,n)由大到小的排序,根据预设的条件将各所述距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
如上所述,本发明的用户行为的聚类方法和系统,具有以下有益效果:由于每个数据点中的多维数据都是用户行为,故在用户行为的数据点之间建立最小生成树,能够简单、直接的用数据点之间的距离反应出用户行为的相似程度,再根据距离长短来划分用户行为的聚类,实现了以低运算量、高聚类精度来得到用户行为的聚类。
附图说明
图1显示为本发明的用户行为的聚类方法的流程图。
图2显示为本发明的用户行为的聚类方法中一种数据点聚类的图示举例。
图3显示为本发明的用户行为的聚类方法中一种优选方案的流程图。
图4显示为本发明的用户行为的聚类方法中一种超球体划分的图示举例。
图5显示为本发明的用户行为的聚类方法中一种最小生成树的图示举例。
图6显示为本发明的用户行为的聚类系统的结构示意图。
图7显示为本发明的用户行为的聚类系统中最小生成树模块的一种优选方式的结构示意图。
元件标号说明
1                      用户行为的聚类系统
11                     提取模块
12                     最小生成树生成模块
121                    超球体划分单元
122                    最小生成树生成单元
13                     聚类确定模块
S1~S3、S10、S20、S30、步骤
S31、S40
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
实施例一
如图1所示,本发明提供一种用户行为的聚类方法,所述聚类方法主要由聚类系统来执行,其中,所述聚类系统为安装在计算机设备中的应用软件,所述计算机设备包括但不限于:服务器、服务器群、分布式计算机组等。
在步骤S1中,所述聚类系统计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点。
其中,所述聚类系统从数据库设备或专用数据接口获取多个用于表示用户行为的多维数据点,其中,所述多维数据以列表的形式为将各数据点按照随机或者预设顺序进行排列。
具体地,所述聚类系统按照各所述数据点的顺序或其他任一种顺序,依次计算各数据点至后续各数据点之间的距离,并确定当前数据点至后续各数据点之间的距离是否有至少一个的距离在预设的距离范围内,若是,则提取该数据点,反之则删减该数据点,以此类推,所述聚类系统根据各数据点之间的距离,提取所计算的距离在预设的距离范围内的各数据点。
在步骤S2中,所述聚类系统建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树。
具体地,所述聚类系统利用如Prim算法等的最小生成树算法从所提取的各数据点之间的距离来建立连接所提取的各数据点的距离最短的生成树,其中,各数据点作为最小生成树的节点,构成最小生成树的各数据点之间的距离为所述最小生成树的边。
作为一种优选方案,所述聚类方法还包括:步骤S4。
在步骤S4中,所述聚类系统至少一次的将所述最小生成树中只有一条边的数据点予以删减。
具体地,所述聚类系统逐次的将所构成的最小生成树中仅有一条边的节点删减直至满足预设次数,经过多次的节点删减,各最小生成子树之间可能有重叠的节点,也可能已没有重叠的节点。
在步骤S3中,所述聚类系统按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
具体地,所述聚类系统将所述最小生成树中的边由大到小进行排序,并确定大于预设值的边,将所有大于预设值的边切断,以将所述最小生成树分割成多个节点的集合,所分割后的节点的集合为聚类。其中,所述预设值可以根据用户行为的历史经验来设定,或者根据设计需要来设定。
或者,所述聚类系统将所述最小生成树中的边由大到小进行排序,先将最大边切断,以将所述最小生成树分割成两个节点的集合,然后判断所分割后的各节点的集合是否满足预设的条件,若不满足,则将各节点的集合中的最大边进行切割,以将当前的节点集合分割成更多的节点的集合,再进行判断,以此类推,直至分割后的各节点的集合满足预设的条件,则此时分割后的各节点的集合作为一种用户行为的聚类。
如图2所示,所述聚类系统先切断最大边,则得到两个用户行为的聚类B1和B2,在切断次大边,则得到用户行为的聚类为:B1、B3、B4,此时,所述聚类系统确定所分割的聚类数量达到预设的三个,则确定所述用户行为的聚类为B1、B3、B4中各自所包含的数据点。
实施例二
如图3所示,在步骤S10中,所述聚类系统计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点。
需要说明的是,本领域技术人员应该理解,所述聚类系统在本步骤所执行的方式与实施例一中步骤S1中所述聚类系统所执行的方式相同或相似,在此不再详述。
在步骤S20中,所述聚类系统依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重叠的数据点。
例如,所述聚类系统所提取的数据点包括:{a1,a2,a3,a4,a5},按照所提取的数据点的顺序,确定a1至a2、a1至a3的距离在预设距离范围内,a2至a3、a2至a4的距离在预设距离范围内,a3至a4、a3至a5的距离在预设的距离范围内,则所述聚类系统将上述数据点划分出三个超球体为:B1={a1,a2,a3},B2={a2,a3,a4},B3={a3,a4,a5}。
在步骤S30中,所述聚类系统建立各所述超球体中的数据点的最小生成子树,将各所述最小生成子树连接起来,以构成最小生成树。
具体地,所述聚类系统针对在步骤S20中所划分的超球体,利用Prim算法等最小生成数算法来计算每个超球体中各数据点的最小生成子树,再利用各超球体之间相重叠的数据点将各超球体中的最小生成子树连成一个最小生成树。如图4所示。
作为一种优选方案,所述步骤S30中还包括:步骤S31。
在步骤S31中,所述聚类系统至少一次的将所述最小生成树中只有一条边的数据点予以删减。
具体地,所述聚类系统逐次的将所构成的最小生成树中仅有一条边的节点删减直至满足预设次数,经过多次的节点删减,各最小生成子树之间可能有重叠的节点,也可能已没有重叠的节点。
如图5所示,例如,所述聚类系统第一次删除最小生成树T中仅有一条边的节点包括:t1、t2、…、t8,所述聚类系统第二次删除最小生成树T’中仅有一条边的节点包括:d1、d2、d3,由此得到删减后的最小生成树T’’。
在步骤S40中,所述聚类系统按照所述最小生成树中的边由大到小的排序,根据预设的条件将各所述边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
需要说明的是,本步骤的执行方式与实施例一种的步骤S3的执行方式相同或相似,在此不再详述。
实施例三
与实施例一、二不同的是,所述聚类方法在建立最小生成树之后,执行如下步骤(均未予图示):
在步骤S500中,所述聚类系统利用公式 Mcut ( m , n ) = cut ( m , n ) assoc ( A m ) + cut ( m , n ) assoc ( A n ) 来确定每条边两端的节点之间的距离因数,其中,m、n为一条边两端的节点,cut(m,n)为节点m和节点n之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合,其中,集合Am中不包含节点n,集合An中不包含节点m,assoc(Am)和assoc(An)分别集合Am、An中各节点之间的最小距离之和,Mcut(m,n)为所述距离因数。
在步骤S600中,所述聚类系统按照各节点之间的距离因数Mcut(m,n)由大到小的排序,根据预设的条件将各所述距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
需要说明的是,本步骤的执行方式与实施例一种的步骤S3的执行方式相同或相似,在此不再详述。
实施例四
如图6所示,本发明提供一种用户行为的聚类系统。所述聚类系统1包括:提取模块11,最小生成树生成模块12,和聚类确定模块13。
所述提取模块11用于计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点。
其中,所述提取模块11从数据库设备或专用数据接口获取多个用于表示用户行为的多维数据点,其中,所述多维数据以列表的形式为将各数据点按照随机或者预设顺序进行排列。
具体地,所述提取模块11按照各所述数据点的顺序或其他任一种顺序,依次计算各数据点至后续各数据点之间的距离,并确定当前数据点至后续各数据点之间的距离是否有至少一个的距离在预设的距离范围内,若是,则提取该数据点,反之则删减该数据点,以此类推,所述提取模块11根据各数据点之间的距离,提取所计算的距离在预设的距离范围内的各数据点。
所述最小生成树生成模块12用于建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树。
具体地,所述最小生成树生成模块12利用如Prim算法等的最小生成树算法从所提取的各数据点之间的距离来建立连接所提取的各数据点的距离最短的生成树,其中,各数据点作为最小生成树的节点,构成最小生成树的各数据点之间的距离为所述最小生成树的边。
作为一种优选方案,所述聚类系统中还包括:删减模块(未予图示)。
所述删减模块至少一次的将所述最小生成树中只有一条边的数据点予以删减。
具体地,所述删减模块逐次的将所构成的最小生成树中仅有一条边的节点删减直至满足预设次数,经过多次的节点删减,各最小生成子树之间可能有重叠的节点,也可能已没有重叠的节点。
所述聚类确定模块13用于按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
具体地,所述聚类确定模块13将所述最小生成树中的边由大到小进行排序,并确定大于预设值的边,将所有大于预设值的边切断,以将所述最小生成树分割成多个节点的集合,所分割后的节点的集合为聚类。其中,所述预设值可以根据用户行为的历史经验来设定,或者根据设计需要来设定。
或者,所述聚类确定模块13将所述最小生成树中的边由大到小进行排序,先将最大边切断,以将所述最小生成树分割成两个节点的集合,然后判断所分割后的各节点的集合是否满足预设的条件,若不满足,则将各节点的集合中的最大边进行切割,以将当前的节点集合分割成更多的节点的集合,再进行判断,以此类推,直至分割后的各节点的集合满足预设的条件,则此时分割后的各节点的集合作为一种用户行为的聚类。
如图2所示,所述聚类确定模块13先切断最大边,则得到两个用户行为的聚类B1和B2,在切断次大边,则得到用户行为的聚类为:B1、B3、B4,此时,所述聚类确定模块13确定所分割的聚类数量达到预设的三个,则确定所述用户行为的聚类为B1、B3、B4中各自所包含的数据点。
实施例五
如图7所示,与实施例四不同的是,所述最小生成树生成模块12包括:超球体划分单元121、最小生成树生成单元122。
所述超球体划分单元121用于依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重叠的数据点。
例如,所述超球体划分单元121所提取的数据点包括:{a1,a2,a3,a4,a5},按照所提取的数据点的顺序,确定a1至a2、a1至a3的距离在预设距离范围内,a2至a3、a2至a4的距离在预设距离范围内,a3至a4、a3至a5的距离在预设的距离范围内,则所述超球体划分单元121将上述数据点划分出三个超球体为:B1={a1,a2,a3},B2={a2,a3,a4},B3={a3,a4,a5}。
需要说明的是,所述超球体划分单元121可以由一台计算机设备来执行,优选地,所述超球体划分单元121所在计算机设备将数据点分配到多台计算机设备,每台计算机设备计算部分数据点的超球体,各计算机设备在得到超球体后将所得到的超球体反馈给超球体划分单元121所在计算机设备。
所述最小生成树生成单元122用于建立各所述超球体中的数据点的最小生成子树,将各所述最小生成子树连接起来,以构成最小生成树。
具体地,所述最小生成树生成单元122针对在步骤S20中所划分的超球体,利用Prim算法等最小生成数算法来计算每个超球体中各数据点的最小生成子树,再利用各超球体之间相重叠的数据点将各超球体中的最小生成子树连成一个最小生成树。如图4所示。
作为一种优选方案,所述聚类系统中还包括:删减模块(未予图示)。
所述删减模块至少一次的将所述最小生成树中只有一条边的数据点予以删减。
具体地,所述删减模块逐次的将所构成的最小生成树中仅有一条边的节点删减直至满足预设次数,经过多次的节点删减,各最小生成子树之间可能有重叠的节点,也可能已没有重叠的节点。
如图5所示,例如,所述删减子单元第一次删除最小生成树T中仅有一条边的节点包括:t1、t2、…、t8,所述删减子单元第二次删除最小生成树T’中仅有一条边的节点包括:d1、d2、d3,由此得到删减后的最小生成树T’’。
实施例六
与实施例四、五不同的是,所述聚类确定模块13包括:距离因数计算单元,聚类确定单元(均未予图示)。
所述距离因数计算单元用于利用公式 Mcut ( m , n ) = cut ( m , n ) assoc ( A m ) + cut ( m , n ) assoc ( A n ) 来确定每条边两端的节点之间的距离因数,其中,m、n为一条边两端的节点,cut(m,n)为节点m和节点n之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合,其中,集合Am中不包含节点n,集合An中不包含节点m,assoc(Am)和assoc(An)分别集合Am、An中各节点之间的最小距离之和,Mcut(m,n)为所述距离因数。
所述聚类确定单元用于按照各节点之间的距离因数Mcut(m,n)由大到小的排序,根据预设的条件将各所述距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
需要说明的是,所述聚类确定单元的执行方式与实施例四种的聚类确定模块的执行方式相同或相似,在此不再详述。
综上所述,本发明的用户行为的聚类方法及系统,由于每个数据点中的多维数据都是用户行为,故在用户行为的数据点之间建立最小生成树,能够简单、直接的用数据点之间的距离反应出用户行为的相似程度,再根据距离长短来划分用户行为的聚类,实现了以低运算量、高聚类精度来得到用户行为的聚类;另外,所述聚类系统将所提取的各数据点划分出多个超球体,便于分布式计算,有效减小单服务器的运行压力;还有,将数据点之间距离过小和过大的数据点、及最小生成树中只有一条边的数据点予以删减,能够有效排除用户行为特征不明显的数据点,以使每个聚类中的用户行为的特点更为显著,进一步提高了聚类的精度。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种用户行为的聚类方法,其特征在于,至少包括:
1)计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点;
2)建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树;
3)按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
2.根据权利要求1所述的用户行为的聚类方法,其特征在于,所述步骤2)还包括:
2-1)依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重叠的数据点;
2-2)建立各所述超球体中的数据点的最小生成子树,将各所述最小生成子树连接起来,以构成最小生成树。
3.根据权利要求1所述的用户行为的聚类方法,其特征在于,在执行步骤3)之前,所述聚类方法还执行步骤4):至少一次的将所述最小生成树中只有一条边的数据点予以删减。
4.根据权利要求1或3所述的用户行为的聚类方法,其特征在于,所述步骤3)还包括:
利用公式 Mcut ( m , n ) = cut ( m , n ) assoc ( A m ) + cut ( m , n ) assoc ( A n ) 来确定每条边两端的节点之间的距离因数,其中,m、n为一条边两端的节点,cut(m,n)为节点m和节点n之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合,其中,集合Am中不包含节点n,集合An中不包含节点m,assoc(Am)和assoc(An)分别集合Am、An中各节点之间的最小距离之和;
按照各节点之间的距离因数Mcut(m,n)由大到小的排序,根据预设的条件将各所述距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
5.一种用户行为的聚类系统,其特征在于,至少包括:
提取模块,用于计算所获取的多个用于表示用户行为的多维数据点之间的距离,并提取所计算的距离在预设的距离范围内的各数据点;
最小生成树生成模块,用于建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树;
聚类确定模块,用于按照所述最小生成树中的边由大到小的排序,并根据预设的条件将各所述边由大到小进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
6.根据权利要求5所述的用户行为的聚类系统,其特征在于,所述最小生成树生成模块包括:
超球体划分单元,用于依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体,其中,各所述超球体之间存在部分重叠的数据点;
最小生成树生成单元,用于建立各所述超球体中的数据点的最小生成子树,将各所述最小生成子树连接起来,以构成最小生成树。
7.根据权利要求5所述的用户行为的聚类系统,其特征在于,所述最小生成树生成模块还包括:删减模块,用于至少一次的将所述最小生成树中只有一条边的数据点予以删减。
8.根据权利要求5或7所述的用户行为的聚类系统,其特征在于,所述聚类确定模块包括:
距离因数计算单元,用于利用公式 Mcut ( m , n ) = cut ( m , n ) assoc ( A m ) + cut ( m , n ) assoc ( A n ) 来确定每条边两端的节点之间的距离因数,其中,m、n为一条边两端的节点,cut(m,n)为节点m和节点n之间的距离,Am、An分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合,其中,集合Am中不包含节点n,集合An中不包含节点m,assoc(Am)和assoc(An)分别集合Am、An中各节点之间的最小距离之和;
聚类确定单元,用于按照各节点之间的距离因数Mcut(m,n)由大到小的排序,根据预设的条件将各所述距离因数所对应的边进行分割,将分割后的由边相连的各所述节点组成一种用户行为的聚类。
CN201310438913.7A 2013-09-24 2013-09-24 用户行为的聚类方法和系统 Pending CN104462139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310438913.7A CN104462139A (zh) 2013-09-24 2013-09-24 用户行为的聚类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310438913.7A CN104462139A (zh) 2013-09-24 2013-09-24 用户行为的聚类方法和系统

Publications (1)

Publication Number Publication Date
CN104462139A true CN104462139A (zh) 2015-03-25

Family

ID=52908195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310438913.7A Pending CN104462139A (zh) 2013-09-24 2013-09-24 用户行为的聚类方法和系统

Country Status (1)

Country Link
CN (1) CN104462139A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169114A (zh) * 2017-05-12 2017-09-15 东北大学 一种海量数据多维排序搜索方法
CN107623715A (zh) * 2017-08-08 2018-01-23 阿里巴巴集团控股有限公司 一种身份信息获取方法和装置
CN115758640A (zh) * 2022-11-21 2023-03-07 上海天华建筑设计有限公司 一种基于路由规划的电气连管自动连线方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594587B2 (en) * 2000-12-20 2003-07-15 Monsanto Technology Llc Method for analyzing biological elements
CN1881218A (zh) * 2005-06-16 2006-12-20 株式会社东芝 聚类装置和聚类方法
CN101231760A (zh) * 2007-01-24 2008-07-30 中国科学院自动化研究所 一种树状形体的立体分解和分级骨架提取方法
CN101833553A (zh) * 2009-03-09 2010-09-15 夏普株式会社 对数据进行聚类的方法、设备和系统
CN102388390A (zh) * 2009-04-01 2012-03-21 微软公司 按位置聚类视频

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594587B2 (en) * 2000-12-20 2003-07-15 Monsanto Technology Llc Method for analyzing biological elements
CN1881218A (zh) * 2005-06-16 2006-12-20 株式会社东芝 聚类装置和聚类方法
CN101231760A (zh) * 2007-01-24 2008-07-30 中国科学院自动化研究所 一种树状形体的立体分解和分级骨架提取方法
CN101833553A (zh) * 2009-03-09 2010-09-15 夏普株式会社 对数据进行聚类的方法、设备和系统
CN102388390A (zh) * 2009-04-01 2012-03-21 微软公司 按位置聚类视频

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169114A (zh) * 2017-05-12 2017-09-15 东北大学 一种海量数据多维排序搜索方法
CN107623715A (zh) * 2017-08-08 2018-01-23 阿里巴巴集团控股有限公司 一种身份信息获取方法和装置
CN107623715B (zh) * 2017-08-08 2020-06-09 阿里巴巴集团控股有限公司 一种身份信息获取方法和装置
CN115758640A (zh) * 2022-11-21 2023-03-07 上海天华建筑设计有限公司 一种基于路由规划的电气连管自动连线方法
CN115758640B (zh) * 2022-11-21 2023-10-27 上海天华建筑设计有限公司 一种基于路由规划的电气连管自动连线方法

Similar Documents

Publication Publication Date Title
US11023534B2 (en) Classification method and a classification device for service data
CN104036105B (zh) 确定涉及大数据分析的随机性应用的正确性的方法和系统
KR101616544B1 (ko) Lda를 이용한 특허 문헌 분석 방법
JP5588811B2 (ja) データ分析支援システム及び方法
Wang et al. Formation of part family for reconfigurable manufacturing systems considering bypassing moves and idle machines
EP3427163B1 (en) Node-centric analysis of dynamic networks
CN104731891A (zh) 一种etl中海量数据抽取的方法
CN104462139A (zh) 用户行为的聚类方法和系统
KR102172138B1 (ko) 분산 컴퓨팅 프레임워크 및 분산 컴퓨팅 방법
CN104504221A (zh) 一种评审数据处理方法和系统
CN110895533A (zh) 一种表单映射方法、装置、计算机设备和存储介质
Atsi et al. A family of modified backward differentiation formula (BDF) type block methods for the solution of stiff ordinary differential equations
CN106126495A (zh) 一种基于大规模语料提词方法和装置
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN106776704B (zh) 统计信息收集方法和装置
CN113434507B (zh) 数据文本化方法、装置、设备及存储介质
CN113946717A (zh) 一种子图指标特征获得方法、装置、设备及存储介质
CN104298786A (zh) 一种图像检索方法及装置
WO2018172221A1 (en) Method for computer-implemented determination of the performance of a classification model
CN104317861A (zh) 一种基于互信息的区间数据的属性选择方法
CN105653672A (zh) 一种基于时间序列的计算机数据挖掘方法
CN107105052A (zh) 基于图规划的启发式Web服务组合方法
CN105930453A (zh) 重复性分析方法及装置
Fischer et al. Fast detection of structural breaks
CN112395473A (zh) Cae模型中零部件的分类方法、装置和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325

RJ01 Rejection of invention patent application after publication