CN104462139A

CN104462139A - 用户行为的聚类方法和系统

Info

Publication number: CN104462139A
Application number: CN201310438913.7A
Authority: CN
Inventors: 范志刚; 许春玲; 李明齐
Original assignee: Shanghai Advanced Research Institute of CAS
Current assignee: Shanghai Advanced Research Institute of CAS
Priority date: 2013-09-24
Filing date: 2013-09-24
Publication date: 2015-03-25

Abstract

本发明提供一种用户行为的聚类方法及系统。根据所述聚类方法，先计算所获取的多个用于表示用户行为的多维数据点之间的距离，并提取所计算的距离在预设的距离范围内的各数据点；再建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树；以及按照所述最小生成树中的边由大到小的排序，并根据预设的条件将各所述边由大到小进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。本发明在用户行为的数据点之间建立最小生成树，能够简单、直接的用数据点之间的距离反应出用户行为的相似程度，再根据距离长短来划分用户行为的聚类，实现了以低运算量、高聚类精度来得到用户行为的聚类。

Description

用户行为的聚类方法和系统

技术领域

本发明涉及一种聚类方法，特别是涉及一种用户行为的聚类方法和系统。

背景技术

随着用户在网络上的行为种类越来越多，技术人员通过用户在网络上的各种行为所留下的数据进行分析，来统计、分析用户行为。其中，将用户行为的多维数据进行聚类是一种进行数据统计、分析用户行为的手段。

目前的聚类方法利用k-means方法来对多维数据进行聚类，这种方式主要适用于数据量不大的应用场景，例如，医学影像等专业领域。而对于网络上的用户行为的多维数据（如几十个维度的数据），使用现有方式则需要大量的运算，使用复杂度极高。因此，需要特别针对用户行为的聚类方法进行改进。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种用户行为的聚类方法和系统，用于解决现有技术中用户行为的数据的聚类运算量过大、使用不简便的问题。

为实现上述目的及其他相关目的，本发明提供一种用户行为的聚类方法，其至少包括：1）计算所获取的多个用于表示用户行为的多维数据点之间的距离，并提取所计算的距离在预设的距离范围内的各数据点；2）建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树；3）按照所述最小生成树中的边由大到小的排序，并根据预设的条件将各所述边由大到小进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

优选地，所述步骤2）还包括：2-1）依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体，其中，各所述超球体之间存在部分重叠的数据点；2-2）建立各所述超球体中的数据点的最小生成子树，将各所述最小生成子树连接起来，以构成最小生成树。

优选地，在执行步骤3）之前，所述聚类方法还执行步骤4）：至少一次的将所述最小生成树中只有一条边的数据点予以删减。

优选地，所述步骤3）还包括：利用公式

Mcut (m, n) = \frac{cut (m, n)}{assoc (A_{m})} + \frac{cut (m, n)}{assoc (A_{n})}

来确定每条边两端的节点之间的距离因数，其中，m、n为一条边两端的节点，cut(m,n)为节点m和节点n之间的距离，Am、An分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合，其中，集合Am中不包含节点n，集合An中不包含节点m，assoc(A_m)和assoc(A_n)分别集合Am、An中各节点之间的最小距离之和；按照各节点之间的距离因数Mcut(m,n)由大到小的排序，根据预设的条件将各所述距离因数所对应的边进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

基于上述目的，本发明还提供一种用户行为的聚类系统，其至少包括：提取模块，用于计算所获取的多个用于表示用户行为的多维数据点之间的距离，并提取所计算的距离在预设的距离范围内的各数据点；最小生成树生成模块，用于建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树；聚类确定模块，用于按照所述最小生成树中的边由大到小的排序，并根据预设的条件将各所述边由大到小进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

优选地，所述最小生成树生成模块包括：超球体划分单元，用于依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体，其中，各所述超球体之间存在部分重叠的数据点；最小生成树生成单元，用于建立各所述超球体中的数据点的最小生成子树，将各所述最小生成子树连接起来，以构成最小生成树。

优选地，所述最小生成树生成模块还包括：删减模块，用于至少一次的将所述最小生成树中只有一条边的数据点予以删减。

优选地，所述聚类确定模块包括：距离因数计算单元，用于利用公式

Mcut (m, n) = \frac{cut (m, n)}{assoc (A_{m})} + \frac{cut (m, n)}{assoc (A_{n})}

来确定每条边两端的节点之间的距离因数，其中，m、n为一条边两端的节点，cut(m,n)为节点m和节点n之间的距离，Am、An分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合，其中，集合Am中不包含节点n，集合An中不包含节点m，assoc(A_m)和assoc(A_n)分别集合Am、An中各节点之间的最小距离之和；聚类确定单元，用于按照各节点之间的距离因数Mcut(m,n)由大到小的排序，根据预设的条件将各所述距离因数所对应的边进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

如上所述，本发明的用户行为的聚类方法和系统，具有以下有益效果：由于每个数据点中的多维数据都是用户行为，故在用户行为的数据点之间建立最小生成树，能够简单、直接的用数据点之间的距离反应出用户行为的相似程度，再根据距离长短来划分用户行为的聚类，实现了以低运算量、高聚类精度来得到用户行为的聚类。

附图说明

图1显示为本发明的用户行为的聚类方法的流程图。

图2显示为本发明的用户行为的聚类方法中一种数据点聚类的图示举例。

图3显示为本发明的用户行为的聚类方法中一种优选方案的流程图。

图4显示为本发明的用户行为的聚类方法中一种超球体划分的图示举例。

图5显示为本发明的用户行为的聚类方法中一种最小生成树的图示举例。

图6显示为本发明的用户行为的聚类系统的结构示意图。

图7显示为本发明的用户行为的聚类系统中最小生成树模块的一种优选方式的结构示意图。

元件标号说明

1 用户行为的聚类系统

11 提取模块

12 最小生成树生成模块

121 超球体划分单元

122 最小生成树生成单元

13 聚类确定模块

S1～S3、S10、S20、S30、步骤

S31、S40

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

实施例一

如图1所示，本发明提供一种用户行为的聚类方法，所述聚类方法主要由聚类系统来执行，其中，所述聚类系统为安装在计算机设备中的应用软件，所述计算机设备包括但不限于：服务器、服务器群、分布式计算机组等。

在步骤S1中，所述聚类系统计算所获取的多个用于表示用户行为的多维数据点之间的距离，并提取所计算的距离在预设的距离范围内的各数据点。

其中，所述聚类系统从数据库设备或专用数据接口获取多个用于表示用户行为的多维数据点，其中，所述多维数据以列表的形式为将各数据点按照随机或者预设顺序进行排列。

具体地，所述聚类系统按照各所述数据点的顺序或其他任一种顺序，依次计算各数据点至后续各数据点之间的距离，并确定当前数据点至后续各数据点之间的距离是否有至少一个的距离在预设的距离范围内，若是，则提取该数据点，反之则删减该数据点，以此类推，所述聚类系统根据各数据点之间的距离，提取所计算的距离在预设的距离范围内的各数据点。

在步骤S2中，所述聚类系统建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树。

具体地，所述聚类系统利用如Prim算法等的最小生成树算法从所提取的各数据点之间的距离来建立连接所提取的各数据点的距离最短的生成树，其中，各数据点作为最小生成树的节点，构成最小生成树的各数据点之间的距离为所述最小生成树的边。

作为一种优选方案，所述聚类方法还包括：步骤S4。

在步骤S4中，所述聚类系统至少一次的将所述最小生成树中只有一条边的数据点予以删减。

具体地，所述聚类系统逐次的将所构成的最小生成树中仅有一条边的节点删减直至满足预设次数，经过多次的节点删减，各最小生成子树之间可能有重叠的节点，也可能已没有重叠的节点。

在步骤S3中，所述聚类系统按照所述最小生成树中的边由大到小的排序，并根据预设的条件将各所述边由大到小进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

具体地，所述聚类系统将所述最小生成树中的边由大到小进行排序，并确定大于预设值的边，将所有大于预设值的边切断，以将所述最小生成树分割成多个节点的集合，所分割后的节点的集合为聚类。其中，所述预设值可以根据用户行为的历史经验来设定，或者根据设计需要来设定。

或者，所述聚类系统将所述最小生成树中的边由大到小进行排序，先将最大边切断，以将所述最小生成树分割成两个节点的集合，然后判断所分割后的各节点的集合是否满足预设的条件，若不满足，则将各节点的集合中的最大边进行切割，以将当前的节点集合分割成更多的节点的集合，再进行判断，以此类推，直至分割后的各节点的集合满足预设的条件，则此时分割后的各节点的集合作为一种用户行为的聚类。

如图2所示，所述聚类系统先切断最大边，则得到两个用户行为的聚类B1和B2，在切断次大边，则得到用户行为的聚类为：B1、B3、B4，此时，所述聚类系统确定所分割的聚类数量达到预设的三个，则确定所述用户行为的聚类为B1、B3、B4中各自所包含的数据点。

实施例二

如图3所示，在步骤S10中，所述聚类系统计算所获取的多个用于表示用户行为的多维数据点之间的距离，并提取所计算的距离在预设的距离范围内的各数据点。

需要说明的是，本领域技术人员应该理解，所述聚类系统在本步骤所执行的方式与实施例一中步骤S1中所述聚类系统所执行的方式相同或相似，在此不再详述。

在步骤S20中，所述聚类系统依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体，其中，各所述超球体之间存在部分重叠的数据点。

例如，所述聚类系统所提取的数据点包括：{a1,a2,a3,a4,a5}，按照所提取的数据点的顺序，确定a1至a2、a1至a3的距离在预设距离范围内，a2至a3、a2至a4的距离在预设距离范围内，a3至a4、a3至a5的距离在预设的距离范围内，则所述聚类系统将上述数据点划分出三个超球体为：B1={a1,a2,a3}，B2={a2,a3,a4}，B3={a3,a4,a5}。

在步骤S30中，所述聚类系统建立各所述超球体中的数据点的最小生成子树，将各所述最小生成子树连接起来，以构成最小生成树。

具体地，所述聚类系统针对在步骤S20中所划分的超球体，利用Prim算法等最小生成数算法来计算每个超球体中各数据点的最小生成子树，再利用各超球体之间相重叠的数据点将各超球体中的最小生成子树连成一个最小生成树。如图4所示。

作为一种优选方案，所述步骤S30中还包括：步骤S31。

在步骤S31中，所述聚类系统至少一次的将所述最小生成树中只有一条边的数据点予以删减。

如图5所示，例如，所述聚类系统第一次删除最小生成树T中仅有一条边的节点包括：t1、t2、…、t8，所述聚类系统第二次删除最小生成树T’中仅有一条边的节点包括：d1、d2、d3，由此得到删减后的最小生成树T’’。

在步骤S40中，所述聚类系统按照所述最小生成树中的边由大到小的排序，根据预设的条件将各所述边进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

需要说明的是，本步骤的执行方式与实施例一种的步骤S3的执行方式相同或相似，在此不再详述。

实施例三

与实施例一、二不同的是，所述聚类方法在建立最小生成树之后，执行如下步骤（均未予图示）：

在步骤S500中，所述聚类系统利用公式

Mcut (m, n) = \frac{cut (m, n)}{assoc (A_{m})} + \frac{cut (m, n)}{assoc (A_{n})}

来确定每条边两端的节点之间的距离因数，其中，m、n为一条边两端的节点，cut(m,n)为节点m和节点n之间的距离，A_m、A_n分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合，其中，集合A_m中不包含节点n，集合A_n中不包含节点m，assoc(A_m)和assoc(A_n)分别集合A_m、A_n中各节点之间的最小距离之和，Mcut(m,n)为所述距离因数。

在步骤S600中，所述聚类系统按照各节点之间的距离因数Mcut(m,n)由大到小的排序，根据预设的条件将各所述距离因数所对应的边进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

实施例四

如图6所示，本发明提供一种用户行为的聚类系统。所述聚类系统1包括：提取模块11，最小生成树生成模块12，和聚类确定模块13。

所述提取模块11用于计算所获取的多个用于表示用户行为的多维数据点之间的距离，并提取所计算的距离在预设的距离范围内的各数据点。

其中，所述提取模块11从数据库设备或专用数据接口获取多个用于表示用户行为的多维数据点，其中，所述多维数据以列表的形式为将各数据点按照随机或者预设顺序进行排列。

具体地，所述提取模块11按照各所述数据点的顺序或其他任一种顺序，依次计算各数据点至后续各数据点之间的距离，并确定当前数据点至后续各数据点之间的距离是否有至少一个的距离在预设的距离范围内，若是，则提取该数据点，反之则删减该数据点，以此类推，所述提取模块11根据各数据点之间的距离，提取所计算的距离在预设的距离范围内的各数据点。

所述最小生成树生成模块12用于建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树。

具体地，所述最小生成树生成模块12利用如Prim算法等的最小生成树算法从所提取的各数据点之间的距离来建立连接所提取的各数据点的距离最短的生成树，其中，各数据点作为最小生成树的节点，构成最小生成树的各数据点之间的距离为所述最小生成树的边。

作为一种优选方案，所述聚类系统中还包括：删减模块（未予图示）。

所述删减模块至少一次的将所述最小生成树中只有一条边的数据点予以删减。

具体地，所述删减模块逐次的将所构成的最小生成树中仅有一条边的节点删减直至满足预设次数，经过多次的节点删减，各最小生成子树之间可能有重叠的节点，也可能已没有重叠的节点。

所述聚类确定模块13用于按照所述最小生成树中的边由大到小的排序，并根据预设的条件将各所述边由大到小进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

具体地，所述聚类确定模块13将所述最小生成树中的边由大到小进行排序，并确定大于预设值的边，将所有大于预设值的边切断，以将所述最小生成树分割成多个节点的集合，所分割后的节点的集合为聚类。其中，所述预设值可以根据用户行为的历史经验来设定，或者根据设计需要来设定。

或者，所述聚类确定模块13将所述最小生成树中的边由大到小进行排序，先将最大边切断，以将所述最小生成树分割成两个节点的集合，然后判断所分割后的各节点的集合是否满足预设的条件，若不满足，则将各节点的集合中的最大边进行切割，以将当前的节点集合分割成更多的节点的集合，再进行判断，以此类推，直至分割后的各节点的集合满足预设的条件，则此时分割后的各节点的集合作为一种用户行为的聚类。

如图2所示，所述聚类确定模块13先切断最大边，则得到两个用户行为的聚类B1和B2，在切断次大边，则得到用户行为的聚类为：B1、B3、B4，此时，所述聚类确定模块13确定所分割的聚类数量达到预设的三个，则确定所述用户行为的聚类为B1、B3、B4中各自所包含的数据点。

实施例五

如图7所示，与实施例四不同的是，所述最小生成树生成模块12包括：超球体划分单元121、最小生成树生成单元122。

所述超球体划分单元121用于依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体，其中，各所述超球体之间存在部分重叠的数据点。

例如，所述超球体划分单元121所提取的数据点包括：{a1,a2,a3,a4,a5}，按照所提取的数据点的顺序，确定a1至a2、a1至a3的距离在预设距离范围内，a2至a3、a2至a4的距离在预设距离范围内，a3至a4、a3至a5的距离在预设的距离范围内，则所述超球体划分单元121将上述数据点划分出三个超球体为：B1={a1,a2,a3}，B2={a2,a3,a4}，B3={a3,a4,a5}。

需要说明的是，所述超球体划分单元121可以由一台计算机设备来执行，优选地，所述超球体划分单元121所在计算机设备将数据点分配到多台计算机设备，每台计算机设备计算部分数据点的超球体，各计算机设备在得到超球体后将所得到的超球体反馈给超球体划分单元121所在计算机设备。

所述最小生成树生成单元122用于建立各所述超球体中的数据点的最小生成子树，将各所述最小生成子树连接起来，以构成最小生成树。

具体地，所述最小生成树生成单元122针对在步骤S20中所划分的超球体，利用Prim算法等最小生成数算法来计算每个超球体中各数据点的最小生成子树，再利用各超球体之间相重叠的数据点将各超球体中的最小生成子树连成一个最小生成树。如图4所示。

如图5所示，例如，所述删减子单元第一次删除最小生成树T中仅有一条边的节点包括：t1、t2、…、t8，所述删减子单元第二次删除最小生成树T’中仅有一条边的节点包括：d1、d2、d3，由此得到删减后的最小生成树T’’。

实施例六

与实施例四、五不同的是，所述聚类确定模块13包括：距离因数计算单元，聚类确定单元（均未予图示）。

所述距离因数计算单元用于利用公式

Mcut (m, n) = \frac{cut (m, n)}{assoc (A_{m})} + \frac{cut (m, n)}{assoc (A_{n})}

所述聚类确定单元用于按照各节点之间的距离因数Mcut(m,n)由大到小的排序，根据预设的条件将各所述距离因数所对应的边进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

需要说明的是，所述聚类确定单元的执行方式与实施例四种的聚类确定模块的执行方式相同或相似，在此不再详述。

综上所述，本发明的用户行为的聚类方法及系统，由于每个数据点中的多维数据都是用户行为，故在用户行为的数据点之间建立最小生成树，能够简单、直接的用数据点之间的距离反应出用户行为的相似程度，再根据距离长短来划分用户行为的聚类，实现了以低运算量、高聚类精度来得到用户行为的聚类；另外，所述聚类系统将所提取的各数据点划分出多个超球体，便于分布式计算，有效减小单服务器的运行压力；还有，将数据点之间距离过小和过大的数据点、及最小生成树中只有一条边的数据点予以删减，能够有效排除用户行为特征不明显的数据点，以使每个聚类中的用户行为的特点更为显著，进一步提高了聚类的精度。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种用户行为的聚类方法，其特征在于，至少包括：

1）计算所获取的多个用于表示用户行为的多维数据点之间的距离，并提取所计算的距离在预设的距离范围内的各数据点；

2）建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树；

3）按照所述最小生成树中的边由大到小的排序，并根据预设的条件将各所述边由大到小进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

2.根据权利要求1所述的用户行为的聚类方法，其特征在于，所述步骤2）还包括：

2-1）依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体，其中，各所述超球体之间存在部分重叠的数据点；

2-2）建立各所述超球体中的数据点的最小生成子树，将各所述最小生成子树连接起来，以构成最小生成树。

3.根据权利要求1所述的用户行为的聚类方法，其特征在于，在执行步骤3）之前，所述聚类方法还执行步骤4）：至少一次的将所述最小生成树中只有一条边的数据点予以删减。

4.根据权利要求1或3所述的用户行为的聚类方法，其特征在于，所述步骤3）还包括：

利用公式

Mcut (m, n) = \frac{cut (m, n)}{assoc (A_{m})} + \frac{cut (m, n)}{assoc (A_{n})}

来确定每条边两端的节点之间的距离因数，其中，m、n为一条边两端的节点，cut(m,n)为节点m和节点n之间的距离，A_m、A_n分别为在所述最小生成树上从所述节点m/节点n延伸至预设数量范围内、距离最小的各节点的集合，其中，集合A_m中不包含节点n，集合A_n中不包含节点m，assoc(A_m)和assoc(A_n)分别集合A_m、A_n中各节点之间的最小距离之和；

按照各节点之间的距离因数Mcut(m,n)由大到小的排序，根据预设的条件将各所述距离因数所对应的边进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

5.一种用户行为的聚类系统，其特征在于，至少包括：

提取模块，用于计算所获取的多个用于表示用户行为的多维数据点之间的距离，并提取所计算的距离在预设的距离范围内的各数据点；

最小生成树生成模块，用于建立由所提取的各数据点为节点、数据点之间的距离为边的最小生成树；

聚类确定模块，用于按照所述最小生成树中的边由大到小的排序，并根据预设的条件将各所述边由大到小进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。

6.根据权利要求5所述的用户行为的聚类系统，其特征在于，所述最小生成树生成模块包括：

超球体划分单元，用于依次将所提取的每个数据点至所提取的其他数据点之间的距离在预设的距离范围内的各数据点划分为一个超球体，其中，各所述超球体之间存在部分重叠的数据点；

最小生成树生成单元，用于建立各所述超球体中的数据点的最小生成子树，将各所述最小生成子树连接起来，以构成最小生成树。

7.根据权利要求5所述的用户行为的聚类系统，其特征在于，所述最小生成树生成模块还包括：删减模块，用于至少一次的将所述最小生成树中只有一条边的数据点予以删减。

8.根据权利要求5或7所述的用户行为的聚类系统，其特征在于，所述聚类确定模块包括：

距离因数计算单元，用于利用公式

Mcut (m, n) = \frac{cut (m, n)}{assoc (A_{m})} + \frac{cut (m, n)}{assoc (A_{n})}

聚类确定单元，用于按照各节点之间的距离因数Mcut(m,n)由大到小的排序，根据预设的条件将各所述距离因数所对应的边进行分割，将分割后的由边相连的各所述节点组成一种用户行为的聚类。