CN101957850A

CN101957850A - 动态数据聚类算法

Info

Publication number: CN101957850A
Application number: CN2010102905715A
Authority: CN
Inventors: 张仲非; 金永波; 杨名; 祁仲昂; 王跃
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-09-25
Filing date: 2010-09-25
Publication date: 2011-01-26

Abstract

动态数据聚类算法，属于信息数据处理的技术领域。包括如下步骤：选择一个关系网络，对关系网络内的动态关系数据进行预处理；对一定连续时间关系网络内的动态关系数据，以相同的时间间隔采集离散数据，表示为无向图的网络形式，然后将无向图以关系矩阵的形式表示；对矩阵进行分解，建立基于矩阵分解的全局代价函数，采用循环迭代加载更新代价函数修正聚类结果。本发明提出将聚类算法应用于动态关系数据，考虑关系数据时序上的关联性，利用历史数据信息来修正现时数据的分析结果，根据结点在不同时刻聚类结果的变化，跟踪数据个体的聚类结果。在不同的网络数据中，揭示结点不同的行为特性，对测试结点未来发展趋势可根据历史数据信息作有效估计。

Description

动态数据聚类算法

技术领域

本发明属于信息数据处理的技术领域，具体涉及一种对动态关系数据进行聚类的动态数据聚类算法。

背景技术

随着信息时代的到来，数据已经实现了爆炸性的增长。得益于信息技术和数据库技术的迅猛发展，同时海量数据中也充满了各种关系信息，比如Internet、社会关系网、通信网以及市场客户间购买模式等等。我们如何应用现有的技术和工具来有效地管理、检索和分析这些关系数据是一个令人关注的问题。

关系数据聚类作为数据挖掘中一种数据分析技术，同时也是一种重要的人类行为。早在我们的儿童时代，我们就通过不断改进意识中的聚类模式来学会如何区分现实中的关系事物。目前，关系数据聚类分析已经广泛应用到各种领域，包括模式识别、图像处理、统计分析，以及市场研究。通过聚类，我们能够识别密集和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的有趣的相互关系。在医学上，聚类可以根据病人的症状及指标对病人进行分类。在商务上，聚类能够帮助市场分析人员依据客户特有的购买模式和客户间的关系信息对客户数据库中客户群进行有效地划分。在生物上，聚类通过蛋白质分子结构或者基因片段的分析，来寻找相似结构的单元。同时随着互联网的普及，我们习惯于在互联网上搜索信息和与人交流。聚类分析也可以用于互联网数据的分析，用户在网站上的行为反映了他们的兴趣和需求，如果对用户的行为加以分析，就有可能发现一些潜在的规律。了解用户的访问模式和兴趣爱好，对用户进行一定的群分，有助于优化网站的组织结构和空间设计。

同时，现实中很多的海量关系数据其实是动态的关系数据。数据中的内在关系会随着时间的变化而变化。当前关系数据的结构信息又往往受影响于历史数据的结构信息。因此，在聚类分析动态关系数据时，仅仅使用静态的算法来分析当前时刻的数据会丢失数据的时变性。在未考虑历史信息的前提下，当前时刻数据的聚类结果并不能准确地反映动态数据的变化规律，自然也没法准确挖掘数据中隐含的模式和知识。只有应用动态算法来处理动态关系数据才能准确挖掘数据的模式和知识，同时也能预测数据未来时刻的发展趋势。因此，动态关系数据的聚类分析已经成为当前数据挖掘领域一个非常活跃的研究方向。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种动态数据聚类算法的技术方案，对动态关系数据进行聚类分析，并根据分析结果揭示数据个体未来时刻的发展趋势。

所述的动态数据聚类算法，其特征在于包括如下步骤：

1)选择一个关系网络，对关系网络内的n个动态关系数据进行预处理，用带权值的无向图表征，边的权重代表网络中结点间相似程度，权重越大，相似性越大；

2)对一定连续时间内变化的动态关系网络数据，以相同的时间间隔采集T个时间点的离散数据来拟合连续时间数据，每个时间点数据表示为无向图的网络形式，然后将无向图以关系矩阵的形式表示；

3)对步骤2)中得到的关系矩阵进行分解，建立一种基于矩阵分解的全局代价函数，采用循环迭代加载更新代价函数，求得最优解，修正聚类结果。

所述的动态数据聚类算法，其特征在于步骤2)中采集T个时间点的离散数据来拟合连续时间数据，将每个时间点数据表示为无向图的网络形式，边的权重代表网络中结点间的相似程度，权重越大，相似性越大，然后将无向图以关系矩阵的形式来表示，得到一系列的关系矩阵序列A₁，...，A_t，...A_T，A_t代表t时刻的n×n关系矩阵，n是结点数目。

所述的动态数据聚类算法，其特征在于步骤3)中所述的全局代价函数包括现时数据代价函数和历史数据与现时关联信息产生的代价函数。所述的动态数据聚类算法，其特征在于对某一t时刻的数据A_t利用矩阵分解的方法得到聚类矩阵：

其中C₁，...，C_t表示在相应时刻聚类后得到的类矩阵，C_t∈{0，1}^n×k，∑_jC_i，j＝1，k是总共的类数，C_i，j＝1表示结点i经过聚类后成为第j类的元素，每个结点在每个时间点只能被隶属于一个类，即∑_jC_i，j＝1，B₁，...，B_t表示对应时刻的类间关系矩阵，B_i，j表示i类与j类的权重关系，分解的结果使原有数据不失真，即

所述的动态数据聚类算法，其特征在于所述的全局代价函数的建立方法如下：全局代价函数包含两部分，一部分为现时数据的聚类的代价函数，表示为Cost_snapshot，另一部分为历史数据与现时关联信息产生的代价函数，表示为Cost_history；

首先，考虑现时数据的聚类，Cost_snapshot用来衡量每一时刻数据的聚类结果：

F_{1} : {Cost}_{snapshot} = \min Σ_{t = 1}^{T} {| | A_{t} - A_{t}^{*} | |}^{2} = \min Σ_{t = 1}^{T} {| | A_{t} - C_{t} B_{t} {(C_{t})}^{T} | |}^{2}

F₁式得到的C₁，...，C_T和B₁，...，B_T要满足

这样对原始数据进行分解后，可以利用分解结果恢复原始数据，保证了原始数据完整性；

然后，考虑历史数据与现时关联信息产生的代价，定义下式：

F_{2} : {Cost}_{history} = \min Σ_{t = 2}^{T} {| | C_{t} {C_{t}}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

最后，建立全局代价函数：

F_{3} : {Cost}_{global} = \min Σ_{t = 1}^{T} {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} - α \times Σ_{t = 2}^{T} {| | C_{t} C_{t}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

其中α为F₁和F₂之间权重，α越大，说明越多的权重用于匹配聚类结果的历史信息。

所述的动态数据聚类算法，其特征在于对全局代价函数的聚类结果进行迭代修正的方法如下：

利用矩阵迹的运算来化简F₃，先节选一个时间点的全局代价函数：

F_{4} : {Cost}_{global}^{t} = \min {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} - α {| | C_{t} C_{t}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

考虑

L = {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} = tr ({(A_{t} - C_{t} B_{t} C_{t}^{T})}^{T} (A_{t} - C_{t} B_{t} C_{t}^{T}))

利用求导得到优化等式：

F_{5} : B_{t} = C_{t}^{T} A_{t} C_{t}

采用循环迭代加载更新B_t和C_t求得局部最优解，设置外部循环t＝1:T，在每次循环中，固定C_t，因为A_t已知，根据F₅式来更新加载B_t，重复迭代修正，直到前后两次迭代得到的全局代价函数差值|F₃|＜ε，其中ε∈(0，1)是一个预先设定的阈值。

所述的动态数据聚类算法，其特征在于采用循环迭代加载更新B_t和C_t的方法如下：

1)首先对矩阵B的数据进行初始化，根据初始化的B矩阵序列，对C矩阵序列中每个C_t逐行优化，并判断是否遍历C_t矩阵的所有行，若每行都已经进行过优化，则执行下一步，若没有则继续执行本步骤；

2)对C矩阵序列内T个时间点的矩阵数据进行优化，并判断是否遍历整个C矩阵序列，若每个时间点矩阵数据C_t都已经进行过优化，则执行下一步，若没有则继续执行本步骤，得到一系列优化过的C矩阵序列；

3)对步骤2)中的C矩阵序列，利用

来修正得到B矩阵序列，利用更新后B矩阵序列重新循环执行步骤1)、2)，让算法不断修正B和C矩阵序列，最终达到收敛条件后，即直到前后两次迭代得到的全局代价函数差值|F₃|＜ε，其中ε∈(0，1)是一个预先设定的阈值，算法终止，输出B和C矩阵序列。

本发明对动态关系数据进行聚类分析，并根据分析结果揭示数据个体未来时刻的发展趋势。创新性提出将聚类算法扩展应用于动态关系数据，考虑关系数据时序上的关联性，利用历史数据信息来修正现时数据的分析结果，在分析过程中，根据结点在不同时刻聚类结果的变化，可以跟踪数据个体的聚类结果。在不同的现实网络数据中，揭示结点不同的行为特性，对于测试结点未来发展趋势可以根据历史数据信息作有效地估计。

附图说明

图1为本发明实施例基于矩阵分解的聚类结果示意图；

图2为本发明采用循环迭代加载修正算法的流程图。

具体实施方式

以下结合附图对本发明做进一步的说明。

选择一个关系网络，对关系网络内的n个动态关系数据进行预处理，用带权值的无向图表征，边的权重代表网络中结点间相似程度，权重越大，相似性越大。对一定连续时间关系网络内的n个动态关系数据，以相同的时间间隔采集T个时间点的离散数据来拟合连续时间数据，将每个时间点数据表示为无向图的网络形式，边的权重代表网络中结点间的相似程度，权重越大，相似性越大，然后将无向图以关系矩阵的形式表示，得到一系列的关系矩阵序列A₁，...，A_t，...A_T，A_t代表t时刻的n×n关系矩阵，n是结点数目，矩阵中元素表示t时刻网络结点之间的连接权重，权重越大，表明两个结点之间相关性更强。数据的动态特性在于相邻时间点，某些节点或者某些边的权重会发生变化，利用对每个时刻都得到一个矩阵分解的结果来表示数据间的关联特性。

对某一t时刻的矩阵A_t，利用矩阵分解的方法得到聚类矩阵：

对矩阵进行分解后，建立一种基于矩阵分解的全局代价函数，采用循环迭代加载更新代价函数，求得最优解，修正聚类结果。全局代价函数可以分解为两个局部代价函数来表示，一部分为现时数据的聚类的代价函数，表示为Cost_anapshot，另一部分为历史数据与现时关联信息产生的代价函数，表示为Cost_history。

F_{1} : {Cost}_{snapshot} = \min Σ_{t = 1}^{T} {| | A_{t} - A_{t}^{*} | |}^{2} = \min Σ_{t = 1}^{T} {| | A_{t} - C_{t} B_{t} {(C_{t})}^{T} | |}^{2}

F₁式得到的C₁，...，C_T和B₁，...，B_T要满足这样对原始数据进行分解后，可以利用分解结果恢复原始数据，保证了原始数据完整性。

考虑到上述F₁式仅仅是独立的对于每个时间段进行聚类分析。所以，算法的关键就在于如何引入相邻时间段之间的关联信息，即Cost_history。在分析T时刻关系数据时，要将T时刻之前数据对T时刻数据的影响考虑进去，将这些关联信息作为历史信息，引入到全局代价函数中。建立F₂式来衡量这种历史关联信息：

F_{2} : {Cost}_{history} = \min Σ_{t = 2}^{T} {| | C_{t} {C_{t}}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

最后，建立全局代价函数：

F_{3} : {Cost}_{global} = \min Σ_{t = 1}^{T} {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} - α \times Σ_{t = 2}^{T} {| | C_{t} C_{t}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

然后，考虑如何寻找F₃式的最优解。利用矩阵迹的运算来化简F₃，先节选一个时间点的全局代价函数：

F_{4} : {Cost}_{global}^{t} = \min {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} - α {| | C_{t} C_{t}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

先考虑

L = {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} = tr ({(A_{t} - C_{t} B_{t} C_{t}^{T})}^{T} (A_{t} - C_{t} B_{t} C_{t}^{T}))

利用求导

得到优化等式：

F_{5} : B_{t} = C_{t}^{T} A_{t} C_{t}

采用循环迭代加载更新B_t和C_t来求得局部最优解。设置外部循环t＝1:T，在每次循环中，可以固定C_t，因为A_t是已知的，根据F₅式来更新加载B_t。在每次循环中具体的加载步骤如下：首先初始化B_t，根据F₃式得到，在第t次循环中，与C_t相关联的是B_t和C_t-1，而C_t中每一行元素只有一个为1，因此在更新加载C_t时，采用逐行更新加载C_t，即对于j＝1，...，k，若

则满足

如此迭代得到了一个C_t。然后外部循环T次得到一个序列C₁，...，C_T。再以此得到相关的代价函数值和B矩阵序列，利用更新过的B矩阵序列重复上述循环迭代过程，直到迭代结束的条件在于前后两次迭代得到的代价函数差值|F₃|＜ε，其中ε∈(0，1)是一个预先设定的极小数。

具体采用循环迭代加载更新B_t和C_t的方法如下：

1)首先对B矩阵序列进行初始化，根据初始化的B矩阵序列，对C矩阵序列中每一个C_t逐行优化，并判断是否遍历C_t矩阵的所有行，若每行都已经进行过优化，则执行下一步，若没有则继续执行本步骤；

2)对C矩阵序列内T个时间点的矩阵数据进行优化，并判断是否遍历C矩阵序列的所有元素，若每个元素都已经进行过优化，则执行下一步，若没有则继续执行本步骤，得到一系列优化过的C矩阵序列；

3)对步骤2)中的C矩阵序列，利用来修正得到B矩阵序列，利用更新过的B矩阵序列重新循环执行步骤1)、2)，让算法不断修正B和C矩阵序列，最终达到收敛条件后，即直到前后两次迭代得到的全局代价函数差值|F₃|＜ε，其中ε∈(0，1)是一个预先设定的阈值，算法终止，输出B和C矩阵序列。

图1所示为采用本方法基于矩阵分解的聚类结果示意图。图中A图是对关系数据的无向图进行聚类的表示，数据间相似程度最高的就归为同一类，在A图中有3类，每类中数据的相似程度相比其他类的数据是最高的。在算法中用C矩阵来表示。C中某一元素C_i，j∈{0，1}表示节点i是否属于第j类，若为1，表示属于，否则不属于。在图1的B图对应A图的聚类结果。本算法得到的B矩阵表示的是类与类之间的关系，若B_i，j为1，则说明第i和第j类有关联，否则无关联。在B图中，由于节点1，2，3，4相互之间两两关联，所以它们所属的类是自关联，用粗黑线表示。同时节点9，10，11所属的类与节点1，2，3，4所属的类也是有关联的，用粗黑线表示。

图2所示为本算法整体流程图，该算法主要分三步。

第一步：根据已知的关系数据表示形式A矩阵序列，初始化B矩阵序列，利用下式：

F_{6} : \min Σ_{t = 0}^{t} {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} - α \times {| | C_{t} {C_{t}}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2} .

已经知道C_t中每一行元素

只有一个为1，所以对于C_t的每一行元素，寻找一个满足F₆式在第j^*行取得极值。如此遍历C_t的所有行，就可以得到完整C_t矩阵，每一个关系网络结点都将分配到某一个类中。

第二步：由于关系数据是包含T个时间点的离散动态数据，所以每个t时刻都应该有聚类结果，因此对第一步优化操作循环执行T次，得到一个C矩阵序列C₁，...，C_t，...，C_T。

第三步：对于第二步得到的C矩阵序列C₁，...，C_t，...，C_T，再根据

来求得B矩阵序列B₁，...，B_t，...，B_T。这样就更新加载了B矩阵序列。在新的B矩阵序列下，重新执行前两部循环迭代操作不断交替更新B，C矩阵序列，如此迭代更新，直到前后两次迭代所得的代价函数差值|F₃|＜ε，其中ε∈(0，1)是一个预先设定的阈值。

该算法相比独立分析各时间点的聚类算法，综合了现时时刻的信息和历史影响信息，可以准确聚类时间序列形式的动态关系数据。

Claims

1.动态数据聚类算法，其特征在于包括如下步骤：

2.如权利要求1所述的动态数据聚类算法，其特征在于步骤2)中采集T个时间点的离散数据来拟合连续时间数据，将每个时间点数据表示为无向图的网络形式，边的权重代表网络中结点间的相似程度，权重越大，相似性越大，然后将无向图以关系矩阵的形式来表示，得到一系列的关系矩阵序列A₁，...，A_t，...A_T，A_t代表t时刻的n×n关系矩阵，n是结点数目。

3.如权利要求1所述的动态数据聚类算法，其特征在于步骤3)中所述的全局代价函数包括现时数据代价函数和历史数据与现时关联信息产生的代价函数。

4.如权利要求2所述的动态数据聚类算法，其特征在于对某一t时刻的数据A_t利用矩阵分解的方法得到聚类矩阵：

5.如权利要求3或4所述的动态数据聚类算法，其特征在于所述的全局代价函数的建立方法如下：全局代价函数包含两部分，一部分为现时数据的聚类的代价函数，表示为Cost_snapshot，另一部分为历史数据与现时关联信息产生的代价函数，表示为Cost_history；

F_{1} : {Cost}_{snapshot} = \min Σ_{t = 1}^{T} {| | A_{t} - A_{t}^{*} | |}^{2} = \min Σ_{t = 1}^{T} {| | A_{t} - C_{t} B_{t} {(C_{t})}^{T} | |}^{2}

F₁式得到的C₁，...，C_T和B₁，...，B_T要满足这样对原始数据进行分解后，可以利用分解结果恢复原始数据，保证了原始数据完整性；

F_{2} : {Cost}_{history} = \min Σ_{t = 2}^{T} {| | C_{t} {C_{t}}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

最后，建立全局代价函数：

F_{3} : {Cost}_{global} = \min Σ_{t = 1}^{T} {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} - α \times Σ_{t = 2}^{T} {| | C_{t} C_{t}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

6.如权利要求5所述的动态数据聚类算法，其特征在于对全局代价函数的聚类结果进行迭代修正的方法如下：

F_{4} : {Cost}_{global}^{t} = \min {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} - α {| | C_{t} C_{t}^{T} - C_{t - 1} C_{t - 1}^{T} | |}^{2}

考虑

L = {| | A_{t} - C_{t} B_{t} C_{t}^{T} | |}^{2} = tr ({(A_{t} - C_{t} B_{t} C_{t}^{T})}^{T} (A_{t} - C_{t} B_{t} C_{t}^{T}))

利用求导

得到优化等式：

F_{5} : B_{t} = C_{t}^{T} A_{t} C_{t}

7.如权利要求6所述的动态数据聚类算法，其特征在于采用循环迭代加载更新B_t和C_t的方法如下：

3)对步骤2)中的C矩阵序列，利用来修正得到B矩阵序列，利用更新后B矩阵序列重新循环执行步骤1)、2)，让算法不断修正B和C矩阵序列，最终达到收敛条件后，即直到前后两次迭代得到的全局代价函数差值|F₃|＜ε，其中ε∈(0，1)是一个预先设定的阈值，算法终止，输出B和C矩阵序列。