CN110175651A

CN110175651A - 一种数据自适应平衡分组方法

Info

Publication number: CN110175651A
Application number: CN201910452021.XA
Authority: CN
Inventors: 林煜明; 唐海波; 李优; 周娅; 张敬伟; 张会兵
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-27

Abstract

本发明公开一种数据自适应平衡分组方法，将数据块边界点信息加入到传统聚类中，并将该聚类算法运用于分布式环境中结点数据分组中，利用数据块边界点信息约束数据块大小，使不同数据块之间满足较高的平衡性，解决了现有基于聚类的数据分组方法效率较低的问题，同时还提高了数据分组的准确率，具有很高的实用价值。

Description

一种数据自适应平衡分组方法

技术领域

本发明涉及Web数据分组技术领域，具体涉及一种数据自适应平衡分组方法。

背景技术

在Web技术的不断发展的背景下，互联网上的数据已经进入了爆炸式增长阶段，丰富数据具有较高的应用价值，如何将Web上的海量数据进行高效管理是学术界与工业界关注的热点问题，也面临着数据分组、数据查询优化等多方面挑战。数据分组(Datagrouping)是根据统计研究的需要，将原始数据按照某种标准划分成不同的组别，分组后的数据称为分组数据。当前，传统的集中式数据管理方案难以有效地管理大规模数据。

发明内容

本发明所要解决的是传统集中式数据管理方案难以有效地管理大规模数据的问题，提供一种数据自适应平衡分组方法，保证了同一数据块内的数据具有较高相似性的同时，不同数据块包含的数据点数目也满足平衡性约束。

为解决上述问题，本发明是通过以下技术方案实现的：

参见图1，一种数据自适应平衡分组方法，具体包括步骤如下：

步骤1、获取原始数据集D，并根据给定的目标数据块数目K，从获取数据集D中随机选取K个数据点作为初始的中心点，形成中心数据集P；

步骤2、计算中心数据集P中所有中心点与原始数据集D中所有数据点的距离，得到中心点与数据点的距离矩阵Tg；

步骤3、构建数据块集C＝{c_k}，其中c_k表示数据块，初始时令c_k＝r_k，r_k∈P；构建数据块半径集Eb＝{bdist_k}，其中bdist_k表示数据块c_k的中心点与距离中心点最远的数据点即边界点的距离，初始时令bdist_k＝0；

步骤4、对于原始数据集D中的每个数据点，分别利用当前距离矩阵Tg和当前中心数据集P执行第一快速平衡聚类过程后，得到更新后的数据块集C和数据块半径集Eb；

步骤5、计算当前数据块集C中各个数据块的损失值value1；

步骤6、基于当前数据块集C，利用K-Means算法中的质心公式去计算各个数据块的中心点，并据此更新中心数据集P；

步骤7、对于原始数据集D中的每个数据点，分别利用当前中心数据集P执行聚类过滤筛选过程，得到每个数据点所对应的筛选中心数据集PG_s；

步骤8、对于原始数据集D中的每个数据点，分别计算筛选中心数据集PG_s中所有筛选中心点与原始数据集D中所有数据点的距离，得到每个数据点所对应的筛选中心点与数据点的筛选距离矩阵NG_s；

步骤9、对于原始数据集D中的每个数据点，分别利用该数据点所对应的筛选中心数据集PG_s和筛选距离矩阵NG_s执行第二快速平衡聚类过程后，得到更新后的数据块集C和数据块半径集Eb；

步骤10、计算当前数据块集C中各个数据块的损失值value2；

步骤11、判断|value1-value2|≤δ，其中δ为设定值：若是，则输出当前数据块集C；否则，转至步骤步骤6；

上述，k＝1,2,…，K，K为给定的目标数据块数目；s＝1,1,…,S，S为原始数据点的数目；K≤S。

上述步骤7中，对于原始数据集D中的每个数据点，执行聚类过滤筛选过程具体如下：

步骤71、利用K-Means对当前中心数据集P中的中心点进行聚类，产生分组后的中心点分组集；

步骤72、对中心点分组集中的各个分组，分别找出该分组中所有中心点的中心点，并作为该分组的组中心点；

步骤73、分别计算当前中心数据集P的各个中心点与上一次中心数据集P中对应序号中心点之间的距离，并作为该中心点的偏移量；

步骤74、对中心点分组集中的各个分组分别进行筛选，即判断lb(v,g_n)-maxδ(r_q)≥ub(v)+δ(r_p(v))是否成立：如果成立，则将保留该分组，并转至步骤75；如果不成立，则删除该分组；

步骤75、对每个保留分组中的各个中心点分别进行筛选，即判断dist(v,r_u)＜lb(v,g_n)-δ(r_w)是否成立：如果成立，则将该中心点加入到当前数据点所对应的筛选中心数据集PG_s中；如果不成立，则删除该中心点；

上述判断条件中：lb(v,g_n)表示当前数据点与待筛选分组中距离其最近的组中心点之间的距离；maxδ(r_q)表示待筛选分组中，所有中心点的最大偏移量；ub(v)表示当前数据点与上一次中心数据集P中距离其最近的中心点之间的距离；δ(r_(v))表示上一次中心数据集P中距离当前数据点最近的中心点的最大偏移量；dist(v,r_u)表示当前数据点到当前中心数据集P中所有异于待筛选中心点的中心点的最小距离；δ(r_w)表示待筛选中心点的偏移量。

上述步骤4中，第一快速平衡聚类具体如下：

步骤41、利用距离矩阵Tg，找出与当前数据点距离最近的中心点r_m，以及该距离最近的中心点r_m所在的数据块c_m；

步骤42、判断数据块c_m的长度是否小于等于该数据块给定的长度阈值x_m：如果是，则将当前数据点加入到数据块c_m中，同时更新数据块c_m的中心点与边界点的距离bdist_m；否则，执行步骤43；

步骤43、利用距离矩阵Tg，判断当前数据点与中心点r_m的距离是否小于数据块c_m的中心点与边界点的距离bdist_m：如果是，则将数据块c_m的边界点从数据块c_m中删除，并将当前数据点加入到数据块c_m中；否则，执行步骤44；

步骤44、当前数据点处理完成，继续处理原始数据集D的下一个数据点，直到原始数据集D中的所有数据点；

上述r_m∈P，P为当前中心数据集；c_m∈C，C为当前数据块集；bdist_m∈Eb，Eb为数据块半径集。

上述步骤9中，第二快速平衡聚类具体如下：

步骤91、利用当前数据点的筛选距离矩阵NG_s，找出与当前数据点距离最近的中心点r_m，以及该距离最近的中心点r_m所在的数据块c_m；

步骤92、判断数据块c_m的长度是否小于等于该数据块给定的长度阈值x_m：如果是，则将当前数据点加入到数据块c_m中，同时更新数据块c_m的中心点与边界点的距离bdist_m；否则，执行步骤93；

步骤93、利用当前数据点的筛选距离矩阵NG_s，判断当前数据点与中心点r_m的距离是否小于数据块c_m的中心点与边界点的距离bdist_m：如果是，则将数据块c_m的边界点从数据块c_m中删除，并将当前数据点加入到数据块c_m中；否则，执行步骤94；

步骤94、当前数据点处理完成，继续处理原始数据集D的下一个数据点，直到原始数据集D中的所有数据点；

上述r_m∈NG，NG为当前筛选中心数据集；c_m∈C，C为当前数据块集；bdist_m∈Eb，Eb为数据块半径集；s＝1,1,…,S，S为原始数据点的数目。

上述各步骤中，所述距离均为欧氏距离。

上述步骤5和10中，数据块的损失值等于该数据块中所有数据点到该数据块中心点的欧氏距离和。

上述步骤6中，质心公式为：

其中，r_m为数据块的质心，d_s为原始数据集D中的数据点，c_m为数据块，|c_m|表示数据块的长度。

与现有技术相比，本发明提出的FBC-EFBC算法，将数据块边界点信息加入到传统聚类中，并将该聚类算法运用于分布式环境中结点数据分组中，利用数据块边界点信息约束数据块大小，使不同数据块之间满足较高的平衡性，解决了现有基于聚类的数据分组方法效率较低的问题，同时还提高了数据分组的准确率，具有很高的实用价值。

附图说明

图1为一种数据自适应平衡分组方法的流程图。

图2为图1中FBC(Fast Balance Clustering，快速平衡聚类)的流程图。

图3为图1中EFBC(Efficient Fast Balance Clustering，高效快速平衡聚类)的流程图。

图4是不同方法对数据集进行分组的平均准确度排名折线图。

图5是不同方法对数据集进行分组的平均耗时排名折线图。

图6是不同方法对数据集进行分组的平均平衡度排名折线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

步骤101：获取数据集D＝{d₁，d₂，…，d_S}，s＝1,2,…，S，S为原始数据集中数据点的数目。根据设定目标数据块数目K，从数据集D中随机选取K个数据点构建数据集P＝{r₁，r₂，…，r_K}，k＝1,2,…，K，K为给定的目标数据块数目。计算数据集D中每个数据点与数据集P中所有数据点即中心点的距离，得到数据点d_s与中心点r_k的距离Tg_sk，并得到距离矩阵Tg。

步骤102：使用K-Means(K均值聚类)算法进行迭代，以将数据集P＝{r₁,r₂,…,r_K}聚成T个组G＝{g₁,g₂,...,g_T}；t＝1,2,…，T，T为给定的聚类组数。

步骤103：初始化：构建数据块集C、数据块半径集Eb和循环变量i。

构建数据块集C＝{c₁，c₂，...，c_K}，初始时，将数据集P中所有中心点直接作为数据块集中初始的初始数据块，即令c_k＝r_k，r_k∈P。

构建数据块半径集Eb＝{bdist₁，bdist₂，…，bdist_K}，初始时，由于每个数据块c_k只具有一个中心点r_k，因此该数据块c_k中距离中心点r_k最远的点bpoint_k与中心点r_k的距离为0，即令bdist_k＝0。

设置循环变量i，i赋初始值1。

步骤104：若i≤S，执行FBC步骤；否则，执行步骤107；

步骤105：若done＝1，执行步骤106，否则执行FBC步骤；

步骤106：i＝i+1，执行步骤107；

步骤107：计算损失值；

步骤108：针对D中所有数据点d，设置ub(d)＝dist(d,r_p(d))，lb(d,g_j)＝min dist(d,f)，其中，p(d)表示在上一次迭代中与数据点d距离最近的中心点索引，δ(r_p(d))表示上一次中心数据集P中距离当前数据点最近的中心点的最大偏移量，利用K-Means质心公式更新P中所有中心点；

步骤109：初始化中间集合将P复制给NP，G复制给PG；

步骤110：i赋值为1；

步骤111：若i≤S，执行EFBC步骤，否则执行步骤114；

步骤112：i＝i+1；

步骤113：若done＝1，执行步骤112；否则，执行EFBC步骤；

步骤114：计算损失值；

步骤115：若算法收敛，执行步骤117；否则执行步骤116；

步骤116：对D中所有数据点d设置ub(d)＝dist(d,r_p(d))，lb(d,g_j)＝min dist(d,f)，使用K-Means质心公式更新P中所有中心点，使用K-Means迭代5次对P重新分组，重新计算此时的矩阵Tg和Eb，C；

步骤117：算法结束，得到划分好的K个数据块C＝{c₁,c₂,...,c_K}。

参见图2，上述步骤104和105中的FBC(Fast Balance Clustering，快速平衡聚类)的具体过程如下：

步骤201：引入待分配点v(其中v∈D)，Tg，Eb，P，C，初始化成功标记

步骤202：从Tg中获取与v距离最小的中心点r_m，其所在的数据块为c_m；

步骤203：如果c_m长度小于等于x_m，执行步骤204，否则执行步骤206；

步骤204：将v加入到数据块c_m中，更新数据块半径集Eb；

步骤205：设置done＝1，返回done；

步骤206：如果v与r_m距离<bdist_m，执行步骤207，否则执行步骤209；

步骤207：将边界点bpoint_m从数据块c_m中踢除，将v加入到数据块c_m中；

步骤208：设置done＝bpoint_m，返回done；

步骤209：从矩阵Tg中删除v与r_m之间的距离信息；

步骤210：返回done；

参见图3，上述步骤111和113中的EFBC(Efficient Fast Balance Clustering，高效快速平衡聚类)的具体过程如下：

步骤301：引入待分配点v(其中v∈D)，Tg，Eb，t，P，C，初始化成功标记

步骤302：设置循环变量n，赋初值为1；

步骤303：若n≤t，执行步骤304；否则执行步骤313；

步骤304：若lb(v,g_n)-maxδ(r_q)≥ub(v)+δ(r_p(v)),r_q∈g_n，执行步骤311，否则执行步骤305；

步骤305：设置循环变量w，w赋初值为1；

步骤306：若w≤K，执行步骤307；否则执行步骤310；

步骤307：若r_w∈g_n，执行步骤308；否则执行步骤309；

步骤308：若dist(v,r_u)＜lb(v,g_n)-δ(r_w),r_w∈g_n,r_u≠r_w，将r_w从PG_n中删除；否则，执行步骤312；

步骤309：将r_w从PG_n中删除；

步骤310：计算v与PG_n中所有中心点之间的距离，存入集合NG；

步骤311：n＝n+1；

步骤312：w＝w+1；

步骤313：从NG中选择与v距离最近的中心点，记为r_m；

步骤314：若数据块c_m长度小于x_m，执行步骤315；否则执行步骤316；

步骤315：将v添加到数据块c_m中；

步骤316：设置done＝1，返回done；

步骤317：若v与r_m距离<bdist_m，执行步骤318，否则，执行步骤320；

步骤318：将边界点bp_m从数据块c_m中踢除，将v加入到数据块c_m中；

步骤319：设置done＝bp_m，返回done；

步骤320：清空NG，将r_m从NP中删除；

步骤321：返回done。

在本发明中，步骤102，步骤108，步骤202，步骤206，步骤209，步骤311，步骤313，步骤317和步骤320中所述的距离可以为欧式距离、切比雪夫距离、欧式距离或其他距离度量方式距离。在本发明优选实施例中，所述距离为欧式距离。

下面利用7个公开数据集(Wine，Lonosphere，Iris，Cryotherapy，User Model，Vechicle，UMIST)来测试本发明方法(FBC-EFBC算法)相对于现有方法(KM算法、FCM算法、BKM算法、BCLS算法)的性能。图4是不同方法对上述7个公开数据集进行分组的平均准确度排名折线图，实验结果表明，与其他基于聚类的数据分组方法相比，本发明方法的数据分组平均准确度排名最好。图5是不同方法对上述7个公开数据集进行分组的平均耗时排名折线图，实验结果表明，本发明方法数据分组平均耗时排名最好。图6是不同方法对上述7个公开数据集进行分组的平均平衡度排名折线图，实验结果表明，本发明方法数据分组结果的平均平衡度排名也达到了当前最好方法的水平。由此可见，本发明利用数据块边界点信息进行快速数据分组方法，并将该数据分组方法应用于公开数据集上的数据分组，解决了现有基于聚类的数据分组算法效率不高的问题，保证数据块具有较高的平衡性的同时还提高了数据分组的准确度，具有很高的实用价值。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种数据自适应平衡分组方法，其特征是，具体包括步骤如下：

步骤5、计算当前数据块集C中各个数据块的损失值value1；

步骤10、计算当前数据块集C中各个数据块的损失值value2；

2.根据权利要求1所述的一种数据自适应平衡分组方法，其特征是，步骤7中，对于原始数据集D中的每个数据点，执行聚类过滤筛选过程具体如下：

3.根据权利要求1所述的一种数据自适应平衡分组方法，其特征是，步骤4中，第一快速平衡聚类具体如下：

4.根据权利要求1所述的一种数据自适应平衡分组方法，其特征是，步骤9中，第二快速平衡聚类具体如下：

5.根据权利要求1所述的一种数据自适应平衡分组方法，其特征是，所述距离均为欧氏距离。

6.根据权利要求1所述的一种数据自适应平衡分组方法，其特征是，步骤5和10中，数据块的损失值等于该数据块中所有数据点到该数据块中心点的欧氏距离和。

7.根据权利要求1所述的一种数据自适应平衡分组方法，其特征是，步骤6中，质心公式为：