CN110175651A - 一种数据自适应平衡分组方法 - Google Patents

一种数据自适应平衡分组方法 Download PDF

Info

Publication number
CN110175651A
CN110175651A CN201910452021.XA CN201910452021A CN110175651A CN 110175651 A CN110175651 A CN 110175651A CN 201910452021 A CN201910452021 A CN 201910452021A CN 110175651 A CN110175651 A CN 110175651A
Authority
CN
China
Prior art keywords
data
point
data block
current
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910452021.XA
Other languages
English (en)
Inventor
林煜明
唐海波
李优
周娅
张敬伟
张会兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910452021.XA priority Critical patent/CN110175651A/zh
Publication of CN110175651A publication Critical patent/CN110175651A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种数据自适应平衡分组方法,将数据块边界点信息加入到传统聚类中,并将该聚类算法运用于分布式环境中结点数据分组中,利用数据块边界点信息约束数据块大小,使不同数据块之间满足较高的平衡性,解决了现有基于聚类的数据分组方法效率较低的问题,同时还提高了数据分组的准确率,具有很高的实用价值。

Description

一种数据自适应平衡分组方法
技术领域
本发明涉及Web数据分组技术领域,具体涉及一种数据自适应平衡分组方法。
背景技术
在Web技术的不断发展的背景下,互联网上的数据已经进入了爆炸式增长阶段,丰富数据具有较高的应用价值,如何将Web上的海量数据进行高效管理是学术界与工业界关注的热点问题,也面临着数据分组、数据查询优化等多方面挑战。数据分组(Datagrouping)是根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,分组后的数据称为分组数据。当前,传统的集中式数据管理方案难以有效地管理大规模数据。
发明内容
本发明所要解决的是传统集中式数据管理方案难以有效地管理大规模数据的问题,提供一种数据自适应平衡分组方法,保证了同一数据块内的数据具有较高相似性的同时,不同数据块包含的数据点数目也满足平衡性约束。
为解决上述问题,本发明是通过以下技术方案实现的:
参见图1,一种数据自适应平衡分组方法,具体包括步骤如下:
步骤1、获取原始数据集D,并根据给定的目标数据块数目K,从获取数据集D中随机选取K个数据点作为初始的中心点,形成中心数据集P;
步骤2、计算中心数据集P中所有中心点与原始数据集D中所有数据点的距离,得到中心点与数据点的距离矩阵Tg;
步骤3、构建数据块集C={ck},其中ck表示数据块,初始时令ck=rk,rk∈P;构建数据块半径集Eb={bdistk},其中bdistk表示数据块ck的中心点与距离中心点最远的数据点即边界点的距离,初始时令bdistk=0;
步骤4、对于原始数据集D中的每个数据点,分别利用当前距离矩阵Tg和当前中心数据集P执行第一快速平衡聚类过程后,得到更新后的数据块集C和数据块半径集Eb;
步骤5、计算当前数据块集C中各个数据块的损失值value1;
步骤6、基于当前数据块集C,利用K-Means算法中的质心公式去计算各个数据块的中心点,并据此更新中心数据集P;
步骤7、对于原始数据集D中的每个数据点,分别利用当前中心数据集P执行聚类过滤筛选过程,得到每个数据点所对应的筛选中心数据集PGs
步骤8、对于原始数据集D中的每个数据点,分别计算筛选中心数据集PGs中所有筛选中心点与原始数据集D中所有数据点的距离,得到每个数据点所对应的筛选中心点与数据点的筛选距离矩阵NGs
步骤9、对于原始数据集D中的每个数据点,分别利用该数据点所对应的筛选中心数据集PGs和筛选距离矩阵NGs执行第二快速平衡聚类过程后,得到更新后的数据块集C和数据块半径集Eb;
步骤10、计算当前数据块集C中各个数据块的损失值value2;
步骤11、判断|value1-value2|≤δ,其中δ为设定值:若是,则输出当前数据块集C;否则,转至步骤步骤6;
上述,k=1,2,…,K,K为给定的目标数据块数目;s=1,1,…,S,S为原始数据点的数目;K≤S。
上述步骤7中,对于原始数据集D中的每个数据点,执行聚类过滤筛选过程具体如下:
步骤71、利用K-Means对当前中心数据集P中的中心点进行聚类,产生分组后的中心点分组集;
步骤72、对中心点分组集中的各个分组,分别找出该分组中所有中心点的中心点,并作为该分组的组中心点;
步骤73、分别计算当前中心数据集P的各个中心点与上一次中心数据集P中对应序号中心点之间的距离,并作为该中心点的偏移量;
步骤74、对中心点分组集中的各个分组分别进行筛选,即判断lb(v,gn)-maxδ(rq)≥ub(v)+δ(rp(v))是否成立:如果成立,则将保留该分组,并转至步骤75;如果不成立,则删除该分组;
步骤75、对每个保留分组中的各个中心点分别进行筛选,即判断dist(v,ru)<lb(v,gn)-δ(rw)是否成立:如果成立,则将该中心点加入到当前数据点所对应的筛选中心数据集PGs中;如果不成立,则删除该中心点;
上述判断条件中:lb(v,gn)表示当前数据点与待筛选分组中距离其最近的组中心点之间的距离;maxδ(rq)表示待筛选分组中,所有中心点的最大偏移量;ub(v)表示当前数据点与上一次中心数据集P中距离其最近的中心点之间的距离;δ(r(v))表示上一次中心数据集P中距离当前数据点最近的中心点的最大偏移量;dist(v,ru)表示当前数据点到当前中心数据集P中所有异于待筛选中心点的中心点的最小距离;δ(rw)表示待筛选中心点的偏移量。
上述步骤4中,第一快速平衡聚类具体如下:
步骤41、利用距离矩阵Tg,找出与当前数据点距离最近的中心点rm,以及该距离最近的中心点rm所在的数据块cm
步骤42、判断数据块cm的长度是否小于等于该数据块给定的长度阈值xm:如果是,则将当前数据点加入到数据块cm中,同时更新数据块cm的中心点与边界点的距离bdistm;否则,执行步骤43;
步骤43、利用距离矩阵Tg,判断当前数据点与中心点rm的距离是否小于数据块cm的中心点与边界点的距离bdistm:如果是,则将数据块cm的边界点从数据块cm中删除,并将当前数据点加入到数据块cm中;否则,执行步骤44;
步骤44、当前数据点处理完成,继续处理原始数据集D的下一个数据点,直到原始数据集D中的所有数据点;
上述rm∈P,P为当前中心数据集;cm∈C,C为当前数据块集;bdistm∈Eb,Eb为数据块半径集。
上述步骤9中,第二快速平衡聚类具体如下:
步骤91、利用当前数据点的筛选距离矩阵NGs,找出与当前数据点距离最近的中心点rm,以及该距离最近的中心点rm所在的数据块cm
步骤92、判断数据块cm的长度是否小于等于该数据块给定的长度阈值xm:如果是,则将当前数据点加入到数据块cm中,同时更新数据块cm的中心点与边界点的距离bdistm;否则,执行步骤93;
步骤93、利用当前数据点的筛选距离矩阵NGs,判断当前数据点与中心点rm的距离是否小于数据块cm的中心点与边界点的距离bdistm:如果是,则将数据块cm的边界点从数据块cm中删除,并将当前数据点加入到数据块cm中;否则,执行步骤94;
步骤94、当前数据点处理完成,继续处理原始数据集D的下一个数据点,直到原始数据集D中的所有数据点;
上述rm∈NG,NG为当前筛选中心数据集;cm∈C,C为当前数据块集;bdistm∈Eb,Eb为数据块半径集;s=1,1,…,S,S为原始数据点的数目。
上述各步骤中,所述距离均为欧氏距离。
上述步骤5和10中,数据块的损失值等于该数据块中所有数据点到该数据块中心点的欧氏距离和。
上述步骤6中,质心公式为:
其中,rm为数据块的质心,ds为原始数据集D中的数据点,cm为数据块,|cm|表示数据块的长度。
与现有技术相比,本发明提出的FBC-EFBC算法,将数据块边界点信息加入到传统聚类中,并将该聚类算法运用于分布式环境中结点数据分组中,利用数据块边界点信息约束数据块大小,使不同数据块之间满足较高的平衡性,解决了现有基于聚类的数据分组方法效率较低的问题,同时还提高了数据分组的准确率,具有很高的实用价值。
附图说明
图1为一种数据自适应平衡分组方法的流程图。
图2为图1中FBC(Fast Balance Clustering,快速平衡聚类)的流程图。
图3为图1中EFBC(Efficient Fast Balance Clustering,高效快速平衡聚类)的流程图。
图4是不同方法对数据集进行分组的平均准确度排名折线图。
图5是不同方法对数据集进行分组的平均耗时排名折线图。
图6是不同方法对数据集进行分组的平均平衡度排名折线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
参见图1,一种数据自适应平衡分组方法,具体包括步骤如下:
步骤101:获取数据集D={d1,d2,…,dS},s=1,2,…,S,S为原始数据集中数据点的数目。根据设定目标数据块数目K,从数据集D中随机选取K个数据点构建数据集P={r1,r2,…,rK},k=1,2,…,K,K为给定的目标数据块数目。计算数据集D中每个数据点与数据集P中所有数据点即中心点的距离,得到数据点ds与中心点rk的距离Tgsk,并得到距离矩阵Tg。
步骤102:使用K-Means(K均值聚类)算法进行迭代,以将数据集P={r1,r2,…,rK}聚成T个组G={g1,g2,...,gT};t=1,2,…,T,T为给定的聚类组数。
步骤103:初始化:构建数据块集C、数据块半径集Eb和循环变量i。
构建数据块集C={c1,c2,...,cK},初始时,将数据集P中所有中心点直接作为数据块集中初始的初始数据块,即令ck=rk,rk∈P。
构建数据块半径集Eb={bdist1,bdist2,…,bdistK},初始时,由于每个数据块ck只具有一个中心点rk,因此该数据块ck中距离中心点rk最远的点bpointk与中心点rk的距离为0,即令bdistk=0。
设置循环变量i,i赋初始值1。
步骤104:若i≤S,执行FBC步骤;否则,执行步骤107;
步骤105:若done=1,执行步骤106,否则执行FBC步骤;
步骤106:i=i+1,执行步骤107;
步骤107:计算损失值;
步骤108:针对D中所有数据点d,设置ub(d)=dist(d,rp(d)),lb(d,gj)=min dist(d,f),其中,p(d)表示在上一次迭代中与数据点d距离最近的中心点索引,δ(rp(d))表示上一次中心数据集P中距离当前数据点最近的中心点的最大偏移量,利用K-Means质心公式更新P中所有中心点;
步骤109:初始化中间集合将P复制给NP,G复制给PG;
步骤110:i赋值为1;
步骤111:若i≤S,执行EFBC步骤,否则执行步骤114;
步骤112:i=i+1;
步骤113:若done=1,执行步骤112;否则,执行EFBC步骤;
步骤114:计算损失值;
步骤115:若算法收敛,执行步骤117;否则执行步骤116;
步骤116:对D中所有数据点d设置ub(d)=dist(d,rp(d)),lb(d,gj)=min dist(d,f),使用K-Means质心公式更新P中所有中心点,使用K-Means迭代5次对P重新分组,重新计算此时的矩阵Tg和Eb,C;
步骤117:算法结束,得到划分好的K个数据块C={c1,c2,...,cK}。
参见图2,上述步骤104和105中的FBC(Fast Balance Clustering,快速平衡聚类)的具体过程如下:
步骤201:引入待分配点v(其中v∈D),Tg,Eb,P,C,初始化成功标记
步骤202:从Tg中获取与v距离最小的中心点rm,其所在的数据块为cm
步骤203:如果cm长度小于等于xm,执行步骤204,否则执行步骤206;
步骤204:将v加入到数据块cm中,更新数据块半径集Eb;
步骤205:设置done=1,返回done;
步骤206:如果v与rm距离<bdistm,执行步骤207,否则执行步骤209;
步骤207:将边界点bpointm从数据块cm中踢除,将v加入到数据块cm中;
步骤208:设置done=bpointm,返回done;
步骤209:从矩阵Tg中删除v与rm之间的距离信息;
步骤210:返回done;
参见图3,上述步骤111和113中的EFBC(Efficient Fast Balance Clustering,高效快速平衡聚类)的具体过程如下:
步骤301:引入待分配点v(其中v∈D),Tg,Eb,t,P,C,初始化成功标记
步骤302:设置循环变量n,赋初值为1;
步骤303:若n≤t,执行步骤304;否则执行步骤313;
步骤304:若lb(v,gn)-maxδ(rq)≥ub(v)+δ(rp(v)),rq∈gn,执行步骤311,否则执行步骤305;
步骤305:设置循环变量w,w赋初值为1;
步骤306:若w≤K,执行步骤307;否则执行步骤310;
步骤307:若rw∈gn,执行步骤308;否则执行步骤309;
步骤308:若dist(v,ru)<lb(v,gn)-δ(rw),rw∈gn,ru≠rw,将rw从PGn中删除;否则,执行步骤312;
步骤309:将rw从PGn中删除;
步骤310:计算v与PGn中所有中心点之间的距离,存入集合NG;
步骤311:n=n+1;
步骤312:w=w+1;
步骤313:从NG中选择与v距离最近的中心点,记为rm
步骤314:若数据块cm长度小于xm,执行步骤315;否则执行步骤316;
步骤315:将v添加到数据块cm中;
步骤316:设置done=1,返回done;
步骤317:若v与rm距离<bdistm,执行步骤318,否则,执行步骤320;
步骤318:将边界点bpm从数据块cm中踢除,将v加入到数据块cm中;
步骤319:设置done=bpm,返回done;
步骤320:清空NG,将rm从NP中删除;
步骤321:返回done。
在本发明中,步骤102,步骤108,步骤202,步骤206,步骤209,步骤311,步骤313,步骤317和步骤320中所述的距离可以为欧式距离、切比雪夫距离、欧式距离或其他距离度量方式距离。在本发明优选实施例中,所述距离为欧式距离。
下面利用7个公开数据集(Wine,Lonosphere,Iris,Cryotherapy,User Model,Vechicle,UMIST)来测试本发明方法(FBC-EFBC算法)相对于现有方法(KM算法、FCM算法、BKM算法、BCLS算法)的性能。图4是不同方法对上述7个公开数据集进行分组的平均准确度排名折线图,实验结果表明,与其他基于聚类的数据分组方法相比,本发明方法的数据分组平均准确度排名最好。图5是不同方法对上述7个公开数据集进行分组的平均耗时排名折线图,实验结果表明,本发明方法数据分组平均耗时排名最好。图6是不同方法对上述7个公开数据集进行分组的平均平衡度排名折线图,实验结果表明,本发明方法数据分组结果的平均平衡度排名也达到了当前最好方法的水平。由此可见,本发明利用数据块边界点信息进行快速数据分组方法,并将该数据分组方法应用于公开数据集上的数据分组,解决了现有基于聚类的数据分组算法效率不高的问题,保证数据块具有较高的平衡性的同时还提高了数据分组的准确度,具有很高的实用价值。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (7)

1.一种数据自适应平衡分组方法,其特征是,具体包括步骤如下:
步骤1、获取原始数据集D,并根据给定的目标数据块数目K,从获取数据集D中随机选取K个数据点作为初始的中心点,形成中心数据集P;
步骤2、计算中心数据集P中所有中心点与原始数据集D中所有数据点的距离,得到中心点与数据点的距离矩阵Tg;
步骤3、构建数据块集C={ck},其中ck表示数据块,初始时令ck=rk,rk∈P;构建数据块半径集Eb={bdistk},其中bdistk表示数据块ck的中心点与距离中心点最远的数据点即边界点的距离,初始时令bdistk=0;
步骤4、对于原始数据集D中的每个数据点,分别利用当前距离矩阵Tg和当前中心数据集P执行第一快速平衡聚类过程后,得到更新后的数据块集C和数据块半径集Eb;
步骤5、计算当前数据块集C中各个数据块的损失值value1;
步骤6、基于当前数据块集C,利用K-Means算法中的质心公式去计算各个数据块的中心点,并据此更新中心数据集P;
步骤7、对于原始数据集D中的每个数据点,分别利用当前中心数据集P执行聚类过滤筛选过程,得到每个数据点所对应的筛选中心数据集PGs
步骤8、对于原始数据集D中的每个数据点,分别计算筛选中心数据集PGs中所有筛选中心点与原始数据集D中所有数据点的距离,得到每个数据点所对应的筛选中心点与数据点的筛选距离矩阵NGs
步骤9、对于原始数据集D中的每个数据点,分别利用该数据点所对应的筛选中心数据集PGs和筛选距离矩阵NGs执行第二快速平衡聚类过程后,得到更新后的数据块集C和数据块半径集Eb;
步骤10、计算当前数据块集C中各个数据块的损失值value2;
步骤11、判断|value1-value2|≤δ,其中δ为设定值:若是,则输出当前数据块集C;否则,转至步骤步骤6;
上述,k=1,2,…,K,K为给定的目标数据块数目;s=1,1,…,S,S为原始数据点的数目;K≤S。
2.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤7中,对于原始数据集D中的每个数据点,执行聚类过滤筛选过程具体如下:
步骤71、利用K-Means对当前中心数据集P中的中心点进行聚类,产生分组后的中心点分组集;
步骤72、对中心点分组集中的各个分组,分别找出该分组中所有中心点的中心点,并作为该分组的组中心点;
步骤73、分别计算当前中心数据集P的各个中心点与上一次中心数据集P中对应序号中心点之间的距离,并作为该中心点的偏移量;
步骤74、对中心点分组集中的各个分组分别进行筛选,即判断lb(v,gn)-maxδ(rq)≥ub(v)+δ(rp(v))是否成立:如果成立,则将保留该分组,并转至步骤75;如果不成立,则删除该分组;
步骤75、对每个保留分组中的各个中心点分别进行筛选,即判断dist(v,ru)<lb(v,gn)-δ(rw)是否成立:如果成立,则将该中心点加入到当前数据点所对应的筛选中心数据集PGs中;如果不成立,则删除该中心点;
上述判断条件中:lb(v,gn)表示当前数据点与待筛选分组中距离其最近的组中心点之间的距离;maxδ(rq)表示待筛选分组中,所有中心点的最大偏移量;ub(v)表示当前数据点与上一次中心数据集P中距离其最近的中心点之间的距离;δ(r(v))表示上一次中心数据集P中距离当前数据点最近的中心点的最大偏移量;dist(v,ru)表示当前数据点到当前中心数据集P中所有异于待筛选中心点的中心点的最小距离;δ(rw)表示待筛选中心点的偏移量。
3.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤4中,第一快速平衡聚类具体如下:
步骤41、利用距离矩阵Tg,找出与当前数据点距离最近的中心点rm,以及该距离最近的中心点rm所在的数据块cm
步骤42、判断数据块cm的长度是否小于等于该数据块给定的长度阈值xm:如果是,则将当前数据点加入到数据块cm中,同时更新数据块cm的中心点与边界点的距离bdistm;否则,执行步骤43;
步骤43、利用距离矩阵Tg,判断当前数据点与中心点rm的距离是否小于数据块cm的中心点与边界点的距离bdistm:如果是,则将数据块cm的边界点从数据块cm中删除,并将当前数据点加入到数据块cm中;否则,执行步骤44;
步骤44、当前数据点处理完成,继续处理原始数据集D的下一个数据点,直到原始数据集D中的所有数据点;
上述rm∈P,P为当前中心数据集;cm∈C,C为当前数据块集;bdistm∈Eb,Eb为数据块半径集。
4.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤9中,第二快速平衡聚类具体如下:
步骤91、利用当前数据点的筛选距离矩阵NGs,找出与当前数据点距离最近的中心点rm,以及该距离最近的中心点rm所在的数据块cm
步骤92、判断数据块cm的长度是否小于等于该数据块给定的长度阈值xm:如果是,则将当前数据点加入到数据块cm中,同时更新数据块cm的中心点与边界点的距离bdistm;否则,执行步骤93;
步骤93、利用当前数据点的筛选距离矩阵NGs,判断当前数据点与中心点rm的距离是否小于数据块cm的中心点与边界点的距离bdistm:如果是,则将数据块cm的边界点从数据块cm中删除,并将当前数据点加入到数据块cm中;否则,执行步骤94;
步骤94、当前数据点处理完成,继续处理原始数据集D的下一个数据点,直到原始数据集D中的所有数据点;
上述rm∈NG,NG为当前筛选中心数据集;cm∈C,C为当前数据块集;bdistm∈Eb,Eb为数据块半径集;s=1,1,…,S,S为原始数据点的数目。
5.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,所述距离均为欧氏距离。
6.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤5和10中,数据块的损失值等于该数据块中所有数据点到该数据块中心点的欧氏距离和。
7.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤6中,质心公式为:
其中,rm为数据块的质心,ds为原始数据集D中的数据点,cm为数据块,|cm|表示数据块的长度。
CN201910452021.XA 2019-05-28 2019-05-28 一种数据自适应平衡分组方法 Pending CN110175651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910452021.XA CN110175651A (zh) 2019-05-28 2019-05-28 一种数据自适应平衡分组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910452021.XA CN110175651A (zh) 2019-05-28 2019-05-28 一种数据自适应平衡分组方法

Publications (1)

Publication Number Publication Date
CN110175651A true CN110175651A (zh) 2019-08-27

Family

ID=67695780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910452021.XA Pending CN110175651A (zh) 2019-05-28 2019-05-28 一种数据自适应平衡分组方法

Country Status (1)

Country Link
CN (1) CN110175651A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421176A (zh) * 2021-07-16 2021-09-21 昆明学院 一种异常数据智能筛选方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421176A (zh) * 2021-07-16 2021-09-21 昆明学院 一种异常数据智能筛选方法
CN113421176B (zh) * 2021-07-16 2022-11-01 昆明学院 一种学生成绩分数中异常数据智能筛选方法

Similar Documents

Publication Publication Date Title
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108156617A (zh) 一种雾无线接入网中基于图论的协作缓存方法
CN103678671A (zh) 一种社交网络中的动态社区检测方法
CN103838820B (zh) 基于近邻传播的进化多目标优化社区检测方法
CN110222747B (zh) 一种优化的聚类方法
CN113708969A (zh) 一种基于深度强化学习的云数据中心虚拟网络的协同嵌入方法
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
CN113485826A (zh) 一种边缘服务器负载均衡方法、系统
CN111314862B (zh) 雾无线接入网中深度强化学习下带有推荐的缓存方法
CN111309976A (zh) 一种面向收敛型图应用的GraphX数据缓存方法
CN110018997B (zh) 一种基于hdfs的海量小文件存储优化方法
CN115115021A (zh) 基于模型参数异步更新的个性化联邦学习方法
CN110175651A (zh) 一种数据自适应平衡分组方法
CN111667373B (zh) 基于邻居子图社交网络动态增量的演化社区发现方法
CN113128617A (zh) 基于Spark和ASPSO的并行化K-means的优化方法
CN107257356B (zh) 一种基于超图分割的社交用户数据优化放置方法
CN112417507B (zh) 一种基于隐私保护的大型图的节点三角形计数的发布方法
CN111782904A (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
CN118070926B (zh) 一种基于客户端资源自适应的多任务联邦学习方法
CN117574213B (zh) 一种基于apso-cnn的网络流量分类方法
CN118469736A (zh) 一种基于社区结构增强和多目标粒子群的社区发现方法
CN109344259A (zh) 一种基于多层划分框架的rdf分布式存储方法
CN106100921A (zh) 基于点信息同步的动态流式图并行抽样方法
CN115987886B (zh) 一种基于元学习参数优化的水声网络q学习路由方法
CN115879603B (zh) 一种面向多目标点的多无人机协同数据采集方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190827