CN110175651A - 一种数据自适应平衡分组方法 - Google Patents
一种数据自适应平衡分组方法 Download PDFInfo
- Publication number
- CN110175651A CN110175651A CN201910452021.XA CN201910452021A CN110175651A CN 110175651 A CN110175651 A CN 110175651A CN 201910452021 A CN201910452021 A CN 201910452021A CN 110175651 A CN110175651 A CN 110175651A
- Authority
- CN
- China
- Prior art keywords
- data
- point
- data block
- current
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 17
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000013480 data collection Methods 0.000 claims description 32
- 238000012216 screening Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000000315 cryotherapy Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种数据自适应平衡分组方法,将数据块边界点信息加入到传统聚类中,并将该聚类算法运用于分布式环境中结点数据分组中,利用数据块边界点信息约束数据块大小,使不同数据块之间满足较高的平衡性,解决了现有基于聚类的数据分组方法效率较低的问题,同时还提高了数据分组的准确率,具有很高的实用价值。
Description
技术领域
本发明涉及Web数据分组技术领域,具体涉及一种数据自适应平衡分组方法。
背景技术
在Web技术的不断发展的背景下,互联网上的数据已经进入了爆炸式增长阶段,丰富数据具有较高的应用价值,如何将Web上的海量数据进行高效管理是学术界与工业界关注的热点问题,也面临着数据分组、数据查询优化等多方面挑战。数据分组(Datagrouping)是根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,分组后的数据称为分组数据。当前,传统的集中式数据管理方案难以有效地管理大规模数据。
发明内容
本发明所要解决的是传统集中式数据管理方案难以有效地管理大规模数据的问题,提供一种数据自适应平衡分组方法,保证了同一数据块内的数据具有较高相似性的同时,不同数据块包含的数据点数目也满足平衡性约束。
为解决上述问题,本发明是通过以下技术方案实现的:
参见图1,一种数据自适应平衡分组方法,具体包括步骤如下:
步骤1、获取原始数据集D,并根据给定的目标数据块数目K,从获取数据集D中随机选取K个数据点作为初始的中心点,形成中心数据集P;
步骤2、计算中心数据集P中所有中心点与原始数据集D中所有数据点的距离,得到中心点与数据点的距离矩阵Tg;
步骤3、构建数据块集C={ck},其中ck表示数据块,初始时令ck=rk,rk∈P;构建数据块半径集Eb={bdistk},其中bdistk表示数据块ck的中心点与距离中心点最远的数据点即边界点的距离,初始时令bdistk=0;
步骤4、对于原始数据集D中的每个数据点,分别利用当前距离矩阵Tg和当前中心数据集P执行第一快速平衡聚类过程后,得到更新后的数据块集C和数据块半径集Eb;
步骤5、计算当前数据块集C中各个数据块的损失值value1;
步骤6、基于当前数据块集C,利用K-Means算法中的质心公式去计算各个数据块的中心点,并据此更新中心数据集P;
步骤7、对于原始数据集D中的每个数据点,分别利用当前中心数据集P执行聚类过滤筛选过程,得到每个数据点所对应的筛选中心数据集PGs;
步骤8、对于原始数据集D中的每个数据点,分别计算筛选中心数据集PGs中所有筛选中心点与原始数据集D中所有数据点的距离,得到每个数据点所对应的筛选中心点与数据点的筛选距离矩阵NGs;
步骤9、对于原始数据集D中的每个数据点,分别利用该数据点所对应的筛选中心数据集PGs和筛选距离矩阵NGs执行第二快速平衡聚类过程后,得到更新后的数据块集C和数据块半径集Eb;
步骤10、计算当前数据块集C中各个数据块的损失值value2;
步骤11、判断|value1-value2|≤δ,其中δ为设定值:若是,则输出当前数据块集C;否则,转至步骤步骤6;
上述,k=1,2,…,K,K为给定的目标数据块数目;s=1,1,…,S,S为原始数据点的数目;K≤S。
上述步骤7中,对于原始数据集D中的每个数据点,执行聚类过滤筛选过程具体如下:
步骤71、利用K-Means对当前中心数据集P中的中心点进行聚类,产生分组后的中心点分组集;
步骤72、对中心点分组集中的各个分组,分别找出该分组中所有中心点的中心点,并作为该分组的组中心点;
步骤73、分别计算当前中心数据集P的各个中心点与上一次中心数据集P中对应序号中心点之间的距离,并作为该中心点的偏移量;
步骤74、对中心点分组集中的各个分组分别进行筛选,即判断lb(v,gn)-maxδ(rq)≥ub(v)+δ(rp(v))是否成立:如果成立,则将保留该分组,并转至步骤75;如果不成立,则删除该分组;
步骤75、对每个保留分组中的各个中心点分别进行筛选,即判断dist(v,ru)<lb(v,gn)-δ(rw)是否成立:如果成立,则将该中心点加入到当前数据点所对应的筛选中心数据集PGs中;如果不成立,则删除该中心点;
上述判断条件中:lb(v,gn)表示当前数据点与待筛选分组中距离其最近的组中心点之间的距离;maxδ(rq)表示待筛选分组中,所有中心点的最大偏移量;ub(v)表示当前数据点与上一次中心数据集P中距离其最近的中心点之间的距离;δ(r(v))表示上一次中心数据集P中距离当前数据点最近的中心点的最大偏移量;dist(v,ru)表示当前数据点到当前中心数据集P中所有异于待筛选中心点的中心点的最小距离;δ(rw)表示待筛选中心点的偏移量。
上述步骤4中,第一快速平衡聚类具体如下:
步骤41、利用距离矩阵Tg,找出与当前数据点距离最近的中心点rm,以及该距离最近的中心点rm所在的数据块cm;
步骤42、判断数据块cm的长度是否小于等于该数据块给定的长度阈值xm:如果是,则将当前数据点加入到数据块cm中,同时更新数据块cm的中心点与边界点的距离bdistm;否则,执行步骤43;
步骤43、利用距离矩阵Tg,判断当前数据点与中心点rm的距离是否小于数据块cm的中心点与边界点的距离bdistm:如果是,则将数据块cm的边界点从数据块cm中删除,并将当前数据点加入到数据块cm中;否则,执行步骤44;
步骤44、当前数据点处理完成,继续处理原始数据集D的下一个数据点,直到原始数据集D中的所有数据点;
上述rm∈P,P为当前中心数据集;cm∈C,C为当前数据块集;bdistm∈Eb,Eb为数据块半径集。
上述步骤9中,第二快速平衡聚类具体如下:
步骤91、利用当前数据点的筛选距离矩阵NGs,找出与当前数据点距离最近的中心点rm,以及该距离最近的中心点rm所在的数据块cm;
步骤92、判断数据块cm的长度是否小于等于该数据块给定的长度阈值xm:如果是,则将当前数据点加入到数据块cm中,同时更新数据块cm的中心点与边界点的距离bdistm;否则,执行步骤93;
步骤93、利用当前数据点的筛选距离矩阵NGs,判断当前数据点与中心点rm的距离是否小于数据块cm的中心点与边界点的距离bdistm:如果是,则将数据块cm的边界点从数据块cm中删除,并将当前数据点加入到数据块cm中;否则,执行步骤94;
步骤94、当前数据点处理完成,继续处理原始数据集D的下一个数据点,直到原始数据集D中的所有数据点;
上述rm∈NG,NG为当前筛选中心数据集;cm∈C,C为当前数据块集;bdistm∈Eb,Eb为数据块半径集;s=1,1,…,S,S为原始数据点的数目。
上述各步骤中,所述距离均为欧氏距离。
上述步骤5和10中,数据块的损失值等于该数据块中所有数据点到该数据块中心点的欧氏距离和。
上述步骤6中,质心公式为:
其中,rm为数据块的质心,ds为原始数据集D中的数据点,cm为数据块,|cm|表示数据块的长度。
与现有技术相比,本发明提出的FBC-EFBC算法,将数据块边界点信息加入到传统聚类中,并将该聚类算法运用于分布式环境中结点数据分组中,利用数据块边界点信息约束数据块大小,使不同数据块之间满足较高的平衡性,解决了现有基于聚类的数据分组方法效率较低的问题,同时还提高了数据分组的准确率,具有很高的实用价值。
附图说明
图1为一种数据自适应平衡分组方法的流程图。
图2为图1中FBC(Fast Balance Clustering,快速平衡聚类)的流程图。
图3为图1中EFBC(Efficient Fast Balance Clustering,高效快速平衡聚类)的流程图。
图4是不同方法对数据集进行分组的平均准确度排名折线图。
图5是不同方法对数据集进行分组的平均耗时排名折线图。
图6是不同方法对数据集进行分组的平均平衡度排名折线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
参见图1,一种数据自适应平衡分组方法,具体包括步骤如下:
步骤101:获取数据集D={d1,d2,…,dS},s=1,2,…,S,S为原始数据集中数据点的数目。根据设定目标数据块数目K,从数据集D中随机选取K个数据点构建数据集P={r1,r2,…,rK},k=1,2,…,K,K为给定的目标数据块数目。计算数据集D中每个数据点与数据集P中所有数据点即中心点的距离,得到数据点ds与中心点rk的距离Tgsk,并得到距离矩阵Tg。
步骤102:使用K-Means(K均值聚类)算法进行迭代,以将数据集P={r1,r2,…,rK}聚成T个组G={g1,g2,...,gT};t=1,2,…,T,T为给定的聚类组数。
步骤103:初始化:构建数据块集C、数据块半径集Eb和循环变量i。
构建数据块集C={c1,c2,...,cK},初始时,将数据集P中所有中心点直接作为数据块集中初始的初始数据块,即令ck=rk,rk∈P。
构建数据块半径集Eb={bdist1,bdist2,…,bdistK},初始时,由于每个数据块ck只具有一个中心点rk,因此该数据块ck中距离中心点rk最远的点bpointk与中心点rk的距离为0,即令bdistk=0。
设置循环变量i,i赋初始值1。
步骤104:若i≤S,执行FBC步骤;否则,执行步骤107;
步骤105:若done=1,执行步骤106,否则执行FBC步骤;
步骤106:i=i+1,执行步骤107;
步骤107:计算损失值;
步骤108:针对D中所有数据点d,设置ub(d)=dist(d,rp(d)),lb(d,gj)=min dist(d,f),其中,p(d)表示在上一次迭代中与数据点d距离最近的中心点索引,δ(rp(d))表示上一次中心数据集P中距离当前数据点最近的中心点的最大偏移量,利用K-Means质心公式更新P中所有中心点;
步骤109:初始化中间集合将P复制给NP,G复制给PG;
步骤110:i赋值为1;
步骤111:若i≤S,执行EFBC步骤,否则执行步骤114;
步骤112:i=i+1;
步骤113:若done=1,执行步骤112;否则,执行EFBC步骤;
步骤114:计算损失值;
步骤115:若算法收敛,执行步骤117;否则执行步骤116;
步骤116:对D中所有数据点d设置ub(d)=dist(d,rp(d)),lb(d,gj)=min dist(d,f),使用K-Means质心公式更新P中所有中心点,使用K-Means迭代5次对P重新分组,重新计算此时的矩阵Tg和Eb,C;
步骤117:算法结束,得到划分好的K个数据块C={c1,c2,...,cK}。
参见图2,上述步骤104和105中的FBC(Fast Balance Clustering,快速平衡聚类)的具体过程如下:
步骤201:引入待分配点v(其中v∈D),Tg,Eb,P,C,初始化成功标记
步骤202:从Tg中获取与v距离最小的中心点rm,其所在的数据块为cm;
步骤203:如果cm长度小于等于xm,执行步骤204,否则执行步骤206;
步骤204:将v加入到数据块cm中,更新数据块半径集Eb;
步骤205:设置done=1,返回done;
步骤206:如果v与rm距离<bdistm,执行步骤207,否则执行步骤209;
步骤207:将边界点bpointm从数据块cm中踢除,将v加入到数据块cm中;
步骤208:设置done=bpointm,返回done;
步骤209:从矩阵Tg中删除v与rm之间的距离信息;
步骤210:返回done;
参见图3,上述步骤111和113中的EFBC(Efficient Fast Balance Clustering,高效快速平衡聚类)的具体过程如下:
步骤301:引入待分配点v(其中v∈D),Tg,Eb,t,P,C,初始化成功标记
步骤302:设置循环变量n,赋初值为1;
步骤303:若n≤t,执行步骤304;否则执行步骤313;
步骤304:若lb(v,gn)-maxδ(rq)≥ub(v)+δ(rp(v)),rq∈gn,执行步骤311,否则执行步骤305;
步骤305:设置循环变量w,w赋初值为1;
步骤306:若w≤K,执行步骤307;否则执行步骤310;
步骤307:若rw∈gn,执行步骤308;否则执行步骤309;
步骤308:若dist(v,ru)<lb(v,gn)-δ(rw),rw∈gn,ru≠rw,将rw从PGn中删除;否则,执行步骤312;
步骤309:将rw从PGn中删除;
步骤310:计算v与PGn中所有中心点之间的距离,存入集合NG;
步骤311:n=n+1;
步骤312:w=w+1;
步骤313:从NG中选择与v距离最近的中心点,记为rm;
步骤314:若数据块cm长度小于xm,执行步骤315;否则执行步骤316;
步骤315:将v添加到数据块cm中;
步骤316:设置done=1,返回done;
步骤317:若v与rm距离<bdistm,执行步骤318,否则,执行步骤320;
步骤318:将边界点bpm从数据块cm中踢除,将v加入到数据块cm中;
步骤319:设置done=bpm,返回done;
步骤320:清空NG,将rm从NP中删除;
步骤321:返回done。
在本发明中,步骤102,步骤108,步骤202,步骤206,步骤209,步骤311,步骤313,步骤317和步骤320中所述的距离可以为欧式距离、切比雪夫距离、欧式距离或其他距离度量方式距离。在本发明优选实施例中,所述距离为欧式距离。
下面利用7个公开数据集(Wine,Lonosphere,Iris,Cryotherapy,User Model,Vechicle,UMIST)来测试本发明方法(FBC-EFBC算法)相对于现有方法(KM算法、FCM算法、BKM算法、BCLS算法)的性能。图4是不同方法对上述7个公开数据集进行分组的平均准确度排名折线图,实验结果表明,与其他基于聚类的数据分组方法相比,本发明方法的数据分组平均准确度排名最好。图5是不同方法对上述7个公开数据集进行分组的平均耗时排名折线图,实验结果表明,本发明方法数据分组平均耗时排名最好。图6是不同方法对上述7个公开数据集进行分组的平均平衡度排名折线图,实验结果表明,本发明方法数据分组结果的平均平衡度排名也达到了当前最好方法的水平。由此可见,本发明利用数据块边界点信息进行快速数据分组方法,并将该数据分组方法应用于公开数据集上的数据分组,解决了现有基于聚类的数据分组算法效率不高的问题,保证数据块具有较高的平衡性的同时还提高了数据分组的准确度,具有很高的实用价值。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
Claims (7)
1.一种数据自适应平衡分组方法,其特征是,具体包括步骤如下:
步骤1、获取原始数据集D,并根据给定的目标数据块数目K,从获取数据集D中随机选取K个数据点作为初始的中心点,形成中心数据集P;
步骤2、计算中心数据集P中所有中心点与原始数据集D中所有数据点的距离,得到中心点与数据点的距离矩阵Tg;
步骤3、构建数据块集C={ck},其中ck表示数据块,初始时令ck=rk,rk∈P;构建数据块半径集Eb={bdistk},其中bdistk表示数据块ck的中心点与距离中心点最远的数据点即边界点的距离,初始时令bdistk=0;
步骤4、对于原始数据集D中的每个数据点,分别利用当前距离矩阵Tg和当前中心数据集P执行第一快速平衡聚类过程后,得到更新后的数据块集C和数据块半径集Eb;
步骤5、计算当前数据块集C中各个数据块的损失值value1;
步骤6、基于当前数据块集C,利用K-Means算法中的质心公式去计算各个数据块的中心点,并据此更新中心数据集P;
步骤7、对于原始数据集D中的每个数据点,分别利用当前中心数据集P执行聚类过滤筛选过程,得到每个数据点所对应的筛选中心数据集PGs;
步骤8、对于原始数据集D中的每个数据点,分别计算筛选中心数据集PGs中所有筛选中心点与原始数据集D中所有数据点的距离,得到每个数据点所对应的筛选中心点与数据点的筛选距离矩阵NGs;
步骤9、对于原始数据集D中的每个数据点,分别利用该数据点所对应的筛选中心数据集PGs和筛选距离矩阵NGs执行第二快速平衡聚类过程后,得到更新后的数据块集C和数据块半径集Eb;
步骤10、计算当前数据块集C中各个数据块的损失值value2;
步骤11、判断|value1-value2|≤δ,其中δ为设定值:若是,则输出当前数据块集C;否则,转至步骤步骤6;
上述,k=1,2,…,K,K为给定的目标数据块数目;s=1,1,…,S,S为原始数据点的数目;K≤S。
2.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤7中,对于原始数据集D中的每个数据点,执行聚类过滤筛选过程具体如下:
步骤71、利用K-Means对当前中心数据集P中的中心点进行聚类,产生分组后的中心点分组集;
步骤72、对中心点分组集中的各个分组,分别找出该分组中所有中心点的中心点,并作为该分组的组中心点;
步骤73、分别计算当前中心数据集P的各个中心点与上一次中心数据集P中对应序号中心点之间的距离,并作为该中心点的偏移量;
步骤74、对中心点分组集中的各个分组分别进行筛选,即判断lb(v,gn)-maxδ(rq)≥ub(v)+δ(rp(v))是否成立:如果成立,则将保留该分组,并转至步骤75;如果不成立,则删除该分组;
步骤75、对每个保留分组中的各个中心点分别进行筛选,即判断dist(v,ru)<lb(v,gn)-δ(rw)是否成立:如果成立,则将该中心点加入到当前数据点所对应的筛选中心数据集PGs中;如果不成立,则删除该中心点;
上述判断条件中:lb(v,gn)表示当前数据点与待筛选分组中距离其最近的组中心点之间的距离;maxδ(rq)表示待筛选分组中,所有中心点的最大偏移量;ub(v)表示当前数据点与上一次中心数据集P中距离其最近的中心点之间的距离;δ(r(v))表示上一次中心数据集P中距离当前数据点最近的中心点的最大偏移量;dist(v,ru)表示当前数据点到当前中心数据集P中所有异于待筛选中心点的中心点的最小距离;δ(rw)表示待筛选中心点的偏移量。
3.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤4中,第一快速平衡聚类具体如下:
步骤41、利用距离矩阵Tg,找出与当前数据点距离最近的中心点rm,以及该距离最近的中心点rm所在的数据块cm;
步骤42、判断数据块cm的长度是否小于等于该数据块给定的长度阈值xm:如果是,则将当前数据点加入到数据块cm中,同时更新数据块cm的中心点与边界点的距离bdistm;否则,执行步骤43;
步骤43、利用距离矩阵Tg,判断当前数据点与中心点rm的距离是否小于数据块cm的中心点与边界点的距离bdistm:如果是,则将数据块cm的边界点从数据块cm中删除,并将当前数据点加入到数据块cm中;否则,执行步骤44;
步骤44、当前数据点处理完成,继续处理原始数据集D的下一个数据点,直到原始数据集D中的所有数据点;
上述rm∈P,P为当前中心数据集;cm∈C,C为当前数据块集;bdistm∈Eb,Eb为数据块半径集。
4.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤9中,第二快速平衡聚类具体如下:
步骤91、利用当前数据点的筛选距离矩阵NGs,找出与当前数据点距离最近的中心点rm,以及该距离最近的中心点rm所在的数据块cm;
步骤92、判断数据块cm的长度是否小于等于该数据块给定的长度阈值xm:如果是,则将当前数据点加入到数据块cm中,同时更新数据块cm的中心点与边界点的距离bdistm;否则,执行步骤93;
步骤93、利用当前数据点的筛选距离矩阵NGs,判断当前数据点与中心点rm的距离是否小于数据块cm的中心点与边界点的距离bdistm:如果是,则将数据块cm的边界点从数据块cm中删除,并将当前数据点加入到数据块cm中;否则,执行步骤94;
步骤94、当前数据点处理完成,继续处理原始数据集D的下一个数据点,直到原始数据集D中的所有数据点;
上述rm∈NG,NG为当前筛选中心数据集;cm∈C,C为当前数据块集;bdistm∈Eb,Eb为数据块半径集;s=1,1,…,S,S为原始数据点的数目。
5.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,所述距离均为欧氏距离。
6.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤5和10中,数据块的损失值等于该数据块中所有数据点到该数据块中心点的欧氏距离和。
7.根据权利要求1所述的一种数据自适应平衡分组方法,其特征是,步骤6中,质心公式为:
其中,rm为数据块的质心,ds为原始数据集D中的数据点,cm为数据块,|cm|表示数据块的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910452021.XA CN110175651A (zh) | 2019-05-28 | 2019-05-28 | 一种数据自适应平衡分组方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910452021.XA CN110175651A (zh) | 2019-05-28 | 2019-05-28 | 一种数据自适应平衡分组方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110175651A true CN110175651A (zh) | 2019-08-27 |
Family
ID=67695780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910452021.XA Pending CN110175651A (zh) | 2019-05-28 | 2019-05-28 | 一种数据自适应平衡分组方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175651A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421176A (zh) * | 2021-07-16 | 2021-09-21 | 昆明学院 | 一种异常数据智能筛选方法 |
-
2019
- 2019-05-28 CN CN201910452021.XA patent/CN110175651A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421176A (zh) * | 2021-07-16 | 2021-09-21 | 昆明学院 | 一种异常数据智能筛选方法 |
CN113421176B (zh) * | 2021-07-16 | 2022-11-01 | 昆明学院 | 一种学生成绩分数中异常数据智能筛选方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5427640B2 (ja) | 決定木生成装置、決定木生成方法、及びプログラム | |
CN110533183A (zh) | 一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法 | |
CN108537274A (zh) | 一种基于网格的空间多尺度快速聚类方法 | |
CN111507415B (zh) | 一种基于分布密度的多源大气数据聚类方法 | |
CN110275910A (zh) | 一种不平衡数据集的过采样方法 | |
CN105354588A (zh) | 一种构造决策树的方法 | |
CN111291855B (zh) | 基于改进智能算法的天然气环状管网布局优化方法 | |
CN116050540B (zh) | 一种基于联合双维度用户调度的自适应联邦边缘学习方法 | |
CN103824285B (zh) | 一种基于蝙蝠优化模糊聚类的图像分割方法 | |
CN110175651A (zh) | 一种数据自适应平衡分组方法 | |
CN107403222A (zh) | 一种基于辅助更新模型和有效性检验的运动跟踪方法 | |
CN109697471A (zh) | 一种基于knn的密度峰值聚类方法 | |
CN108712337B (zh) | 高性能网络中多路径带宽调度方法 | |
CN110808083A (zh) | 基于scRNA-seq及动态时间规整的基因调控网络构建方法 | |
CN104348695B (zh) | 一种基于人工免疫系统的虚拟网络映射方法及其系统 | |
CN109842614A (zh) | 基于数据挖掘的网络入侵检测方法 | |
CN106100921B (zh) | 基于点信息同步的动态流式图并行抽样方法 | |
CN111782904B (zh) | 一种基于改进smote算法的非平衡数据集处理方法及系统 | |
CN108717551A (zh) | 一种基于最大隶属度的模糊层次聚类方法 | |
CN110119268B (zh) | 基于人工智能的工作流优化方法 | |
CN110928676B (zh) | 一种基于性能评估的电力cps负荷分配方法 | |
CN116339973A (zh) | 基于粒子群优化算法的数字孪生云平台计算资源调度方法 | |
CN110322078B (zh) | 扇区边界的航班流量控制方法及计算机存储介质 | |
CN109344259A (zh) | 一种基于多层划分框架的rdf分布式存储方法 | |
CN114661927A (zh) | 一种基于社区检测的频繁子图挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190827 |
|
RJ01 | Rejection of invention patent application after publication |