CN115358308A - 一种大数据实例约简方法、装置、电子设备及存储介质 - Google Patents
一种大数据实例约简方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115358308A CN115358308A CN202210968071.5A CN202210968071A CN115358308A CN 115358308 A CN115358308 A CN 115358308A CN 202210968071 A CN202210968071 A CN 202210968071A CN 115358308 A CN115358308 A CN 115358308A
- Authority
- CN
- China
- Prior art keywords
- cluster
- initial
- center
- target
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000009467 reduction Effects 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 230000005484 gravity Effects 0.000 claims abstract description 78
- 238000005070 sampling Methods 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 230000000903 blocking effect Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据实例约简方法、装置、电子设备及存储介质,用于解决传统的大数据约简方法容易造成信息丢失,抽样效率低、样本代表性差的技术问题。本发明包括:对预设的初始大数据集进行逻辑分块,得到逻辑数据块;分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;获取每个目标类簇的目标聚类中心和目标重心;以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;将所述最优极小样本数据集作为所述初始大数据集的约简结果。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据实例约简方法、装置、电子设备及存储介质。
背景技术
大数据难题很大程度上源于其数据量的大规模性以及其特征的高维性,与此同时,通常还需要利用它的大规模实例和高维特征来实现相应的需求。大数据的约简和降维预处理方法都是旨在尽可能保证原大数据的特点和分布特性的情况下降低其数据规模,现有的经典随机抽样算法尽管可以直接用于数据实例约简问题,然而其具有一定的局限性。由于大数据集中的数据通常不是均匀分布的,如果用传统的抽样方法进行实例约简很容易造成信息丢失、抽样效率低和样本代表性差等问题。
发明内容
本发明提供了一种大数据实例约简方法、装置、电子设备及存储介质,用于解决传统的大数据约简方法容易造成信息丢失,抽样效率低、样本代表性差的技术问题。
本发明提供了一种大数据实例约简方法,包括:
对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;
采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;
获取每个目标类簇的目标聚类中心和目标重心;
以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;
将所述最优极小样本数据集作为所述初始大数据集的约简结果。
可选地,每个所述逻辑数据块均具有多个数据实例;所述分别对每个所述逻辑数据块进行聚类,得到多个目标类簇的步骤,包括:
采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;
以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;
计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;
以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;
判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;
若是,将所述更新类簇作为所述逻辑数据块的目标类簇。
可选地,还包括:
若所述初始误差平方和与所述更新误差平方和的差值的绝对值不小于所述预设阈值,则将所述更新误差平方和作为所述初始误差平方和,将所述更新重心作为所述初始重心,并返回以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇的步骤。
可选地,所述采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心的步骤,包括:
在所述逻辑数据块中任取一个数据实例作为第一聚类中心;
在所述逻辑数据块中找出与所述第一聚类中心距离最大的数据实例作为第二聚类中心;
将所述第一聚类中心和所述第二聚类中心添加进聚类中心集中;
计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值;
获取所有所述最小距离值中的最大值;
判断所述最大值是否满足预设检验条件;
若否,将所述聚类中心集中的聚类中心作为所述逻辑数据块的初始聚类中心。
可选地,还包括:
若所述最大值满足预设检验条件,则将所述最大值对应的数据实例作为第三聚类中心,将所述第三聚类中心添加进所述聚类中心集中,并返回所述计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值的步骤。
可选地,所述以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集的步骤,包括:
根据每个目标类簇的最优抽样规模在所述目标类簇中随机抽取样本数据;
采用所述目标聚类中心和所述目标重心分别对应的数据实例,以及所述样本数据生成所述目标类簇的类簇最优极小样本数据集;
采用所述逻辑数据块的所有目标类簇分别对应的类簇最优极小样本数据集,生成所述逻辑数据块的块最优极小样本数据集;
采用所述初始大数据集的所有逻辑数据块分别对应的块最优极小样本数据集,生成所述初始大数据集的最优极小样本数据集。
本发明还提供了一种大数据实例约简装置,包括:
分块模块,用于对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
聚类模块,用于分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;
最优抽样规模确定模块,用于采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;
目标聚类中心和目标重心获取模块,用于获取每个目标类簇的目标聚类中心和目标重心;
最优极小样本数据集生成模块,用于以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;
约简模块,用于将所述最优极小样本数据集作为所述初始大数据集的约简结果。
可选地,每个所述逻辑数据块均具有多个数据实例;所述聚类模块,包括:
初始聚类中心选取子模块,用于采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;
初始类簇生成子模块,用于以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;
初始误差平方和计算子模块,用于计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;
更新类簇生成子模块,用于以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
更新误差平方和计算子模块,用于计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;
阈值判断子模块,用于判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;
目标类簇确定子模块,用于若是,将所述更新类簇作为所述逻辑数据块的目标类簇。
本发明还提供了一种电子设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上任一项所述的大数据实例约简方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的大数据实例约简方法。
从以上技术方案可以看出,本发明具有以下优点:本发明提供的一种大数据实例约简方法,包括:对预设的初始大数据集进行逻辑分块,得到逻辑数据块;分别对每个逻辑数据块进行聚类,得到多个目标类簇;采用最优样本大小算法确定每个目标类簇的最优抽样规模;获取每个目标类簇的目标聚类中心和目标重心;以目标聚类中心和目标重心为基础,结合最优抽样规模生成初始大数据集的最优极小样本数据集;将最优极小样本数据集作为初始大数据集的约简结果。
由上述步骤可知,本发明通过利用大数据聚类和极小样本抽样思想实现高效的大数据实例规模约简策略,同时基于类簇的分布特点对类簇进行并行约简实现高效的大数据实例约简预处理过程,进而在尽可能保证大数据原有特性的情况下促进大数据的高效分析处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种大数据实例约简方法的步骤流程图;
图2为本发明另一实施例提供的一种大数据实例约简方法的步骤流程图;
图3为本发明实施例提供的样本容量大小与样本质量之间关系的曲线示意图;
图4为本发明实施例提供的大数据实例约简方法的应用示意图;
图5为本发明实施例提供的一种大数据实例约简装置的结构框图。
具体实施方式
本发明实施例提供了一种大数据实例约简方法、装置、电子设备及存储介质,用于解决传统的大数据约简方法容易造成信息丢失,抽样效率低、样本代表性差的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的一种大数据实例约简方法的步骤流程图。
本发明提供的一种大数据实例约简方法,具体可以包括以下步骤:
步骤101,对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
在本发明实施例中,可以对预设的初始大数据集D进行逻辑分块,将其均匀地分成若干个逻辑数据块,并为每一个逻辑数据块指定一个标识号Di,i∈{1,2,...,n};其中,初始大数据集D与逻辑数据块Di之间满足D=D1∪D2∪…∪Dn。n的大小取决于云计算平台投入到大数据实例约简预处理上的计算资源以及初始大数据集中数据实例的分布规律与多样性程度。
进一步地,为了提高大数据约简的计算速度,可以对初始大数据集进行分布式存储,根据各个物理存储节点的存储空间和集群空间分配策略,把即将要进行实例约简预处理的大数据集D分布式地部署到由J个节点组成的物理存储主机集群中。在一个示例中,本发明实施例可以基于HDFS文件系统的MapReduce云计算框架来进行大数据约简,因此本发明实施例的初始大数据集D的存储形式可以为文本文件。每个数据示例可以为{实例ID,特征1,特征2,…,特征m)的形式。
步骤102,分别对每个逻辑数据块进行聚类,得到多个目标类簇;
聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程称为聚类。由聚类所生成的类簇是一组数据对象的集合,这些对象与同一个类簇中的对象彼此相似,与其他类簇中的对象相异。
在完成对初始大数据集的逻辑分块后,可以基于云计算虚拟化集群下的MapReduce对每个逻辑数据块进行并行聚类,得到多个目标类簇。
步骤103,采用最优样本大小算法确定每个目标类簇的最优抽样规模;
在完成对每个逻辑数据块的聚类后,可以采用最优样本大小算法确定每个目标类簇的最优抽样规模。
步骤104,获取每个目标类簇的目标聚类中心和目标重心;
步骤105,以目标聚类中心和目标重心为基础,结合最优抽样规模生成初始大数据集的最优极小样本数据集;
步骤106,将最优极小样本数据集作为初始大数据集的约简结果。
在获取到每个目标类簇的最优抽样规模后,可以根据最优抽样规模对每个目标类簇进行抽样。为了实现最优化最优极小样本数据集抽样同时保证数据的全面性与多样性,首先可以将每个目标类簇的目标聚类中心、目标重心以及目标重心周围的数据实例挑出作为样本数据,再根据最优抽样规模在目标类簇中随机抽样其余的样本数据,从而形成每个目标类簇的最优极小样本数据集。在得到每个目标类簇的最优极小样本数据集后,可以综合初始大数据集的所有目标类簇的最优极小样本数据集,得到初始大数据集的最优极小样本数据集,作为初始大数据集的约简结果。
本发明通过利用大数据聚类和极小样本抽样思想实现高效的大数据实例规模约简策略,同时基于类簇的分布特点对类簇进行并行约简实现高效的大数据实例约简预处理过程,进而在尽可能保证大数据原有特性的情况下促进大数据的高效分析处理。
请参阅图2,图2为本发明另一实施例提供的一种大数据实例约简方法的步骤流程图。具体可以包括以下步骤:
步骤201,对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
步骤201与步骤101相同,具体可参照步骤101的描述,此处不再赘述。
步骤202,分别对每个逻辑数据块进行聚类,得到多个目标类簇;
在完成对初始大数据集的逻辑分块后,可以分别对每个逻辑数据块进行聚类,得到多个目标类簇。
在一个示例中,每个逻辑数据块均具有多个数据实例;分别对每个逻辑数据块进行聚类,得到多个目标类簇的步骤,可以包括以下子步骤:
S21,采用最大最小距离法选取逻辑数据块的若干个初始聚类中心;
在本发明实施例中,可以通过最大最小距离法选取逻辑数据块的若干个初始聚类中心,然后通过迭代的方式更新聚类中心,以作为将逻辑数据块划分为多个目标类簇的基础。
在一个示例中,步骤S21可以包括以下子步骤:
S211,在逻辑数据块中任取一个数据实例作为第一聚类中心;
S212,在逻辑数据块中找出与第一聚类中心距离最大的数据实例作为第二聚类中心;
S213,将第一聚类中心和第二聚类中心添加进聚类中心集中;
S214,计算逻辑数据块中除聚类中心集以外的数据实例与聚类中心集的最小距离值;
S215,获取所有最小距离值中的最大值;
S216,判断最大值是否满足预设检验条件;
S217,若否,将聚类中心集中的聚类中心作为逻辑数据块的初始聚类中心;
S218,若最大值满足预设检验条件,则将最大值对应的数据实例作为第三聚类中心,将第三聚类中心添加进聚类中心集中,并返回计算逻辑数据块中除聚类中心集以外的数据实例与聚类中心集的最小距离值的步骤。
在具体实现中,首先在逻辑数据块Di中任选一个数据实例x1,将其作为逻辑数据块Di(假设Di中有N个数据实例)中的第一个聚类中心CC1,则有CC1=x1,在Di中找出与CC1距离最大的数据实例作为第二聚类中心CC2。并将CC1和CC2添加进聚类中心集中,然后对逻辑数据块Di中剩余的(N-2)个数据实例分别计算其到CC1和CC2的距离,其中最小距离值为min(d(xi,CC1),d(xi,CC2)),该最小距离值表征剩余的每个数据实例距其最近的聚类中心的距离值。
接着,计算min(d(xi,CC1),d(xi,CC2))的最大值,记为max(min(d(xi,CC1),d(xi,CC2))),获取对应的数据实例x3,判断该最大值是否满足检验条件,若满足预设检验条件,则将x3作为第三个聚类中心CC3。接着计算max(min(d(xi,CC1),d(xi,CC2),d(xi,CC3))),其对应的数据实例为x4,判断max(min(d(xi,CC1),d(xi,CC2),d(xi,CC3)))是否满足预设检验条件,若满足,则将x4作为第四个聚类中心CC4。循环上述判断是否存在新的聚类中心的步骤,如果没有满足检验条件的新聚类中心出现,则停止循环。此时所得到的所有聚类中心即为逻辑数据块的初始聚类中心。
其中,假设通过最大最小距离法选取的初始聚类中心CCi的个数为k,则其检验条件如下:
max{min{d(xj,CCj)|j∈{1,2,...,k},i∈{1,2,...,N}}>θ*d(CC1-CC2)}
其中,θ为最大最小距离法中的检验参数,通常取0.5≤θ≤1。
需要说明的是,本发明实施例中,数据实例与聚类中心的距离为欧式距离,表征数据实例与聚类中心的相似度。
假设一个具有N个数据实例的逻辑数据块表示为Di={x1,x2,…,xN},其中xi表示第i个数据实例。假设每个数据实例有m个特征属性,第i个数据实例的第j个属性的属性值用xij(j∈{1,2,…,m})表示。采用欧式距离来衡量两个数据实例xα和xβ的相似度,其公式如下:
S22,以每个初始聚类中心为基础对逻辑数据块进行聚类,得到若干个初始类簇;
以每个初始聚类中心为基础对所有逻辑数据块进行聚类,则可以得到若干个初始类簇。
具体地,可以通过以下公式将每个数据实例聚类到相应距离最近的聚类中心:
d(xi,CCp)=min{d(xi,CCj)|j∈{1,2,...,k}}
该公式表征数据实例xi在初始类簇Cp中,CCp为类簇Cp的初始聚类中心。
S23,计算每个初始类簇的初始重心,并根据初始重心计算逻辑数据块的初始误差平方和;
在获取到初始聚类中心后,可以通过以下公式计算得到每个初始类簇的初始重心Gp:
在计算得到每个初始类簇的初始重心后,可以采用误差平方和准则函数作为目标函数计算误差平方和,用以判别聚类过程中的收敛情况。误差平方和准则函数如下:
其中,Gi是初始类簇Ci中数据实例的初始重心,q是初始类簇Ci中的任一数据实例点。
S24,以初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
在获取到初始类簇的初始重心,可以将初始重心Gi上的数据实例Pi作为新的聚类中心进行聚类,得到更新类簇。
需要说明的是,如果Gi上不存在数据实例,则以距离Gi最近的数据实例作为新的聚类中心进行聚类,得到更新类簇。
S25,计算每个更新类簇的更新重心,并根据更新重心计算逻辑数据块的更新误差平方和;
接着获取更新类簇的更新重心,并根据更新重心重新计算逻辑数据块的更新误差平方和。
更新误差平方和的计算方式参考初始误差平方和的计算公式,此处不再赘述。
S26,判断初始误差平方和与更新误差平方和的差值的绝对值是否小于预设阈值;
S27,若是,将更新类簇作为逻辑数据块的目标类簇;
S28,若初始误差平方和与更新误差平方和的差值的绝对值不小于预设阈值,则将更新误差平方和作为初始误差平方和,将更新重心作为初始重心,并返回以初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇的步骤。
在获取到初始误差平方和以及更新误差平方和之后,可以根据以下公式判断是否进行迭代计算:
|Jc-J′c|<ε
其中,Jc为初始误差平方和;J′c为更新误差平方和;ε为预设阈值,是一个小数值的正数。若上述公式成立,则停止迭代,将更新类簇作为逻辑数据块的目标类簇。若上述公式不成立,则进行迭代,更新聚类中心并重新对Di中所有数据实例进行聚类。根据定义,Jc值在循环迭代聚类的过程中会趋于下降,在最小值时稳定,因此可以将最小值作为预设阈值ε。Jc值的变化小于预设阈值或为0时表示聚类过程收敛,此时得到的聚类结果即为最终聚类结果。
步骤203,采用最优样本大小算法确定每个目标类簇的最优抽样规模;
在完成对每个逻辑数据块的聚类后,可以采用最优样本大小算法确定每个目标类簇的最优抽样规模。
在具体实现中,假设目标类簇Cp的一个抽样样本S的样本质量为Q(S),计算公式如下:
其中,PSq表示抽样数据集S在特征上取第q个特征属性值的样本在S中所占的比例;PDq表示目标类簇Cp在特征上取第q个特征属性值的样本在Cp中所占的比例。rj表示特征j的取值空间大小。Q的取值范围为0<Q≤1,且Q越大表示抽样数据集S与Cp在特征j上的偏差程度越小,即两个数据集之间的差异就越小,抽样数据集S的质量就越高。随机从Cp中抽取L个抽样样本集Si(i=1,2,…,L),这些抽样样本集的容量在[1,|Cp|]范围内,|Cp|表示目标类簇Cp的数据实例个数,且|S1|≤|S2|≤...≤|SL|。利用样本质量计算公式可计算出每个抽样样本集Si针对Cp的样本质量Qi,这样就得到了L个坐标点{(Si,Qi)|i=1,2,3,...,L},利用其拟合出一条样本容量大小与样本质量之间关系的曲线,如图3所示。根据图3的样本容量大小与样本质量之间关系的曲线,可以得到每个目标类簇的最优抽样规模nmim。
步骤204,获取每个目标类簇的目标聚类中心和目标重心;
步骤205,根据每个目标类簇的最优抽样规模在目标类簇中随机抽取样本数据;
步骤206,采用目标聚类中心和目标重心分别对应的数据实例,以及样本数据生成目标类簇的类簇最优极小样本数据集;
步骤207,采用逻辑数据块的所有目标类簇分别对应的类簇最优极小样本数据集,生成逻辑数据块的块最优极小样本数据集;
步骤208,采用初始大数据集的所有逻辑数据块分别对应的块最优极小样本数据集,生成初始大数据集的最优极小样本数据集;
步骤209,将最优极小样本数据集作为初始大数据集的约简结果。
在获取到每个目标类簇的最优抽样规模后,可以根据最优抽样规模对每个目标类簇进行抽样。为了实现最优化最优极小样本数据集抽样同时保证数据的全面性与多样性,首先可以将每个目标类簇的目标聚类中心、目标重心以及目标重心周围的数据实例挑出作为样本数据,再根据最优抽样规模在目标类簇中随机抽样其余的样本数据,从而形成每个目标类簇的类簇最优极小样本数据集。将每个逻辑数据块的所有目标类簇分别对应的类簇最优极小样本数据集整合起来,可以构成逻辑数据块的块最优极小样本数据集。将每个逻辑数据块的块最优极小样本数据集整合起来,可以得到初始大数据集的最优极小样本数据集,作为初始大数据集的约简结果。
本发明通过利用大数据聚类和极小样本抽样思想实现高效的大数据实例规模约简策略,同时基于类簇的分布特点对类簇进行并行约简实现高效的大数据实例约简预处理过程,进而在尽可能保证大数据原有特性的情况下促进大数据的高效分析处理。
为便于理解,以下通过具体示例来对本发明实施例进行说明:
请参阅图4,图4为本发明实施例提供的大数据实例约简方法的应用示意图。
如图4所示,假设云计算资源池中有K个物理主机用于本发明实施例的大数据约简方法的执行,并设定把即将要进行实例约简的大数据集D分布式地部署到J个物理存储主机(每个物理存储主机可以包括若干个虚拟机)上。各个物理存储主机将要部署的大数据数据D的子集的规模根据具体的本地存储和空间分配策略来确定。本发明实施例将即将要进行实例约简的大数据集均匀地分成n个逻辑数据块。每一个逻辑数据块被分得一个由相同数量虚拟计算节点构成的虚拟集群。这n个虚拟集群中的每一个都基于MapReduce云框架并行地运行本发明实施例的大数据实例约简方法来处理各自的逻辑数据块。每个逻辑数据块在某个物理存储节点内或容纳了一个甚至多个物理存储主机上的大数据集的子集。基于云计算虚拟集群下的MapReduce高效并行计算,使得具有代表性的大数据样本从各个物理存储节点上被挑选出来,组成基于聚类分析的最优极小样本数据集,代表并替换原大数据集作为后续大数据分析挖掘的对象。
通过对大数据集进行逻辑分块并利用云计算下的多虚拟计算集群并行且独立地对每个逻辑数据块进行算法过程,充分利用云计算的并行计算能力而进行了针对性的物理层面的并行设计。这不仅可以提高云计算下大数据实例约简的执行效率,而且保证了大数据抽样的全面性与多样性。
请参阅图5,图5为本发明实施例提供的一种大数据实例约简装置的结构框图。
本发明实施例提供了一种大数据实例约简装置,包括:
分块模块501,用于对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
聚类模块502,用于分别对每个逻辑数据块进行聚类,得到多个目标类簇;
最优抽样规模确定模块503,用于采用最优样本大小算法确定每个目标类簇的最优抽样规模;
目标聚类中心和目标重心获取模块504,用于获取每个目标类簇的目标聚类中心和目标重心;
最优极小样本数据集生成模块505,用于以目标聚类中心和目标重心为基础,结合最优抽样规模生成初始大数据集的最优极小样本数据集;
约简模块506,用于将最优极小样本数据集作为初始大数据集的约简结果。
在本发明实施例中,每个逻辑数据块均具有多个数据实例;聚类模块502,包括:
初始聚类中心选取子模块,用于采用最大最小距离法选取逻辑数据块的若干个初始聚类中心;
初始类簇生成子模块,用于以每个初始聚类中心为基础对逻辑数据块进行聚类,得到若干个初始类簇;
初始误差平方和计算子模块,用于计算每个初始类簇的初始重心,并根据初始重心计算逻辑数据块的初始误差平方和;
更新类簇生成子模块,用于以初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
更新误差平方和计算子模块,用于计算每个更新类簇的更新重心,并根据更新重心计算逻辑数据块的更新误差平方和;
阈值判断子模块,用于判断初始误差平方和与更新误差平方和的差值的绝对值是否小于预设阈值;
目标类簇确定子模块,用于若是,将更新类簇作为逻辑数据块的目标类簇。
在本发明实施例中,聚类模块502,还包括:
类簇更新子模块,用于若初始误差平方和与更新误差平方和的差值的绝对值不小于预设阈值,则将更新误差平方和作为初始误差平方和,将更新重心作为初始重心,并返回以初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇的步骤。
在本发明实施例中,初始聚类中心选取子模块,包括:
第一聚类中心选取单元,用于在逻辑数据块中任取一个数据实例作为第一聚类中心;
第二聚类中心确定单元,用于在逻辑数据块中找出与第一聚类中心距离最大的数据实例作为第二聚类中心;
第一添加单元,用于将第一聚类中心和第二聚类中心添加进聚类中心集中;
最小距离值计算单元,用于计算逻辑数据块中除聚类中心集以外的数据实例与聚类中心集的最小距离值;
最大值获取单元,用于获取所有最小距离值中的最大值;
检验条件判断单元,用于判断最大值是否满足预设检验条件;
初始聚类中心选取单元,用于若否,将聚类中心集中的聚类中心作为逻辑数据块的初始聚类中心。
在本发明实施例中,初始聚类中心选取子模块,还包括:
单元,用于若最大值满足预设检验条件,则将最大值对应的数据实例作为第三聚类中心,将第三聚类中心添加进聚类中心集中,并返回计算逻辑数据块中除聚类中心集以外的数据实例与聚类中心集的最小距离值的步骤。
在本发明实施例中,最优极小样本数据集生成模块505,包括:
样本数据抽取子模块,用于根据每个目标类簇的最优抽样规模在目标类簇中随机抽取样本数据;
类簇最优极小样本数据集生成子模块,用于采用目标聚类中心和目标重心分别对应的数据实例,以及样本数据生成目标类簇的类簇最优极小样本数据集;
块最优极小样本数据集生成子模块,用于采用逻辑数据块的所有目标类簇分别对应的类簇最优极小样本数据集,生成逻辑数据块的块最优极小样本数据集;
最优极小样本数据集生成子模块,用于采用初始大数据集的所有逻辑数据块分别对应的块最优极小样本数据集,生成初始大数据集的最优极小样本数据集。
本发明实施例还提供了一种电子设备,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行本发明实施例的大数据实例约简方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本发明实施例的大数据实例约简方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种大数据实例约简方法,其特征在于,包括:
对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;
采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;
获取每个目标类簇的目标聚类中心和目标重心;
以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;
将所述最优极小样本数据集作为所述初始大数据集的约简结果。
2.根据权利要求1所述的方法,其特征在于,每个所述逻辑数据块均具有多个数据实例;所述分别对每个所述逻辑数据块进行聚类,得到多个目标类簇的步骤,包括:
采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;
以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;
计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;
以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;
判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;
若是,将所述更新类簇作为所述逻辑数据块的目标类簇。
3.根据权利要求2所述的方法,其特征在于,还包括:
若所述初始误差平方和与所述更新误差平方和的差值的绝对值不小于所述预设阈值,则将所述更新误差平方和作为所述初始误差平方和,将所述更新重心作为所述初始重心,并返回以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇的步骤。
4.根据权利要求2所述的方法,其特征在于,所述采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心的步骤,包括:
在所述逻辑数据块中任取一个数据实例作为第一聚类中心;
在所述逻辑数据块中找出与所述第一聚类中心距离最大的数据实例作为第二聚类中心;
将所述第一聚类中心和所述第二聚类中心添加进聚类中心集中;
计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值;
获取所有所述最小距离值中的最大值;
判断所述最大值是否满足预设检验条件;
若否,将所述聚类中心集中的聚类中心作为所述逻辑数据块的初始聚类中心。
5.根据权利要求4所述的方法,其特征在于,还包括:
若所述最大值满足预设检验条件,则将所述最大值对应的数据实例作为第三聚类中心,将所述第三聚类中心添加进所述聚类中心集中,并返回所述计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值的步骤。
6.根据权利要求1所述的方法,其特征在于,所述以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集的步骤,包括:
根据每个目标类簇的最优抽样规模在所述目标类簇中随机抽取样本数据;
采用所述目标聚类中心和所述目标重心分别对应的数据实例,以及所述样本数据生成所述目标类簇的类簇最优极小样本数据集;
采用所述逻辑数据块的所有目标类簇分别对应的类簇最优极小样本数据集,生成所述逻辑数据块的块最优极小样本数据集;
采用所述初始大数据集的所有逻辑数据块分别对应的块最优极小样本数据集,生成所述初始大数据集的最优极小样本数据集。
7.一种大数据实例约简装置,其特征在于,包括:
分块模块,用于对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
聚类模块,用于分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;
最优抽样规模确定模块,用于采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;
目标聚类中心和目标重心获取模块,用于获取每个目标类簇的目标聚类中心和目标重心;
最优极小样本数据集生成模块,用于以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;
约简模块,用于将所述最优极小样本数据集作为所述初始大数据集的约简结果。
8.根据权利要求7所述的装置,其特征在于,每个所述逻辑数据块均具有多个数据实例;所述聚类模块,包括:
初始聚类中心选取子模块,用于采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;
初始类簇生成子模块,用于以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;
初始误差平方和计算子模块,用于计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;
更新类簇生成子模块,用于以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
更新误差平方和计算子模块,用于计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;
阈值判断子模块,用于判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;
目标类簇确定子模块,用于若是,将所述更新类簇作为所述逻辑数据块的目标类簇。
9.一种电子设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的大数据实例约简方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-6任一项所述的大数据实例约简方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210968071.5A CN115358308A (zh) | 2022-08-12 | 2022-08-12 | 一种大数据实例约简方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210968071.5A CN115358308A (zh) | 2022-08-12 | 2022-08-12 | 一种大数据实例约简方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115358308A true CN115358308A (zh) | 2022-11-18 |
Family
ID=84033699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210968071.5A Pending CN115358308A (zh) | 2022-08-12 | 2022-08-12 | 一种大数据实例约简方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115358308A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421354A (zh) * | 2023-12-19 | 2024-01-19 | 国家卫星海洋应用中心 | 一种卫星遥感大数据集统计方法、装置及设备 |
CN117727373A (zh) * | 2023-12-01 | 2024-03-19 | 海南大学 | 基于样本和特征双加权的特征约简中智c-均值聚类方法 |
CN118381582A (zh) * | 2024-06-25 | 2024-07-23 | 南凌科技股份有限公司 | 数据传输方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291847A (zh) * | 2017-06-02 | 2017-10-24 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN109858518A (zh) * | 2018-12-26 | 2019-06-07 | 中译语通科技股份有限公司 | 一种基于MapReduce的大型数据集聚类方法 |
CN110096630A (zh) * | 2019-05-06 | 2019-08-06 | 吉林农业大学 | 一类基于聚类分析的大数据处理方法 |
CN110570312A (zh) * | 2019-09-17 | 2019-12-13 | 深圳追一科技有限公司 | 样本数据获取方法、装置、计算机设备和可读存储介质 |
-
2022
- 2022-08-12 CN CN202210968071.5A patent/CN115358308A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291847A (zh) * | 2017-06-02 | 2017-10-24 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN109858518A (zh) * | 2018-12-26 | 2019-06-07 | 中译语通科技股份有限公司 | 一种基于MapReduce的大型数据集聚类方法 |
CN110096630A (zh) * | 2019-05-06 | 2019-08-06 | 吉林农业大学 | 一类基于聚类分析的大数据处理方法 |
CN110570312A (zh) * | 2019-09-17 | 2019-12-13 | 深圳追一科技有限公司 | 样本数据获取方法、装置、计算机设备和可读存储介质 |
Non-Patent Citations (1)
Title |
---|
丁言: "云计算下大数据高效处理的若干关键问题研究", 《中国博士学位论文全文数据库 (信息科技辑)》, vol. 2018, no. 12, 15 December 2018 (2018-12-15), pages 5 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117727373A (zh) * | 2023-12-01 | 2024-03-19 | 海南大学 | 基于样本和特征双加权的特征约简中智c-均值聚类方法 |
CN117727373B (zh) * | 2023-12-01 | 2024-05-31 | 海南大学 | 基于样本和特征双加权的特征约简中智c-均值聚类方法 |
CN117421354A (zh) * | 2023-12-19 | 2024-01-19 | 国家卫星海洋应用中心 | 一种卫星遥感大数据集统计方法、装置及设备 |
CN117421354B (zh) * | 2023-12-19 | 2024-03-19 | 国家卫星海洋应用中心 | 一种卫星遥感大数据集统计方法、装置及设备 |
CN118381582A (zh) * | 2024-06-25 | 2024-07-23 | 南凌科技股份有限公司 | 数据传输方法、装置、设备及存储介质 |
CN118381582B (zh) * | 2024-06-25 | 2024-09-27 | 南凌科技股份有限公司 | 数据传输方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115358308A (zh) | 一种大数据实例约简方法、装置、电子设备及存储介质 | |
WO2020147317A1 (zh) | 一种网络异常行为确定方法、装置、设备及可读存储介质 | |
US11100073B2 (en) | Method and system for data assignment in a distributed system | |
CN109189876B (zh) | 一种数据处理方法及装置 | |
US20050246441A1 (en) | Automatic assignment of services to servers in a multi-server system | |
CN111522968A (zh) | 知识图谱融合方法及装置 | |
CN108322428A (zh) | 一种异常访问检测方法及设备 | |
CN114116829A (zh) | 异常数据分析方法、异常数据分析系统和存储介质 | |
WO2017095413A1 (en) | Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors | |
Li et al. | Losha: A general framework for scalable locality sensitive hashing | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
Diao et al. | Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph | |
CN110334104A (zh) | 一种榜单更新方法、装置、电子设备及存储介质 | |
CN112836747A (zh) | 眼动数据的离群处理方法及装置、计算机设备、存储介质 | |
CN113269238A (zh) | 一种基于密度峰值的数据流聚类方法及装置 | |
Chen et al. | DBSCAN-PSM: an improvement method of DBSCAN algorithm on Spark | |
CN115292303A (zh) | 数据处理方法及装置 | |
CN116028832A (zh) | 一种样本聚类处理方法、装置、存储介质及电子设备 | |
CN116362577A (zh) | 一种目标类别隶属度分析方法、系统、设备和存储介质 | |
CN114138330A (zh) | 基于知识图谱的代码克隆检测优化方法、装置和电子设备 | |
CN106294096B (zh) | 一种信息处理方法及装置 | |
CN114024912A (zh) | 一种基于改造chameleon算法的网络流量应用识别分析方法及系统 | |
CN108090182B (zh) | 一种大规模高维数据的分布式索引方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |