CN110096630A

CN110096630A - 一类基于聚类分析的大数据处理方法

Info

Publication number: CN110096630A
Application number: CN201910373090.1A
Authority: CN
Inventors: 胡雅婷; 李健; 汪威; 王国伟; 温长吉; 石磊; 杨之音; 王明月; 丁小奇; 姜楠; 任虹宾; 赵珊珊; 蔡红丹; 申利未; 熊琦; 王希; 陈营华
Original assignee: Jilin Agricultural University
Current assignee: Jilin Agricultural University
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-08-06

Abstract

本发明公开了一类基于聚类分析的大数据处理方法，包括如下步骤：构建算法模型、数据约简聚类、划分聚类优化、构建函数、聚类有效性分析和结果输出，本发明结构科学合理，使用安全方便，该基于聚类分析的大数据处理方法运行时，采集到的原始数据首先会建立原始数据集合，随后进行数据约简，并根据约简后数据中的特征选择，选择具有相同特征的划分成单个聚簇，选取每个聚簇中心位置数据，构建一个划分矩阵代入函数进行优化，随后计算聚类的聚类有效性指标值，若聚类有效性指标值符合，算法终止，输出的运算结果，需转化为计算机所能识别语言，并通过计算机将运算结果转化为图表呈现在电子显示设备上，供使用者参考。

Description

一类基于聚类分析的大数据处理方法

技术领域

本发明涉及大数据处理技术领域，具体为一类基于聚类分析的大数据处理方法。

背景技术

大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产，大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分，据IDC的调查报告显示：企业中80％的数据都是非结构化数据，这些数据每年都按指数增长60％，大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本看起来很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值；

聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法，聚类分析也称群分析、点群分析，是研究分类的一种多元统计方法，聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中，聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，通过分组聚类出具有相似浏览行为的客户，并分析客户的共同特征，可以更好的帮助电子商务的用户了解自己的客户，向客户提供更合适的服务。

发明内容

本发明提供一种技术方案，可以有效解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一类基于聚类分析的大数据处理方法，包括如下步骤：

S1、构建算法模型：在计算机内构建FCM算法模型；

S2、数据约简：代入原始数据，使用数据约简算法对原始数据进行约简；

S3、聚类划分：代入约简后的数据，根据约简后数据中的特征选择，选择具有相同特征的划分成单个聚簇，将全部约简的数据划分为多个聚簇；

S4、聚类优化：选取每个聚簇中心位置数据，构建一个划分矩阵，并代入函数进行优化；

S5、构建函数：构建判别函数；

S6、聚类有效性分析：代入判别函数，得出聚类有效性指标值，若达到终止条件，停止运算，若未达到终止条件，返回步骤2重新计算；

S7、结果输出：输出运算结果，并将运算结果转换为计算机所能识别语言。

根据上述技术特征，所述步骤1中，构建的函数模型为：

这里c是聚类个数，V＝[v₁,v₂,…,v_n]是聚类中心向量构成的矩阵，d_ij＝||x_j-v_i||表示数据x_j与聚类中心v_i之间的距离,U＝(u_ij)_c×n是模糊划分矩阵，u_ij表示数据x_j属于第i类的隶属度值，满足0≤u_ij≤1,(i＝1,…,c,j＝1,…,n)与指数m>1是模糊系数，它用来控制聚类划分结果的模糊程度。

根据上述技术特征，所述步骤2中，代入原始数据，假设原始数据集合为约简后数据集合为d(x,S)表示数据x与数据集合S之间的距离，数据约简算法的具体过程如下：

A、初始化阈值γ，l＝1，y_l＝x₁，j＝2；

B、对数据x_j，计算整数r使其满足d(x_j,y_r)＝min_1≤k≤ld(x_j,y_k)；

C、如果d(x_j,y_r)＞γ，l＝l+1，y_l＝x_j；否则，令y_r＝y_r∪x_j，j＝j+1；

D、如果j＜n，转至步骤B；否则，更新y_k为其自身数据集合的均值。

根据上述技术特征，所述步骤3中，代入DWFCM算法模型的约简后数据，会根据约简后数据中的特征选择，选择具有相同特征的划分成单个聚簇，将全部原始数据划分为n个聚簇。

根据上述技术特征，所述步骤4中，选取每个聚簇中心位置数据，构建一个划分矩阵V＝(x1+x2+...xn)，代入函数进行优化，得到集合Q＝(X1+X2+...Xn),去除集合中的重复数据。

根据上述技术特征，所述步骤5中，构建判别函数，判别函数具体为：

设定聚类个数最小值c_min、最大值c_max、模糊系数m、DWFCM算法的最大运行次数T_max、迭代收敛精度ε，令当前聚类个数c＝c_min、运行次数T＝0。

根据上述技术特征，所述步骤6具体分为以下几个步骤：

a：利用DRA算法得到约简后数据集合

b：设定权重为数据精简前的数据个数、随机初始化DWFCM算法的隶属度矩阵或者中心；

c：利用

式迭代直至满足DWFCM算法终止条件||U^new-U^old||＜ε，设定T＝T+1，保存聚类中心与目标函数值；

d：如果T＝T_max，取为DWFCM算法最小目标函数值对应的聚类中心；

e：以为初始中心运行FCM算法，得到聚类中心V与划分矩阵U；

f：根据U、V计算聚类个数c的聚类有效性指标值，聚类有效性指标值符合结果，则停止运算，若不符合，令c＝c+1，转至步骤2。

根据上述技术特征，所述步骤6中，步骤c内，取为数据精简前的数据个数，表示数据与聚类中心v_i之间的距离。

根据上述技术特征，所述步骤6中，步骤f具体还有以下判别条件：

若c＝c_max，根据不同个数下的有效性指标值确定最优聚类个数c^*，输出c＝c^*时的聚类划分矩阵与聚类中心，算法终止，否则，令c＝c+1，转至步骤2。

根据上述技术特征，所述步骤7中，输出的运算结果，需转化为计算机所能识别语言，通过计算机内部存储单元进行存储，并通过计算机将运算结果转化为图表呈现在电子显示设备上，供使用者参考。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便：

该基于聚类分析的大数据处理方法运行时，采集到的原始数据首先会建立原始数据集合随后初始化阈值γ，l＝1，y_l＝x₁，j＝2，对数据x_j，计算整数r使其满足d(x_j,y_r)＝min_1≤k≤ld(x_j,y_k)，如果d(x_j,y_r)＞γ，l＝l+1，y_l＝x_j；否则，令y_r＝y_r∪x_j，j＝j+1，如果j＜n，转至步骤B；否则，更新y_k为其自身数据集合的均值，约简后数据集合为代入DWFCM算法模型的约简后数据，会根据约简后数据中的特征选择，选择具有相同特征的划分成单个聚簇，将全部原始数据划分为n个聚簇，选取每个聚簇中心位置数据，构建一个划分矩阵V＝(x1+x2+...xn)，代入函数进行优化，得到集合Q＝(X1+X2+...Xn),去除集合中的重复数据，利用DRA算法得到约简后数据集合设定权重为数据精简前的数据个数、随机初始化DWFCM算法的隶属度矩阵或者中心，利用和式迭代直至满足DWFCM算法终止条件||U^new-Uo^ld||＜ε，设定T＝T+1，保存聚类中心与目标函数值，如果T＝T_max，取为DWFCM算法最小目标函数值对应的聚类中心，以为初始中心运行FCM算法，得到聚类中心V与划分矩阵U，根据U、V计算聚类个数c的聚类有效性指标值，若c＝c_max，根据不同个数下的有效性指标值确定最优聚类个数c^*，输出c＝c^*时的聚类划分矩阵与聚类中心，算法终止，否则，令c＝c+1，转至步骤2，输出的运算结果，需转化为计算机所能识别语言，通过计算机内部存储单元进行存储，并通过计算机将运算结果转化为图表呈现在电子显示设备上，供使用者参考。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明的流程结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供一种技术方案，本发明提供如下技术方案：一类基于聚类分析的大数据处理方法，包括如下步骤：

S1、构建算法模型：在计算机内构建FCM算法模型；

S5、构建函数：构建判别函数；

根据上述技术特征，步骤1中，构建的函数模型为：

这里c是聚类个数，V＝[v₁,v₂,…,v_n]是聚类中心向量构成的矩阵，di_j＝||x_j-v_i||表示数据x_j与聚类中心vi之间的距离,U＝(u_ij)_c×n是模糊划分矩阵，u_ij表示数据x_j属于第i类的隶属度值，满足0≤u_ij≤1,(i＝1,…,c,j＝1,…,n)与指数m>1是模糊系数，它用来控制聚类划分结果的模糊程度。

根据上述技术特征，步骤2中，代入原始数据，假设原始数据集合为约简后数据集合为d(x,S)表示数据x与数据集合S之间的距离，数据约简算法的具体过程如下：

A、初始化阈值γ，l＝1，y_l＝x₁，j＝²；

根据上述技术特征，步骤3中，代入DWFCM算法模型的约简后数据，会根据约简后数据中的特征选择，选择具有相同特征的划分成单个聚簇，将全部原始数据划分为n个聚簇。

根据上述技术特征，步骤4中，选取每个聚簇中心位置数据，构建一个划分矩阵V＝(x1+x2+...xn)，代入函数进行优化，得到集合Q＝(X1+X2+...Xn),去除集合中的重复数据。

根据上述技术特征，步骤5中，构建判别函数，判别函数具体为：

根据上述技术特征，步骤6具体分为以下几个步骤：

a：利用DRA算法得到约简后数据集合

c：利用

和

e：以为初始中心运行FCM算法，得到聚类中心V与划分矩阵U；

根据上述技术特征，步骤6中，步骤c内，取为数据精简前的数据个数，表示数据与聚类中心v_i之间的距离。

根据上述技术特征，步骤6中，步骤f具体还有以下判别条件：

根据上述技术特征，步骤7中，输出的运算结果，需转化为计算机所能识别语言，通过计算机内部存储单元进行存储，并通过计算机将运算结果转化为图表呈现在电子显示设备上，供使用者参考。

本发明的工作原理及使用流程：该基于聚类分析的大数据处理方法运行时，采集到的原始数据首先会建立原始数据集合随后初始化阈值γ，l＝1，y_l＝x₁，j＝2，对数据x_j，计算整数r使其满足d(x_j,y_r)＝min_1≤k≤ld(x_j,y_k)，如果d(x_j,y_r)＞γ，l＝l+1，y_l＝x_j；否则，令y_r＝y_r∪x_j，j＝j+1，如果j＜n，转至步骤B；否则，更新y_k为其自身数据集合的均值，约简后数据集合为代入DWFCM算法模型的约简后数据，会根据约简后数据中的特征选择，选择具有相同特征的划分成单个聚簇，将全部原始数据划分为n个聚簇，选取每个聚簇中心位置数据，构建一个划分矩阵V＝(x1+x2+...xn)，代入函数进行优化，得到集合Q＝(X1+X2+...Xn),去除集合中的重复数据，利用DRA算法得到约简后数据集合设定权重为数据精简前的数据个数、随机初始化DWFCM算法的隶属度矩阵或者中心，利用和式迭代直至满足DWFCM算法终止条件||U^new-U^old||＜ε，设定T＝T+1，保存聚类中心与目标函数值，如果T＝T_max，取为DWFCM算法最小目标函数值对应的聚类中心，以为初始中心运行FCM算法，得到聚类中心V与划分矩阵U，根据U、V计算聚类个数c的聚类有效性指标值，若c＝c_max，根据不同个数下的有效性指标值确定最优聚类个数c^*，输出c＝c^*时的聚类划分矩阵与聚类中心，算法终止，否则，令c＝c+1，转至步骤2，输出的运算结果，需转化为计算机所能识别语言，通过计算机内部存储单元进行存储，并通过计算机将运算结果转化为图表呈现在电子显示设备上，供使用者参考。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一类基于聚类分析的大数据处理方法，其特征在于，包括如下步骤：

S1、构建算法模型：在计算机内构建FCM算法模型；

S5、构建函数：构建判别函数：

2.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤1中，构建的函数模型为：

3.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤2中，代入原始数据，假设原始数据集合为约简后数据集合为d(x,S)表示数据x与数据集合S之间的距离，数据约简算法的具体过程如下：

A、初始化阈值γ，l＝1，y_l＝x₁，j＝2；

C、如果d(x_j,y_r)＞γ，l＝l+1，y_l＝x_j；否则，令j＝j+1；

4.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤3中，代入DWFCM算法模型的约简后数据，会根据约简后数据中的特征选择，选择具有相同特征的划分成单个聚簇，将全部原始数据划分为n个聚簇。

5.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤4中，选取每个聚簇中心位置数据，构建一个划分矩阵V＝(x1+x2+...xn)，代入函数进行优化，得到集合Q＝(X1+X2+...Xn),去除集合中的重复数据。

6.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤5中，构建判别函数，判别函数具体为：

7.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤6具体分为以下几个步骤：

a：利用DRA算法得到约简后数据集合

c：利用

和

e：以为初始中心运行FCM算法，得到聚类中心V与划分矩阵U；

8.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤6中，步骤c内，取为数据精简前的数据个数，表示数据与聚类中心v_i之间的距离。

9.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤6中，步骤f具体还有以下判别条件：

10.根据权利要求1所述的一类基于聚类分析的大数据处理方法，其特征在于，所述步骤7中，输出的运算结果，需转化为计算机所能识别语言，通过计算机内部存储单元进行存储，并通过计算机将运算结果转化为图表呈现在电子显示设备上，供使用者参考。