CN112948640B

CN112948640B - 一种基于云计算平台的大数据聚类方法及系统

Info

Publication number: CN112948640B
Application number: CN202110258079.8A
Authority: CN
Inventors: 李小军; 朱科西
Original assignee: Chengdu Industry and Trade College
Current assignee: Chengdu Industry and Trade College
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-03-15
Anticipated expiration: 2041-03-10
Also published as: CN112948640A

Abstract

本发明公开了一种基于云计算平台的大数据聚类方法及系统，包括以下步骤：收集数据对象并识别数据对象的直接特征，并对数据对象深度剖析以区分不同种类的数据对象和汇聚相同种类的数据对象；将数据对象的特征细化以创建分类层树状图，且数据对象的聚类深度与分类层树状图的分级自下到上一一匹配；根据数据对象的直接特征确定数据对象在分类层树状图内的分支路径，并利用转换模型确定数据对象的聚类分项，以对大数据分类聚簇保存；本发明以收集的数据对象对应的直接特征为起点，通过遍历所有数据对象的直接特征之间的关联权重，选取关联权重大的直接特征合并到同一个聚类分项内，重复操作，直至生成至少一个分类层树状图。

Description

一种基于云计算平台的大数据聚类方法及系统

技术领域

本发明涉及大数据聚类技术领域，具体涉及一种基于云计算平台的大数据聚类方法及系统。

背景技术

云计算是分布式计算的一种，具体的作用是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序，然后，通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期，简单地说，就是简单的分布式计算，解决任务分发，并进行计算结果的合并。因而，云计算又称为网格计算。通过这项技术，可以在很短的时间内完成对数以万计的数据的处理，从而达到强大的网络服务。

随着信息技术的高速发展，数据库应用的规模、范围和深度的不断扩大，导致积累了大量的数据，而这些激增的数据后面隐藏着许多重要的信息，因此人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库系统可以高效、方便地实现数据的录入、查询、统计等功能，但是无法发现数据中存在的各种关系和规则，更无法根据现有的数据预测未来的发展趋势。而数据聚类分析正是解决这一问题的有效途径，它是数据挖掘的重要组成部分，用于发现在数据库中未知的对象类，为数据挖掘提供有力的支持，它是近年来广为研究的问题之一。聚类分析是一个极富有挑战性的研究领域，采用基于聚类分析方法的数据挖掘在实践中已取得了较好的效果。聚类分析也可以作为其他一些算法的预处理步骤，聚类可以作为一个独立的工具来获知数据的分布情况，使数据形成簇，其他算法再在生成的簇上进行处理，聚类算法既可作为特征和分类算法的预处理步骤，也可将聚类结果用于进一步关联分析。

由于大数据聚类需要对数据对象进行拆解、分析和聚簇搭建，因此需要很多程序去计算如何将相似性的对象进行聚簇以及如何对差异性的数据进行区分，因此利用云计算平台提供了大数据聚类的稳定快速计算平台。

而现有的大数据聚类方式，虽然可以对数据量大、数据相似或重复的情况进行聚类，但是其没有剖析不同数据对象之间的关联，导致不同数据聚簇之间的相似性混乱，而且差异性也不足，无法起到真正的大数据聚类功能。

发明内容

本发明的目的在于提供一种基于云计算平台的大数据聚类方法及系统，以解决现有技术中没有剖析不同数据对象之间的关联，导致不同数据聚簇之间的相似性混乱，而且差异性也不足，无法起到真正的大数据聚类功能的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

一种基于云计算平台的大数据聚类方法，包括以下步骤：

步骤100、收集数据对象并识别所述数据对象的直接特征，并对所述数据对象深度剖析以区分不同种类的所述数据对象和汇聚相同种类的所述数据对象；

步骤200、将所述数据对象的特征细化以创建分类层树状图，且所述数据对象的聚类深度与所述分类层树状图的分级自下到上一一匹配；

步骤300、根据所述数据对象的直接特征确定所述数据对象在所述分类层树状图内的分支路径，并利用所述转换模型确定所述数据对象的聚类分项，以对大数据分类聚簇保存。

作为本发明的一种优选方案，在步骤100中，利用预处理池暂存所述数据对象并确定每种所述数据对象的直接特征，将每种所述数据对象的直接特征作为所述分类层树状图的起点，并按照自底向上的方式建立整个关于不同种类的所述数据对象的所述分类层树状图，创建所述分类层树状图的实现方式为：

确定每种所述数据对象的多层深度特征，并计算两种所述数据对象的不同深度特征之间的关联权重；

根据关联权重确定处于同一个所述分类层树状图的所述数据对象；

根据处于同一个所述分类层树状图的所述数据对象的深度特征，确定所述分类层树状图的聚类分项，且所述分类层树状图的最下层直接对应所述数据对象的直接特征，所述分类层树状图自下向上凝聚分层聚类。

作为本发明的一种优选方案，计算所有数据对象的所述直接特征之间的关联权重，且将具有相同权重的多个所述直接特征合并为对应所述分类层树状图的一个下层聚类分项；

继续计算所有所述下层聚类分项之间的关联权重，且将所述关联权重值大的多个所述下层聚类分项合并为中层聚类分项；

重复上述操作，如最上层的两个所述聚类分项之间的关联权重大于零，则建立一个所述分类层树状图；

若最上层的两个所述聚类分项之间的关联权重等于零，则分别建立两个以上的所述分类层树状图。

作为本发明的一种优选方案，所述数据对象的直接特征为所述数据对象携带的参数信息，所述数据对象的深度特征以所述数据对象的直接特征为起点，自下到上的确定所述数据对象在应用场景内的实际含义，且不同种类的所述数据对象的实际含义不同，以将所述数据对象对应所述分类层树状图同级的不同分支，通过对所述数据对象的实际含义溯源以确定所述分类层树状图的聚类焦点。

作为本发明的一种优选方案，根据所述数据对象的直接特征的实际含义以及所述聚类分项的实际含义，利用专家评定法设定不同的所述直接特征之间的关联权重以及不同的所述聚类分项之间的关联权重，选择所述关联权重超过设定值的所述直接特征聚集到同一个所述聚类分项，且将所述关联权重超过设定值的所述聚类分项聚集到上一层的同一个所述聚类分项。

作为本发明的一种优选方案，所述分类层树状图的每条分支表示所述数据对象的存储路径，并建立同一个所述分类层树状图内多个所述数据对象对应的数据保存库，且设定每个所述按照数据保存库的保存路径，且所述数据保存库的保存路径与所述分类层树状图形成的存储路径相同，所述预处理池内暂存的所述数据对象按照所述保存路径对应保存在所述数据保存库内。

作为本发明的一种优选方案，在所述步骤300中，所述分类层树状图的聚类分项从上到下依次分为聚类焦点、一级分类节点、二级分类节点、……、直接特征，根据每种所述数据对象的直接特征与所述分类层树状图中包含的直接特征进行匹配，以将所述数据对象按照保存路径聚类存储到相应的所述数据保存库。

为解决上述技术问题，本发明还进一步提供下述技术方案：一种基于云计算平台的大数据聚类系统，包括：

预存储池，用于根据预存的少量的数据创建分类层树状图；

树状图设定模块，用于将数据对象的每层细化特征通过设定的关联权重确定处于同一个节点的多个数据对象，自下到上的创建分类层树状图；

聚类存储模块，用于将数据库按照所述分类层树状图的分支建立多个数据库，且将每种数据对象包含的数据均按照对应分类层树状图的分支的保存路径存储到所述数据库内。

作为本发明的一种优选方案，所述树状图设定模块以所述数据对象的直接特征作为起点，先计算所有数据对象的直接特征之间的关联权重，将关联权重大于设定值的多个所述直接特征归纳到同一个所述特征节点以获得上层聚类分项；

继续计算所述上层聚类分项的关联权重，将关联权重大于设定值的多个所述上层聚类分项归纳到同一个所述特征节点以获得另一个上层聚类分项，重复该操作；

根据最终的所述上层聚类分项的关联权重，创建一个以上的所述分类层树状图。

作为本发明的一种优选方案，所述聚类存储模块根据所述分类层树状图的分级层数确定所述数据对象的聚类深度，所述分类层树状图的分级层越靠上，则所述数据对象的聚类深度越低，所述分类层树状图的分级层越靠下，则所述数据对象的聚类深度越高；

所述聚类存储模块根据所述分类层树状图的聚类分项所在分级层确定所述数据对象的存储路径，或者所述聚类存储模块根据所述数据对象的直接特征所在分级层确定所述数据对象的存储路径；

每个所述数据对象根据所述存储路径确定所述数据库的分类方式，每个所述数据对象对应的实时数据保存在对应的所述数据库内。

本发明与现有技术相比较具有如下有益效果：

本发明以收集的数据对象对应的直接特征为起点，通过遍历所有数据对象的直接特征之间的关联权重，选取关联权重大的直接特征合并到同一个聚类分项内，再计算所有聚类分项之间的关联权重合并到上层的聚类分项，直至两个聚类分项合并或者无法合并，从而生成至少一个分类层树状图，因此可对不同的数据对象进行聚类，其中两个以上的分类层树状图之间的数据对象差异很大，在同一个分类层树状图内越往下的对象具有较高的相似度，且越往上的数据对象之间的差异较大。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的大数据聚类方法的流程示意图；

图2为本发明实施例提供的大数据聚类系统的结构框图。

图中的标号分别表示如下：

1-预存储池；2-树状图设定模块；3-聚类存储模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于云计算平台的大数据聚类方法，本实施方式以收集的数据对象对应的直接特征为起点，通过遍历所有数据对象的直接特征之间的关联权重，选取关联权重大的直接特征合并到同一个聚类分项内，再计算所有聚类分项之间的关联权重合并到上层的聚类分项，直至两个聚类分项合并或者无法合并，从而生成至少一个分类层树状图，因此可对不同的数据对象进行聚类，其中两个以上的分类层树状图之间的数据对象差异很大，在同一个分类层树状图内越往下的对象具有较高的相似度，且越往上的数据对象之间的差异较大。

从而根据分类层树状图可以自定义确定大数据聚类的深度，当所需的大数据聚类深度越低，则同一个数据库内保存的数据对象越多，且当所需的大数据聚类深度越高，则同一个数据库内保存的数据对象越少，数据对象越聚焦。

大数据聚类方法具体包括以下步骤：

步骤100、收集数据对象并识别数据对象的直接特征，并对数据对象深度剖析以区分不同种类的数据对象和汇聚相同种类的数据对象。

需要特别说明的是，本实施方式中的数据对象并不是只具体的数据，而是至数据指代的某一种采集终端，比如说某种型号的传感器，且传感器的直接特征具体是指此类传感器采集的目的，比如说监测温度、湿度和振动等等，而每种数据对象在实时采集过程中的每一个采集数据才组成了大数据。

在此步骤中，利用预处理池暂存数据对象并确定每种数据对象的直接特征，将每种数据对象的直接特征作为分类层树状图的起点，并按照自底向上的方式建立整个关于不同种类的数据对象的分类层树状图，创建分类层树状图的实现方式为：

第一步、确定每种数据对象的多层深度特征，并计算两种数据对象的不同深度特征之间的关联权重。

其中，深度特征具体是指不同数据对象在当前应用场景中的功能划分，根据功能作用划分不同数据对象的聚类，相同聚类的数据对象均具有相同的应用功能。

在此步骤中，数据对象的直接特征为数据对象携带的参数信息，数据对象的深度特征以数据对象的直接特征为起点，自下到上的确定数据对象在应用场景内的实际含义，且不同种类的数据对象的实际含义不同，将数据对象对应分类层树状图同级的不同分支，通过对数据对象的实际含义溯源以确定分类层树状图的聚类焦点。

当最上方聚类分项可以合并时，则只能生成具有同一个聚类焦点的分类层树状图，而当最上方聚类分项无法合并，从而至少两个分类层树状图，因此可对不同的数据对象进行聚类，其中两个以上的分类层树状图之间的数据对象差异很大，在同一个分类层树状图内越往下的对象具有较高的相似度，且越往上的数据对象之间的差异较大。

第二步、根据关联权重确定处于同一个分类层树状图的数据对象。

根据数据对象的直接特征的实际含义以及聚类分项的实际含义，利用专家评定法设定不同的直接特征之间的关联权重以及不同的聚类分项之间的关联权重，选择关联权重超过设定值的直接特征聚集到同一个聚类分项，且将关联权重超过设定值的聚类分项聚集到上一层的同一个聚类分项。

假设请三位专家对每种数据对象进行评价，并假设数据对象有八种，评价结果具体为：

八种数据对象的直接特征有八个，那么以第一个数据对象的直接特征对权重计算对象，则会产生与剩下七个直接特征匹配的组合关联对象，三个专家分别对七种组合关联对象进行评分，并且计算每种组合关联对象结果的平均值，且根据每种组合关联对象与总分的比值计算关联权重，且将关联权重大于设定值的组合关联对象归纳为同一个树状图节点，形成一个聚类分项。

对剩下的直接特征继续计算关联权重时，可以去掉已选择作为同一个树状图节点的其他直接特征，从而减少关联权重的设定难度和设定复杂度。

具体的，计算所有数据对象的直接特征之间的关联权重，且将具有相同权重的多个直接特征合并为对应分类层树状图的一个下层聚类分项；

继续计算所有下层聚类分项之间的关联权重，且将关联权重值大的多个下层聚类分项合并为中层聚类分项；

重复上述操作，如最上层的两个聚类分项之间的关联权重大于零，则建立一个分类层树状图；

若最上层的两个聚类分项之间的关联权重等于零，则分别建立两个以上的分类层树状图。

第三步、根据处于同一个分类层树状图的数据对象的深度特征，确定分类层树状图的聚类分项，且分类层树状图的最下层直接对应数据对象的直接特征，分类层树状图自下向上凝聚分层聚类。步骤200、将数据对象的特征细化以创建分类层树状图，且数据对象的聚类深度与分类层树状图的分级自下到上一一匹配。

步骤300、根据数据对象的直接特征确定数据对象在分类层树状图内的分支路径，并利用转换模型确定数据对象的聚类分项，以对大数据分类聚簇保存。

分类层树状图的每条分支表示数据对象的存储路径，并建立同一个分类层树状图内多个数据对象对应的数据保存库，且设定每个按照数据保存库的保存路径，且数据保存库的保存路径与分类层树状图形成的存储路径相同，预处理池内暂存的数据对象按照保存路径对应保存在数据保存库内。

在步骤300中，分类层树状图的聚类分项从上到下依次分为聚类焦点、一级分类节点、二级分类节点、……、直接特征，根据每种数据对象的直接特征与分类层树状图中包含的直接特征进行匹配，以将数据对象按照保存路径聚类存储到相应的数据保存库。

需要补充说明的是，数据聚类就是将一个数据单位的集合分割成几个称为簇或类别的子集，每个类中的数据都有相似性，数据聚类分析是根据事物本身的特性，研究对被聚类的对象进行类别划分的方法，聚类分析依据的原则是使同一聚簇中的对象具有尽可能大的相似性，而不同聚簇中的对象具有尽可能大的相异性，聚类分析主要解决的问题就是如何在没有先验知识的前提下，实现满足这种要求的聚簇的聚合。

而在实际应用场景中，一般是用于聚类不同传感器采集端的数据，由于设置多个传感器采集端的监测功能不同，因此可以将同一个监测功能的多个传感器采集端合并为一个聚簇内，因此基于此，可以对不同的传感器采集端进行分类和组合关联。

因此本实施方式的分类层树状图就是用于剖析不同的数据对象之间的区别和关联，从而实现将不同的数据对象进行相似性比较和差异性比较。

另外如图2所示，本发明还提供了一种基于云计算平台的大数据聚类系统，其特征包括：

预存储池1，用于根据预存的少量的数据创建分类层树状图；

树状图设定模块2，用于将数据对象的每层细化特征通过设定的关联权重确定处于同一个节点的多个数据对象，自下到上的创建分类层树状图；

聚类存储模块3，用于将数据库按照分类层树状图的分支建立多个数据库，且将每种数据对象包含的数据均按照对应分类层树状图的分支的保存路径存储到数据库内。

树状图设定模块2以数据对象的直接特征作为起点，先计算所有数据对象的直接特征之间的关联权重，将关联权重大于设定值的多个直接特征归纳到同一个特征节点以获得上层聚类分项；

继续计算上层聚类分项的关联权重，将关联权重大于设定值的多个上层聚类分项归纳到同一个特征节点以获得另一个上层聚类分项，重复该操作；

根据最终的上层聚类分项的关联权重，创建一个以上的分类层树状图。

聚类存储模块3根据分类层树状图的分级层数确定数据对象的聚类深度，分类层树状图的分级层越靠上，则数据对象的聚类深度越低，分类层树状图的分级层越靠下，则数据对象的聚类深度越高；

聚类存储模块3根据分类层树状图的聚类分项所在分级层确定数据对象的存储路径，或者聚类存储模块根据数据对象的直接特征所在分级层确定数据对象的存储路径；

每个数据对象根据存储路径确定数据库的分类方式，每个数据对象对应的实时数据保存在对应的数据库内。

本申请在计算多个直接特征或者聚类分项的关联权重时，先计算每种组合关联对象结果的平均值，且根据每种组合关联对象与总分的比值计算关联权重，且将关联权重大于设定值的组合关联对象归纳为同一个树状图节点，形成一个聚类分项。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于云计算平台的大数据聚类方法，其特征在于，包括以下步骤：

在步骤100中，利用预处理池暂存所述数据对象并确定每种所述数据对象的直接特征，将每种所述数据对象的直接特征作为分类层树状图的起点，并按照自底向上的方式建立整个关于不同种类的所述数据对象的所述分类层树状图；

计算所有数据对象的所述直接特征之间的关联权重，且将具有相同权重的多个所述直接特征合并为对应所述分类层树状图的一个下层聚类分项；

若最上层的两个所述聚类分项之间的关联权重等于零，则分别建立两个以上的所述分类层树状图；

创建所述分类层树状图的实现方式为：

根据处于同一个所述分类层树状图的所述数据对象的深度特征，确定所述分类层树状图的聚类分项，且所述分类层树状图的最下层直接对应所述数据对象的直接特征，所述分类层树状图自下向上凝聚分层聚类；

步骤300、根据所述数据对象的直接特征确定所述数据对象在所述分类层树状图内的分支路径，并利用转换模型确定所述数据对象的聚类分项，以对大数据分类聚簇保存。

2.根据权利要求1所述的一种基于云计算平台的大数据聚类方法，其特征在于：所述数据对象的直接特征为所述数据对象携带的参数信息，所述数据对象的深度特征以所述数据对象的直接特征为起点，自下到上的确定所述数据对象在应用场景内的实际含义，且不同种类的所述数据对象的实际含义不同，以将所述数据对象对应所述分类层树状图同级的不同分支，通过对所述数据对象的实际含义溯源以确定所述分类层树状图的聚类焦点。

3.根据权利要求1所述的一种基于云计算平台的大数据聚类方法，其特征在于：根据所述数据对象的直接特征的实际含义以及所述聚类分项的实际含义，利用专家评定法设定不同的所述直接特征之间的关联权重以及不同的所述聚类分项之间的关联权重，选择所述关联权重超过设定值的所述直接特征聚集到同一个所述聚类分项，且将所述关联权重超过设定值的所述聚类分项聚集到上一层的同一个所述聚类分项。

4.根据权利要求2所述的一种基于云计算平台的大数据聚类方法，其特征在于：所述分类层树状图的每条分支表示所述数据对象的存储路径，并建立同一个所述分类层树状图内多个所述数据对象对应的数据保存库，且设定每个所述按照数据保存库的保存路径，且所述数据保存库的保存路径与所述分类层树状图形成的存储路径相同，所述预处理池内暂存的所述数据对象按照所述保存路径对应保存在所述数据保存库内。

5.根据权利要求2所述的一种基于云计算平台的大数据聚类方法，其特征在于：在所述步骤300中，所述分类层树状图的聚类分项从上到下依次分为聚类焦点、一级分类节点、二级分类节点、……、直接特征，根据每种所述数据对象的直接特征与所述分类层树状图中包含的直接特征进行匹配，以将所述数据对象按照保存路径聚类存储到相应的所述数据保存库。

6.一种应用于权利要求1-5任一项所述基于云计算平台的大数据聚类方法的大数据聚类系统，其特征在于，包括：

预存储池(1)，用于根据预存的少量的数据创建分类层树状图；

树状图设定模块(2)，用于将数据对象的每层细化特征通过设定的关联权重确定处于同一个节点的多个数据对象，自下到上的创建分类层树状图；

聚类存储模块(3)，用于将数据库按照所述分类层树状图的分支建立多个数据库，且将每种数据对象包含的数据均按照对应分类层树状图的分支的保存路径存储到所述数据库内。

7.根据权利要求6所述的一种基于云计算平台的大数据聚类系统，其特征在于：所述树状图设定模块(2)以所述数据对象的直接特征作为起点，先计算所有数据对象的直接特征之间的关联权重，将关联权重大于设定值的多个所述直接特征归纳到同一个所述特征节点以获得上层聚类分项；

8.根据权利要求6所述的一种基于云计算平台的大数据聚类系统，其特征在于：所述聚类存储模块(3)根据所述分类层树状图的分级层数确定所述数据对象的聚类深度，所述分类层树状图的分级层越靠上，则所述数据对象的聚类深度越低，所述分类层树状图的分级层越靠下，则所述数据对象的聚类深度越高；

所述聚类存储模块(3)根据所述分类层树状图的聚类分项所在分级层确定所述数据对象的存储路径，或者所述聚类存储模块根据所述数据对象的直接特征所在分级层确定所述数据对象的存储路径；