CN116595102B - 一种改进聚类算法的大数据管理方法及系统 - Google Patents
一种改进聚类算法的大数据管理方法及系统 Download PDFInfo
- Publication number
- CN116595102B CN116595102B CN202310868599.XA CN202310868599A CN116595102B CN 116595102 B CN116595102 B CN 116595102B CN 202310868599 A CN202310868599 A CN 202310868599A CN 116595102 B CN116595102 B CN 116595102B
- Authority
- CN
- China
- Prior art keywords
- data
- nodes
- node
- load
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 34
- 238000013523 data management Methods 0.000 title claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000007621 cluster analysis Methods 0.000 claims description 16
- 238000012544 monitoring process Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000013501 data transformation Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体地说,涉及一种改进聚类算法的大数据管理方法及系统。包括如下步骤:S1、采集市场数据,将数据进行分类节点储存,并对采集的数据进行节点分类;本发明通过并行计算、负载均衡和增量更新,提高了聚类算法的效率和实时性,在分布式数据库中并行计算,加速了聚类过程,负载均衡能够根据数据的特征和分布情况动态调整节点的负载,确保计算能力的均衡利用,提高系统整体性能,增量更新通过仅重新计算受影响的聚类结果,避免了对全部数据的重复计算,提升了算法的效率和可扩展性,通过将聚类结果和评估结果以直观的图表和图形形式展示给用户,提高用户理解数据和做出决策。
Description
技术领域
本发明涉及数据处理技术领域,具体地说,涉及一种改进聚类算法的大数据管理方法及系统。
背景技术
随着大数据时代的到来,处理和管理海量数据成为一项关键任务。聚类算法是一种常用的数据分析方法,可以将数据集划分为具有相似特征的群组,从而发现数据中的隐藏模式和结构,然而,传统的聚类算法在处理大数据时,由于计算量大和模型复杂度限制,面临着效率低下、计算复杂度高和可扩展性差的挑战,同时节点对数据处理的速度不同,导致出现有的节点停滞分析,因此,提出一种改进聚类算法的大数据管理方法及系统。
发明内容
本发明的目的在于提供一种改进聚类算法的大数据管理方法及系统,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供改进聚类算法的大数据管理方法,包括如下步骤:
S1、采集市场数据,将数据进行分类节点储存,并对采集的数据进行节点分类;
S2、基于S1节点储存的数据进行预处理,并将其进行格式转换;
S3、基于S2转换的数据进行评估,根据评估结果将数据重新分配,并监测节点的运行状态进行评估,根据评估结果对储存的数据进行调整;
S4、将S3的结果进行可视化显示,供用户进行评估。
作为本技术方案的进一步改进,所述S1对根据分类结果将数据进行分类节点储存的步骤如下:
S1.1、采集用户上传的时长数据,并根据采集的数据大小建立多个运行节点;
S1.2、将采集的市场数据使用分布式数据库均匀储存在多个运行节点。
作为本技术方案的进一步改进,所述S2将其进行格式转换的步骤如下:
S2.1、对S1.2运行节点内的数据进行数据清洗和数据变换处理;
S2.2、基于S2.1处理完毕的数据进行特征提取,并将数据格式进行统一转换。
作为本技术方案的进一步改进,所述S2.2将数据格式进行统一转换的步骤如下:
假设数据集中共有m条数据,每条数据有n个特征,该方法可以表示为:
进行特征提取:从原始数据中提取出k个重要特征,转换为一个mtimesk的矩阵X;
进行数据标准化:将矩阵X按行进行数据标准化,得到标准化矩阵X';
将数据转换为适合聚类算法输入的形式:将标准化矩阵X'转换为m个n维向量的形式,表示为(x1,x2,...,xm),其中xi表示第i条数据的n个特征。
作为本技术方案的进一步改进,所述S3根据评估结果对储存的数据进行调整的步骤如下:
S3.1、根据S2.2转换后的数据进行评估,根据评估结果将数据进行类别标签,并根据标签将数据重新分配至运行节点进行聚类分析;
S3.2、采集S3.1每个运行节点的负载数据并进行综合评估,根据评估结果对运行节点内的数据进行动态调整;
S3.3、采集用户后续上传的数据,并对运行节点的数据进行筛选,根据筛选结果采用增量更新方式进行聚类。
作为本技术方案的进一步改进,所述S3.1根据标签将数据重新分配至运行节点进行聚类分析的表达式如下:
假设数据集中共有m条数据,每条数据有n个特征,可以表示为:
对转换后的数据进行评估:采取轮廓系数评估指标,计算评估分数;
对评估结果进行分类:选择K-Means聚类,对数据进行属性分类,根据轮廓系数和肘部法则得到最优K值,并使用该K值进行聚类分析,
分配数据至运行节点进行聚类分析:采用MapReduce算法将数据分配至各个运行节点进行并行计算,提高聚类分析效率,伪代码如下:
;
计算第i个数据点属于哪个类别;表示循环从/>到/>,其中/>表示数据集中的数据总数;
;
其中,是聚类算法所得到的聚类个数,把第i个类别中的所有数据挑选出来,/>是一个符号,表示第i个数据点所属的类别,分配给对应的节点进行聚类计算/>聚类计算结束后,通过汇总各个节点的计算结果,得到最终的聚类结果。
作为本技术方案的进一步改进,所述S3.2根据评估结果对运行节点内的数据进行动态调整的步骤如下:
假设有n个运行节点,可以表示为:
采集各个节点的负载数据:通过监控系统,运行节点上的监控代理程序每隔一定时间采集节点的负载数据,CPU使用率、内存利用率、网络带宽数据,将其记录在监控日志中;
进行综合评估:对采集到的负载数据进行预处理和计算,得出该节点的负载状况评分,包括CPU使用率分数、内存使用率分数、网络带宽分数;通过综合考虑这些评分,得出该节点的综合负载评分,将所有节点的综合负载评分记录在一个负载表中以便后续的负载均衡调整;
动态调整各节点的负载:周期性地读取负载表中的运行节点负载评分,当运行节点的负载评分超过设定的阈值时,将该运行节点上的数据重新分配到空闲运行节点中,以实现负载均衡。
作为本技术方案的进一步改进,所述S3.3根据筛选结果采用增量更新方式进行聚类的表达式为:
;
;
;
;
;
其中,为数据集,/>为聚类结果,/>为新增的数据集,/>为相应的聚类结果,表示聚类算法,/>表示评估聚类结果的指标函数,/>表示受影响的数据子集,表示整个数据集中不属于/>的子集。
本发明的目的之二在于,提供了改进聚类算法的大数据管理系统,包括上述中任意一项所述的改进聚类算法的大数据管理方法,包括采集储存单元、数据处理单元、分析分配单元以及数据显示单元;
所述采集储存单元用于对采集市场数据,将数据进行分类节点储存,并对采集的数据进行节点分类;
所述数据处理单元用于将采集的数据进行预处理,并将其进行格式转换;
所述分析分配单元用于对转换的数据进行评估,根据评估结果将数据重新分配,并监测节点的运行状态进行评估,根据评估结果对储存的数据进行调整;
所述数据显示单元用于将结果进行可视化显示,供用户进行评估。
与现有技术相比,本发明的有益效果:通过并行计算、负载均衡和增量更新,提高了聚类算法的效率和实时性,在分布式数据库中并行计算,加速了聚类过程,负载均衡能够根据数据的特征和分布情况动态调整节点的负载,确保计算能力的均衡利用,提高系统整体性能,增量更新通过仅重新计算受影响的聚类结果,避免了对全部数据的重复计算,提升了算法的效率和可扩展性,通过将聚类结果和评估结果以直观的图表和图形形式展示给用户,提高用户理解数据和做出决策。
附图说明
图1为本发明的整体流程框图;
图2为本发明的对采集的数据进行节点分类的流程框图;
图3为本发明的进行格式转换的流程框图;
图4为本发明的对储存的数据进行调的流程框图;
图5为本发明的分类储存单元的流程框图。
图中各个标号意义为:
10、采集储存单元;20、数据处理单元;30、分析分配单元;40、数据显示单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:如图1-图5所示,本发明的目的之一在于,提供了改进聚类算法的大数据管理方法,包括如下步骤:
S1、采集市场数据,将数据进行分类节点储存,并对采集的数据进行节点分类;
S1对根据分类结果将数据进行分类节点储存的步骤如下:
S1.1、采集用户上传的时长数据,并根据采集的数据大小建立多个运行节点,表达式如下:
假设将时长数据集划分为k个子数据集,每个子数据集由Di表示。对于每个子数据集,可以使用一个运行节点Si进行并行处理。则该方法可以表示为:
采集用户上传的时长数据:根据实际需求,设置采集参数,将时长数据存储到数据库中。
根据采集数据量进行节点划分:选择合适的数据划分方法,将时长数据集分割成k个大小相似的子数据集Di。
配置分布式计算框架:选择适当的分布式计算框架,例如Hadoop或Spark,搭建分布式计算集群。
并行处理子数据集:在每个运行节点Si上,使用相应的算法进行时长数据的处理和分析。得到k个时长统计结果Ri。
合并子数据集的处理结果:将各个运行节点的处理结果Ri进行合并,得到完整的时长统计结果R;
S1.2、将采集的市场数据使用分布式数据库均匀储存在多个运行节点。使用分布式数据库,将用户数据存储在多个节点上,确保数据的高可用性和扩展性,保证数据的安全性和可靠性;假设有 n 条市场数据,要将其均匀存储在 k 个运行节点上。可以使用哈希函数将每个市场数据分配到一个编号为 i=1,2,...,k 的分区上,计算方式如下:
;
其中,表示每个市场数据的键或其他可唯一标识该数据的信息,/> 表示哈希函数,/> 表示运行节点的数量,/>表示%。
S2、基于S1节点储存的数据进行预处理,并将其进行格式转换;
S2将其进行格式转换的步骤如下:
S2.1、对S1.2运行节点内的数据进行数据清洗和数据变换处理;对原始市场数据进行数据清洗、数据变换预处理操作,去除噪声和冗余信息;步骤如下:
数据清理:首先需要对原始市场数据进行一些简单的数据清理处理,例如去除重复数据以及不完整的信息。可以使用数据清洗工具对数据进行清理。
数据变换:将原始市场数据进行变换以使其更适合后续分析处理。例如,可以进行数据观测点的处理,用数据平滑或插值技术对数据进行基于时间的变换,或者进行数据规范化,统一不同单位的度量。
去除异常值:使用统计分析方法去除部分数据中的噪声和异常值。可以使用箱型图可视化工具来检测和去除异常值,或者使用正态分布分析或其他统计方法来检测噪声数据。
数据降维:使用主成分分析(PCA)数据降维方法将高维度数据简化为较低的维度空间。可以使用聚类分析方法对数据进行分类,以减少数据处理的复杂度,优化分析效果。
S2.2、基于S2.1处理完毕的数据进行特征提取,并将数据格式进行统一转换。
S2.2将数据格式进行统一转换的步骤如下:
假设数据集中共有m条数据,每条数据有n个特征,该方法可以表示为:
进行特征提取:从原始数据中提取出k个重要特征,转换为一个mtimesk的矩阵X;
进行数据标准化:将矩阵X按行进行数据标准化,得到标准化矩阵X';
将数据转换为适合聚类算法输入的形式:将标准化矩阵X'转换为m个n维向量的形式,表示为(x1,x2,...,xm),其中xi表示第i条数据的n个特征。
S3、基于S2转换的数据进行评估,根据评估结果将数据重新分配,并监测节点的运行状态进行评估,根据评估结果对储存的数据进行调整;
S3根据评估结果对储存的数据进行调整的步骤如下:
S3.1、根据S2.2转换后的数据进行评估,根据评估结果将数据进行类别标签,并根据标签将数据重新分配至运行节点进行聚类分析;
S3.1根据标签将数据重新分配至运行节点进行聚类分析的表达式如下:
假设数据集中共有m条数据,每条数据有n个特征,可以表示为:
对转换后的数据进行评估:采取轮廓系数评估指标,计算评估分数;
对评估结果进行分类:选择K-Means聚类,对数据进行属性分类,根据轮廓系数和肘部法则得到最优K值,并使用该K值进行聚类分析,
分配数据至运行节点进行聚类分析:采用MapReduce算法将数据分配至各个运行节点进行并行计算,提高聚类分析效率,伪代码如下:
;
计算第i个数据点属于哪个类别;表示循环从/>到/>,其中/>表示数据集中的数据总数;
;
其中,是聚类算法所得到的聚类个数,把第i个类别中的所有数据挑选出来,/>是一个符号,表示第i个数据点所属的类别,分配给对应的节点进行聚类计算/>聚类计算结束后,通过汇总各个节点的计算结果,得到最终的聚类结果。
S3.2、采集S3.1每个运行节点的负载数据并进行综合评估,根据评估结果对运行节点内的数据进行动态调整;
S3.2根据评估结果对运行节点内的数据进行动态调整的步骤如下:
假设有n个运行节点,可以表示为:
采集各个节点的负载数据:通过监控系统,运行节点上的监控代理程序每隔一定时间采集节点的负载数据,CPU使用率、内存利用率、网络带宽数据,将其记录在监控日志中;
进行综合评估:对采集到的负载数据进行预处理和计算,得出该节点的负载状况评分,包括CPU使用率分数、内存使用率分数、网络带宽分数;通过综合考虑这些评分,得出该节点的综合负载评分,将所有节点的综合负载评分记录在一个负载表中以便后续的负载均衡调整;
动态调整各节点的负载:周期性地读取负载表中的运行节点负载评分,当运行节点的负载评分超过设定的阈值时,将该运行节点上的数据重新分配到空闲运行节点中,以实现负载均衡。
S3.3、采集用户后续上传的数据,并对运行节点的数据进行筛选,根据筛选结果采用增量更新方式进行聚类。
S3.3根据筛选结果采用增量更新方式进行聚类的表达方式为:
;
;
;
;
;
其中,为数据集,/>为聚类结果,/>为新增的数据集,/>为相应的聚类结果,表示聚类算法,/>表示评估聚类结果的指标函数,/>表示受影响的数据子集,表示整个数据集中不属于/>的子集。
S4、将S3的结果进行可视化显示,供用户进行评估。步骤如下:
根据聚类算法对样本进行分类,给每个聚类分配一个标签;
选取两个最具代表性的特征作为横轴和纵轴;
将聚类后的数据集里不同类别的数据点分别绘制在散点图中,使用不同的颜色或标记表示每个类别;
本发明的目的之二在于,提供了改进聚类算法的大数据管理系统,包括上述中任意一项的改进聚类算法的大数据管理方法,包括采集储存单元10、数据处理单元20、分析分配单元30以及数据显示单元40;
采集储存单元10用于对采集市场数据,将数据进行分类节点储存,并对采集的数据进行节点分类;
数据处理单元20用于将采集的数据进行预处理,并将其进行格式转换;
分析分配单元30用于对转换的数据进行评估,根据评估结果将数据重新分配,并监测节点的运行状态进行评估,根据评估结果对储存的数据进行调整;
数据显示单元40用于将结果进行可视化显示,供用户进行评估。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。
Claims (4)
1.一种改进聚类算法的大数据管理方法,其特征在于:包括如下步骤:
S1、采集市场数据,将数据进行分类节点储存,并对采集的数据进行节点分类;
S2、基于S1节点储存的数据进行预处理,并将其进行格式转换;
S3、基于S2转换的数据进行评估,根据评估结果将数据重新分配,并监测节点的运行状态进行评估,根据评估结果对储存的数据进行调整;
S4、将S3的结果进行可视化显示,供用户进行评估;
所述S1对根据分类结果将数据进行分类节点储存的步骤如下:
S1.1、采集用户上传的时长数据,并根据采集的数据大小建立多个运行节点;
S1.2、将采集的市场数据使用分布式数据库均匀储存在多个运行节点;
所述S2将其进行格式转换的步骤如下:
S2.1、对S1.2运行节点内的数据进行数据清洗和数据变换处理;
S2.2、基于S2.1处理完毕的数据进行特征提取,并将数据格式进行统一转换;
所述S3根据评估结果对储存的数据进行调整的步骤如下:
S3.1、根据S2.2转换后的数据进行评估,根据评估结果将数据进行类别标签,并根据标签将数据重新分配至运行节点进行聚类分析;
S3.2、采集S3.1每个运行节点的负载数据并进行综合评估,根据评估结果对运行节点内的数据进行动态调整;
S3.3、采集用户后续上传的数据,并对运行节点的数据进行筛选,根据筛选结果采用增量更新方式进行聚类;
所述S3.1根据标签将数据重新分配至运行节点进行聚类分析的表达式如下:
假设数据集中共有m条数据,每条数据有n个特征,可以表示为:
对转换后的数据进行评估:采取轮廓系数评估指标,计算评估分数;
对评估结果进行分类:选择K-Means聚类,对数据进行属性分类,根据轮廓系数和肘部法则得到最优K值,并使用该K值进行聚类分析,
分配数据至运行节点进行聚类分析:采用MapReduce算法将数据分配至各个运行节点进行并行计算,提高聚类分析效率,伪代码如下:
;
计算第i个数据点属于哪个类别;表示循环从1到m,其中m表示数据集中的数据总数;
;
其中,K是聚类算法所得到的聚类个数,把第i个类别中的所有数据挑选出来,ci是一个符号,表示第i个数据点所属的类别,分配给对应的节点进行聚类计算聚类计算结束后,通过汇总各个节点的计算结果,得到最终的聚类结果;
所述S3.2根据评估结果对运行节点内的数据进行动态调整的步骤如下:
假设有n个运行节点,可以表示为:
采集各个节点的负载数据:通过监控系统,运行节点上的监控代理程序每隔一定时间采集节点的负载数据,CPU使用率、内存利用率、网络带宽数据,将其记录在监控日志中;
进行综合评估:对采集到的负载数据进行预处理和计算,得出该节点的负载状况评分,包括CPU使用率分数、内存使用率分数、网络带宽分数;通过综合考虑这些评分,得出该节点的综合负载评分,将所有节点的综合负载评分记录在一个负载表中以便后续的负载均衡调整;
动态调整各节点的负载:周期性地读取负载表中的运行节点负载评分,当运行节点的负载评分超过设定的阈值时,将该运行节点上的数据重新分配到空闲运行节点中,以实现负载均衡。
2.根据权利要求1所述的改进聚类算法的大数据管理方法,其特征在于:所述S2.2将数据格式进行统一转换的步骤如下:
假设数据集中共有m条数据,每条数据有n个特征,该方法可以表示为:
进行特征提取:从原始数据中提取出k个重要特征,转换为一个mtimesk的矩阵X;
进行数据标准化:将矩阵X按行进行数据标准化,得到标准化矩阵X';
将数据转换为适合聚类算法输入的形式:将标准化矩阵X'转换为m个n维向量的形式,表示为(x1,x2,...,xm),其中xi表示第i条数据的n个特征。
3.根据权利要求1所述的改进聚类算法的大数据管理方法,其特征在于:所述S3.3根据筛选结果采取增量更新方式进行聚类的表达式为:
;
;
;
;
;
其中,D为数据集,C为聚类结果,为新增的数据集,/>为相应的聚类结果,/>表示聚类算法,/>表示评估聚类结果的指标函数,/>表示受影响的数据子集,/>表示整个数据集中不属于/>的子集。
4.用于实现改进聚类算法的大数据管理系统,包括权利要求1-3中任意一项所述的改进聚类算法的大数据管理方法,其特征在于:包括采集储存单元(10)、数据处理单元(20)、分析分配单元(30)以及数据显示单元(40);
所述采集储存单元(10)用于对采集市场数据,将数据进行分类节点储存,并对采集的数据进行节点分类;
所述数据处理单元(20)用于将采集的数据进行预处理,并将其进行格式转换;
所述分析分配单元(30)用于对转换的数据进行评估,根据评估结果将数据重新分配,并监测节点的运行状态进行评估,根据评估结果对储存的数据进行调整;
所述数据显示单元(40)用于将结果进行可视化显示,供用户进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868599.XA CN116595102B (zh) | 2023-07-17 | 2023-07-17 | 一种改进聚类算法的大数据管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868599.XA CN116595102B (zh) | 2023-07-17 | 2023-07-17 | 一种改进聚类算法的大数据管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116595102A CN116595102A (zh) | 2023-08-15 |
CN116595102B true CN116595102B (zh) | 2023-10-17 |
Family
ID=87608480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310868599.XA Active CN116595102B (zh) | 2023-07-17 | 2023-07-17 | 一种改进聚类算法的大数据管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595102B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118260624A (zh) * | 2024-05-29 | 2024-06-28 | 山东优数网络科技有限公司 | 一种面向物联网的感知数据智能汇聚分析方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838863A (zh) * | 2014-03-14 | 2014-06-04 | 内蒙古科技大学 | 一种基于云计算平台的大数据聚类算法 |
CN107291847A (zh) * | 2017-06-02 | 2017-10-24 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN109359679A (zh) * | 2018-10-10 | 2019-02-19 | 洪月华 | 适用于广域网的分布式交通大数据并行聚类方法 |
CN109445936A (zh) * | 2018-10-12 | 2019-03-08 | 深圳先进技术研究院 | 一种云计算负载聚类方法、系统及电子设备 |
CN109657712A (zh) * | 2018-12-11 | 2019-04-19 | 浙江工业大学 | 一种基于Spark改进的K-Means算法的电商餐饮数据分析方法 |
CN109858518A (zh) * | 2018-12-26 | 2019-06-07 | 中译语通科技股份有限公司 | 一种基于MapReduce的大型数据集聚类方法 |
CN110704542A (zh) * | 2019-10-15 | 2020-01-17 | 南京莱斯网信技术研究院有限公司 | 一种基于节点负载的数据动态分区系统 |
CN114077912A (zh) * | 2020-08-14 | 2022-02-22 | 华为技术有限公司 | 数据预测方法以及数据预测装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10198291B2 (en) * | 2017-03-07 | 2019-02-05 | International Business Machines Corporation | Runtime piggybacking of concurrent jobs in task-parallel machine learning programs |
-
2023
- 2023-07-17 CN CN202310868599.XA patent/CN116595102B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838863A (zh) * | 2014-03-14 | 2014-06-04 | 内蒙古科技大学 | 一种基于云计算平台的大数据聚类算法 |
CN107291847A (zh) * | 2017-06-02 | 2017-10-24 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN109359679A (zh) * | 2018-10-10 | 2019-02-19 | 洪月华 | 适用于广域网的分布式交通大数据并行聚类方法 |
CN109445936A (zh) * | 2018-10-12 | 2019-03-08 | 深圳先进技术研究院 | 一种云计算负载聚类方法、系统及电子设备 |
CN109657712A (zh) * | 2018-12-11 | 2019-04-19 | 浙江工业大学 | 一种基于Spark改进的K-Means算法的电商餐饮数据分析方法 |
CN109858518A (zh) * | 2018-12-26 | 2019-06-07 | 中译语通科技股份有限公司 | 一种基于MapReduce的大型数据集聚类方法 |
CN110704542A (zh) * | 2019-10-15 | 2020-01-17 | 南京莱斯网信技术研究院有限公司 | 一种基于节点负载的数据动态分区系统 |
CN114077912A (zh) * | 2020-08-14 | 2022-02-22 | 华为技术有限公司 | 数据预测方法以及数据预测装置 |
Non-Patent Citations (3)
Title |
---|
Utkarsha Bagde,等.An Analytic Survey on MapReduce based K-Means and its Hybrid Clustering Algorithms.《2018 Second International Conference on Computing Methodologies and Communication (ICCMC)》.2018,第32-36页. * |
刘光宗.基于MapReduce数据倾斜的负载均衡算法研究.《中国知网》.2019,第1-37页. * |
基于MapReduce数据倾斜的负载均衡算法研究;刘光宗;《中国知网》;第1-37页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116595102A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110389950B (zh) | 一种快速运行的大数据清洗方法 | |
CN116595102B (zh) | 一种改进聚类算法的大数据管理方法及系统 | |
CN109934301B (zh) | 一种电力负荷聚类分析方法、装置和设备 | |
CN111259933B (zh) | 基于分布式并行决策树的高维特征数据分类方法及系统 | |
CN111489201A (zh) | 一种客户价值分析的方法、设备、存储介质 | |
CN117113235B (zh) | 一种云计算数据中心能耗优化方法及系统 | |
CN111723862B (zh) | 开关柜状态评估方法和装置 | |
CN111680852B (zh) | 地区整体能耗监控方法及其监控系统 | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN117743870B (zh) | 一种基于大数据的水利数据管理系统 | |
CN108596227B (zh) | 一种用户用电行为主导影响因素挖掘方法 | |
CN1783092A (zh) | 数据分析装置和数据分析方法 | |
CN114637263A (zh) | 一种异常工况实时监测方法、装置、设备及存储介质 | |
CN115510302A (zh) | 基于大数据统计的智能工厂数据分类方法 | |
CN112529053A (zh) | 一种服务器中时序数据短期预测方法及系统 | |
CN112905671A (zh) | 时间序列异常处理方法、装置、电子设备及存储介质 | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
CN118115098A (zh) | 基于深度学习的大数据分析与处理系统 | |
CN116561230B (zh) | 一种基于云计算的分布式存储与检索系统 | |
CN117112871A (zh) | 基于fcm聚类算法模型的数据实时高效融合处理方法 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN117609818A (zh) | 基于聚类与信息熵的电网关联关系发现方法 | |
CN112100177A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN111858530A (zh) | 一种基于海量日志的实时关联分析方法及系统 | |
CN113487080B (zh) | 一种基于风速分类的风速动态场景生成方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |