CN113742086B

CN113742086B - 一种分布式并行分析型数据集群管理方法及系统

Info

Publication number: CN113742086B
Application number: CN202111092260.2A
Authority: CN
Inventors: 管海风; 周丽; 高欢
Original assignee: Central Manpu Technology Nanjing Co ltd
Current assignee: Central Manpu Technology Nanjing Co ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-03-28
Anticipated expiration: 2041-09-17
Also published as: CN113742086A

Abstract

本发明公开了一种分布式并行分析型数据集群管理方法及系统，其中，一种分布式并行分析型数据集群管理方法包括，根据集群、管理域、集群节点，利用CIM模型建立集群模块；通过集群模块对客户端采集的管理资源进行异常检测和过滤；计算服务器的综合性能参数，并根据综合性能参数将过滤后的数据进行调度，以存储在服务器中；本发明能够根据集群的特点和管理需求合理分布数据、对数据进行处理，解决现有大部分集群管理系统的不足，提高存储性能。

Description

一种分布式并行分析型数据集群管理方法及系统

技术领域

本发明涉及集群管理的技术领域，尤其涉及一种分布式并行分析型数据集群管理方法及系统。

背景技术

随着集群系统的发展，集群的规模日益增大，结构愈趋复杂，使得集群管理系统不仅要具有节点自动发现、设备集中管理、可视化界面及系统状态监测等功能。还需要使系统具有强大的通用性、良好的扩展性以及低廉的管理成本。

然而现有集群管理系统，如Flink和Spark，其中，Flink通过使用内存处理技术，改善了Hadoop的性能；Spark提供了用户数据转换的多样性；但这些生态系统在大数据系统中的具体应用还处于初始阶段，监控数据传输开销大、对受管对象描述能力不足。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种分布式并行分析型数据集群管理方法，能够解决现有的集群管理系统无法对大数据进行高效率存储的问题。

为解决上述技术问题，本发明提供如下技术方案：包括，根据集群、管理域、集群节点，利用CIM模型建立集群模块；通过集群模块对客户端采集的管理资源进行异常检测和过滤；计算服务器的综合性能参数，并根据所述综合性能参数将过滤后的数据进行调度，以存储在所述服务器中。

作为本发明所述的分布式并行分析型数据集群管理方法的一种优选方案，其中：管理资源包括内存使用率、CPU占用率、磁盘读写速率和磁盘空间使用率。

作为本发明所述的分布式并行分析型数据集群管理方法的一种优选方案，其中：还包括，所述集群为集群系统的逻辑对象，包括集群系统的存储容量、CPU总体负荷；所述管理域为集群系统管理域的逻辑对象，包括管理域名称、管理域管理节点的IP地址、管理域存储容量、管理域CPU总体负荷；所述集群节点为集群系统中某个集体节点的逻辑对象，包括某个节点的IP地址、实例所在空间地址。

作为本发明所述的分布式并行分析型数据集群管理方法的一种优选方案，其中：所述异常检测包括，将所述管理资源定义为P＝{A，B，C，D}；利用聚类算法压缩所述管理资源P，并计算管理资源P的核密度；比较数据点间的核密度，删除核密度最小的数据点，更新所述管理资源P；其中，A＝{a₁，a₂…a_i}为内存使用率数据点集合、B＝{b₁，b₂…b_i}为CPU占用率数据点集合、C＝{c₁，c₂…c_i}为磁盘读写速率数据点集合和D＝{d₁，d₂…d_i}为磁盘空间使用率数据点集合，i为监测节点数。

作为本发明所述的分布式并行分析型数据集群管理方法的一种优选方案，其中：所述过滤包括，在集群模块的过滤单元中建立一个类，所述类存有需要监控的数据，当过滤单元接收到管理资源时，自动生成实例，通过实例滤除不需要监控的数据。

作为本发明所述的分布式并行分析型数据集群管理方法的一种优选方案，其中：所述综合性能参数包括，采集服务器输出的性能指标；根据服务器的性能指标值与最大性能指标值，计算性能指标的比值；根据所述比值设置权重，结合所述权重获得所述综合性能参数。

作为本发明所述的分布式并行分析型数据集群管理方法的一种优选方案，其中：所述性能指标的比值包括，所述服务器输出的性能指标包括CPU处理速率v_j、内存容量s_j、磁盘读写速率r_j和网络带宽e_j；

CPU处理速率的比值S_C为：

内存容量的比值S_M为：

磁盘读写速率的比值S_R为：

网络带宽的比值S_E为：

其中，j表示第j台服务器，n为服务器编号。

作为本发明所述的分布式并行分析型数据集群管理方法的一种优选方案，其中：所述调度包括，选取最大综合性能参数的服务器保存过滤后数据中的动态数据，其余的服务器存储过滤后数据中的静态数据。

作为本发明所述的分布式并行分析型数据集群管理系统的一种优选方案，其中：包括，客户端，用于采集的管理资源；集群模块，与所述客户端连接，用于对所述管理资源进行异常检测和过滤；服务器，与所述集群模块连接，用于存储过滤后的管理资源。

本发明的有益效果：本发明能够根据集群的特点和管理需求合理分布数据、对数据进行处理，解决现有大部分集群管理系统的不足，提高存储性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的一种分布式并行分析型数据集群管理方法的流程示意图；

图2为本发明第二个实施例所述的一种分布式并行分析型数据集群管理系统的网络拓扑结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的第一个实施例，该实施例提供了一种分布式并行分析型数据集群管理方法，包括：

S1：根据集群、管理域、集群节点，利用CIM模型建立集群模块200。

其中需要说明的是，集群为集群系统的逻辑对象，包括集群系统的存储容量、CPU总体负荷；

管理域为集群系统管理域的逻辑对象，包括管理域名称、管理域管理节点的IP地址、管理域存储容量、管理域CPU总体负荷；

集群节点为集群系统中某个集体节点的逻辑对象，包括某个节点的IP地址、实例所在空间地址；以便客户端集群模块200获取更详细的监控信息。

CIM是一种典型的分层管理信息模型，它由核心模型，通用模型，扩展模型组成；其中，核心模型由一组类和一组集合层次组成，这些类提供通用继承性，这些集合可运用于所有管理域；通用模型详细说明具体管理区域的模型，包括系统、设备、物理实体、网络、用户和服务层的协议模型；扩展模型描绘核心模型以及一个或多个通用模型在特定技术、特定平台或者特定的实现上的扩展，构造扩展模型的目的是为了满足特定应用或特定平台的需要。

建立的集群模块200包括过滤单元和节点端，其中，在集群环境下，通过节点端对相关分布式数据进行异常检测，为系统提供可靠的数据。

S2：通过集群模块200对客户端100采集的管理资源进行异常检测和过滤。

客户端通过后台程序获取管理资源，其中管理资源包括内存使用率、CPU占用率、磁盘读写速率和磁盘空间使用率。

进一步的，通过节点端对管理资源进行异常检测，去除异常点，具体步骤如下：

(1)将管理资源定义为P＝{A，B，C，D}；

其中，A＝{a₁，a₂…a_i}为内存使用率数据点集合、B＝{b₁，b₂…b_i}为CPU占用率数据点集合、C＝{c₁，c₂…c_i}为磁盘读写速率数据点集合和D＝{d₁，d₂…d_i}为磁盘空间使用率数据点集合，i为监测节点数。

(2)利用聚类算法压缩管理资源P，并计算管理资源P的核密度；

a)压缩管理资源P的步骤如下：

①输入管理资源P；

②选择k个初始中心点，P[0]＝data[q]，…P[k-1]＝data[q+k-1]；

③对于data[0]…data[n]，分别与P[0]…P[k-1]比较，假定与P[m]差值最少，将该点进行标记；

④对于所有标记的点，计算c[m]＝{所有标记为m的dot[j]之和}/标记为m的个数；

⑤重复③④，直到所有c[m]值的变化小于给定阈值，设给定阈值为200。

b)计算管理资源P的核密度：

设管理资源P的微簇为r_t，核密度定义为：

其中，k为总观测次数，D_t为第t个微簇的观测次数，K为核函数，d为微簇总数。

本实施例中核函数K为Generalized T-Student Kernel。

(3)比较数据点间的核密度，删除核密度最小的数据点，更新管理资源P；

再进一步的，通过过滤单元对数据进行过滤：

(1)在集群模块200的过滤单元中建立一个类，该类存有需要监控的数据；

(2)当过滤单元接收到管理资源时，自动生成实例，通过实例滤除不需要监控的数据。

S3：计算服务器300的综合性能参数，并根据综合性能参数将过滤后的数据进行调度，以存储在服务器300中。

(1)计算综合性能参数

①采集服务器300输出的性能指标；

服务器300输出的性能指标包括CPU处理速率v_j、内存容量s_j、磁盘读写速率r_j和网络带宽e_j；

②根据服务器300的性能指标值与最大性能指标值，计算性能指标的比值；

CPU处理速率的比值S_C为：

内存容量的比值S_M为：

磁盘读写速率的比值S_R为：

网络带宽的比值S_E为：

其中，j表示第j台服务器，n为服务器数量编号。

③根据比值设置权重，结合权重获得综合性能参数。

分别设置权重为β、δ、μ、τ，且权重的取值范围为(0，1)；计算综合性能参数W：

W＝βS_C+δS_M+μS_R+τS_E

(2)调度过滤后的数据

通过IO调度器将过滤后数据调度至服务器，选取最大综合性能参数的服务器保存过滤后数据中的动态数据，其余的服务器存储过滤后数据中的静态数据。

其中，I/O调度器包括IO调度接口和缓存器，IO调度接口为整体上对外提供的接口，负责接收读/写请求，并将其交给读管理器或写管理器，读/写管理器则负责具体的IO操作；首先，读/写管理器中都有一个独立的读/写操作线程，可用于实现异步IO，解耦并重叠CPU计算和IO操作，以减少不必要的IO等待；其次，读/写管理器分别管理着一组读/写队列，一个读/写队列是一个数据结构，包括该IO请求的输入/输出流(Input Stream/OutputStream)，以及一个数据缓冲队列；缓冲区中存放的就是所要写入文件系统的数据或者刚从文件系统中读出的数据，具体来说就是个缓冲的链表，数据缓冲区的长度设有上限，当队列中的数据超过该上限时就会被阻塞，主要跟CPU计算和IO操作的速度有关，这样可以在不影响性能的前提下避免不必要的内存浪费。

较佳的是，在这种多缓冲的基础上，采用全新的IO模式(串行IO和交错IO相结合)，有效提高了IO速度；最后，在同时处理多个IO请求时，为不同的IO请求设定不同的优先级，并进行了全局的调度。

为了对本方法中采用的技术效果加以验证说明，本实施例选择传统的技术方案和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

本实施例使用4台虚拟机组成的集群作为测试环境，每台虚拟机的配置相同，包括4核1.50GHz主频CPU、8GB内存、125GB磁盘，虚拟机上安装了Red Hat Enterprise LinuxServer release6.2(Santiago)系统，相互之间通过千兆以太网连接。

在进行系统测试前，对测试集群进行了重新安装，初始化了各虚拟机的OST块设备、MDS原数据服务器，分别记录客户端获取的存储信息，结果如表1所示。

表1：数据存储测试。

	传统的技术方案	本方法
			IPV4地址	192.168.1.3	192.168.1.3
IPV6地址	2020::3	2020::3
			已用容量	5481	5241
可用容量	183179	193175
			节点状态	online	online
获取所有信息消耗的时间	0.254s	0.021s
			获取存储信息消耗的时间	0.218s	0.013s
存储响应时间	45ms	12ms

由表1可见，本方法存储数据时响应速度快，极大程度地提高了数据的管理效率。

实施例2

参照图2，为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种分布式并行分析型数据集群管理系统，包括，

客户端100，用于采集管理资源；具体的，客户端100通过后台程序获取管理资源，其中管理资源包括内存使用率、CPU占用率、磁盘读写速率和磁盘空间使用率。

集群模块200，与客户端100连接，基于核密度函数对管理资源进行异常检测和过滤；

服务器300，与集群模块200连接，用于存储过滤后的管理资源。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种分布式并行分析型数据集群管理方法，其特征在于：包括，

根据集群、管理域、集群节点，利用CIM模型建立集群模块(200)；

通过集群模块(200)对客户端(100)采集的管理资源进行异常检测和过滤；

计算服务器(300)的综合性能参数，并根据所述综合性能参数将过滤后的数据进行调度，以存储在所述服务器(300)中；

所述管理资源包括内存使用率、CPU占用率、磁盘读写速率和磁盘空间使用率；

还包括，

所述集群为集群系统的逻辑对象，包括集群系统的存储容量、CPU总体负荷；

所述管理域为集群系统管理域的逻辑对象，包括管理域名称、管理域管理节点的IP地址、管理域存储容量、管理域CPU总体负荷；

所述集群节点为集群系统中某个节点的逻辑对象，包括某个节点的IP地址、实例所在空间地址；

所述异常检测包括，

将所述管理资源定义为P＝{A，B，C，D}；

利用聚类算法压缩所述管理资源P，并计算管理资源P的核密度；

压缩管理资源P的步骤如下：

①输入管理资源P；

②选择k个初始中心点，P[0]＝data[q]，…P[k-1]＝data[q+k-1]；

⑤重复③④，直到所有c[m]值的变化小于给定阈值，设给定阈值为200；

计算管理资源P的核密度：

设管理资源P的微簇为r_t，核密度定义为：

其中，k为总观测次数，D_t为第t个微簇的观测次数，K为核函数，d为微簇总数；

比较数据点间的核密度，删除核密度最小的数据点，更新所述管理资源P；

其中，A＝{a₁，a₂...a_i}为内存使用率数据点集合、B＝{b₁，b₂...b_i}为CPU占用率数据点集合、C＝{c₁，c₂...c_i}为磁盘读写速率数据点集合和D＝{d₁，d₂...d_i}为磁盘空间使用率数据点集合，i为监测节点数；

所述过滤包括，

在集群模块(200)的过滤单元中建立一个类，所述类存有需要监控的数据，当过滤单元接收到管理资源时，自动生成实例，通过实例滤除不需要监控的数据。

2.如权利要求1所述的分布式并行分析型数据集群管理方法，其特征在于：所述综合性能参数包括，

采集服务器(300)输出的性能指标；

根据服务器(300)的性能指标值与最大性能指标值，计算性能指标的比值；

根据所述比值设置权重，结合所述权重获得所述综合性能参数。

3.如权利要求2所述的分布式并行分析型数据集群管理方法，其特征在于：所述性能指标的比值包括，

所述服务器(300)输出的性能指标包括CPU处理速率v_j、内存容量s_j、磁盘读写速率r_j和网络带宽e_j；

CPU处理速率的比值S_C为：

内存容量的比值S_M为：

磁盘读写速率的比值S_R为：

网络带宽的比值S_E为：

其中，j表示第j台服务器，n为服务器编号。

4.如权利要求3所述的分布式并行分析型数据集群管理方法，其特征在于：所述调度包括，

选取最大综合性能参数的服务器保存过滤后数据中的动态数据，其余的服务器存储过滤后数据中的静态数据。

5.一种采用如权利要求1所述的分布式并行分析型数据集群管理方法的系统，其特征在于：包括，

客户端(100)，用于采集管理资源；其中，所述管理资源包括内存使用率、CPU占用率、磁盘读写速率和磁盘空间使用率；

集群模块(200)，与所述客户端(100)连接，基于核密度函数对所述管理资源进行异常检测和过滤；

服务器(300)，与所述集群模块(200)连接，用于存储过滤后的管理资源。