CN115509693A

CN115509693A - 一种基于集群Pod调度结合数据湖的数据优化方法

Info

Publication number: CN115509693A
Application number: CN202211361193.4A
Authority: CN
Inventors: 唐继哲; 陆克伦
Original assignee: Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Current assignee: Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2022-12-23

Abstract

本发明公开了一种基于集群Pod调度结合数据湖的数据优化方法，包括以下步骤：S11、搭建分布式数据池和分布式集群并进行数据整理；S12、进行类型数据池数据与Pod绑定及pod调度过程中的数据分析和处理。该方法主要是通过在中央服务器部署中央初始数据池，在分布式网络各地方核心Node（节点）部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据，针对调度过来的Pod与调度前数据联合分析、集群外迁移进来数据与调度过来的Pod 2种情况进行分析采用不同方法进行处理，解决现有k8s集群Pod调度后数据分析效率不高，非集群业务过渡到Kubernetes时数据迁移工作量大的问题。

Description

一种基于集群Pod调度结合数据湖的数据优化方法

技术领域

本发明属于大数据与AI技术领域，具体涉及一种基于集群Pod调度结合数据湖的数据优化方法。

背景技术

随着科学技术及互联网的发展，推动着大数据时代的来临，各行各业每天都在产生数量巨大的数据碎片，数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集不再是问题，如今的技术问题是面对如此众多的数据，我们怎样才能找到其内在规律。数据湖架构是面向多数据源的信息存储，包括物联网在内，大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户，但数据湖架构可不仅仅是一个巨大的磁盘而已，数据湖的数据持久性和安全是需要优先考虑的因素，很多选择都能交付一个合理的成本，但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除，这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对，这将抵消其容量成本，所以我们需要对数据进行优化。

针对数据分析处理及优化，现有技术已有相关报道。

如中国发明专利CN202010809326.4，公开了一种基于数据湖的异构数据源集成方法及装置，其方法包括如下步骤：a、根据用户调用写数据接口的信息，确定本次写请求的操作标示、数据、时间戳，其中操作标示包含追加、更新、删除三种类型，时间戳为写请求达到的时间，将以上信息追加写入到数据湖中的一个特定文件内；b、将上一步写入到特定文件内的数据，结合操作标示及时间戳做数据合并处理，得到最终的结果数据。本发明解决了现有数据湖数据集成技术，无法支持数据更新操作，不能将数据湖的数据和原始数据保持一致，不能有效解决大数据集群大量小文件导致查询性能低效等问题。

又如中国发明专利CN202210189508.5，公开了一种基于对象存储的数据湖文件系统，包括本地文件存储组件、文件管理组件和本地元数据存储组件，其中，文件管理组件包括操作事务管理组件和文件版本管理组件；本地文件存储组件受文件管理组件控制，本地文件存储组件负责把业务数据存储对象文件保存到本地，并调用本地元数据存储组件保存业务数据目标对象对应的元数据；操作事务管理组件用来控制整个本地文件存储组件事务的生命周期，在事务提交、回滚操作过程中联动文件版本管理组件。本发明使组件应用方不用意识到底层文件系统原理即可达到缓存的效果，使用户不必关心数据治理细节，只关注上层用户接口就能提升数据治理效果和精度，降低了数据应用难度，提升了数据应用灵活性。

但是现有技术数据分析量大，效率不高，数据比对成本高。

发明内容

本发明针对现有技术的不足，提供一种基于集群Pod调度结合数据湖的数据优化方法。本发明主要是通过在中央服务器部署中央初始数据池，在分布式网络各地方核心Node(节点)部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据，针对调度过来的Pod与调度前数据联合分析、集群外迁移进来数据与调度过来的Pod 2种情况进行分析采用不同方法进行处理，解决现有Kubernetes集群Pod调度后数据分析效率不高，非集群业务过渡到Kubernetes时数据迁移工作量大的问题。

为了实现上述目的，本发明采用了以下技术方案：

一种基于集群Pod调度结合数据湖的数据优化方法，包括以下步骤：

S11、搭建分布式数据池和分布式集群并进行数据整理；

S12、进行类型数据池数据与Pod绑定及pod调度过程中的数据分析处理及优化。

本发明的进一步说明，所述步骤S11包括以下步骤：

S111、在中央服务器部署中央初始数据池和基于Kubernetes的中央集群，所述中央集群产生的数据存储在中央初始数据池；同时创建对存储数据进行分类存储的多种类型数据池，并在各地方Node创建用于存放当地pod产生的数据的对应的多种类型数据仓储罐；

S112、在分布式网络各地方核心Node部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据，并进行初步整理，将其中的价值不大数据放入中央初始数据池分配出来的杂物数据池，其余数据按照数据类型放入不同类型数据池的数据仓储罐；

S113、将采集的物理设备及网络数据、应用运算数据、日志文本数据放入到中央初始数据池，同时捕捉到采集数据对应的元数据，采集数据关联的元数据、元过程数据、和采集数据与Pod关联的元数据及元过程数据三方关系映射为元数据标识一起传递给对应类型数据池进行处理。

所述初始数据池用于充当数据的存放单元，并根据数据特征进行整理，为下一步数据进入不同类型数据池做准备；所述Kubernetes是一个开源的，用于管理云平台中多个主机上的容器化的应用；所述价值不大的数据包括数据波动不大且重复大量的数据，从价值分析角度判断价值不大，例如监控采集正常的数据；所述三种类型数据池用于获取来自中央初始数据池整理过的数据，并对存储的数据进行分类存储；所述三种类型数据仓储罐存放当地pod产生的数据。

本发明的进一步说明，所述步骤S12 pod调度过程中的数据分析处理包括两种pod数据分析情况，具体为：

S121、当Pod调度到新Node，Pod产生新的业务数据，需要将Pod调度前和调度后的数据进行分析时；

S122、当部分业务没有整合到集群内，集群外业务数据需要与调度过来的Pod整合时。

本发明的进一步说明，所述pod数据分析情况1)的处理方法具体包括以下步骤：

S1211、分析收到的元数据标识格式；

S1212、获取每条数据关联的元数据并进行统一声明；

S1213、对Pod调度前和调度后的数据进行跨数据池的分析及运算。

所述Pod数据分析及运算相当于在多个不同数据池的数据仓储罐之间进行数据分析及运算；所述对每条数据关联的元数据进行统一声明后可以跨数据池进行分析及运算，不需要数据池里的Pod数据随着Pod调度而进行转移，并且当Pod查询调度前后的数据一起进行分析运算也避免了数据库数据迁移造成数据存放在不同数据库表需要聚合再分析的繁琐运算导致效率低的问题。

本发明的进一步说明，所述pod数据分析情况2)的处理方法具体包括以下步骤：

S1221、新建地方核心Node部署的中央初始数据池对应的特殊数据仓储罐；

S1222、将要整合的集群外业务数据单独放入特殊数据仓储罐中，得到特殊数据；

S1223、特殊数据与一起迁移过来的与Pod关联的元数据、元过程数据及三方关系映射为元数据标识。

所述特殊数据专门指所有非本地数据，跨地方数据有关联运算需求的数据，或者集群外业务数据。

本发明的进一步说明，所述步骤S12数据优化具体为：特殊数据仓储罐需要与各网络节点部署的三种类型数据池存储的数据进行关联运算时，通过二次插值技术来对特殊数据进行优化；所述二次插值技术具体为：对不同节点采样不均匀的数据做差值处理，再采用二次差值方法，以每3个相邻点做插值，得到二次插值；所述二次插值公式为：

式中：x为分类对象的当前数值，y为分类对象的3个相邻点，i为序号。

所述二次差值技术对特殊数据进行优化后可以使得数据间隔均匀，和Transformer时序处理更加匹配，还可以较真实还原特殊数据场景缺失数据；所述二次插值技术主要是对数据隔几个取一条，针对价值不大或数值波动不大数据的一种优化，可以减少模型运算数量及资源消耗。

本发明的进一步说明，所述通过二次插值技术优化后的特殊数据可以与地方网络节点关联数据的元数据ID放在一个数据集合运算。

本发明的进一步说明，所述多种类型的数据池包括模拟信号数据池、应用程序数据池、文本数据池；所述多种类型数据仓储罐包括模拟信号数据仓储罐、应用程序数据仓储罐、文本数据仓储罐；所述三种类型数据仓储罐对应并从属于三种类型数据池；所述数据池由多个数据仓储罐组成，每个数据仓储罐对应一个集群的Node。

本发明的进一步说明，所述一个基于Kubernetes的集群包括Master(主节点)、Node(节点)、Pod。

本发明的进一步说明，所述采集数据对应的元数据包括对数据的记录、索引、键值以及不同数据属性间关系的描述；所述元过程数据包括记录的日期、地点、责任人及其他附属信息；所述元数据标识格式为数值###元数据ID###元过程数据ID。

本发明具有以下有益效果：

1、本发明通过搭建分布式数据池和分布式集群，实现当数据进入了各种不同类型的数据池时，初始数据就会经历分类存储，便于分析。

2、本发明针对调度过来的Pod与调度前数据联合分析、集群外迁移进来数据与调度过来的Pod 2种情况进行分析采用不同方法进行处理，从而解决现有Kubernetes集群Pod调度后数据分析效率不高的弊端，同时解决非集群业务过渡到Kubernetes尤其是数据的迁移工作量巨大的问题。

附图说明

图1为基于集群Pod调度结合数据湖的数据优化方法流程图。

图2为基于集群Pod调度结合数据湖的数据优化方法模型图。

具体实施方式

下面结合附图对本发明作进一步说明。

一种基于集群Pod调度结合数据湖的数据优化方法，其流程如图1所示，其模型如图2所示，包括以下步骤：

S11、搭建分布式数据池和分布式集群并进行数据整理。

S111、在中央服务器部署中央初始数据池和基于Kubernetes的中央集群，一个基于Kubernetes的集群主要包括三个对象Master(主节点)、Node(节点)、Pod，中央集群产生的数据存储在中央初始数据池；同时创建多种类型数据池，包括模拟信号数据池、应用程序数据池、文本数据池，用于获取来自中央初始数据池整理过的数据，并对存储的数据进行分类存储；并在各地方Node创建对应的三种类型数据仓储罐，用于存放当地pod产生的数据，包括模拟信号数据仓储罐、应用程序数据仓储罐、文本数据仓储罐；所述三种类型数据仓储罐对应并从属于三种类型数据池；所述数据池由多个数据仓储罐组成，每个数据仓储罐对应一个集群的Node。

S112、在分布式网络各地方核心Node部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据，并进行初步整理，将其中的价值不大数据放入中央初始数据池分配出来的杂物数据池，其余数据按照数据类型放入不同类型数据池的数据仓储罐。

S113、将采集的物理设备及网络数据、应用运算数据、日志文本数据放入到中央初始数据池，同时捕捉到采集数据对应的元数据，包括对数据的记录、索引、键值以及不同数据属性间关系的描述。设置初始数据池目的是充当数据的存放单元，并根据数据特征为下一步数据进入不同类型数据池做准备。采集数据关联的元数据、元过程数据、和采集数据与Pod关联的元数据及元过程数据三方关系映射为元数据标识一起传递给对应类型数据池进行处理；所述元过程数据包括记录的日期、地点、责任人及其他附属信息，比采集的数据更据有分析价值，通常包含了更丰富的信息；所述元数据标识格式为数值###元数据ID###元过程数据ID。

所述步骤S12 pod调度过程中的数据分析和处理包括两种pod数据分析情况，具体为：

S121、当Pod调度到新Node，Pod产生新的业务数据时，需要将Pod调度前和调度后的数据进行分析；其处理方法具体包括以下步骤：

S1211、分析收到的元数据标识格式；

S1212、获取每条数据关联的元数据并进行统一声明；

集群之间Pod数据分析及运算相当于在多个不同数据池的数据仓储罐之间进行数据分析及运算，首先分析收到的元数据标识格式，获取每条数据关联的元数据先进行统一声明后才可以跨数据池进行分析及运算。而不需要数据池里的Pod数据随着Pod调度而进行转移，并且当Pod查询调度前后的数据一起进行分析运算也避免了数据库数据迁移造成数据存放在不同数据库表需要聚合再分析的繁琐运算效率低的问题。

现有集群技术做法是先通过镜像服务器获取Pod调度前的数据，再与调度后的数据进行联合分析获得Pod全过程分析数据，Pod频繁切换，这样做会给镜像服务器造成资源消耗过大，分析效率不高。

S122、当部分业务没有整合到集群内，集群外业务数据需要与调度过来的Pod整合时，其处理方法具体包括以下步骤：

所述步骤S12数据优化具体为：当存储在初始数据池的特殊数据仓储罐需要与各网络节点部署的多种类型数据池存储的数据进行关联运算时，为了最优的数据分析效率，避免大量重复且价值较小数据过多占用资源，通过二次插值技术来对特殊数据进行优化；所述二次插值技术具体为：首先，为适应模型处理，对不同节点采样不均匀的数据做差值处理，再采用二次差值方法，以每3个相邻点做插值，得到二次插值，即人工智能算法提优后的数据；所述二次插值公式为：

通过二次插值技术优化后的特殊数据可以与地方网络节点关联数据的元数据ID放在一个数据集合运算。这样就可以实现跨数据池的数据交互运算，也解决了非集群业务过渡到Kubernetes的一些问题，尤其是目前数据迁移的做法，需要至少与将在Kubernetes上运行的新建应用程序一起平稳运行一段时间，再进行大规模迁移，很难估计其工作量，因为这在很大程度上取决于软件(例如，是否已将其容器化，使用了哪种编程语言，等等)。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于集群Pod调度结合数据湖的数据优化方法，其特征在于包括以下步骤：

S11、搭建分布式数据池和分布式集群并进行数据整理；

S12、进行类型数据池数据与Pod绑定和pod调度过程中的数据分析处理及优化。

2.根据权利要求1所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述步骤S11包括以下步骤：

3.根据权利要求2所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述步骤S12 pod调度过程中的数据分析处理包括两种pod数据分析情况，具体为：

4.根据权利要求3所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述pod数据分析情况S121的处理方法具体包括以下步骤：

S1211、分析收到的元数据标识格式；

S1212、获取每条数据关联的元数据并进行统一声明；

5.根据权利要求3所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述pod数据分析情况S122的处理方法具体包括以下步骤：

6.根据权利要求5所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述步骤S12数据优化具体为：特殊数据仓储罐需要与各网络节点部署的三种类型数据池存储的数据进行关联运算时，通过二次插值技术来对特殊数据进行优化；所述二次插值技术具体为：对不同节点采样不均匀的数据做差值处理，再采用二次差值方法，以每3个相邻点做插值，得到二次插值；所述二次插值公式为：

7.根据权利要求6所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述通过二次插值技术优化后的特殊数据与地方网络节点关联数据的元数据ID放在一个数据集合运算。

8.根据权利要求2所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述多种类型的数据池包括模拟信号数据池、应用程序数据池、文本数据池；所述多种类型数据仓储罐包括模拟信号数据仓储罐、应用程序数据仓储罐、文本数据仓储罐；所述三种类型数据仓储罐对应并从属于三种类型数据池；所述数据池由多个数据仓储罐组成，每个数据仓储罐对应一个集群的Node。

9.根据权利要求8所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述一个基于Kubernetes的集群包括Master、Node、Pod。

10.根据权利要求9所述的基于集群Pod调度结合数据湖的数据优化方法，其特征在于：所述采集数据对应的元数据包括对数据的记录、索引、键值以及不同数据属性间关系的描述；所述元过程数据包括记录的日期、地点、责任人及其他附属信息；所述元数据标识格式为数值###元数据ID###元过程数据ID。