CN115509693A - 一种基于集群Pod调度结合数据湖的数据优化方法 - Google Patents

一种基于集群Pod调度结合数据湖的数据优化方法 Download PDF

Info

Publication number
CN115509693A
CN115509693A CN202211361193.4A CN202211361193A CN115509693A CN 115509693 A CN115509693 A CN 115509693A CN 202211361193 A CN202211361193 A CN 202211361193A CN 115509693 A CN115509693 A CN 115509693A
Authority
CN
China
Prior art keywords
data
pod
cluster
metadata
pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211361193.4A
Other languages
English (en)
Inventor
唐继哲
陆克伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Original Assignee
Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Zhuang Autonomous Region Public Information Industry Co ltd filed Critical Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Priority to CN202211361193.4A priority Critical patent/CN115509693A/zh
Publication of CN115509693A publication Critical patent/CN115509693A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • G06F9/4856Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于集群Pod调度结合数据湖的数据优化方法,包括以下步骤:S11、搭建分布式数据池和分布式集群并进行数据整理;S12、进行类型数据池数据与Pod绑定及pod调度过程中的数据分析和处理。该方法主要是通过在中央服务器部署中央初始数据池,在分布式网络各地方核心Node(节点)部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,针对调度过来的Pod与调度前数据联合分析、集群外迁移进来数据与调度过来的Pod 2种情况进行分析采用不同方法进行处理,解决现有k8s集群Pod调度后数据分析效率不高,非集群业务过渡到Kubernetes时数据迁移工作量大的问题。

Description

一种基于集群Pod调度结合数据湖的数据优化方法
技术领域
本发明属于大数据与AI技术领域,具体涉及一种基于集群Pod调度结合数据湖的数据优化方法。
背景技术
随着科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集不再是问题,如今的技术问题是面对如此众多的数据,我们怎样才能找到其内在规律。数据湖架构是面向多数据源的信息存储,包括物联网在内,大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户,但数据湖架构可不仅仅是一个巨大的磁盘而已,数据湖的数据持久性和安全是需要优先考虑的因素,很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除,这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本,所以我们需要对数据进行优化。
针对数据分析处理及优化,现有技术已有相关报道。
如中国发明专利CN202010809326.4,公开了一种基于数据湖的异构数据源集成方法及装置,其方法包括如下步骤:a、根据用户调用写数据接口的信息,确定本次写请求的操作标示、数据、时间戳,其中操作标示包含追加、更新、删除三种类型,时间戳为写请求达到的时间,将以上信息追加写入到数据湖中的一个特定文件内;b、将上一步写入到特定文件内的数据,结合操作标示及时间戳做数据合并处理,得到最终的结果数据。本发明解决了现有数据湖数据集成技术,无法支持数据更新操作,不能将数据湖的数据和原始数据保持一致,不能有效解决大数据集群大量小文件导致查询性能低效等问题。
又如中国发明专利CN202210189508.5,公开了一种基于对象存储的数据湖文件系统,包括本地文件存储组件、文件管理组件和本地元数据存储组件,其中,文件管理组件包括操作事务管理组件和文件版本管理组件;本地文件存储组件受文件管理组件控制,本地文件存储组件负责把业务数据存储对象文件保存到本地,并调用本地元数据存储组件保存业务数据目标对象对应的元数据;操作事务管理组件用来控制整个本地文件存储组件事务的生命周期,在事务提交、回滚操作过程中联动文件版本管理组件。本发明使组件应用方不用意识到底层文件系统原理即可达到缓存的效果,使用户不必关心数据治理细节,只关注上层用户接口就能提升数据治理效果和精度,降低了数据应用难度,提升了数据应用灵活性。
但是现有技术数据分析量大,效率不高,数据比对成本高。
发明内容
本发明针对现有技术的不足,提供一种基于集群Pod调度结合数据湖的数据优化方法。本发明主要是通过在中央服务器部署中央初始数据池,在分布式网络各地方核心Node(节点)部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,针对调度过来的Pod与调度前数据联合分析、集群外迁移进来数据与调度过来的Pod 2种情况进行分析采用不同方法进行处理,解决现有Kubernetes集群Pod调度后数据分析效率不高,非集群业务过渡到Kubernetes时数据迁移工作量大的问题。
为了实现上述目的,本发明采用了以下技术方案:
一种基于集群Pod调度结合数据湖的数据优化方法,包括以下步骤:
S11、搭建分布式数据池和分布式集群并进行数据整理;
S12、进行类型数据池数据与Pod绑定及pod调度过程中的数据分析处理及优化。
本发明的进一步说明,所述步骤S11包括以下步骤:
S111、在中央服务器部署中央初始数据池和基于Kubernetes的中央集群,所述中央集群产生的数据存储在中央初始数据池;同时创建对存储数据进行分类存储的多种类型数据池,并在各地方Node创建用于存放当地pod产生的数据的对应的多种类型数据仓储罐;
S112、在分布式网络各地方核心Node部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,并进行初步整理,将其中的价值不大数据放入中央初始数据池分配出来的杂物数据池,其余数据按照数据类型放入不同类型数据池的数据仓储罐;
S113、将采集的物理设备及网络数据、应用运算数据、日志文本数据放入到中央初始数据池,同时捕捉到采集数据对应的元数据,采集数据关联的元数据、元过程数据、和采集数据与Pod关联的元数据及元过程数据三方关系映射为元数据标识一起传递给对应类型数据池进行处理。
所述初始数据池用于充当数据的存放单元,并根据数据特征进行整理,为下一步数据进入不同类型数据池做准备;所述Kubernetes是一个开源的,用于管理云平台中多个主机上的容器化的应用;所述价值不大的数据包括数据波动不大且重复大量的数据,从价值分析角度判断价值不大,例如监控采集正常的数据;所述三种类型数据池用于获取来自中央初始数据池整理过的数据,并对存储的数据进行分类存储;所述三种类型数据仓储罐存放当地pod产生的数据。
本发明的进一步说明,所述步骤S12 pod调度过程中的数据分析处理包括两种pod数据分析情况,具体为:
S121、当Pod调度到新Node,Pod产生新的业务数据,需要将Pod调度前和调度后的数据进行分析时;
S122、当部分业务没有整合到集群内,集群外业务数据需要与调度过来的Pod整合时。
本发明的进一步说明,所述pod数据分析情况1)的处理方法具体包括以下步骤:
S1211、分析收到的元数据标识格式;
S1212、获取每条数据关联的元数据并进行统一声明;
S1213、对Pod调度前和调度后的数据进行跨数据池的分析及运算。
所述Pod数据分析及运算相当于在多个不同数据池的数据仓储罐之间进行数据分析及运算;所述对每条数据关联的元数据进行统一声明后可以跨数据池进行分析及运算,不需要数据池里的Pod数据随着Pod调度而进行转移,并且当Pod查询调度前后的数据一起进行分析运算也避免了数据库数据迁移造成数据存放在不同数据库表需要聚合再分析的繁琐运算导致效率低的问题。
本发明的进一步说明,所述pod数据分析情况2)的处理方法具体包括以下步骤:
S1221、新建地方核心Node部署的中央初始数据池对应的特殊数据仓储罐;
S1222、将要整合的集群外业务数据单独放入特殊数据仓储罐中,得到特殊数据;
S1223、特殊数据与一起迁移过来的与Pod关联的元数据、元过程数据及三方关系映射为元数据标识。
所述特殊数据专门指所有非本地数据,跨地方数据有关联运算需求的数据,或者集群外业务数据。
本发明的进一步说明,所述步骤S12数据优化具体为:特殊数据仓储罐需要与各网络节点部署的三种类型数据池存储的数据进行关联运算时,通过二次插值技术来对特殊数据进行优化;所述二次插值技术具体为:对不同节点采样不均匀的数据做差值处理,再采用二次差值方法,以每3个相邻点做插值,得到二次插值;所述二次插值公式为:
Figure BDA0003922102660000031
式中:x为分类对象的当前数值,y为分类对象的3个相邻点,i为序号。
所述二次差值技术对特殊数据进行优化后可以使得数据间隔均匀,和Transformer时序处理更加匹配,还可以较真实还原特殊数据场景缺失数据;所述二次插值技术主要是对数据隔几个取一条,针对价值不大或数值波动不大数据的一种优化,可以减少模型运算数量及资源消耗。
本发明的进一步说明,所述通过二次插值技术优化后的特殊数据可以与地方网络节点关联数据的元数据ID放在一个数据集合运算。
本发明的进一步说明,所述多种类型的数据池包括模拟信号数据池、应用程序数据池、文本数据池;所述多种类型数据仓储罐包括模拟信号数据仓储罐、应用程序数据仓储罐、文本数据仓储罐;所述三种类型数据仓储罐对应并从属于三种类型数据池;所述数据池由多个数据仓储罐组成,每个数据仓储罐对应一个集群的Node。
本发明的进一步说明,所述一个基于Kubernetes的集群包括Master(主节点)、Node(节点)、Pod。
本发明的进一步说明,所述采集数据对应的元数据包括对数据的记录、索引、键值以及不同数据属性间关系的描述;所述元过程数据包括记录的日期、地点、责任人及其他附属信息;所述元数据标识格式为数值###元数据ID###元过程数据ID。
本发明具有以下有益效果:
1、本发明通过搭建分布式数据池和分布式集群,实现当数据进入了各种不同类型的数据池时,初始数据就会经历分类存储,便于分析。
2、本发明针对调度过来的Pod与调度前数据联合分析、集群外迁移进来数据与调度过来的Pod 2种情况进行分析采用不同方法进行处理,从而解决现有Kubernetes集群Pod调度后数据分析效率不高的弊端,同时解决非集群业务过渡到Kubernetes尤其是数据的迁移工作量巨大的问题。
附图说明
图1为基于集群Pod调度结合数据湖的数据优化方法流程图。
图2为基于集群Pod调度结合数据湖的数据优化方法模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
一种基于集群Pod调度结合数据湖的数据优化方法,其流程如图1所示,其模型如图2所示,包括以下步骤:
S11、搭建分布式数据池和分布式集群并进行数据整理。
S111、在中央服务器部署中央初始数据池和基于Kubernetes的中央集群,一个基于Kubernetes的集群主要包括三个对象Master(主节点)、Node(节点)、Pod,中央集群产生的数据存储在中央初始数据池;同时创建多种类型数据池,包括模拟信号数据池、应用程序数据池、文本数据池,用于获取来自中央初始数据池整理过的数据,并对存储的数据进行分类存储;并在各地方Node创建对应的三种类型数据仓储罐,用于存放当地pod产生的数据,包括模拟信号数据仓储罐、应用程序数据仓储罐、文本数据仓储罐;所述三种类型数据仓储罐对应并从属于三种类型数据池;所述数据池由多个数据仓储罐组成,每个数据仓储罐对应一个集群的Node。
S112、在分布式网络各地方核心Node部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,并进行初步整理,将其中的价值不大数据放入中央初始数据池分配出来的杂物数据池,其余数据按照数据类型放入不同类型数据池的数据仓储罐。
S113、将采集的物理设备及网络数据、应用运算数据、日志文本数据放入到中央初始数据池,同时捕捉到采集数据对应的元数据,包括对数据的记录、索引、键值以及不同数据属性间关系的描述。设置初始数据池目的是充当数据的存放单元,并根据数据特征为下一步数据进入不同类型数据池做准备。采集数据关联的元数据、元过程数据、和采集数据与Pod关联的元数据及元过程数据三方关系映射为元数据标识一起传递给对应类型数据池进行处理;所述元过程数据包括记录的日期、地点、责任人及其他附属信息,比采集的数据更据有分析价值,通常包含了更丰富的信息;所述元数据标识格式为数值###元数据ID###元过程数据ID。
S12、进行类型数据池数据与Pod绑定及pod调度过程中的数据分析处理及优化。
所述步骤S12 pod调度过程中的数据分析和处理包括两种pod数据分析情况,具体为:
S121、当Pod调度到新Node,Pod产生新的业务数据时,需要将Pod调度前和调度后的数据进行分析;其处理方法具体包括以下步骤:
S1211、分析收到的元数据标识格式;
S1212、获取每条数据关联的元数据并进行统一声明;
S1213、对Pod调度前和调度后的数据进行跨数据池的分析及运算。
集群之间Pod数据分析及运算相当于在多个不同数据池的数据仓储罐之间进行数据分析及运算,首先分析收到的元数据标识格式,获取每条数据关联的元数据先进行统一声明后才可以跨数据池进行分析及运算。而不需要数据池里的Pod数据随着Pod调度而进行转移,并且当Pod查询调度前后的数据一起进行分析运算也避免了数据库数据迁移造成数据存放在不同数据库表需要聚合再分析的繁琐运算效率低的问题。
现有集群技术做法是先通过镜像服务器获取Pod调度前的数据,再与调度后的数据进行联合分析获得Pod全过程分析数据,Pod频繁切换,这样做会给镜像服务器造成资源消耗过大,分析效率不高。
S122、当部分业务没有整合到集群内,集群外业务数据需要与调度过来的Pod整合时,其处理方法具体包括以下步骤:
S1221、新建地方核心Node部署的中央初始数据池对应的特殊数据仓储罐;
S1222、将要整合的集群外业务数据单独放入特殊数据仓储罐中,得到特殊数据;
S1223、特殊数据与一起迁移过来的与Pod关联的元数据、元过程数据及三方关系映射为元数据标识。
所述步骤S12数据优化具体为:当存储在初始数据池的特殊数据仓储罐需要与各网络节点部署的多种类型数据池存储的数据进行关联运算时,为了最优的数据分析效率,避免大量重复且价值较小数据过多占用资源,通过二次插值技术来对特殊数据进行优化;所述二次插值技术具体为:首先,为适应模型处理,对不同节点采样不均匀的数据做差值处理,再采用二次差值方法,以每3个相邻点做插值,得到二次插值,即人工智能算法提优后的数据;所述二次插值公式为:
Figure BDA0003922102660000061
式中:x为分类对象的当前数值,y为分类对象的3个相邻点,i为序号。
通过二次插值技术优化后的特殊数据可以与地方网络节点关联数据的元数据ID放在一个数据集合运算。这样就可以实现跨数据池的数据交互运算,也解决了非集群业务过渡到Kubernetes的一些问题,尤其是目前数据迁移的做法,需要至少与将在Kubernetes上运行的新建应用程序一起平稳运行一段时间,再进行大规模迁移,很难估计其工作量,因为这在很大程度上取决于软件(例如,是否已将其容器化,使用了哪种编程语言,等等)。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (10)

1.一种基于集群Pod调度结合数据湖的数据优化方法,其特征在于包括以下步骤:
S11、搭建分布式数据池和分布式集群并进行数据整理;
S12、进行类型数据池数据与Pod绑定和pod调度过程中的数据分析处理及优化。
2.根据权利要求1所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述步骤S11包括以下步骤:
S111、在中央服务器部署中央初始数据池和基于Kubernetes的中央集群,所述中央集群产生的数据存储在中央初始数据池;同时创建对存储数据进行分类存储的多种类型数据池,并在各地方Node创建用于存放当地pod产生的数据的对应的多种类型数据仓储罐;
S112、在分布式网络各地方核心Node部署中央初始数据池对应的初始数据仓储罐收集地方的Pod数据,并进行初步整理,将其中的价值不大数据放入中央初始数据池分配出来的杂物数据池,其余数据按照数据类型放入不同类型数据池的数据仓储罐;
S113、将采集的物理设备及网络数据、应用运算数据、日志文本数据放入到中央初始数据池,同时捕捉到采集数据对应的元数据,采集数据关联的元数据、元过程数据、和采集数据与Pod关联的元数据及元过程数据三方关系映射为元数据标识一起传递给对应类型数据池进行处理。
3.根据权利要求2所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述步骤S12 pod调度过程中的数据分析处理包括两种pod数据分析情况,具体为:
S121、当Pod调度到新Node,Pod产生新的业务数据,需要将Pod调度前和调度后的数据进行分析时;
S122、当部分业务没有整合到集群内,集群外业务数据需要与调度过来的Pod整合时。
4.根据权利要求3所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述pod数据分析情况S121的处理方法具体包括以下步骤:
S1211、分析收到的元数据标识格式;
S1212、获取每条数据关联的元数据并进行统一声明;
S1213、对Pod调度前和调度后的数据进行跨数据池的分析及运算。
5.根据权利要求3所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述pod数据分析情况S122的处理方法具体包括以下步骤:
S1221、新建地方核心Node部署的中央初始数据池对应的特殊数据仓储罐;
S1222、将要整合的集群外业务数据单独放入特殊数据仓储罐中,得到特殊数据;
S1223、特殊数据与一起迁移过来的与Pod关联的元数据、元过程数据及三方关系映射为元数据标识。
6.根据权利要求5所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述步骤S12数据优化具体为:特殊数据仓储罐需要与各网络节点部署的三种类型数据池存储的数据进行关联运算时,通过二次插值技术来对特殊数据进行优化;所述二次插值技术具体为:对不同节点采样不均匀的数据做差值处理,再采用二次差值方法,以每3个相邻点做插值,得到二次插值;所述二次插值公式为:
Figure FDA0003922102650000021
式中:x为分类对象的当前数值,y为分类对象的3个相邻点,i为序号。
7.根据权利要求6所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述通过二次插值技术优化后的特殊数据与地方网络节点关联数据的元数据ID放在一个数据集合运算。
8.根据权利要求2所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述多种类型的数据池包括模拟信号数据池、应用程序数据池、文本数据池;所述多种类型数据仓储罐包括模拟信号数据仓储罐、应用程序数据仓储罐、文本数据仓储罐;所述三种类型数据仓储罐对应并从属于三种类型数据池;所述数据池由多个数据仓储罐组成,每个数据仓储罐对应一个集群的Node。
9.根据权利要求8所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述一个基于Kubernetes的集群包括Master、Node、Pod。
10.根据权利要求9所述的基于集群Pod调度结合数据湖的数据优化方法,其特征在于:所述采集数据对应的元数据包括对数据的记录、索引、键值以及不同数据属性间关系的描述;所述元过程数据包括记录的日期、地点、责任人及其他附属信息;所述元数据标识格式为数值###元数据ID###元过程数据ID。
CN202211361193.4A 2022-11-02 2022-11-02 一种基于集群Pod调度结合数据湖的数据优化方法 Pending CN115509693A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211361193.4A CN115509693A (zh) 2022-11-02 2022-11-02 一种基于集群Pod调度结合数据湖的数据优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211361193.4A CN115509693A (zh) 2022-11-02 2022-11-02 一种基于集群Pod调度结合数据湖的数据优化方法

Publications (1)

Publication Number Publication Date
CN115509693A true CN115509693A (zh) 2022-12-23

Family

ID=84512546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211361193.4A Pending CN115509693A (zh) 2022-11-02 2022-11-02 一种基于集群Pod调度结合数据湖的数据优化方法

Country Status (1)

Country Link
CN (1) CN115509693A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578570A (zh) * 2023-07-12 2023-08-11 北京滴普科技有限公司 一种自动优化表数据结构布局的方法、系统及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578570A (zh) * 2023-07-12 2023-08-11 北京滴普科技有限公司 一种自动优化表数据结构布局的方法、系统及设备
CN116578570B (zh) * 2023-07-12 2023-10-13 北京滴普科技有限公司 一种自动优化表数据结构布局的方法、系统及设备

Similar Documents

Publication Publication Date Title
CN100596353C (zh) 提供日志服务的方法及系统
CN103390066B (zh) 一种数据库全局性自动化优化预警装置及其处理方法
CN100547583C (zh) 数据库的自动和动态提供的方法
CN1959717B (zh) 订单驱动的海量遥感数据集群化预处理系统及其方法
CN101645032B (zh) 应用服务器的性能分析方法和应用服务器
US20170185621A1 (en) Reconstructing distributed cached data for retrieval
CN104317800A (zh) 一种海量智能用电数据混合存储系统及方法
CN104462185B (zh) 一种基于混合结构的数字图书馆云存储系统
CN105243155A (zh) 一种大数据抽取和交换系统
CN107491515B (zh) 基于大数据平台的智能配用电数据转换方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN101937474A (zh) 海量数据查询方法及设备
CN103605698A (zh) 一种用于分布异构数据资源整合的云数据库系统
CN107800808A (zh) 一种基于Hadoop架构的数据存储系统
CN102929899A (zh) 一种基于中间表的分布式报表系统
CN112632025A (zh) 一种基于paas平台的电网企业管理决策支持应用系统
CN114647716B (zh) 一种适用于泛化数据仓库的系统
CN110505495A (zh) 多媒体资源抽帧方法、装置、服务器及存储介质
CN115794929B (zh) 数据集市的数据管理系统和数据管理方法
CN112347071A (zh) 一种配电网云平台数据融合方法及配电网云平台
CN110083600A (zh) 一种日志收集处理的方法、装置、计算设备及存储介质
CN1561496A (zh) 用于访问关系型数据库系统中的分层数据的高效索引结构
CN115509693A (zh) 一种基于集群Pod调度结合数据湖的数据优化方法
CN111459900B (zh) 大数据生命周期设置方法、装置、存储介质及服务器
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination