CN115391427A - Impala自动化伸缩的系统、方法、介质及设备 - Google Patents

Impala自动化伸缩的系统、方法、介质及设备 Download PDF

Info

Publication number
CN115391427A
CN115391427A CN202211055551.9A CN202211055551A CN115391427A CN 115391427 A CN115391427 A CN 115391427A CN 202211055551 A CN202211055551 A CN 202211055551A CN 115391427 A CN115391427 A CN 115391427A
Authority
CN
China
Prior art keywords
impala
information
management module
component
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211055551.9A
Other languages
English (en)
Inventor
潘熙文
罗俊
罗煜辉
刘家闰
王�锋
周飞
鲍玲
王良杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Bank Co Ltd
CIB Fintech Services Shanghai Co Ltd
Original Assignee
Industrial Bank Co Ltd
CIB Fintech Services Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Bank Co Ltd, CIB Fintech Services Shanghai Co Ltd filed Critical Industrial Bank Co Ltd
Priority to CN202211055551.9A priority Critical patent/CN115391427A/zh
Publication of CN115391427A publication Critical patent/CN115391427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种Impala自动化伸缩的系统、方法、介质及设备,包括:配置管理模块:对工作空间、实例和模板进行管理;应用控制模块:接收配置管理模块提交的信息,并翻译成容器化平台可以接受的格式,对Impala的各组件进行编排生成API信息;容器平台模块:根据API信息生成Impala内部组件的实例初始化,通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。本发明通过采用容器化impala大数据计算服务组件,从而解决了应对高并发大数据量查询过慢无法自动扩缩容问题。

Description

Impala自动化伸缩的系统、方法、介质及设备
技术领域
本发明涉及Impala自动化伸缩技术领域,具体地,涉及一种Impala自动化伸缩的系统、方法、介质及设备。
背景技术
Impala作为主流的大数据查询组件,在大数据即席查询、实时数仓等场景有着广泛的应用。但是随着数据量与使用客群的增加,如何应对高并发访问与租户管理等问题愈发明显。
专利文献CN113138976A(申请号:CN202010064306.9)公开了一种提升Impala查询容量的实现方案,将从数据源收集,处理后的数据存储到Hadoop集群中,Impala关联Hadoop集群,通过将元数据缓存入Redis中,在用户首次提交查询请求,SQL引擎创建执行计划时,从Redis中获取元数据,反序列化后存入Lrucache中,后续请求创建执行计划直接从Lrucache中获取元数据。该专利主要在于Impala节点的纵向提升,却不能够在横向节点扩展方向发挥作用。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种Impala自动化伸缩的系统、方法、介质及设备。
根据本发明提供的Impala自动化伸缩的系统,包括:
配置管理模块:对工作空间、实例和模板进行管理;
应用控制模块:接收配置管理模块提交的信息,并翻译成容器化平台可以接受的格式,对Impala的各组件进行编排生成API信息;
容器平台模块:根据API信息生成Impala内部组件的实例初始化,通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。
优选的,所述配置管理模块包括:工作空间管理模块,为不同租户建立不同的资源隔离空间逻辑规划,通过Kubernates接口创建一个工作空间,工作空间对应k8s集群中的Namespace命名空间,并且通过接口打上标签和污点。
优选的,所述配置管理模块包括:实例管理模块,提供在k8s集群不同工作空间中通过前端或API在指定的工作空间中进行Impala实例的创建、变更、回收以及查询功能。
优选的,所述配置管理模块包括:模板管理模块,保存工作空间管理模块与实例管理模块的信息,并将用户所提交的信息进行封装,通过接口提交到应用控制模块。
优选的,通过日志收集器收集各组件的运行日志到日志存储平台,并进行审计分析。
优选的,根据应用控制模块提交的租户信息配置内容启动Impala实例运行到指定节点中,进行多租户资源隔离,并监控Impala集群状态。
优选的,所述应用控制模块包括:对支持Impala类型的组件进行定义,用于资源控制,并根据配置管理模块提交的租户生成权限与资源隔离内容生成具体的配置文件信息,最后提交容器平台模块生成Impala集群并将配置最终写入生成的实例中。
根据本发明提供的Impala自动化伸缩的方法,包括:
步骤1:对工作空间、实例和模板进行管理;
步骤2:接收配置管理模块提交的信息,并翻译成容器化平台可以接受的格式,对Impala的各组件进行编排生成API信息;
步骤3:根据API信息生成Impala内部组件的实例初始化,通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。
根据本发明提供的存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的方法的步骤。
根据本发明提供的Impala自动化伸缩的设备,包括:控制器;
所述控制器包括所述的存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的Impala自动化伸缩的方法的步骤;或者,所述控制器包括所述的Impala自动化伸缩的系统。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明通过采用容器化impala大数据计算服务组件,从而解决了应对高并发大数据量查询过慢无法自动扩缩容问题;
(2)本发明通过采用租户实例管理模式,针对不同部门与使用者,建立起不同的租户与权限,解决了子集群与资源使用的管理问题,同时也简化了作业任务调度与运行的监控管理难度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为系统架构图;
图2为部署方案图;
图3为租户隔离架构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
本发明提出了一种大数据组件Impala自动伸缩化系统,包括:
配置管理模块,其包含了工作空间管理、实例管理、模板管理等功能。
工作空间管理为不同租户(可按照部门或小组用户来划分)建立起不同的资源隔离空间逻辑规划,通过Kubernates接口创建一个工作空间,工作空间对应k8s集群中的Namespace命名空间,并且通过接口打上标签和污点。
实例管理提供在k8s集群不同工作空间中通过前端或API在指定的工作空间中进行Impala实例的创建、变更、回收以及查询功能。
模板管理可保存工作空间管理与实例管理等信息,为以后的再次部署、启动Impala集群提供快速便捷的功能。配置管理模块将用户所提交的信息进行封装,通过接口提交到应用控制模块。
应用控制模块,基于模板引擎接收配置管理模块提交的信息翻译成容器化平台可以接受的格式对Impala的各组件进行编排文件的生成,其中包括元数据信息Catalog、状态信息Statestore与计算组件Impala等模块。
根据Impala的模块定义抽象Impala控制资源为支持Impala类型组件定义的对象,并且会根据配置管理模块提交的租户生成权限与资源隔离内容生成具体的配置文件信息,最后提交底层容器平台模块来生成Impala集群并将配置最终写入生成的实例中。
容器平台模块,该模块是容器化平台底座。其根据API信息生成具体的Impala内部组件Statestore、Catalog、Impala等模块的实例初始化,以及监控impala集群状态等功能,并且根据应用控制模块提交的租户信息配置内容启动Impala实例到运行到指定节点中,从而起到多租户资源隔离的作用。通过日志收集器,收集各组件的运行日志到日志存储平台,为日后的审计分析提供依据。通过监控组件收集Impala组件资源信息并根据配置规则来自动伸缩实例。
根据本发明提供的Impala自动化伸缩的方法,包括:步骤1:对工作空间、实例和模板进行管理;步骤2:接收配置管理模块提交的信息,并翻译成容器化平台可以接受的格式,对Impala的各组件进行编排生成API信息;步骤3:根据API信息生成Impala内部组件的实例初始化,通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。
根据本发明提供的存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的方法的步骤。
根据本发明提供的Impala自动化伸缩的设备,包括:控制器;所述控制器包括所述的存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现所述的Impala自动化伸缩的方法的步骤;或者,所述控制器包括所述的Impala自动化伸缩的系统。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种Impala自动化伸缩的系统,其特征在于,包括:
配置管理模块:对工作空间、实例和模板进行管理;
应用控制模块:接收配置管理模块提交的信息,并翻译成容器化平台可以接受的格式,对Impala的各组件进行编排生成API信息;
容器平台模块:根据API信息生成Impala内部组件的实例初始化,通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。
2.根据权利要求1所述的Impala自动化伸缩的系统,其特征在于,所述配置管理模块包括:工作空间管理模块,为不同租户建立不同的资源隔离空间逻辑规划,通过Kubernates接口创建一个工作空间,工作空间对应k8s集群中的Namespace命名空间,并且通过接口打上标签和污点。
3.根据权利要求1所述的Impala自动化伸缩的系统,其特征在于,所述配置管理模块包括:实例管理模块,提供在k8s集群不同工作空间中通过前端或API在指定的工作空间中进行Impala实例的创建、变更、回收以及查询功能。
4.根据权利要求1所述的Impala自动化伸缩的系统,其特征在于,所述配置管理模块包括:模板管理模块,保存工作空间管理模块与实例管理模块的信息,并将用户所提交的信息进行封装,通过接口提交到应用控制模块。
5.根据权利要求1所述的Impala自动化伸缩的系统,其特征在于,通过日志收集器收集各组件的运行日志到日志存储平台,并进行审计分析。
6.根据权利要求1所述的Impala自动化伸缩的系统,其特征在于,根据应用控制模块提交的租户信息配置内容启动Impala实例运行到指定节点中,进行多租户资源隔离,并监控Impala集群状态。
7.根据权利要求1所述的Impala自动化伸缩的系统,其特征在于,所述应用控制模块包括:对支持Impala类型的组件进行定义,用于资源控制,并根据配置管理模块提交的租户生成权限与资源隔离内容生成具体的配置文件信息,最后提交容器平台模块生成Impala集群并将配置最终写入生成的实例中。
8.一种Impala自动化伸缩的方法,其特征在于,采用权利要求1-7中任一项所述的Impala自动化伸缩的系统,包括:
步骤1:对工作空间、实例和模板进行管理;
步骤2:接收配置管理模块提交的信息,并翻译成容器化平台可以接受的格式,对Impala的各组件进行编排生成API信息;
步骤3:根据API信息生成Impala内部组件的实例初始化,通过监控组件收集Impala组件资源信息并根据预设配置规则自动伸缩实例。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求8所述的方法的步骤。
10.一种Impala自动化伸缩的设备,其特征在于,包括:控制器;
所述控制器包括权利要求9所述的存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现权利要求8所述的Impala自动化伸缩的方法的步骤;或者,所述控制器包括权利要求1至7中任一项所述的Impala自动化伸缩的系统。
CN202211055551.9A 2022-08-31 2022-08-31 Impala自动化伸缩的系统、方法、介质及设备 Pending CN115391427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211055551.9A CN115391427A (zh) 2022-08-31 2022-08-31 Impala自动化伸缩的系统、方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211055551.9A CN115391427A (zh) 2022-08-31 2022-08-31 Impala自动化伸缩的系统、方法、介质及设备

Publications (1)

Publication Number Publication Date
CN115391427A true CN115391427A (zh) 2022-11-25

Family

ID=84124039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211055551.9A Pending CN115391427A (zh) 2022-08-31 2022-08-31 Impala自动化伸缩的系统、方法、介质及设备

Country Status (1)

Country Link
CN (1) CN115391427A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117156649A (zh) * 2023-11-01 2023-12-01 中节能晶和科技有限公司 一种支持自动扩缩容接入不同数量单灯控的系统和方法
CN117251769A (zh) * 2023-11-16 2023-12-19 太平金融科技服务(上海)有限公司深圳分公司 基于监控组件的异常数据识别方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117156649A (zh) * 2023-11-01 2023-12-01 中节能晶和科技有限公司 一种支持自动扩缩容接入不同数量单灯控的系统和方法
CN117156649B (zh) * 2023-11-01 2024-03-01 中节能晶和科技有限公司 一种支持自动扩缩容接入不同数量单灯控的系统和方法
CN117251769A (zh) * 2023-11-16 2023-12-19 太平金融科技服务(上海)有限公司深圳分公司 基于监控组件的异常数据识别方法、装置、设备及介质
CN117251769B (zh) * 2023-11-16 2024-03-12 太平金融科技服务(上海)有限公司深圳分公司 基于监控组件的异常数据识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN107247808B (zh) 一种分布式NewSQL数据库系统及图片数据查询方法
CN115391427A (zh) Impala自动化伸缩的系统、方法、介质及设备
US9619430B2 (en) Active non-volatile memory post-processing
US7930432B2 (en) Systems and methods for distributing a workplan for data flow execution based on an arbitrary graph describing the desired data flow
US20040186915A1 (en) Systems and methods for scheduling data flow execution based on an arbitrary graph describing the desired data flow
CN104050042B (zh) Etl作业的资源分配方法及装置
CN110908641B (zh) 基于可视化的流计算平台、方法、设备和存储介质
CN111324610A (zh) 一种数据同步的方法及装置
CN105468720A (zh) 集成分布式数据处理系统的方法、相应系统及其数据处理方法
US20140115291A1 (en) Numa optimization for garbage collection of multi-threaded applications
CN103218402A (zh) 通用的数据库数据结构与数据迁移系统及其方法
CN105786918B (zh) 基于数据载入存储空间的数据查询方法和装置
US7860916B2 (en) Systems and methods for transforming data in buffer memory without unnecessarily copying data to additional memory locations
US20230359647A1 (en) Read-Write Separation and Automatic Scaling-Based Cloud Arrangement System and Method
CN110975293A (zh) 建立资源引用关系表的方法、装置、服务器及介质
CN110888636A (zh) 一种基于Kettle的ETL Web应用系统架构方法
CN112000649B (zh) 一种基于map reduce的增量数据同步的方法和装置
Yassien et al. RDBMS, NoSQL, Hadoop: a performance-based empirical analysis
Chen et al. Multi-source and heterogeneous data integration model for big data analytics in power DCS
Zhao et al. Toward efficient and flexible metadata indexing of big data systems
CN114817226A (zh) 政府数据的处理方法及装置
CN113312181A (zh) 一种基于activiti自定义表单的高并发工作流审批方法
CN104376054B (zh) 一种持久化实例对象的处理方法及装置
CN105809577B (zh) 一种基于规则和组件的电厂信息化数据的分类处理方法
US11080258B2 (en) Table generation based on scripts for existing tables

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination