CN114064816A - 一种异架构数据源数据加工管理方法 - Google Patents

一种异架构数据源数据加工管理方法 Download PDF

Info

Publication number
CN114064816A
CN114064816A CN202111268938.8A CN202111268938A CN114064816A CN 114064816 A CN114064816 A CN 114064816A CN 202111268938 A CN202111268938 A CN 202111268938A CN 114064816 A CN114064816 A CN 114064816A
Authority
CN
China
Prior art keywords
data
database
cluster
data processing
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111268938.8A
Other languages
English (en)
Inventor
李少杰
程林
杨培强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Technology Co Ltd
Original Assignee
Inspur Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Technology Co Ltd filed Critical Inspur Software Technology Co Ltd
Priority to CN202111268938.8A priority Critical patent/CN114064816A/zh
Publication of CN114064816A publication Critical patent/CN114064816A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种异架构数据源数据加工管理方法。该异架构数据源数据加工管理方法,Oracle集群、Hive集群、Hbase集群和Kudu集群通过各自的数据库连接池提供后台访问,用户通过对上述数据库的无差别访问实现对各自集群的访问;通过前台展示各个数据库的资产元数据信息,以供用户查看;用户参考元数据信息创建脚本并编写数据处理SQL,通过审核后即可调度触发执行SQL脚本,进行数据加工。该异架构数据源数据加工管理方法,加强了对脚本任务调度的统一审核和管理,数据处理人员不需要过多的学习大数据技术知识也能够无差别的在混合数据库架构下便捷的使用和处理数据,满足了数据处理人员对混合数据存储架构下的数据处理需求。

Description

一种异架构数据源数据加工管理方法
技术领域
本发明涉及桥接扩展技术领域,特别涉及一种异架构数据源数据加工管理方法。
背景技术
在税务系统中,随着“金税三期”、增值税发票管理系统、个人税收管理系统等各类信息化系统的开发和使用,以及人们的生活消费与互联网技术的深度融合,导致税务系统内部数据、其他政府部门的第三方数据和互联网涉税数据爆发式的增长。在对大数据中心等新基建的大力推动下,税务系统也掀起了一场规模空前的大数据建设热潮。为了能够有效存储、管理和应用这些税务大数据,提高税收治理水平,各地税务系统纷纷引进诸如Hive、Hbase、Kudu等各类大数据存储和处理技术。
各地的税务系统一直以来普遍采用Oracle数据库作为数据存储,使用历史久远,涵盖的系统众多,存储的数据量庞大,在许多领域仍然发挥着不可替代的作用。因此在大数据建设过程中,必然会出现Oracle数据库技术和大数据存储数据库技术的混合架构,使得查询不同的业务系统数据可能需要在不同类型的数据库之间进行来回切换。这对数据加工处理人员的操作主要带来以下问题:
问题一:大数据技术作为新兴技术在传统数据库使用人员中的普及和掌握程度有限,且大数据技术种类多样、更新较快,学习使用成本较高。
问题二:大数据技术的发展时间较短、配套工具不如传统数据库完善,缺少类似Oracle的PL/SQL这样成熟的可视化数据库操作客户端。
问题三:数据处理人员存在将在Oracle中定时调度的数据处理脚本迁移到Hive、Hbase、Kudu等大数据存储中的需要。
基于上述问题,本发明提出了一种异架构数据源数据加工管理方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的异架构数据源数据加工管理方法。
本发明是通过如下技术方案实现的:
一种异架构数据源数据加工管理方法,其特征在于:包括以下步骤
第一步、Oracle集群、Hive集群、Hbase集群和Kudu集群通过各自的数据库连接池提供后台访问,用户通过对Oracle数据库、Hive数据库、Hbase数据库及Kudu数据库的无差别访问实现对各自集群的访问;
第二步、通过前台展示Oracle数据库、Hive数据库、Hbase数据库及Kudu数据库的资产元数据信息,以供用户查看;
第三步、用户参考元数据信息创建脚本并编写数据处理SQL,通过审核后即可调度触发执行SQL脚本,进行数据加工。
所述第二步中,Hive集群、Hbase集群和Kudu集群的元数据信息以数据库维度进行组织,选择数据库即可展现库中包含的表名,点击表名可查看到表的字段名和字段类型信息;Oracle数据库的元数据信息从数据资产类型维度进行展现。
所述第二步中,Kudu集群中各数据库的命名空间由impala负责管理。
所述第二步中,Hive集群、Hbase集群和Kudu集群展示所有的数据库空间和各数据库下包含的表信息,由于Oracle数据库目前仍作为涉税数据的主要数据存储,为便于数据授权和管理,Oralce数据库则仅展示当前登录用户所拥有的租户空间下自建的数据库表、同义词、视图和通过订阅申请获得的数据资产表的同义词。
所述第三步中,用户编写完成的SQL发布成任务,并提交审核;审核通过后,利用自定义的树形结构脚本存储目录对脚本进行存储,并发布成按计划调度的任务。
所述第三步中,尚未审核通过的任务和已下线的任务标记为未调度状态,通过审核的任务则标记为已调度状态,按照调度计划由LTS(Light-Task-Scheduler,轻量级分布式任务调度框架学)服务进行调度执行。
所述第三步中,对发布任务的调度管理包括暂停、下线已调度的任务,对任务修改调度配置后重新发布以及查看每个任务的调度日志。
所述第三步中,审核管理员对数据处理人员提交的任务调度进行查看和审批,审核通过后的任务在LTS调度服务中注册调度信息,并按照配置的调度策略定时或周期性的触发执行SQL脚本进行数据加工。
本发明的有益效果是:该异架构数据源数据加工管理方法,通过便捷的脚本编辑和任务调度管理加强了对脚本任务调度的统一审核和管理,数据处理人员不需要过多的学习大数据技术知识也能够无差别的在混合数据库架构下便捷的使用和处理存储在Oracle数据库、Hive数据库、Hbase数据库以及Kudu数据库中的数据,满足了数据处理人员对混合数据存储架构下的数据处理需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明异架构数据源数据加工管理方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该异架构数据源数据加工管理方法,包括以下步骤:
第一步、Oracle集群、Hive集群、Hbase集群和Kudu集群通过各自的数据库连接池提供后台访问,用户通过对Oracle数据库、Hive数据库、Hbase数据库及Kudu数据库的无差别访问实现对各自集群的访问;
第二步、通过前台展示Oracle数据库、Hive数据库、Hbase数据库及Kudu数据库的资产元数据信息,以供用户查看;
第三步、用户参考元数据信息创建脚本并编写数据处理SQL,通过审核后即可调度触发执行SQL脚本,进行数据加工。
所述第二步中,Hive集群、Hbase集群和Kudu集群的元数据信息以数据库维度进行组织,选择数据库即可展现库中包含的表名,点击表名可查看到表的字段名和字段类型信息;Oracle数据库的元数据信息从数据资产类型维度进行展现。
所述第二步中,Kudu集群中各数据库的命名空间由impala负责管理。
所述第二步中,Hive集群、Hbase集群和Kudu集群展示所有的数据库空间和各数据库下包含的表信息,由于Oracle数据库目前仍作为涉税数据的主要数据存储,为便于数据授权和管理,Oralce数据库则仅展示当前登录用户所拥有的租户空间下自建的数据库表、同义词、视图和通过订阅申请获得的数据资产表的同义词。
所述第三步中,用户编写完成的SQL发布成任务,并提交审核;审核通过后,利用自定义的树形结构脚本存储目录对脚本进行存储,并发布成按计划调度的任务。
用户自定义的脚本目录树和脚本编写界面由“脚本工具栏”、“脚本编辑区”和“结果展示”三部分组成:
“脚本工具栏”包括脚本页、仓库页和函数页。脚本页展示脚本目录,仓库页可查看数据库库表元数据信息,函数页提供了SQL中的常用函数。
“脚本编辑区”中可编写SQL脚本,并提供脚本执行、保存、查看历史版本和任务部署和脚本分享功能。
“结果展示”可展示表列信息、脚本在线执行结果、执行日志和各历史版本。
编写完、测试通过并保存好的脚本,可发布成可按计划调度的任务。在任务配置页面定义任务名称、调度方式后即可提交审核。
所有发布的任务都可以在任务配置页面中显示,所述第三步中,尚未审核通过的任务和已下线的任务标记为未调度状态,通过审核的任务则标记为已调度状态,按照调度计划由LTS(Light-Task-Scheduler,轻量级分布式任务调度框架学)服务进行调度执行。
所述第三步中,对发布任务的调度管理包括暂停、下线已调度的任务,对任务修改调度配置后重新发布以及查看每个任务的调度日志。
所述第三步中,审核管理员对数据处理人员提交的任务调度进行查看和审批,审核通过后的任务在LTS调度服务中注册调度信息,并按照配置的调度策略定时或周期性的触发执行SQL脚本进行数据加工。
与现有技术相比,该异架构数据源数据加工管理方法,具有以下特点:
第一、提供了对Oracle、Hive、Hbase、Kudu数据库表的访问;
第二、针对不同的数据库,提供了数据库、表和同义词等其他数据资产的元数据查看;
第三、提供了用户可自组织的树形结构脚本存储目录,用户可编辑、保存和执行SQL脚本,并提供了脚本发布功能,可通过将脚本发布为任务进行定时调度执行,单个脚本支持多次发布;
第四、提供了调度任务的审核、生命周期管理和调度日志查看功能,任务调度计划只有审核通过才可执行,满足了数据处理人员对混合数据存储架构下的数据处理需求。
以上对本发明实例中的一种异架构数据源数据加工管理方法进行了详细的介绍。本部分采用具体实例对发明的原理及实施方式进行了阐述,以上实例仅用于帮助理解本发明的核心思想,在不脱离本发明原理的情况下,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

Claims (8)

1.一种异架构数据源数据加工管理方法,其特征在于,包括以下步骤:
第一步、Oracle集群、Hive集群、Hbase集群和Kudu集群通过各自的数据库连接池提供后台访问,用户通过对Oracle数据库、Hive数据库、Hbase数据库及Kudu数据库的无差别访问实现对各自集群的访问;
第二步、通过前台展示Oracle数据库、Hive数据库、Hbase数据库及Kudu数据库的资产元数据信息,以供用户查看;
第三步、用户参考元数据信息创建脚本并编写数据处理SQL,通过审核后即可调度触发执行SQL脚本,进行数据加工。
2.根据权利要求1所述的异架构数据源数据加工管理方法,其特征在于:所述第二步中,Hive集群、Hbase集群和Kudu集群的元数据信息以数据库维度进行组织,选择数据库即可展现库中包含的表名,点击表名可查看到表的字段名和字段类型信息;Oracle数据库的元数据信息从数据资产类型维度进行展现。
3.根据权利要求2所述的异架构数据源数据加工管理方法,其特征在于:所述第二步中,Kudu集群中各数据库的命名空间由impala负责管理。
4.根据权利要求2或3所述的异架构数据源数据加工管理方法,其特征在于:所述第二步中,Hive集群、Hbase集群和Kudu集群展示所有的数据库空间和各数据库下包含的表信息,由于Oracle数据库目前仍作为涉税数据的主要数据存储,为便于数据授权和管理,Oralce数据库则仅展示当前登录用户所拥有的租户空间下自建的数据库表、同义词、视图和通过订阅申请获得的数据资产表的同义词。
5.根据权利要求1所述的异架构数据源数据加工管理方法,其特征在于:所述第三步中,用户编写完成的SQL发布成任务,并提交审核;审核通过后,利用自定义的树形结构脚本存储目录对脚本进行存储,并发布成按计划调度的任务。
6.根据权利要求5所述的异架构数据源数据加工管理方法,其特征在于:所述第三步中,尚未审核通过的任务和已下线的任务标记为未调度状态,通过审核的任务则标记为已调度状态,按照调度计划由LTS服务进行调度执行。
7.根据权利要求6所述的异架构数据源数据加工管理方法,其特征在于:所述第三步中,对发布任务的调度管理包括暂停、下线已调度的任务,对任务修改调度配置后重新发布以及查看每个任务的调度日志。
8.根据权利要求7所述的异架构数据源数据加工管理方法,其特征在于:所述第三步中,审核管理员对数据处理人员提交的任务调度进行查看和审批,审核通过后的任务在LTS调度服务中注册调度信息,并按照配置的调度策略定时或周期性的触发执行SQL脚本进行数据加工。
CN202111268938.8A 2021-10-29 2021-10-29 一种异架构数据源数据加工管理方法 Pending CN114064816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111268938.8A CN114064816A (zh) 2021-10-29 2021-10-29 一种异架构数据源数据加工管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111268938.8A CN114064816A (zh) 2021-10-29 2021-10-29 一种异架构数据源数据加工管理方法

Publications (1)

Publication Number Publication Date
CN114064816A true CN114064816A (zh) 2022-02-18

Family

ID=80235930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111268938.8A Pending CN114064816A (zh) 2021-10-29 2021-10-29 一种异架构数据源数据加工管理方法

Country Status (1)

Country Link
CN (1) CN114064816A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880386A (zh) * 2022-04-06 2022-08-09 北京宇信科技集团股份有限公司 一种任务调度平台及任务调度方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880386A (zh) * 2022-04-06 2022-08-09 北京宇信科技集团股份有限公司 一种任务调度平台及任务调度方法

Similar Documents

Publication Publication Date Title
CN108536761B (zh) 报表数据查询方法及服务器
US11194793B1 (en) Dynamically materialized views for sheets based data
CN104933112B (zh) 分布式互联网交易信息存储处理方法
US11755606B2 (en) Dynamically updated data sheets using row links
US9170999B2 (en) Method, system, and program product for transferring document attributes
CN105471989B (zh) 一种数据存储方法
CN109033113B (zh) 数据仓库和数据集市的管理方法及装置
CN102999537A (zh) 一种数据迁移系统和方法
EP3039574A1 (en) Queries involving multiple databases and execution engines
US9633095B2 (en) Extract, transform and load (ETL) system and method
US9740994B2 (en) Simulation of supply chain plans using data model
CN114064816A (zh) 一种异架构数据源数据加工管理方法
Yan et al. University research project management system based on cloud platform
CN109829003A (zh) 数据库备份方法及装置
US10019763B2 (en) Extension ledger
CN113886465A (zh) 一种用于汽车物流的大数据分析平台
Preis et al. Challenges and conflicts integrating heterogeneous data warehouses in virtual organisations
Kai et al. Research on Spatial Database Technology Based on Arcsde
WO2023083118A1 (en) Chaining version data bi-directionally in data page to avoid additional version data accesses
US20230267557A1 (en) Generic configuration platform for generating electronic reports
Song Application of Hybrid Parallel Cloud Architecture in Java+ Oracle Implementation of Enterprise Management Innovation
CN113792040A (zh) 一种对监管对象库和执法人员库随机抽取匹配的方法
CN115422199A (zh) 多维统计数据的处理方法、装置及计算机设备
Repnikova et al. DATABASE SYSTEM DEVELOPMENT PRINCIPLES FOR ORGANIZING CONFERENCE WORK
CN115658810A (zh) 查询账户数据的方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination