CN110389955A - 一种数据仓库调度文件自动生成系统及生成方法 - Google Patents
一种数据仓库调度文件自动生成系统及生成方法 Download PDFInfo
- Publication number
- CN110389955A CN110389955A CN201910632400.7A CN201910632400A CN110389955A CN 110389955 A CN110389955 A CN 110389955A CN 201910632400 A CN201910632400 A CN 201910632400A CN 110389955 A CN110389955 A CN 110389955A
- Authority
- CN
- China
- Prior art keywords
- script
- file
- data warehouse
- scheduling
- parsing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据仓库调度文件自动生成系统及生成方法,本系统包括血缘文件、配置文件和执行器,所述执行器具有:第一解析模块、第二解析模块、第一脚本生成模块、第二脚本生成模块、以及转换模块。本方法包括:解析配置文件获取所述数据仓库的环境参数;解析血缘文件将血缘关系转译成数据库语言;根据解析结果生成调度脚本;根据解析结果生成建表脚本;以及将所述调度脚本和所述建表脚本进行字符集转换生成调度文件。使用本发明,血缘文件由业务人员填写制作,IT开发人员只需校验即可,可以减少IT开发的人力成本,开发时间可缩减至原来的一半。
Description
技术领域
本发明涉及数据仓库的自动化开发领域,尤其涉及一种数据仓库调度文件自动生成系统及生成方法。
背景技术
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据仓库由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理过程(On-Line Transaction Processing,简称OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理过程(On-Line Transaction Processing,简称OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统、主管资讯系统之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能。
脚本是批处理文件的延伸,是一种纯文本保存的程序。
常规的数据仓库开发,需要精通行业知识的业务人员提供加工的逻辑口径,互联网技术(internet Technology,简称IT)开发人员根据提供的口径加工数据并形成展示报表。业务人员精通专业知识但是互联网技术不足,互联网技术开发人员开发熟练但是不通逻辑,单一一方不能完成开发任务,双方合作又造成人力和沟通的成本高昂。通常情况下,在开发数据仓库前互联网技术开发人员对所有涉及到的业务系统做调研大概3个月,开发中仍然需要与业务人员沟通逻辑口径,开发完成后还需要进行大量测试验证口径和数据的正确性,这样开发一个数据集市完整的周期要6个月左右。
发明内容
本发明的目的是提供一种数据仓库调度文件自动生成系统及生成方法,以至少在一定程度上克服相关技术存在的问题。
为达上述目的,本发明采用的技术方案如下:
一种数据仓库调度文件自动生成系统,本系统包括:
血缘文件,所述血缘文件记录有所述数据仓库的层级间的血缘关系;
配置文件,所述配置文件记录有所述数据仓库的环境参数;以及
执行器,所述执行器具有:
用于解析所述配置文件获取所述数据仓库的环境参数的第一解析模块;
用于解析所述血缘文件将血缘关系转译成数据库语言的第二解析模块;
用于根据解析结果生成调度脚本的第一脚本生成模块;
用于根据解析结果生成建表脚本的第二脚本生成模块;以及
用于将所述调度脚本和所述建表脚本进行字符集转换生成调度文件的转换模块。
进一步,所述执行器还具有用于将任务拆解成多个分支的拆解模块。
进一步,所述执行器还具有用于生成处理日志的日志生成模块。
一种数据仓库调度文件自动生成方法,本方法包括以下步骤:
解析配置文件获取所述数据仓库的环境参数;
解析血缘文件将血缘关系转译成数据库语言;
根据解析结果生成调度脚本;
根据解析结果生成建表脚本;以及
将所述调度脚本和所述建表脚本进行字符集转换生成调度文件。
进一步,本方法在解析步骤之前还包括任务拆解步骤,所述任务拆解步骤将一个任务拆解成多个分支。
进一步,本方法还包括日志生成步骤,在执行解析步骤时、在执行生成调度脚本的步骤时、在执行生成建表脚本的步骤时以及在执行任务拆解的步骤时,所述日志生成步骤生成相应的日志信息。
与现有技术相比,本发明至少具有以下有益效果:
使用本发明,血缘文件由业务人员填写制作,IT开发人员只需校验即可,可以减少IT开发的人力成本,开发时间可缩减至原来的一半。
附图说明
图1为数据仓库调度文件自动生成系统一实施例的框图;
图2为一个血缘文件的内容示意图;
图3为数据仓库调度文件自动生成方法一实施例的流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
请参照图1,本数据仓库调度文件自动生成系统包括配置文件10、血缘文件20和执行器30。其中,所述血缘文件20记录有所述数据仓库的层级间的血缘关系,所述配置文件10记录有所述数据仓库的环境参数。
所述执行器30具有:用于解析所述配置文件10获取所述数据仓库的环境参数的第一解析模块31;用于解析所述血缘文件20将血缘关系转译成数据库语言的第二解析模块32;用于根据解析结果生成调度脚本的第一脚本生成模块33;用于根据解析结果生成建表脚本的第二脚本生成模块34;以及用于将所述调度脚本和所述建表脚本进行字符集转换生成调度文件的转换模块35。
上述配置文件10中记录的数据仓库的环境参数由IT开发人员定义,这部分内容的工作量较少,通常在数分钟即可完成。在一些应用实施例中,配置文件10中记录的数据仓库的环境信息如下:
#不生成自动化脚本的sheet页
except_sheet_list=['目录','变更记录','自动化生成脚本模板','产品目录','代码值','sheet1','sheet2','sheet3','标准代码信息','标准代码和源系统映射信息','标准代码清单','标准和源系统代码映射清单']
#数据库或项目空间枚举列表
db_list=
['sdata','shdata','fdp','mdata','crm','ekgs','bdp','graph']#不生成前置依赖标识的表一般是手工维护的维表
except_flag_table=
['mdata.tm_code_map_cert_type_cd','mdata.tm_code_cert_type_cd','mdata.tm_code_map_curr_cd','mdata.tm_code_map_fina_trans_cd','mdata.tm_code_map_cert_type_cd','mdata.tm_code_map_product']
#hdfs存放flag的路径
hdfs_flag_path=/user/hdfs/flag
#hdfs有sudo权限的用户
sudo_user=hdfs
#默认数据库或项目空间名称只能写一个名称务必大写
default_db=MDATA。
上述血缘文件20由业务人员完成。会预先制定一个血缘关系模版,业务人员根据逻辑口径按照血缘模版的格式填写数据仓库层级间的血缘关系,形成血缘文件20。
血缘文件20包括目标表的基础信息和血缘关系。所述基础信息包括目标表名、存储格式、作业名称、作业描述。所述血缘关系包括以下字段:目标表信息和源表信息。所述目标表信息字段包括以下子字段:字段名称、字段类型、字段中文描述;所述源表信息字段包括以下子字段:源表名、字段名、字段类型、字段中文描述、字段映射规则。为了方便进一步理解血缘文件的内容,图2中示出了一个血缘文件的内容。
请参照图3,本数据仓库调度文件自动生成方法包括以下步骤:
步骤S100、解析配置文件获取所述数据仓库的环境参数;
步骤S200、解析血缘文件将血缘关系转译成数据库语言;
步骤S300、根据解析结果生成调度脚本;
步骤S400、根据解析结果生成建表脚本;以及
步骤S500、将所述调度脚本和所述建表脚本进行字符集转换生成调度文件。
上述步骤S300和步骤S400的次序可以调换。
作为一种优选实施方式,所述执行器30还具有用于将任务拆解成多个分支的拆解模块。这样当任务内容较多时,在解析步骤之前,通过所述拆解模块将任务拆解成多个分支,对于拆解后的每一个分支,分别执行上述步骤S100至步骤S500,最后将生成的各个分支的调度文件合并,形成总的调度文件。
作为另一种优选实施方式,所述执行器30还具有用于生成处理日志的日志生成模块。在执行解析步骤时、在执行生成调度脚本的步骤时、在执行生成建表脚本的步骤时以及在执行任务拆解的步骤时,所述日志生成步骤生成相应的日志信息。
使用本发明,业务人员按照血缘关系模版自己填写数据仓库层级间的血缘关系形成血缘文件20,然后运行执行器30,即可生成调度文件。IT开发人员只需定义配置文件10,校验血缘文件20,不需要IT开发人员与业务人员沟通逻辑口径,可以减少IT开发的人力成本,开发时间可缩减至原来的一半。
上述通过具体实施例对本发明进行了详细的说明,这些详细的说明仅仅限于帮助本领域技术人员理解本发明的内容,并不能理解为对本发明保护范围的限制。本领域技术人员在本发明构思下对上述方案进行的各种润饰、等效变换等均应包含在本发明的保护范围内。
Claims (6)
1.一种数据仓库调度文件自动生成系统,其特征在于,包括:
血缘文件,所述血缘文件记录有所述数据仓库的层级间的血缘关系;
配置文件,所述配置文件记录有所述数据仓库的环境参数;以及
执行器,所述执行器具有:
用于解析所述配置文件获取所述数据仓库的环境参数的第一解析模块;
用于解析所述血缘文件将血缘关系转译成数据库语言的第二解析模块;
用于根据解析结果生成调度脚本的第一脚本生成模块;
用于根据解析结果生成建表脚本的第二脚本生成模块;以及
用于将所述调度脚本和所述建表脚本进行字符集转换生成调度文件的转换模块。
2.根据权利要求1所述的数据仓库调度文件自动生成系统,其特征在于,所述执行器还具有用于将任务拆解成多个分支的拆解模块。
3.根据权利要求1所述的数据仓库调度文件自动生成系统,其特征在于,所述执行器还具有用于生成处理日志的日志生成模块。
4.一种数据仓库调度文件自动生成方法,其特征在于,包括以下步骤:
解析配置文件获取所述数据仓库的环境参数;
解析血缘文件将血缘关系转译成数据库语言;
根据解析结果生成调度脚本;
根据解析结果生成建表脚本;以及
将所述调度脚本和所述建表脚本进行字符集转换生成调度文件。
5.根据权利要求4所述的数据仓库调度文件自动生成方法,其特征在于,在解析步骤之前还包括任务拆解步骤,所述任务拆解步骤将一个任务拆解成多个分支。
6.根据权利要求4所述的数据仓库调度文件自动生成方法,其特征在于,所述方法还包括日志生成步骤,在执行解析步骤时、在执行生成调度脚本的步骤时、在执行生成建表脚本的步骤时以及在执行任务拆解的步骤时,所述日志生成步骤生成相应的日志信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910632400.7A CN110389955A (zh) | 2019-07-13 | 2019-07-13 | 一种数据仓库调度文件自动生成系统及生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910632400.7A CN110389955A (zh) | 2019-07-13 | 2019-07-13 | 一种数据仓库调度文件自动生成系统及生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110389955A true CN110389955A (zh) | 2019-10-29 |
Family
ID=68286627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910632400.7A Pending CN110389955A (zh) | 2019-07-13 | 2019-07-13 | 一种数据仓库调度文件自动生成系统及生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110389955A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111158990A (zh) * | 2019-12-31 | 2020-05-15 | 重庆富民银行股份有限公司 | 数据仓库智能调度任务跑批系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473108A (zh) * | 2013-08-12 | 2013-12-25 | 福建富士通信息软件有限公司 | 一种Java代码生成方法 |
US20140137237A1 (en) * | 2012-11-15 | 2014-05-15 | Microsoft Corporation | Single system image via shell database |
CN106528070A (zh) * | 2015-09-15 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 一种数据表生成方法及设备 |
CN108170809A (zh) * | 2017-12-28 | 2018-06-15 | 平安科技(深圳)有限公司 | 建表脚本生成方法、装置、设备及计算机可读存储介质 |
CN109359157A (zh) * | 2018-08-21 | 2019-02-19 | 中国平安人寿保险股份有限公司 | 数据同步生成方法、装置、计算机设备以及存储介质 |
CN110287193A (zh) * | 2019-06-27 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 一种文件生成方法、装置、设备及计算机可读存储介质 |
-
2019
- 2019-07-13 CN CN201910632400.7A patent/CN110389955A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140137237A1 (en) * | 2012-11-15 | 2014-05-15 | Microsoft Corporation | Single system image via shell database |
CN103473108A (zh) * | 2013-08-12 | 2013-12-25 | 福建富士通信息软件有限公司 | 一种Java代码生成方法 |
CN106528070A (zh) * | 2015-09-15 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 一种数据表生成方法及设备 |
CN108170809A (zh) * | 2017-12-28 | 2018-06-15 | 平安科技(深圳)有限公司 | 建表脚本生成方法、装置、设备及计算机可读存储介质 |
CN109359157A (zh) * | 2018-08-21 | 2019-02-19 | 中国平安人寿保险股份有限公司 | 数据同步生成方法、装置、计算机设备以及存储介质 |
CN110287193A (zh) * | 2019-06-27 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 一种文件生成方法、装置、设备及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111158990A (zh) * | 2019-12-31 | 2020-05-15 | 重庆富民银行股份有限公司 | 数据仓库智能调度任务跑批系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7490319B2 (en) | Testing tool comprising an automated multidimensional traceability matrix for implementing and validating complex software systems | |
US7752606B2 (en) | Software development tool using a structured format to generate software code | |
KR101644418B1 (ko) | 데이터 요소 간의 관계의 시각화 및 데이터 요소 속성의 그래픽 표현 | |
US7216340B1 (en) | Analysis data validation tool for use in enterprise architecture modeling with result based model updating | |
CN106445536B (zh) | 自动化业务设计管理系统 | |
CN111813661B (zh) | 一种全局业务数据驱动自动测试方法、装置、设备和介质 | |
JP2018516420A (ja) | 自然言語により機能アーキテクチャ文書及びソフトウェア設計・解析仕様書を自動的に生成するプロセス及びシステム | |
CN104169871A (zh) | 软件开发方法和装置 | |
Barbosa et al. | Towards identifying microservice candidates from business rules implemented in stored procedures | |
Antović et al. | Model and software tool for automatic generation of user interface based on use case and data model | |
Pérez‐Castillo et al. | ArchiRev—Reverse engineering of information systems toward ArchiMate models. An industrial case study | |
Ami et al. | Comparison and evaluation of business process modelling and management tools | |
Rokis et al. | Exploring Low-Code Development: A Comprehensive Literature Review | |
CN110389955A (zh) | 一种数据仓库调度文件自动生成系统及生成方法 | |
Akdur et al. | Characterizing the development and usage of diagrams in embedded software systems | |
Ivanov et al. | A hot decomposition procedure: Operational monolith system to microservices | |
KR100922526B1 (ko) | 비즈니스 프로세스 수행시 메타데이터 규정을 통한 데이터품질관리 방법 및 시스템 | |
US20140025439A1 (en) | Regression free business process management | |
Platonov et al. | Development of a methodology for cost optimization of software testing for the automatically tests generation | |
Buschle | Tool Support for Enterprise Architecture Analysis: with application in cyber security | |
Nardello et al. | Process model automation for industry 4.0: Challenges for automated model generation based on laboratory experiments | |
Liu | Integrating process mining with discrete-event simulation modeling | |
Wehling et al. | Reducing variability of technically related software systems in large-scale IT landscapes | |
KR100656559B1 (ko) | Bibd 방법론을 이용하는 프로그램 자동 개발 장치 | |
Azmi et al. | Test management traceability model to support software testing documentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191029 |