CN111708756A - 数据仓库自动化处理的方法、装置、设备及存储介质 - Google Patents

数据仓库自动化处理的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111708756A
CN111708756A CN202010460985.1A CN202010460985A CN111708756A CN 111708756 A CN111708756 A CN 111708756A CN 202010460985 A CN202010460985 A CN 202010460985A CN 111708756 A CN111708756 A CN 111708756A
Authority
CN
China
Prior art keywords
information
processing
target
script
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010460985.1A
Other languages
English (en)
Inventor
谢连天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010460985.1A priority Critical patent/CN111708756A/zh
Publication of CN111708756A publication Critical patent/CN111708756A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据领域,公开了一种数据仓库自动化处理的方法、装置、设备及存储介质,用于提高对数据仓库进行开发的效率。数据仓库自动化处理的方法包括:获取待处理信息,对待处理信息进行分类处理得到调度信息、创建数据表信息和/或开发脚本信息的分类信息;创建对分类信息进行数据处理的处理方案的目标主题,以及调用与目标主题对应的处理接口;通过处理接口对分类信息进行信息预处理得到处理信息;对处理信息的信息类型进行识别得到第一目标信息和第二目标信息;连接与第一目标信息对应的下载接口和修改接口,以及将第二目标信息渲染到预置的显示页面上。此外,本发明还涉及区块链技术,处理信息可存储于区块链中。

Description

数据仓库自动化处理的方法、装置、设备及存储介质
技术领域
本发明涉及ETL架构工具领域,尤其涉及一种数据仓库自动化处理的方法、装置、设备及存储介质。
背景技术
数据仓库作为决策支持系统和联机分析应用数据源的结构化数据环境,常被应用在各种业务领域中。通过数据仓库的中数据抽取、转换和加载(extraction-transformation-loading,ETL)的操作,实现业务项目的开发。
在现有技术中,在对数据仓库进行开发时,由于在进行版本部署时需要开发人员手动填写调度文档和对应的表格内容,在建表时需要从数据库管理系统中同步表信息和人工手动编辑建表语句,开发脚本的审核为人工审核导致耗时长,因而,导致对数据仓库进行开发的效率低。
发明内容
本发明的主要目的在于解决对数据仓库进行开发的效率低的问题。
本发明第一方面提供了一种数据仓库自动化处理的方法,包括:
获取待处理信息,对所述待处理信息进行分类处理得到分类信息,所述分类信息包括调度信息、创建数据表信息和/或开发脚本信息;
创建所述分类信息的目标主题,以及调用与所述目标主题对应的处理接口;
通过所述处理接口对所述分类信息进行信息预处理,得到处理信息;
对所述处理信息的信息类型进行识别,得到第一目标信息和第二目标信息,所述第一目标信息包括调度文件信息和建表模板信息,所述第二目标信息包括审核信息和异常信息,所述审核信息为进行脚本性能审核处理所得的信息,所述异常信息为进行异常监控处理所得的信息;
连接与所述第一目标信息对应的下载接口和修改接口,以及将所述第二目标信息渲染到预置的显示页面上。
可选的,在本发明第一方面的第一种实现方式中,所述通过所述处理接口对所述分类信息进行信息预处理,得到处理信息,包括:
通过所述处理接口对所述分类信息,分别进行调度文件生成处理、建表模板生成处理和脚本性能审核处理,对应得到调度文件、建表模板和审核信息;
获取所述调度文件、所述建表模板和所述审核信息的操作日志信息;
对所述操作日志信息进行异常监控处理得到异常信息;
将所述调度文件、所述建表模板、所述审核信息和所述异常信息确定为处理信息。
可选的,在本发明第一方面的第二种实现方式中,所述通过所述处理接口对所述分类信息,分别进行调度文件生成处理、建表模板生成处理和脚本性能审核处理,对应得到调度文件、建表模板和审核信息,包括:
当所述分类信息为调度信息时,获取目标调度表结构和所述调度信息对应的第一处理接口;
通过所述第一处理接口将所述调度信息,填充至所述目标调度表结构,得到调度文件;
当所述分类信息为创建数据表信息时,获取目标数据表结构和所述创建数据表信息对应的第二处理接口;
通过所述第二处理接口将所述创建数据表信息,填充至所述目标数据表结构,得到建表模板;
当所述分类信息为开发脚本信息时,从预置的规则库中获取脚本性能审核规则,以及获取所述开发脚本信息对应的第三处理接口;
通过所述第三处理接口和所述脚本性能审核规则,对所述开发脚本信息进行性能审核,得到审核信息。
可选的,在本发明第一方面的第三种实现方式中,所述通过所述第三处理接口和所述脚本性能审核规则,对所述开发脚本信息进行性能审核,得到审核信息之后,还包括:
从预置的脚本库中获取与所述审核信息对应的历史开发脚本信息;
计算所述历史开发脚本信息和所述开发脚本信息的相似度;
按照所述相似度的值从大到小的顺序对所述历史开发脚本信息进行排序,得到排序为第一的目标历史开发脚本信息;
获取所述目标历史开发脚本信息对应的脚本优化方案,并将所述脚本优化方案添加至所述审核信息,得到最终的审核信息。
可选的,在本发明第一方面的第四种实现方式中,所述通过所述第三处理接口和所述脚本性能审核规则,对所述开发脚本信息进行性能审核,得到审核信息,包括:
获取所述脚本性能审核规则中的预设性能语句和预置程度表;
通过所述第三处理接口和所述预设性能语句,对所述开发脚本信息进行检测,得到目标信息,所述目标信息包括与所述预设性能语句对应的目标脚本语句以及所述目标脚本语句的目标数量;
根据所述目标信息遍历所述预置程度表,得到与所述目标信息对应的目标分值;
将所述目标脚本语句和所述目标分值确定为所述开发脚本信息的审核信息。
可选的,在本发明第一方面的第五种实现方式中,所述通过所述第三处理接口和所述预设性能语句,对所述开发脚本信息进行检测,得到目标信息,包括:
通过所述第三处理接口,分别创建所述预设性能语句的哈希值、所述开发脚本信息的哈希散列表和多进程;
根据预置的字典、所述哈希值和所述多进程对所述哈希散列表进行检索,得到目标信息。
可选的,在本发明第一方面的第六种实现方式中,所述获取待处理信息,对所述待处理信息进行分类处理得到分类信息之前,包括:
构建用户页面元素框架,将所述用户页面元素框架与预置的数据仓库进行连接,生成规则库;
通过预置的开放源代码网页应用框架,将预置的脚本性能审核规则封装在所述规则库中,所述脚本性能审核规则用于指示对脚本的代码性能是否符合预设要求进行审核的规则。
本发明第二方面提供了一种数据仓库自动化处理的装置,包括:
第一分类模块,用于获取待处理信息,对所述待处理信息进行分类处理得到分类信息,所述分类信息包括调度信息、创建数据表信息和/或开发脚本信息;
创建模块,用于创建所述分类信息的目标主题,以及调用与所述目标主题对应的处理接口;
处理模块,用于通过所述处理接口对所述分类信息进行信息预处理,得到处理信息;
第二分类模块,用于对所述处理信息的信息类型进行识别,得到第一目标信息和第二目标信息,所述第一目标信息包括调度文件信息和建表模板信息,所述第二目标信息包括审核信息和异常信息,所述审核信息为进行脚本性能审核处理所得的信息,所述异常信息为进行异常监控处理所得的信息;
连接模块,用于连接与所述第一目标信息对应的下载接口和修改接口,以及将所述第二目标信息渲染到预置的显示页面上。
可选的,在本发明第二方面的第一种实现方式中,所述处理模块包括:
处理子模块,用于通过所述处理接口对所述分类信息,分别进行调度文件生成处理、建表模板生成处理和脚本性能审核处理,对应得到调度文件、建表模板和审核信息;
第一获取子模块,用于获取所述调度文件、所述建表模板和所述审核信息的操作日志信息;
异常监控子模块,用于对所述操作日志信息进行异常监控处理得到异常信息;
确定子模块,用于将所述调度文件、所述建表模板、所述审核信息和所述异常信息确定为处理信息。
可选的,在本发明第二方面的第二种实现方式中,所述处理子模块包括:
第一获取单元,用于当所述分类信息为调度信息时,获取目标调度表结构和所述调度信息对应的第一处理接口;
第一填充单元,用于通过所述第一处理接口将所述调度信息,填充至所述目标调度表结构,得到调度文件;
第二获取单元,用于当所述分类信息为创建数据表信息时,获取目标数据表结构和所述创建数据表信息对应的第二处理接口;
第二填充单元,用于通过所述第二处理接口将所述创建数据表信息,填充至所述目标数据表结构,得到建表模板;
第三获取单元,用于当所述分类信息为开发脚本信息时,从预置的规则库中获取脚本性能审核规则,以及获取所述开发脚本信息对应的第三处理接口;
性能审核单元,用于通过所述第三处理接口和所述脚本性能审核规则,对所述开发脚本信息进行性能审核,得到审核信息。
可选的,在本发明第二方面的第三种实现方式中,所述处理子模块还包括:
第一获取单元,用于从预置的脚本库中获取与所述审核信息对应的历史开发脚本信息;
计算单元,用于计算所述历史开发脚本信息和所述开发脚本信息的相似度;
排序单元,用于按照所述相似度的值从大到小的顺序对所述历史开发脚本信息进行排序,得到排序为第一的目标历史开发脚本信息;
添加单元,用于获取所述目标历史开发脚本信息对应的脚本优化方案,并将所述脚本优化方案添加至所述审核信息,得到最终的审核信息。
可选的,在本发明第二方面的第四种实现方式中,所述性能审核单元包括:
获取子单元,用于获取所述脚本性能审核规则中的预设性能语句和预置程度表;
检测子单元,用于通过所述第三处理接口和所述预设性能语句,对所述开发脚本信息进行检测,得到目标信息,所述目标信息包括与所述预设性能语句对应的目标脚本语句以及所述目标脚本语句的目标数量;
遍历子单元,用于根据所述目标信息遍历所述预置程度表,得到与所述目标信息对应的目标分值;
确定子单元,用于将所述目标脚本语句和所述目标分值确定为所述开发脚本信息的审核信息。
可选的,在本发明第二方面的第五种实现方式中,所述检测子单元具体用于:
通过所述第三处理接口,分别创建所述预设性能语句的哈希值、所述开发脚本信息的哈希散列表和多进程;
根据预置的字典、所述哈希值和所述多进程对所述哈希散列表进行检索,得到目标信息。
可选的,在本发明第二方面的第六种实现方式中,所述数据仓库自动化处理的装置,还包括:
构建模块,用于构建用户页面元素框架,将所述用户页面元素框架与预置的数据仓库进行连接,生成规则库;
封装模块,用于通过预置的开放源代码网页应用框架,将预置的脚本性能审核规则封装在所述规则库中,所述脚本性能审核规则用于指示对脚本的代码性能是否符合预设要求进行审核的规则。
本发明第三方面提供了一种数据仓库自动化处理的设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据仓库自动化处理的设备执行上述的数据仓库自动化处理的方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的数据仓库自动化处理的方法。
本发明提供的技术方案中,对待处理信息进行分类处理得到调度的配置信息、创建数据表的配置信息和/或开发脚本信息的分类信息;创建对分类信息进行数据处理的处理方案的目标主题,以及调用与目标主题对应的处理接口;通过处理接口对分类信息进行调度文件生成处理、建表模板生成处理、脚本性能审核处理和异常监控处理得到处理信息;对处理信息的信息类型进行识别,得到第一目标信息和第二目标信息,第一目标信息包括调度文件信息和建表模板信息,第二目标信息包括审核信息和异常信息,审核信息为进行脚本性能审核处理所得的审核信息,异常信息为进行异常监控处理所得的异常信息;连接与第一目标信息对应的下载接口和修改接口,以及将第二目标信息渲染到预置的显示页面上。本发明中,通过实现数据仓库自动化配置生成调度文件和建表模板,以及自动化进行脚本性能审核,减少开发流程中的手工操作,实现了数据表建表的规范化与模板化,减少了过多查询源表信息的操作,实现了对脚本性能有影响的脚本任务进行提前预判对脚本代码进行规范化,减少了人工审核的工作量,进而提高了对数据仓库进行开发的效率。
附图说明
图1为本发明实施例中数据仓库自动化处理的方法的一个实施例示意图;
图2为本发明实施例中数据仓库自动化处理的装置的一个实施例示意图;
图3为本发明实施例中数据仓库自动化处理的设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种数据仓库自动化处理的方法、装置、设备及存储介质,提高对数据仓库进行开发的效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中数据仓库自动化处理的方法的一个实施例包括:
101、获取待处理信息,对待处理信息进行分类处理得到分类信息,分类信息包括调度信息、创建数据表信息和/或开发脚本信息;
可以理解的是,本发明的执行主体可以为数据仓库自动化处理的装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
服务器可接收在预置的配置页面和/或输入页面输入调度的配置信息、创建数据表的配置信息和脚本中至少一种对应的待处理信息,例如:输入的待处理信息为数据表的源库信息、数据表信息(包括表名称、字段名称、对每个字段的类型、长度和其他的定义信息)和数据表的属主信息,以及开发脚本信息;或者,输入的待处理信息仅为开发脚本信息。通过对待处理信息进行分类,以便于后续有效地对待处理信息进行调用和处理。
需要说明的是,调度信息为调度的配置信息,调度的配置信息可包括数据仓库的调度模块、调度时间、调度任务的依赖关系和调度的任务类型,创建数据表信息为创建数据表的配置信息,创建数据表的配置信息可包括数据表的源库信息、数据表信息(包括表名称、字段名称、对每个字段的类型、长度和其他的定义信息)和数据表的属主信息。
具体地,服务器获取待处理信息,对待处理信息进行分类处理得到分类信息之前,构建用户页面元素框架,将用户页面元素框架与预置的数据仓库进行连接,生成规则库;通过预置的开放源代码网页应用框架,将预置的脚本性能审核规则封装在规则库中,脚本性能审核规则用于指示对脚本的代码性能是否符合预设要求进行审核的规则。
服务器在通过构建用户页面元素框架Vue+Elementui,实现前端界面的待处理信息的获取和传输,以及显示第二目标信息;服务器通过预置的开放源代码网页应用框架Django生成数据处理的类来将预置的脚本性能审核规则封装在规则库中,实现规则库的脚本性能审核的后端逻辑管理。其中,脚本性能审核规则可包括多种审核规则,可由用户根据业务需求进行自定义,例如:脚本的代码里面是否含有笛卡尔积、是否含有select*用法和join的数量是否超过预设的阈值等规则。通过该规则库实现对数据仓库开发的自动化,以及提高对数据仓库进行开发的效率。
102、创建分类信息的目标主题,以及调用与目标主题对应的处理接口;
其中,目标主题可用于指示对分类信息进行数据处理的处理方案,服务器可根据分类信息的信息类型创建对应的目标主题,例如:当分类信息(信息类型)为调度文件的配置信息(调度信息)时,对应的目标主题(数据处理的处理方案)的名称为调度文件生成,目标主题的内容为根据调度文件的配置信息生成调度文件;当分类信息(信息类型)为数据表的配置信息(创建数据表信息)时,对应的目标主题(数据处理的处理方案)的名称为建表模板生成,目标主题的内容为根据数据表的配置信息生成建表模板;当分类信息(信息类型)为脚本代码(开发脚本信息)时,对应的目标主题(数据处理的处理方案)的名称为脚本性能审核,目标主题的内容为对开发脚本信息进行性能审核。通过创建分类信息对应的目标主题,以便于调用对应的处理接口。通过创建目标主题和调用目标主题对应的处理接口,以便于有序而有效地根据待处理信息中各类型信息进行相应的数据处理。
需要说明的是,服务器可创建分类信息的哈希散列表形式的目标主题表,目标主题表中可包括目标主题的名称,处理对象内容和处理流程(处理方案),实现创建分类信息的目标主题,例如:目标主题包括“调度文件生成”名称、“根据调度文件的配置信息生成调度文件”处理对象内容和处理流程(处理方案)。服务器也可通过卡夫卡系统分别创建调度的配置信息、建表的配置信息和开发脚本信息对应的目标主题。
对分类信息进行数据处理的处理方案可包括分类信息的信息类型、对应的操作措施名称和操作措施内容,例如:处理方案为创建数据表的配置信息(信息类型)-建表模板(操作措施名称)-根据调度文件的配置信息中的甲信息进行乙操作;或根据调度文件的配置信息中的丙信息进行丁操作(操作措施内容)。
103、通过处理接口对分类信息进行信息预处理,得到处理信息;
服务器根据分类信息的信息类型对应的处理接口对对应的分类进行调度文件生成处理或建表模板生成处理或脚本性能审核和异常监控处理,例如:若分类信息为调度的配置信息和创建数据表的配置信息,则调用调度文件的处理接口根据调度的配置信息生成调度文件,调用建表模板的处理接口根据创建数据表的配置信息生成建表模板,同时,对生成调度文件和建表模板的操作过程进行异常监控。需要强调的是,为进一步保证上述处理信息的私密和安全性,上述处理信息还可以存储于一区块链的节点中。
具体地,服务器通过处理接口对分类信息,分别进行调度文件生成处理、建表模板生成处理和脚本性能审核处理,对应得到调度文件、建表模板和审核信息;获取调度文件、建表模板和审核信息的操作日志信息;对操作日志信息进行异常监控处理得到异常信息;将调度文件、建表模板、审核信息和异常信息确定为处理信息。
可选的,当分类信息为调度信息时,服务器获取目标调度表结构和调度信息对应的第一处理接口;通过第一处理接口将调度信息,填充至目标调度表结构,得到调度文件,例如:调度信息中包括数据仓库的调度模块A、调度时间B、调度任务的依赖关系C和调度的任务类型D,则调用调度的配置信息对应的处理接口将A、B、C和D分别填入到预置表格模板文件(目标调度表结构)的模块项、时间项、依赖关系项和任务类型项中,从而生成对应的调度文件。
可选的,当分类信息为创建数据表信息时,服务器获取目标数据表结构和创建数据表信息对应的第二处理接口;通过第二处理接口将创建数据表信息,填充至目标数据表结构,得到建表模板。服务器可通过第二处理接口中预置的数据管理监控程序(datamanagement supervisor,DMS)或建表语句DDL语句,将数据表的源库信息、数据表信息(包括表名称、字段名称、对每个字段的类型、长度和其他的定义信息)和数据表的属主信息,填充至目标数据表结构,生成对应的建表模板,并通过连接源库对生成建表模板的个性化建表和源库建表进行数据类型转换和数据存储,从而得到最终的建表模板。
可选的,服务器可通过脚本性能进行评审打分和批量审核,以对批量的分类信息中的开发脚本信息进行批量的性能审核,从而得到性能良好的脚本。服务器对调度文件生成处理、建表模板生成处理和脚本性能审核的处理过程中的异常操作和异常信息进行异常监控。其中,服务器可在根据分类信息进行信息处理时,并行对分类信息的信息处理过程进行异常监控处理;也可在根据分类信息进行信息处理之后,通过预置的监控工具对分类信息进行异常分析,实现异常监控处理。在对操作日志信息进行异常分析时,异常分析的内容可包括对其操作的时长是否大于预设阈值和操作的信息是否符合对应的条件规则。
可选的,当分类信息为开发脚本信息时,服务器从预置的规则库中获取脚本性能审核规则,以及获取开发脚本信息对应的第三处理接口;通过第三处理接口和脚本性能审核规则,对开发脚本信息进行性能审核,得到审核信息。具体地,服务器获取脚本性能审核规则中的预设性能语句和预置程度表;通过第三处理接口和预设性能语句,对开发脚本信息进行检测,得到目标信息,目标信息包括与预设性能语句对应的目标脚本语句以及目标脚本语句的目标数量;根据目标信息遍历预置程度表,得到与目标信息对应的目标分值,将目标脚本语句和目标分值确定为开发脚本信息的审核信息。
可选的,预设性能语句包括但不限于存在select*、join或order by的语句,以及将参数写死(即将参数固定地写在本版本的开发脚本信息中上)所对应的语句格式,以及存在笛卡尔积的语句。其中,目标分值可为预设满分值减去与目标信息对应的扣除分值,例如:开发脚本信息中存在select*性能预设语句的目标脚本语句,且该目标脚本语句数量为3,每一句存在select*性能预设语句的目标脚本语句扣除分值为1,预设满分值为10,则该开发脚本信息经过性能审核后为7分。
可选的,与目标分值也可为与目标信息直接对应的开发脚本信息的得分值,例如:开发脚本信息中存在order by性能预设语句的目标脚本语句,且该目标脚本语句数量为2,存在order by性能预设语句的目标脚本语句的数量为2所对应的分值6,则该开发脚本信息经过性能审核后为6分。为了提高性能审核的效率,采用了多进程技术来提升进行性能审核的性能。
具体地,服务器通过第三处理接口,分别创建预设性能语句的哈希值、开发脚本信息的哈希散列表和多进程;根据预置的字典、哈希值和多进程对哈希散列表进行检索,得到目标信息。
服务器可通过预置的字典根据哈希值创建预设性能语句的字典对象,通过字典对象对哈希三列表进行多进程的字典查询和字典检索,从而实现有效地对开发脚本信息进行批量审核。服务器通过结合哈希算法中的哈希值和散列表特性以及字典的特征对开发脚本信息进行性能审核,提高对脚本代码性能审核的准确性和效率;服务器通过批量处理接口创建多进程,对开发脚本信息进行多进程的并行性能审核操作,提高性能审核操作的效率和性能。
具体地,服务器对开发脚本信息进行性能审核得到审核信息之后,获取调度文件、建表模板和审核信息的操作日志信息之前,从预置的脚本库中获取与审核信息对应的历史开发脚本信息;计算历史开发脚本信息和开发脚本信息的相似度;按照相似度的值从大到小的顺序对历史开发脚本信息进行排序,得到排序为第一的目标历史开发脚本信息;获取目标历史开发脚本信息对应的脚本优化方案,并将脚本优化方案添加至审核信息,得到最终的审核信息。
服务器获得将目标脚本语句和目标分值确定为开发脚本信息的审核信息后,从预置的脚本库中获取与审核信息相同或相似度大于预设阈值的历史开发脚本,从历史开本脚本中获取与开发脚本信息最接近(相似度为最大)的历史开本脚本的脚本优化方案,将该脚本优化方案以添加链接的方式或者其他的添加方式添加进行审核信息中,以更新审核信息,例如:目标脚本语句为E,目标分值为9.5分,预设阈值为60%,历史开发脚本有A1(脚本语句为E1和E2,分值为9.0分)、B1(脚本语句为E1和F,分值为8.0分)和C1(脚本语句为G和H,分值为6.5分),A1、B1和C1与目标脚本语句E和分值9.5分的相似度分别为90%、75%和55%,则获取历史开本脚本A1的脚本优化方案,并将该脚本优化方案以添加链接的方式或者其他的添加方式添加进行审核信息中。
需要说明的是,通过将脚本优化方案添加至审核信息中,在规避不合规范的开发脚本信息和保证开发脚本信息的质量的基础上,提高对开发脚本信息进行性能审核所得信息的多元化,以便于减少用户在优化开发脚本信息时获取优化参考信息的时间,增强对数据仓库进行开发的自动化,从而提高对数据仓库进行开发的效率。
104、对处理信息的信息类型进行识别,得到第一目标信息和第二目标信息,第一目标信息包括调度文件信息和建表模板信息,第二目标信息包括审核信息和异常信息,审核信息为进行脚本性能审核处理所得的信息,异常信息为进行异常监控处理所得的信息;
其中,信息类型包括两类信息类型,一类信息类型为数据表格类型的信息,另一类信息类型为进行审核和监控后所得的信息。服务器在对处理信息的信息类型进行识别,并根据信息类型对处理信息进行分类之前,可对该处理信息进行内容的标记处理,获得标签信息,例如:在处理信息中的异常信息上标记脚本异常项和脚本异常原因,通过预置的标签提取算法对标签信息进行提取处理,从而获得第一目标信息和/或第二目标信息。
服务器可通过创建处理信息的信息类型二叉树,对信息类型二叉树的结点信息进行遍历,从而识别处理信息中的第一目标信息和第二目标信息,以实现对处理信息的信息类型进行识别。通过对处理信息的信息类型进行识别,以便于有效地进行对应的后续数据操作。
可选的,服务器也可在获得处理信息后,将处理信息存储到对应的存储空间,该存储空间为预先进行类型标记,按照存储空间上的类型对处理信息进行识别,从而得到第一目标信息和第二目标信息,以实现对处理信息的信息类型进行识别,例如:预置数据库中第一信息类型的预置存储空间为C1(调度文件)和C2(建表模板),预置数据库中第二信息类型的预置存储空间为C3(审核信息)和C4(异常信息),得到调度文件信息的处理信息时,则将调度文件信息至C1,得到建表模板信息的处理信息时,则将建表模板信息至C2,得到审核信息的处理信息时,则将审核信息至C3,得到异常信息的处理信息时,则将异常信息存储至C4,进而可得知C1和C2对应存储的处理信息为第一目标信息(对应第一信息类型),C3和C4对应存储的处理信息为第二目标信息(对应第二信息类型),从而实现对处理信息的信息类型进行识别,得到第一目标信息和第二目标信息。
105、连接与第一目标信息对应的下载接口和修改接口,以及将第二目标信息渲染到预置的显示页面上。
服务器获得第一目标信息后,连接与第一目标信息分别对应的下载接口和修改接口,并将该下载接口和修改接口以按键形式或触发指标形式连接在终端的显示页面,通过下载接口可实现对第一信息的下载,通过修改接口可直接对第一信息进行配置化修改。服务器获得第二目标信息后,将第二目标信息的数据格式转换为JSON格式,并将转换数据格式之后的第二目标信息传送到终端中预置的显示页面,通过预置的渲染函数将转换数据格式之后的第二目标信息渲染在用户端的显示页面上。
需要说明的是,通过链接下载接口和修改接口以及渲染到用户端的显示页面上,有利于对数据仓库进行开发的自动化操作,也有利于用户对异常信息的获悉进而对数据仓库进行开发进行调整,提高对数据仓库进行开发的准确性,从而提高对数据仓库进行开发的效率。
本发明实施例中,通过实现数据仓库自动化配置生成调度文件和建表模板,以及自动化进行脚本性能审核,减少开发流程中的手工操作,实现了数据表建表的规范化与模板化,减少了过多查询源表信息的操作,实现了对脚本性能有影响的脚本任务进行提前预判对脚本代码进行规范化,减少了人工审核的工作量,通过处理接口自动化根据分类信息进行生成调度文件处理、生成数据表创建模板处理和审核脚本性能处理,有效减少人工操作量,通过异常监控处理,提高自动化信息处理的准确性,从而提高了对数据仓库进行开发的效率。
请参阅图2,本发明实施例中数据仓库自动化处理的装置的另一个实施例包括:
第一分类模块201,用于获取待处理信息,对待处理信息进行分类处理得到分类信息,分类信息包括调度信息、创建数据表信息和/或开发脚本信息;
创建模块202,用于创建分类信息的目标主题,以及调用与目标主题对应的处理接口;
处理模块203,用于通过处理接口对分类信息进行信息预处理,得到处理信息;
第二分类模块204,用于对处理信息的信息类型进行识别,得到第一目标信息和第二目标信息,第一目标信息包括调度文件信息和建表模板信息,第二目标信息包括审核信息和异常信息,审核信息为进行脚本性能审核处理所得的信息,异常信息为进行异常监控处理所得的信息;
连接模块205,用于连接与第一目标信息对应的下载接口和修改接口,以及将第二目标信息渲染到预置的显示页面上。
可选的,处理模块203具体包括:
处理子模块,用于通过处理接口对分类信息,分别进行调度文件生成处理、建表模板生成处理和脚本性能审核处理,对应得到调度文件、建表模板和审核信息;
第一获取子模块,用于获取调度文件、建表模板和审核信息的操作日志信息;
异常监控子模块,用于对操作日志信息进行异常监控处理得到异常信息;
确定子模块,用于将调度文件、建表模板、审核信息和异常信息确定为处理信息。
需要强调的是,为进一步保证上述处理信息的私密和安全性,上述处理信息还可以存储于一区块链的节点中。
可选的,处理子模块包括:
第一获取单元,用于当分类信息为调度信息时,获取目标调度表结构和调度信息对应的第一处理接口;
第一填充单元,用于通过第一处理接口将调度信息,填充至目标调度表结构,得到调度文件;
第二获取单元,用于当分类信息为创建数据表信息时,获取目标数据表结构和创建数据表信息对应的第二处理接口;
第二填充单元,用于通过第二处理接口将创建数据表信息,填充至目标数据表结构,得到建表模板;
第三获取单元,用于当分类信息为开发脚本信息时,从预置的规则库中获取脚本性能审核规则,以及获取开发脚本信息对应的第三处理接口;
性能审核单元,用于通过第三处理接口和脚本性能审核规则,对开发脚本信息进行性能审核,得到审核信息。
可选的,处理模块203还包括:
第一获取单元,用于从预置的脚本库中获取与审核信息对应的历史开发脚本信息;
计算单元,用于计算历史开发脚本信息和开发脚本信息的相似度;
排序单元,用于按照相似度的值从大到小的顺序对历史开发脚本信息进行排序,得到排序为第一的目标历史开发脚本信息;
添加单元,用于获取目标历史开发脚本信息对应的脚本优化方案,并将脚本优化方案添加至审核信息,得到最终的审核信息。
可选的,性能审核单元包括:
获取子单元,用于获取脚本性能审核规则中的预设性能语句和预置程度表;
检测子单元,用于通过第三处理接口和预设性能语句,对开发脚本信息进行检测,得到目标信息,目标信息包括与预设性能语句对应的目标脚本语句以及目标脚本语句的目标数量;
遍历子单元,用于根据目标信息遍历预置程度表,得到与目标信息对应的目标分值;
确定子单元,用于将目标脚本语句和目标分值确定为开发脚本信息的审核信息。
可选的,检测子单元还可以具体用于:
通过第三处理接口,分别创建预设性能语句的哈希值、开发脚本信息的哈希散列表和多进程;
根据预置的字典、哈希值和多进程对哈希散列表进行检索,得到目标信息。
可选的,数据仓库自动化处理的装置,还包括:
构建模块,用于构建用户页面元素框架,将用户页面元素框架与预置的数据仓库进行连接,生成规则库;
封装模块,用于通过预置的开放源代码网页应用框架,将预置的脚本性能审核规则封装在规则库中,脚本性能审核规则用于指示对脚本的代码性能是否符合预设要求进行审核的规则。
上述数据仓库自动化处理的装置中各模块和各单元的功能实现与上述数据仓库自动化处理的方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过实现数据仓库自动化配置生成调度文件和建表模板,以及自动化进行脚本性能审核,减少开发流程中的手工操作,实现了数据表建表的规范化与模板化,减少了过多查询源表信息的操作,实现了对脚本性能有影响的脚本任务进行提前预判对脚本代码进行规范化,减少了人工审核的工作量,通过处理接口自动化根据分类信息进行生成调度文件处理、生成数据表创建模板处理和审核脚本性能处理,有效减少人工操作量,通过异常监控处理,提高自动化信息处理的准确性,从而提高了对数据仓库进行开发的效率。
上面图2从模块化功能实体的角度对本发明实施例中的数据仓库自动化处理的装置进行详细描述,下面从硬件处理的角度对本发明实施例中数据仓库自动化处理的设备进行详细描述。
图3是本发明实施例提供的一种数据仓库自动化处理的设备的结构示意图,该数据仓库自动化处理的设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)310(例如,一个或一个以上处理器)和存储器320,一个或一个以上存储应用程序333或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据仓库自动化处理的设备300中的一系列指令操作。更进一步地,处理器310可以设置为与存储介质330通信,在数据仓库自动化处理的设备300上执行存储介质330中的一系列指令操作。
数据仓库自动化处理的设备300还可以包括一个或一个以上电源340,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口360,和/或,一个或一个以上操作系统331,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3示出的数据仓库自动化处理的设备结构并不构成对数据仓库自动化处理的设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述数据仓库自动化处理的方法的步骤。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据仓库自动化处理的方法,其特征在于,所述数据仓库自动化处理的方法包括:
获取待处理信息,对所述待处理信息进行分类处理得到分类信息,所述分类信息包括调度信息、创建数据表信息和/或开发脚本信息;
创建所述分类信息的目标主题,以及调用与所述目标主题对应的处理接口;
通过所述处理接口对所述分类信息进行信息预处理,得到处理信息;
对所述处理信息的信息类型进行识别,得到第一目标信息和第二目标信息,所述第一目标信息包括调度文件信息和建表模板信息,所述第二目标信息包括审核信息和异常信息,所述审核信息为进行脚本性能审核处理所得的信息,所述异常信息为进行异常监控处理所得的信息;
连接与所述第一目标信息对应的下载接口和修改接口,以及将所述第二目标信息渲染到预置的显示页面上。
2.根据权利要求1所述的数据仓库自动化处理的方法,其特征在于,所述通过所述处理接口对所述分类信息进行信息预处理,得到处理信息,包括:
通过所述处理接口对所述分类信息,分别进行调度文件生成处理、建表模板生成处理和脚本性能审核处理,对应得到调度文件、建表模板和审核信息;
获取所述调度文件、所述建表模板和所述审核信息的操作日志信息;
对所述操作日志信息进行异常监控处理得到异常信息;
将所述调度文件、所述建表模板、所述审核信息和所述异常信息确定为处理信息。
3.根据权利要求2所述的数据仓库自动化处理的方法,其特征在于,所述通过所述处理接口对所述分类信息,分别进行调度文件生成处理、建表模板生成处理和脚本性能审核处理,对应得到调度文件、建表模板和审核信息,包括:
当所述分类信息为调度信息时,获取目标调度表结构和所述调度信息对应的第一处理接口;
通过所述第一处理接口将所述调度信息,填充至所述目标调度表结构,得到调度文件;
当所述分类信息为创建数据表信息时,获取目标数据表结构和所述创建数据表信息对应的第二处理接口;
通过所述第二处理接口将所述创建数据表信息,填充至所述目标数据表结构,得到建表模板;
当所述分类信息为开发脚本信息时,从预置的规则库中获取脚本性能审核规则,以及获取所述开发脚本信息对应的第三处理接口;
通过所述第三处理接口和所述脚本性能审核规则,对所述开发脚本信息进行性能审核,得到审核信息。
4.根据权利要求3所述的数据仓库自动化处理的方法,其特征在于,所述通过所述第三处理接口和所述脚本性能审核规则,对所述开发脚本信息进行性能审核,得到审核信息之后,还包括:
从预置的脚本库中获取与所述审核信息对应的历史开发脚本信息;
计算所述历史开发脚本信息和所述开发脚本信息的相似度;
按照所述相似度的值从大到小的顺序对所述历史开发脚本信息进行排序,得到排序为第一的目标历史开发脚本信息;
获取所述目标历史开发脚本信息对应的脚本优化方案,并将所述脚本优化方案添加至所述审核信息,得到最终的审核信息。
5.根据权利要求3所述的数据仓库自动化处理的方法,其特征在于,所述通过所述第三处理接口和所述脚本性能审核规则,对所述开发脚本信息进行性能审核,得到审核信息,包括:
获取所述脚本性能审核规则中的预设性能语句和预置程度表;
通过所述第三处理接口和所述预设性能语句,对所述开发脚本信息进行检测,得到目标信息,所述目标信息包括与所述预设性能语句对应的目标脚本语句以及所述目标脚本语句的目标数量;
根据所述目标信息遍历所述预置程度表,得到与所述目标信息对应的目标分值;
将所述目标脚本语句和所述目标分值确定为所述开发脚本信息的审核信息。
6.根据权利要求5所述的数据仓库自动化处理的方法,其特征在于,所述通过所述第三处理接口和所述预设性能语句,对所述开发脚本信息进行检测,得到目标信息,包括:
通过所述第三处理接口,分别创建所述预设性能语句的哈希值、所述开发脚本信息的哈希散列表和多进程;
根据预置的字典、所述哈希值和所述多进程对所述哈希散列表进行检索,得到目标信息。
7.根据权利要求1-6中任一项所述的数据仓库自动化处理的方法,其特征在于,所述获取待处理信息,对所述待处理信息进行分类处理得到分类信息之前,包括:
构建用户页面元素框架,将所述用户页面元素框架与预置的数据仓库进行连接,生成规则库;
通过预置的开放源代码网页应用框架,将预置的脚本性能审核规则封装在所述规则库中,所述脚本性能审核规则用于指示对脚本的代码性能是否符合预设要求进行审核的规则。
8.一种数据仓库自动化处理的装置,其特征在于,所述数据仓库自动化处理的装置包括:
第一分类模块,用于获取待处理信息,对所述待处理信息进行分类处理得到分类信息,所述分类信息包括调度信息、创建数据表信息和/或开发脚本信息;
创建模块,用于创建所述分类信息的目标主题,以及调用与所述目标主题对应的处理接口;
处理模块,用于通过所述处理接口对所述分类信息进行信息预处理,得到处理信息;
第二分类模块,用于对所述处理信息的信息类型进行识别,得到第一目标信息和第二目标信息,所述第一目标信息包括调度文件信息和建表模板信息,所述第二目标信息包括审核信息和异常信息,所述审核信息为进行脚本性能审核处理所得的信息,所述异常信息为进行异常监控处理所得的信息;
连接模块,用于连接与所述第一目标信息对应的下载接口和修改接口,以及将所述第二目标信息渲染到预置的显示页面上。
9.一种数据仓库自动化处理的设备,其特征在于,所述数据仓库自动化处理的设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据仓库自动化处理的设备执行如权利要求1-7中任意一项所述的数据仓库自动化处理的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述数据仓库自动化处理的方法。
CN202010460985.1A 2020-05-27 2020-05-27 数据仓库自动化处理的方法、装置、设备及存储介质 Pending CN111708756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010460985.1A CN111708756A (zh) 2020-05-27 2020-05-27 数据仓库自动化处理的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010460985.1A CN111708756A (zh) 2020-05-27 2020-05-27 数据仓库自动化处理的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111708756A true CN111708756A (zh) 2020-09-25

Family

ID=72538732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010460985.1A Pending CN111708756A (zh) 2020-05-27 2020-05-27 数据仓库自动化处理的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111708756A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113138974A (zh) * 2021-04-23 2021-07-20 建信金融科技有限责任公司 数据库合规检测的方法和装置
CN113934712A (zh) * 2021-12-17 2022-01-14 昆仑智汇数据科技(北京)有限公司 一种工业质检数据的领域模型的处理方法、装置及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113138974A (zh) * 2021-04-23 2021-07-20 建信金融科技有限责任公司 数据库合规检测的方法和装置
CN113138974B (zh) * 2021-04-23 2023-08-22 建信金融科技有限责任公司 数据库合规检测的方法和装置
CN113934712A (zh) * 2021-12-17 2022-01-14 昆仑智汇数据科技(北京)有限公司 一种工业质检数据的领域模型的处理方法、装置及设备
CN113934712B (zh) * 2021-12-17 2022-03-11 昆仑智汇数据科技(北京)有限公司 一种工业质检数据的领域模型的处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN113420537B (zh) 电子表格数据处理方法、装置、设备及存储介质
CN104537015A (zh) 一种日志分析的计算机实现的方法、计算机和系统
US20210319039A1 (en) Extraction of a nested hierarchical structure from text data in an unstructured version of a document
CN111708756A (zh) 数据仓库自动化处理的方法、装置、设备及存储介质
CN111338693B (zh) 基于模型构建的目标文件生成方法、服务器及存储介质
CN111324827A (zh) 智能推荐货源订单信息的方法、装置、设备及存储介质
CN113221570A (zh) 基于线上问诊信息的处理方法、装置、设备及存储介质
CN113806429A (zh) 基于大数据流处理框架的画布式日志分析方法
CN108804685B (zh) 一种资产托管监督任务的处理方法及装置
CN114238474A (zh) 基于排水系统的数据处理方法、装置、设备及存储介质
CN112529543A (zh) 工作流互斥关系的校验方法、装置、设备及存储介质
CN112667873A (zh) 一种适用于多数网站通用采集数据的爬虫系统及方法
CN116996363A (zh) 一种配电网的故障预警方法及相关装置
CN117501275A (zh) 用于分析由大量单独消息组成的数据的方法、计算机程序产品和计算机系统
CN114153646A (zh) 一种运维故障处置方法、装置及存储介质、处理器
WO2021032820A1 (en) Method for generating a coherent representation for at least two log files
CN112667469A (zh) 一种多元化大数据统计报告自动生成方法、系统及可读介质
CN105930453A (zh) 重复性分析方法及装置
CN110737707A (zh) 多系统的日志搜索方法、装置及计算机可读存储介质
CN110851325B (zh) 基于Hive表监控数据仓库的方法、装置及设备
EP3835977A1 (en) Method for generating triples from log entries
CN113821320A (zh) 一种分布式的数据仓库工作流调度方法
CN112579450A (zh) 基于意图识别的性能测试方法、装置、设备及存储介质
CN114880377A (zh) 数据溯源方法、装置、设备及存储介质
CN114385656A (zh) 脚本检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination