CN106355303A - 一种数据模型自动化评审系统 - Google Patents

一种数据模型自动化评审系统 Download PDF

Info

Publication number
CN106355303A
CN106355303A CN201610670260.9A CN201610670260A CN106355303A CN 106355303 A CN106355303 A CN 106355303A CN 201610670260 A CN201610670260 A CN 201610670260A CN 106355303 A CN106355303 A CN 106355303A
Authority
CN
China
Prior art keywords
data
modeling
data model
model
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610670260.9A
Other languages
English (en)
Inventor
程永新
林小勇
吴广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI NEW CENTURY NETWORK Co Ltd
Original Assignee
SHANGHAI NEW CENTURY NETWORK Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI NEW CENTURY NETWORK Co Ltd filed Critical SHANGHAI NEW CENTURY NETWORK Co Ltd
Priority to CN201610670260.9A priority Critical patent/CN106355303A/zh
Publication of CN106355303A publication Critical patent/CN106355303A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据模型自动化评审系统,包括数据读取模块:批量读取建模厂家提交的数据模型,并将读取的数据放入数据库临时表中;预处理模块:对数据库临时表中的数据进行格式化异常处理,并对其中的建模SQL语句进行解析;校验模块:对经过预处理后的数据,每条数据按照预定规则进行校验,将校验结果写回每条记录结果字段,循环进行上述校验过程,直至本批次数据全部校验完毕;备案模块:对于所有数据都校验成功的数据模型进行记录,形成建模存量库。本发明提供的数据模型自动化评审系统,使得模型审批能够自动化的进行,不需要完全依赖于管理人员的经验和水平,减少对建模厂家的进度耽误,同时减少人为的错误评审。

Description

一种数据模型自动化评审系统
技术领域
本发明涉及一种数据模型评审系统,尤其涉及一种数据模型自动化评审系统。
背景技术
大数据技术现在被越来越多的行业所使用,典型的电信行业就是使用大数据的先驱者,电信系统最显著的一个特点就是数据量大,月存储PB数量级,随着集群的增大,越来越多样式的数据接入,数据以各种形式存放在集群里。数据的多样性,复杂性给管理带来很大的成本,且数据模型的管理基本上各厂家都有一套自己的规范,这也导致整个集群出现各种命名模式的模型,使得模型较为混乱,因此一些集群便出现了模型管理人员,但目前这些管理人员仍然用最原始的方法进行模型评审,即厂家开发人员提交模型过来,模型评审人员结合自己的业务理解和技术能力对所提交模型进行评审,整体流程如图1所示,包括如下阶段:
1、提交阶段:建模厂家提交建立模型的SQL语句,各厂家按照自己的规范进行建模。
2、评审阶段:模型评审人员收到建模厂家的建模语句后,结合自己以往的业务经验和技术能力,进行评估,目前主要是针对命名规范性进行校验。
3、通知阶段:评审人员将校验结构反馈给建模厂家。
对于电信系统业务等大型业务系统,一般具有特点:1、业务数据量大,数据样式多;2、建模时效性要求高;3、厂家众多,建模数量多。
由上可见,现有的技术具有如下缺点:1、人工操作,容易产生错误;2、效率较为低下;3、对评审人员的业务知识,系统熟悉度要求较高。
发明内容
本发明所要解决的技术问题是提供一种数据模型自动化评审系统,使得模型审批能够自动化的进行,不需要完全依赖于管理人员的经验和水平,减少对建模厂家的进度耽误,同时减少人为的错误评审。
本发明为解决上述技术问题而采用的技术方案是提供一种数据模型自动化评审系统,包括数据读取模块:批量读取建模厂家提交的数据模型,并将读取的数据放入数据库临时表中;预处理模块:对数据库临时表中的数据进行格式化异常处理,并对其中的建模SQL语句进行解析;校验模块:对经过预处理后的数据,每条数据按照预定规则进行校验,将校验结果写回每条记录结果字段,循环进行上述校验过程,直至本批次数据全部校验完毕;备案模块:对于所有数据都校验成功的数据模型进行记录,形成建模存量库。
上述的数据模型自动化评审系统,其中,所述建模厂家提交的数据模型采用EXCEL文件模板。
上述的数据模型自动化评审系统,其中,所述预处理模块对数据库临时表中的数据进行如下格式化异常处理:消除回车符和制表符,并统一中英文标点符号。
上述的数据模型自动化评审系统,其中,所述预处理模块根据正则表达式对建模SQL语句进行模式匹配,解析获取该数据模型的名称,字段,字段类型以及备注信息。
上述的数据模型自动化评审系统,其中,所述校验模块按照如下预定规则对每条数据依次进行校验:必填性校验、规范性校验、存在性校验和资源性校验。
上述的数据模型自动化评审系统,其中,所述必填性校验包括对数据模型名称,开发商名,用途说明,保留时长,模型类别以及SQL解析后的字段进行必填校验。
上述的数据模型自动化评审系统,其中,所述规范性校验包括根据业务类型对业务事实表、业务中间表、配置表、日志表、临时表、视图分别进行统一命名,并限定各自的存放表空间。
上述的数据模型自动化评审系统,其中,所述存在性校验过程如下:对于已经存在的数据模型,通过对新提交的数据模型里的建模语句及用途说明与建模存量库中已经存在的模型进行比对;当发现相似的数据模型时,将该数据模型在校验信息中反馈给建模厂家。
上述的数据模型自动化评审系统,其中,所述资源性校验包括对解析后的建模SQL语句,识别出维度字段;根据维度字段,在建模存量库中匹配出相同或者相近的维度组合模型,统计该匹配模型的空间情况,并以该匹配模型空间作为新提交数据模型的预估空间;如果建模存量库中没有相近维度的模型,则按照开发商提交的字段“预计占用空间”作为该新提交数据模型的预估空间;统计该新提交数据模型存放的数据库当前剩余空间,将当前剩余空间与预估空间比对,如果预估空间与剩余空间之比达到预设阀值,则提示剩余空间不足的校验信息。
本发明对比现有技术有如下的有益效果:本发明提供的数据模型自动化评审系统,通过设置预处理模块和校验模块对批量读取的建模厂家提交的数据模型进行处理,使得模型审批能够自动化的进行,不需要完全依赖于管理人员的经验和水平,减少对建模厂家的进度耽误,同时减少人为的错误评审。
附图说明
图1为现有数据模型评审流程示意图;
图2为本发明数据模型自动化评审系统架构示意图;
图3为本发明数据模型自动化评审流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图2为本发明数据模型自动化评审系统架构示意图。
请参见图2,本发明提供的数据模型自动化评审系统,包括数据读取模块、预处理模块、校验模块和备案模块;主要模块功能实现如下:
1、数据读取模块:识别建模厂家提交的EXCEL的数据,进行批量读取,将读取的数据放入数据库临时表中;
2、预处理模块:对数据库临时表中的数据进行预处理,主要分为消除回车符,制表符,统一中英文标点符号;对模板中建模的SQL语句进行SQL解析(解析算法,主要依据正则表达式进行模式匹配),解析后能区分出该模型的名称,字段,字段类型,备注等信息;
3、校验模块:经过预处理后的数据,每条按照规范进行校验,校验顺序为“必填性校验->规范性校验->存在性校验->资源性校验”,将校验结果写回每条记录结果字段,并进行循环,直至本批次数据全部校验完毕。校验模块核心处理流程如下。
3.1、必填性校验
模型名称,开发商名,用途说明,保留时长,模型类别等信息必须填写,对以上字段进行必填校验,其中模板上的必填字段,没有填写则提示必须填写,模型的备注,字段的备注,需要SQL解析,对解析后的字段也需要进行必填校验;
3.2、规范性校验
模型命名规范,按照约定,制定规范性说明,例如“类别_厂家简称_业务(配置)”
对于业务事实表,统一以“F_”开头
对于业务中间表,统一以“I_”开头
对于配置表,统一以“CFG_”开头
对于日志表,统一以“LOG_”开头
对于临时表,统一以“TMP_”开头
对于视图,统一以“V_”开头
统一各厂家的英文简称,约定业务类型的英文名称;对于传统的关系型数据库,模型存放表空间必须存放各自的表空间,不允许使用他人表空间;对于大数据如hadoop的模型(HIVE里的模型或者其他HDFS),必须存放各自的目录,不允许使用他人目录或者公共目录;对违反以上规范的模型,提示相关的不规范说明已提示建模厂商修正。
3.3、存在性校验
对于已经存在的模型,通过对模板里的建模语句及用途说明进行与建模存量库中已经存在的模型进行比对(首次运行,不需要比对);当发现相似的模型时,将该模型在校验信息中反馈给建模厂家。
3.4、资源性校验
对解析后的SQL语句,识别出维度字段,根据维度字段,在存量库中匹配出相同或者相近的维度组合模型,统计该模型的空间情况,优先以该模型空间作为模板模型预估空间。如果存量库中没有相近维度的模型,则按照开发商提交的字段“预计占用空间”为该模板模型预估空间。统计该模型存放的数据库当前剩余空间,将该空间与预估空间比对,如果预估空间大于或等于剩余空间80%,则提示校验信息“剩余空间为XX,【模型名称】空间过大,需减少保存时长”。
4、备案模块:对于通过所有校验,及校验成功的模型,进行记录,形成存量库。
本发明能够对建模厂家提交的excel附件中一些特殊字符进行处理,使得代码能够识别有效数据。接着对建模SQL进行SQL解析,自动拆分出关键字段,并根据拆分后的信息做后期的必填性,规范性,存在性,资源性校验。校验模块逻辑需区分先后,只有先通过必填性校验,才能进行规范性校验,继而对存在性校验,最后资源性校验,按照上述顺序则可进一步提高校验效果。
本发明制定了一套机制有效地快速进行模型评审,通过制定的模型建模规范模板,收集厂家的建模信息,结合后台的规范化验证建模程序;通过后台的校验程序来实现自动化评审。在前期准备阶段,需要调研系统业务数据特性,与各建模厂商达成一致,形成一套统一的命名规范,制定统一的建模模板,模型管理人员根据此规范模板,进行编程,由程序实现校验逻辑。在提交阶段,则建模厂家按照模板进行提交,程序读取数据,并自动化进行评审,按照规则输出校验信息给建模厂商,厂商根据校验信息就行模型修正并再次提交评审,程序对校验成功的模型进行记录,形成存量库,如图3所示。具体优点如下:1、脚本化自动校验,减少了人为的失误而造成的错误,提高了模型评审的准确率,同时自动化大大提升了评审的效率,原来1个模型/5分钟的人工评审,利用本发明,可以1秒完成。2、模型评审由脚本完成,相比传统的人工(靠经验)评审,脚本评审可以不断去完善,考虑方面多样化,评审方式更加全面。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (9)

1.一种数据模型自动化评审系统,其特征在于,包括:
数据读取模块:批量读取建模厂家提交的数据模型,并将读取的数据放入数据库临时表中;
预处理模块:对数据库临时表中的数据进行格式化异常处理,并对其中的建模SQL语句进行解析;
校验模块:对经过预处理后的数据,每条数据按照预定规则进行校验,将校验结果写回每条记录结果字段,循环进行上述校验过程,直至本批次数据全部校验完毕;
备案模块:对于所有数据都校验成功的数据模型进行记录,形成建模存量库。
2.如权利要求1所述的数据模型自动化评审系统,其特征在于,所述建模厂家提交的数据模型采用EXCEL文件模板。
3.如权利要求1所述的数据模型自动化评审系统,其特征在于,所述预处理模块对数据库临时表中的数据进行如下格式化异常处理:消除回车符和制表符,并统一中英文标点符号。
4.如权利要求1所述的数据模型自动化评审系统,其特征在于,所述预处理模块根据正则表达式对建模SQL语句进行模式匹配,解析获取该数据模型的名称,字段,字段类型以及备注信息。
5.如权利要求1所述的数据模型自动化评审系统,其特征在于,所述校验模块按照如下预定规则对每条数据依次进行校验:必填性校验、规范性校验、存在性校验和资源性校验。
6.如权利要求5所述的数据模型自动化评审系统,其特征在于,所述必填性校验包括对数据模型名称,开发商名,用途说明,保留时长,模型类别以及SQL解析后的字段进行必填校验。
7.如权利要求5所述的数据模型自动化评审系统,其特征在于,所述规范性校验包括根据业务类型对业务事实表、业务中间表、配置表、日志表、临时表、视图分别进行统一命名,并限定各自的存放表空间。
8.如权利要求5所述的数据模型自动化评审系统,其特征在于,所述存在性校验过程如下:对于已经存在的数据模型,通过对新提交的数据模型里的建模语句及用途说明与建模存量库中已经存在的模型进行比对;当发现相似的数据模型时,将该数据模型在校验信息中反馈给建模厂家。
9.如权利要求5所述的数据模型自动化评审系统,其特征在于,所述资源性校验包括对解析后的建模SQL语句,识别出维度字段;根据维度字段,在建模存量库中匹配出相同或者相近的维度组合模型,统计该匹配模型的空间情况,并以该匹配模型空间作为新提交数据模型的预估空间;如果建模存量库中没有相近维度的模型,则按照开发商提交的字段“预计占用空间”作为该新提交数据模型的预估空间;统计该新提交数据模型存放的数据库当前剩余空间,将当前剩余空间与预估空间比对,如果预估空间与剩余空间之比达到预设阀值,则提示剩余空间不足的校验信息。
CN201610670260.9A 2016-08-15 2016-08-15 一种数据模型自动化评审系统 Pending CN106355303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610670260.9A CN106355303A (zh) 2016-08-15 2016-08-15 一种数据模型自动化评审系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610670260.9A CN106355303A (zh) 2016-08-15 2016-08-15 一种数据模型自动化评审系统

Publications (1)

Publication Number Publication Date
CN106355303A true CN106355303A (zh) 2017-01-25

Family

ID=57844074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610670260.9A Pending CN106355303A (zh) 2016-08-15 2016-08-15 一种数据模型自动化评审系统

Country Status (1)

Country Link
CN (1) CN106355303A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106930335A (zh) * 2017-03-18 2017-07-07 辽宁工程技术大学 一种地基承载力确定核验方法
CN109582286A (zh) * 2018-07-04 2019-04-05 福州震旦计算机技术有限公司 基于Freemarker技术的数据规范性校验方法及其装置
CN110096368A (zh) * 2018-01-31 2019-08-06 上海汽车集团股份有限公司 一种评审信息处理方法及装置
CN111598535A (zh) * 2020-05-09 2020-08-28 西安精雕软件科技有限公司 一种基础物料的导入方法、系统、计算机设备
CN111652465A (zh) * 2020-04-22 2020-09-11 杭州传化智能制造科技有限公司 调度处理的方法、装置、系统、计算机设备及存储介质
CN113342786A (zh) * 2021-08-02 2021-09-03 浩鲸云计算科技股份有限公司 一种基于模型管控的在线数据治理管理方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509156A (zh) * 2011-09-24 2012-06-20 华东电网有限公司 数据校验核心控制引擎技术
CN106919630A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于sql表达式的风险指标公式生成方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509156A (zh) * 2011-09-24 2012-06-20 华东电网有限公司 数据校验核心控制引擎技术
CN106919630A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于sql表达式的风险指标公式生成方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106930335A (zh) * 2017-03-18 2017-07-07 辽宁工程技术大学 一种地基承载力确定核验方法
CN106930335B (zh) * 2017-03-18 2019-10-01 辽宁工程技术大学 一种地基承载力确定核验方法
CN110096368A (zh) * 2018-01-31 2019-08-06 上海汽车集团股份有限公司 一种评审信息处理方法及装置
CN109582286A (zh) * 2018-07-04 2019-04-05 福州震旦计算机技术有限公司 基于Freemarker技术的数据规范性校验方法及其装置
CN109582286B (zh) * 2018-07-04 2021-11-26 福州震旦计算机技术有限公司 基于Freemarker技术的数据规范性校验方法及其装置
CN111652465A (zh) * 2020-04-22 2020-09-11 杭州传化智能制造科技有限公司 调度处理的方法、装置、系统、计算机设备及存储介质
CN111598535A (zh) * 2020-05-09 2020-08-28 西安精雕软件科技有限公司 一种基础物料的导入方法、系统、计算机设备
CN111598535B (zh) * 2020-05-09 2023-06-13 西安精雕软件科技有限公司 一种基础物料的导入方法、系统、计算机设备
CN113342786A (zh) * 2021-08-02 2021-09-03 浩鲸云计算科技股份有限公司 一种基于模型管控的在线数据治理管理方法和系统

Similar Documents

Publication Publication Date Title
CN106355303A (zh) 一种数据模型自动化评审系统
US7916925B2 (en) System and method for generating magnetic ink character recognition (MICR) testing documents
CN112528041B (zh) 一种基于知识图谱的调度用语规范验证方法
CN109359277A (zh) 数据监控方法、设备及计算机存储介质
CN113254619A (zh) 针对用户询问的自动答复方法、装置和电子设备
CN106294128B (zh) 一种导出报表数据的自动化测试方法及装置
CN112445897A (zh) 文本类数据大规模分类标注方法、系统、装置及存储介质
CN107392560A (zh) 一种基于互联网的Excel表格数据发布采集方法及系统
CN111596899A (zh) 一种基于Java开发的数据库迁移方法、系统、设备及存储介质
CN106611063A (zh) 一种建设项目审批信息的关联方法及装置
CN112417852B (zh) 一种代码片段重要性的判断方法和装置
CN111626022B (zh) 一种在线教育题目生成方法、装置、电子设备及存储介质
CN104216986B (zh) 以数据更新周期进行预操作提高数据查询效率的装置及方法
CN109615241A (zh) 一种基于卷积和循环神经网络的软件Bug分派方法
CN113158988B (zh) 财务报表处理方法、装置以及计算机可读存储介质
CN105354192A (zh) 一种对结构不同的数据资料的管理方法
Bakker et al. Timeline extraction from decision letters using chatgpt
CN114510497A (zh) 一种变量加工方法、装置、设备及可读存储介质
CN109800415A (zh) 基于语义解析的生产问题分发方法及系统
CN110069595A (zh) 语料标签确定方法、装置、电子设备及存储介质
US11907110B2 (en) Methods and systems for automated software testing
CN109933523A (zh) Iec61850模型检测方法、系统、终端设备、计算机可读存储介质
CN113535805B (zh) 数据挖掘方法及相关装置和电子设备、存储介质
CN111309306B (zh) 人机交互的对话管理系统
CN116108815A (zh) 一种半自动意图标注方法、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170125