CN113342786A - 一种基于模型管控的在线数据治理管理方法和系统 - Google Patents

一种基于模型管控的在线数据治理管理方法和系统 Download PDF

Info

Publication number
CN113342786A
CN113342786A CN202110878703.4A CN202110878703A CN113342786A CN 113342786 A CN113342786 A CN 113342786A CN 202110878703 A CN202110878703 A CN 202110878703A CN 113342786 A CN113342786 A CN 113342786A
Authority
CN
China
Prior art keywords
model
management
field
metadata
design
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110878703.4A
Other languages
English (en)
Inventor
罗德成
唐玉军
吴名朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Whale Cloud Technology Co Ltd
Original Assignee
Whale Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whale Cloud Technology Co Ltd filed Critical Whale Cloud Technology Co Ltd
Priority to CN202110878703.4A priority Critical patent/CN113342786A/zh
Publication of CN113342786A publication Critical patent/CN113342786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模型管控的在线数据治理管理方法和系统,该方法包括以下步骤:S1、对模型设计规则进行管理,实现模型设计时对模型相关属性的设置;S2、对模型字段库中常用的模型字段进行统一管理,并依据用户输入的模型信息进行字段自动推荐;S3、当模型设计标准及字段库定义完成后,实现对模型的设计;S4、对所有设计的模型进行规范性的检测,分类统计设计不规范的模型生成整改工单,并督促工作人员进行处理;S5、将设计过程中涉及的三类元数据自动注册至元数据统一库,实现元数据的事前管理、事后采集和自动比对。有益效果:将在线向导式模型设计、模型规范性自动校验和字段库智能推荐相结合在线管控并治理数据。

Description

一种基于模型管控的在线数据治理管理方法和系统
技术领域
本发明涉及大数据产品技术领域,具体来说,涉及一种基于模型管控的在线数据治理管理方法和系统。
背景技术
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为;由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程,数据治理核心的就是数据模型管控,数据模型是集成各种数据源的数据视图,是支撑各类分析应用的基础,也是表达和沟通业务及其规则的媒介,对系统后续实施有着重要的指导和规划作用。
数据模型设计和变更是日常数据管理中的常见场景,目前对数据模型设计和变更采用线下文档的方式进行管理,该管理方式缺乏在线流程对模型进行统一管控,久而久之,在实际应用的开发过程中,模型会存在以下问题:
1、模型变更没有统一的入口,导致模型版本很容易出现不一致的情况,同时模型版本也不方便进行版本的追溯;
2、模型变更过程中审批不便捷,从而影响业务的需求,进而影响业务的开发进度;
3、人工对模型进行规范的校验时,效验过程中存在部分规范的验证不一致以及出现遗漏的现象;
4、部分检验规则过程中人工难以进行识别,例如:模型字段定义,存在同义不同名和同名不同义的情况,从而影响后续模型。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于模型管控的在线数据治理管理方法和系统,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
根据本发明的一个方面,提供了一种基于模型管控的在线数据治理管理方法,该方法包括以下步骤:
S1、利用预设的模型设计标准管理和校验模块对模型设计规则进行管理,实现模型设计时对模型相关属性的设置;
S2、利用预设的模型字段库定义及推荐模块对模型字段库中常用的模型字段进行统一管理,并依据用户输入的模型信息进行字段自动推荐;
S3、当模型设计标准及字段库定义完成后,利用预设的向导式设计模块实现对模型的设计;
S4、利用预设的自动化模型检测模块对所有设计的模型进行规范性的检测,分类统计设计不规范的模型生成整改工单,并督促工作人员进行处理;
S5、利用预设的元数据注册模块将模型设计过程中涉及的三类元数据自动注册至元数据统一库,实现元数据的事前管理、事后采集和自动比对。
进一步的,所述模型设计规则包括:分层规则定义、分域规则定义、账期类型定义、表命名规则定义、模型英文名称及字段英文名称内容格式及长度规则定义、模型中文名称和字段中文名称非空校验定义及数据偏移量规则定义。
进一步的,所述模型字段库的管理需要有权限的用户才能维护,无权限的用户则需要通过申报的方式录入并提交审核,审核通过后才能加入到模型字段库。
进一步的,所述字段的属性包括:数据库类型、字段中文名、字段英文名、数据类型、字段长度精度、所属主题域、字段业务口径、是否非空及关联主数据编码。
进一步的,所述字段的自动推荐利用Elasticsearch工具,基于文本相似度算法进行分析,匹配出相关的字段库的字段供用户选择,同时记录下字段库被引用的记录,推荐字段时按引用次数降序排列;
其中,所述Elasticsearch是基于文本相似度BM25算法实现,首先需要将字段库的信息通过应用程序接口定时更新到Elasticsearch,然后Elasticsearch对字段中文名、字段英文名、数据类型、字段业务口径的信息经过处理,最后将处理后的信息写入反向索引。
进一步的,所述当模型设计标准及字段库定义完成后,利用预设的向导式设计模块实现对模型的设计包括以下步骤:
S31、填写表单中的表基本信息,确认填写完成后执行S32;
S32、填写表单中的字段信息,确认填写完成后执行S33;
S33、对模型质量进行检查,模型质量检查确认后执行S34;
S34、对模型进行预览,预览确认后返回S33再次进行修改。
进一步的,所述模型的预览包括表基本信息、表字段基本信息、来源表关系实体联系图及结构化查询语言建表的四种信息预览。
进一步的,所述利用预设的自动化模型检测模块对所有设计的模型进行规范性的检测包括:
对于强校验的内容,全部通过,对于检查通过采用绿勾提醒用户,对于不通过采用红叉提醒用户,并将检查项保留至数据库;
对于非强校验的内容,进行友好提示并指引用户进行调整,输出规范性检测报告,提供给模型审核人员一个有力的判断依据。
进一步的,所述三类元数据包括管理元数据、技术元数据及业务元数据,且所述管理元数据、技术元数据及业务元数据均通过接口方式自动注册至所述元数据统一库中。
根据本发明的另一个方面,提供了一种基于模型管控的在线数据治理管理系统,该系统包括:
模型设计标准管理和校验模块,用于对模型设计规则进行管理,实现模型设计时对模型相关属性的设置;
模型字段库定义及推荐模块,用于对模型字段库中常用的模型字段进行统一管理,并依据用户输入的模型信息进行字段自动推荐;
向导式设计模块,用于当模型设计标准及字段库定义完成后实现对模型的设计;
自动化模型检测模块,用于对所有设计的模型进行规范性的检测,分类统计设计不规范的模型生成整改工单,并督促工作人员进行处理;
元数据注册模块,用于将模型设计过程中涉及的三类元数据自动注册至元数据统一库,实现元数据的事前管理、事后采集和自动比对。
本发明的有益效果为:
1、本发明可以对模型的设计和变更的管控流程提供在线向导式的操作,支持主数据引用和ER图设计。
2、本发明可以支持模型设计标准的灵活配置功能,从源头对数据模型规范进行自动化检测,自动输出检测报告。
3、本发明可以提供模型字段库管理,模型设计时,通过对用户录入的信息进行文本相似度分析,实现海量字段的智能推荐功能。
4、本发明可以在元数据自动采集的基础上,将管理、技术、业务三类元数据进行事前注册,为数据治理事前管控提供强有力手段,减少大数据生产过程中对模型的违规新增、违规修改、违规删除的事后治理。
5、本发明通过Elasticsearch工具,基于文本相似度算法进行分析,匹配出相关的字段库的字段供用户选择,同时记录下字段库被引用的记录,推荐字段时按引用次数降序排列,Elasticsearch是基于文本相似度BM25算法实现的,首先需要将字段库的信息通过API定时更新到Elasticsearch,Elasticsearch对字段中文名、字段英文名、数据类型、字段业务口径等信息经过处理后,会写入到反向索引,模型设计时通过提取用户录入的字段信息,调用Elasticsearch的API进行检索,检索的结果会按照匹配度从高到低排列,这样就能实现将匹配度高的字段信息推荐给用户。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于模型管控的在线数据治理管理方法的流程图;
图2是根据本发明实施例的一种基于模型管控的在线数据治理管理系统的结构框图;
图3是根据本发明实施例的一种基于模型管控的在线数据治理管理方法的模型管控整体流程图;
图4是根据本发明实施例的一种基于模型管控的在线数据治理管理方法的模型管控整体流程明细图;
图5是根据本发明实施例的一种基于模型管控的在线数据治理管理方法中模型字段库定义及推荐图。
图中:
1、模型设计标准管理和校验模块;2、模型字段库定义及推荐模块;3、向导式设计模块;4、自动化模型检测模块;5、元数据注册模块。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于模型管控的在线数据治理管理方法。
现结合附图和具体实施方式对本发明进一步说明,如图1、图3及图4所示,根据本发明实施例的基于模型管控的在线数据治理管理方法,该方法包括以下步骤:
S1、利用预设的模型设计标准管理和校验模块对模型设计规则进行管理,实现模型设计时对模型相关属性的设置;
在一个实施例中,所述模型设计规则包括:分层规则定义、分域规则定义、账期类型定义、表命名规则定义、模型英文名称及字段英文名称内容格式及长度规则定义、模型中文名称和字段中文名称非空校验定义及数据偏移量规则定义;
在具体应用时,模型设计标准管理提供对模型设计规则的管理功能,用于模型设计时对模型的相关属性进行设置,这样模型设计时就能通过快速选取的方式设置模型属性,且只允许设置成标准范围内的值,在模型设计完成后,模型的属性值统一,方便使用者对模型的理解;
在一个实施例中,所述模型设计规则包括如下几种:分层规则定义、分域规则定义、账期类型定义、表命名规则定义、模型英文名称及字段英文名称内容格式及长度规则定义、模型中文名称及数据偏移量规则定义;
在具体应用时,分层规则定义:用于定义模型所属的层级,比如:接口层、汇总层、整合层、应用层等,分层新增时包括分层名称、编码、简称信息的录入;
分域规则定义:用于定义模型所属的业务主题域,比如:产品域、财务域、营销域等,分域新增时包括主题域/子域名称、编码、简称信息的录入;
账期类型定义:用于定义模型所属的账期类型,比如:日账、月账、年账等,账期新增时包括账期名称、编码、简称信息的录入;
表命名规则定义:用于定义模型的命名规则,该规则用于模型设计时自动生成模型名称,如规则定义为:${LAYER}_${DOMAIN}_${BODY}_${CYCLE},模型设计时表名就会根据选择的分层、分域、账期类型属性自动生成,例如选择的分层、分域、账期类型对应的编码分别为:DWD、PRD、D,而模型实体名称用户输入了ORDER,那么系统自动生成的模型名称为DWD_PRD_ORDER_D,表命名规则录入时采用文本字符串的方式录入,文本字符串可以插入定义好的占位符,格式为“${xxx}”,生成模型名称时会将占位符替换成对应的编码拼接成表名;
系统支持如下占位符:
${LAYER}:层;
${DOMAIN}:域;
${SUBDOMAIN}:子域;
${CYCLE}:账期类型;
${BODY}:表名中用户输入的部分;
模型英文名称及字段英文名称内容格式及长度规则定义,支持按照系统、分层和分域进行设置不同的规则;
模型中文名称、字段中文名称非空校验定义;
数据偏移量规则定义:用于定义模型数据的偏移量,比如为-1,表示后一个账期可以看到前一个账期的数据,数据偏移量新增时包括名称、编码、描述信息的录入;
所述模型字段库的管理需要有权限的用户才能维护,无权限的用户则需要通过申报的方式录入并提交审核,审核通过后才能加入到模型字段库。
S2、利用预设的模型字段库定义及推荐模块对模型字段库中常用的模型字段进行统一管理,并依据用户输入的模型信息进行字段自动推荐;
如图5所示,在一个实施例中,所述字段的自动推荐利用Elasticsearch工具,基于文本相似度算法进行分析,匹配出相关的字段库的字段供用户选择,同时记录下字段库被引用的记录,推荐字段时按引用次数降序排列;
其中,所述Elasticsearch是基于文本相似度BM25算法实现,首先需要将字段库的信息通过应用程序接口定时更新到Elasticsearch,然后Elasticsearch对字段中文名、字段英文名、数据类型、字段业务口径的信息经过处理,最后将处理后的信息写入反向索引。
在具体应用时,模型字段库管理提供对常用的模型字段进行统一管理,模型设计过程中一般大部分模型的字段都存在相似的字段,如果把这些相似的字段统一管理起来,模型设计时相同语义的字段尽可能引用字段库,这样就只需要从模型字段库中选择业务相似的字段就可以了,不需要再录入新字段相关的内容,从而提升了模型设计效率,设计的模型也方便使用者理解;
随着时间推移,模型字段库的内容会越来越庞大,为了能方便用户使用,字段库需要提供强大的检索能力,模型设计时用户开始不清楚字段库的内容,需要在模型设计时根据用户输入的模型信息进行自动推荐,同时支持快速搜索的方式选取;
字段相似性比较,不能简单的通过文字进行模糊匹配,本发明能通过Elasticsearch(是一个基于ApacheLucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口)工具,基于文本相似度算法进行分析,匹配出相关的字段库的字段供用户选择,同时记录下字段库被引用的记录,推荐字段时按引用次数降序排列;Elasticsearch是基于文本相似度BM25(bm25是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法)算法实现的,首先需要将字段库的信息通过API定时更新到Elasticsearch,Elasticsearch对字段中文名、字段英文名、数据类型、字段业务口径等信息经过处理后,会写入到反向索引;模型设计时通过提取用户录入的字段信息,调用Elasticsearch的API进行检索,检索的结果会按照匹配度从高到低排列,这样就能实现将匹配度高的字段信息推荐给用户。
S3、当模型设计标准及字段库定义完成后,利用预设的向导式设计模块实现对模型的设计;
在一个实施例中,所述当模型设计标准及字段库定义完成后,利用预设的向导式设计模块实现对模型的设计包括以下步骤:
S31、填写表单中的表基本信息,确认填写完成后执行S32;
S32、填写表单中的字段信息,确认填写完成后执行S33;
S33、对模型质量进行检查,模型质量检查确认后执行S34;
S34、对模型进行预览,预览确认后返回S33再次进行修改;
在一个实施例中,所述模型的预览包括表基本信息、表字段基本信息、来源表关系实体联系图及结构化查询语言建表的四种信息预览;
在具体应用时,定义模型设计标准和字段库后,模型设计过程大部分操作只需要通过简单的选择就可以完成,提升了模型设计效率,并且有效保障数据标准的规范性落地,同时模型设计中如果有推广性强的模型标准和字段,可以进行申报,从而不断的完善模型设计标准及字段库;
其中,模型的预览提供四部分的信息预览:表基本信息、表字段基本信息、来源表关系ER(实体联系图)图、建表SQL(结构化查询语言),本页面只支持各类信息的展现,不提供任何数据的编辑功能,对于表和字段的属性编辑在表基本信息和字段信息界面完成。
S4、利用预设的自动化模型检测模块对所有设计的模型进行规范性的检测,分类统计设计不规范的模型生成整改工单,并督促工作人员进行处理;
在一个实施例中,所述利用预设的自动化模型检测模块对所有设计的模型进行规范性的检测包括:
对于强校验的内容,全部通过,对于检查通过采用绿勾提醒用户,对于不通过采用红叉提醒用户,并将检查项保留至数据库;
对于非强校验的内容,进行友好提示并指引用户进行调整,输出规范性检测报告,提供给模型审核人员一个有力的判断依据;
在具体应用时,模型设计完成后,会对模型的规范性进行检测,对于强校验的内容,必须全部通过,检查结果需要中,检查通过和不通过的绿勾和红叉提醒用户,检查项需要保留入数据库;以待模型查看的时候进行复盘,比如:模型或字段中文名不允许为空,以及不能超出定义的长度等;对于非强校验的,需要进行友好提示并指引用户进行调整,比如表名不符合命名规范,字段检测存在和字段库语义相似的字段等,然后输出规范性检测报告,提供给模型审核人员一个有力的判断依据;
同时,系统周期性的对所有设计的模型进行规范性检测,对设计不规范的模型进行分类统计并生成整改工单,督促相关人员处理,从而提升模型设计整体质量。
S5、利用预设的元数据注册模块将模型设计过程中涉及的三类元数据自动注册至元数据统一库,实现元数据的事前管理、事后采集和自动比对。
在一个实施例中,所述三类元数据包括管理元数据、技术元数据及业务元数据,且所述管理元数据、技术元数据及业务元数据均通过接口方式自动注册至所述元数据统一库中;
在具体应用时,模型设计过程中,涉及了管理、技术、业务三大类的元数据,这三类元数据对数据治理极为重要,如数据onwer(所有者)、加工口径,表或字段的中文说明等,可通过接口方式自动注册至元数据统一库,满足元数据事前管理,完善元数据事后采集和自动比对的手段。
为了更好地理解本发明的上述技术方案,以下对本发明的一个具体实施例进行举例说明。
使用场景:
当业务上需要在生产环境新增或变更模型时,模型设计发起人员通过录入需求描述信息发起模型设计工单,并指派给模型设计人员;
模型设计人员接到工单后,开始进行模型设计,通过新增模型或从生产环境导入已有模型进行变更,设计过程中会根据录入的字段信息自动推荐字段库已有的字段,设计完成后后台会统一对模型进行规范验证,验证通过后才允许将工单提交给模型管理人员审核;
模型管理人员根据模型规范验证情况及对模型其它信息的核查,审核通过后流转回模型设计工单发起人员;
模型设计发起人员核对模型设计没问题后,向上线管理人员提交上线申请;
上线管理人员进行审核通过后执行上线操作,后台调用生产环境接口进行建表或更新表操作,并记录下模型变更的历史版本信息。
根据本发明的另一个实施例,如图2所示,还提供了一种基于模型管控的在线数据治理管理系统,该系统包括:
模型设计标准管理和校验模块1,用于对模型设计规则进行管理,实现模型设计时对模型相关属性的设置;
模型字段库定义及推荐模块2,用于对模型字段库中常用的模型字段进行统一管理,并依据用户输入的模型信息进行字段自动推荐;
向导式设计模块3,用于当模型设计标准及字段库定义完成后实现对模型的设计;
自动化模型检测模块4,用于对所有设计的模型进行规范性的检测,分类统计设计不规范的模型生成整改工单,并督促工作人员进行处理;
元数据注册模块5,用于将模型设计过程中涉及的三类元数据自动注册至元数据统一库,实现元数据的事前管理、事后采集和自动比对。
综上所述,借助于本发明的上述技术方案,通过向导式模型设计:对模型的设计和变更的管控流程提供在线向导式的操作,支持主数据引用和ER图设计;自动化规范检测:支持模型设计标准的灵活配置功能,从源头对数据模型规范进行自动化检测,自动输出检测报告;字段智能推荐:提供模型字段库管理,模型设计时,通过对用户录入的信息进行文本相似度分析,实现海量字段的智能推荐功能;元数据事前管理:在元数据自动采集的基础上,将管理、技术、业务三类元数据进行事前注册,为数据治理事前管控提供强有力手段,减少大数据生产过程中对模型的违规新增、违规修改、违规删除的事后治理;字段相似性比较,不能简单的通过文字进行模糊匹配,本发明能通过Elasticsearch工具,基于文本相似度算法进行分析,匹配出相关的字段库的字段供用户选择,同时记录下字段库被引用的记录,推荐字段时按引用次数降序排列,Elasticsearch是基于文本相似度BM25算法实现的,首先需要将字段库的信息通过API定时更新到Elasticsearch,Elasticsearch对字段中文名、字段英文名、数据类型、字段业务口径等信息经过处理后,会写入到反向索引,模型设计时通过提取用户录入的字段信息,调用Elasticsearch的API(就是操作系统留给应用程序的一个调用接口,应用程序通过调用操作系统的API而使操作系统去执行应用程序的命令)进行检索,检索的结果会按照匹配度从高到低排列,这样就能实现将匹配度高的字段信息推荐给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于模型管控的在线数据治理管理方法,其特征在于,该方法包括以下步骤:
S1、利用预设的模型设计标准管理和校验模块对模型设计规则进行管理,实现模型设计时对模型相关属性的设置;
S2、利用预设的模型字段库定义及推荐模块对模型字段库中常用的模型字段进行统一管理,并依据用户输入的模型信息进行字段自动推荐;
S3、当模型设计标准及字段库定义完成后,利用预设的向导式设计模块实现对模型的设计;
S4、利用预设的自动化模型检测模块对所有设计的模型进行规范性的检测,分类统计设计不规范的模型生成整改工单,并督促工作人员进行处理;
S5、利用预设的元数据注册模块将模型设计过程中涉及的三类元数据自动注册至元数据统一库,实现元数据的事前管理、事后采集和自动比对。
2.根据权利要求1所述的一种基于模型管控的在线数据治理管理方法,其特征在于,所述模型设计规则包括:分层规则定义、分域规则定义、账期类型定义、表命名规则定义、模型英文名称及字段英文名称内容格式及长度规则定义、模型中文名称和字段中文名称非空校验定义及数据偏移量规则定义。
3.根据权利要求1所述的一种基于模型管控的在线数据治理管理方法,其特征在于,所述模型字段库的管理需要有权限的用户才能维护,无权限的用户则需要通过申报的方式录入并提交审核,审核通过后才能加入到模型字段库。
4.根据权利要求3所述的一种基于模型管控的在线数据治理管理方法,其特征在于,所述字段的属性包括:数据库类型、字段中文名、字段英文名、数据类型、字段长度精度、所属主题域、字段业务口径、是否非空及关联主数据编码。
5.根据权利要求1所述的一种基于模型管控的在线数据治理管理方法,其特征在于,所述字段的自动推荐利用Elasticsearch工具,基于文本相似度算法进行分析,匹配出相关的字段库的字段供用户选择,同时记录下字段库被引用的记录,推荐字段时按引用次数降序排列;
其中,所述Elasticsearch是基于文本相似度BM25算法实现,首先需要将字段库的信息通过应用程序接口定时更新到Elasticsearch,然后Elasticsearch对字段中文名、字段英文名、数据类型、字段业务口径的信息经过处理,最后将处理后的信息写入反向索引。
6.根据权利要求1所述的一种基于模型管控的在线数据治理管理方法,其特征在于,所述当模型设计标准及字段库定义完成后,利用预设的向导式设计模块实现对模型的设计包括以下步骤:
S31、填写表单中的表基本信息,确认填写完成后执行S32;
S32、填写表单中的字段信息,确认填写完成后执行S33;
S33、对模型质量进行检查,模型质量检查确认后执行S34;
S34、对模型进行预览,预览确认后返回S33再次进行修改。
7.根据权利要求6所述的一种基于模型管控的在线数据治理管理方法,其特征在于,所述模型的预览包括表基本信息、表字段基本信息、来源表关系实体联系图及结构化查询语言建表的四种信息预览。
8.根据权利要求1所述的一种基于模型管控的在线数据治理管理方法,其特征在于,所述利用预设的自动化模型检测模块对所有设计的模型进行规范性的检测包括:
对于强校验的内容,全部通过,对于检查通过采用绿勾提醒用户,对于不通过采用红叉提醒用户,并将检查项保留至数据库;
对于非强校验的内容,进行友好提示并指引用户进行调整,输出规范性检测报告,提供给模型审核人员一个有力的判断依据。
9.根据权利要求1所述的一种基于模型管控的在线数据治理管理方法,其特征在于,所述三类元数据包括管理元数据、技术元数据及业务元数据,且所述管理元数据、技术元数据及业务元数据均通过接口方式自动注册至所述元数据统一库中。
10.一种基于模型管控的在线数据治理管理系统,用于实现权利要求1-9中任一项所述的基于模型管控的在线数据治理管理方法的步骤,其特征在于,该系统包括:
模型设计标准管理和校验模块,用于对模型设计规则进行管理,实现模型设计时对模型相关属性的设置;
模型字段库定义及推荐模块,用于对模型字段库中常用的模型字段进行统一管理,并依据用户输入的模型信息进行字段自动推荐;
向导式设计模块,用于当模型设计标准及字段库定义完成后实现对模型的设计;
自动化模型检测模块,用于对所有设计的模型进行规范性的检测,分类统计设计不规范的模型生成整改工单,并督促工作人员进行处理;
元数据注册模块,用于将模型设计过程中涉及的三类元数据自动注册至元数据统一库,实现元数据的事前管理、事后采集和自动比对。
CN202110878703.4A 2021-08-02 2021-08-02 一种基于模型管控的在线数据治理管理方法和系统 Pending CN113342786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878703.4A CN113342786A (zh) 2021-08-02 2021-08-02 一种基于模型管控的在线数据治理管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878703.4A CN113342786A (zh) 2021-08-02 2021-08-02 一种基于模型管控的在线数据治理管理方法和系统

Publications (1)

Publication Number Publication Date
CN113342786A true CN113342786A (zh) 2021-09-03

Family

ID=77480518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878703.4A Pending CN113342786A (zh) 2021-08-02 2021-08-02 一种基于模型管控的在线数据治理管理方法和系统

Country Status (1)

Country Link
CN (1) CN113342786A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114185869A (zh) * 2021-12-03 2022-03-15 四川新网银行股份有限公司 一种基于数据标准的数据模型稽核的方法
CN114969115A (zh) * 2022-05-10 2022-08-30 兴业银行股份有限公司 基于标准化元数据体系的数据管理方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355303A (zh) * 2016-08-15 2017-01-25 上海新炬网络技术有限公司 一种数据模型自动化评审系统
CN109376219A (zh) * 2018-10-31 2019-02-22 北京锐安科技有限公司 文本属性字段的匹配方法、装置、电子设备及存储介质
CN111190881A (zh) * 2019-11-13 2020-05-22 深圳市华傲数据技术有限公司 一种数据治理方法和系统
CN111767266A (zh) * 2020-05-15 2020-10-13 杭州传化智能制造科技有限公司 实体联系模型设计方法、装置、计算机设备和存储介质
CN112699175A (zh) * 2021-01-15 2021-04-23 广州汇智通信技术有限公司 一种数据治理系统及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355303A (zh) * 2016-08-15 2017-01-25 上海新炬网络技术有限公司 一种数据模型自动化评审系统
CN109376219A (zh) * 2018-10-31 2019-02-22 北京锐安科技有限公司 文本属性字段的匹配方法、装置、电子设备及存储介质
CN111190881A (zh) * 2019-11-13 2020-05-22 深圳市华傲数据技术有限公司 一种数据治理方法和系统
CN111767266A (zh) * 2020-05-15 2020-10-13 杭州传化智能制造科技有限公司 实体联系模型设计方法、装置、计算机设备和存储介质
CN112699175A (zh) * 2021-01-15 2021-04-23 广州汇智通信技术有限公司 一种数据治理系统及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DATABLAU国产数据库建模工具: "如何规范化数据库模型设计", 《HTTPS://BLOG.CSDN.NET/WEIXIN_39971741/ARTICLE/DETAILS/106822966》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114185869A (zh) * 2021-12-03 2022-03-15 四川新网银行股份有限公司 一种基于数据标准的数据模型稽核的方法
CN114969115A (zh) * 2022-05-10 2022-08-30 兴业银行股份有限公司 基于标准化元数据体系的数据管理方法和系统

Similar Documents

Publication Publication Date Title
CN108089843B (zh) 一种智能化的银行企业级需求管理系统
CN109522312B (zh) 一种数据处理方法、装置、服务器和存储介质
CN102067106A (zh) 通过确定子节点和父节点的度量值进行的数据质量跟踪
CN112199433A (zh) 一种用于城市级数据中台的数据治理系统
US10754901B2 (en) Analytics of electronic content management systems using a staging area database
CN111125068A (zh) 一种元数据治理方法和系统
CN104573053B (zh) 一种基于xml的配置项模板动态定制方法
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN113342786A (zh) 一种基于模型管控的在线数据治理管理方法和系统
Vajk et al. Automatic NoSQL schema development: A case study
CN112506892A (zh) 一种基于元数据技术的指标溯源管理系统
CN106651092A (zh) 可配置的数据变更流程化监管方法
CN108829651A (zh) 一种公文处理的方法、装置、终端设备及存储介质
CN116541372A (zh) 一种数据资产治理方法及系统
Serbout et al. From openapi fragments to api pattern primitives and design smells
Suárez-Cabal et al. MDICA: Maintenance of data integrity in column-oriented database applications
CN109636303B (zh) 一种半自动提取和结构化文档信息的存储方法及系统
US20240036890A1 (en) System and method of a modular framework for configuration and reuse of web components
JP2019537171A (ja) 警告メッセージを効率的に配信するためのシステム及び方法
CN113722352A (zh) 一种报审价方案的智能数据校验方法、系统及存储介质
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
Hinrichs et al. An ISO 9001: 2000 Compliant Quality Management System for Data Integration in Data Warehouse Systems.
CN116228402A (zh) 一种金融征信特征仓库技术支持系统
CN116578614A (zh) 一种管道设备的数据管理方法、系统、介质及设备
CN108205564B (zh) 知识体系构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903