CN110069633A - 大数据治理中实现辅助制定数据标准的系统及方法 - Google Patents

大数据治理中实现辅助制定数据标准的系统及方法 Download PDF

Info

Publication number
CN110069633A
CN110069633A CN201910333037.9A CN201910333037A CN110069633A CN 110069633 A CN110069633 A CN 110069633A CN 201910333037 A CN201910333037 A CN 201910333037A CN 110069633 A CN110069633 A CN 110069633A
Authority
CN
China
Prior art keywords
metadata
data
task
analysis
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910333037.9A
Other languages
English (en)
Other versions
CN110069633B (zh
Inventor
魏明
张睿
王克强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PRIMETON INFORMATION TECHNOLOGY Co Ltd
Original Assignee
PRIMETON INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PRIMETON INFORMATION TECHNOLOGY Co Ltd filed Critical PRIMETON INFORMATION TECHNOLOGY Co Ltd
Priority to CN201910333037.9A priority Critical patent/CN110069633B/zh
Publication of CN110069633A publication Critical patent/CN110069633A/zh
Application granted granted Critical
Publication of CN110069633B publication Critical patent/CN110069633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据治理中实现辅助制定数据标准的系统,包括数据获取模块,用于从第三方数据源中获取所需的元数据;任务创建模块,用于创建对表类型元数据和字段类型元数据的分析任务,对整个任务过程进行监控并记录日志;智能分析模块,用于实现元数据的分词和聚类分析;结果存储及展示模块,用于将信息存入数据库中,通过列表展示元数据信息。本发明还涉及一种基于该系统实现大数据治理中的数据标准辅助制定的方法。采用了该系统及方法,实现了数据源的元数据信息的获取,并支持创建任务及对整个分析过程监控记录,辅助制定该类元数据的数据标准,从而大大降低人力成本,解决了目前人工梳理数据标准不全面,效率低的问题。

Description

大数据治理中实现辅助制定数据标准的系统及方法
技术领域
本发明涉及数据领域,尤其涉及大数据治理领域,具体是指一种大数据治理中实现辅助制定数据标准的系统及方法。
背景技术
随着全球信息化和数字化的发展,各行各业都在进行或即将进行数据治理,根据国际及国内对数据治理的主流理解,数据标准是数据治理中非常重要的组成部分。
但是,在实际数据治理工作开展中,面对一些多年前的存量系统以及建设不规范的系统,没有文档及相关记录描述各系统之间数据的关联性同时针对行业内各厂商已经存在的不同系统数据,要制定小到企业、大到行业的数据标准,无论是企业还是平台建设厂商都面临着重重困难,在数据标准的梳理及制定上耗费大量的人力物力财力,而结果往往却不尽人意。
在数据治理领域,数据标准的制定是非常重要的工作。一般来说,在实际项目实施过程中,数据治理领域的数据标准分为数据项标准及代码项标准,二者之间存在关联。数据标准来源于企业内部数据,同时需要参考国家标准、省市标准、行业标准及企业内部标准进行数据标准的制定,目前大多借由Excel模版,通过人工方式进行梳理数据的关联性和制定数据标准。
针对数据标准的制定,现有技术通常是相关人员参照国家标准、省市标准、行业标准及企业内部标准以及针对企业各部门的调研结果,根据企业数据需求,进行标准的制定。
首先,标准梳理人员制定数据标准的Excel模版。
其次,根据企业的机构职责、系统、数据库等信息,对业务部门及技术部门进行调研。
最后,根据调研结果,梳理企业数据标准,在数据标准梳理过程中,参考国家标准、省市标准、行业标准及企业内部标准。
现有的技术及方法虽然实现了数据标准的制定,但是在大数据时代,特别是面临大量数据的时候,单纯依靠人工梳理往往费时费力,效果也不尽人意。
企业或者政府的数据错综复杂,涉及的行业、领域较多,而各个行业的数据又有其特有的特点,单纯依靠人工梳理,难免会有所遗漏,造成制定的数据标准的缺失或者数据标准的错误,最终将影响数据治理的效果,甚至会影响到企业业务的开展。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足效率高、人力成本低、适用范围广泛的大数据治理中实现辅助制定数据标准的系统及方法。
为了实现上述目的,本发明的大数据治理中实现辅助制定数据标准的系统及方法如下:
该大数据治理中实现辅助制定数据标准的系统,其主要特点是,所述的系统包括:
数据获取模块,用于从第三方数据源中获取所需的元数据;
任务创建模块,与所述的数据获取模块相连接,用于创建对表类型元数据和字段类型元数据的分析任务,对整个任务过程进行监控并记录日志;
智能分析模块,与所述的任务创建模块相连接,用于实现元数据的分词和聚类分析;
结果存储及展示模块,与所述的智能分析模块相连接,用于将信息存入数据库中,通过列表展示元数据信息。
较佳地,所述的任务创建模块创建的任务内容包括任务名称、任务状态、任务开始时间、任务结束时间和任务说明信息。
较佳地,所述的任务状态包括“开始”、“异常”、“结束”三种状态。
较佳地,所述的智能分析模块包括:
表类型元数据分析单元,与所述的任务创建模块相连接,用于对表类型元数据进行分析;
字段类型元数据分析单元,与所述的任务创建模块相连接,用于对字段类型元数据进行分析。
较佳地,所述的结果存储及展示模块包括:
存储单元,与所述的智能分析模块相连接,用于将表类型元数据和字段类型元数据的分析结果存储到数据库中;
查询单元,与所述的智能分析模块相连接,用于查看对表类型元数据和字段类型元数据的分析结果;
展示单元,与所述的智能分析模块相连接,用于通过字符云图方式展现分词结果的关联性,并通过列表的方式展现同类元数据的元数据信息。
较佳地,所述的结果存储及展示模块存储的信息包括拆分结果、拆分类型和所拆分信息的上下文环境。
该基于上述系统实现大数据治理中的数据标准辅助制定的方法,其主要特点是,所述的方法包括以下步骤:
(1)所述的数据获取模块获取元数据;
(2)所述的任务创建模块创建分析任务,并监控任务过程;
(3)所述的智能分析模块接收任务信息,并分析数据;
(4)所述的结果存储及展示模块对分析结果进行存储及展示。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)判断是否为表类型元数据,如果是,继续步骤(1-3.2);否则,元数据为字段类型元数据,继续步骤(2-3.2);
(1-3.2)查询分析范围内的表类型元数据,以每50条数据为一个线程进行处理分析,并将分析处理进度信息输入日志;
(1-3.3)判断表类型元数据信息是否为英文或中文,如果是,则将表名按照下划线进行拆分,并缓存表类型的实例ID;否则,将结果输入日志,退出步骤;
(1-3.4)判断表类型元数据信息是否为中文,如果是,则将表描述名中的中文按照动词和名词分词;否则,将表描述名中的英文按照英语单词进行分词;
(2-3.2)查询分析范围内的字段类型元数据,以每50条数据为一个线程进行处理分析,并将分析处理进度信息输入日志;
(2-3.3)判断字段类型元数据信息是否为英文或中文,如果是,则将字段名按照下划线进行拆分,并缓存字段类型实例ID;否则,将结果输入日志,退出步骤;
(2-3.4)判断字段类型元数据信息是否为中文,如果是,则将字段描述名中的中文按照动词和名词分词;否则,将字段描述名中的英文按照英语单词进行分词。
采用了本发明的大数据治理中实现辅助制定数据标准的系统及方法,实现了数据源的元数据信息的获取,并支持创建任务及对整个分析过程监控记录,通过分词再聚类的分析方法实现对表类型元数据和字段类型元数据的分析,通过字符云图方式展现分词结果的关联性,辅助梳理数据的关联性,以及通过列表的方式展现同类元数据的元数据信息,辅助制定该类元数据的数据标准,从而大大降低人力成本,解决了目前人工梳理数据标准不全面,效率低的问题。
附图说明
图1为本发明的大数据治理中实现辅助制定数据标准的系统的结构示意图。
图2为本发明的大数据治理中实现辅助制定数据标准的系统的任务信息构成示意图。
图3为本发明的大数据治理中实现辅助制定数据标准的系统的分析任务的多线程并行示意图。
图4为本发明的实现大数据治理中的数据标准辅助制定的方法的表类型元数据的分析流程示意图。
图5为本发明的实现大数据治理中的数据标准辅助制定的方法的字段类型元数据的分析流程示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该大数据治理中实现辅助制定数据标准的系统,其中包括:
数据获取模块,用于从第三方数据源中获取所需的元数据;
任务创建模块,与所述的数据获取模块相连接,用于创建对表类型元数据和字段类型元数据的分析任务,对整个任务过程进行监控并记录日志;
智能分析模块,与所述的任务创建模块相连接,用于实现元数据的分词和聚类分析;
结果存储及展示模块,与所述的智能分析模块相连接,用于将信息存入数据库中,通过列表展示元数据信息。
作为本发明的优选实施方式,所述的任务创建模块创建的任务内容包括任务名称、任务状态、任务开始时间、任务结束时间和任务说明信息。
作为本发明的优选实施方式,所述的任务状态包括“开始”、“异常”、“结束”三种状态。
作为本发明的优选实施方式,所述的智能分析模块包括:
表类型元数据分析单元,与所述的任务创建模块相连接,用于对表类型元数据进行分析;
字段类型元数据分析单元,与所述的任务创建模块相连接,用于对字段类型元数据进行分析。
作为本发明的优选实施方式,所述的结果存储及展示模块包括:
存储单元,与所述的智能分析模块相连接,用于将表类型元数据和字段类型元数据的分析结果存储到数据库中;
查询单元,与所述的智能分析模块相连接,用于查看对表类型元数据和字段类型元数据的分析结果;
展示单元,与所述的智能分析模块相连接,用于通过字符云图方式展现分词结果的关联性,并通过列表的方式展现同类元数据的元数据信息。
作为本发明的优选实施方式,所述的结果存储及展示模块存储的信息包括拆分结果、拆分类型和所拆分信息的上下文环境。
本发明的该基于上述系统实现大数据治理中的数据标准辅助制定的方法,其中包括以下步骤:
(1)所述的数据获取模块获取元数据;
(2)所述的任务创建模块创建分析任务,并监控任务过程;
(3)所述的智能分析模块接收任务信息,并分析数据;
(3.1)判断是否为表类型元数据,如果是,继续步骤(1-3.2);否则,元数据为字段类型元数据,继续步骤(2-3.2);
(1-3.2)查询分析范围内的表类型元数据,以每50条数据为一个线程进行处理分析,并将分析处理进度信息输入日志;
(1-3.3)判断表类型元数据信息是否为英文或中文,如果是,则将表名按照下划线进行拆分,并缓存表类型的实例ID;否则,将结果输入日志,退出步骤;
(1-3.4)判断表类型元数据信息是否为中文,如果是,则将表描述名中的中文按照动词和名词分词;否则,将表描述名中的英文按照英语单词进行分词;
(2-3.2)查询分析范围内的字段类型元数据,以每50条数据为一个线程进行处理分析,并将分析处理进度信息输入日志;
(2-3.3)判断字段类型元数据信息是否为英文或中文,如果是,则将字段名按照下划线进行拆分,并缓存字段类型实例ID;否则,将结果输入日志,退出步骤;
(2-3.4)判断字段类型元数据信息是否为中文,如果是,则将字段描述名中的中文按照动词和名词分词;否则,将字段描述名中的英文按照英语单词进行分词;
(4)所述的结果存储及展示模块对分析结果进行存储及展示。
本发明的具体实施方式中,本发明涉及一种在大数据治理中实现辅助制定数据标准的系统与方法。随着信息化和数字化的发展,各行各业都在进行或即将进行数据治理,而在DAMA体系中,又以元数据为抓手进行数据的治理为主流。
现在大多借由Excel通过人工方式梳理数据的关联性和制定数据标准。但是对于存量系统以及建设不规范的系统,没有文档及相关记录描述各系统之间数据的关联性,同时针对各行业各厂商已经存在的不同系统数据,要制定小到企业、大到行业的数据标准,现有的方式既费时也费力。
本发明即是针对元数据名称及描述进行分词再聚类分析,通过字符云图方式展现分词结果的关联性,辅助梳理数据的关联性,以及通过列表的方式展现同类元数据的元数据信息,辅助制定该类元数据的数据标准,从而大大降低人力成本,提升效率。
本发明适用于数据治理领域辅助数据标准的制定。在DAMA体系中,以元数据为抓手进行数据治理为主流。
本发明通过选取记录有元数据信息的数据源从而获取需要分析的数据源的元数据信息,通过构建执行任务对所获取的元数据进行分词再聚类分析,通过字符云图方式展现分词结果的关联性,辅助梳理数据的关联性,同时通过列表的方式展现同类元数据的元数据信息,辅助制定该类元数据的数据标准,从而大大降低人力成本,提升效率,保障数据治理项目的顺利落地。
本技术方案提供大数据治理中实现辅助制定数据标准的系统与方法,包括数据获取、任务创建、智能分析及结果存储展示等模块及功能。
在数据治理中,元数据是核心,数据标准的制定依赖于元数据,因此本技术方案首先选取需要分析的并且记录有元数据信息的数据源创建分析任务,其次按照元数据的类型执行分析任务,并将分析结果存储到数据库中,最后可查看分析结果,从而实现辅助数据标准制定的目标,通过本方案可以解决目前人工梳理数据标准不全面,效率低的问题。
数据获取模块支持从第三方数据源中获取所需的元数据,如从Oracle数据库、MySQL数据以及Hadoop等数据源获取所需的元数据信息,元数据信息包含元数据代码、元数据名称、元数据类型(表或字段)、所属父实例ID、字段长度、字段类型、字段是否为主键等,在元数据采集过程中系统会赋予元数据唯一ID,并根据采集的信息生成上下文路径信息。任务创建模块根据获取的元数据信息,创建对表类型元数据及字段类型元数据的分析任务,并对整个任务过程进行监控及记录日志。智能分析模块支持多线程并发执行,实现元数据的分词、聚类分析,最终将拆分结果、拆分类型、所拆分信息的上下文环境等信息存入数据库,通过列表的方式展示同类元数据的元数据信息,从而实现辅助该类元数据的数据标准制定目标。
下面分别详细描述数据获取、任务创建、智能分析及结果存储展示等模块的构成和原理,如图1所示。
一、数据获取模块。
数据获取模块通过内置适配器,支持从传统关系型数据库获取元数据,如Oracle、MySQL数据库,也支持从Hadoop获取元数据,根据数据治理中数据标准的特性,选取需要分析的数据源包括以下元数据信息:
(1)元数据代码;
(2)元数据名称;
(3)元数据类型(表或字段);
(4)所属父实例ID;
(5)字段长度;
(6)字段类型;
(7)字段是否为主键。
在元数据采集过程中系统会赋予元数据唯一ID,并根据采集的信息生成上下文路径。
二、任务创建模块。
如图2所示,通过任务创建模块可以创建分析任务,任务本身的内容包含任务名称、任务状态、任务开始时间、任务结束时间及任务说明信息,其中任务名称由用户自定义,任务开始时间为当前时间,任务说明信息为对本次任务的描述,任务状态由系统自动记录,分为“开始”、“异常”、“结束”三种状态。
每个分析任务由多个线程并发进行,以多线程的方式从线程池中获取线程。通过任务对表类型元数据和字段类型元数据分析进行管控,当线程池中正在执行的线程数为0时,则记录任务状态为“结束”,结束时间为当前时间,并将结果存入日志中;如果执行分析过程中出现异常情况,则记录任务状态为“异常”,结束时间为当前时间,任务信息为异常信息,并将结果存入日志中,如图3所示。
三、智能分析模块。
智能分析模块主要是在任务的调度及监控下实现对表类型元数据和字段类型元数据的分析,并将分析结果通过存储及展示模块存入数据库并展示出来,从而辅助数据标准的制定,下面分别描述对表类型元数据和字段类型元数据的分析步骤。
对表类型元数据的分析步骤:
(1)查询出分析范围内的表类型元数据;
(2)将查询出的表类型元数据按照50条一个线程进行处理分析;
(3)在整个分析过程中,将分析处理进度信息输入日志中;
(4)判断表类型元数据信息是否为英文或中文,如果不是,则终止分析,并结果输入日志,如果表类型元数据信息为中文或者英文,则继续执行5-7步骤;
(5)将表名按照下划线进行拆分;
(6)缓存表类型的实例ID;
(7)将表描述名中的中文按照动词、名词分词,英文按照英语单词进行分词。
以上步骤如图4所示。
对字段类型元数据的分析步骤:
(1)查询出分析范围内的字段类型元数据;
(2)将查询出的字段类型元数据按照50条一个线程进行处理分析;
(3)在整个分析过程中,将分析处理进度信息输入日志中;
(4)判断字段类型元数据信息是否为英文或中文,如果不是,则终止分析,并将结果输入日志,如果字段类型元数据信息为中文或者英文,则继续执行5-6步骤;
(5)将字段名按照下划线进行拆分;
(6)缓存字段类型实例ID;
(7)将字段描述名中的中文按照动词、名词分词,英文按照英语单词进行分词。
以上步骤如图5所示。
四、结果存储及展示模块。
结果存储及展示模块将表类型元数据及字段类型元数据的分析结果存储到数据库中,存储的信息包括拆分结果、拆分类型及所拆分信息的上下文环境。
通过结果存储及展示模块,可以查看对表类型元数据和字段类型元数据的分析结果,在整个查询过程中,支持查询出分析范围内的字段类型元数据和表类型元数据的分析结果,同时为了保证查询效率,在查询时按照每50条一个线程进行处理分析,整个查询过程自动记录到日志中。
结果存储及展示模块通过字符云图方式展现分词结果的关联性,辅助梳理数据的关联性,以及通过列表的方式展现同类元数据的元数据信息,辅助制定该类元数据的数据标准,从而大大降低人力成本,从而提升效率。
下面以某Oracle数据库中的数据为例,说明本发明在大数据治理中辅助制定数据标准的应用。Oracle数据库名为TBS_DGS_V7_CP,其中包含两张表,分别是“客户基本信息表”(表名为:CD_CLIENT_INFO)和“项目基本信息表”(表名为:CD_PROJ_INFO),其中“客户基本信息表”的表描述信息为:保存客户的相关信息,包含客户名称、地址组织机构代码、客户参与的项目,“项目基本信息表”的表描述信息为:保存项目的相关信息,包含项目名称、项目状态、项目规模、项目客户信息。
客户基本信息表(CD_CLIENT_INFO)的表结构如下:
字段名 描述 字段类型 字段长度 是否为主键
CLITNO 客户号 VARchar2 12 Y
CLIT-PROJ-NAME 与客户有关的项目 VARchar2 12 N
CLITADDR 地址 VARchar2 100 N
CLITCATESIGNCOPY 客户类别 VARchar2 50 N
CLITPRIOSIGN 客户优先等级 VARchar2 10 N
LICEID 借款人组织机构代码 VARchar2 40 N
LASTMODITIME 最后修改时间 DATE - N
项目基本信息表(表名为:CD_PROJ_INFO)的表结构如下:
字段名 描述 字段类型 字段长度 是否为主键
PROJNO 项目编号 VARchar2 12 Y
PROJNAME 项目名称 VARchar2 200 N
PROJ-CLIT-NAME 与项目有关的客户 VARchar2 12 N
BRANNO 项目管理机构 VARchar2 6 N
SCALESIGN 项目规模 VARchar2 8 N
PROJCAPIAMT 项目开工日期 DATE - N
PROJCAPIAMTUSD 项目状态 VARchar2 2 N
CONSISTSIGN 项目建设地区域代码 VARchar2 2 N
按照现有的数据标准制定方法,需要通过人工梳理的方式,将数据表导出,并进行分析及处理,这样方法在面对数据量较少的时候还可行,但是当数据量较大时,通过人工梳理表间关系及元数据信息非常费时费力,而且还容易造成数据的遗漏,影响标准的全面性及数据治理的效果。
下面将按照本发明进行元数据的分析,实现表间关系自动构建及表类型元数据和字段类型元数据的获取从而辅助制定数据标准。整个实施过程分为五个部分。
一、通过数据获取模块获取元数据。
数据获取模块内置JDBC驱动采集适配器,支持从Oracle数据库中获取元数据信息。
1、获取的“客户基本信息表”元数据信息如下:
A:“客户基本信息表”表类型元数据信息:
在获取“客户基本信息表”表类型元数据后自动分配唯一8位ID,该ID随机生成,并根据采集的信息生成上下文路径信息。
完整的“客户基本信息表”表类型元数据信息如下:
B:“客户基本信息表”字段类型元数据信息:
其中父实例ID为“客户基本信息表”表类型元数据ID。
在获取“客户基本信息表”字段类型元数据后自动分配唯一18位ID,该ID随机生成,并根据采集的信息生成上下文路径。
完整的“客户基本信息表”字段类型元数据信息如下:
2、获取的“项目基本信息表”元数据信息如下:
A:“项目基本信息表”表类型元数据信息:
在获取“项目基本信息表”表类型元数据后自动分配唯一8位ID,该ID随机生成,并根据采集的信息生成上下文路径。
完整的“项目基本信息表”表类型元数据信息如下:
B:“项目基本信息表”字段类型元数据信息:
其中父实例ID为“项目基本信息表”表类型元数据ID。
在获取“项目基本信息表”字段类型元数据后自动分配唯一的18位ID,该ID随机生成,并根据采集的信息生成上下文路径信息。
完整的“项目基本信息表”字段类型元数据信息如下:
二、通过创建任务模块创建分析任务。
针对Oracle数据库TBS_DGS_V7_CP创建分析任务,任务名称为分析“TBS_DGS_V7_CP库表字段元数据及关联关系”,任务开始后状态置为“开始”,开始时间为系统当前时间。
任务开始后自动启动分析。
三、智能分析模块接收到任务信息,开始分析数据。
智能分析模块接收到任务后,将按照50条数据一个线程对“客户基本信息表”和“项目基本信息表”的表类型元数据和字段类型元数据进行分析。
1、对表类型元数据进行分析。由于示例中的数据量较少,因此分析模块启用了一个线程,将表名按照下划线进行拆分,缓存表类型的实例ID,将表描述名中的中文按照动词、名词分词,当线程数为0时,则任务状态为“完成”,整个分析处理进度自动存入日志中。
a.对“客户基本信息表”的分析结果
b.对“项目基本信息表”的分析结果
2、对字段类型元数据进行分析。由于示例中的数据量较少,因此分析模块启用了一个线程,将字段名按照下划线进行拆分,缓存字段类型的实例ID,将字段描述名中的中文按照动词、名词分词,当线程数为0时,则任务状态为“完成”,整个分析处理进度自动存入日志中。由于字段较多,因此取其中一个字段作为示例。
a.对“客户基本信息表”中的字段分析结果
实例ID 拆分结果1 拆分结果2 拆分结果3 分词结果
DBV10F4PC3SJ3RYuSY CLIT PROJ NAME 客户、有关、项目
b.对“项目基本信息表”中的字段分析结果
实例ID 拆分结果1 拆分结果2 拆分结果3 分词结果
iL2Cy3tS8ulYcImZwd PROJ CLIT NAME 项目、有关、客户
四、最后可以通过结果存储及展示对分析的结果进行存储及展示。
结果存储及展示模块将第三步中的分析结果存储到数据库中,存储的信息包括拆分结果、拆分类型及所拆分信息的上下文环境。
最终的存储结果如下所示:
最后可以通过SQL对分析结果进行查询并通过echarts等第三方工具以字符云图方式展现分词结果的关联性,辅助梳理数据的关联性,以及通过列表的方式展现同类元数据的元数据信息,辅助制定该类元数据的数据标准。
采用了本发明的大数据治理中实现辅助制定数据标准的系统及方法,实现了数据源的元数据信息的获取,并支持创建任务及对整个分析过程监控记录,通过分词再聚类的分析方法实现对表类型元数据和字段类型元数据的分析,通过字符云图方式展现分词结果的关联性,辅助梳理数据的关联性,以及通过列表的方式展现同类元数据的元数据信息,辅助制定该类元数据的数据标准,从而大大降低人力成本,解决了目前人工梳理数据标准不全面,效率低的问题。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (8)

1.一种大数据治理中实现辅助制定数据标准的系统,其特征在于,所述的系统包括:
数据获取模块,用于从第三方数据源中获取所需的元数据;
任务创建模块,与所述的数据获取模块相连接,用于创建对表类型元数据和字段类型元数据的分析任务,对整个任务过程进行监控并记录日志;
智能分析模块,与所述的任务创建模块相连接,用于实现元数据的分词和聚类分析;
结果存储及展示模块,与所述的智能分析模块相连接,用于将信息存入数据库中,通过列表展示元数据信息。
2.根据权利要求1所述的大数据治理中实现辅助制定数据标准的系统,其特征在于,所述的任务创建模块创建的任务内容包括任务名称、任务状态、任务开始时间、任务结束时间和任务说明信息。
3.根据权利要求2所述的大数据治理中实现辅助制定数据标准的系统,其特征在于,所述的任务状态包括“开始”、“异常”、“结束”三种状态。
4.根据权利要求1所述的大数据治理中实现辅助制定数据标准的系统,其特征在于,所述的智能分析模块包括:
表类型元数据分析单元,与所述的任务创建模块相连接,用于对表类型元数据进行分析;
字段类型元数据分析单元,与所述的任务创建模块相连接,用于对字段类型元数据进行分析。
5.根据权利要求1所述的大数据治理中实现辅助制定数据标准的系统,其特征在于,所述的结果存储及展示模块包括:
存储单元,与所述的智能分析模块相连接,用于将表类型元数据和字段类型元数据的分析结果存储到数据库中;
查询单元,与所述的智能分析模块相连接,用于查看对表类型元数据和字段类型元数据的分析结果;
展示单元,与所述的智能分析模块相连接,用于通过字符云图方式展现分词结果的关联性,并通过列表的方式展现同类元数据的元数据信息。
6.根据权利要求1所述的大数据治理中实现辅助制定数据标准的系统,其特征在于,所述的结果存储及展示模块存储的信息包括拆分结果、拆分类型和所拆分信息的上下文环境。
7.一种基于权利要求1所述的系统实现大数据治理中的数据标准辅助制定的方法,其特征在于,所述的方法包括以下步骤:
(1)所述的数据获取模块获取元数据;
(2)所述的任务创建模块创建分析任务,并监控任务过程;
(3)所述的智能分析模块接收任务信息,并分析数据;
(4)所述的结果存储及展示模块对分析结果进行存储及展示。
8.根据权利要求7所述的实现大数据治理中的数据标准辅助制定的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)判断是否为表类型元数据,如果是,继续步骤(1-3.2);否则,元数据为字段类型元数据,继续步骤(2-3.2);
(1-3.2)查询分析范围内的表类型元数据,以每50条数据为一个线程进行处理分析,并将分析处理进度信息输入日志;
(1-3.3)判断表类型元数据信息是否为英文或中文,如果是,则将表名按照下划线进行拆分,并缓存表类型的实例ID;否则,将结果输入日志,退出步骤;
(1-3.4)判断表类型元数据信息是否为中文,如果是,则将表描述名中的中文按照动词和名词分词;否则,将表描述名中的英文按照英语单词进行分词;
(2-3.2)查询分析范围内的字段类型元数据,以每50条数据为一个线程进行处理分析,并将分析处理进度信息输入日志;
(2-3.3)判断字段类型元数据信息是否为英文或中文,如果是,则将字段名按照下划线进行拆分,并缓存字段类型实例ID;否则,将结果输入日志,退出步骤;
(2-3.4)判断字段类型元数据信息是否为中文,如果是,则将字段描述名中的中文按照动词和名词分词;否则,将字段描述名中的英文按照英语单词进行分词。
CN201910333037.9A 2019-04-24 2019-04-24 大数据治理中实现辅助制定数据标准的系统及方法 Active CN110069633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910333037.9A CN110069633B (zh) 2019-04-24 2019-04-24 大数据治理中实现辅助制定数据标准的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910333037.9A CN110069633B (zh) 2019-04-24 2019-04-24 大数据治理中实现辅助制定数据标准的系统及方法

Publications (2)

Publication Number Publication Date
CN110069633A true CN110069633A (zh) 2019-07-30
CN110069633B CN110069633B (zh) 2022-12-06

Family

ID=67368629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910333037.9A Active CN110069633B (zh) 2019-04-24 2019-04-24 大数据治理中实现辅助制定数据标准的系统及方法

Country Status (1)

Country Link
CN (1) CN110069633B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929280A (zh) * 2019-11-25 2020-03-27 普元信息技术股份有限公司 大数据环境下基于元数据实现数据权限控制的系统及其方法
CN111143322A (zh) * 2019-11-13 2020-05-12 深圳市华傲数据技术有限公司 一种数据标准治理系统及方法
CN112765951A (zh) * 2021-01-20 2021-05-07 宁夏计量质量检验检测研究院 一种用于制定环境及新能源领域标准的系统
CN111159188B (zh) * 2019-12-28 2023-05-09 北京慧博科技有限公司 基于DataWorks实现准实时大数据量的处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013120534A (ja) * 2011-12-08 2013-06-17 Mitsubishi Electric Corp 関連語分類装置及びコンピュータプログラム及び関連語分類方法
CN104281702A (zh) * 2014-10-22 2015-01-14 国家电网公司 基于电力关键词分词的数据检索方法及装置
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN106777970A (zh) * 2016-12-15 2017-05-31 北京锐软科技股份有限公司 一种医疗信息系统数据模板化的集成系统及方法
CN106933972A (zh) * 2017-02-14 2017-07-07 杭州数梦工场科技有限公司 利用自然语言处理技术定义数据元素的方法以及装置
CN108520019A (zh) * 2018-03-22 2018-09-11 平安好房(上海)电子商务有限公司 数据管理方法、装置、设备及计算机可读存储介质
CN108595627A (zh) * 2018-04-23 2018-09-28 温州市鹿城区中津先进科技研究院 一种自助式数据分析建模平台

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013120534A (ja) * 2011-12-08 2013-06-17 Mitsubishi Electric Corp 関連語分類装置及びコンピュータプログラム及び関連語分類方法
CN104281702A (zh) * 2014-10-22 2015-01-14 国家电网公司 基于电力关键词分词的数据检索方法及装置
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN106777970A (zh) * 2016-12-15 2017-05-31 北京锐软科技股份有限公司 一种医疗信息系统数据模板化的集成系统及方法
CN106933972A (zh) * 2017-02-14 2017-07-07 杭州数梦工场科技有限公司 利用自然语言处理技术定义数据元素的方法以及装置
CN108520019A (zh) * 2018-03-22 2018-09-11 平安好房(上海)电子商务有限公司 数据管理方法、装置、设备及计算机可读存储介质
CN108595627A (zh) * 2018-04-23 2018-09-28 温州市鹿城区中津先进科技研究院 一种自助式数据分析建模平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
史英杰等: "云数据管理系统中查询技术研究综述", 《计算机学报》 *
孙少波: "油气田勘探开发生产中的数据治理方法与技术研究", 《中国博士学位论文全文数据库工程科技Ⅰ辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143322A (zh) * 2019-11-13 2020-05-12 深圳市华傲数据技术有限公司 一种数据标准治理系统及方法
CN110929280A (zh) * 2019-11-25 2020-03-27 普元信息技术股份有限公司 大数据环境下基于元数据实现数据权限控制的系统及其方法
CN110929280B (zh) * 2019-11-25 2023-03-28 普元信息技术股份有限公司 大数据环境下基于元数据实现数据权限控制的系统及其方法
CN111159188B (zh) * 2019-12-28 2023-05-09 北京慧博科技有限公司 基于DataWorks实现准实时大数据量的处理方法
CN112765951A (zh) * 2021-01-20 2021-05-07 宁夏计量质量检验检测研究院 一种用于制定环境及新能源领域标准的系统

Also Published As

Publication number Publication date
CN110069633B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN110069633A (zh) 大数据治理中实现辅助制定数据标准的系统及方法
US10936588B2 (en) Self-described query execution in a massively parallel SQL execution engine
US20240095867A1 (en) Patent mapping
US9703831B2 (en) Contextual display of saved search queries
US7987164B2 (en) Method and system for speeding up rebuild of user-defined indexes during partition maintenance operations in the database systems
AU735010B3 (en) Business intelligence system
US20110213775A1 (en) Database Table Look-up
US7480674B2 (en) Data storage and retrieval system with parameterized category definitions for families of categories and dynamically generated search indices
US7970735B2 (en) Cross varying dimension support for analysis services engine
Sreemathy et al. Data integration in ETL using TALEND
US9633095B2 (en) Extract, transform and load (ETL) system and method
Bear et al. The Vertica database: SQL RDBMS for managing big data
US8880485B2 (en) Systems and methods to facilitate multi-threaded data retrieval
JP2013517585A (ja) データベース内の大容量コレクションオブジェクトテーブルにアクセスするための方法
US7236993B2 (en) On-demand multi-version denormalized data dictionary to support log-based applications
US20170192974A1 (en) Domain agnostic similarity detection
Liu et al. Research on the framework of decision support system based on ERP systems
Asroni et al. Dashboard-based Alumni Tracer Study Report Using Normalized Data Store Architecture
CN111930815A (zh) 一种基于行业属性和经营属性构建企业画像的方法及系统
US7953714B2 (en) Method for maintaining parallelism in database processing using record identifier substitution assignment
Zhang et al. HG-Bitmap join index: A hybrid GPU/CPU bitmap join index mechanism for OLAP
Gallas et al. The challenges of mining logging data in ATLAS
KR102519538B1 (ko) 데이터 흐름 추적 방법 및 시스템
Šubić et al. Big data in data warehouses
JPH06259446A (ja) 課題構造化システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant