CN110069633A

CN110069633A - 大数据治理中实现辅助制定数据标准的系统及方法

Info

Publication number: CN110069633A
Application number: CN201910333037.9A
Authority: CN
Inventors: 魏明; 张睿; 王克强
Original assignee: PRIMETON INFORMATION TECHNOLOGY Co Ltd
Current assignee: PRIMETON INFORMATION TECHNOLOGY Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-07-30
Anticipated expiration: 2039-04-24
Also published as: CN110069633B

Abstract

本发明涉及一种大数据治理中实现辅助制定数据标准的系统，包括数据获取模块，用于从第三方数据源中获取所需的元数据；任务创建模块，用于创建对表类型元数据和字段类型元数据的分析任务，对整个任务过程进行监控并记录日志；智能分析模块，用于实现元数据的分词和聚类分析；结果存储及展示模块，用于将信息存入数据库中，通过列表展示元数据信息。本发明还涉及一种基于该系统实现大数据治理中的数据标准辅助制定的方法。采用了该系统及方法，实现了数据源的元数据信息的获取，并支持创建任务及对整个分析过程监控记录，辅助制定该类元数据的数据标准，从而大大降低人力成本，解决了目前人工梳理数据标准不全面，效率低的问题。

Description

大数据治理中实现辅助制定数据标准的系统及方法

技术领域

本发明涉及数据领域，尤其涉及大数据治理领域，具体是指一种大数据治理中实现辅助制定数据标准的系统及方法。

背景技术

随着全球信息化和数字化的发展，各行各业都在进行或即将进行数据治理，根据国际及国内对数据治理的主流理解，数据标准是数据治理中非常重要的组成部分。

但是，在实际数据治理工作开展中，面对一些多年前的存量系统以及建设不规范的系统，没有文档及相关记录描述各系统之间数据的关联性同时针对行业内各厂商已经存在的不同系统数据，要制定小到企业、大到行业的数据标准，无论是企业还是平台建设厂商都面临着重重困难，在数据标准的梳理及制定上耗费大量的人力物力财力，而结果往往却不尽人意。

在数据治理领域，数据标准的制定是非常重要的工作。一般来说，在实际项目实施过程中，数据治理领域的数据标准分为数据项标准及代码项标准，二者之间存在关联。数据标准来源于企业内部数据，同时需要参考国家标准、省市标准、行业标准及企业内部标准进行数据标准的制定，目前大多借由Excel模版，通过人工方式进行梳理数据的关联性和制定数据标准。

针对数据标准的制定，现有技术通常是相关人员参照国家标准、省市标准、行业标准及企业内部标准以及针对企业各部门的调研结果，根据企业数据需求，进行标准的制定。

首先，标准梳理人员制定数据标准的Excel模版。

其次，根据企业的机构职责、系统、数据库等信息，对业务部门及技术部门进行调研。

最后，根据调研结果，梳理企业数据标准，在数据标准梳理过程中，参考国家标准、省市标准、行业标准及企业内部标准。

现有的技术及方法虽然实现了数据标准的制定，但是在大数据时代，特别是面临大量数据的时候，单纯依靠人工梳理往往费时费力，效果也不尽人意。

企业或者政府的数据错综复杂，涉及的行业、领域较多，而各个行业的数据又有其特有的特点，单纯依靠人工梳理，难免会有所遗漏，造成制定的数据标准的缺失或者数据标准的错误，最终将影响数据治理的效果，甚至会影响到企业业务的开展。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足效率高、人力成本低、适用范围广泛的大数据治理中实现辅助制定数据标准的系统及方法。

为了实现上述目的，本发明的大数据治理中实现辅助制定数据标准的系统及方法如下：

该大数据治理中实现辅助制定数据标准的系统，其主要特点是，所述的系统包括：

数据获取模块，用于从第三方数据源中获取所需的元数据；

任务创建模块，与所述的数据获取模块相连接，用于创建对表类型元数据和字段类型元数据的分析任务，对整个任务过程进行监控并记录日志；

智能分析模块，与所述的任务创建模块相连接，用于实现元数据的分词和聚类分析；

结果存储及展示模块，与所述的智能分析模块相连接，用于将信息存入数据库中，通过列表展示元数据信息。

较佳地，所述的任务创建模块创建的任务内容包括任务名称、任务状态、任务开始时间、任务结束时间和任务说明信息。

较佳地，所述的任务状态包括“开始”、“异常”、“结束”三种状态。

较佳地，所述的智能分析模块包括：

表类型元数据分析单元，与所述的任务创建模块相连接，用于对表类型元数据进行分析；

字段类型元数据分析单元，与所述的任务创建模块相连接，用于对字段类型元数据进行分析。

较佳地，所述的结果存储及展示模块包括：

存储单元，与所述的智能分析模块相连接，用于将表类型元数据和字段类型元数据的分析结果存储到数据库中；

查询单元，与所述的智能分析模块相连接，用于查看对表类型元数据和字段类型元数据的分析结果；

展示单元，与所述的智能分析模块相连接，用于通过字符云图方式展现分词结果的关联性，并通过列表的方式展现同类元数据的元数据信息。

较佳地，所述的结果存储及展示模块存储的信息包括拆分结果、拆分类型和所拆分信息的上下文环境。

该基于上述系统实现大数据治理中的数据标准辅助制定的方法，其主要特点是，所述的方法包括以下步骤：

(1)所述的数据获取模块获取元数据；

(2)所述的任务创建模块创建分析任务，并监控任务过程；

(3)所述的智能分析模块接收任务信息，并分析数据；

(4)所述的结果存储及展示模块对分析结果进行存储及展示。

较佳地，所述的步骤(3)具体包括以下步骤：

(3.1)判断是否为表类型元数据，如果是，继续步骤(1-3.2)；否则，元数据为字段类型元数据，继续步骤(2-3.2)；

(1-3.2)查询分析范围内的表类型元数据，以每50条数据为一个线程进行处理分析，并将分析处理进度信息输入日志；

(1-3.3)判断表类型元数据信息是否为英文或中文，如果是，则将表名按照下划线进行拆分，并缓存表类型的实例ID；否则，将结果输入日志，退出步骤；

(1-3.4)判断表类型元数据信息是否为中文，如果是，则将表描述名中的中文按照动词和名词分词；否则，将表描述名中的英文按照英语单词进行分词；

(2-3.2)查询分析范围内的字段类型元数据，以每50条数据为一个线程进行处理分析，并将分析处理进度信息输入日志；

(2-3.3)判断字段类型元数据信息是否为英文或中文，如果是，则将字段名按照下划线进行拆分，并缓存字段类型实例ID；否则，将结果输入日志，退出步骤；

(2-3.4)判断字段类型元数据信息是否为中文，如果是，则将字段描述名中的中文按照动词和名词分词；否则，将字段描述名中的英文按照英语单词进行分词。

采用了本发明的大数据治理中实现辅助制定数据标准的系统及方法，实现了数据源的元数据信息的获取，并支持创建任务及对整个分析过程监控记录，通过分词再聚类的分析方法实现对表类型元数据和字段类型元数据的分析，通过字符云图方式展现分词结果的关联性，辅助梳理数据的关联性，以及通过列表的方式展现同类元数据的元数据信息，辅助制定该类元数据的数据标准，从而大大降低人力成本，解决了目前人工梳理数据标准不全面，效率低的问题。

附图说明

图1为本发明的大数据治理中实现辅助制定数据标准的系统的结构示意图。

图2为本发明的大数据治理中实现辅助制定数据标准的系统的任务信息构成示意图。

图3为本发明的大数据治理中实现辅助制定数据标准的系统的分析任务的多线程并行示意图。

图4为本发明的实现大数据治理中的数据标准辅助制定的方法的表类型元数据的分析流程示意图。

图5为本发明的实现大数据治理中的数据标准辅助制定的方法的字段类型元数据的分析流程示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该大数据治理中实现辅助制定数据标准的系统，其中包括：

数据获取模块，用于从第三方数据源中获取所需的元数据；

作为本发明的优选实施方式，所述的任务创建模块创建的任务内容包括任务名称、任务状态、任务开始时间、任务结束时间和任务说明信息。

作为本发明的优选实施方式，所述的任务状态包括“开始”、“异常”、“结束”三种状态。

作为本发明的优选实施方式，所述的智能分析模块包括：

作为本发明的优选实施方式，所述的结果存储及展示模块包括：

作为本发明的优选实施方式，所述的结果存储及展示模块存储的信息包括拆分结果、拆分类型和所拆分信息的上下文环境。

本发明的该基于上述系统实现大数据治理中的数据标准辅助制定的方法，其中包括以下步骤：

(1)所述的数据获取模块获取元数据；

(2)所述的任务创建模块创建分析任务，并监控任务过程；

(3)所述的智能分析模块接收任务信息，并分析数据；

(2-3.4)判断字段类型元数据信息是否为中文，如果是，则将字段描述名中的中文按照动词和名词分词；否则，将字段描述名中的英文按照英语单词进行分词；

(4)所述的结果存储及展示模块对分析结果进行存储及展示。

本发明的具体实施方式中，本发明涉及一种在大数据治理中实现辅助制定数据标准的系统与方法。随着信息化和数字化的发展，各行各业都在进行或即将进行数据治理，而在DAMA体系中，又以元数据为抓手进行数据的治理为主流。

现在大多借由Excel通过人工方式梳理数据的关联性和制定数据标准。但是对于存量系统以及建设不规范的系统，没有文档及相关记录描述各系统之间数据的关联性，同时针对各行业各厂商已经存在的不同系统数据，要制定小到企业、大到行业的数据标准，现有的方式既费时也费力。

本发明即是针对元数据名称及描述进行分词再聚类分析，通过字符云图方式展现分词结果的关联性，辅助梳理数据的关联性，以及通过列表的方式展现同类元数据的元数据信息，辅助制定该类元数据的数据标准，从而大大降低人力成本，提升效率。

本发明适用于数据治理领域辅助数据标准的制定。在DAMA体系中，以元数据为抓手进行数据治理为主流。

本发明通过选取记录有元数据信息的数据源从而获取需要分析的数据源的元数据信息，通过构建执行任务对所获取的元数据进行分词再聚类分析，通过字符云图方式展现分词结果的关联性，辅助梳理数据的关联性，同时通过列表的方式展现同类元数据的元数据信息，辅助制定该类元数据的数据标准，从而大大降低人力成本，提升效率，保障数据治理项目的顺利落地。

本技术方案提供大数据治理中实现辅助制定数据标准的系统与方法，包括数据获取、任务创建、智能分析及结果存储展示等模块及功能。

在数据治理中，元数据是核心，数据标准的制定依赖于元数据，因此本技术方案首先选取需要分析的并且记录有元数据信息的数据源创建分析任务，其次按照元数据的类型执行分析任务，并将分析结果存储到数据库中，最后可查看分析结果，从而实现辅助数据标准制定的目标，通过本方案可以解决目前人工梳理数据标准不全面，效率低的问题。

数据获取模块支持从第三方数据源中获取所需的元数据，如从Oracle数据库、MySQL数据以及Hadoop等数据源获取所需的元数据信息，元数据信息包含元数据代码、元数据名称、元数据类型(表或字段)、所属父实例ID、字段长度、字段类型、字段是否为主键等，在元数据采集过程中系统会赋予元数据唯一ID，并根据采集的信息生成上下文路径信息。任务创建模块根据获取的元数据信息，创建对表类型元数据及字段类型元数据的分析任务，并对整个任务过程进行监控及记录日志。智能分析模块支持多线程并发执行，实现元数据的分词、聚类分析，最终将拆分结果、拆分类型、所拆分信息的上下文环境等信息存入数据库，通过列表的方式展示同类元数据的元数据信息，从而实现辅助该类元数据的数据标准制定目标。

下面分别详细描述数据获取、任务创建、智能分析及结果存储展示等模块的构成和原理，如图1所示。

一、数据获取模块。

数据获取模块通过内置适配器，支持从传统关系型数据库获取元数据，如Oracle、MySQL数据库，也支持从Hadoop获取元数据，根据数据治理中数据标准的特性，选取需要分析的数据源包括以下元数据信息：

(1)元数据代码；

(2)元数据名称；

(3)元数据类型(表或字段)；

(4)所属父实例ID；

(5)字段长度；

(6)字段类型；

(7)字段是否为主键。

在元数据采集过程中系统会赋予元数据唯一ID，并根据采集的信息生成上下文路径。

二、任务创建模块。

如图2所示，通过任务创建模块可以创建分析任务，任务本身的内容包含任务名称、任务状态、任务开始时间、任务结束时间及任务说明信息，其中任务名称由用户自定义，任务开始时间为当前时间，任务说明信息为对本次任务的描述，任务状态由系统自动记录，分为“开始”、“异常”、“结束”三种状态。

每个分析任务由多个线程并发进行，以多线程的方式从线程池中获取线程。通过任务对表类型元数据和字段类型元数据分析进行管控，当线程池中正在执行的线程数为0时，则记录任务状态为“结束”，结束时间为当前时间，并将结果存入日志中；如果执行分析过程中出现异常情况，则记录任务状态为“异常”，结束时间为当前时间，任务信息为异常信息，并将结果存入日志中，如图3所示。

三、智能分析模块。

智能分析模块主要是在任务的调度及监控下实现对表类型元数据和字段类型元数据的分析，并将分析结果通过存储及展示模块存入数据库并展示出来，从而辅助数据标准的制定，下面分别描述对表类型元数据和字段类型元数据的分析步骤。

对表类型元数据的分析步骤：

(1)查询出分析范围内的表类型元数据；

(2)将查询出的表类型元数据按照50条一个线程进行处理分析；

(3)在整个分析过程中，将分析处理进度信息输入日志中；

(4)判断表类型元数据信息是否为英文或中文，如果不是，则终止分析，并结果输入日志，如果表类型元数据信息为中文或者英文，则继续执行5-7步骤；

(5)将表名按照下划线进行拆分；

(6)缓存表类型的实例ID；

(7)将表描述名中的中文按照动词、名词分词，英文按照英语单词进行分词。

以上步骤如图4所示。

对字段类型元数据的分析步骤：

(1)查询出分析范围内的字段类型元数据；

(2)将查询出的字段类型元数据按照50条一个线程进行处理分析；

(3)在整个分析过程中，将分析处理进度信息输入日志中；

(4)判断字段类型元数据信息是否为英文或中文，如果不是，则终止分析，并将结果输入日志，如果字段类型元数据信息为中文或者英文，则继续执行5-6步骤；

(5)将字段名按照下划线进行拆分；

(6)缓存字段类型实例ID；

(7)将字段描述名中的中文按照动词、名词分词，英文按照英语单词进行分词。

以上步骤如图5所示。

四、结果存储及展示模块。

结果存储及展示模块将表类型元数据及字段类型元数据的分析结果存储到数据库中，存储的信息包括拆分结果、拆分类型及所拆分信息的上下文环境。

通过结果存储及展示模块，可以查看对表类型元数据和字段类型元数据的分析结果，在整个查询过程中，支持查询出分析范围内的字段类型元数据和表类型元数据的分析结果，同时为了保证查询效率，在查询时按照每50条一个线程进行处理分析，整个查询过程自动记录到日志中。

结果存储及展示模块通过字符云图方式展现分词结果的关联性，辅助梳理数据的关联性，以及通过列表的方式展现同类元数据的元数据信息，辅助制定该类元数据的数据标准，从而大大降低人力成本，从而提升效率。

下面以某Oracle数据库中的数据为例，说明本发明在大数据治理中辅助制定数据标准的应用。Oracle数据库名为TBS_DGS_V7_CP，其中包含两张表，分别是“客户基本信息表”(表名为：CD_CLIENT_INFO)和“项目基本信息表”(表名为：CD_PROJ_INFO)，其中“客户基本信息表”的表描述信息为：保存客户的相关信息，包含客户名称、地址组织机构代码、客户参与的项目，“项目基本信息表”的表描述信息为：保存项目的相关信息，包含项目名称、项目状态、项目规模、项目客户信息。

客户基本信息表(CD_CLIENT_INFO)的表结构如下：

字段名	描述	字段类型	字段长度	是否为主键
					CLITNO	客户号	VARchar2	12	Y
CLIT-PROJ-NAME	与客户有关的项目	VARchar2	12	N
					CLITADDR	地址	VARchar2	100	N
CLITCATESIGNCOPY	客户类别	VARchar2	50	N
					CLITPRIOSIGN	客户优先等级	VARchar2	10	N
LICEID	借款人组织机构代码	VARchar2	40	N
					LASTMODITIME	最后修改时间	DATE	-	N

项目基本信息表(表名为：CD_PROJ_INFO)的表结构如下：

字段名	描述	字段类型	字段长度	是否为主键
					PROJNO	项目编号	VARchar2	12	Y
PROJNAME	项目名称	VARchar2	200	N
					PROJ-CLIT-NAME	与项目有关的客户	VARchar2	12	N
BRANNO	项目管理机构	VARchar2	6	N
					SCALESIGN	项目规模	VARchar2	8	N
PROJCAPIAMT	项目开工日期	DATE	-	N
					PROJCAPIAMTUSD	项目状态	VARchar2	2	N
CONSISTSIGN	项目建设地区域代码	VARchar2	2	N

按照现有的数据标准制定方法，需要通过人工梳理的方式，将数据表导出，并进行分析及处理，这样方法在面对数据量较少的时候还可行，但是当数据量较大时，通过人工梳理表间关系及元数据信息非常费时费力，而且还容易造成数据的遗漏，影响标准的全面性及数据治理的效果。

下面将按照本发明进行元数据的分析，实现表间关系自动构建及表类型元数据和字段类型元数据的获取从而辅助制定数据标准。整个实施过程分为五个部分。

一、通过数据获取模块获取元数据。

数据获取模块内置JDBC驱动采集适配器，支持从Oracle数据库中获取元数据信息。

1、获取的“客户基本信息表”元数据信息如下：

A：“客户基本信息表”表类型元数据信息：

在获取“客户基本信息表”表类型元数据后自动分配唯一8位ID，该ID随机生成，并根据采集的信息生成上下文路径信息。

完整的“客户基本信息表”表类型元数据信息如下：

B：“客户基本信息表”字段类型元数据信息：

其中父实例ID为“客户基本信息表”表类型元数据ID。

在获取“客户基本信息表”字段类型元数据后自动分配唯一18位ID，该ID随机生成，并根据采集的信息生成上下文路径。

完整的“客户基本信息表”字段类型元数据信息如下：

2、获取的“项目基本信息表”元数据信息如下：

A：“项目基本信息表”表类型元数据信息：

在获取“项目基本信息表”表类型元数据后自动分配唯一8位ID，该ID随机生成，并根据采集的信息生成上下文路径。

完整的“项目基本信息表”表类型元数据信息如下：

B：“项目基本信息表”字段类型元数据信息：

其中父实例ID为“项目基本信息表”表类型元数据ID。

在获取“项目基本信息表”字段类型元数据后自动分配唯一的18位ID，该ID随机生成，并根据采集的信息生成上下文路径信息。

完整的“项目基本信息表”字段类型元数据信息如下：

二、通过创建任务模块创建分析任务。

针对Oracle数据库TBS_DGS_V7_CP创建分析任务，任务名称为分析“TBS_DGS_V7_CP库表字段元数据及关联关系”，任务开始后状态置为“开始”，开始时间为系统当前时间。

任务开始后自动启动分析。

三、智能分析模块接收到任务信息，开始分析数据。

智能分析模块接收到任务后，将按照50条数据一个线程对“客户基本信息表”和“项目基本信息表”的表类型元数据和字段类型元数据进行分析。

1、对表类型元数据进行分析。由于示例中的数据量较少，因此分析模块启用了一个线程，将表名按照下划线进行拆分，缓存表类型的实例ID，将表描述名中的中文按照动词、名词分词，当线程数为0时，则任务状态为“完成”，整个分析处理进度自动存入日志中。

a.对“客户基本信息表”的分析结果

b.对“项目基本信息表”的分析结果

2、对字段类型元数据进行分析。由于示例中的数据量较少，因此分析模块启用了一个线程，将字段名按照下划线进行拆分，缓存字段类型的实例ID，将字段描述名中的中文按照动词、名词分词，当线程数为0时，则任务状态为“完成”，整个分析处理进度自动存入日志中。由于字段较多，因此取其中一个字段作为示例。

a.对“客户基本信息表”中的字段分析结果

实例ID	拆分结果1	拆分结果2	拆分结果3	分词结果
					DBV10F4PC3SJ3RYuSY	CLIT	PROJ	NAME	客户、有关、项目

b.对“项目基本信息表”中的字段分析结果

实例ID	拆分结果1	拆分结果2	拆分结果3	分词结果
					iL2Cy3tS8ulYcImZwd	PROJ	CLIT	NAME	项目、有关、客户

四、最后可以通过结果存储及展示对分析的结果进行存储及展示。

结果存储及展示模块将第三步中的分析结果存储到数据库中，存储的信息包括拆分结果、拆分类型及所拆分信息的上下文环境。

最终的存储结果如下所示：

最后可以通过SQL对分析结果进行查询并通过echarts等第三方工具以字符云图方式展现分词结果的关联性，辅助梳理数据的关联性，以及通过列表的方式展现同类元数据的元数据信息，辅助制定该类元数据的数据标准。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种大数据治理中实现辅助制定数据标准的系统，其特征在于，所述的系统包括：

数据获取模块，用于从第三方数据源中获取所需的元数据；

2.根据权利要求1所述的大数据治理中实现辅助制定数据标准的系统，其特征在于，所述的任务创建模块创建的任务内容包括任务名称、任务状态、任务开始时间、任务结束时间和任务说明信息。

3.根据权利要求2所述的大数据治理中实现辅助制定数据标准的系统，其特征在于，所述的任务状态包括“开始”、“异常”、“结束”三种状态。

4.根据权利要求1所述的大数据治理中实现辅助制定数据标准的系统，其特征在于，所述的智能分析模块包括：

5.根据权利要求1所述的大数据治理中实现辅助制定数据标准的系统，其特征在于，所述的结果存储及展示模块包括：

6.根据权利要求1所述的大数据治理中实现辅助制定数据标准的系统，其特征在于，所述的结果存储及展示模块存储的信息包括拆分结果、拆分类型和所拆分信息的上下文环境。

7.一种基于权利要求1所述的系统实现大数据治理中的数据标准辅助制定的方法，其特征在于，所述的方法包括以下步骤：

(1)所述的数据获取模块获取元数据；

(2)所述的任务创建模块创建分析任务，并监控任务过程；

(3)所述的智能分析模块接收任务信息，并分析数据；

(4)所述的结果存储及展示模块对分析结果进行存储及展示。

8.根据权利要求7所述的实现大数据治理中的数据标准辅助制定的方法，其特征在于，所述的步骤(3)具体包括以下步骤：