CN110704416A - 一种利用数据中心进行数据治理的方法 - Google Patents

一种利用数据中心进行数据治理的方法 Download PDF

Info

Publication number
CN110704416A
CN110704416A CN201910956372.4A CN201910956372A CN110704416A CN 110704416 A CN110704416 A CN 110704416A CN 201910956372 A CN201910956372 A CN 201910956372A CN 110704416 A CN110704416 A CN 110704416A
Authority
CN
China
Prior art keywords
data
data center
storage unit
unit
governance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910956372.4A
Other languages
English (en)
Inventor
罗林
张海涛
陈翔
卜庆晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Yunnan Industrial Co Ltd
Original Assignee
China Tobacco Yunnan Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Yunnan Industrial Co Ltd filed Critical China Tobacco Yunnan Industrial Co Ltd
Priority to CN201910956372.4A priority Critical patent/CN110704416A/zh
Publication of CN110704416A publication Critical patent/CN110704416A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用数据中心进行数据治理的方法,包括以下步骤:数据标注:数据标注单元获取数据中心存储单元内存储的数据,并对获取的数据进行标注,之后将这些标注数据通过主外键关联在一起并提供图形化展示。本发明所述的一种利用数据中心进行数据治理的方法,当用户利用服务单元使用到某一数据表中的某一数据时,通过数据服务单元反向追踪这一数据来自于数据中心存储单元中,是由那些数据表进行提供,并检测这一数据表的来源系统名称,数据中心积累足够的数据服务后,能够侦测到数据中心服务的系统究竟对哪些系统的哪些字段的数据有所利用,并且能充分的统计使用的频率和范围。

Description

一种利用数据中心进行数据治理的方法
技术领域
本发明涉及数据治理技术领域,特别涉及一种利用数据中心进行数据治理的方法。
背景技术
数据如何治理是任何一个企业在信息化过程中无法避免的问题,传统方法是针对业务系统中的各个数据表,结合系统的功能逻辑和业务逻辑逐步梳理各个数据表之间的主键和外键的联系,这种模式存在三个问题:
一是工作量过于庞大,信息化系统建设过程中,可能经历过很长的时间进行迭代,数据以及对应数据表的数量可能极为庞大,导致治理的时候非常消耗人工;
二是数据治理过程在不同信息化系统间是独立的,很难直接联系不同系统间同类数据的关系;
三是数据治理的效果不明显,花了资金和人力治理来的数据,往往没法发挥后续作用,为此,我们提出一种利用数据中心进行数据治理的方法。
发明内容
本发明的主要目的在于提供一种利用数据中心进行数据治理的方法,可以有效解决背景技术中的问题。
为实现上述目的,本发明采取的技术方案为:
一种利用数据中心进行数据治理的方法,包括以下步骤:
(1)、数据标注:数据标注单元获取数据中心存储单元内存储的数据,并对获取的数据进行标注,之后将这些标注数据通过主外键关联在一起并提供图形化展示;
(2)、数据编排:数据编排单元从数据标注单元中获取标注数据,并针对数据字段的列数据变换,数据编排单元向数据服务单元提供数据;
(3)、数据通讯:数据服务单元得到编排后的数据,并将编排与外接设备进行数据交换。
优选的,步骤(1)中,数据标注单元用于对获取到的数据进行标注,由数据来源的系统名称、数据表名、每个表中数据字段名、数据表的主外键情况以及字段业务功能对数据进行标注。
优选的,步骤(1)中,数据中心存储单元用于存储各种业务数据。
优选的,步骤(1)中,数据中心存储单元获取数据的方式,有以下三种:
A、物联网数据:通过无法通讯设备与物联网进行连接,实时获取物联网数据,并将数据保密级别低的数据上传到物联网中;
B、输入数据:通过输入设备向数据中心存储单元输入需要存储的数据,并对数据分类存储;
C、扫描数据:通过扫描设备对图片或文件中的文字信息进行识别,转化为文字数据,并存储到数据中心存储单元中。
优选的,所述数据保密级别:根据数据的重要程度对数据中心存储单元中的数据将分类,分为以下三个等级:
Ⅰ、常规数据:通过物联网直接获取的数据;
Ⅱ、加密数据:通过输入设备对中心存储单元输入的数据;
Ⅲ、限制数据:通过文件扫描进行存储的数据。
优选的,所述分类存储:根据数据类型放入不同的存储局域中,并随机对该数据进行编码。
优选的,步骤(2)中,数据编排单元用于将一个数据字段整体做一种运算操作、或者从不同数据表中选取、链接、添加、删减字段。
优选的,步骤(3)中,数据服务用于侦测各种数据的调用和访问情况,并能进行图形化展示。
与现有技术相比,本发明具有如下有益效果:
1、当用户利用服务单元使用到某一数据表中的某一数据时,通过数据服务单元反向追踪这一数据来自于数据中心存储单元中,是由那些数据表进行提供,并检测这一数据表的来源系统名称;
2、数据中心积累足够的数据服务后,能够侦测到数据中心服务的系统究竟对哪些系统的哪些字段的数据有所利用,并且能充分的统计使用的频率和范围;
3、通过这些统计信息,能量化数据中心中数据对于整个体系的运转的重要程度,能够在治理过程中,有效的定义数据的价值和优先级,做到有效,高效治理;
4、对于不同系统的数据,通过此系统,可以看出哪些数据处于同一个主题,比如涉人、涉物等,这样逐步生成数据主题域,而这个含有各类原始业务信息,调用频率信息及主题信息的综合数据主题域,是本方法的重要成果。即用实际重要度和主题分布来治理数据而不是信息化系统边界和业务功能来治理数据。
附图说明
图1为本发明一种利用数据中心进行数据治理的方法中单元流程图;
图2为本发明一种利用数据中心进行数据治理的方法整体结构流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
一种利用数据中心进行数据治理的方法,包括以下步骤:
(1)、数据标注:数据标注单元获取数据中心存储单元内存储的数据,并对获取的数据进行标注,之后将这些标注数据通过主外键关联在一起并提供图形化展示,数据标注单元用于对获取到的数据进行标注,由数据来源的系统名称、数据表名、每个表中数据字段名、数据表的主外键情况以及字段业务功能对数据进行标注,数据中心存储单元用于存储各种业务数据,数据中心存储单元获取数据的方式,有以下三种:
A、物联网数据:通过无法通讯设备与物联网进行连接,实时获取物联网数据,并将数据保密级别低的数据上传到物联网中,数据保密级别:根据数据的重要程度对数据中心存储单元中的数据将分类,分为以下三个等级:
Ⅰ、常规数据:通过物联网直接获取的数据;
Ⅱ、加密数据:通过输入设备对中心存储单元输入的数据;
Ⅲ、限制数据:通过文件扫描进行存储的数据;
B、输入数据:通过输入设备向数据中心存储单元输入需要存储的数据,并对数据分类存储,分类存储:根据数据类型放入不同的存储局域中,并随机对该数据进行编码;
C、扫描数据:通过扫描设备对图片或文件中的文字信息进行识别,转化为文字数据,并存储到数据中心存储单元中;
(2)、数据编排:数据编排单元从数据标注单元中获取标注数据,并针对数据字段的列数据变换,数据编排单元向数据服务单元提供数据,数据编排单元用于将一个数据字段整体做一种运算操作、或者从不同数据表中选取、链接、添加、删减字段;
(3)、数据通讯:数据服务单元得到编排后的数据,并将编排与外接设备进行数据交换,数据服务用于侦测各种数据的调用和访问情况,并能进行图形化展示。
该方法在数据治理时有三个步骤:
1、针对数据中心的存储单元内存储的数据,提供一个数据标注单元进行数据标注。其中需要标注的信息包括数据来源的系统、数据表名、每个表中数据字段名、数据表的主外键情况、及字段业务功能备注。模块提供功能能将这些表通过主外键关联在一起并提供图形化展示。
2、数据编排单元主要功能是对数据进行变换操作,主要在于针对数据字段的列数据变换,如将一个数据字段整体做一种运算操作、或者从不同数据表中选取、链接、添加、删减字段的功能。操作可以是链式的,同时该单元要能记录这种。并将这些操作进行图形化展示。
具体举例来说如下:
a)我们目前有数据表A,里面有字段a1,a2,a3。数据表B,里面有字段b1,b2,b3。
b)我们选择表A中的字段a1,a2,然后对a1全体数据乘以10,a2的全体数据减去a2的均值。
c)我们选择表B中的字段b2,b3,然后取b2=a1,并用a2+b3得到新的数据列c,合成的新表我们称之为表C,里面包含a1,a2,b2,b3,c。但由于有合并操作,C中的数据量同之前A和B的数据量可能都不同。
d)对C中的数据字段进行选择,最后留下c进行输出。
e)该功能组件能如实记录上述数据变换过程并图形化表示,这里图形化就是每个操作步骤都可以以有向无环图的形式进行展示,环的输入是A,B表,环尾是C表,同时选取c字段,可以展现出来源是a2+b3。这个部分我们称之为数据血缘。
f)对比并连接数据标注单元中的信息,我们可以得到表A和表B对信息化系统的关系,比如得知表A来源于α系统,B来源于β系统。
3、数据服务单元主要是利用数据编排单元提供的数据对外进行服务。因此能侦测到各种数据的调用和访问情况,并能进行图形化展示。
a)当我们有用户利用服务单元使用到数据表C中的c的时候,我们能反向追踪这个数据来自于表C,是由表A和表B提供的,来源于于α系统和β系统。
b)数据中心积累足够的数据服务后,我们可以侦测到数据中心服务的系统究竟对哪些系统的哪些字段的数据有所利用,并且能充分的统计使用的频率和范围。
c)通过这些统计信息,我们能量化数据中心中数据对于整个体系的运转的重要程度。据此我们可以在治理过程中,有效的定义数据的价值和优先级,做到有效,高效治理。
同时,对于不同系统的数据,通过此系统,我们可以看出哪些数据处于同一个主题,比如涉人、涉物等,这样逐步生成数据主题域,而这个含有各类原始业务信息,调用频率信息及主题信息的综合数据主题域,是本方法的重要成果。即用实际重要度和主题分布来治理数据而不是信息化系统边界和业务功能来治理数据。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种利用数据中心进行数据治理的方法,其特征在于,包括以下步骤:
(1)、数据标注:数据标注单元获取数据中心存储单元内存储的数据,并对获取的数据进行标注,之后将这些标注数据通过主外键关联在一起并提供图形化展示;
(2)、数据编排:数据编排单元从数据标注单元中获取标注数据,并针对数据字段的列数据变换,数据编排单元向数据服务单元提供数据;
(3)、数据通讯:数据服务单元得到编排后的数据,并将编排与外接设备进行数据交换。
2.根据权利要求1所述的一种利用数据中心进行数据治理的方法,其特征在于:步骤(1)中,数据标注单元用于对获取到的数据进行标注,由数据来源的系统名称、数据表名、每个表中数据字段名、数据表的主外键情况以及字段业务功能对数据进行标注。
3.根据权利要求1所述的一种利用数据中心进行数据治理的方法,其特征在于:步骤(1)中,数据中心存储单元用于存储各种业务数据。
4.根据权利要求1所述的一种利用数据中心进行数据治理的方法,其特征在于:步骤(1)中,数据中心存储单元获取数据的方式,有以下三种:
A、物联网数据:通过无法通讯设备与物联网进行连接,实时获取物联网数据,并将数据保密级别低的数据上传到物联网中;
B、输入数据:通过输入设备向数据中心存储单元输入需要存储的数据,并对数据分类存储;
C、扫描数据:通过扫描设备对图片或文件中的文字信息进行识别,转化为文字数据,并存储到数据中心存储单元中。
5.根据权利要求4所述的一种利用数据中心进行数据治理的方法,其特征在于:所述数据保密级别:根据数据的重要程度对数据中心存储单元中的数据将分类,分为以下三个等级:
Ⅰ、常规数据:通过物联网直接获取的数据;
Ⅱ、加密数据:通过输入设备对中心存储单元输入的数据;
Ⅲ、限制数据:通过文件扫描进行存储的数据。
6.根据权利要求4所述的一种利用数据中心进行数据治理的方法,其特征在于:所述分类存储:根据数据类型放入不同的存储局域中,并随机对该数据进行编码。
7.根据权利要求1所述的一种利用数据中心进行数据治理的方法,其特征在于:步骤(2)中,数据编排单元用于将一个数据字段整体做一种运算操作、或者从不同数据表中选取、链接、添加、删减字段。
8.根据权利要求1所述的一种利用数据中心进行数据治理的方法,其特征在于:步骤(3)中,数据服务用于侦测各种数据的调用和访问情况,并能进行图形化展示。
CN201910956372.4A 2019-10-10 2019-10-10 一种利用数据中心进行数据治理的方法 Pending CN110704416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910956372.4A CN110704416A (zh) 2019-10-10 2019-10-10 一种利用数据中心进行数据治理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910956372.4A CN110704416A (zh) 2019-10-10 2019-10-10 一种利用数据中心进行数据治理的方法

Publications (1)

Publication Number Publication Date
CN110704416A true CN110704416A (zh) 2020-01-17

Family

ID=69200045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910956372.4A Pending CN110704416A (zh) 2019-10-10 2019-10-10 一种利用数据中心进行数据治理的方法

Country Status (1)

Country Link
CN (1) CN110704416A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708167A (zh) * 2012-04-27 2012-10-03 上海交通大学 一种针对高分辨率SAR影像解译的基于Web的语义标注系统及方法
CN110069559A (zh) * 2019-03-21 2019-07-30 中国人民解放军陆军工程大学 一种具有高度自控性的异构信息系统数据分析和集成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708167A (zh) * 2012-04-27 2012-10-03 上海交通大学 一种针对高分辨率SAR影像解译的基于Web的语义标注系统及方法
CN110069559A (zh) * 2019-03-21 2019-07-30 中国人民解放军陆军工程大学 一种具有高度自控性的异构信息系统数据分析和集成方法

Similar Documents

Publication Publication Date Title
US9928251B2 (en) System and method for distributed categorization
US6760732B2 (en) Method and system for viewing a record of an organization having a hierarchy of departments
US9396448B2 (en) Distributed and open schema interactions management system and method
CN102508919A (zh) 数据处理方法及系统
CN104750472B (zh) 一种终端应用的资源包管理方法和装置
CN110728123B (zh) 一种报表生成方法、系统及相关设备
CN104050161A (zh) 应用和数据服务器的动态桥接
CN110647569A (zh) 一种营销客户标签管理方法
CN114218291A (zh) 基于目标对象的画像生成方法、装置、设备及存储介质
CN111782703A (zh) 灌区对象数据间关联关系自动管理和展示的方法及系统
CN114385609A (zh) 基于标签的政务事件处理系统、方法、设备及存储介质
CN110704416A (zh) 一种利用数据中心进行数据治理的方法
CN105872731A (zh) 数据处理的方法和装置
CN112052248A (zh) 一种审计大数据处理方法及系统
CN112528610A (zh) 一种数据标注方法、装置、电子设备及存储介质
US20130253991A1 (en) Using the inheritance of professional-social network information to facilitate organizational position changes
CN114840519A (zh) 一种数据打标签的方法、设备及存储介质
CN113822715B (zh) 一种数据采集训练处理一体化平台分析方法
CN102799423A (zh) Jsf中执行动态方法的方法及装置
CN101587563A (zh) 一种客户关系管理系统
CN107391695A (zh) 一种基于大数据的信息提取方法
CN113515413A (zh) 一种数据管理方法、装置、电子设备及存储介质
CN106407941A (zh) 基于面向对象影像分析的港口围填海监测的方法及系统
CN106254225A (zh) 邮件信息显示方法及邮件客户端
CN111026705A (zh) 建筑工程文件管理方法、系统及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117