CN112988730A - 一种基于企业数据盘点的元数据采集方法 - Google Patents

一种基于企业数据盘点的元数据采集方法 Download PDF

Info

Publication number
CN112988730A
CN112988730A CN202110335841.8A CN202110335841A CN112988730A CN 112988730 A CN112988730 A CN 112988730A CN 202110335841 A CN202110335841 A CN 202110335841A CN 112988730 A CN112988730 A CN 112988730A
Authority
CN
China
Prior art keywords
data
metadata
acquisition
directory
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110335841.8A
Other languages
English (en)
Inventor
马瑞
马一鸣
朱东歌
刘佳
夏绪卫
黄鸣宇
张爽
闫振华
李秀广
李兴华
李晓龙
高博
张庆平
李学锋
罗海荣
李永亮
郭飞
柴育峰
韩红卫
段文奇
王峰
蔡建辉
杨雪红
沙江波
胡炜航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority to CN202110335841.8A priority Critical patent/CN112988730A/zh
Publication of CN112988730A publication Critical patent/CN112988730A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于企业数据盘点的元数据采集方法,包括以下步骤:步骤1:建立元数据采集标准目录库,配置数据源,在此目录下进行数据采集实施的准备工作;步骤2:建立元数据采集规则,在此规则下,通过数据采集模块自动采集元数据信息,生成数据目录与数据表进行关联;步骤3:数据分析模块对数据表进行有效性筛选和自动判定,五个工作日内,进行更新匹配;步骤4:数据监控模块实时监控数据有效性及数据变更信息,进行数据重新采集和筛除。本发明的优点在于提高了元数据采集的效率及数据准确率,避免了重复性的元数据采集操作,从而实现了元数据的快速采集。实时监控数据的有效性和准确性。

Description

一种基于企业数据盘点的元数据采集方法
技术领域
本发明涉及数据资源管理技术领域,特别是一种基于企业数据盘点的元数据采集方法。
背景技术
当今社会中,数据量高速膨胀,数据正成为政府、企业的核心竞争力,人们通过数据分析,挖掘数据价值为管理决策者提供准确的判断依据。
元数据管理系统是提升共享、重新获取和理解企业信息资产水平的重要工具,是企业信息管理的润滑剂。如果企业不对元数据进行管理或管理不得当,信息将被丢失或处于隐匿状态而难以被用户使用,数据集成将十分昂贵,不能对业务进行有效支撑。其中,元数据采集是元数据管理系统的核心,亦是整个系统的基础。
当前的元数据采集主要分为手动采集和定时采集两种。手动采集是根据数据源信息,利用对应采集器去采集指定数据源中库,表,字段等属性信息。定时采集是按照指定时间去采集上述信息。
不论是手动采集还是定时采集,其技术方案如下:配置数据源:配置将要采集的数据源信息,如数据源的IP,端口,用户名,密码等。选择采集器:根据不同的数据源选择不同的采集器进行采集,比如采集Oracle数据源信息,则需要选择Oracle采集器进行元数据的采集。采集元数据:按照事先约定的规则按顺序采集对应元数据信息,比如先采集库相关元数据,然后采集表相关元数据,最后采集字段相关元数据等。
上述元数据采集方案具有以下缺点:数据量很大时,采集元数据信息很费时;重复工作很多,比如指定数据源上次采集的信息和这次采集的信息是相同的,那么这次的工作毫无意义。还有当库信息发生变更时,利用上述方法,还会采集表,字段这些没有变化的属性,这些实际没有必要,因为上一次采集已经都有这些属性了。
发明内容
本发明的目的是为了解决上述问题,设计了一种基于企业数据盘点的元数据采集方法,其特征在于,包括以下步骤:
步骤1:建立元数据采集标准目录库,配置数据源,在此目录下进行数据采集实施的准备工作;
步骤2:建立元数据采集规则,在此规则下,通过数据采集模块自动采集元数据信息,生成数据目录与数据表进行关联;
步骤3:数据分析模块对数据表进行有效性筛选和自动判定,五个工作日内,进行更新匹配;
步骤4:数据监控模块实时监控数据有效性及数据变更信息,进行数据重新采集和筛除。
为了对本技术方案进行进一步补充,步骤1中所述数据采集实施的准备工作包括;明确数据盘点的范围及其所涉及的业务活动;明确支撑数据盘点工作的业务部门和人员;明确盘点对象数据架构,收集相关电子文档资料;收集元数据采集所需的数据库配置信息。
为了对本技术方案进行进一步补充,所述元数据采集规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系,各个所述元数据属性为预先制定的元数据标准所规定的属性。
为了对本技术方案进行进一步补充,所述元数据采集标准目录包括若干个布局结构相同的子目录。
为了对本技术方案进行进一步补充,所述数据表包括技术元数据、业务元数据和管理元数据。
为了对本技术方案进行进一步补充,所述技术元数据包括描述数据对象存储、数据抽取、数据处理、数据质量、数据安全分级和数据共享接口;。
为了对本技术方案进行进一步补充,所述业务元数据包括描述业务主题、业务规则、业务过程、业务术语、业务指标和业务流程;。
为了对本技术方案进行进一步补充,所述管理元数据包括管理流程、工作组织、角色职责。
为了对本技术方案进行进一步补充,所述数据目录变更包括元数据信息发生变化;信息系统技术架构调整;系统业务功能发生变化;业务活动发生变化,有效数据表业务标注同时发生变化;有效数据表的数据分类需求发生变化;共享负面清单发生变化;针对数据目录更新的部分重新实施企业数据盘点。
为了对本技术方案进行进一步补充,基于所述数据变更信息确定发生变更的元数据所属的元数据类型;确定与所述元数据类型相对应的目标元数据采集模块,向所述目标元数据采集模块发送采集指令,使目标元数据采集器对发生变更的元数据进行采集。
其有益效果在于,本发明的优点在于提高了元数据采集的效率及数据准确率,避免了重复性的元数据采集操作,从而实现了元数据的快速采集。实时监控数据的有效性和准确性。
附图说明
图1是本发明一种基于企业数据盘点的元数据采集方法的步骤流程图;
具体实施方式
下面结合附图对本发明进行具体描述,如图1所示,一种基于企业数据盘点的元数据采集方法,其特征在于,包括以下步骤:
步骤1:建立元数据采集标准目录库,分为若干个布局结构相同的子目录。配置数据源,在此目录下进行数据采集实施的准备工作;明确数据盘点的范围及其所涉及的业务活动;明确支撑数据盘点工作的业务部门和人员;明确盘点对象数据架构,收集相关电子文档资料;收集元数据采集所需的数据库配置信息,进行数据源识别,以此提高元数据采集的有效性,进行元数据信息配置分配。
步骤2:建立元数据采集规则,在此规则下,通过数据采集模块自动采集元数据信息,将运行元数据采集所需要的数据信息集合成数据目录,生成数据目录与数据表进行关联,实现元数据信息的一一匹配。所述元数据采集规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系,各个所述元数据属性为预先制定的元数据标准所规定的属性。
步骤3:数据分析模块对数据表进行有效性筛选和自动判定,若判定为有效,则对数据表信息分类配置储存,若无效,则发出指令,重新发回信息源进行审查,信息则进行五个工作日内,进行更新匹配;
步骤4:数据监控模块实时监控数据有效性及数据变更信息,进行数据重新采集和筛除,基于所述数据变更信息确定发生变更的元数据所属的元数据类型;确定与所述元数据类型相对应的目标元数据采集模块,向所述目标元数据采集模块发送采集指令,使目标元数据采集器对发生变更的元数据进行采集,确认数据为无效,则进行筛除。
数据表包括技术元数据、业务元数据和管理元数据。技术元数据包括描述数据对象存储、数据抽取、数据处理、数据质量、数据安全分级和数据共享接口;业务元数据包括描述业务主题、业务规则、业务过程、业务术语、业务指标和业务流程;管理元数据包括管理流程、工作组织、角色职责。

Claims (10)

1.一种基于企业数据盘点的元数据采集方法,其特征在于,包括以下步骤:
步骤1:建立元数据采集标准目录库,配置数据源,在此目录下进行数据采集实施的准备工作;
步骤2:建立元数据采集规则,在此规则下,通过数据采集模块自动采集元数据信息,生成数据目录与数据表进行关联;
步骤3:数据分析模块对数据表进行有效性筛选和自动判定,五个工作日内,进行更新匹配;
步骤4:数据监控模块实时监控数据有效性及数据变更信息,进行数据重新采集和筛除。
2.权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,步骤1中所述数据采集实施的准备工作包括;明确数据盘点的范围及其所涉及的业务活动;明确支撑数据盘点工作的业务部门和人员;明确盘点对象数据架构,收集相关电子文档资料;收集元数据采集所需的数据库配置信息。
3.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述元数据采集规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系,各个所述元数据属性为预先制定的元数据标准所规定的属性。
4.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述元数据采集标准目录包括若干个布局结构相同的子目录。
5.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述数据表包括技术元数据、业务元数据和管理元数据。
6.根据权利要求5所述的一种基于企业数据盘点的元数据采集方法,其特征在于,技术元数据包括描述数据对象存储、数据抽取、数据处理、数据质量、数据安全分级和数据共享接口;。
7.根据权利要求5所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述业务元数据包括描述业务主题、业务规则、业务过程、业务术语、业务指标和业务流程;。
8.根据权利要求5所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述管理元数据包括管理流程、工作组织、角色职责。
9.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述数据目录变更包括元数据信息发生变化;信息系统技术架构调整;系统业务功能发生变化;业务活动发生变化,有效数据表业务标注同时发生变化;有效数据表的数据分类需求发生变化;共享负面清单发生变化;针对数据目录更新的部分重新实施企业数据盘点。
10.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,基于所述数据变更信息确定发生变更的元数据所属的元数据类型;确定与所述元数据类型相对应的目标元数据采集模块,向所述目标元数据采集模块发送采集指令,使目标元数据采集器对发生变更的元数据进行采集。
CN202110335841.8A 2021-03-29 2021-03-29 一种基于企业数据盘点的元数据采集方法 Pending CN112988730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110335841.8A CN112988730A (zh) 2021-03-29 2021-03-29 一种基于企业数据盘点的元数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110335841.8A CN112988730A (zh) 2021-03-29 2021-03-29 一种基于企业数据盘点的元数据采集方法

Publications (1)

Publication Number Publication Date
CN112988730A true CN112988730A (zh) 2021-06-18

Family

ID=76337942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110335841.8A Pending CN112988730A (zh) 2021-03-29 2021-03-29 一种基于企业数据盘点的元数据采集方法

Country Status (1)

Country Link
CN (1) CN112988730A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909392A (zh) * 2023-12-18 2024-04-19 北京宇信科技集团股份有限公司 一种智能化数据资产盘点的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201299A1 (en) * 2004-06-30 2008-08-21 Nokia Corporation Method and System for Managing Metadata
CN101556586A (zh) * 2008-04-07 2009-10-14 华为技术有限公司 一种自动采集数据的方法、系统和装置
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN109033188A (zh) * 2018-06-27 2018-12-18 新华三大数据技术有限公司 一种元数据采集方法、装置、服务器和计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201299A1 (en) * 2004-06-30 2008-08-21 Nokia Corporation Method and System for Managing Metadata
CN101556586A (zh) * 2008-04-07 2009-10-14 华为技术有限公司 一种自动采集数据的方法、系统和装置
CN107871009A (zh) * 2017-11-17 2018-04-03 山东浪潮云服务信息科技有限公司 一种采集目录元数据的方法及装置
CN109033188A (zh) * 2018-06-27 2018-12-18 新华三大数据技术有限公司 一种元数据采集方法、装置、服务器和计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909392A (zh) * 2023-12-18 2024-04-19 北京宇信科技集团股份有限公司 一种智能化数据资产盘点的方法和系统

Similar Documents

Publication Publication Date Title
CN111611458B (zh) 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法
US8271597B2 (en) Intelligent derivation of email addresses
CN110852699A (zh) 一种档案电子化智能管理系统及方法
CN106709024A (zh) 基于血缘分析进行数据表溯源的方法及装置
CN106611053B (zh) 一种数据清理、索引方法
US8856135B2 (en) Intelligent sorting and correlation of email traffic
CN102043796A (zh) 基于互联网的信息收集方法及装置
CN112162960A (zh) 一种卫生健康政务信息共享方法、装置及系统
CN112988730A (zh) 一种基于企业数据盘点的元数据采集方法
US8458224B2 (en) Auditing search requests in a relationship analysis system
CN108280147A (zh) 一种数据管理方法和装置
CN111125045B (zh) 一种轻量级etl处理平台
CN110502529B (zh) 数据处理方法、装置、服务器及存储介质
CN116932632A (zh) 一种数据资产管理和可视化的方法和系统
CN109063063B (zh) 基于多源数据的数据处理方法及装置
CN104331426B (zh) 一种基于浏览器的电力系统检索器的快速检索方法
CN116167719A (zh) 一种电力设备台账不同系统间映射的实现方法及系统
CN114372104A (zh) 一种兼容性好的电子文件元数据采集工具及方法
CN113553425A (zh) 基于rpa和ai的数据汇聚方法、装置、设备及存储介质
CN105653593A (zh) 一种基于社交好友的知识产权数据管理系统和共享方法
CN109491800B (zh) 一种基于产品结构的档案推送系统及档案推送方法
CN114896349A (zh) 数据建模与数据加工一体化装置
CN117786182B (zh) 基于erp系统的业务数据存储系统及方法
CN107133887B (zh) 一种基于地域信息的专利分析方法及系统
CN118173214B (zh) 一种医疗信息的智能通信交互方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210618

RJ01 Rejection of invention patent application after publication