CN112988730A - 一种基于企业数据盘点的元数据采集方法 - Google Patents
一种基于企业数据盘点的元数据采集方法 Download PDFInfo
- Publication number
- CN112988730A CN112988730A CN202110335841.8A CN202110335841A CN112988730A CN 112988730 A CN112988730 A CN 112988730A CN 202110335841 A CN202110335841 A CN 202110335841A CN 112988730 A CN112988730 A CN 112988730A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- acquisition
- directory
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000012544 monitoring process Methods 0.000 claims abstract description 6
- 238000002360 preparation method Methods 0.000 claims abstract description 6
- 238000007405 data analysis Methods 0.000 claims abstract description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims 1
- 239000013589 supplement Substances 0.000 description 9
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000314 lubricant Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2358—Change logging, detection, and notification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于企业数据盘点的元数据采集方法,包括以下步骤:步骤1:建立元数据采集标准目录库,配置数据源,在此目录下进行数据采集实施的准备工作;步骤2:建立元数据采集规则,在此规则下,通过数据采集模块自动采集元数据信息,生成数据目录与数据表进行关联;步骤3:数据分析模块对数据表进行有效性筛选和自动判定,五个工作日内,进行更新匹配;步骤4:数据监控模块实时监控数据有效性及数据变更信息,进行数据重新采集和筛除。本发明的优点在于提高了元数据采集的效率及数据准确率,避免了重复性的元数据采集操作,从而实现了元数据的快速采集。实时监控数据的有效性和准确性。
Description
技术领域
本发明涉及数据资源管理技术领域,特别是一种基于企业数据盘点的元数据采集方法。
背景技术
当今社会中,数据量高速膨胀,数据正成为政府、企业的核心竞争力,人们通过数据分析,挖掘数据价值为管理决策者提供准确的判断依据。
元数据管理系统是提升共享、重新获取和理解企业信息资产水平的重要工具,是企业信息管理的润滑剂。如果企业不对元数据进行管理或管理不得当,信息将被丢失或处于隐匿状态而难以被用户使用,数据集成将十分昂贵,不能对业务进行有效支撑。其中,元数据采集是元数据管理系统的核心,亦是整个系统的基础。
当前的元数据采集主要分为手动采集和定时采集两种。手动采集是根据数据源信息,利用对应采集器去采集指定数据源中库,表,字段等属性信息。定时采集是按照指定时间去采集上述信息。
不论是手动采集还是定时采集,其技术方案如下:配置数据源:配置将要采集的数据源信息,如数据源的IP,端口,用户名,密码等。选择采集器:根据不同的数据源选择不同的采集器进行采集,比如采集Oracle数据源信息,则需要选择Oracle采集器进行元数据的采集。采集元数据:按照事先约定的规则按顺序采集对应元数据信息,比如先采集库相关元数据,然后采集表相关元数据,最后采集字段相关元数据等。
上述元数据采集方案具有以下缺点:数据量很大时,采集元数据信息很费时;重复工作很多,比如指定数据源上次采集的信息和这次采集的信息是相同的,那么这次的工作毫无意义。还有当库信息发生变更时,利用上述方法,还会采集表,字段这些没有变化的属性,这些实际没有必要,因为上一次采集已经都有这些属性了。
发明内容
本发明的目的是为了解决上述问题,设计了一种基于企业数据盘点的元数据采集方法,其特征在于,包括以下步骤:
步骤1:建立元数据采集标准目录库,配置数据源,在此目录下进行数据采集实施的准备工作;
步骤2:建立元数据采集规则,在此规则下,通过数据采集模块自动采集元数据信息,生成数据目录与数据表进行关联;
步骤3:数据分析模块对数据表进行有效性筛选和自动判定,五个工作日内,进行更新匹配;
步骤4:数据监控模块实时监控数据有效性及数据变更信息,进行数据重新采集和筛除。
为了对本技术方案进行进一步补充,步骤1中所述数据采集实施的准备工作包括;明确数据盘点的范围及其所涉及的业务活动;明确支撑数据盘点工作的业务部门和人员;明确盘点对象数据架构,收集相关电子文档资料;收集元数据采集所需的数据库配置信息。
为了对本技术方案进行进一步补充,所述元数据采集规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系,各个所述元数据属性为预先制定的元数据标准所规定的属性。
为了对本技术方案进行进一步补充,所述元数据采集标准目录包括若干个布局结构相同的子目录。
为了对本技术方案进行进一步补充,所述数据表包括技术元数据、业务元数据和管理元数据。
为了对本技术方案进行进一步补充,所述技术元数据包括描述数据对象存储、数据抽取、数据处理、数据质量、数据安全分级和数据共享接口;。
为了对本技术方案进行进一步补充,所述业务元数据包括描述业务主题、业务规则、业务过程、业务术语、业务指标和业务流程;。
为了对本技术方案进行进一步补充,所述管理元数据包括管理流程、工作组织、角色职责。
为了对本技术方案进行进一步补充,所述数据目录变更包括元数据信息发生变化;信息系统技术架构调整;系统业务功能发生变化;业务活动发生变化,有效数据表业务标注同时发生变化;有效数据表的数据分类需求发生变化;共享负面清单发生变化;针对数据目录更新的部分重新实施企业数据盘点。
为了对本技术方案进行进一步补充,基于所述数据变更信息确定发生变更的元数据所属的元数据类型;确定与所述元数据类型相对应的目标元数据采集模块,向所述目标元数据采集模块发送采集指令,使目标元数据采集器对发生变更的元数据进行采集。
其有益效果在于,本发明的优点在于提高了元数据采集的效率及数据准确率,避免了重复性的元数据采集操作,从而实现了元数据的快速采集。实时监控数据的有效性和准确性。
附图说明
图1是本发明一种基于企业数据盘点的元数据采集方法的步骤流程图;
具体实施方式
下面结合附图对本发明进行具体描述,如图1所示,一种基于企业数据盘点的元数据采集方法,其特征在于,包括以下步骤:
步骤1:建立元数据采集标准目录库,分为若干个布局结构相同的子目录。配置数据源,在此目录下进行数据采集实施的准备工作;明确数据盘点的范围及其所涉及的业务活动;明确支撑数据盘点工作的业务部门和人员;明确盘点对象数据架构,收集相关电子文档资料;收集元数据采集所需的数据库配置信息,进行数据源识别,以此提高元数据采集的有效性,进行元数据信息配置分配。
步骤2:建立元数据采集规则,在此规则下,通过数据采集模块自动采集元数据信息,将运行元数据采集所需要的数据信息集合成数据目录,生成数据目录与数据表进行关联,实现元数据信息的一一匹配。所述元数据采集规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系,各个所述元数据属性为预先制定的元数据标准所规定的属性。
步骤3:数据分析模块对数据表进行有效性筛选和自动判定,若判定为有效,则对数据表信息分类配置储存,若无效,则发出指令,重新发回信息源进行审查,信息则进行五个工作日内,进行更新匹配;
步骤4:数据监控模块实时监控数据有效性及数据变更信息,进行数据重新采集和筛除,基于所述数据变更信息确定发生变更的元数据所属的元数据类型;确定与所述元数据类型相对应的目标元数据采集模块,向所述目标元数据采集模块发送采集指令,使目标元数据采集器对发生变更的元数据进行采集,确认数据为无效,则进行筛除。
数据表包括技术元数据、业务元数据和管理元数据。技术元数据包括描述数据对象存储、数据抽取、数据处理、数据质量、数据安全分级和数据共享接口;业务元数据包括描述业务主题、业务规则、业务过程、业务术语、业务指标和业务流程;管理元数据包括管理流程、工作组织、角色职责。
Claims (10)
1.一种基于企业数据盘点的元数据采集方法,其特征在于,包括以下步骤:
步骤1:建立元数据采集标准目录库,配置数据源,在此目录下进行数据采集实施的准备工作;
步骤2:建立元数据采集规则,在此规则下,通过数据采集模块自动采集元数据信息,生成数据目录与数据表进行关联;
步骤3:数据分析模块对数据表进行有效性筛选和自动判定,五个工作日内,进行更新匹配;
步骤4:数据监控模块实时监控数据有效性及数据变更信息,进行数据重新采集和筛除。
2.权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,步骤1中所述数据采集实施的准备工作包括;明确数据盘点的范围及其所涉及的业务活动;明确支撑数据盘点工作的业务部门和人员;明确盘点对象数据架构,收集相关电子文档资料;收集元数据采集所需的数据库配置信息。
3.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述元数据采集规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系,各个所述元数据属性为预先制定的元数据标准所规定的属性。
4.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述元数据采集标准目录包括若干个布局结构相同的子目录。
5.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述数据表包括技术元数据、业务元数据和管理元数据。
6.根据权利要求5所述的一种基于企业数据盘点的元数据采集方法,其特征在于,技术元数据包括描述数据对象存储、数据抽取、数据处理、数据质量、数据安全分级和数据共享接口;。
7.根据权利要求5所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述业务元数据包括描述业务主题、业务规则、业务过程、业务术语、业务指标和业务流程;。
8.根据权利要求5所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述管理元数据包括管理流程、工作组织、角色职责。
9.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,所述数据目录变更包括元数据信息发生变化;信息系统技术架构调整;系统业务功能发生变化;业务活动发生变化,有效数据表业务标注同时发生变化;有效数据表的数据分类需求发生变化;共享负面清单发生变化;针对数据目录更新的部分重新实施企业数据盘点。
10.根据权利要求1所述的一种基于企业数据盘点的元数据采集方法,其特征在于,基于所述数据变更信息确定发生变更的元数据所属的元数据类型;确定与所述元数据类型相对应的目标元数据采集模块,向所述目标元数据采集模块发送采集指令,使目标元数据采集器对发生变更的元数据进行采集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110335841.8A CN112988730A (zh) | 2021-03-29 | 2021-03-29 | 一种基于企业数据盘点的元数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110335841.8A CN112988730A (zh) | 2021-03-29 | 2021-03-29 | 一种基于企业数据盘点的元数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112988730A true CN112988730A (zh) | 2021-06-18 |
Family
ID=76337942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110335841.8A Pending CN112988730A (zh) | 2021-03-29 | 2021-03-29 | 一种基于企业数据盘点的元数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988730A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117909392A (zh) * | 2023-12-18 | 2024-04-19 | 北京宇信科技集团股份有限公司 | 一种智能化数据资产盘点的方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201299A1 (en) * | 2004-06-30 | 2008-08-21 | Nokia Corporation | Method and System for Managing Metadata |
CN101556586A (zh) * | 2008-04-07 | 2009-10-14 | 华为技术有限公司 | 一种自动采集数据的方法、系统和装置 |
CN107871009A (zh) * | 2017-11-17 | 2018-04-03 | 山东浪潮云服务信息科技有限公司 | 一种采集目录元数据的方法及装置 |
CN109033188A (zh) * | 2018-06-27 | 2018-12-18 | 新华三大数据技术有限公司 | 一种元数据采集方法、装置、服务器和计算机可读介质 |
-
2021
- 2021-03-29 CN CN202110335841.8A patent/CN112988730A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201299A1 (en) * | 2004-06-30 | 2008-08-21 | Nokia Corporation | Method and System for Managing Metadata |
CN101556586A (zh) * | 2008-04-07 | 2009-10-14 | 华为技术有限公司 | 一种自动采集数据的方法、系统和装置 |
CN107871009A (zh) * | 2017-11-17 | 2018-04-03 | 山东浪潮云服务信息科技有限公司 | 一种采集目录元数据的方法及装置 |
CN109033188A (zh) * | 2018-06-27 | 2018-12-18 | 新华三大数据技术有限公司 | 一种元数据采集方法、装置、服务器和计算机可读介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117909392A (zh) * | 2023-12-18 | 2024-04-19 | 北京宇信科技集团股份有限公司 | 一种智能化数据资产盘点的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611458B (zh) | 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法 | |
US8271597B2 (en) | Intelligent derivation of email addresses | |
CN110852699A (zh) | 一种档案电子化智能管理系统及方法 | |
CN106709024A (zh) | 基于血缘分析进行数据表溯源的方法及装置 | |
CN106611053B (zh) | 一种数据清理、索引方法 | |
US8856135B2 (en) | Intelligent sorting and correlation of email traffic | |
CN102043796A (zh) | 基于互联网的信息收集方法及装置 | |
CN112162960A (zh) | 一种卫生健康政务信息共享方法、装置及系统 | |
CN112988730A (zh) | 一种基于企业数据盘点的元数据采集方法 | |
US8458224B2 (en) | Auditing search requests in a relationship analysis system | |
CN108280147A (zh) | 一种数据管理方法和装置 | |
CN111125045B (zh) | 一种轻量级etl处理平台 | |
CN110502529B (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN116932632A (zh) | 一种数据资产管理和可视化的方法和系统 | |
CN109063063B (zh) | 基于多源数据的数据处理方法及装置 | |
CN104331426B (zh) | 一种基于浏览器的电力系统检索器的快速检索方法 | |
CN116167719A (zh) | 一种电力设备台账不同系统间映射的实现方法及系统 | |
CN114372104A (zh) | 一种兼容性好的电子文件元数据采集工具及方法 | |
CN113553425A (zh) | 基于rpa和ai的数据汇聚方法、装置、设备及存储介质 | |
CN105653593A (zh) | 一种基于社交好友的知识产权数据管理系统和共享方法 | |
CN109491800B (zh) | 一种基于产品结构的档案推送系统及档案推送方法 | |
CN114896349A (zh) | 数据建模与数据加工一体化装置 | |
CN117786182B (zh) | 基于erp系统的业务数据存储系统及方法 | |
CN107133887B (zh) | 一种基于地域信息的专利分析方法及系统 | |
CN118173214B (zh) | 一种医疗信息的智能通信交互方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210618 |
|
RJ01 | Rejection of invention patent application after publication |