CN109684402A - 一种基于大数据平台元数据血缘关系实现方法 - Google Patents
一种基于大数据平台元数据血缘关系实现方法 Download PDFInfo
- Publication number
- CN109684402A CN109684402A CN201811567908.5A CN201811567908A CN109684402A CN 109684402 A CN109684402 A CN 109684402A CN 201811567908 A CN201811567908 A CN 201811567908A CN 109684402 A CN109684402 A CN 109684402A
- Authority
- CN
- China
- Prior art keywords
- metadata
- big data
- platform
- genetic connection
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002068 genetic effect Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 12
- 239000008280 blood Substances 0.000 claims abstract description 10
- 210000004369 blood Anatomy 0.000 claims abstract description 10
- 238000012800 visualization Methods 0.000 claims abstract description 5
- 238000013500 data storage Methods 0.000 claims description 5
- 238000007794 visualization technique Methods 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 3
- 238000013499 data model Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于大数据平台元数据血缘关系实现方法。步骤S1、大数据平台元数据采集:通过在大数据基础平台预埋钩子HOOK插件,实时监听收集大数据基础平台组件模型相关操作过程;步骤S2、大数据平台元数据存储:包括元数据实体存储和过程关系存储及关系信息索引建立;步骤S3、元数据实体关系可视化,即数据血缘地图。本发明方法能够实现对大数据基础平台HIVE、FALCON、SQOOP等组件的数据模型创建、变更、转换等过程血缘关系建立以及在海量元数据模型中快速溯源,且增加了对海量元数据高效自动建立血缘关系支持的功能。
Description
技术领域
本发明涉及大数据、元数据管理、数据血缘、全文检索等技术领域,特别是一种基于大数据平台元数据血缘关系实现方法。
背景技术
现有的大数据血缘关系相关专利如下:
1、数据治理中的数据血缘关系可视化图形系统(申请号:201711383801.0),其提供一种数据治理中的数据血缘关系可视化图形系统,包括信息节点,还包含以下模块:数据流转线路;是指所述数据流转的路径;抽取策略节点、清洗规则节点、转换规则节点、加载规则节点和处理规则节点中至少一种节点 所述抽取策略节点用于说明数据是如何抽取的;所述清洗规则节点用于表示所述数据流转过程中所述数据的筛选标准;所述转换规则节点用于表示所述数据流转过程中所述数据的变化标准;所述加载规则节点用于说明数据是如何入库的;所述处理规则节点用于表示所述数据归档或销毁。该申请通过不同层级的血缘关系,可以很清楚的了解数据的迁徙流转,为数据价值的评估、数据的提供了依据。
2、一种数据管控平台及架构(申请号:201610109664.0),其公开了一种数据管控平台及架构,实现了庞大数据量的管理全局的数据关系脉络化,提升统一有序的业务系统的管理数据能力,实现对数据间流转、依赖关系的影响分析和血缘分析,解决了缺乏整体的全面数据管控的技术问题。数据管控平台包括:元数据处理单元和ETL单元;元数据处理单元根据接收到的元数据处理指令,获取到通过ETL单元提取的元数据进行与元数据处理指令相对应的处理,并将处理结果进行展示。
3、一种查询服务血缘关系信息的方法及装置(申请号:201711091606.0),其公开了一种查询服务血缘关系信息的方法,应用于Inforsuite ESB中管理控制台,包括:接收查询指令;根据所述查询指令确定待查询的服务血缘关系信息的类型;根据所述服务血缘关系信息的类型在数据库中查找预先存储的各个服务提供者和各个服务消费者之间的服务信息;根据所述服务信息获得待查询的所述服务血缘关系信息。其通过将各种服务运行环境中的服务信息存储在数据库中,保证了数据的安全性,使用户能够根据服务血缘关系有更为准确的了解,有利于用户根据该服务血缘关系对后续服务运行进行控制和调节。其还公开一种查询服务血缘关系信息的装置。
本发明针对上述存在缺点,即缺乏针对大数据基础平台HIVE、FALCON、SQOOP等组件的数据模型创建、变更、转换等过程血缘关系建立;缺乏在海量元数据模型中快速溯源,而提出了一种基于大数据平台元数据血缘关系实现方法;同时,本发明增加了对海量元数据高效自动建立血缘关系支持。
发明内容
本发明的目的在于提供一种基于大数据平台元数据血缘关系实现方法,能够实现对大数据基础平台HIVE、FALCON、SQOOP等组件的数据模型创建、变更、转换等过程血缘关系建立以及在海量元数据模型中快速溯源,且增加了对海量元数据高效自动建立血缘关系支持的功能。
为实现上述目的,本发明的技术方案是:一种基于大数据平台元数据血缘关系实现方法,包括如下步骤:
步骤S1、大数据平台元数据采集:通过在大数据基础平台预埋钩子HOOK插件,实时监听收集大数据基础平台组件模型相关操作过程;
步骤S2、大数据平台元数据存储:包括元数据实体存储和过程关系存储及关系信息索引建立;
步骤S3、元数据实体关系可视化,即数据血缘地图。
在本发明一实施例中,所述步骤S2中,采用HBASE+ELASTICSEARCH存储元数据关系和元数据实体信息,并采用SCHEMALESS模式存储;对元数据实体和关系建立LUCENE索引。
在本发明一实施例中,所述步骤S2中,数据存储采用N0SQL分布式数据库。
在本发明一实施例中,所述步骤S3中,血缘关系的可视化技术采用D3,通过内置的多种接口可以快速实现血缘关系图高效渲染。
相较于现有技术,本发明具有以下有益效果:
(1)数据治理中的数据血缘关系可视化图形系统,针对的是传统的ETL数据迁徙流转血缘关系进行分析,缺乏对大数据基础平台HIVE、HBASE、SQOOP、FALCON等血缘关系建立和追溯,而本发明实现了对大数据基础平台HIVE、HBASE、SQOOP、FALCON等血缘关系建立和追溯;
(2)本发明提供了海量的元数据血缘关系高效建立,支持动态水平扩展和多维度数据检索。
附图说明
图1为本发明方法流程示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种基于大数据平台元数据血缘关系实现方法,包括如下步骤:
步骤S1、大数据平台元数据采集:通过在大数据基础平台预埋钩子HOOK插件,实时监听收集大数据基础平台组件模型相关操作过程;
步骤S2、大数据平台元数据存储:包括元数据实体存储和过程关系存储及关系信息索引建立;
步骤S3、元数据实体关系可视化,即数据血缘地图。
所述步骤S2中,采用HBASE+ELASTICSEARCH存储元数据关系和元数据实体信息,并采用SCHEMALESS模式存储;对元数据实体和关系建立LUCENE索引。
所述步骤S2中,数据存储采用N0SQL分布式数据库。
所述步骤S3中,血缘关系的可视化技术采用D3,通过内置的多种接口可以快速实现血缘关系图高效渲染。
以下为本发明的具体实现过程。
如图1所示,一种基于大数据平台元数据血缘关系实现方法,具体包括以下几个步骤:
步骤1:大数据平台元数据采集。通过预埋钩子HOOK,实时监听收集大数据平台组件模型相关操作过程 。
步骤2:大数据平台元数据存储,包括元数据实体存储和过程关系存储及关系信息索引建立;本提案采用HBASE+ELASTICSEARCH存储元数据关系和实体信息,采用SCHMEALESS方式,无需关心不同平台的元数据实体和实体规则模型结构信息。统一的存储模型能最大限度的支撑不同业务领域具有不同属性信息元数据;可以支撑海量数据接入,并保障灵活的水平扩展; 同时, 提供了全文检索特性,可以实现元数据实体快熟定位及高效的血缘追溯。
步骤3:元数据实体关系可视化,即数据血缘地图。本提案血缘关系的可视化技术采用D3,通过内置的多种接口可以快速实现血缘关系图高效渲染。
本发明的重点在于:针对大数据基础平台组件数据流转过程中的血缘关系建立,以及对于元数据实体和规则信息采用SCHEMALESS模式存储,保证元数据存储模型自由性;对元数据实体和关系建立LUCENE索引,保证元数据关系多维度检索支持;数据存储采用NOSQL分布式数据库,保证数据存储安全的同时,兼顾存储的水平扩展能力。
以上各英文名词解释如下:
HOOK,即钩子,大数据组件中预埋的数据收集单元;
HBASE,一种建立在Hadoop文件系统之上的分布式面向列的NoSQL列式数据库;
ELASTICSEARCH,一个基于Lucene的搜索服务器,并提供了一个分布式多用户能力的全文搜索引擎;
LUCENE,一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎;
SCHEMALESS,无需定义存储字段信息,可以根据业务需要直接追加,在某些业务场景,可以解决DDL很多痛点问题;
D3,D3是一个JavaScript库,用于创建数据可视化图形;
HIVE,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行;
FALCON,一个面向Hadoop的数据集和处理过程的管理平台;
SQOOP,一个用于在Hadoop和关系数据库服务器之间传输数据的工具;
ETL,将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。
本发明实现了针对大数据基础平台组件元数据的实时采集和关系自动建立,弥补了传统元数据系统对大数据领域元数据管理的不足。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (4)
1.一种基于大数据平台元数据血缘关系实现方法,其特征在于,包括如下步骤:
步骤S1、大数据平台元数据采集:通过在大数据基础平台预埋钩子HOOK插件,实时监听收集大数据基础平台组件模型相关操作过程;
步骤S2、大数据平台元数据存储:包括元数据实体存储、过程关系存储及关系信息索引建立;
步骤S3、元数据实体关系可视化,即数据血缘地图。
2.根据权利要求1所述的一种基于大数据平台元数据血缘关系实现方法,其特征在于,所述步骤S2中,采用HBASE+ELASTICSEARCH存储元数据关系和元数据实体信息,并采用SCHEMALESS模式存储;对元数据实体和关系建立LUCENE索引。
3.根据权利要求1所述的一种基于大数据平台元数据血缘关系实现方法,其特征在于,所述步骤S2中,数据存储采用N0SQL分布式数据库。
4.根据权利要求1所述的一种基于大数据平台元数据血缘关系实现方法,其特征在于,所述步骤S3中,血缘关系的可视化技术采用D3,通过内置的多种接口可以快速实现血缘关系图高效渲染。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811567908.5A CN109684402A (zh) | 2018-12-21 | 2018-12-21 | 一种基于大数据平台元数据血缘关系实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811567908.5A CN109684402A (zh) | 2018-12-21 | 2018-12-21 | 一种基于大数据平台元数据血缘关系实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684402A true CN109684402A (zh) | 2019-04-26 |
Family
ID=66188548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811567908.5A Pending CN109684402A (zh) | 2018-12-21 | 2018-12-21 | 一种基于大数据平台元数据血缘关系实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684402A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807026A (zh) * | 2019-10-24 | 2020-02-18 | 北京中科捷信信息技术有限公司 | 一种用于分析金融大数据血缘关系的自动化捕获系统 |
CN111309795A (zh) * | 2020-01-21 | 2020-06-19 | 北京百度网讯科技有限公司 | 业务异常定位方法、装置、电子设备和介质 |
CN111400305A (zh) * | 2020-02-20 | 2020-07-10 | 深圳市魔数智擎人工智能有限公司 | 基于特征工程血缘关系的可回溯、可视化方法 |
CN111427902A (zh) * | 2020-03-24 | 2020-07-17 | 苏州亿歌网络科技有限公司 | 基于轻量型数据库的元数据管理方法、装置、设备及介质 |
CN113360496A (zh) * | 2021-05-26 | 2021-09-07 | 国网能源研究院有限公司 | 一种构建元数据标签库的方法及装置 |
CN113868253A (zh) * | 2021-09-28 | 2021-12-31 | 中通服创立信息科技有限责任公司 | 一种数据关系捕获及大数据关系树构建方法 |
CN113360496B (zh) * | 2021-05-26 | 2024-05-14 | 国网能源研究院有限公司 | 一种构建元数据标签库的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278902A1 (en) * | 2014-03-27 | 2015-10-01 | GroupBy Inc. | Methods of augmenting search engines for ecommerce information retrieval |
CN106202207A (zh) * | 2016-06-28 | 2016-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于HBase‑ORM的索引及检索系统 |
CN108197261A (zh) * | 2017-12-30 | 2018-06-22 | 北京通途永久科技有限公司 | 一种智慧交通操作系统 |
CN108416620A (zh) * | 2018-02-08 | 2018-08-17 | 杭州浮云网络科技有限公司 | 一种基于大数据的画像数据的智能社交广告投放平台 |
-
2018
- 2018-12-21 CN CN201811567908.5A patent/CN109684402A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150278902A1 (en) * | 2014-03-27 | 2015-10-01 | GroupBy Inc. | Methods of augmenting search engines for ecommerce information retrieval |
CN106202207A (zh) * | 2016-06-28 | 2016-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于HBase‑ORM的索引及检索系统 |
CN108197261A (zh) * | 2017-12-30 | 2018-06-22 | 北京通途永久科技有限公司 | 一种智慧交通操作系统 |
CN108416620A (zh) * | 2018-02-08 | 2018-08-17 | 杭州浮云网络科技有限公司 | 一种基于大数据的画像数据的智能社交广告投放平台 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807026A (zh) * | 2019-10-24 | 2020-02-18 | 北京中科捷信信息技术有限公司 | 一种用于分析金融大数据血缘关系的自动化捕获系统 |
CN111309795A (zh) * | 2020-01-21 | 2020-06-19 | 北京百度网讯科技有限公司 | 业务异常定位方法、装置、电子设备和介质 |
CN111400305A (zh) * | 2020-02-20 | 2020-07-10 | 深圳市魔数智擎人工智能有限公司 | 基于特征工程血缘关系的可回溯、可视化方法 |
CN111400305B (zh) * | 2020-02-20 | 2022-03-08 | 深圳市魔数智擎人工智能有限公司 | 基于特征工程血缘关系的可回溯、可视化方法 |
CN111427902A (zh) * | 2020-03-24 | 2020-07-17 | 苏州亿歌网络科技有限公司 | 基于轻量型数据库的元数据管理方法、装置、设备及介质 |
CN111427902B (zh) * | 2020-03-24 | 2024-05-07 | 苏州亿歌网络科技有限公司 | 基于轻量型数据库的元数据管理方法、装置、设备及介质 |
CN113360496A (zh) * | 2021-05-26 | 2021-09-07 | 国网能源研究院有限公司 | 一种构建元数据标签库的方法及装置 |
CN113360496B (zh) * | 2021-05-26 | 2024-05-14 | 国网能源研究院有限公司 | 一种构建元数据标签库的方法及装置 |
CN113868253A (zh) * | 2021-09-28 | 2021-12-31 | 中通服创立信息科技有限责任公司 | 一种数据关系捕获及大数据关系树构建方法 |
CN113868253B (zh) * | 2021-09-28 | 2024-04-23 | 中通服创立信息科技有限责任公司 | 一种数据关系捕获及大数据关系树构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684402A (zh) | 一种基于大数据平台元数据血缘关系实现方法 | |
Goonetilleke et al. | Twitter analytics: a big data management perspective | |
Nasridinov et al. | A decision tree-based classification model for crime prediction | |
CN107038207A (zh) | 一种数据查询方法、数据处理方法及装置 | |
JP6404106B2 (ja) | コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法 | |
CN109542997B (zh) | 运动轨迹显示方法及装置 | |
Murthy et al. | Big Data solutions on a small scale: Evaluating accessible high-performance computing for social research | |
US20180196871A1 (en) | System and method for metadata correlation using natural language processing | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
Villegas-Ch et al. | Big data, the next step in the evolution of educational data analysis | |
CN105556517A (zh) | 智能搜索精细化 | |
CN112000773A (zh) | 基于搜索引擎技术的数据关联关系挖掘方法及应用 | |
CN107330079B (zh) | 基于人工智能呈现辟谣信息的方法和装置 | |
CN111078776A (zh) | 数据表的标准化方法、装置、设备及存储介质 | |
US9916375B2 (en) | Extraction of concept-based summaries from documents | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
US11275777B2 (en) | Methods and systems for generating timelines for entities | |
Vianna et al. | A tool for personal data extraction | |
US20140214494A1 (en) | Context-aware information item recommendations for deals | |
US20180260473A1 (en) | Full text retrieving and matching method and system based on lucene custom lexicon | |
US11074266B2 (en) | Semantic concept discovery over event databases | |
CN106844755A (zh) | 一种基于搜索引擎的数据资产快速检索方法 | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
Kim et al. | Customer preference analysis based on SNS data | |
KR20160120583A (ko) | 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |
|
RJ01 | Rejection of invention patent application after publication |