CN109739893B - 一种元数据管理方法、设备及计算机可读介质 - Google Patents
一种元数据管理方法、设备及计算机可读介质 Download PDFInfo
- Publication number
- CN109739893B CN109739893B CN201811617520.1A CN201811617520A CN109739893B CN 109739893 B CN109739893 B CN 109739893B CN 201811617520 A CN201811617520 A CN 201811617520A CN 109739893 B CN109739893 B CN 109739893B
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- description
- application
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种元数据管理方法、设备及计算机可读介质。本申请实施例的方法包括,在从数据产生、到数据加工、再到数据结果应用的流程环节中对包括业务系统元数据、数据仓库元数据以及数据应用元数据的元数据进行全链管理,包括:获取所述元数据并保存到元数据数据仓库;获取不同元数据间的元数据血缘关系并保存到图形数据库;以及,将元数据索引保存到搜索服务器。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种元数据管理方法、设备及计算机可读介质。
背景技术
数据库,简而言之可视为电子化的文件柜。在现有技术领域,元数据是在数据库管理过程中生成的一类非常重要的数据。元数据又称中介数据、中继数据,其为描述数据的数据,或者说是用于提供某种资源的有关信息的结构数据。元数据主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。从数据结构上说,元数据算是一种电子式目录,为了达到编制目录的目的,必须描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
由于元数据可支持的应用场景相当广泛,因此,对元数据的录入、维护以及其他相关管理操作就尤为重要。在现有技术中,通常采用通用的数据维护配置方案对元数据进行独立维护管理。但是,伴随着数据库中所存储的数据量以及数据种类的不断增加、数据库结构的不断复杂化,元数据的数据量也不断提高,其数据类型也越来越复杂。通用的数据维护配置方案已不能满足当前技术环境下的元数据管理需求。因此,亟需一种可以适配更多应用场景、满足更多不同应用需求的元数据管理方案。
发明内容
有鉴于此,本说明书实施例提供了一种元数据管理方法、设备及计算机可读介质,用于解决现有技术中元数据管理方案功能匮乏、对复杂应用场景的支持性差的问题。
本说明书实施例采用下述技术方案:
本说明书实施例提供一种元数据管理方法,在从数据产生、到数据加工、再到数据结果应用的流程环节中对包括业务系统元数据、数据仓库元数据以及数据应用元数据的元数据进行全链管理,包括:
获取所述元数据并保存到元数据数据仓库;
获取不同元数据间的元数据血缘关系并保存到图形数据库;
以及,
将元数据索引保存到搜索服务器。
优选地,在一实施例中,所述方法还包括,针对所述业务系统元数据进行管理,其中,所述业务系统元数据包括:业务涵义描述、数据应用场景描述、业务延伸定义、业务规则定义、数据之间关系描述、指标定义。
优选地,在一实施例中,针对所述业务系统元数据进行管理的管理对象包括:描述业务系统功能点的数据、描述业务系统表结构的数据、描述业务系统枚举字典的数据、描述业务系统特有的业务/技术术语的数据。
优选地,在一实施例中,针对所述业务系统元数据进行管理,包括:
同步业务系统表的表数据到所述元数据管理系统,比较核对所述业务系统表和所述元数据模型表,基于比较核对结果增量维护所述元数据模型表;
和/或,
链接所述业务系统表与调度系统,识别并记录已经入库的所述业务系统表以及没有入库的所述业务系统表,其中,对已经入库的所述业务系统表进行血缘追踪;
和/或,
配置维护功能打点元数据,结构化配置维护各业务系统、各业务系统功能模块、业务流程、功能点、相关业务细节说明,并与功能打点以及对应的业务数据表建立链接。
优选地,在一实施例中,所述方法包括,针对所述数据仓库元数据进行管理,其中,按照分层分域管理的方式,管理所述数据仓库元数据的内容描述。
优选地,在一实施例中,针对所述数据仓库元数据进行管理的管理对象包括:数据仓库各层数据实体的描述、各个数据实体数据计算取值逻辑等等详细内容的描述、各个数据实体字段枚举值描述、各个数据实体及字段的血缘关系描述、各个实体表对应的作业异常描述。
优选地,在一实施例中,针对所述数据仓库元数据进行管理,包括:
建立关键大数据业务术语及业务定义词库,所述词库包含共享词汇表,所述共享词汇表用于保证所述数据仓库元数据的每个元数据元素在信息供应链中每个组件的语义上保持一致;
和/或,
记录数据仓库不同层不同主题域与数据库表的关系及内容;
和/或,
分类并标识数据仓库不同层不同主题域敏感数据。
优选地,在一实施例中,所述方法包括,针对基于数据仓库的数据应用元数据进行管理,其中,按照主题域管理的方式,管理所述数据应用元数据内容的描述。
优选地,在一实施例中,针对所述数据应用元数据进行管理的管理对象包括:数据应用领域各个数据实体的描述、各个数据实体数据计算取值逻辑等等详细内容的描述、各个数据实体字段枚举值描述、各个数据实体及字段的血缘关系描述、各个实体表对应的作业异常描述、统计报表描述、数据挖掘描述、统计分析描述、资源能力描述。
优选地,在一实施例中,针对基于数据仓库的数据应用元数据进行管理,包括:
记录数据仓库数据应用层不同主题域与数据库表的关系及内容;
和/或,
记录数据应用用例。
优选地,在一实施例中,所述方法还包括:
记录并管理ETL调度信息,包括,根据所述ETL调度信息检测并校对所述元数据、导入相关的元数据,将所述ETL调度信息与源表、目标结果表链接,分类展示所述ETL调度信息以及相关的调度配置信息、源表、目标表的明细信息;
和/或,
记录并管理数据质量监控信息,包括,全链监控ETL工作流程以及调度运行情况。
和/或,
综合分析所述ETL调度信息以及所述数据质量监控信息,包括,相互关联和/或相互集成所述ETL调度信息以及所述数据质量监控信息。
优选地,在一实施例中,获取所述元数据,包括:
获取元数据存储路径及名称,解析所述元数据存储路径及名称对应的内容,获取所述元数据;
和/或,
导入按照元数据模版约定格式描述的元数据;
和/或,
直接手动录入所述元数据。
优选地,在一实施例中,获取不同的元数据间的元数据血缘关系,其中,根据业务系统、数据仓库、数据应用之间的ETL调度作业依赖关系捕获所述元数据血缘关系。
优选地,在一实施例中,将元数据血缘关系保存到图形数据库,其中,以关系图谱的形式将所述元数据血缘关系保存到所述图形数据库,每条描述数据的元数据存储于图的顶点,元数据之间的血缘关系存储于图的边。
优选地,在一实施例中,方法还包括:
基于所述元数据索引展示对应用户查询需求的元数据;
和/或,
基于所述元数据血缘关系,根据用户检索查询需求针对当前展示的元数据进行血缘追踪,展示对应的元数据血缘关系和/或元数据,所述血缘追踪包括逆向血缘追踪、正向血缘追踪和/或全链血缘追踪。
本发明实施例还提出了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现本发明实施例所述的方法。
本发明实施例还提出了一种用于在用户设备端信息处理的设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行本发明实施例所述的方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:提供对元数据的全链管理支持以及不同元数据间的血缘追踪以适应复杂的元数据应用场景需求,一站性满足数据开发工程师、数据分析师、数据挖掘工程师、数据科学家、企业经营管理层成员等不同的大数据受众人群对元数据的日常使用需求,保证业务系统数据、数据仓库数据、基于数据仓库的数据应用数据被正确地、高效的、便捷的被重复使用。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书一实施例中应用程序的运行方法的流程图;
图2为本说明书一实施例中针对业务系统元数据进行管理的主页示意图;
图3为本说明书一实施例中针对数据仓库元数据进行管理的主页示意图;
图4为本说明书一实施例中采用相应应用程序的系统逻辑架构简图;
图5为本说明书一实施例中采用相应应用程序的系统逻辑架构简图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对当前元数据的管理应用需求,本发明实施例提出了一种元数据管理方法。为了提出本发明实施例的元数据管理方法,本发明的发明人首先对元数据的应用场景做细致分析。由于元数据是描述信息资源或数据等对象的数据,其主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。因此,元数据的来源主要是针对数据存储过程的数据仓库元数据。然而,随着信息技术的不断发展,信息供应链的数据量规模越来越大、数据结构越来越复杂,这就导致元数据的种类越来越多、数据量也越来越大、数据结构也更加复杂。元数据的主要来源已不限于数据仓库。
因此,基于上述分析,在本发明的方法中,不再仅针对数据存储过程中的数据仓库元数据进行管理,而是针对整个数据采集、存储、应用流程,基于统一的元数据管理系统对元数据进行全链管理。进一步的,在全链管理过程中,针对不同元数据间的血缘关系进行记录管理,对元数据的血缘追踪操作进行支持。这样不仅保证了元数据管理的全面性,而且可以实现不同种类元数据统一管理,为不同种类元数据间的关联整合提供有效支持,从而解决现有技术中元数据管理方案功能匮乏、对复杂应用场景的支持性差的问题。
在本发明实施例中,从数据产生,到数据加工、再到数据结果应用于商业的完整流程环节称为全链。在全链流程中,业务系统是数据的生产者,描述业务系统数据的数据,即业务系统元数据。数据仓库是对业务系统数据的存储者、治理者、管理者,描述经数据仓库清洗、转换、加工过程及结果数据的数据为数据仓库元数据。数据应用是对数据仓库的数据根据业务需求的真实场景分析、挖掘的应用者,描述数据应用的分析、挖掘过程及结果的数据为数据应用元数据。
具体的,在本发明实施例的方法中,管理的元数据含业务元数据和技术元数据,元数据全链管理的主要针对对象包括业务系统元数据、数据仓库元数据以及数据应用元数据。
本发明实施例的方法通过提供对元数据的全链管理支持以及不同元数据间的血缘追踪以适应复杂的元数据应用场景需求,一站性满足数据开发工程师、数据分析师、数据挖掘工程师、数据科学家、企业经营管理层成员等不同的大数据受众人群对元数据的日常使用需求,保证业务系统数据、数据仓库数据、基于数据仓库的数据应用数据被正确地、高效的、便捷的被重复使用。
接下来基于附图详细描述根据本发明实施例的方法的详细流程,附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在某些流程图中示出了各步骤的逻辑顺序,但是在某些情况下,可以以不同于流程图所示的顺序执行所示出或描述的步骤。
如图1所示,在一实施例中,针对元数据的管理包括:
S110,获取元数据并保存到元数据数据仓库;
S120,获取不同元数据间的元数据血缘关系并保存到图形数据库;
S130,将元数据索引保存到搜索服务器。
进一步的,在一实施例中,针对元数据的管理还包括:
S140,基于元数据索引展示对应用户查询需求的元数据;
S150,基于元数据血缘关系,根据用户检索查询需求针对当前展示的元数据进行血缘追踪,展示对应的元数据血缘关系和/或元数据,血缘追踪包括逆向血缘追踪、正向血缘追踪和/或全链血缘追踪。
进一步的,在一实施例中,方法可以仅包括步骤S140与S150中的一项。
具体的,在一实施例中,获取元数据,包括:
获取元数据存储路径及名称,解析元数据存储路径及名称对应的内容,获取所述元数据;
和/或,
导入按照元数据模版约定格式描述的元数据;
和/或,
直接手动录入元数据。
具体的,在一应用场景中,获取业务系统元数据的方式包括:
一、业务系统在设计过程中,元数据的描述按照元数据模版约定的格式描述,业务系统上线发布后,业务系统向元数据管理系统提供元数据存储路径及名称,元数据管理系统自动解析其内容的方式获取元数据;
二、业务系统元数据的描述按照元数据模版约定的格式描述,手动导入元数据管理系统;
三、在元数据管理系统以手动方式录入。
进一步的,在一应用场景中,采用与获取业务系统元数据相同/相似的方式获取数据仓库元数据以及数据应用元数据。
在一具体的应用场景中,获取元数据并保存到元数据数据仓库,元数据数据仓库为后端数据库hbase或mysql。
在一具体的应用场景中,将元数据索引保存到搜索服务器,搜索服务器为后端ElasticSearch。
具体的,在一实施例中,获取不同的元数据间的元数据血缘关系,其中,根据业务系统、数据仓库、数据应用之间的ETL调度作业依赖关系捕获元数据血缘关系。具体的,在一实施例中,通过程序自动捕获元数据血缘关系。
进一步的,在一实施例中,将元数据血缘关系保存到图形数据库,其中,以关系图谱的形式将元数据血缘关系保存到图形数据库,每条描述数据的元数据存储于图的顶点,元数据之间的血缘关系存储于图的边。
具体的,在一实施例中,逆向血缘追踪:是指从数据应用当前选择的字段元数据,向所有引用的源头字段元数据查看;正向血缘追踪:是从业务系统当前选择的字段元数据,向所有依赖它的数据仓库、数据应用字段元数据查看;全链血缘追踪:是指从当前选择的字段元数据,查询出所有引用的以及依赖的上下游字段元数据。
进一步的,在一实施例中,血缘关系的记录以及追踪基于字段级血缘关系。具体的,字段级血缘关系(字段级关联性),是识别数据字段之间的映射、计算演绎、传递等耦合关系。“血缘关系图谱”形象地描绘数据自底向上层层汇集;且各个节点仅仅包含血缘关系的最基础元素—数据字段(字段名,字段描述),不包含处理逻辑。对于传播、演绎关系复杂,影响节点众多的情况,“血缘图谱”提供了局部聚焦放大功能,方便对特定数据字段的传播、演绎轨迹进行跟踪。
进一步的,在一实施例中,字段级血缘关系中,字段与字段间具有规模大、分步广、映射和衍生复杂的关联特性;其数据处理的本质为:数据字段的传递、运算。字段级血缘关系图谱里面除了展示的内容,还有查询功能。
优选地,在一实施例中,在血缘追踪操作中,以血缘关系图谱的方式展示各元数据间的血缘关系。具体的,在一实施例中,以模块代表各元数据,通过模块间的箭头指示来表示血缘上下级关系。
在一具体的应用场景中,获取不同元数据间的元数据血缘关系并保存到图形数据库,该图形数据库为Neo4j。
优选地,在一实施例中,为了获取最优的展示效果,在对元数据进行全链管理的过程中,采用图谱与表格相结合的方式进行元数据内容的展示。
进一步的,在一实施例中,方法还包括,针对业务系统元数据进行管理。优选地,业务系统元数据包括:业务涵义描述、数据应用场景描述、业务延伸定义、业务规则定义、数据之间关系描述、指标定义。
进一步的,在一实施例中,针对业务系统元数据进行管理的管理对象包括:描述业务系统功能点的数据、描述业务系统表结构的数据、描述业务系统枚举字典的数据、描述业务系统特有的业务/技术术语的数据。
进一步的,在一实施例中,针对业务系统元数据进行管理,包括:
同步业务系统表的表数据到元数据管理系统,比较核对业务系统表和元数据模型表,基于比较核对结果增量维护元数据模型表。
优选地,在一实施例中,在针对业务系统元数据进行管理的过程中,业务系统表包括业务系统元数据字典表、数据字典表、枚举值配置表、工作流配置表、业务流程和/或规范定义表。
优选地,在一实施例中,同步到元数据管理系统的业务系统表的表数据内容包含数据库名、数据库描述、数据表名、数据表描述、字段名、字段描述、枚举值定义等。
优选地,在一实施例中,为了尽可能的提高元数据更新的及时性、避免数据遗漏并提高工作效率,采用自动同步管理的方式,当出现新数据时,自动将相关表数据同步到元数据管理系统,对元数据模型表自动初始化、自动比较核对、自动增量维护。
优选地,在一实施例中,以数据图谱的方式展示元数据模型表。
进一步的,在一实施例中,针对业务系统元数据进行管理,包括:
链接业务系统表与调度系统,识别并记录已经入库的所述业务系统表以及没有入库的所述业务系统表,其中,对已经入库的所述业务系统表进行血缘追踪。
具体的,在一实施例中,支持搜索查询已经入库的业务系统表以及没有入库的业务系统表,点击已经入库的业务系统表的表名,能够追踪到该业务系统表的血缘延伸。
进一步的,在一实施例中,针对业务系统元数据进行管理,包括:
配置维护功能打点元数据,结构化配置维护各业务系统、各业务系统功能模块、业务流程、功能点、相关业务细节说明,并与功能打点以及对应的业务数据表建立链接。
优选地,在一实施例中,以数据图谱的方式展示各业务系统、各业务系统功能模块、业务流程、功能点、相关业务细节说明与相关功能打点、对应的业务数据表间的链接。
具体的,在一应用场景中,针对业务系统元数据进行管理的主页如图2所示。如图2所示,主页包括:用于确认业务功能的下拉框201、用于确认表的下拉框202、搜索按钮203、搜索框204以及对应当前业务功能和表选项的不同元数据盟显示框205、206以及207。例如,在当前的应用场景中,元数据盟显示框205、206以及207分别展示盟为“大航海”、“守护者”以及“C计划”。
当通过关键字搜索或模糊查询或精确查询的时候,业务系统表级别元数据内容如表1所示。
表1
当通过关键字搜索或模糊查询或精确查询的时候,业务系统业务功能点元数据内容如表2所示。
表2
当通过关键字搜索或模糊查询或精确查询的时候,业务系统字段级别元数据内容如表3所示。
表3
在业务系统元数据管理时,按照业务模块显示各模块主要实体表及其关联的表关系图谱。
进一步的,在一实施例中,方法包括,针对数据仓库元数据进行管理,其中,按照分层分域管理的方式,管理数据仓库元数据的内容描述。
优选地,在一实施例中,针对数据仓库元数据进行管理,其中,针对所述数据仓库元数据的管理对象包括:数据仓库各层数据实体的描述、各个数据实体数据计算取值逻辑等等详细内容的描述、各个数据实体字段枚举值描述、各个数据实体及字段的血缘关系描述、各个实体表对应的作业异常描述。
具体的,在一实施例中,数据仓库层包括:操作数据存储(Operational DataStore,ODS)层、公共维度模型(Common Dimenions Model,CDM)层以及应用数据(Application Data Store,ADS)层。CDM层包括明细数据层(DWD) 和汇总数据层(DWS)。
进一步的,在一实施例中,针对数据仓库元数据进行管理,包括:
建立关键大数据业务术语及业务定义词库,词库包含共享词汇表,共享词汇表用于保证所述数据仓库元数据的每个元数据元素在信息供应链中每个组件的语义上保持一致。
优选地,在一实施例中,根据具体应用范围以及应用需求确定关键大数据业务术语及业务定义词库所包含的共享词汇表的范围。
优选地,在一实施例中,关键大数据业务术语及业务定义词库还包括:
领域知识定义,含领域内共同认可的词汇、词汇业务含义和对应的信息资产等;
领域特定应用或任务的概念描述,概念以及概念之间关系的描述;
任务元素及其之间关系的规范说明或详细说明。
进一步的,在一实施例中,针对数据仓库元数据进行管理,包括:
记录数据仓库不同层不同主题域与数据库表的关系及内容。
进一步的,在一实施例中,针对数据仓库元数据进行管理,包括:
分类并标识数据仓库不同层不同主题域敏感数据,生成对应的数据仓库元数据。
优选地,在一实施例中,为了获取最优的展示效果,在记录并管理数据仓库不同层不同主题域与数据库表的关系及内容的过程中,采用图形化的引导界面,具有部分智能可视化自定义功能。
优选地,在一实施例中,将数据仓库的操作数据存储ODS层/CDM层分别包含的主题域整体以数据图谱方式展示在元数据管理系统针对数据仓库的管理首页,也可以选择某一层或几层作为导引图谱展示在首页上,点击某一层的某个主题域则进入主题域图谱,层层导引。
优选地,在一实施例中,针对数据仓库层、主题域、数据库、表等支持搜索查询,结构化展示其关系及详细说明。在一实施例中,各个主题域分别展示主要实体表之间相互关联关系,主题之间有关联也展示实体表之间相互关联关系。进一步的,在一实施例中,各个实体表详细描述各个表所属主题、存储位置、被整合、被使用情况、数据质量情况、表的描述信息等等详细信息,如果没有访问元数据权限或者没有访问数据内容权限,则跳转到权限系统权限申请页面。
优选地,在一实施例中,对数据仓库元数据进行血缘延伸追踪管理。具体的,在一实施例中,在元数据管理系统中,点击血缘关系标签页,看到当前表的血缘关系图谱。进一步的,在一实施例中,输入搜索的关键词,即可连接到数据血缘关系链的相关节点上,展示数据和信息关联。
优选地,在一实施例中,为了尽可能的提高元数据更新的及时性、避免数据遗漏并提高工作效率,采用自动同步管理的方式,根据线上运行的数据仓库技术(Extract-Transform-Load,ETL)程序、Job日志、表的存储动态等数据信息,自动更新、维护、检测、管理数据仓库元数据。
优选地,在一实施例中,分类并标识数据仓库不同层不同主题域敏感数据的过程包括:
导入、创建、修改、查询及结构化展示数据仓库不同层不同主题域不同库表不同类别敏感数据;
记录敏感数据详细说明。
具体的,在一实施例中,在记录敏感数据详细说明的过程中,点击敏感数据字段名称,链接到权限管控系统权限申请界面,权限通过后展示详细说明。
具体的,在一具体的应用场景中,针对数据仓库元数据的管理主页展示数据图谱内容如图3所示。在图3中,301、302以及303分别为针对CDM DWS 层元数据、CDM DWD层元数据以及ODS层元数据的搜索框。
311、312......为针对CDM DWS层元数据的主题域。具体的,在本应用场景中,311为日活主题域,312为热点主题域。321、322、323、324、325...... 为针对CDM DWD层元数据的主题域。具体的,在本应用场景中,321为钥匙 (国内)主题域,322为钥匙(海外)主题域,323为资讯主题域,324为广告主题域,325为场景主题域。331、332、333为针对ODS层元数据的盟。具体的,在本应用场景中,331为大航海,其包括WiFi万能钥匙、文学、连信、......。332为守护者,其包括财务、人事、运维、......。333为C计划,其包含手机管家、电商购物、招聘、......。
在图3中,按照从下到上的顺序,在一个页面以图谱的方式展示CDM DWS、 CDM DWD以及ODS 3层,且每层具有的搜索功能,仅仅能够搜索该层的表的内容。表级别元数据内容描述如表4所示
表4
表基本信息&&表存储信息&&计算逻辑描述&&表字段明细信息图表如表所示。
表5
进入“字段级血缘关系图谱页”展示血缘关系图谱,默认逆向查找血缘关系。
在“字段级血缘关系图谱页”点击“切换为表格按钮”,则进入”字段级血缘关系表格页”,具有“导出”功能。如表6所示。
表6
进一步的,在一实施例中,方法包括,针对基于数据仓库的数据应用元数据进行管理,其中,按照主题域管理的方式,管理数据应用元数据内容的描述。
进一步的,在一实施例中,针对数据应用元数据进行管理的管理对象包括:数据应用领域各个数据实体的描述、各个数据实体数据计算取值逻辑等等详细内容的描述、各个数据实体字段枚举值描述、各个数据实体及字段的血缘关系描述、各个实体表对应的作业异常描述、统计报表描述、数据挖掘描述、统计分析描述、资源能力描述。
优选地,在一实施例中,针对基于数据仓库的数据应用元数据进行管理,包括,记录数据仓库数据应用层不同主题域与数据库表的关系及内容。
优选地,在一实施例中,为了获取最优的展示效果,在针对基于数据仓库的数据应用元数据进行管理时,在记录数据仓库数据应用层不同主题域与数据库表的关系及内容的过程中,采用图形化的引导界面,具有部分智能可视化自定义功能。
优选地,在一实施例中,数据仓库的ADS层主题域整体作为数据图谱展示在首页,也可以选择某一个或几个主题域作为导引图谱展示在首页上,点击某个主题域则进入主题域图谱,层层导引。
优选地,在一实施例中,针对数据仓库的应用数据层主题域、数据库、表等支持搜索查询,结构化展示其关系及详细说明。进一步的,在一实施例中,各个实体表详细描述各个表所属主题、存储位置、被整合、被使用情况、数据质量情况、表的描述信息等等详细信息,如果没有访问数据应用元数据权限或者没有访问数据应用内容权限,则跳转到权限系统权限申请页面。
优选地,在一实施例中,对数据应用元数据进行血缘延伸追踪管理。具体的,在一实施例中,点击血缘关系标签页,看到当前表的血缘关系图谱,粒度追溯到字段级别血缘关系。进一步的,在一实施例中,输入搜索的关键词,即可连接到数据血缘关系链的相关节点上,展示数据和信息关联。
优选地,在一实施例中,为了尽可能的提高元数据更新的及时性、避免数据遗漏并提高工作效率,采用自动同步管理的方式,根据线上运行的ETL程序、Job日志、表的存储动态等数据信息,自动更新、维护、检测、管理数据应用元数据。
进一步的,在一实施例中,为了方便大数据应用知识沉淀和共享,针对基于数据仓库的数据应用元数据进行管理,包括:记录并管理数据应用用例。具体的,在一实施例中,创建、管理、共享大数据分析用例、大数据挖掘用例。
具体的,在一具体应用场景中,针对数据应用元数据的管理包括以下内容。
一.数据应用领域各个数据实体的描述、各个数据实体数据计算取值逻辑等等详细内容的描述、各个数据实体字段枚举值描述、各个数据实体及字段的血缘关系描述、各个实体表对应的作业异常描述,功能同数据仓库,仅仅内容不同。
二.统计报表:用户点击“统计报表”菜单,进入统计报表导航页,可以查询集团范围内所有上线的报表内容(备注:可筛选查询)。内容如表7所示
表7
点击“报表系统名称”(也可以勾选复选框,查询多个报表系统的明细内容),进入详情页,内容如表8所示。
表8
在详情页页面支持多条件综合查询。点击“报表名称”则跳转到其链接地址,如果没有访问权限,则跳转到权限申请系统的权限申请页面。
三.数据分析:用户点击“数据分析”菜单,进入数据分析成果导航页,可以查询集团范围内各个BG的数据分析团队分析的范围、内容、成果,便于根据此导航找到相关责任人获取相关信息,共享知识成果,更好的协作等(可筛选查询),内容表9所示。
表9
点击“分析内容名称”(也可以勾选复选框,查询多个分析内容名称的明细内容),进入详情页,内容如表10所示。
表10
在详情页页面支持多条件综合查询。点击“分析事项名称”则跳转到其分析结论链接地址;如果没有超链接,则说明不用跳转,分析内容不对外提供;如果有超链接而没有访问权限,则跳转到权限申请系统的权限申请页面。
四.数据挖掘:用户点击“数据挖掘”菜单,进入数据挖掘成果导航页,可以查询集团范围内各个BG的数据挖掘团队挖掘的范围、内容、成果,便于根据此导航找到相关责任人获取相关信息,共享知识成果,更好的协作等(备注:可筛选查询),内容如表11所示。
表11
点击“挖掘内容名称”(也可以勾选复选框,查询多个挖掘内容名称的明细内容),进入详情页,内容如表12所示。
表12
在详情页页面支持多条件综合查询。点击“挖掘事项名称”则跳转到其挖掘结果表元数据;如果没有超链接,则说明不用跳转,挖掘结果元数据表不对外提供;如果有超链接而没有访问权限,则跳转到权限申请系统的权限申请页面。
进一步的,在一实施例中,元数据管理方法还包括:调度监控权限管控元数据管理。
具体的,在一实施例中,调度监控权限管控元数据管理包括:
记录并管理ETL调度信息,包括,根据ETL调度信息检测并校对元数据、导入相关的元数据,将ETL调度信息与源表、目标结果表链接,分类展示ETL 调度信息以及相关的调度配置信息、源表、目标表的明细信息。
具体的,在一实施例中,调度监控权限管控元数据管理包括:
记录并管理数据质量监控信息,包括,全链监控ETL工作流程以及调度运行情况。
具体的,在一实施例中,针对ETL调度信息支持精确或模糊搜索查询。当发现某ETL调度配置信息需要在调度系统修改,则直接通过ETL调度JOB 名称跳转,有权限则被链接到ETL调度系统,无权限则被链接到权限管控系统申请页面。
优选地,在一实施例中,在数据采集入大数据平台、数据入数据仓库ODS 层、数据清洗转换整合入数据仓库CDM层、数据按业务逻辑计算入数据仓库 ADS层的过程中记录并管理相关的数据质量监控信息。具体的,在一实施例中,支持精确搜索或模糊搜索,当点击信息供应链上的某个表的名称,有权限则被链接到数据质量管理系统进行细粒度操作,无权限则被链接到权限管控系统申请页面。
具体的,在一实施例中,调度监控权限管控元数据管理包括:
综合分析ETL调度信息以及所述数据质量监控信息,包括,相互关联和/ 或相互集成所述ETL调度信息以及所述数据质量监控信息。具体的,在一实施例中,可以根据ETL调度JOB名追溯信息链数据质量,也可以根据某表某字段数据质量追溯信息链上的ETL调度JOB。
进一步的,在一实施例中,ETL调度信息以及所述数据质量监控信息的综合分析支持精确搜索或模糊搜索查询,可查询不同JOB的不同异常类型累计次数及历史情况,点击异常ETL调度历史记录,可以直观看到异常信息,点击 ETL调度JOB名称,有权限则被链接到ETL调度系统进行细粒度操作,无权限则被链接到权限管控系统申请页面。ETL调度信息以及数据质量监控信息的综合分析进一步推进了全链路数据质量检核闭环的实施,为数据仓库 ONEDATA的运行、维护、使用提供全方位支撑。
优选地,在一实施例中,以数据地图的方式,分类展示ETL调度信息。在一实施例中,以图谱的方式展示ETL工作流程、调度运行情况的监控结果信息。在一实施例中,以数据地图的方式宏观展示,ETL调度JOB名与信息链数据质量间的相互追溯情况。本发明的方法通过图谱与表格相结合的方式进行数据内容展示,屏蔽了认知数据、揭示数据、共享知识的复杂度改善了人与人之间的协作关系,降低了沟通成本。
优选地,在一实施例中,为了进一步完善元数据内容的采集,避免数据遗漏,对元数据的收集、维护,采用手动+自动相结合的方式。具体的,在一实施例中,在配置维护展示功能打点元数据和/或结构化配置维护展示各业务系统、各业务系统功能模块、业务流程、功能点、相关业务细节说明并与相关功能打点、对应的业务数据表建立链接的过程中,既支持自动比较核对,也支持手动导入、创建、修改、查询。在一实施例中,针对业务系统元数据、数据仓库元数据和/或数据应用元数据,支持根据相应元数据模版手动导入各个实体表元数据、手动新增、手动修改、手动删除、手动查询各个实体表元数据。
进一步的,基于本发明提出的方法,本发明还提出了一种计算机可读介质,其上存储有计算机可读指令,该计算机可读指令可被处理器执行以实现本发明所述的方法。
进一步的,基于本发明提出的方法,本发明还提出了一种用于在用户设备端信息处理的设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行本发明所述的方法。
进一步的,基于本发明提出的方法,本发明还提出了一种元数据管理系统(Metadata Management System,MMS)。如图4所示,在一实施例中,元数据管理系统400在数据采集、数据存储以及数据应用过程中,对相关的元数据进行全链管理。元数据管理系统400包括分别用于管理业务系统元数据、数据仓库元数据以及数据应用元数据的业务系统元数据管理模块410、数据仓库元数据管理模块420以及数据应用元数据管理模块430。
进一步的,在一实施例中,元数据管理系统400还配置有调度监控权限管控元数据管理功能。调度监控权限管控元数据管理功能被整合到业务系统元数据管理模块、数据仓库元数据管理模块、基于数据仓库的数据应用元数据管理模块,成为它们的一个功能点。
优选地,在一实施例中,元数据管理系统和Hadoop平台无缝集成,处理逻辑全部推向Hadoop平台(备注:数据处理能力随着大数据平台的不断扩展而扩展)。支持的Hadoop平台应用有HDFS、Hive、Hbase、Pig、Sqoop等等,元数据管理系统支持标准SQL、MR、Spark、Spark Stream、Flink等ETL程序元数据监控和检查(备注:包含批处理数据、实时数据在分布式环境下并行处理等),支持自适应电脑、平板、智能手机等各种设备(备注:在掌中宝中提供入口,进入元数据管理系统),具有集中展示、监管、规范集团范围内数据领域一切数据描述的功能。
优选地,如图5所示,在一实施例中,元数据管理系统500与ETL调度系统510、数据质量监控系统520、权限管理系统530、Hadoop平台540集成,实现与业务系统(A、B、C)以及数据仓库(ONEDATA)的元数据交互管理并共享输出文档、知识、数据分析用例,数据挖掘用例。
具体的,在一实施例中,元数据管理系统的元数据管理框架采用Apache Atlas;元数据存储后端数据库为hbase;元数据索引存储后端为ElasticSearch;元数据对象存储为Neo4J。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray, FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、 Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL (Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、 RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL (Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (14)
1.一种元数据管理方法,其特征在于,在从数据产生、到数据加工、再到数据结果应用的全链流程环节中对包括业务系统元数据、数据仓库元数据以及数据应用元数据的元数据进行全链管理,包括:
获取所述全链流程环节中的不同元数据并保存到元数据数据仓库;
获取所述元数据数据仓库中的不同元数据间的元数据血缘关系并保存到图形数据库;
以及,
将元数据索引保存到搜索服务器,以利用所述图形数据库中保存的元数据血缘关系,对所述元数据索引展示的用户查询需求的元数据进行血缘追踪,得到与所述用户查询需求的元数据具有元数据血缘关系的元数据,其中,所述血缘追踪包括全链血缘追踪,所述全链血缘追踪指从当前选择的元数据,查询出所有引用的以及依赖的上下游元数据;
其中,针对基于数据仓库的数据应用元数据进行管理包括:
建立关键大数据业务术语及业务定义词库,所述词库包含共享词汇表,所述共享词汇表用于保证所述数据仓库元数据的每个元数据元素在信息供应链中每个组件的语义上保持一致;和,记录数据仓库不同层不同主题域与数据库表的关系及内容;和,分类并标识数据仓库不同层不同主题域敏感数据;其中,按照主题域管理的方式,管理所述数据应用元数据内容的描述;
其中,将所述元数据血缘关系保存到图形数据库,其中,以关系图谱的形式将所述元数据血缘关系保存到所述图形数据库,每条描述数据的元数据存储于图的顶点,元数据之间的血缘关系存储于图的边。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括,针对所述业务系统元数据进行管理,其中,所述业务系统元数据包括:业务涵义描述、数据应用场景描述、业务延伸定义、业务规则定义、数据之间关系描述、指标定义。
3.根据权利要求2所述的方法,其特征在于,针对所述业务系统元数据进行管理的管理对象包括:描述业务系统功能点的数据、描述业务系统表结构的数据、描述业务系统枚举字典的数据、描述业务系统特有的业务/技术术语的数据。
4.根据权利要求2或3所述的方法,其特征在于,针对所述业务系统元数据进行管理,包括:
同步业务系统表的表数据到元数据管理系统,比较核对所述业务系统表和元数据模型表,基于比较核对结果增量维护所述元数据模型表;
和,
链接所述业务系统表与调度系统,识别并记录已经入库的所述业务系统表以及没有入库的所述业务系统表,其中,对已经入库的所述业务系统表进行血缘追踪;
和,
配置维护功能打点元数据,结构化配置维护各业务系统、各业务系统功能模块、业务流程、功能点、相关业务细节说明,并与功能打点以及对应的业务数据表建立链接。
5.根据权利要求1所述的方法,其特征在于,所述方法包括,针对所述数据仓库元数据进行管理,其中,按照分层分域管理的方式,管理所述数据仓库元数据的内容描述。
6.根据权利要求5所述的方法,其特征在于,针对所述数据仓库元数据进行管理的管理对象包括:数据仓库各层数据实体的描述、各个数据实体数据计算取值逻辑详细内容的描述、各个数据实体字段枚举值描述、各个数据实体及字段的血缘关系描述、各个实体表对应的作业异常描述。
7.根据权利要求1所述的方法,其特征在于,针对所述数据应用元数据进行管理的管理对象包括:数据应用领域各个数据实体的描述、各个数据实体数据计算取值逻辑详细内容的描述、各个数据实体字段枚举值描述、各个数据实体及字段的血缘关系描述、各个实体表对应的作业异常描述、统计报表描述、数据挖掘描述、统计分析描述、资源能力描述。
8.根据权利要求1所述的方法,其特征在于,针对基于数据仓库的数据应用元数据进行管理,包括:记录数据仓库数据应用层不同主题域与数据库表的关系及内容;
和,
记录数据应用用例。
9.根据权利要求1中任一项所述的方法,其特征在于,所述方法还包括:
记录并管理ETL调度信息,包括,根据所述ETL调度信息检测并校对所述元数据、导入相关的元数据,将所述ETL调度信息与源表、目标结果表链接,分类展示所述ETL调度信息以及相关的调度配置信息、源表、目标表的明细信息;
和,
记录并管理数据质量监控信息,包括,全链监控ETL工作流程以及调度运行情况;
和,
综合分析所述ETL调度信息以及所述数据质量监控信息,包括,相互关联和/或相互集成所述ETL调度信息以及所述数据质量监控信息。
10.根据权利要求9所述的方法,其特征在于,获取所述元数据,包括:
获取元数据存储路径及名称,解析所述元数据存储路径及名称对应的内容,获取所述元数据;
和,
导入按照元数据模版约定格式描述的元数据;
和,
直接手动录入所述元数据。
11.根据权利要求10所述的方法,其特征在于,获取不同的元数据间的元数据血缘关系,其中,根据业务系统、数据仓库、数据应用之间的ETL调度作业依赖关系捕获所述元数据血缘关系。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
基于所述元数据索引展示对应用户查询需求的元数据;
和,
基于所述元数据血缘关系,根据用户检索查询需求针对当前展示的元数据进行血缘追踪,展示对应的元数据血缘关系和/或元数据,所述血缘追踪包括逆向血缘追踪、正向血缘追踪和/或全链血缘追踪。
13.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至12中任一项所述的方法。
14.一种用于在用户设备端信息处理的设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行权利要求1至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811617520.1A CN109739893B (zh) | 2018-12-28 | 2018-12-28 | 一种元数据管理方法、设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811617520.1A CN109739893B (zh) | 2018-12-28 | 2018-12-28 | 一种元数据管理方法、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109739893A CN109739893A (zh) | 2019-05-10 |
CN109739893B true CN109739893B (zh) | 2022-04-22 |
Family
ID=66361689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811617520.1A Active CN109739893B (zh) | 2018-12-28 | 2018-12-28 | 一种元数据管理方法、设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109739893B (zh) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287245B (zh) * | 2019-05-15 | 2021-03-19 | 北方工业大学 | 用于分布式etl任务调度执行的方法及系统 |
CN110347882A (zh) * | 2019-06-27 | 2019-10-18 | 北京明略软件系统有限公司 | 数据的血缘分析方法及装置、存储介质和电子装置 |
CN110532261B (zh) * | 2019-07-24 | 2022-09-20 | 苏州浪潮智能科技有限公司 | 一种对Hive数据仓库进行可视化监控的方法和装置 |
CN110389944B (zh) * | 2019-07-29 | 2023-05-05 | 浪潮软件股份有限公司 | 一种基于模型的元数据管理系统及方法 |
CN110457371A (zh) * | 2019-08-13 | 2019-11-15 | 杭州有赞科技有限公司 | 数据管理方法、装置、存储介质及系统 |
CN110598074A (zh) * | 2019-08-13 | 2019-12-20 | 北京邮电大学 | 关于科技咨询大数据的统一资源组织管理的方法与系统 |
CN110516130A (zh) * | 2019-08-28 | 2019-11-29 | 北京明略软件系统有限公司 | 元数据处理方法及装置、存储介质、电子装置 |
CN112579705A (zh) * | 2019-09-27 | 2021-03-30 | 北京国双科技有限公司 | 元数据采集方法、装置、计算机设备和存储介质 |
CN110807033B (zh) * | 2019-10-12 | 2023-01-31 | 中思博安科技(北京)有限公司 | 数据管理方法、装置及系统 |
CN110780950B (zh) * | 2019-10-24 | 2024-02-20 | 深圳前海环融联易信息科技服务有限公司 | 接口元数据管理方法、装置、计算机设备及存储介质 |
CN110765196A (zh) * | 2019-10-25 | 2020-02-07 | 四川东方网力科技有限公司 | 生成并执行etl任务的方法及设备 |
CN110765111B (zh) * | 2019-10-28 | 2023-03-31 | 深圳市商汤科技有限公司 | 存储和读取方法、装置、电子设备和存储介质 |
CN110781520A (zh) * | 2019-10-30 | 2020-02-11 | 上海观安信息技术股份有限公司 | 一种敏感表群体发现方法及系统 |
CN110941657B (zh) * | 2019-11-08 | 2023-03-31 | 支付宝(杭州)信息技术有限公司 | 业务数据处理方法及装置 |
CN110928979B (zh) * | 2019-11-11 | 2022-12-20 | 北京明略软件系统有限公司 | 管理技术元数据的方法和装置 |
CN111008192B (zh) * | 2019-11-14 | 2023-06-02 | 泰康保险集团股份有限公司 | 一种数据管理方法、装置、设备及介质 |
CN111339075A (zh) * | 2020-02-28 | 2020-06-26 | 三盟科技股份有限公司 | 面向教育领域的数据追溯方法、系统、设备及存储介质 |
CN111414352B (zh) * | 2020-03-27 | 2023-08-18 | 北京明略软件系统有限公司 | 一种数据库信息的管理方法和装置 |
CN111861830B (zh) * | 2020-04-03 | 2024-04-26 | 深圳市天彦通信股份有限公司 | 一种情报云平台 |
CN111666186B (zh) * | 2020-04-26 | 2023-09-15 | 杭州数梦工场科技有限公司 | 数据访问异常的检测方法、装置、存储介质及计算机设备 |
CN111259068A (zh) * | 2020-04-28 | 2020-06-09 | 成都四方伟业软件股份有限公司 | 一种基于数据仓库的数据开发方法及系统 |
US11636096B2 (en) | 2020-04-30 | 2023-04-25 | International Business Machines Corporation | Custom metadata tag inheritance based on a filesystem directory tree or object storage bucket |
CN111639068A (zh) * | 2020-05-24 | 2020-09-08 | 中信银行股份有限公司 | 一种基于多系统的公共数据池生成方法、装置、设备、和可读存储介质 |
CN111367989B (zh) * | 2020-06-01 | 2020-08-28 | 北京江融信科技有限公司 | 一种实时数据指标计算系统和方法 |
US11334593B2 (en) * | 2020-08-05 | 2022-05-17 | International Business Machines Corporation | Automated ETL workflow generation |
CN113778542A (zh) * | 2020-08-31 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 业务配置表生成方法和装置 |
CN112347112B (zh) * | 2020-09-16 | 2022-03-15 | 北京中兵数字科技集团有限公司 | 航空数据治理方法、航空数据治理装置和存储介质 |
CN112100661B (zh) * | 2020-09-16 | 2024-03-12 | 深圳集智数字科技有限公司 | 一种数据处理方法及装置 |
CN112115315A (zh) * | 2020-09-25 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 血缘数据查询方法、装置、计算机设备及存储介质 |
CN112463978B (zh) * | 2020-11-13 | 2021-07-16 | 上海逸迅信息科技有限公司 | 一种数据血缘关系的生成方法和设备 |
CN112560053A (zh) * | 2020-12-09 | 2021-03-26 | 北京红山信息科技研究院有限公司 | 生产环境数据的保护方法、装置、计算机设备及存储介质 |
CN112527796B (zh) * | 2020-12-10 | 2023-07-21 | 中移(杭州)信息技术有限公司 | 数据表处理方法、装置及计算机可读存储介质 |
CN112434071B (zh) * | 2020-12-15 | 2021-07-20 | 北京三维天地科技股份有限公司 | 一种基于数据图谱的元数据血缘关系与影响分析平台 |
CN112579674A (zh) * | 2020-12-25 | 2021-03-30 | 特赞(上海)信息科技有限公司 | 利用元数据支持跨行业的管理方法、系统、介质及终端 |
CN114691786A (zh) * | 2020-12-30 | 2022-07-01 | 中兴通讯股份有限公司 | 数据血缘关系的确定方法及装置、存储介质、电子装置 |
CN112783857B (zh) * | 2020-12-31 | 2023-10-20 | 北京知因智慧科技有限公司 | 一种数据血缘管理方法、装置、电子设备及存储介质 |
CN112989151B (zh) * | 2021-03-11 | 2024-05-14 | 北京锐安科技有限公司 | 数据血缘关系展示方法、装置、电子设备及存储介质 |
CN113297139A (zh) * | 2021-04-28 | 2021-08-24 | 上海淇玥信息技术有限公司 | 元数据查询方法、系统及电子设备 |
CN113326261B (zh) * | 2021-04-29 | 2024-03-08 | 奇富数科(上海)科技有限公司 | 数据血缘关系提取方法、装置及电子设备 |
CN113468257A (zh) * | 2021-07-05 | 2021-10-01 | 乐融致新电子科技(天津)有限公司 | 基于数据仓库的数据质量监控方法及装置 |
CN115080602B (zh) * | 2022-03-21 | 2023-05-26 | 北京科杰科技有限公司 | 一种基于nlp算法实现数据资产精准搜索方法 |
CN114780525A (zh) * | 2022-04-06 | 2022-07-22 | 厦门知彦信息科技有限公司 | 一种面向教育领域全生命周期的数据治理平台 |
CN114510611B (zh) * | 2022-04-20 | 2022-07-05 | 中信证券股份有限公司 | 一种构建元数据血缘图谱的方法、装置及相关设备 |
CN114610725B (zh) * | 2022-05-11 | 2022-08-16 | 成都九洲电子信息系统股份有限公司 | 一种计算机设备及其应用方法、存储介质 |
CN115168363B (zh) * | 2022-07-29 | 2023-04-18 | 北京远舢智能科技有限公司 | 元数据的处理方法、装置、电子设备及存储介质 |
CN116541887B (zh) * | 2023-07-07 | 2023-09-15 | 云启智慧科技有限公司 | 一种大数据平台数据安全保护方法 |
CN117194533A (zh) * | 2023-11-08 | 2023-12-08 | 中国电子科技集团公司第十五研究所 | 一种元数据服务发布方法和系统 |
CN117493641B (zh) * | 2024-01-02 | 2024-03-22 | 中国电子科技集团公司第二十八研究所 | 一种基于语义元数据的二次模糊搜索方法 |
CN117648388B (zh) * | 2024-01-29 | 2024-04-12 | 成都七柱智慧科技有限公司 | 一种可视化的安全实时的数据仓库实现方法及其系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515290B (zh) * | 2009-03-25 | 2011-08-31 | 中国工商银行股份有限公司 | 具有双向互动特征的元数据管理系统及其实现方法 |
CN101859303A (zh) * | 2009-04-07 | 2010-10-13 | 中国移动通信集团湖北有限公司 | 元数据管理方法及管理系统 |
CN101639776A (zh) * | 2009-09-07 | 2010-02-03 | 陈小青 | 一种数据库访问和集成方法及其系统 |
US8447721B2 (en) * | 2011-07-07 | 2013-05-21 | Platfora, Inc. | Interest-driven business intelligence systems and methods of data analysis using interest-driven data pipelines |
CN102902750A (zh) * | 2012-09-20 | 2013-01-30 | 浪潮齐鲁软件产业有限公司 | 一种通用的数据抽取转换方法 |
CN104142980B (zh) * | 2014-07-15 | 2017-11-17 | 中电科华云信息技术有限公司 | 基于大数据的元数据模型管理系统和管理方法 |
CN104881462B (zh) * | 2015-05-22 | 2018-11-13 | 广东中标数据科技股份有限公司 | 元数据管理系统 |
CN105760520A (zh) * | 2016-02-26 | 2016-07-13 | 广州品唯软件有限公司 | 一种数据管控平台及架构 |
CN106339509A (zh) * | 2016-10-26 | 2017-01-18 | 国网山东省电力公司临沂供电公司 | 一种基于大数据技术的电网运营数据共享系统 |
CN107256247A (zh) * | 2017-06-07 | 2017-10-17 | 九次方大数据信息集团有限公司 | 大数据数据治理方法和装置 |
CN107609052B (zh) * | 2017-08-23 | 2019-09-24 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱的生成方法及装置 |
CN108769212B (zh) * | 2018-05-31 | 2023-04-07 | 康键信息技术(深圳)有限公司 | 数据同步方法、装置、计算机设备和存储介质 |
CN108959564B (zh) * | 2018-07-04 | 2020-11-27 | 玖富金科控股集团有限责任公司 | 数据仓库元数据管理方法、可读存储介质和计算机设备 |
-
2018
- 2018-12-28 CN CN201811617520.1A patent/CN109739893B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109739893A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109739893B (zh) | 一种元数据管理方法、设备及计算机可读介质 | |
Gupta et al. | A study of big data evolution and research challenges | |
US11537370B2 (en) | System and method for ontology induction through statistical profiling and reference schema matching | |
US11386085B2 (en) | Deriving metrics from queries | |
US9535902B1 (en) | Systems and methods for entity resolution using attributes from structured and unstructured data | |
CN107787491B (zh) | 用于重新使用文档中的内容的文档存储 | |
US20150095303A1 (en) | Knowledge Graph Generator Enabled by Diagonal Search | |
Lee et al. | Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking | |
US20180203691A1 (en) | Cognitive feature analytics | |
CN111538794A (zh) | 一种数据融合方法、装置及设备 | |
Weiler et al. | An evaluation of the run-time and task-based performance of event detection techniques for Twitter | |
US11481454B2 (en) | Search engine results for low-frequency queries | |
Ravichandran | Big Data processing with Hadoop: a review | |
CN111240866A (zh) | 一种业务数据处理方法及装置 | |
US9286348B2 (en) | Dynamic search system | |
US20220156228A1 (en) | Data Tagging And Synchronisation System | |
US20130254224A1 (en) | Dynamic relevant reporting | |
Verma et al. | Multi-structured Data Analytics using Interactive Visualization to aid Business Decision Making | |
US11544122B2 (en) | Systems and methods for identifying similar electronic content items | |
US10997129B1 (en) | Data set virtual neighborhood characterization, provisioning and access | |
US20220207050A1 (en) | Systems and methods for identifying similar electronic content items | |
Golfarelli | Social Business Intelligence | |
Streibel et al. | Trend Template: Mining Trends With a Semi-formal Trend Model. | |
Badia | Databases as social entities | |
Sun et al. | Fast and Semantic Measurements on Collaborative Tagging Quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211214 Address after: 201306 Zone E, floor 9, No. 1, Lane 666, zhangheng Road, Pudong New Area, Shanghai Applicant after: Shanghai Shangxiang Network Technology Co.,Ltd. Address before: 200120 2, building 979, Yun Han Road, mud town, Pudong New Area, Shanghai Applicant before: SHANGHAI LIANSHANG NETWORK TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |