CN116991931A

CN116991931A - 一种元数据管理方法和系统

Info

Publication number: CN116991931A
Application number: CN202311100573.7A
Authority: CN
Inventors: 方圆; 肖维; 林涛
Original assignee: China Datacom Corp ltd
Current assignee: China Datacom Corp ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-11-03

Abstract

本发明公开了一种元数据管理方法和系统，属于元数据管理技术领域，方法包括：配置元数据采集器；通过元数据采集器采集元数据；对采集到的元数据进行管理，其中，管理方式包括：血缘分析、对比分析、重复性分析和质量评估；通过元模型对采集到的元数据进行维护；对元模型进行管理，其中，管理方式包括：版本管理、扩展定制和血缘分析。在本发明中，通过元数据采集器自动化地采集元数据，提升了元数据的采集效率，避免采用手动采集，降低维护元数据的工作量，减少遗漏和错误的发生。通过对元数据进行血缘分析、对比分析、重复性分析和质量评估，完善数据质量管理，提供全面的数据质量评估和监控机制，有效保证元数据的准确性、完整性和一致性。

Description

一种元数据管理方法和系统

技术领域

本发明属于元数据管理技术领域，具体涉及一种元数据管理方法和系统。

背景技术

元数据管理是对元数据的新增、发布、查询、变更、删除(下线)等流程进行操作和监管，它加强了对元数据发布前、变更时、下线时等流程的合规性审核，并协调解决关于元数据管理工作的重大事项，保证实施过程合规合理。

当前的元数据管理方法，首先，元数据采集和更新是元数据管理的基础工作，当前元数据管理方法在元数据采集的自动化程度和灵活性上仍有不足，手动采集和维护元数据的工作量大，且容易出现遗漏和错误。其次，在数据质量管理方面的功能还不够完善，缺乏全面的数据质量评估和监控机制，无法有效保证元数据的准确性、完整性和一致性。

发明内容

为了解决当前元数据管理方法在元数据采集的自动化程度和灵活性上仍有不足，手动采集和维护元数据的工作量大，且容易出现遗漏和错误，在数据质量管理方面的功能还不够完善，缺乏全面的数据质量评估和监控机制，无法有效保证元数据的准确性、完整性和一致性的技术问题，本发明提供一种元数据管理方法和系统。

第一方面

本发明提供了一种元数据管理方法，应用于云数据管理系统，包括：

S101：配置元数据采集器；

S102：通过元数据采集器采集元数据；

S103：对采集到的元数据进行管理，其中，管理方式包括：血缘分析、对比分析、重复性分析和质量评估；

S104：通过元模型对采集到的元数据进行维护；

S105：对所述元模型进行管理，其中，管理方式包括：版本管理、扩展定制和血缘分析。

第二方面

本发明提供了一种元数据管理系统，用于执行第一方面中的元数据管理方法。

与现有技术相比，本发明至少具有以下有益技术效果：

(1)在本发明中，配置元数据采集器，之后通过元数据采集器自动化地采集元数据，提升了元数据的采集效率，避免采用手动采集，降低维护元数据的工作量，减少遗漏和错误的发生。

(2)在本发明中，通过对元数据进行血缘分析、对比分析、重复性分析和质量评估实现对于元数据的管理，完善数据质量管理，提供全面的数据质量评估和监控机制，有效保证元数据的准确性、完整性和一致性。

(3)在本发明中，通过对元模型进行版本管理、扩展定制和血缘分析实现对于元模型的管理，提升元数据的可理解性和规范性。版本管理确保随着时间的推移，元数据的变更可追溯和管理。扩展定制允许根据业务需求添加新的属性、关系等，使元数据适应变化的业务场景。血缘分析帮助了解数据之间的关联和影响，增强数据的可视化和解释能力。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种元数据管理方法的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。可以是机械连接，也可以是电连接。可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的一种元数据管理方法的流程示意图。

本发明提供的一种元数据管理方法，应用于云数据管理系统。

其中，云数据管理系统基于湖仓一体技术，打通数据仓库和数据湖，使底层支持多种数据类型并存，实现数据间的相互融合共享。这种融合性的架构突破了传统数据管理的边界，为元数据管理能力的实现提供了更好的基础。湖仓一体技术将传统的数据仓库和数据湖结合在一起，充分发挥各自的优势。数据仓库提供结构化数据存储和管理的能力，适用于关系型数据和规范化数据模式。而数据湖则提供了存储各种数据类型和格式的能力，包括结构化数据、半结构化数据和非结构化数据等。

通过打通数据仓库和数据湖，不同类型的数据可以在同一个平台上存储和管理，实现了数据的统一视图和集成访问。这使得元数据管理更加全面和综合，能够管理和跟踪不同类型的数据元素，包括数据库表、文件、API接口、流数据等。同时，元数据管理平台可以对这些数据元素进行分类、描述和关联，提供全局视图和一致的元数据定义。

在湖仓一体架构中，元数据管理平台可以利用数据湖的特性，实现对大数据和实时数据的管理和分析。通过元数据管理平台，用户可以轻松查找和访问各种数据源的元数据，了解数据的来源、质量和可用性等信息。这为数据治理和数据分析提供了强大的支持，促进了数据驱动的决策和创新。

此外，湖仓一体技术还能够更好地支持元数据的血缘分析和影响分析。通过对数据仓库和数据湖中的数据元素进行血缘追踪，可以了解数据的流动路径和变换过程，帮助用户了解数据的源头和去向，支持数据质量管理和数据治理的工作。

本发明提供的一种元数据管理方法，包括：

S101：配置元数据采集器。

其中，元数据采集器是针对不同类型数据库，采用相应的方式获取元数据的程序。元数据采集器管理用来管理元数据采集器的配置信息，包括采集器的名称、编码、驶入方式、采集器描述等。用户可通过界面来维护元数据采集器的配置信息，如新增、修改、删除等功能。

在一种可能的实施方式中，S101具体包括子步骤S1011至S1016：

S1011：将元数据采集器注册到系统中，对元数据采集器进行参数配置。

其中，需要配置的参数包括：连接信息、采集频率、采集范围等。

S1012：将元数据采集器与系统建立通信连接。

具体而言，通过数据接口将系统与元数据采集器建立连接，使采集器具有访问和读取相应数据源的权限。

S1013：对元数据采集器进行身份认证。

具体而言，为保证数据传输的安全性，通过认证凭证对采集器进行认证。

S1014：配置元数据采集器的采集任务。

在一种可能的实施方式中，S1014具体包括孙步骤S10141至S10143：

S10141：对元数据采集器的采集任务进行创建、修改或者删除。

S10142：设置采集任务的采集时间、采集频率和采集范围。

S10143：对采集任务的执行情况进行记录和监控，执行情况包括：是否采集成功、采集时间和采集数据量。

S1015：监测元数据采集器的工作状态是否异常。

S1016：当监测到元数据采集器的工作状态存在异常时，发出警报和通知。

S102：通过元数据采集器采集元数据。

在一种可能的实施方式中，S102具体为：通过元数据采集器，从数据库、文件系统、应用程序和数据仓库中，采集元数据。

在本发明中，配置元数据采集器，之后通过元数据采集器自动化地采集元数据，提升了元数据的采集效率，避免采用手动采集，降低维护元数据的工作量，减少遗漏和错误的发生。

S103：对采集到的元数据进行管理。

其中，管理方式包括：血缘分析、对比分析、重复性分析和质量评估。

在一种可能的实施方式中，S103具体包括子步骤S1031至S1037：

S1031：将采集到的元数据存储到存储仓库中。

S1032：对元数据的存储结构、索引和检索机制进行设置。

S1033：对元数据进行分类，对元数据的类型进行定义，对元数据的命名进行标准化处理。

S1034：对元数据之间的关系进行血缘分析。

其中，血缘分析采用图形方式呈现以某个元数据为终止节点，其前与有关系的所有元数据，反映数据的来源与加工过程，使用血缘分析可支持数据来源及数据质量问题的定位分析。

影响分析采用图形方式呈现以某个元数据为起始节点，其后与其有关系的所有元数据，反应数据的流向与加工过程，使用影响分析可分析数据流向及数据变动影响面分析。

全链分析采用图形方式呈现以某个元数据为节点，其前后与其有关系的所有元数据，反应数据的来源、来源加工过程、流向、及流向加工过程，可以让用户把握节点数据的来龙去脉。

在一种可能的实施方式中，S1034具体包括孙步骤S10341至S10348：

S10341：确定血缘分析目标。

具体而言，明确血缘分析的目的和范围，确定要分析的数据元素或数据集。比如特定的数据字段、数据表、数据文件等。

S10342：收集与血缘分析目标具有关联的元数据信息。

具体而言，收集相关的元数据信息，包括数据源、数据表、数据字段、数据文件等的元数据描述。

S10343：追踪元数据的来源信息。

具体而言，从数据关系图谱的起点开始，追踪数据元素的来源。查看元数据信息中的源表或源字段，记录下数据元素的来源信息。继续追踪源表或源字段的来源，直到达到数据元素的最初来源。

S10344：追踪元数据的去向信息。

具体而言，从数据关系图谱的起点开始，追踪数据元素的去向。查看元数据信息中的目标表或目标字段，记录下数据元素的去向信息。继续追踪目标表或目标字段的去向，直到达到数据元素的最终去向。

S10345：通过图表工具和数据建模工具，根据元数据的来源信息和去向信息，构建数据关系图谱。

具体而言，通过图表工具和数据建模工具，对使收集到的元数据信息建立数据关系图谱，绘制数据元素之间的关系和依赖关系，以形成直观的数据关系图。

S10346：分析数据关系图谱中的血缘信息，血缘信息包括关联关系和依赖关系。

具体而言，分析数据关系图谱中的关系和依赖关系。观察数据元素之间的连接和关联方式，了解数据元素之间的依赖关系、数据流向和数据转换等。

S10347：对于血缘信息缺失或不完整的数据，通过数据探查、查询或者采集，补充缺失的血缘信息。

S10348：根据血缘信息，对目标元数据进行血缘追踪。

具体而言，基于血缘信息，进行进一步的血缘追踪和影响分析。追踪特定数据元素的血缘关系，了解其过程中的数据变化和转换。分析数据元素的影响范围，了解修改或删除某个数据元素可能产生的影响。

S1035：对元数据之间的关系进行对比分析。

在一种可能的实施方式中，S1035具体包括孙步骤S10351至S10354：

S10351：选取需要对比分析的元数据。

S10352：设置需要对比的属性。

S10353：获取元数据的相应的属性值，通过机器学习、自然语言处理和/或规则引擎对属性值进行对比。

可选地，分析元数据的属性值的准确性、完整性和一致性等，通过检查属性值的差异和异常情况，系统可以标识和报告数据质量问题，并提供相应的建议和修复措施。

可选地，应用数据挖掘和机器学习技术，对元数据的属性值进行分析和挖掘。通过对元数据实例进行聚类、分类、关联规则挖掘等技术，系统可以发现属性值之间的模式和差异，并提供洞察和决策支持。

可选地，对于文本类型的属性值，系统可以应用文本分析和自然语言处理技术来提取和分析差异。这包括词频统计、关键词提取、文本聚类等方法，以识别和理解文本属性值之间的差异。

可选地，系统集成规则引擎，通过定义和执行特定的规则来处理元数据属性值的差异。通过规则引擎，系统可以自动识别和处理属性值的差异，例如修复错误、补充缺失值、进行数据转换等操作。

S10354：以可视化报表的形式，展示对比分析结果。

S1036：对元数据之间的关系进行重复性分析。

在一种可能的实施方式中，S1036具体包括孙步骤S10361至S10366：

S10361：选取需要进行重复性分析的元数据范围。

S10362：通过相似性匹配算法、哈希算法和/或文本分析算法识别重复的元数据。

具体而言，通过比较元数据的属性值、标识符、名称等来进行，系统会检测相同或相似的元数据实例，并标识它们作为潜在的重复元数据。

S10363：对识别出的重复元数据进行分组、标记和分类。

S10364：以可视化报表的形式，展示重复性分析结果。

S10365：对重复元数据进行合并、转换和/或整合处理，删除冗余元数据。

具体而言，通过系统预算的重复元数据处理工具，自动合并重复元数据、删除冗余元数据、进行数据转换和整合等。

S10366：以预设频率定期对元数据进行重复性分析。

具体而言，设置定期监测和更新元数据，通过自动化任务设置定期扫描，以确保已经处理过的重复元数据不再出现，并提供通知和警报机制，及时通知用户有关重复元数据的新发现。

S1037：对元数据的质量进行评估和监控。

具体而言，对元数据质量进行评估和监控，提高数据管理和数据治理的效果。包括定义元数据质量指标、进行数据质量度量和评估、检测和解决元数据质量问题等子步骤。

在本发明中，通过对元数据进行血缘分析、对比分析、重复性分析和质量评估实现对于元数据的管理，完善数据质量管理，提供全面的数据质量评估和监控机制，有效保证元数据的准确性、完整性和一致性。

S104：通过元模型对采集到的元数据进行维护。

S105：对元模型进行管理。

其中，管理方式包括：版本管理、扩展定制和血缘分析。

在一种可能的实施方式中，S105具体包括子步骤S1051至S1057：

S1051：将元模型存储到元模型仓库中。

S1052：对元模型的版本号进行定义。

S1053：对元模型进行版本管理。

其中，版本管理包括：版本创建、版本比较、版本回溯和版本合并。

其中，版本创建是指当对元数据进行更改时，创建新的版本，并记录变更的内容、时间和负责人。

其中，版本比较是指通过系统提供的比较机制，用户对不同版本的元数据进行比较，了解变更的内容和影响。

其中，版本回溯是指允许用户回溯到之前的版本，以查看以前的元数据状态和属性。

其中，版本合并是指当多个用户对同一元数据对象的不同版本进行修改时，可能制定合并规定，对这些版本进行合并，确保变更能够合理地合并到一个版本中。

S1054：通过为元模型添加新的属性、关系或约束，对元模型进行扩展和定制。

具体而言，用户可以为元模型添加新的属性、关系或约束，或修改现有的元模型定义，以创建符合自身需求的定制化元模型，以此对现有元模型进行扩展和定制，以适应特定的业务需求。

S1055：建立元模型之间的关联系。

S1056：通过追踪元模型的来源信息和去向信息，分析元模型之间的血缘关系。

具体而言，通过追踪元模型之间的关系和依赖，分析数据元素的血缘关系和影响关系，使用户可以了解该元模型的来源、去向和影响范围。

S1057：以可视化报表的形式，展示元模型。

在本发明中，通过对元模型进行版本管理、扩展定制和血缘分析实现对于元模型的管理，提升元数据的可理解性和规范性。版本管理确保随着时间的推移，元数据的变更可追溯和管理。扩展定制允许根据业务需求添加新的属性、关系等，使元数据适应变化的业务场景。血缘分析帮助了解数据之间的关联和影响，增强数据的可视化和解释能力。

具体而言，通过可视化图表功能将元模型通过图表、关系图谱、报表等方式进行可视化展示。使用户能更好地理解和利用元模型。

与现有技术相比，本发明至少具有以下有益技术效果：

实施例2

在一个实施例中，本发明提供的一种元数据管理系统，用于执行实施例1中的元数据管理方法。

本发明提供的一种元数据管理系统可以实现上述实施例1中的元数据管理方法的步骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种元数据管理方法，其特征在于，应用于云数据管理系统，包括：

S101：配置元数据采集器；

S102：通过元数据采集器采集元数据；

S104：通过元模型对采集到的元数据进行维护；

2.根据权利要求1所述的元数据管理方法，其特征在于，所述S101具体包括：

S1011：将所述元数据采集器注册到系统中，对所述元数据采集器进行参数配置；

S1012：将所述元数据采集器与系统建立通信连接；

S1013：对所述元数据采集器进行身份认证；

S1014：配置所述元数据采集器的采集任务；

S1015：监测所述元数据采集器的工作状态是否异常；

S1016：当监测到所述元数据采集器的工作状态存在异常时，发出警报和通知。

3.根据权利要求2所述的元数据管理方法，其特征在于，所述S1014具体包括：

S10141：对所述元数据采集器的采集任务进行创建、修改或者删除；

S10142：设置采集任务的采集时间、采集频率和采集范围；

S10143：对采集任务的执行情况进行记录和监控，所述执行情况包括：是否采集成功、采集时间和采集数据量。

4.根据权利要求1所述的元数据管理方法，其特征在于，所述S102具体为：

通过元数据采集器，从数据库、文件系统、应用程序和数据仓库中，采集元数据。

5.根据权利要求1所述的元数据管理方法，其特征在于，所述S103具体包括：

S1031：将采集到的所述元数据存储到存储仓库中；

S1032：对所述元数据的存储结构、索引和检索机制进行设置；

S1033：对所述元数据进行分类，对所述元数据的类型进行定义，对所述元数据的命名进行标准化处理；

S1034：对所述元数据之间的关系进行血缘分析；

S1035：对所述元数据之间的关系进行对比分析；

S1036：对所述元数据之间的关系进行重复性分析；

S1037：对所述元数据的质量进行评估和监控。

6.根据权利要求5所述的元数据管理方法，其特征在于，所述S1034具体包括：

S10341：确定血缘分析目标；

S10342：收集与所述血缘分析目标具有关联的元数据信息；

S10343：追踪元数据的来源信息；

S10344：追踪元数据的去向信息；

S10345：通过图表工具和数据建模工具，根据元数据的来源信息和去向信息，构建数据关系图谱；

S10346：分析所述数据关系图谱中的血缘信息，所述血缘信息包括关联关系和依赖关系；

S10347：对于血缘信息缺失或不完整的数据，通过数据探查、查询或者采集，补充缺失的血缘信息；

S10348：根据血缘信息，对目标元数据进行血缘追踪。

7.根据权利要求5所述的元数据管理方法，其特征在于，所述S1035具体包括：

S10351：选取需要对比分析的元数据；

S10352：设置需要对比的属性；

S10353：获取元数据的相应的属性值，通过机器学习、自然语言处理和/或规则引擎对属性值进行对比；

S10354：以可视化报表的形式，展示对比分析结果。

8.根据权利要求5所述的元数据管理方法，其特征在于，所述S1036具体包括：

S10361：选取需要进行重复性分析的元数据范围；

S10362：通过相似性匹配算法、哈希算法和/或文本分析算法识别重复的元数据；

S10363：对识别出的重复元数据进行分组、标记和分类；

S10364：以可视化报表的形式，展示重复性分析结果；

S10365：对重复元数据进行合并、转换和/或整合处理，删除冗余元数据；

S10366：以预设频率定期对元数据进行重复性分析。

9.根据权利要求1所述的元数据管理方法，其特征在于，所述S105具体包括：

S1051：将元模型存储到元模型仓库中；

S1052：对元模型的版本号进行定义；

S1053：对所述元模型进行版本管理，其中，版本管理包括：版本创建、版本比较、版本回溯和版本合并；

S1054：通过为元模型添加新的属性、关系或约束，对元模型进行扩展和定制；

S1055：建立元模型之间的关联系；

S1056：通过追踪元模型的来源信息和去向信息，分析元模型之间的血缘关系；

S1057：以可视化报表的形式，展示元模型。

10.一种元数据管理系统，其特征在于，用于执行权利要求1至9任一项所述的元数据管理方法。