CN116932773A

CN116932773A - 一种基于知识图谱的数据治理方法和系统

Info

Publication number: CN116932773A
Application number: CN202310818833.8A
Authority: CN
Inventors: 许彦超
Original assignee: Digital Pole Zhejiang Technology Co ltd
Current assignee: Digital Pole Zhejiang Technology Co ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-10-24

Abstract

本发明公开了一种基于知识图谱的数据治理方法和系统，属于数字资源治理技术领域。本发明通过多个维度信息所形成的元数据对数字资源进行描述，进一步通过该元数据形成知识图谱，对数字资源进行治理，结合元数据和知识图谱，实现了数字资源的治理效率和全面性，方便数字资源的使用。

Description

一种基于知识图谱的数据治理方法和系统

技术领域

本发明涉及数字资源治理技术领域，特别涉及基于知识图谱的数据治理方法、装置和系统。

背景技术

数字资源的利用一直以来都是数字化时代的一大课题。

而在现实中，数字资源往往会因为数据质量不高，来源不明确等等原因导致可用性不强。如何更加有效地对数字资源进行治理，从而挖掘出数字资源的价值，发挥出应有的作用，是数字资源领域的一大痛点。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种基于标准化的数字资源分类方法和系统。所述技术方案如下：

一方面，提供了一种基于知识图谱的数据治理方法，所述方法包括：

按照多个维度，对所述数字资源进行识别和抽取，获取与所述数字资源对应的元数据，所述元数据包括所述数字资源的多个维度信息；

进行知识图谱的schema设计；

根据所述元数据，构建数字资源对应的知识图谱；

根据所述知识图谱，对所述数字资源进行治理。

可选的，所述按照多个维度，对所述数字资源进行识别和抽取，获取与所述数字资源对应的元数据包括：

设置自动抽取模型；所述抽取模型设置为从多个维度抽取所述数字资源的基本信息；

根据所述自动抽取模型，识别并从所述数字资源中抽取多个基本信息，并扩展其他信息；

根据所述多个基本信息和所述其他信息，生成所述元数据。

可选的，所述进行知识图谱的schema设计包括：

设置应用场景明确、数据探查、实体及其属性定义、关系及其属性定义。

可选的，所述根据所述元数据，构建数字资源对应的知识图谱包括：

设置所述元数据作为实体的属性；其中，所述元数据的数字资源实体与所述知识图谱中的实体对应。

可选的，所述根据所述知识图谱，对所述数字资源进行治理包括：

通过算法对所述知识图谱图谱进行挖掘。

另一方面，提供了一种基于知识图谱的数据治理系统，所述系统包括

抽取装置，用于按照多个维度，对所述数字资源进行识别和抽取，获取与所述数字资源对应的元数据，所述元数据包括所述数字资源的多个维度信息；

设计装置，用于进行知识图谱的schema设计；

构建装置，用于根据所述元数据，构建数字资源对应的知识图谱；

治理装置，用于根据所述知识图谱，对所述数字资源进行治理。

可选的，所述抽取装置具体用于：

根据所述多个基本信息和所述其他信息，生成所述元数据。

可选的，所述设计装置具体用于：

可选的，所述构建装置具体用于：

可选的，所述治理装置具体用于：

通过算法对所述知识图谱图谱进行挖掘。

本发明实施例提供的技术方案带来的有益效果是：

通过多个维度信息所形成的元数据对数字资源进行描述，进一步通过该元数据形成知识图谱，对数字资源进行治理，结合元数据和知识图谱，实现了数字资源的治理效率和全面性，方便数字资源的使用。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于知识图谱的数据治理方法流程图；

图2是本发明实施例提供的一种基于知识图谱的数据治理系统示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

众所周知的是，知识图谱技术作为一项新兴的技术在很多领域都有实践。同时，元数据作为“描述数据的数据”，可以为数据治理提供助力，本发明实施例所提供的技术方案，可以从元数据入手，借由元数据撬动数据治理。将知识图谱技术与元数据相结合再赋能数据治理，将会有广阔的应用前景。

参照图1所示，提供了一种基于标准化的数字资源分类方法，所述方法包括：

101、按照多个维度，对数字资源进行识别和抽取，获取与数字资源对应的元数据，元数据包括数字资源的多个维度信息；

102、进行知识图谱的schema设计；

103、根据元数据，构建数字资源对应的知识图谱；

104、根据知识图谱，对数字资源进行治理。

可选的，步骤101按照多个维度，对数字资源进行识别和抽取，生成与数字资源对应的元数据包括：

元数据作为描述数据的数据，会从各个维度反映出数字资源的概况。为了支撑知识图谱的构建，这一阶段的元数据抽取会抽取更多维度的内容。

元数据抽取阶段的抽取规则往往是预先定义好的，比如对数据库表的基础信息、描述信息、字段信息、数据更新时间、所属信息等等进行抽取，这些一般都能由任务调度工具自动抽取。在此之外，某些元数据需要通过人工的方式进行补全。比如数据库表的使用状态、使用者、管理者，和数据源部门等相关信息，字段的共享信息、开放信息、保密信息，和描述信息等，元数据抽取过程可以具体为：

201、设置自动抽取模型；抽取模型设置为从多个维度抽取数字资源的基本信息；

具体的，该设置自动抽取模型可以设置为自学习的语义和字段识别模型，在实际应用中，该自动抽取模型的训练方式不加以限定。

该识别模型的识别过程设置为：

对数字资源以及该数字资源的描述信息，按照多个维度进行语义和字段识别，输出识别结果。

202、根据自动抽取模型，识别并从数字资源中抽取多个基本信息，并扩展其他信息；

元数据分自动抽取和手动抽取两种方式，自动抽取元数据是指不需要人工干预即可伴随元数据摄取任务得到的数据，比如数据库表的基础信息、描述信息、字段信息、数据更新时间、所属信息等等。

203、根据多个基本信息和其他信息，生成元数据。

在实际应用中，步骤203所得到的结果是构建基于元数据的增强数据目录。

其中，需要说明的是，元数据作为描述数据的数据，会从各个维度反映出数字资源的概况。

为了构建增强数据目录，元数据相较于以往的抽取信息，会抽取更多维度的内容。

可选的，步骤101根据自动抽取模型，识别并从数字资源中抽取多个基本信息，并扩展其他信息还包括：

若自动抽取模型无法抽取，则输出结果信息，并指示手动抽取，以获得多个基本信息，并扩展其他信息。

在实际应用中，手动抽取元数据是指数据源存在某些隐私元数据或者数据集本身不存在的描述信息，这些信息无法通过摄取任务自动获取，需要通过人工干预的方式进行维护和补全。比如数据库表的使用状态、使用者、管理者，和数据源部门等相关信息，字段的共享信息、开放信息、保密信息，和描述信息等。

由于基于元数据的增强数据目录会有更多业务维度的描述，所以可以有效地直接地描述实际的业务问题。

可选的，步骤102进行知识图谱的schema设计包括：

进行知识图谱的schema设计。知识图谱的schema设计一般包括：

301、应用场景明确；

302、数据探查；

303、实体及其属性定义；

304、关系及其属性定义。

示例性的，以数字资源实体关系图谱为例，应用场景是将数字资源中的各类实体和实体间关系通过图谱的形式表现出来并根据此进行资源价值评估等业务展开。数据探查包括对数字资源相关数据集和元数据的了解，确认数据可以支撑图谱的构建。接下来是实体和属性的定义，数字资源实体关系图谱中的实体会包括数字资源体系中的所有数字资源，比如数据表、应用、组件、AI模型、报表、看板等，而各类实体的属性会包括一些共有的特征比如名称、创建时间、修改时间等，也会包括一些独有的特征，比如AI模型对应的召回率、准确率等。而关系和属性的定义则包括对上述各类数字资源实体之间的关系的定义，比如一个报表使用了某张数据表中的数据，某个组件是组成某个应用的一部分。而关系的属性往往会考虑关系的权重。。

可选的，步骤103根据元数据，构建数字资源对应的知识图谱包括：

依据设计好的schema和抽取到的元数据构建图谱。每一个被抽取过元数据的数字资源实体都对应图谱中的一个实体。在构建完实体后由于元数据本身就是描述数据的数据，在构建图谱时可以直接将元数据作为实体的属性填入，从而大大简化了图谱构建的过程。然后再根据关系的定义在各类实体之间建立实体间关系。

可选的，步骤104根据知识图谱，对数字资源进行治理包括：

依托图谱进行数据治理。图谱构建好之后可以依赖图算法对图谱进行挖掘从而进行数据治理。

比如利用中心度算法计算并找到高频热门资源，发现闲置冷门资源，对数字资源进行价值分析。同时，将数字资源间的依赖关系以图的形式展现出来也更有利于了解数字资源的流转和变化。

本发明的目的在于提出一种基于知识图谱的数据治理方法，首先通过元数据抽取将数字资源的元数据收集起来，然后将元数据当作构建知识图谱的原料，通过多维度的元数据构建数字资源的知识图谱，比如实体关系图谱、血缘图谱、数据模型图谱等，以克服现有技术方案中的问题。

参照图2所示，提供了一种基于知识图谱的数据治理系统，系统包括：

抽取装置，用于按照多个维度，对数字资源进行识别和抽取，获取与数字资源对应的元数据，元数据包括数字资源的多个维度信息；

设计装置，用于进行知识图谱的schema设计；

构建装置，用于根据元数据，构建数字资源对应的知识图谱；

治理装置，用于根据知识图谱，对数字资源进行治理。

可选的，抽取装置具体用于：

设置自动抽取模型；抽取模型设置为从多个维度抽取数字资源的基本信息；

根据自动抽取模型，识别并从数字资源中抽取多个基本信息，并扩展其他信息；

根据多个基本信息和其他信息，生成元数据。

可选的，设计装置具体用于：

可选的，构建装置具体用于：

设置元数据作为实体的属性；其中，元数据的数字资源实体与知识图谱中的实体对应。

可选的，治理装置具体用于：

通过算法对知识图谱图谱进行挖掘。

本发明的关键点是创新性地提出了一种基于知识图谱的数据治理方法，这种方法通过元数据抽取提取构建知识图谱的原料，通过图谱schema设计框定了数据治理的范围，通过构建图谱并使用图谱来完成数据治理。将知识图谱技术与元数据相结合，简化了构建图谱的流程。同时，以图的形式对数据进行理解分析，依赖图谱中的数据结合图算法完成数据的治理，从而更好地赋能业务。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的基于知识图谱的数据治理系统在执行基于知识图谱的数据治理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于知识图谱的数据治理方法和系统实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的数据治理方法，其特征在于，所述方法包括：

进行知识图谱的schema设计；

根据所述元数据，构建数字资源对应的知识图谱；

根据所述知识图谱，对所述数字资源进行治理。

2.根据权利要求1所述的方法，其特征在于，所述按照多个维度，对所述数字资源进行识别和抽取，获取与所述数字资源对应的元数据包括：

根据所述多个基本信息和所述其他信息，生成所述元数据。

3.根据权利要求2所述的方法，其特征在于，所述进行知识图谱的schema设计包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述元数据，构建数字资源对应的知识图谱包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述知识图谱，对所述数字资源进行治理包括：

通过算法对所述知识图谱图谱进行挖掘。

6.一种基于知识图谱的数据治理系统，其特征在于，所述系统包括

设计装置，用于进行知识图谱的schema设计；

7.根据权利要求6所述的系统，其特征在于，所述抽取装置具体用于：

根据所述多个基本信息和所述其他信息，生成所述元数据。

8.根据权利要求7所述的系统，其特征在于，所述设计装置具体用于：

9.根据权利要求8所述的系统，其特征在于，所述构建装置具体用于：

10.根据权利要求9所述的系统，其特征在于，所述治理装置具体用于：

通过算法对所述知识图谱图谱进行挖掘。