CN116628215A

CN116628215A - 数据资产管理方法、控制装置及可读存储介质

Info

Publication number: CN116628215A
Application number: CN202310348197.7A
Authority: CN
Inventors: 郑志骏
Original assignee: Beijing Yuncong Technology Co ltd
Current assignee: Beijing Yuncong Technology Co ltd
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-08-22

Abstract

本发明涉及信息技术技术领域，具体提供一种数据资产管理方法、控制装置及可读存储介质，旨在解决如何对数据资产进行有效管理，以提升数据管理的一致性、准确性和管理效率的问题。为此目的，本发明能够将待管理的数据信息解析为三元组的形式，并将三元组存储于知识图谱中，从而生成数据信息的数据资产全景地图，并基于预设规则对数据资产全景地图进行数据评估。通过上述配置方式，本发明能够基于数据资产全景地图对数据信息进行全面的数据评估，更加有利于发现数据存在的质量问题，实现对数据信息的有效管理，能够有效提升数据管理的一致性、准确性和管理效率。

Description

数据资产管理方法、控制装置及可读存储介质

技术领域

本发明涉及信息技术技术领域，具体提供一种数据资产管理方法、控制装置及可读存储介质。

背景技术

元数据管理和数据质量管理是数据资产管理的重点和难点，元数据管理包括业务元数据管理、技术元数据管理、操作元数据管理和数据血缘管理。目前的业务数据流、技术元数据、业务元数据管理、操作元数据管理、数据血缘管理都是各自独立的，业务元数据人工维护的比例很高，严重地影响到数据的准确性、一致性以及数据管理效率。同时，也对数据质量问题发现造成了阻碍，很难发现深层次的数据质量问题，如数据一致性的问题。

相应地，本领域需要一种新的数据资产管理方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决如何对数据资产进行有效管理，以提升数据管理的一致性、准确性和管理效率的问题。

在第一方面，本发明提供一种数据资产管理方法，所述方法包括：

获取待管理的数据信息；

将所述数据信息解析为三元组的形式；

将所述三元组存入知识图谱中，以生成所述数据信息的数据资产全景地图；

根据预设规则，对所述数据资产全景地图进行数据评估，以实现对所述数据信息的管理

在上述数据资产管理方法的一个技术方案中，所述数据信息包括业务数据流和/或数据血缘和/或业务元数据和/或技术元数据和/或操作元数据。

在上述数据资产管理方法的一个技术方案中，所述预设规则包括一致性规则，“根据预设规则，对所述数据资产全景地图进行数据评估”的步骤包括：

根据所述一致性规则，针对所述数据资产全景地图的每个节点，根据所述数据血缘生成有向无环子图；

根据所述有向无环子图，获取所述节点的最终编码；

根据所有节点的最终编码，获取所述数据信息的最终不一致性问题，作为数据评估结果。

在上述数据资产管理方法的一个技术方案中，“根据所述有向无环子图，获取所述节点的最终编码”的步骤包括：

应用预设的遍历方式，对所述有向无环子图进行遍历，生成所述节点的预编码；

应用MD5算法，根据所述预编码，获取所述节点的最终编码。

在上述数据资产管理方法的一个技术方案中，“根据所有节点的最终编码，获取所述数据信息的最终不一致性问题”的步骤包括：

将每个节点的节点名称和最终编码分别与其他节点的节点名称和最终编码进行比较；

当存在两个节点的节点名称不一致但最终编码一致时，判定为疑似不一致问题；

针对疑似不一致问题对应的节点，应用预设的机器学习分类模型对所述节点进行分类筛选，获得最终不一致问题；

其中，所述机器学习分类模型为根据所述节点的节点特征构建的；所述节点特征至少包括所述节点对应的链路更新频率和/或使用频率和/或数据来源。

在上述数据资产管理方法的一个技术方案中，所述预设规则包括准确性规则，“根据预设规则，对所述数据资产全景地图进行数据评估”的步骤包括：

根据所述准确性规则，判断所述数据资产全景地图中业务数据流拓扑和对应的数据血缘拓扑之间的一致性；

根据判断结果，获取所述业务数据流拓扑与对应的所述数据血缘拓扑之间不一致的边数，作为数据评估结果。

在上述数据资产管理方法的一个技术方案中，“将所述三元组存入知识图谱中，以生成所述数据信息的数据资产全景地图”的步骤包括：

将所述三元组存入知识图谱中，根据所述业务数据流和所述数据血缘，构建所述数据信息的依赖关系树；

根据所述业务元数据和所述依赖关系树，实现所述依赖关系树的后续节点从前继节点继承所述业务元数据，以生成所述数据信息的数据资产全景地图；

其中，所述数据资产全景地图的节点属性存储在所述知识图谱中或关系型数据库中；所述节点属性根据所述技术元数据和/或所述操作元数据的三元组获得。

在上述数据资产管理方法的一个技术方案中，“将所述数据信息解析为三元组的形式”的步骤包括：

根据预设的解析规则，应用数据仓库技术对所述数据血缘的SQL语法树进行解析，获取所述数据血缘的三元组；和/或，

将所述业务元数据和/或所述技术元数据和/或所述操作元数据分别以三元组的形式进行保存；和/或，

将所述业务数据流以三元组的形式进行保存。

在第二方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述数据资产管理方法的技术方案中任一项技术方案所述的数据资产管理方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述数据资产管理方法的技术方案中任一项技术方案所述的数据资产管理方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种

有益效果：

在实施本发明的技术方案中，本发明能够将待管理的数据信息解析为三元组的形式，并将三元组存储于知识图谱中，从而生成数据信息的数据资产全景地图，并基于预设规则对数据资产全景地图进行数据评估。通过上述配置方式，本发明能够基于数据资产全景地图对数据信息进行全面的数据评估，更加有利于发现数据存在的质量问题，实现对数据信息的有效管理，能够有效提升数据管理的一致性、准确性和管理效率。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。其中：

图1是根据本发明的一个实施例的数据资产管理方法的主要步骤流程示意图；

图2是根据本发明实施例的一个实施方式的数据资产管理方法的主要步骤流程示意图；

图3是根据本发明实施例的一个示例的数据资产全景地图的示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

这里先解释本发明涉及到的一些术语。

元数据，为描述数据的数据(data about data)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据可以包括三种基本类型：业务元数据、技术元数据和操作元数据。其中，业务元数据描述数据的业务含义、业务规则等。技术元数据是结构化处理后的数据，方便计算机或数据库对数据进行识别、存储、传输和转换。操作元数据描述的是数据的操作属性，包括管理部门、管理责任人、操作时间等。

业务数据流是一组有序，有起点和终点的字节的数据序列。包括输入流和输出流。

数据血缘是指数据之间链路关系。

三元组是指形如(x，y，z)的集合。主要是用来存储稀疏矩阵的一种压缩方式。

知识图谱是一种基于图的数据结构，由节点(point)和边(Edge)组成，每个节点表示一个“实体”，每条边为实体与实体之间的“关系”，知识图谱本质上是语义网络。

数据资产全景地图是指以全局、流动和结构化的模式对数据资产进行系统化管理的模式。

参阅附图1，图1是根据本发明的一个实施例的数据资产管理方法的主要步骤流程示意图。如图1所示，本发明实施例中的数据资产管理方法主要包括下列步骤S101-步骤S104。

步骤S101：获取待管理的数据信息。

在本实施例中，可以先获取待管理的数据信息。

一个实施方式中，数据信息的来源可以为数据库操作日志、数据仓库设计稿(包括数据模型、数据流图)、数据仓库开发日志(包括数据仓库中的etl(Extract-Transform-Load，数据仓库技术)的SQL代码)。

一个实施方式中，待管理的数据信息可以包括业务数据流、数据血缘、源数据的业务元数据、技术元数据、操作元数据等，还可以包括etl代码等。

一个实施方式中，业务数据流可以来源于系统上传、人工录入等途径。技术元数据可以来源于系统从目标数据库自动获取的数据以及系统上传的数据。操作元数据可以来源与系统从目标数据库操作日志中自动统计获取的数据。源数据的业务源数据可以来源于系统上传，etl代码可以来源于系统。

一个实施方式中，操作元数据的统计方式可以为从目标操作日志中统计最近修改人、最近修改日期等信息。

步骤S102：将数据信息解析为三元组的形式。

在本实施例中，可以将数据信息解析为三元组的形式。

一个实施方式中，可以根据预设的解析规则，应用数据仓库技术对数据血缘的SQL语法树进行解析，获取数据血缘的三元组。即，可以预先设定解析规则，根据etl过程解析SQL语法树，基于解析规则来匹配解析出三元组的形式。

以下通过一个实例对将获取数据血缘的三元组的过程进行说明：

假设table_a有id，num两个字段，table_b有id字段

etl代码insert into table_a(num)values(select count(distinct(id))fromtable_b where id>1)；

解析后为(num血缘_1,id)

(血缘_1,属性，count(distinct(id)))

一个实施方式中，可以将业务元数据、技术元数据和操作元数据、数据血缘分别以三元组的形式保存。

如table_a的技术元数据为

(table_a,包含，id)

(table_a,包含，num)。

id的属性为(约束：非空、类型：varchar、长度：512、数据来源：xx系统、最后修改人：xxx、最后修改时间：2022-10-01)。

num的属性为(约束：非空、类型：int、数据来源：xx系统、最后修改人：xxx、最后修改时间：2022-10-01)。

业务数据流可以以三元组的形式保存为(num，数据流_1,id)。

步骤S103：将三元组存入知识图谱中，以生成数据信息的数据资产全景地图。

在本实施例中，可以将步骤S102中获得的三元组存储至知识图谱中，来构建数据资产全景地图。

一个实施方式中，数据资产全景地图的节点属性可以保存在知识图谱中。

一个实施方式中，数据资产全景地图的节点属性可以保存在关系型数据库中。

一个实施方式中，数据资产全景地图的节点属性可以根据技术元数据和操作元数据的三元组来获得。

步骤S104：根据预设规则，对数据资产全景地图进行数据评估，以实现对数据信息的管理。

在本实施例中，可以设定用于数据评估的预设规则，应用预设规则对数据资产全景地图进行数据评估，从而实现对数据信息的进行管理。

一个实施方式中，预设规则可以包括一致性规则和准确性规则。其中，一致性规则为根据数据血缘发现数据信息的一致性问题的规则。准确性规则为根据数据血缘和业务数据流的一致性来判断数据信息的准确性问题的规则。

基于上述步骤S101-步骤S104，本发明实施例能够将待管理的数据信息解析为三元组的形式，并将三元组存储于知识图谱中，从而生成数据信息的数据资产全景地图，并基于预设规则对数据资产全景地图进行数据评估。通过上述配置方式，本发明实施例能够基于数据资产全景地图对数据信息进行全面的数据评估，更加有利于发现数据存在的质量问题，实现对数据信息的有效管理，能够有效提升数据管理的一致性、准确性和管理效率。

下面对步骤S103和步骤S104作进一步地说明。

在本发明实施例的一个实施方式中，步骤S103可以进一步包括以下步骤S1031和步骤S1032：

步骤S1031：将三元组存入知识图谱中，根据业务数据流和数据血缘，构建数据信息的依赖关系树。

步骤S1032：根据业务元数据和依赖关系树，实现依赖关系树的后续节点从前继节点继承业务元数据，以生成数据信息的数据资产全景地图。

在本实施方式中，可以将解析获得的数据信息的三元组存入知识图谱中，以根据业务数据流和数据血缘构建数据信息的依赖关系树，并基于业务元数据和依赖关系树，实现依赖关系数据的后续节点从前继节点继承业务元数据，从而生成数据信息的数据资产全景地图。这样能够通过数据血缘自动生成业务元数据，能够有效减少人工参与，提升效率。

可以参阅附图3，图3是根据本发明实施例的一个示例的数据资产全景地图的示意图。如图3所示，table_a包含id，num两个字段，table_b包含id字段，table_a的num字段与table_b的id字段存在着数据数据血缘(血缘_1)和业务数据流(数据流)关系，血缘_1和数据流均是从id流向num。

在本发明实施例的一个实施方式中，步骤S104可以进一步包括以下步骤S1041和步骤S1043：

步骤S1041：根据一致性规则，针对数据资产全景地图的每个节点，根据数据血缘生成有向无环子图。

在本实施方式中，可以根据数据血缘，将数据资产全景地图中的每个节点都生成对应的有向无环子图。其中，有向无环图指的是一个无回路的有向图，其能反应出当前节点与其他节点之间的数据血缘关系。

步骤S1042：根据有向无环子图，获取节点的最终编码。

在本实施方式中，步骤S1042可以进一步包括以下步骤S10421和步骤S10422：

步骤S10421：应用预设的遍历方式，对有向无环子图进行遍历，生成节点的预编码。

在本实施方式中，可以对有向无环子图进行遍历，从而获得节点的预编码。

一个实施方式中，可以采用BFS(Breadth First Search，广度优先)遍历方式，对有向无环子图进行遍历。

一个实施方式中，可以采用DFS(Depth First Search，深度优先)遍历方式，对有向无环子图进行遍历。

步骤S10422：应用MD5算法，根据预编码，获取节点的最终编码。

在本实施方式中，可以应用MD5算法(Message-Digest Algorithm，信息摘要算法)，根据预编码来获取节点的最终编码。MD5算法可以基于输入产生一个128位的散列值，用于确保信息传输的完整一致。

步骤S1043：根据所有节点的最终编码，获取数据信息的最终不一致性问题，作为数据评估结果。

在本实施方式中，步骤S1043可以进一步包括以下步骤S10431至步骤S10433：

步骤S10431：将每个节点的节点名称和最终编码分别与其他节点的节点名称和最终编码进行比较。

步骤S10432：当存在两个节点的节点名称不一致但最终编码一致时，判定为疑似不一致问题。

步骤S10433：针对疑似不一致问题对应的节点，应用预设的机器学习分类模型对节点进行分类筛选，获得最终不一致问题；其中，机器学习分类模型为根据节点的节点特征构建的；节点特征至少包括节点对应的链路更新频率和/或使用频率和/或数据来源。

在本实施方式中，可以遍历所有节点，当存在两个节点的节点名称不一致，但是最终编码是一致的情况，则可以判定为疑似不一致问题；针对疑似不一致问题，可以应用机器学习分类模型来对其进行分类筛选，从而获得最终不一致问题，并将最终不一致问题作为数据评估结果。

一个实施方式中，机器学习分类模型可以为基于GBDT(Gradient BoostingDecision Tree，梯度提升决策树)算法构建的模型，也可以为基于LR(Linear Regression，线性回归)算法构建的模型，也可以是基于GBDT和LR算法构建的模型，还可以是基于其他机型学习算法构建的模型。

在本发明实施例的一个实施方式中，步骤S104可以进一步包括以下步骤S1044和步骤S1045：

步骤S1044：根据准确性规则，判断数据资产全景地图中业务数据流拓扑和对应的数据血缘拓扑之间的一致性。

步骤S1045：根据判断结果，获取业务数据流拓扑与对应的数据血缘拓扑之间不一致的边数，作为数据评估结果。

在本实施方式中，可以判断数据资产全景地图中的业务数据流拓扑和数据血缘拓扑的一致性，从而根据判断结果来获得业务数据流拓扑与数据血缘拓扑之间不一致的边数，作为数据评估结果。

在数据资产全景地图中，业务数据流拓扑是预先设计的拓扑，数据血缘拓扑是实际发生的拓扑，如果这两者不一致的话，就说明存在着准确性的问题，可以将不一致的边数记录下来，作为数据评估结果。

一个实施方式中，可以将基于一致性规划和准确性规则获得的数据评估结果进行反馈上报，以对数据信息的深层次问题进行分析。也可以对数据评估结果进行展示、基于数据评估结果对数据信息进行评分等。

一个实施方式中，可以参阅附图2，图2是根据本发明实施例的一个实施方式的数据资产管理方法的主要步骤流程示意图。如图2所示，数据资产管理方法可以包括以下步骤S201至步骤S204：

步骤S201：获取数据信息。

在本实施方式中，步骤S201所述的方法与步骤S101类似，为了描述简单，在此不再赘述。

步骤S202：将数据信息解析为三元组的形式。

在本实施方式中，步骤S202所述的方法与步骤S102类似，为了描述简单，在此不再赘述。

步骤S203：基于知识图谱构建全景数据地图(数据资产全景地图)。

在本实施方式中，步骤S203所述的方法与步骤S103类似，为了描述简单，在此不再赘述。

步骤S204：利用算法建立质量检验规则。

在本实施方式中，可以利用算法建立质量检验规则(预设规则)对全景数据地图进行数据评估。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的数据资产管理方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的数据资产管理方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的数据资产管理方法的程序，该程序可以由处理器加载并运行以实现上述数据资产管理方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种数据资产管理方法，其特征在于，所述方法包括：

获取待管理的数据信息；

将所述数据信息解析为三元组的形式；

根据预设规则，对所述数据资产全景地图进行数据评估，以实现对所述数据信息的管理。

2.根据权利要求1所述的数据资产管理方法，其特征在于，所述数据信息包括业务数据流和/或数据血缘和/或业务元数据和/或技术元数据和/或操作元数据。

3.根据权利要求2所述的数据资产管理方法，其特征在于，所述预设规则包括一致性规则，“根据预设规则，对所述数据资产全景地图进行数据评估”的步骤包括：

根据所述有向无环子图，获取所述节点的最终编码；

4.根据权利要求3所述的数据资产管理方法，其特征在于，“根据所述有向无环子图，获取所述节点的最终编码”的步骤包括：

应用MD5算法，根据所述预编码，获取所述节点的最终编码。

5.根据权利要求3所述的数据资产管理方法，其特征在于，“根据所有节点的最终编码，获取所述数据信息的最终不一致性问题”的步骤包括：

6.根据权利要求2所述的数据资产管理方法，其特征在于，所述预设规则包括准确性规则，“根据预设规则，对所述数据资产全景地图进行数据评估”的步骤包括：

7.根据权利要求2所述的数据资产管理方法，其特征在于，“将所述三元组存入知识图谱中，以生成所述数据信息的数据资产全景地图”的步骤包括：

8.根据权利要求2所述的数据资产管理方法，其特征在于，“将所述数据信息解析为三元组的形式”的步骤包括：

将所述业务数据流以三元组的形式进行保存。

9.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至8中任一项所述的数据资产管理方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至8中任一项所述的数据资产管理方法。