CN116881376A

CN116881376A - 一种企业数据资产的自动探索方法

Info

Publication number: CN116881376A
Application number: CN202310789654.6A
Authority: CN
Inventors: 李剑; 连广宇
Original assignee: Shanghai Qigao Information Technology Co ltd
Current assignee: Shanghai Qigao Information Technology Co ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-10-13

Abstract

本发明公开了一种企业数据资产的自动探索方法，包括数据源配置、数据资产系统初始化、数据资产元数据采集、数据资产自动分类与标注、分类/标注核验与模型优化、数据资产目录构建与更新、关联图谱构建与更新等核心步骤。该企业数据资产的自动探索方法，支持对数据资产的动态变化进行自动探测，根据资产标注模型对数据资产进行分类标注，然后按照多种分类体系及丰富的标签体系，实现数据目录的动态自动生成；通过解析数据库日志或SQL任务脚本，挖掘数据资产间的关联关系，构建数据资产项关联图谱。

Description

一种企业数据资产的自动探索方法

技术领域

本发明涉及企业数据资产技术领域，具体为一种企业数据资产的自动探索方法。

背景技术

近年来，数据的资产属性已被越来越多的企业认可，随着数字化转型的不断深化，企业数据资产规模增长迅速，对数字资产管理技术的需求日趋迫切。

数据资产探索是通过特定技术手段，对数据资产实现主动发现、快速盘点、及时共享的数据管理方法，目前企业数据资产管理，资产清理盘点、关联关系梳理、数据目录编制等工作仍依赖IT与业务部门协作，人工方式完成，整个过程耗时长，成本高，及时性差，难以应对企业业务变化频繁、数据增长迅猛的现实，无法满足数字资产智能化管理的需求，亟需实现数据资产自动探索。

现有的具备一定自动探索功能的数据资产管理技术，由于缺乏完备技术架构，技术手段单一，灵活性不足，分类/标注模型精度不足，工具化程度，难以应对企业复杂数据环境的挑战，仅能在小范围内使用，鲜见真实生产环境中获得企业级成功应用的案例。

发明内容

(一)解决的技术问题

本发明的目的在于提供一种企业数据资产的自动探索方法，以解决上述背景技术中提出缺乏完备技术架构，技术手段单一，灵活性不足，分类/标注模型实用性低、精度不足，工具化程度低，难以应对企业复杂数据环境的挑战，仅能在小范围内使用。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种企业数据资产的自动探索方法，包括有数据源配置、数据资产系统初始化、数据资产分类/标注模型训练、数据资产元数据采集、数据资产自动分类与标注、分类/标注核验与模型优化、数据资产目录构建与更新、关联图谱构建与更新：包括如下步骤：

步骤一：数据源配置：根据业务与管理需求，确定可列入数据资产的数据对象范围，如主数据、参考数据、交易数据、分析数据、数据文档等；搜集企业数据资产所涉各业务数据库、数据仓库、业务文件系统等全部数据源的基础技术信息；获取各数据源相关元数据的访问方式及访问权限；完成元数据访问的技术配置，完成批量采集或增量采集技术配置，生成元数据采集配置表；

步骤二：数据资产系统初始化：根据元数据采集配置表对数据资产元数据进行初始化全量扫描；对于结构化数据，采集获取schema、表名、字段名、数据类型、数据描述、数据记录数等技术元数据；对于半/非结构化数据，采集获取数据文件类型、文件名、内容描述等技术元数据；技术元数据连同数据业务属性、管理属性，构成数据资产项元数据库，并在资产数据库中进行注册；

步骤三：数据资产分类/标注模型训练：以资产数据库记录为样本，训练分类及标注模型初始版本；该分类及标注模型由一组基于随机森林模型的分类器组成，由系统操作人员维护与管理；

步骤四：数据资产元数据采集：根据元数据采集配置表指定的采集方式，对数据资产元数据进行增量式采集；对于支持增量采集的数据源，实现元数据实时捕获；对于不支持增量采集的数据源，通过工作流任务调度完成相应的采集任务；将带有采集时间戳的技术、业务、管理元数据写入元数据库，并在资产数据库中进行注册；

步骤五：数据资产自动分类与标注：利用分类模型及标注模型，对资产元数据进行分类/标注；分类/标注结果经操作人员核验确认后，形成正式版本；在此基础上形成数据资产摘要；

步骤六：分类/标注核验与模型优化：收集当前模型给出错误分类/标注的样本；利用错误样本对模型进行提升训练，形成新模型；

步骤七：数据资产目录构建与更新：支持交互模式下构建递归分类体系，可动态生成一个或多个数据目录；分类体系任一节点都可由标签进行过滤，生成新的数据目录；

步骤八：关联图谱构建与更新：定义资产间的关联关系的类别，如从属、关联、聚合等，形成资产关系类别表；解析元数据库中的SQL脚本，挖掘数据表间的计算逻辑，分析资产间的关系，形成资产关系图谱；经确认后，关联关系进入关联图谱，之后，回到步骤四，实现系统的连续运行。

优选的，所述采用数据资产元数据自动扫描与分析技术，实时监控数据资产的变化情况，及时更新数据资产数据库，有效克服了传统数据资产管理方法成本高、耗时长、更新不及时的弊端，基于人机闭环模式的数据资产分类/标注模型训练与提升技术。

优选的，所述使用从元数据中提取的特征及分类/标注数据为训练样本，采用随机森林模型，训练生成数据资产的分类/标注模型；该模型还可利用分类/标注的错误信息为样本，持续进行训练，不断提升模型性能，基于复杂分类体系及标注信息的数据目录交互式动态生成。

优选的，所述提出可递归定义的数据资产分类体系，可解决企业数据资产的复杂分类需求，该方法定义了一种可递归的树状结构，根节点以下每条边为一属性值，每一子节点为一子分类属性，每一属性值上可递归定义新的分类属性，形成复杂的分类体系，系统支持定义多个分类体系，基于数据库日志或sql脚本解析的数据资产关联关系自动分析技术。

优选的，所述每一分类体系都可用于生成一种数据目录，因此系统支持交互式动态生成数据目录，分类体系任一节点都可由标注进行过滤，生成新的数据目录，数据资产实时自动扫描的整体技术架构。

优选的，所述支持对资产间的关联关系的自动分析，分析结果可建构为资产关联关系图谱，支持数据血缘追溯。

与现有技术相比，本发明的有益效果是：本方法对企业数据资产的变化进行实时跟踪，自动扫描并分析数据资产元数据，及时发现新的资产项；采用分类/标注模型对数据资产进行自动分类与属性标注，借助人工核验环节提供的分类/标注错误信息，对分类/标注模型进行提升，持续改进模型性能；采用一种可递归定义的数据资产分类方法，可支持复杂的企业级资产分类；支持按照多种分类体系及丰富的标签体系，实现数据目录的动态自动生成；通过对数据库日志或SQL脚本的解析出数据资产间的关联关系，构建数据资产项间的关联图谱。

附图说明

图1为本发明企业数据资产的自动探索流程结构示意图；

图2为本发明企业数据资产系统功能架构示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：一种企业数据资产的自动探索方法，包括有数据源配置、数据资产系统初始化、数据资产分类/标注模型训练、数据资产元数据采集、数据资产自动分类与标注、分类/标注核验与模型优化、数据资产目录构建与更新、关联图谱构建与更新：包括如下步骤：

进一步的，采用数据资产元数据自动扫描与分析技术，实时监控数据资产的变化情况，及时更新数据资产数据库，有效克服了传统数据资产管理方法成本高、耗时长、更新不及时的弊端，基于人机闭环模式的数据资产分类/标注模型训练与提升技术。

进一步的，使用从元数据中提取的特征及分类/标注数据为训练样本，采用随机森林模型，训练生成数据资产的分类/标注模型；该模型还可利用分类/标注的错误信息为样本，持续进行训练，不断提升模型性能，基于复杂分类体系及标注信息的数据目录交互式动态生成。

进一步的，提出可递归定义的数据资产分类体系，可解决企业数据资产的复杂分类需求，该方法定义了一种可递归的树状结构，根节点以下每条边为一属性值，每一子节点为一子分类属性，每一属性值上可递归定义新的分类属性，形成复杂的分类体系，系统支持定义多个分类体系，基于sql脚本解析的数据资产关联关系自动分析技术。

进一步的，每一分类体系都可用于生成一种数据目录，因此系统支持交互式动态生成数据目录，分类体系任一节点都可由标注进行过滤，生成新的数据目录。

进一步的，支持对资产间的关联关系的自动分析，分析结果可建构为资产关联关系图谱，支持数据血缘追溯。

最后应当说明的是，以上内容仅用以说明本发明的技术方案，而非对本发明保护范围的限制，本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换，均不脱离本发明技术方案的实质和范围。

Claims

1.一种企业数据资产的自动探索方法，包括有数据源配置、数据资产系统初始化、数据资产分类/标注模型训练、数据资产元数据采集、数据资产自动分类与标注、分类/标注核验与模型优化、数据资产目录构建与更新、关联图谱构建与更新，包括如下步骤：

2.根据权利要求1一种企业数据资产的自动探索方法，其特征在于：所述采用数据资产元数据自动扫描与分析技术，实时监控数据资产的变化情况，及时更新数据资产数据库，有效克服了传统数据资产管理方法成本高、耗时长、更新不及时的弊端，基于人机闭环模式的数据资产分类/标注模型训练与提升技术。

3.根据权利要求2一种企业数据资产的自动探索方法，其特征在于：所述使用从元数据中提取的特征及分类/标注数据为训练样本，采用随机森林模型，训练生成数据资产的分类/标注模型；该模型还可利用分类/标注的错误信息为样本，持续进行训练，不断提升模型性能，基于复杂分类体系及标注信息的数据目录交互式动态生成。

4.根据权利要求3一种企业数据资产的自动探索方法，其特征在于：所述提出一种可递归定义的数据资产分类体系，可解决企业数据资产的复杂分类需求，该方法定义了一种可递归的树状结构，根节点以下每条边为一属性值，每一子节点为一子分类属性，每一属性值上可递归定义新的分类属性，形成复杂的分类体系，系统支持定义多个分类体系，基于数据库日志或sql脚本解析的数据资产关联关系自动分析技术。

5.根据权利要求4一种企业数据资产的自动探索方法，其特征在于：所述每一分类体系都可用于生成一种数据目录，因此系统支持交互式动态生成数据目录。分类体系任一节点都可由标注进行过滤，生成新的数据目录。

6.根据权利要求5一种企业数据资产的自动探索方法，其特征在于：所述支持对资产间的关联关系的自动分析，分析结果可建构为资产关联关系图谱，支持数据血缘追溯。