CN116881376A - 一种企业数据资产的自动探索方法 - Google Patents
一种企业数据资产的自动探索方法 Download PDFInfo
- Publication number
- CN116881376A CN116881376A CN202310789654.6A CN202310789654A CN116881376A CN 116881376 A CN116881376 A CN 116881376A CN 202310789654 A CN202310789654 A CN 202310789654A CN 116881376 A CN116881376 A CN 116881376A
- Authority
- CN
- China
- Prior art keywords
- data
- asset
- classification
- metadata
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000002372 labelling Methods 0.000 claims abstract description 46
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims abstract description 11
- 238000013515 script Methods 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000005065 mining Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 18
- 238000007726 management method Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000008280 blood Substances 0.000 claims 1
- 210000004369 blood Anatomy 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种企业数据资产的自动探索方法,包括数据源配置、数据资产系统初始化、数据资产元数据采集、数据资产自动分类与标注、分类/标注核验与模型优化、数据资产目录构建与更新、关联图谱构建与更新等核心步骤。该企业数据资产的自动探索方法,支持对数据资产的动态变化进行自动探测,根据资产标注模型对数据资产进行分类标注,然后按照多种分类体系及丰富的标签体系,实现数据目录的动态自动生成;通过解析数据库日志或SQL任务脚本,挖掘数据资产间的关联关系,构建数据资产项关联图谱。
Description
技术领域
本发明涉及企业数据资产技术领域,具体为一种企业数据资产的自动探索方法。
背景技术
近年来,数据的资产属性已被越来越多的企业认可,随着数字化转型的不断深化,企业数据资产规模增长迅速,对数字资产管理技术的需求日趋迫切。
数据资产探索是通过特定技术手段,对数据资产实现主动发现、快速盘点、及时共享的数据管理方法,目前企业数据资产管理,资产清理盘点、关联关系梳理、数据目录编制等工作仍依赖IT与业务部门协作,人工方式完成,整个过程耗时长,成本高,及时性差,难以应对企业业务变化频繁、数据增长迅猛的现实,无法满足数字资产智能化管理的需求,亟需实现数据资产自动探索。
现有的具备一定自动探索功能的数据资产管理技术,由于缺乏完备技术架构,技术手段单一,灵活性不足,分类/标注模型精度不足,工具化程度,难以应对企业复杂数据环境的挑战,仅能在小范围内使用,鲜见真实生产环境中获得企业级成功应用的案例。
发明内容
(一)解决的技术问题
本发明的目的在于提供一种企业数据资产的自动探索方法,以解决上述背景技术中提出缺乏完备技术架构,技术手段单一,灵活性不足,分类/标注模型实用性低、精度不足,工具化程度低,难以应对企业复杂数据环境的挑战,仅能在小范围内使用。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种企业数据资产的自动探索方法,包括有数据源配置、数据资产系统初始化、数据资产分类/标注模型训练、数据资产元数据采集、数据资产自动分类与标注、分类/标注核验与模型优化、数据资产目录构建与更新、关联图谱构建与更新:包括如下步骤:
步骤一:数据源配置:根据业务与管理需求,确定可列入数据资产的数据对象范围,如主数据、参考数据、交易数据、分析数据、数据文档等;搜集企业数据资产所涉各业务数据库、数据仓库、业务文件系统等全部数据源的基础技术信息;获取各数据源相关元数据的访问方式及访问权限;完成元数据访问的技术配置,完成批量采集或增量采集技术配置,生成元数据采集配置表;
步骤二:数据资产系统初始化:根据元数据采集配置表对数据资产元数据进行初始化全量扫描;对于结构化数据,采集获取schema、表名、字段名、数据类型、数据描述、数据记录数等技术元数据;对于半/非结构化数据,采集获取数据文件类型、文件名、内容描述等技术元数据;技术元数据连同数据业务属性、管理属性,构成数据资产项元数据库,并在资产数据库中进行注册;
步骤三:数据资产分类/标注模型训练:以资产数据库记录为样本,训练分类及标注模型初始版本;该分类及标注模型由一组基于随机森林模型的分类器组成,由系统操作人员维护与管理;
步骤四:数据资产元数据采集:根据元数据采集配置表指定的采集方式,对数据资产元数据进行增量式采集;对于支持增量采集的数据源,实现元数据实时捕获;对于不支持增量采集的数据源,通过工作流任务调度完成相应的采集任务;将带有采集时间戳的技术、业务、管理元数据写入元数据库,并在资产数据库中进行注册;
步骤五:数据资产自动分类与标注:利用分类模型及标注模型,对资产元数据进行分类/标注;分类/标注结果经操作人员核验确认后,形成正式版本;在此基础上形成数据资产摘要;
步骤六:分类/标注核验与模型优化:收集当前模型给出错误分类/标注的样本;利用错误样本对模型进行提升训练,形成新模型;
步骤七:数据资产目录构建与更新:支持交互模式下构建递归分类体系,可动态生成一个或多个数据目录;分类体系任一节点都可由标签进行过滤,生成新的数据目录;
步骤八:关联图谱构建与更新:定义资产间的关联关系的类别,如从属、关联、聚合等,形成资产关系类别表;解析元数据库中的SQL脚本,挖掘数据表间的计算逻辑,分析资产间的关系,形成资产关系图谱;经确认后,关联关系进入关联图谱,之后,回到步骤四,实现系统的连续运行。
优选的,所述采用数据资产元数据自动扫描与分析技术,实时监控数据资产的变化情况,及时更新数据资产数据库,有效克服了传统数据资产管理方法成本高、耗时长、更新不及时的弊端,基于人机闭环模式的数据资产分类/标注模型训练与提升技术。
优选的,所述使用从元数据中提取的特征及分类/标注数据为训练样本,采用随机森林模型,训练生成数据资产的分类/标注模型;该模型还可利用分类/标注的错误信息为样本,持续进行训练,不断提升模型性能,基于复杂分类体系及标注信息的数据目录交互式动态生成。
优选的,所述提出可递归定义的数据资产分类体系,可解决企业数据资产的复杂分类需求,该方法定义了一种可递归的树状结构,根节点以下每条边为一属性值,每一子节点为一子分类属性,每一属性值上可递归定义新的分类属性,形成复杂的分类体系,系统支持定义多个分类体系,基于数据库日志或sql脚本解析的数据资产关联关系自动分析技术。
优选的,所述每一分类体系都可用于生成一种数据目录,因此系统支持交互式动态生成数据目录,分类体系任一节点都可由标注进行过滤,生成新的数据目录,数据资产实时自动扫描的整体技术架构。
优选的,所述支持对资产间的关联关系的自动分析,分析结果可建构为资产关联关系图谱,支持数据血缘追溯。
与现有技术相比,本发明的有益效果是:本方法对企业数据资产的变化进行实时跟踪,自动扫描并分析数据资产元数据,及时发现新的资产项;采用分类/标注模型对数据资产进行自动分类与属性标注,借助人工核验环节提供的分类/标注错误信息,对分类/标注模型进行提升,持续改进模型性能;采用一种可递归定义的数据资产分类方法,可支持复杂的企业级资产分类;支持按照多种分类体系及丰富的标签体系,实现数据目录的动态自动生成;通过对数据库日志或SQL脚本的解析出数据资产间的关联关系,构建数据资产项间的关联图谱。
附图说明
图1为本发明企业数据资产的自动探索流程结构示意图;
图2为本发明企业数据资产系统功能架构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种企业数据资产的自动探索方法,包括有数据源配置、数据资产系统初始化、数据资产分类/标注模型训练、数据资产元数据采集、数据资产自动分类与标注、分类/标注核验与模型优化、数据资产目录构建与更新、关联图谱构建与更新:包括如下步骤:
步骤一:数据源配置:根据业务与管理需求,确定可列入数据资产的数据对象范围,如主数据、参考数据、交易数据、分析数据、数据文档等;搜集企业数据资产所涉各业务数据库、数据仓库、业务文件系统等全部数据源的基础技术信息;获取各数据源相关元数据的访问方式及访问权限;完成元数据访问的技术配置,完成批量采集或增量采集技术配置,生成元数据采集配置表;
步骤二:数据资产系统初始化:根据元数据采集配置表对数据资产元数据进行初始化全量扫描;对于结构化数据,采集获取schema、表名、字段名、数据类型、数据描述、数据记录数等技术元数据;对于半/非结构化数据,采集获取数据文件类型、文件名、内容描述等技术元数据;技术元数据连同数据业务属性、管理属性,构成数据资产项元数据库,并在资产数据库中进行注册;
步骤三:数据资产分类/标注模型训练:以资产数据库记录为样本,训练分类及标注模型初始版本;该分类及标注模型由一组基于随机森林模型的分类器组成,由系统操作人员维护与管理;
步骤四:数据资产元数据采集:根据元数据采集配置表指定的采集方式,对数据资产元数据进行增量式采集;对于支持增量采集的数据源,实现元数据实时捕获;对于不支持增量采集的数据源,通过工作流任务调度完成相应的采集任务;将带有采集时间戳的技术、业务、管理元数据写入元数据库,并在资产数据库中进行注册;
步骤五:数据资产自动分类与标注:利用分类模型及标注模型,对资产元数据进行分类/标注;分类/标注结果经操作人员核验确认后,形成正式版本;在此基础上形成数据资产摘要;
步骤六:分类/标注核验与模型优化:收集当前模型给出错误分类/标注的样本;利用错误样本对模型进行提升训练,形成新模型;
步骤七:数据资产目录构建与更新:支持交互模式下构建递归分类体系,可动态生成一个或多个数据目录;分类体系任一节点都可由标签进行过滤,生成新的数据目录;
步骤八:关联图谱构建与更新:定义资产间的关联关系的类别,如从属、关联、聚合等,形成资产关系类别表;解析元数据库中的SQL脚本,挖掘数据表间的计算逻辑,分析资产间的关系,形成资产关系图谱;经确认后,关联关系进入关联图谱,之后,回到步骤四,实现系统的连续运行。
进一步的,采用数据资产元数据自动扫描与分析技术,实时监控数据资产的变化情况,及时更新数据资产数据库,有效克服了传统数据资产管理方法成本高、耗时长、更新不及时的弊端,基于人机闭环模式的数据资产分类/标注模型训练与提升技术。
进一步的,使用从元数据中提取的特征及分类/标注数据为训练样本,采用随机森林模型,训练生成数据资产的分类/标注模型;该模型还可利用分类/标注的错误信息为样本,持续进行训练,不断提升模型性能,基于复杂分类体系及标注信息的数据目录交互式动态生成。
进一步的,提出可递归定义的数据资产分类体系,可解决企业数据资产的复杂分类需求,该方法定义了一种可递归的树状结构,根节点以下每条边为一属性值,每一子节点为一子分类属性,每一属性值上可递归定义新的分类属性,形成复杂的分类体系,系统支持定义多个分类体系,基于sql脚本解析的数据资产关联关系自动分析技术。
进一步的,每一分类体系都可用于生成一种数据目录,因此系统支持交互式动态生成数据目录,分类体系任一节点都可由标注进行过滤,生成新的数据目录。
进一步的,支持对资产间的关联关系的自动分析,分析结果可建构为资产关联关系图谱,支持数据血缘追溯。
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。
Claims (6)
1.一种企业数据资产的自动探索方法,包括有数据源配置、数据资产系统初始化、数据资产分类/标注模型训练、数据资产元数据采集、数据资产自动分类与标注、分类/标注核验与模型优化、数据资产目录构建与更新、关联图谱构建与更新,包括如下步骤:
步骤一:数据源配置:根据业务与管理需求,确定可列入数据资产的数据对象范围,如主数据、参考数据、交易数据、分析数据、数据文档等;搜集企业数据资产所涉各业务数据库、数据仓库、业务文件系统等全部数据源的基础技术信息;获取各数据源相关元数据的访问方式及访问权限;完成元数据访问的技术配置,完成批量采集或增量采集技术配置,生成元数据采集配置表;
步骤二:数据资产系统初始化:根据元数据采集配置表对数据资产元数据进行初始化全量扫描;对于结构化数据,采集获取schema、表名、字段名、数据类型、数据描述、数据记录数等技术元数据;对于半/非结构化数据,采集获取数据文件类型、文件名、内容描述等技术元数据;技术元数据连同数据业务属性、管理属性,构成数据资产项元数据库,并在资产数据库中进行注册;
步骤三:数据资产分类/标注模型训练:以资产数据库记录为样本,训练分类及标注模型初始版本;该分类及标注模型由一组基于随机森林模型的分类器组成,由系统操作人员维护与管理;
步骤四:数据资产元数据采集:根据元数据采集配置表指定的采集方式,对数据资产元数据进行增量式采集;对于支持增量采集的数据源,实现元数据实时捕获;对于不支持增量采集的数据源,通过工作流任务调度完成相应的采集任务;将带有采集时间戳的技术、业务、管理元数据写入元数据库,并在资产数据库中进行注册;
步骤五:数据资产自动分类与标注:利用分类模型及标注模型,对资产元数据进行分类/标注;分类/标注结果经操作人员核验确认后,形成正式版本;在此基础上形成数据资产摘要;
步骤六:分类/标注核验与模型优化:收集当前模型给出错误分类/标注的样本;利用错误样本对模型进行提升训练,形成新模型;
步骤七:数据资产目录构建与更新:支持交互模式下构建递归分类体系,可动态生成一个或多个数据目录;分类体系任一节点都可由标签进行过滤,生成新的数据目录;
步骤八:关联图谱构建与更新:定义资产间的关联关系的类别,如从属、关联、聚合等,形成资产关系类别表;解析元数据库中的SQL脚本,挖掘数据表间的计算逻辑,分析资产间的关系,形成资产关系图谱;经确认后,关联关系进入关联图谱,之后,回到步骤四,实现系统的连续运行。
2.根据权利要求1一种企业数据资产的自动探索方法,其特征在于:所述采用数据资产元数据自动扫描与分析技术,实时监控数据资产的变化情况,及时更新数据资产数据库,有效克服了传统数据资产管理方法成本高、耗时长、更新不及时的弊端,基于人机闭环模式的数据资产分类/标注模型训练与提升技术。
3.根据权利要求2一种企业数据资产的自动探索方法,其特征在于:所述使用从元数据中提取的特征及分类/标注数据为训练样本,采用随机森林模型,训练生成数据资产的分类/标注模型;该模型还可利用分类/标注的错误信息为样本,持续进行训练,不断提升模型性能,基于复杂分类体系及标注信息的数据目录交互式动态生成。
4.根据权利要求3一种企业数据资产的自动探索方法,其特征在于:所述提出一种可递归定义的数据资产分类体系,可解决企业数据资产的复杂分类需求,该方法定义了一种可递归的树状结构,根节点以下每条边为一属性值,每一子节点为一子分类属性,每一属性值上可递归定义新的分类属性,形成复杂的分类体系,系统支持定义多个分类体系,基于数据库日志或sql脚本解析的数据资产关联关系自动分析技术。
5.根据权利要求4一种企业数据资产的自动探索方法,其特征在于:所述每一分类体系都可用于生成一种数据目录,因此系统支持交互式动态生成数据目录。分类体系任一节点都可由标注进行过滤,生成新的数据目录。
6.根据权利要求5一种企业数据资产的自动探索方法,其特征在于:所述支持对资产间的关联关系的自动分析,分析结果可建构为资产关联关系图谱,支持数据血缘追溯。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310789654.6A CN116881376A (zh) | 2023-06-30 | 2023-06-30 | 一种企业数据资产的自动探索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310789654.6A CN116881376A (zh) | 2023-06-30 | 2023-06-30 | 一种企业数据资产的自动探索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116881376A true CN116881376A (zh) | 2023-10-13 |
Family
ID=88263608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310789654.6A Pending CN116881376A (zh) | 2023-06-30 | 2023-06-30 | 一种企业数据资产的自动探索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881376A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117762950A (zh) * | 2024-02-20 | 2024-03-26 | 北京优特捷信息技术有限公司 | 基于树形结构的日志数据分析处理方法、装置及介质 |
-
2023
- 2023-06-30 CN CN202310789654.6A patent/CN116881376A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117762950A (zh) * | 2024-02-20 | 2024-03-26 | 北京优特捷信息技术有限公司 | 基于树形结构的日志数据分析处理方法、装置及介质 |
CN117762950B (zh) * | 2024-02-20 | 2024-05-03 | 北京优特捷信息技术有限公司 | 基于树形结构的日志数据分析处理方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125068A (zh) | 一种元数据治理方法和系统 | |
CN103970902A (zh) | 一种大量数据情况下的可靠即时检索方法及系统 | |
CN112100181B (zh) | 一种基于沙盘的数据资源管理方法 | |
CN112651218A (zh) | 一种标书自动生成方法、管理方法、介质以及计算机 | |
CN106096644B (zh) | 基于概率工作流的相似度度量方法及装置 | |
CN104899143A (zh) | 提供数据挖掘的软件同行评审系统实现装置 | |
CN116881376A (zh) | 一种企业数据资产的自动探索方法 | |
CN116991931A (zh) | 一种元数据管理方法和系统 | |
CN111352982A (zh) | 一种基于大数据的人力抽取分析系统 | |
CN115309749A (zh) | 一种用于科技服务的大数据实验系统 | |
CN112966162A (zh) | 一种基于数据仓库与中间件的科技资源集成方法及装置 | |
CN113032496A (zh) | 一种基于产业知识图谱的产业大脑数据分析系统 | |
CN115952160B (zh) | 一种数据盘点方法 | |
Razmak et al. | Lean database: an interdisciplinary perspective combining lean thinking and technology. | |
CN116911788A (zh) | 一种中小企业创业经营用办公自动化管理系统 | |
CN116010439A (zh) | 一种可视化中文sql系统及构建查询方法 | |
Sen et al. | Toward developing data warehousing process standards: An ontology-based review of existing methodologies | |
Nissen et al. | A framework for integrating knowledge process and system design | |
CN116306662A (zh) | 一种基于物联网标识的生产要素管理系统及方法 | |
Hodinka et al. | Business intelligence in Environmental reporting powered by XBRL | |
CN114265889A (zh) | 一种基于知识图谱的学科知识数据处理方法及装置 | |
CN115689463A (zh) | 一种稀土行业的企业台账数据库管理系统 | |
CN114169693A (zh) | 一种基于数字化试验报告的变电设备运行评价方法 | |
CN111291102A (zh) | 一种政务数据挖掘的高性能规模统计计算方法 | |
Wang et al. | Construction of knowledge graph for internal control of financial enterprises |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |