CN114356933A

CN114356933A - 一种基于元数据的企业数据治理方法和装置

Info

Publication number: CN114356933A
Application number: CN202210003871.3A
Authority: CN
Inventors: 夏磊
Original assignee: Zhizhong Data Technology Suzhou Co ltd
Current assignee: Zhizhong Data Technology Suzhou Co ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-15

Abstract

本发明公开了一种基于元数据的企业数据治理方法和装置，其中，所述方法包括：根据业务分析目标，定义所述业务分析目标对应的主数据表；基于所述主数据表定义元数据模型；根据所述元数据模型，将获取的多个数据源进行数据融合生成目标业务表，并自动执行融合引擎进行数据抽取、转换、融合以及校验；将所述目标数据表存入数据库缓冲表中，以供业务人员或数据人员进行确认和发布。本发明从业务目的出发对业务数据进行元数据定义，明确了多源数据到目标数据的转换规则、标准及校验机制。使得业务人员参与到数据清洗、构建过程，确保了数据处理规则的准确性和数据的质量。

Description

一种基于元数据的企业数据治理方法和装置

技术领域

本发明实施例涉及企业数据治理技术领域，尤其涉及一种基于元数据的企业数据治理方法和装置。

背景技术

企业数字化转型，是将企业管理和业务运营相关的流程和数据进行信息化、数字化和智能化的过程，其目标是实现业务数据化、数据业务化的闭环，进而实现业务资源配置可持续发展，实现决策的自动化提效。为此，一个数据分析平台的搭建将打通企业数据的任督二脉，助力业务发展。

目前市场上普遍存在的企业多源数据治理平台均需要研发人员直接参与，例如基于开源ETL工具研发的数据管理平台、通过定义有图向量来实现数据路由、转换以及系统集成功能的数据处理与分发系统等数据治理平台。

但是，上述现有技术更多的从技术研发的角度支持开发过程，而忽略了业务人员对数据资产的规则定义和审计，这容易导致研发和业务人员对企业数据资产及处理规则细节产生不一致；且上述现有技术几乎不考虑数据源变更(包括字段变更及字段取值变更)对企业主数据黄金拷贝的影响，没有完善的数据确认及发布流程，质量得不到保障；此外，上述现有技术主要面对的是结构化数据的处理，而当需要使用自然语言处理技术对非结构化的文本进行抽取、实体碰到非结构化文本数据时，支持不够好，比如识别及对齐时，需要做额外的系统整合工作。

发明内容

本发明提供一种基于元数据的企业数据治理方法，以实现让企业业务及数据分析人员能够参与到数据资产的治理过程，降低数据源变更对产品的影响的同时增加数据融合的速度和质量。

第一方面，本发明实施例提供了

一种基于元数据的企业数据治理方法，包括：

S110、根据业务分析目标，定义所述业务分析目标对应的主数据表；

S120、基于所述主数据表定义元数据模型；

S130、根据所述元数据模型，将获取的多个数据源进行数据融合生成目标业务表，并自动执行融合引擎进行数据抽取、转换、融合以及校验；

S140、将所述目标业务表存入数据库缓冲表中，以供业务人员或数据人员进行确认和发布。

第二方面，本发明实施例提供了一种基于元数据的企业数据治理装置，其特征在于，包括：

主数据表定义模块，用于根据业务分析目标，定义所述业务分析目标对应的主数据表；

元数据模型定义模块，用于基于所述主数据表定义元数据模型；

目标业务表生成模块，用于根据所述元数据模型，将获取的多个数据源进行数据融合生成目标业务表，并自动执行融合引擎进行数据抽取、转换、融合以及校验；

确认和发布模块，用于将所述目标业务表存入数据库缓冲表中，以供业务人员或数据人员进行确认和发布。

本发明的有益效果如下：

(1)从业务分析目标出发，对业务数据进行了元数据定义，明确了多源数据到目标数据的转换规则、标准及校验机制。使得业务人员参与到数据清洗、构建过程，确保了数据处理规则的准确性和数据的质量；

(2)在多源数据融合过程中，基于元数据定义对行列数据分别进行初步自动合并处理，比如：基于主键的对齐做行合并，基于置信度来做数据点的选择及验证；在产生冲突时需要数据处理人员或业务人员参与人工决策，并形成容错表使得未来数据处理更加自动化及标准化。通过这种方式增加了数据融合的速度和质量，确保数据增强及可信度。

(3)通过对目标表进行元数据的定义，为每张表构建一张有向无环图，在多源数据表发生变更时(字段或取值变更)，自动识别变更对现有数据产生的影响，并将变更通知到数据处理人员或业务人员，这降低了数据源变更对产品的影响。

附图说明

图1为企业数据治理过程中涉及的整体数据流；

图2为本发明中的一种基于元数据的企业数据治理方法流程图；

图3为本发明中的元数据模型定义示意图；

图4为本发明中的数据管理界面示意图；

图5为本发明中的表A根据多数据源主键更新示意图；

图6为本发明中的数据更新引擎示意图；

图7为本发明中的资产包管理数据运营界面示意图；

图8为本发明中的基金资产包信息的具体生成过程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

为了更好的理解本发明实施例的技术方案，首先对企业数据治理过程中涉及的整体数据流进行介绍。

参见图1，整体数据流中的外部多路数据源：包括落地数据库、API对接、爬虫采集，对于各种数据来源需要考虑全量、增量处理，数据审计，数据可持续性及替代补充数据源。

内部数据：包括业务系统沉淀的用户行为和交易数据，长期积累的企业内部文档等；

数据湖：可以存储结构化数据(如关系型数据库中的表)，半结构化数据(如CSV、日志、XML、JSON)，非结构化数据(如文档、PDF、图像、音频、视频)。

架构包含：接入层、数据存储、数据处理、权限管理、自助数据发现、数据分类、数据质量等。

主数据和数仓：对于关键业务相关主数据进行黄金拷贝管理，并形成适合分析挖掘的数据仓库。

对于企业需要基于多源数据做数据治理的场景，本发明实施例提供一种基于元数据的企业数据治理方法，参见图2，该方法具体包括如下步骤：

S110、根据业务分析目标，定义所述业务分析目标对应的主数据表。

不同的业务分析目标所需要的主数据表也不同，本实施例中，首先根据业务分析目标，来定义业务所需要的主数据表。

示例性的，若业务分析目标为资产包分析，其需要的主数据表包括1(基金概况)、表 2(基金GP概况)、表3(基金LP概况)以及表4(基金投组项目)。

S120、基于所述主数据表定义元数据模型。

对于企业的目标业务数据模型进行挖掘分析时，通常要知道这些数据来自哪里，如何标准化处理，谁有权限使用和改变这些数据集的每一个数据，以及这些数据哪些被应用于模型建模。

继续参见图3，在确定目标业务对应的主数据表之后，对于每张数据表，需要进行元数据模型。

具体的，元数据定义内容包括：字段定义、主键定义、数据的内外部来源定义、从数据源获取入库的转换规则、当前数据版本以及访问权限等。

对于数据取值规则，允许业务人员或数据处理及分析人员通过定义类似存储过程的描述语言来自动从数据源取值。用户还可以定义字段的约束规则，通过约束规则来自动校验数据的准确性，或者通过人工做数据置信度评分。

本实施例中，在多个数据源数据融合的过程中，基于元数据模型定义，对多个数据源数据的行数据和列数据分别进行初步自动合并处理。

比如：基于主键的对齐做行合并，基于置信度来做数据点的选择及验证；在产生冲突时需要数据处理人员或业务人员参与人工决策，并形成容错表使得未来数据处理更加自动化及标准化。通过这种方式增加了数据融合的速度和质量，确保数据增强及可信度。

具体的，业务人员或数据人员加载已自动融合的目标业务表，按照行和列分别对目标数据进行编辑确认；在对目标业务表内容进行编辑确认后，提交审核后进行确认发布。例如，业务人员可以对于重复的行进行人工删除合并，对于缺失的行进行添加，对于列字段取值调整取值来源或编辑新的取值，更新置信概率，对于不标准的取值或实体名添加到字典表或容错表等工作，在对数据表内容进行人工编辑确认后，提交主管审核人进行确认发布。

进一步的，本发明的内容还包括：当监控到数据源数据字段发生变更时，通过更新引擎将自动根据字段血缘有向图进行计算，判断是否需要对目标业务表数据进行更新确认操作；若是，则生成一个新版本的数据表放入数据库缓冲表中，并提醒业务人员或数据人员进行加载确认。

为了实现本发明的数据治理方法，本实施例提供了一种元数据驱动的数据管理系统 (Meta data driven Data Management System，MetaDMS)。图4为该数据管理系统界面示意图，包括目标分析项目对应的表项，元数据模型定义、数据编辑、数据黄金拷贝等子单元。在上述平台的基础上，通过页面配置编辑后，生成元数据模型定义，示例如下：

对于元数据模型定义说明如下：

field，定义字段名；

type，定义字段数据类型，取值包括：自动生成全局ID(ID)、字符串(string)、整数(int32)、浮点数(double)、布尔取值(boolean)、枚举值(enum)、嵌套(json)；

pk，是否是主键，系统将自动根据pk组合进行记录判重；

fft，字段对应的容错表，为了对字段取值进行标准化使用；

etl，定义字段取值逻辑，可以定义多个数据来源；

source，数据源和映射字段定义；

opf，算子定义(operator function)，包括：映射(map，如：字典定义、边界值和异常值处理)、过滤(filter)、分组聚合(aggr)、entityMatch(基于有限状态机匹配算法、NLP的实体识别及对齐)；

udf，用户定义函数(user defined function)，支持sql和python脚本定义；

op，当存在多个数据源取值时，是顺序取值(seq)，还是合并取值(or)；

check,约束与校验逻辑定义，如：非空(not Null)、包含于其他表的指向取值(ref)、边界区间取值(gt＝10、lt＝20)等；

search，是否可对字段进行检索，查询(query)、文本检索(index)；

confidence，数据质量评估，取值置信度，用户可以设置为1，或者根据多源比对后，确认可信概率；对于跨机构的数据，可通过数据安全算法(如，联邦机器学习)进行数据的校验。

ver，版本定义，用于管理版本是否已发布到黄金拷贝；

auth，访问权限定义，包括：只读(readonly)，可编辑(edit)，可导出(export)。

S130、根据所述元数据模型，将获取的多个数据源进行数据融合生成目标业务表，并自动执行融合引擎进行数据抽取、转换、融合以及校验。

进一步的，通常除了业务系统产生的结构化数据，来自内外部多个数据源的数据融合，为了产生黄金拷贝主数据供产品和分析使用，需要针对表记录和列取值做编辑及确认工作来保障数据的高质量和可信度。

在项目中打开一张主数据表，在首次定义好元数据模型后，我们可以保存并生成数据视图，切换到对应的数据视图页面，可以展示数据列表，并可按照已设置搜索属性的字段进行检索，点击需要编辑确认的记录，可进入数据编辑页面。

系统首先根据元数据定义进行多个数据源数据融合，例如，根据唯一主键对多源数据进行合并，但合并过程中，如果发现因主键相似性差异导致无法合并，此时业务人员或数据维护人员可以人工确认合并或删除其中一条。例如，对于业务表A来说，只需要根据表 A的唯一主键对两个数据源来的数据进行去重合并，但是有可能因数据源某些字段取值定义不同，导致不同的主键其实对应的同一条记录，那么这个时候，业务人员或数据维护人员可以人工确认合并或删除其中一条，同时将该差异字段取值映射到统一规范的字段取值，保存到业务数据容错表，供未来程序自动识别并标准化取值。图5为表A根据多数据源主键更新的过程示意图。下表为表A每行数据的主要字段编辑：

其中，(1)列名：列出业务表A的重要字段，待编辑确认；(2)数据源：列出所有数据源在每个字段上的取值；

(3)待提交(pre-master commit)：根据元数据定义中每个字段的取值规则，自动生成取值，并进行校验，如不满足校验规则，则提示人工确认；例如：当数据源A、B取值不同时，

(4)编辑：人工可对各字段取值进行修改；

(5)置信概率(confidence)：各字段取值的置信概率，用户前期可以主动干预并将确认过的数据的可信度设置为1，经过一段时间的人工确认后，平台对各个数据源的每个表数据字段取值与最终人工确认的值进行比较，得到各自的准确率SP，即：SP＝同字段相同取值次数/参与比较的总次数，抽取数据时，如果字段出现在多于2个数据源，则计算出数据时点共现概率OP，即：OP＝共现次数/数据源数，最终置信概率＝SP*OP。

待确认好各字段后，进行整条记录的保存工作。保存后，版本号加1。

进一步参见图6，当数据源数据字段发生更新，变更及增量数据会被引擎通过canal订阅，对于发生更新的字段，通过遍历有向无环图(DAG，Directed Acyclic Graph)查找到影响的表及字段，判断表记录是否需要更新，如果数据运营人员在此之前已经手工编辑过数据，则默认不主动更新数据。如果之前没有修改过，则根据模型定义进行数据更新。其中，canal是用Java开发的基于数据库增量日志解析，提供增量数据订阅和消费的中间件。

综上，本发明实施例的有益效果如下：从业务分析目标出发，对业务数据进行了元数据定义，明确了多源数据到目标数据的转换规则、标准及校验机制。使得业务人员参与到数据清洗、构建过程，确保了数据处理规则的准确性和数据的质量；

在多源数据融合过程中，基于元数据定义对行列数据分别进行初步自动合并处理，比如：基于主键的对齐做行合并，基于置信度来做数据点的选择及验证；在产生冲突时需要数据处理人员或业务人员参与人工决策，并形成容错表使得未来数据处理更加自动化及标准化。通过这种方式增加了数据融合的速度和质量，确保数据增强及可信度。

通过对目标表进行元数据的定义，为每张表构建一张有向无环图，在多源数据表发生变更时(字段或取值变更)，自动识别变更对现有数据产生的影响，并将变更通知到数据处理人员或业务人员，这降低了数据源变更对产品的影响。

实施例二

本发明实施例提供了一种数据融合的方法，来支持私募股权基金资产包信息数据管理和运营。图7为资产管理数据运营界面。

具体的，一个私募股权基金资产包的信息包含：基本信息、基金概览、合伙人信息、投资和退出信息、重点项目信息等，因为一级市场数字化程度弱、交易的保密性等原因，导致单一数据源数据的维度和准确性都不够，所以需要基于多个数据源进行数据融合来保障数据的完整性和准确性，本实施例中的数据源包括工商信息、投融资数据库、上市公司信息、基金管理人提供的投资文档等。

基金资产包信息的具体生成过程如图8所示。整个数据融合过程在两个阶段使用到本发明：第一，从多个外部数据源融合构建两个企业主数据库，私募股权基金数据库和基金运营数据库；第二，从两个主数据库融合构建可在软件即服务(Software As aService，SaaS) 平台发布的基金资产包信息。两个阶段都由人机交互进行数据生成、更新、校验和确认提交。

具体的，在基金资产包信息发布的过程中需要基于已有数据源进行相关表的抽取和融合工作，比如：投资项目信息列表，投资项目包含以下字段信息：公司名、项目简称、行业、成立日期、项目介绍、团队介绍、基金持股比例、持股路径、投资轮次、投资日期、最新融资轮次、最新融资日期、投资成本、项目估值、基金持股价值、资本回报倍数(MOC)、是否重点项目、投后是否获得后续融资、最近财年PE/PS/PB、是否IPO项目、是否拟上市项目、申报状态、是否榜单项目等信息，这些信息可以分类为多个来源，还有一些信息可能两个数据源都不齐全，而业务经理可能通过线下项目尽调能够获取到项目关键信息并进行维护补充。

在选择了数据源后，首先对目标数据模型进行元数据定义，包括定义投资项目表的表字段，记录主键及对齐机制，数据的两个来源表，从数据源获取字段入库的转换规则，字段的校验机制等。

在定义完数据模型并确认后，数据平台将根据元数据定义，生成目标业务表，并自动执行融合引擎进行数据抽取、转换、融合、校验。生成好的数据自动存入数据库缓冲表，数据将等待业务人员或数据人员进一步的确认和发布。

业务人员或数据人员加载已自动融合的数据表，按照行和列分别对数据进行编辑确认，比如：对于重复的行进行人工删除合并，对于缺失的行进行添加，对于列字段取值调整取值来源或编辑新的取值，更新置信概率，对于不标准的取值或实体名添加到字典表或容错表等工作。

在对数据表内容进行人工编辑确认后，提交主管审核人进行确认发布。

未来数据源发生变更时，数据平台更新引擎将自动根据字段血缘有向图进行计算，判断是否需要对目标业务表数据进行更新确认操作，如果需要，将生成一个新的版本数据放入缓冲表，并提醒业务人员进行加载确认。

实施例三

本发明实施例提供一种基于元数据的企业数据治理装置，包括：

目标业务表生成模块，用于根据所述元数据模型，将获取的多个数据源进行数据融合生成目标业务表，并自动执行融合引擎进行数据抽取、转换、融合以及校验；确认和发布模块，用于将所述目标业务表存入数据库缓冲表中，以供业务人员或数据人员进行确认和发布。

其中，元数据模型定义模块中的元数据定义内容包括：

字段定义、主键定义、数据的内外部来源定义、从数据源获取入库的转换规则、当前数据版本以及访问权限等。

上述目标业务表生成模块还具体用于在多个数据源数据融合的过程中，基于元数据模型定义，对多个数据源数据的行数据和列数据分别进行合并处理。

确认和发布模块具体用于：业务人员或数据人员进行确认和发布包括：

业务人员或数据人员加载已自动融合的目标业务表，按照行和列分别对目标数据进行编辑确认；

在对目标业务表内容进行编辑确认后，提交审核后进行确认发布。

可选的，该装置还包括更新模块，用于当监控到数据源数据字段发生变更时，通过更新引擎将自动根据字段血缘有向图进行计算，判断是否需要对目标业务表数据进行更新确认操作；若是，则生成一个新版本的数据表放入数据库缓冲表中，并提醒业务人员或数据人员进行加载确认。

本发明实施例所提供的基于元数据的企业数据治理装置可执行本发明任意实施例所提供的基于元数据的企业数据治理方法，具备执行方法相应的功能模块和有益效果，不再进行赘述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于元数据的企业数据治理方法，其特征在于，包括：

S120、基于所述主数据表定义元数据模型；

2.根据权利要求1所述的方法，其特征在于，S120中的元数据定义内容包括：

字段定义、主键定义、数据的内外部来源定义、从数据源获取入库的转换规则、当前数据版本以及访问权限。

3.根据权利要求2所述的方法，其特征在于，在多个数据源数据融合的过程中，基于元数据模型定义，对多个数据源数据的行数据和列数据分别进行合并处理。

4.根据权利要求2所述的方法，其特征在于，业务人员或数据人员进行确认和发布包括：

5.根据权利要求2所述的方法，其特征在于，还包括：

当监控到数据源数据字段发生变更时，通过更新引擎将自动根据字段血缘有向图进行计算，判断是否需要对目标业务表数据进行更新确认操作；

若是，则生成一个新版本的数据表放入数据库缓冲表中，并提醒业务人员或数据人员进行加载确认。

6.一种基于元数据的企业数据治理装置，其特征在于，包括：