CN114356933A - 一种基于元数据的企业数据治理方法和装置 - Google Patents
一种基于元数据的企业数据治理方法和装置 Download PDFInfo
- Publication number
- CN114356933A CN114356933A CN202210003871.3A CN202210003871A CN114356933A CN 114356933 A CN114356933 A CN 114356933A CN 202210003871 A CN202210003871 A CN 202210003871A CN 114356933 A CN114356933 A CN 114356933A
- Authority
- CN
- China
- Prior art keywords
- data
- business
- target
- metadata
- personnel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013523 data management Methods 0.000 title abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000012795 verification Methods 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000013075 data extraction Methods 0.000 claims abstract description 8
- 238000012790 confirmation Methods 0.000 claims description 16
- 239000008280 blood Substances 0.000 claims description 4
- 210000004369 blood Anatomy 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 21
- 238000012545 processing Methods 0.000 abstract description 21
- 230000007246 mechanism Effects 0.000 abstract description 5
- 238000004140 cleaning Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013499 data model Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于元数据的企业数据治理方法和装置,其中,所述方法包括:根据业务分析目标,定义所述业务分析目标对应的主数据表;基于所述主数据表定义元数据模型;根据所述元数据模型,将获取的多个数据源进行数据融合生成目标业务表,并自动执行融合引擎进行数据抽取、转换、融合以及校验;将所述目标数据表存入数据库缓冲表中,以供业务人员或数据人员进行确认和发布。本发明从业务目的出发对业务数据进行元数据定义,明确了多源数据到目标数据的转换规则、标准及校验机制。使得业务人员参与到数据清洗、构建过程,确保了数据处理规则的准确性和数据的质量。
Description
技术领域
本发明实施例涉及企业数据治理技术领域,尤其涉及一种基于元数据的企业数据治理 方法和装置。
背景技术
企业数字化转型,是将企业管理和业务运营相关的流程和数据进行信息化、数字化和 智能化的过程,其目标是实现业务数据化、数据业务化的闭环,进而实现业务资源配置可 持续发展,实现决策的自动化提效。为此,一个数据分析平台的搭建将打通企业数据的任 督二脉,助力业务发展。
目前市场上普遍存在的企业多源数据治理平台均需要研发人员直接参与,例如基于开 源ETL工具研发的数据管理平台、通过定义有图向量来实现数据路由、转换以及系统集成 功能的数据处理与分发系统等数据治理平台。
但是,上述现有技术更多的从技术研发的角度支持开发过程,而忽略了业务人员对数 据资产的规则定义和审计,这容易导致研发和业务人员对企业数据资产及处理规则细节产 生不一致;且上述现有技术几乎不考虑数据源变更(包括字段变更及字段取值变更)对企 业主数据黄金拷贝的影响,没有完善的数据确认及发布流程,质量得不到保障;此外,上 述现有技术主要面对的是结构化数据的处理,而当需要使用自然语言处理技术对非结构化 的文本进行抽取、实体碰到非结构化文本数据时,支持不够好,比如识别及对齐时,需要 做额外的系统整合工作。
发明内容
本发明提供一种基于元数据的企业数据治理方法,以实现让企业业务及数据分析人员 能够参与到数据资产的治理过程,降低数据源变更对产品的影响的同时增加数据融合的速 度和质量。
第一方面,本发明实施例提供了
一种基于元数据的企业数据治理方法,包括:
S110、根据业务分析目标,定义所述业务分析目标对应的主数据表;
S120、基于所述主数据表定义元数据模型;
S130、根据所述元数据模型,将获取的多个数据源进行数据融合生成目标业务表,并 自动执行融合引擎进行数据抽取、转换、融合以及校验;
S140、将所述目标业务表存入数据库缓冲表中,以供业务人员或数据人员进行确认和 发布。
第二方面,本发明实施例提供了一种基于元数据的企业数据治理装置,其特征在于, 包括:
主数据表定义模块,用于根据业务分析目标,定义所述业务分析目标对应的主数据表;
元数据模型定义模块,用于基于所述主数据表定义元数据模型;
目标业务表生成模块,用于根据所述元数据模型,将获取的多个数据源进行数据融合 生成目标业务表,并自动执行融合引擎进行数据抽取、转换、融合以及校验;
确认和发布模块,用于将所述目标业务表存入数据库缓冲表中,以供业务人员或数据 人员进行确认和发布。
本发明的有益效果如下:
(1)从业务分析目标出发,对业务数据进行了元数据定义,明确了多源数据到目标数 据的转换规则、标准及校验机制。使得业务人员参与到数据清洗、构建过程,确保了数据处理规则的准确性和数据的质量;
(2)在多源数据融合过程中,基于元数据定义对行列数据分别进行初步自动合并处理, 比如:基于主键的对齐做行合并,基于置信度来做数据点的选择及验证;在产生冲突时需 要数据处理人员或业务人员参与人工决策,并形成容错表使得未来数据处理更加自动化及 标准化。通过这种方式增加了数据融合的速度和质量,确保数据增强及可信度。
(3)通过对目标表进行元数据的定义,为每张表构建一张有向无环图,在多源数据表 发生变更时(字段或取值变更),自动识别变更对现有数据产生的影响,并将变更通知到数 据处理人员或业务人员,这降低了数据源变更对产品的影响。
附图说明
图1为企业数据治理过程中涉及的整体数据流;
图2为本发明中的一种基于元数据的企业数据治理方法流程图;
图3为本发明中的元数据模型定义示意图;
图4为本发明中的数据管理界面示意图;
图5为本发明中的表A根据多数据源主键更新示意图;
图6为本发明中的数据更新引擎示意图;
图7为本发明中的资产包管理数据运营界面示意图;
图8为本发明中的基金资产包信息的具体生成过程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的 具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于 描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
为了更好的理解本发明实施例的技术方案,首先对企业数据治理过程中涉及的整体数 据流进行介绍。
参见图1,整体数据流中的外部多路数据源:包括落地数据库、API对接、爬虫采集,对于各种数据来源需要考虑全量、增量处理,数据审计,数据可持续性及替代补充数据源。
内部数据:包括业务系统沉淀的用户行为和交易数据,长期积累的企业内部文档等;
数据湖:可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如文档、PDF、图像、音频、视频)。
架构包含:接入层、数据存储、数据处理、权限管理、自助数据发现、数据分类、数据质量等。
主数据和数仓:对于关键业务相关主数据进行黄金拷贝管理,并形成适合分析挖掘的 数据仓库。
对于企业需要基于多源数据做数据治理的场景,本发明实施例提供一种基于元数据的 企业数据治理方法,参见图2,该方法具体包括如下步骤:
S110、根据业务分析目标,定义所述业务分析目标对应的主数据表。
不同的业务分析目标所需要的主数据表也不同,本实施例中,首先根据业务分析目标, 来定义业务所需要的主数据表。
示例性的,若业务分析目标为资产包分析,其需要的主数据表包括1(基金概况)、表 2(基金GP概况)、表3(基金LP概况)以及表4(基金投组项目)。
S120、基于所述主数据表定义元数据模型。
对于企业的目标业务数据模型进行挖掘分析时,通常要知道这些数据来自哪里,如何 标准化处理,谁有权限使用和改变这些数据集的每一个数据,以及这些数据哪些被应用于 模型建模。
继续参见图3,在确定目标业务对应的主数据表之后,对于每张数据表,需要进行元数 据模型。
具体的,元数据定义内容包括:字段定义、主键定义、数据的内外部来源定义、从数据源获取入库的转换规则、当前数据版本以及访问权限等。
对于数据取值规则,允许业务人员或数据处理及分析人员通过定义类似存储过程的描 述语言来自动从数据源取值。用户还可以定义字段的约束规则,通过约束规则来自动校验 数据的准确性,或者通过人工做数据置信度评分。
本实施例中,在多个数据源数据融合的过程中,基于元数据模型定义,对多个数据源 数据的行数据和列数据分别进行初步自动合并处理。
比如:基于主键的对齐做行合并,基于置信度来做数据点的选择及验证;在产生冲突 时需要数据处理人员或业务人员参与人工决策,并形成容错表使得未来数据处理更加自动 化及标准化。通过这种方式增加了数据融合的速度和质量,确保数据增强及可信度。
S140、将所述目标业务表存入数据库缓冲表中,以供业务人员或数据人员进行确认和 发布。
具体的,业务人员或数据人员加载已自动融合的目标业务表,按照行和列分别对目标 数据进行编辑确认;在对目标业务表内容进行编辑确认后,提交审核后进行确认发布。例 如,业务人员可以对于重复的行进行人工删除合并,对于缺失的行进行添加,对于列字段 取值调整取值来源或编辑新的取值,更新置信概率,对于不标准的取值或实体名添加到字 典表或容错表等工作,在对数据表内容进行人工编辑确认后,提交主管审核人进行确认发 布。
进一步的,本发明的内容还包括:当监控到数据源数据字段发生变更时,通过更新引 擎将自动根据字段血缘有向图进行计算,判断是否需要对目标业务表数据进行更新确认操 作;若是,则生成一个新版本的数据表放入数据库缓冲表中,并提醒业务人员或数据人员 进行加载确认。
为了实现本发明的数据治理方法,本实施例提供了一种元数据驱动的数据管理系统 (Meta data driven Data Management System,MetaDMS)。图4为该数据管理系统界面示意 图,包括目标分析项目对应的表项,元数据模型定义、数据编辑、数据黄金拷贝等子单元。 在上述平台的基础上,通过页面配置编辑后,生成元数据模型定义,示例如下:
对于元数据模型定义说明如下:
field,定义字段名;
type,定义字段数据类型,取值包括:自动生成全局ID(ID)、字符串(string)、整数(int32)、浮点数(double)、布尔取值(boolean)、枚举值(enum)、嵌套(json);
pk,是否是主键,系统将自动根据pk组合进行记录判重;
fft,字段对应的容错表,为了对字段取值进行标准化使用;
etl,定义字段取值逻辑,可以定义多个数据来源;
source,数据源和映射字段定义;
opf,算子定义(operator function),包括:映射(map,如:字典定义、边界值和异常 值处理)、过滤(filter)、分组聚合(aggr)、entityMatch(基于有限状态机匹配算法、NLP的实体识别及对齐);
udf,用户定义函数(user defined function),支持sql和python脚本定义;
op,当存在多个数据源取值时,是顺序取值(seq),还是合并取值(or);
check,约束与校验逻辑定义,如:非空(not Null)、包含于其他表的指向取值(ref)、 边界区间取值(gt=10、lt=20)等;
search,是否可对字段进行检索,查询(query)、文本检索(index);
confidence,数据质量评估,取值置信度,用户可以设置为1,或者根据多源比对后, 确认可信概率;对于跨机构的数据,可通过数据安全算法(如,联邦机器学习)进行数据的校验。
ver,版本定义,用于管理版本是否已发布到黄金拷贝;
auth,访问权限定义,包括:只读(readonly),可编辑(edit),可导出(export)。
S130、根据所述元数据模型,将获取的多个数据源进行数据融合生成目标业务表,并 自动执行融合引擎进行数据抽取、转换、融合以及校验。
进一步的,通常除了业务系统产生的结构化数据,来自内外部多个数据源的数据融合, 为了产生黄金拷贝主数据供产品和分析使用,需要针对表记录和列取值做编辑及确认工作 来保障数据的高质量和可信度。
在项目中打开一张主数据表,在首次定义好元数据模型后,我们可以保存并生成数据 视图,切换到对应的数据视图页面,可以展示数据列表,并可按照已设置搜索属性的字段 进行检索,点击需要编辑确认的记录,可进入数据编辑页面。
系统首先根据元数据定义进行多个数据源数据融合,例如,根据唯一主键对多源数据 进行合并,但合并过程中,如果发现因主键相似性差异导致无法合并,此时业务人员或数 据维护人员可以人工确认合并或删除其中一条。例如,对于业务表A来说,只需要根据表 A的唯一主键对两个数据源来的数据进行去重合并,但是有可能因数据源某些字段取值定 义不同,导致不同的主键其实对应的同一条记录,那么这个时候,业务人员或数据维护人 员可以人工确认合并或删除其中一条,同时将该差异字段取值映射到统一规范的字段取值, 保存到业务数据容错表,供未来程序自动识别并标准化取值。图5为表A根据多数据源主 键更新的过程示意图。下表为表A每行数据的主要字段编辑:
其中,(1)列名:列出业务表A的重要字段,待编辑确认;(2)数据源:列出所 有数据源在每个字段上的取值;
(3)待提交(pre-master commit):根据元数据定义中每个字段的取值规则,自动生成 取值,并进行校验,如不满足校验规则,则提示人工确认;例如:当数据源A、B取值不同时,
(4)编辑:人工可对各字段取值进行修改;
(5)置信概率(confidence):各字段取值的置信概率,用户前期可以主动干预并将确认 过的数据的可信度设置为1,经过一段时间的人工确认后,平台对各个数据源的每个表数据 字段取值与最终人工确认的值进行比较,得到各自的准确率SP,即:SP=同字段相同取值 次数/参与比较的总次数,抽取数据时,如果字段出现在多于2个数据源,则计算出数据时 点共现概率OP,即:OP=共现次数/数据源数,最终置信概率=SP*OP。
待确认好各字段后,进行整条记录的保存工作。保存后,版本号加1。
进一步参见图6,当数据源数据字段发生更新,变更及增量数据会被引擎通过canal订 阅,对于发生更新的字段,通过遍历有向无环图(DAG,Directed Acyclic Graph)查找到影 响的表及字段,判断表记录是否需要更新,如果数据运营人员在此之前已经手工编辑过数 据,则默认不主动更新数据。如果之前没有修改过,则根据模型定义进行数据更新。其中,canal是用Java开发的基于数据库增量日志解析,提供增量数据订阅和消费的中间件。
综上,本发明实施例的有益效果如下:从业务分析目标出发,对业务数据进行了元数 据定义,明确了多源数据到目标数据的转换规则、标准及校验机制。使得业务人员参与到 数据清洗、构建过程,确保了数据处理规则的准确性和数据的质量;
在多源数据融合过程中,基于元数据定义对行列数据分别进行初步自动合并处理,比 如:基于主键的对齐做行合并,基于置信度来做数据点的选择及验证;在产生冲突时需要 数据处理人员或业务人员参与人工决策,并形成容错表使得未来数据处理更加自动化及标 准化。通过这种方式增加了数据融合的速度和质量,确保数据增强及可信度。
通过对目标表进行元数据的定义,为每张表构建一张有向无环图,在多源数据表发生 变更时(字段或取值变更),自动识别变更对现有数据产生的影响,并将变更通知到数据处 理人员或业务人员,这降低了数据源变更对产品的影响。
实施例二
本发明实施例提供了一种数据融合的方法,来支持私募股权基金资产包信息数据管理 和运营。图7为资产管理数据运营界面。
具体的,一个私募股权基金资产包的信息包含:基本信息、基金概览、合伙人信息、投资和退出信息、重点项目信息等,因为一级市场数字化程度弱、交易的保密性等原因, 导致单一数据源数据的维度和准确性都不够,所以需要基于多个数据源进行数据融合来保障数据的完整性和准确性,本实施例中的数据源包括工商信息、投融资数据库、上市公司信息、基金管理人提供的投资文档等。
基金资产包信息的具体生成过程如图8所示。整个数据融合过程在两个阶段使用到本 发明:第一,从多个外部数据源融合构建两个企业主数据库,私募股权基金数据库和基金 运营数据库;第二,从两个主数据库融合构建可在软件即服务(Software As aService,SaaS) 平台发布的基金资产包信息。两个阶段都由人机交互进行数据生成、更新、校验和确认提 交。
具体的,在基金资产包信息发布的过程中需要基于已有数据源进行相关表的抽取和融 合工作,比如:投资项目信息列表,投资项目包含以下字段信息:公司名、项目简称、行业、成立日期、项目介绍、团队介绍、基金持股比例、持股路径、投资轮次、投资日期、 最新融资轮次、最新融资日期、投资成本、项目估值、基金持股价值、资本回报倍数(MOC)、 是否重点项目、投后是否获得后续融资、最近财年PE/PS/PB、是否IPO项目、是否拟上市 项目、申报状态、是否榜单项目等信息,这些信息可以分类为多个来源,还有一些信息可 能两个数据源都不齐全,而业务经理可能通过线下项目尽调能够获取到项目关键信息并进 行维护补充。
在选择了数据源后,首先对目标数据模型进行元数据定义,包括定义投资项目表的表 字段,记录主键及对齐机制,数据的两个来源表,从数据源获取字段入库的转换规则,字 段的校验机制等。
在定义完数据模型并确认后,数据平台将根据元数据定义,生成目标业务表,并自动 执行融合引擎进行数据抽取、转换、融合、校验。生成好的数据自动存入数据库缓冲表,数据将等待业务人员或数据人员进一步的确认和发布。
业务人员或数据人员加载已自动融合的数据表,按照行和列分别对数据进行编辑确认, 比如:对于重复的行进行人工删除合并,对于缺失的行进行添加,对于列字段取值调整取 值来源或编辑新的取值,更新置信概率,对于不标准的取值或实体名添加到字典表或容错 表等工作。
在对数据表内容进行人工编辑确认后,提交主管审核人进行确认发布。
未来数据源发生变更时,数据平台更新引擎将自动根据字段血缘有向图进行计算,判 断是否需要对目标业务表数据进行更新确认操作,如果需要,将生成一个新的版本数据放 入缓冲表,并提醒业务人员进行加载确认。
实施例三
本发明实施例提供一种基于元数据的企业数据治理装置,包括:
主数据表定义模块,用于根据业务分析目标,定义所述业务分析目标对应的主数据表;
元数据模型定义模块,用于基于所述主数据表定义元数据模型;
目标业务表生成模块,用于根据所述元数据模型,将获取的多个数据源进行数据融合 生成目标业务表,并自动执行融合引擎进行数据抽取、转换、融合以及校验;确认和发布 模块,用于将所述目标业务表存入数据库缓冲表中,以供业务人员或数据人员进行确认和 发布。
其中,元数据模型定义模块中的元数据定义内容包括:
字段定义、主键定义、数据的内外部来源定义、从数据源获取入库的转换规则、当前 数据版本以及访问权限等。
上述目标业务表生成模块还具体用于在多个数据源数据融合的过程中,基于元数据模 型定义,对多个数据源数据的行数据和列数据分别进行合并处理。
确认和发布模块具体用于:业务人员或数据人员进行确认和发布包括:
业务人员或数据人员加载已自动融合的目标业务表,按照行和列分别对目标数据进行 编辑确认;
在对目标业务表内容进行编辑确认后,提交审核后进行确认发布。
可选的,该装置还包括更新模块,用于当监控到数据源数据字段发生变更时,通过更 新引擎将自动根据字段血缘有向图进行计算,判断是否需要对目标业务表数据进行更新确 认操作;若是,则生成一个新版本的数据表放入数据库缓冲表中,并提醒业务人员或数据 人员进行加载确认。
本发明实施例所提供的基于元数据的企业数据治理装置可执行本发明任意实施例所提 供的基于元数据的企业数据治理方法,具备执行方法相应的功能模块和有益效果,不再进 行赘述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本 发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重 新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了 较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还 可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (6)
1.一种基于元数据的企业数据治理方法,其特征在于,包括:
S110、根据业务分析目标,定义所述业务分析目标对应的主数据表;
S120、基于所述主数据表定义元数据模型;
S130、根据所述元数据模型,将获取的多个数据源进行数据融合生成目标业务表,并自动执行融合引擎进行数据抽取、转换、融合以及校验;
S140、将所述目标业务表存入数据库缓冲表中,以供业务人员或数据人员进行确认和发布。
2.根据权利要求1所述的方法,其特征在于,S120中的元数据定义内容包括:
字段定义、主键定义、数据的内外部来源定义、从数据源获取入库的转换规则、当前数据版本以及访问权限。
3.根据权利要求2所述的方法,其特征在于,在多个数据源数据融合的过程中,基于元数据模型定义,对多个数据源数据的行数据和列数据分别进行合并处理。
4.根据权利要求2所述的方法,其特征在于,业务人员或数据人员进行确认和发布包括:
业务人员或数据人员加载已自动融合的目标业务表,按照行和列分别对目标数据进行编辑确认;
在对目标业务表内容进行编辑确认后,提交审核后进行确认发布。
5.根据权利要求2所述的方法,其特征在于,还包括:
当监控到数据源数据字段发生变更时,通过更新引擎将自动根据字段血缘有向图进行计算,判断是否需要对目标业务表数据进行更新确认操作;
若是,则生成一个新版本的数据表放入数据库缓冲表中,并提醒业务人员或数据人员进行加载确认。
6.一种基于元数据的企业数据治理装置,其特征在于,包括:
主数据表定义模块,用于根据业务分析目标,定义所述业务分析目标对应的主数据表;
元数据模型定义模块,用于基于所述主数据表定义元数据模型;
目标业务表生成模块,用于根据所述元数据模型,将获取的多个数据源进行数据融合生成目标业务表,并自动执行融合引擎进行数据抽取、转换、融合以及校验;
确认和发布模块,用于将所述目标业务表存入数据库缓冲表中,以供业务人员或数据人员进行确认和发布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210003871.3A CN114356933A (zh) | 2022-01-04 | 2022-01-04 | 一种基于元数据的企业数据治理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210003871.3A CN114356933A (zh) | 2022-01-04 | 2022-01-04 | 一种基于元数据的企业数据治理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114356933A true CN114356933A (zh) | 2022-04-15 |
Family
ID=81106454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210003871.3A Pending CN114356933A (zh) | 2022-01-04 | 2022-01-04 | 一种基于元数据的企业数据治理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114356933A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114625769A (zh) * | 2022-05-13 | 2022-06-14 | 工保科技(浙江)有限公司 | 多数据来源场景下的主数据管理方法、系统、装置和介质 |
CN115269578A (zh) * | 2022-08-02 | 2022-11-01 | 中国神华能源股份有限公司 | 一种基于数据指标的综合能源企业数据治理方法及系统 |
CN116303392A (zh) * | 2023-03-02 | 2023-06-23 | 重庆市规划和自然资源信息中心 | 关于不动产登记数据的多源数据表管理方法 |
CN117435555A (zh) * | 2023-12-20 | 2024-01-23 | 杭州硕磐智能科技有限公司 | 主数据管理方法、平台、服务器及存储介质 |
CN118152388A (zh) * | 2024-05-09 | 2024-06-07 | 南京中新赛克科技有限责任公司 | 一种业务驱动数据治理的方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937965A (zh) * | 2012-09-29 | 2013-02-20 | 山东浪潮齐鲁软件产业股份有限公司 | 一种基于数据模型的元系统设计方法 |
CN108959381A (zh) * | 2018-05-29 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 数据的管理方法及装置和电子设备 |
CN109739894A (zh) * | 2019-01-04 | 2019-05-10 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
CN112527783A (zh) * | 2020-11-27 | 2021-03-19 | 中科曙光南京研究院有限公司 | 一种基于Hadoop的数据质量探查系统 |
-
2022
- 2022-01-04 CN CN202210003871.3A patent/CN114356933A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937965A (zh) * | 2012-09-29 | 2013-02-20 | 山东浪潮齐鲁软件产业股份有限公司 | 一种基于数据模型的元系统设计方法 |
CN108959381A (zh) * | 2018-05-29 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 数据的管理方法及装置和电子设备 |
CN109739894A (zh) * | 2019-01-04 | 2019-05-10 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
CN112527783A (zh) * | 2020-11-27 | 2021-03-19 | 中科曙光南京研究院有限公司 | 一种基于Hadoop的数据质量探查系统 |
Non-Patent Citations (1)
Title |
---|
张新阳;张梅;马文;程永新;: "基于电力行业的大数据时代下元数据管理方法", 电脑知识与技术, no. 31, 5 November 2018 (2018-11-05) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114625769A (zh) * | 2022-05-13 | 2022-06-14 | 工保科技(浙江)有限公司 | 多数据来源场景下的主数据管理方法、系统、装置和介质 |
CN115269578A (zh) * | 2022-08-02 | 2022-11-01 | 中国神华能源股份有限公司 | 一种基于数据指标的综合能源企业数据治理方法及系统 |
CN116303392A (zh) * | 2023-03-02 | 2023-06-23 | 重庆市规划和自然资源信息中心 | 关于不动产登记数据的多源数据表管理方法 |
CN116303392B (zh) * | 2023-03-02 | 2023-09-01 | 重庆市规划和自然资源信息中心 | 关于不动产登记数据的多源数据表管理方法 |
CN117435555A (zh) * | 2023-12-20 | 2024-01-23 | 杭州硕磐智能科技有限公司 | 主数据管理方法、平台、服务器及存储介质 |
CN117435555B (zh) * | 2023-12-20 | 2024-03-12 | 杭州硕磐智能科技有限公司 | 主数据管理方法、平台、服务器及存储介质 |
CN118152388A (zh) * | 2024-05-09 | 2024-06-07 | 南京中新赛克科技有限责任公司 | 一种业务驱动数据治理的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114356933A (zh) | 一种基于元数据的企业数据治理方法和装置 | |
US20240152542A1 (en) | Ontology mapping method and apparatus | |
US11243870B2 (en) | Resolution of data flow errors using the lineage of detected error conditions | |
US11899705B2 (en) | Putative ontology generating method and apparatus | |
US20220066772A1 (en) | System and Method for Code and Data Versioning in Computerized Data Modeling and Analysis | |
US10268753B2 (en) | System and method for optimized query execution in computerized data modeling and analysis | |
US10275502B2 (en) | System and method for interactive reporting in computerized data modeling and analysis | |
EP2342684B1 (en) | Fuzzy data operations | |
US8943059B2 (en) | Systems and methods for merging source records in accordance with survivorship rules | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
US20170083547A1 (en) | Putative ontology generating method and apparatus | |
WO2015161340A1 (en) | Ontology browser and grouping method and apparatus | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN111460401A (zh) | 结合软件制品过程信息和文本相似度的制品自动追踪方法 | |
Kondo et al. | An empirical study of issue-link algorithms: which issue-link algorithms should we use? | |
Dong et al. | Scene-based big data quality management framework | |
Elamin et al. | Toward an Ontology Based Approach for Data Warehousing | |
CN115269578A (zh) | 一种基于数据指标的综合能源企业数据治理方法及系统 | |
Curé et al. | An fca-based solution for ontology mediation | |
Solodovnikova et al. | Managing Evolution of Heterogeneous Data Sources of a Data Warehouse. | |
US20230185786A1 (en) | Detect data standardization gaps | |
US11853359B1 (en) | System and method for reporting multiple objects in enterprise content management | |
Bai et al. | Research on Audit Data Analysis and Decision Tree Algorithm for Benefit Distribution of Enterprise Financing Alliance | |
Uraev et al. | Designing XML Schema Inference Algorithm for Intra-enterprise Use | |
Bruno | The BI Architecture of a Luxury Fashion Company |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |