CN117648339B - 一种数据探查方法、装置、服务器及存储介质 - Google Patents
一种数据探查方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN117648339B CN117648339B CN202410117312.4A CN202410117312A CN117648339B CN 117648339 B CN117648339 B CN 117648339B CN 202410117312 A CN202410117312 A CN 202410117312A CN 117648339 B CN117648339 B CN 117648339B
- Authority
- CN
- China
- Prior art keywords
- data
- exploration
- physical
- entity
- logic entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 52
- 239000000523 sample Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 48
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000012356 Product development Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种数据探查方法、装置、服务器及存储介质,其中方法包括:执行对象探查,得到逻辑实体与物理表的映射关系;其中,一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体;获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系;根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据;其中,所述ER数据为数据探查结果,所述ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系。本申请实施例可以降低数据探查的局限性,提升数据探查的适用性。
Description
技术领域
本申请实施例涉及数据处理技术领域,具体涉及一种数据探查方法、装置、服务器及存储介质。
背景技术
数据资产是指企业拥有或者控制的数据资源,随着企业对于数字化转型的需求越发迫切,管理企业的数据资产已成为企业非常重要的工作内容。数据探查是整理数据资产的重要环节,数据探查旨在了解数据资产的数据形态,从而为寻找企业潜在的数据问题和风险提供基础。数据探查对于企业数字化转型具有重要意义,因此如何改进数据探查方案,以降低数据探查的局限性,成为了本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种数据探查方法、装置、服务器及存储介质,以降低数据探查的局限性。
为实现上述目的,本申请实施例提供如下技术方案。
第一方面,本申请实施例提供一种数据探查方法,包括:
执行对象探查,得到逻辑实体与物理表的映射关系;其中,一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体;
获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系;
根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据;其中,所述ER数据为数据探查结果,所述ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系。
第二方面,本申请实施例提供一种数据探查装置,包括:
对象探查模块,用于执行对象探查,得到逻辑实体与物理表的映射关系;其中,一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体;
元数据信息获取模块,用于获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系;
关系探查模块,用于根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据;其中,所述ER数据为数据探查结果,所述ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系。
第三方面,本申请实施例提供一种服务器,包括:至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如上述第一方面所述的数据探查方法。
第四方面,本申请实施例提供一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时实现如上述第一方面所述的数据探查方法。
第五方面,本申请实施例提供一种计算机程序产品,包括一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时实现如上述第一方面所述的数据探查方法。
本申请实施例提供的数据探查方法可以包括:执行对象探查,得到逻辑实体与物理表的映射关系;其中,一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体;以及,获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系;进而,本申请实施例可以根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据,所述ER数据为数据探查结果;其中,所述ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系。
可以看出,本申请实施例可以将数据探查分为对象探查和关系探查,并且关系探查基于对象探查所得到的逻辑实体与物理表的映射关系而进行,从而通过关系探查,本申请实施例可以得到物理表之间的ER关系、以及物理表之间字段的ER关系,从而实现物理表的关系确定,形成ER数据并作为数据探查结果。由于本申请实施例是通过对象探查和关系探查,来得到表达物理表的关系的ER数据,可以不局限于物理表的类型;并且逻辑实体作为元数据的一部分,本申请实施例是以元数据为基础进行数据探查,便于后续根据元数据对数据进行管理;同时,本申请实施例利用元数据来进行数据探查,可以根据企业的业务场景需求进行定制化修改和后续管理;因此本申请实施例提供的数据探查方案的局限性较低。可见,本申请实施例能够降低数据探查的局限性,提升数据探查的适用性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的数据探查系统的示例图。
图2为本申请实施例提供的对象探查的流程图。
图3为逻辑实体之间的关联关系的示例图。
图4是为逻辑实体配置数据源的示例图。
图5为输入页面的示例图。
图6为本申请实施例提供的关系探查的流程图。
图7为本申请实施例提供的数据探查方法的流程图。
图8为本申请实施例提供的数据探查装置的示例图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
数据探查能够整理企业的数据资产,能够为数据资产的质量评估提供基础,从而帮助寻找企业潜在的数据问题和风险,因此数据探查是数据质量保障的重要步骤,并且是数据开发的基础;也就是说,如果不进行数据探查,则企业的数据类项目就会频繁反复,这对企业的数据类项目开发、运维会带来较大困难,大幅延长数据类项目的项目周期。
数据探查需要对企业的数据进行分析和探索,基于企业的数据可以存储于企业数据库中,并且企业数据库可以通过物理表存储数据,因此数据探查涉及对物理表进行处理。
基于数据探查涉及对物理表进行处理,一种数据探查方式可以为:对于物理表,根据物理表的字段属性和字段属性的值分布,对物理表进行预定义类的分类,或者将物理表与预定义物理表进行字段映射,从而建立物理表的关系。进而,基于建立的物理表的关系,可以逐个探查物理表中每个字段的数据内容,并对数据内容进行数据质量的指标计算,实现评估数据质量,数据质量的指标例如空值率等。
然而,上述数据探查方式存在局限性,表现如下:
(1)通过探查物理表的字段属性的值分布,来对物理表进行分类,适用于数值型的物理表或分类型变量的物理表;其中,数值型的物理表是指物理表包含数值型数据(例如物理表中的数据可以用数值进行度量),分类型变量的物理表是指物理表包含分类型变量(例如物理表中的数据被分类到不同的类别,每个类别的数据可以是变量值);
但是,企业的业务场景中可能存在大量数据为长字符串类变量,长字符串类变量是指包含较长文本或字符序列的变量,长字符串类变量的值可能是文章、描述、评论、备注等文本形式的数据,而不是简短的单个词或短语;因此通过探查物理表的字段属性的值分布,来对物理表进行分类并不适用于数据为长字符串类变量的情况,这导致难以对数据为长字符串类变量的物理表进行数据探查,需要大量依赖人力对数据为长字符串类变量的物理表进行数据探查,增加了人力投入。
(2)在不同数据来源中,相同逻辑实体存在属性数量不同、同义逻辑实体属性命名不同、或分类型变量编码不同等情况,这导致在属性层面建立物理表与预定义类的分类映射,或建立物理表与预定义物理表的字段映射会存在困难,从而难以进行后续数据管理;
需要说明是,逻辑实体属于元数据的组成部分,例如,元数据包括逻辑实体、逻辑实体属性;逻辑实体是描述数据的数据,属于元数据的一员;逻辑实体存储的是描述物理表和物理表字段的信息(即元数据),而物理表是数据库中真正存储数据的存储结构;物理表可以由逻辑实体生成,逻辑实体和物理表可以存在对应的关系;例如,基于逻辑实体描述物理表的信息,可以生成对应的物理表,并且使用物理表存储逻辑实体所描述的物理表字段对应的数据;
也就是说,建立物理表的关系如果局限于物理表的属性级别,则在遇到不同数据来源中相同逻辑实体的属性数量不同、同义逻辑实体的属性命名不同、或分类型变量编码不同等情况时,建立物理表与预定义类的分类映射,或建立物理表与预定义物理表的字段映射会遇到困难,也难以根据元数据对数据进行后续管理。
(3)对于物理表的关系检测,局限于搜索物理表的字段属性的值所得到的关系,难以根据企业的业务场景进行定制化修改。例如,物理表的关系检测局限于物理表的字段属性之间的值搜索,缺乏对元数据的利用,难以根据企业的业务场景需求进行定制化修改和后续管理。
可见,上述数据探查方式存在较大的局限性,而在上述数据探查方式无法适用的情况下,往往需要投入大量的人力来人为的进行数据探查,这进一步导致人力成本的投入较大、以及数据探查准确性较低的问题。
基于此,本申请实施例提供改进的数据探查方案,以降低数据探查的局限性,进而在数据探查过程中减小人力投入,并最大程度的减小数据探查错误。
作为可选实现,图1示例性的示出了本申请实施例提供的数据探查系统的示例图,如图1所示,该数据探查系统可以包括:数据资产管理平台110、多个数据源120。
数据资产管理平台110为本申请实施例设置的用于管理数据资产的服务器平台,数据资产管理平台可以是多台服务器组成的服务器集群所形成的服务器平台,也可以是单一服务器所形成的服务器平台。
作为可选实现,数据资产管理平台110可以是提供数据资产管理服务的第三方平台,可支持接入企业的多个数据源120,以对企业的多个数据源120中的物理表进行处理,实现数据探查。数据资产管理平台110可以支持接入企业多种类型的数据源,企业一种类型的数据源的数量可以是一个或多个,例如,数据资产管理平台110可以支持接入企业的ERP(Enterprise Resource Planning,企业资源规划)、CRM(Customer RelationshipManagement,客户关系管理)、PDM(Product Data Management,产品数据管理)等多种类型的数据库,企业在每种类型的数据库的数量可以为一个或多个。
作为可选实现,数据资产管理平台110可以支持接入不同企业的数据源,从而对不同企业分别进行数据探查,其中,一个企业的数据源可以是多种类型的数据库,一种类型的数据源的数量可以是一个或多个。
在本申请实施例中,数据资产管理平台以企业的数据源作为数据输入(企业的数据源例如企业的数据库),从而对企业进行数据探查。数据资产管理平台进行的数据探查可以包括对象探查和关系探查。
其中,对象探查是指确定逻辑实体与物理表的映射关系的过程,也就是说,通过对象探查可以从企业的数据源存储的物理表中,确定与逻辑实体相映射的物理表。关系探查是指为物理表建立ER(Entity Relationship,实体关系)关系,进一步的,关系探查可以为物理表之间的字段建立ER关系。
下面分别从对象探查和关系探查的角度,对本申请实施例提供的数据探查方案进行说明。
作为可选实现,图2示例性的示出了本申请实施例提供的对象探查的可选流程图,该方法流程可由服务器执行,例如由数据资产管理平台对应的服务器执行该方法流程,参照图2,该方法流程可以包括如下步骤。
在步骤S210中,确定探查范围信息,所述探查范围信息包括:业务场景、业务场景下的业务对象、业务对象下的逻辑实体。
作为可选实现,本申请实施例以业务场景为范围进行探查,一个业务场景可以视为是企业的一个业务流,一个业务流下存在多个任务(即业务场景是通过业务流下的多个任务来达成),其中,不同的业务场景可以具有不同的业务流。示例的,业务场景可以例如企业的订单业务场景(对应订单的业务流)、产品研发的业务场景(对应产品研发的业务流)等。
作为可选实现,本申请实施例可以设定企业的多个业务场景,从而在需要进行数据探查时,以所有的多个业务场景作为探查范围。在可选实现中,本申请实施例也可以从设定的多个业务场景中选定业务场景,作为探查范围。
在确定业务场景的探查范围后,本申请实施例可以得到探查范围信息,即获取业务场景下的业务对象、业务对象下的逻辑实体,从而得到探查范围信息。也就是说,针对业务场景,本申请实施例可以获取业务场景下的业务对象、业务对象下的逻辑实体,形成探查范围信息。
其中,业务场景可以通过多个业务功能点实现,比如多个业务功能点可以完成业务流的多个任务,从而本申请实施例可以定义业务场景下的多个业务功能点,并且各个业务功能点可抽象为业务对象,进而业务场景下可以具有多个业务对象;在每个业务对象下可以构建实现业务功能点的逻辑实体,比如一个业务对象下可以构建一个或多个逻辑实体,从而形成业务场景下具有业务对象,业务对象下具有逻辑实体的层级关系。
在进一步的可选实现中,逻辑实体之间可以具有关联关系,并且逻辑实体之间的关联关系可以解析成逻辑实体之间的连接边(比如有向连接边)等特定形式。示例的,以订单的业务场景为例,图3示例性的示出了逻辑实体之间的关联关系的示例图,如图3所示,订单的业务场景下可以具有多个业务对象,比如销售订单、签收单、发货单等业务对象。订单的业务场景下的各个业务对象下可以具有对应的逻辑实体,并且逻辑实体之间具有关联关系;比如,销售订单下具有销售订单基本信息的逻辑实体、签收单下具有签收单基本信息的逻辑实体和签收单行的逻辑实体,发货单下具有发货单基本信息的逻辑实体和发货单行的逻辑实体;发货单行的逻辑实体可以通过有向连接边指向销售订单基本信息的逻辑实体,签收单基本信息的逻辑实体可以通过有向连接边指向发货单基本信息的逻辑实体,签收单行的逻辑实体可以通过有向连接边指向发货单行的逻辑实体,从而将销售订单、签收单、发货单的业务对象下的逻辑实体相关联。
在可选实现中,本申请实施例可以在确定探查范围后(例如确定业务场景后),基于图数据库的知识图谱,获取业务场景下的业务对象、业务对象下的逻辑实体,从而形成探查范围信息。进一步的,可以将业务场景下的业务对象、业务对象下的逻辑实体进行展示。可选的,图数据库的知识图谱可以例如Neo4J图数据库的知识图谱,其中,Neo4J图数据库是一种基于图数据库模型的数据库管理系统,Neo4J图数据库中的知识图谱可以是指通过图数据库模型表示和存储的关于实体及实体之间关系的知识结构。
在步骤S211中,根据业务场景在数据资产管理平台所归属的应用服务,为业务场景下的业务对象下的逻辑实体配置应用服务对应的数据源,以得到逻辑实体的待探查物理表清单;其中,数据源中具有存储数据的物理表。
数据资产管理平台可以具有用于企业管理数据资产的管理操作系统,该管理操作系统可以包含多个应用服务,以为企业提供多个用于数据资产管理的服务。数据资产管理平台所具有的应用服务的类型可以根据实际情况设定,本申请实施例并不设限。对于不同应用服务而言,不同应用服务下的业务场景、业务对象、逻辑实体属性所需要集成的企业数据系统是不同的,也就是说,不同应用服务的数据来源于企业不同的数据系统。
示例的,比如数据资产管理平台的管理操作系统可以具有ICM(IntelligenceContract Management,智能合同管理)应用服务和主数据应用服务。其中,主数据应用服务可以是数据资产管理平台提供的用于主数据管理的应用服务,主数据是企业在业务流程中产生或者在业务管理规定中定义的具有业务价值、被重复调用的数据。
对于ICM应用服务,在ICM应用服务下可以具有订单业务场景,订单业务场景下可以具有销售订单的业务对象,销售订单的业务对象下可以有销售订单基本信息的逻辑实体,而销售订单的业务对象下的逻辑实体所对应的物理表来自于企业的ERP系统,即ICM应用服务下的销售订单的物理表来自于企业的ERP系统,其中,销售订单的物理表由销售订单的业务对象下的逻辑实体描述。
对于主数据应用服务,主数据应用服务下的业务场景可以具有组织主数据的业务对象,而组织主数据的物理表自于企业的CRM系统,即主数据应用服务下的组织主数据的物理表来自于企业的CRM系统,其中,组织主数据的物理表由组织主数据的业务对象下的逻辑实体描述。
可以看出,针对数据资产管理平台的不同应用服务,应用服务下的逻辑实体描述的物理表可以来自于不同的数据源,从而在可选实现中,本申请实施例可以预先设定应用服务与数据源的对应关系。进而在确定探查范围信息之后,本申请实施例可以确定业务场景所归属的应用服务,根据预先设定的应用服务与数据源的对应关系,将业务场景所归属的应用服务对应的数据源,配置给业务场景下的业务对象下的逻辑实体。也就是说,本申请实施例可以为业务场景下每个业务对象的每个逻辑实体配置数据源信息,并且配置的数据源信息为业务场景归属的应用服务所对应的数据源。
在可选实现中,逻辑实体可以具有逻辑实体属性,在为业务对象的逻辑实体配置数据源时,本申请实施例可以为业务对象的逻辑实体、以及逻辑实体属性配置数据源,在配置数据源时可以标识数据源所对应的应用服务。示例的,图4示例性的示出了为逻辑实体配置数据源的示例图,以ICM应用服务下可以具有订单业务场景为例,如图4所示,订单业务场景下具有发货单的业务对象,发货单的业务对象下具有发货单行的逻辑实体,发货单行的逻辑实体具有数据所属组织、删除者、删除时间的逻辑实体属性,从而基于订单业务场景归属的ICM应用服务,可以为发货单行的逻辑实体配置ICM应用服务的数据源,为发货单行的逻辑实体的数据所属组织、删除者、删除时间的逻辑实体属性分别配置ICM应用服务的数据源。
需要说明的是,数据源中具有存储数据的物理表,因此为业务场景下的业务对象下的逻辑实体配置应用服务的数据源,则可以得到业务场景下的业务对象下的逻辑实体对应需探查的物理表信息;也就是说,为逻辑实体配置的数据源中的物理表为逻辑实体待探查的物理表,逻辑实体待探查的物理表可以集合为逻辑实体的待探查物理表清单;其中一个逻辑实体在配置数据源后,该逻辑实体配置的数据源中的物理表可以形成该逻辑实体的待探查物理表清单。
可以看出,本申请实施例可以依托数据资产的企业元数据和知识图谱信息,通过预先配置的应用服务与数据源的关系,得到逻辑实体的待探查物理表清单。
在进一步的可选实现中,本申请实施例可以展示所配置的逻辑实体对应的数据源,比如在新增数据探查任务时,可以展示数据探查任务的业务场景、业务场景下的业务对象下的逻辑实体对应配置的数据源和归属的应用服务。
在步骤S212中,获取逻辑实体的输入关联信息,逻辑实体的输入关联信息包括为逻辑实体设置关联的编码或者物理表。
对象探查的目的是得到企业的物理表与企业数据资产之间的映射关系,在企业数据资产以元数据进行管理的情况下,可以视为是建立逻辑实体与物理表的映射关系。由于在得到逻辑实体的待探查物理表清单之后,如果仅依靠自动化匹配方式来匹配物理表清单中与逻辑实体相映射的物理表,则无法保证对象探查具有较高的正确率,因此本申请实施例可以进行额外的内容输入,即输入为逻辑实体设置的输入关联信息。
在可选实现中,逻辑实体的输入关联信息可以是以输入方式,为逻辑实体设置的关联信息,比如为逻辑实体设置关联的编码或者物理表。也就是说,在可选实现中,逻辑实体的输入关联信息中可以包含为逻辑实体设置关联的编码信息,比如为逻辑实体设置关联的单据编号(例如为逻辑实体设置关联的订单编号、工单号等)。在其他可选实现中,逻辑实体的输入关联信息中可以包含为逻辑实体设置关联的物理表,比如提供可供选择的表选择清单,企业用户可以从表选择清单中选择物理表,来作为为逻辑实体设置关联的物理表。
在可选实现中,本申请实施例可以支持对表选择清单进行预览。另外,本申请实施例可以根据数据字典导入功能,获取公共数据源的表中文名(例如,例如销售订单头的逻辑实体可对应订单头的物理表,从而可以在表选择清单中提供订单头的表中文名,以便企业用户选择),以辅助企业用户准确输入或选择为逻辑实体设置关联的物理表。
在一个实现示例中,本申请实施例可以提供输入页面,以便支持用户在输入页面中为选定的逻辑实体,选择关联的编码或者物理表。示例的,图5示例性的示出了输入页面的示例图,本申请实施例可以通过页面展示探查范围信息中的逻辑实体,从而在企业用户选定页面展示的逻辑实体后(可以支持单选或者多选逻辑实体),本申请实施例可以提供输入页面,以便企业用户为选定的逻辑实体选择关联类型;如果选择通过编码关联,则可以将逻辑实体的单据编号等编码信息,作为为逻辑实体设置关联的编码;如果选择通过表关联,则可以通过下拉栏预览表选择清单,并展示表名和选择表名,从而从表选择清单中选择为逻辑实体设置关联的物理表。
在企业用户为选定的逻辑实体选择关联的编码或者物理表后,可以得到为逻辑实体设置关联的编码或者物理表,从而作为探查任务的输入信息进行输入,以使得本申请实施例可以获取到逻辑实体的输入关联信息。比如,企业用户从探查范围信息所对应的逻辑实体中选定逻辑实体之后,可以视为是新增了一条探查任务,并且,企业用户为逻辑实体设置关联的编码或者物理表可以作为探查任务的任务输入,从而实现获取逻辑实体的输入关联信息。
可见,为避免依靠自动化匹配方式所带来的正确率难以保证的问题,本申请实施例依托逻辑实体的编码输入或者表输入,为逻辑实体设置额外的关联信息,来实现自定义对象探查规则的输入。也就是说,为逻辑实体设置关联的编码或者物理表,可以作为对象探查的自定义规则,以使得对象探查能够结合企业用户设置的逻辑实体关联的编码或者物理表,以辅助提升对象探查的正确率。
在步骤S213中,根据预设的对象探查规则以及逻辑实体的输入关联信息,从逻辑实体的待探查物理表清单中,确定与逻辑实体相映射的物理表,作为逻辑实体的对象探查初步结果。
在进行对象探查时,本申请实施例是以业务场景下的业务对象的逻辑实体为单位进行,也就是说,是针对逻辑实体进行对象探查。比如,企业用户可以在探查范围信息所对应的逻辑实体中选定进行对象探查的逻辑实体;当然,本申请实施例也支持对探查范围信息所对应的各个逻辑实体分别进行对象探查。由于逻辑实体是元数据的组成部分,因此本申请实施例可以视为是以元数据为基础进行对象探查。
基于本申请实施例所确定的逻辑实体的待探查物理表清单,针对进行对象探查的逻辑实体,本申请实施例可以从逻辑实体的待探查物理表清单中,匹配出与逻辑实体相映射的物理表,作为逻辑实体的对象探查初步结果。在从逻辑实体的待探查物理表清单中匹配与逻辑实体相映射的物理表的过程中,本申请实施例可以利用预设的对象探查规则,以及逻辑实体的输入关联信息。
示例的,本申请实施例可以支持企业用户从探查范围信息所对应的逻辑实体中选定逻辑实体,并且为选定的逻辑实体形成探查任务;当企业用户确认执行探查任务的探查操作后,数据资产管理平台可以响应于探查任务的探查操作请求,执行对象探查过程。在执行对象探查过程时,作为可选实现,本申请实施例可以根据预设的对象探查规则以及逻辑实体的输入关联信息,从企业用户选定的逻辑实体的待探查物理表清单中,匹配与企业用户选定的逻辑实体相映射的物理表,作为企业用户选定的逻辑实体的对象探查初步结果。
在可选实现中,数据资产管理平台可以通过对象探查执行引擎,执行对象探查过程。对象探查执行引擎可以设置预设的对象探查规则,以实现从逻辑实体的待探查物理表清单中,匹配与逻辑实体相映射的物理表。在一个示例中,对象探查执行引擎所设置的对象探查规则可以包括但不限于:
模型规则,主要包含物理表的中英文模糊匹配、企业数据字典、头行表命名规律、头行表数据量级关系、与空表排除等一系列规则的集合;
属性规则,属性规则是依赖逻辑实体的特点、业务履行链路实际情况和历史经验积累所得到的规则合集,主要包含逻辑实体属性的业务主键规则、头行表结构关联字段的规则;例如,企业单据编号的属性应唯一、头行表包含1比N的关联关系的属性字段;
抽样规则,抽样规则是一种基于已自动匹配的数据资产进行自动抽样的规则合集,例如,离散抽样(离散抽取100条数据进行匹配等)。
需要说明是,逻辑实体可以是级联的头行结构,即逻辑实体之间存在引用关联时,可以将逻辑实体引用的逻辑实体作为头逻辑实体,而引用头逻辑实体的逻辑实体作为行逻辑实体,此处所指的引用是数据的引用,即行逻辑实体的数据引用头逻辑实体的数据,并且这种引用关联是级联的。从而,级联的头行结构的逻辑实体可以对应头行表,比如头逻辑实体对应的物理表为头表,行逻辑实体对应的物理表为行表。
在可选实现中,对象探查执行引擎所设置的对象探查规则可以基于企业用户的反馈进行调整,从而形成适应于多企业用户的规则内容,本申请实施例对于对象探查规则的具体规则内容,并不设限。
在设置多个对象探查规则的情况下,本申请实施例可以执行部分对象探查规则,得到筛选的与逻辑实体相映射的物理表,并利用另一部分对象探查规则,验证所筛选的与逻辑实体相映射的物理表的准确性,从而在验证准确的情况下,确定与逻辑实体相映射的物理表。
作为可选实现,在设置模型规则、属性规则、抽样规则的多个对象探查规则的情况下,本申请实施例可以利用模型规则,筛选与逻辑实体相映射的物理表;利用属性规则和抽样规则,验证所筛选的与逻辑实体相映射的物理表的准确性。
可选的,基于模型规则,本申请实施例可以借助大语言模型的能力,以及文本嵌入相似度的计算方式,在模型级别,对逻辑实体的待探查物理表清单进行筛选,得到筛选的与逻辑实体相映射的物理表;基于属性规则,本申请实施例可以考虑字段级别的约束(例如字段的数量限制,头行都需有单号字段等),对筛选的与逻辑实体相映射的物理表进行准确性验证;基于抽样规则,本申请实施例可以在数据层面,通过数据虚拟化工具,以异构数据源的统一语法抽样关联的方式,验证筛选的与逻辑实体相映射的物理表的准确性。
在一个示例中,以事务数据中发货单业务对象下的发货单基本信息以及发货单行的两个逻辑实体为例,本申请实施例可以基于如下过程获得逻辑实体相映射的物理表。
1.获取用户数据系统的数据字典,例如,通过ERP厂商的数据字典,获取用户数据系统所用到的表名和中文注释。
2.获取逻辑实体的信息,例如数据资产管理平台可以存储每个逻辑实体的中文名以及业务别名信息,从而,本申请实施例可以从数据资产管理平台存储的逻辑实体的信息中,获取发货单基本信息和发货单行的逻辑实体相关的信息。
3.相似度匹配筛选物理表,利用数据资产管理平台的知识库结合大模型的能力,根据模型规则,基于逻辑实体的信息与物理表的表名和中文注释的语义相似性,分别从发货单基本信息和发货单行的逻辑实体的待探查物理表清单中,筛选出语义相似最高的设定数量的物理表;
针对发货单基本信息和发货单行的逻辑实体分别筛选出的设定数量的物理表,可以通过主动元数据比对并结合数据资产管理平台的知识库,按照头行表的数量规律、命名规律,排除一定数量的空表,得到发货单基本信息和发货单行的逻辑实体分别筛选的物理表;例如,在排除一定数量的空表后,分别得到与发货单基本信息和发货单行的逻辑实体在语义相似上最高的前3张物理表(具体的表数量可进行动态配置),即筛选得到的与发货单基本信息的逻辑实体相映射的物理表、与发货单行的逻辑实体相映射的物理表;其中,发货单基本信息和发货单行的逻辑实体属于发货单业务对象,因此所映射的物理表可视为是发货单业务对象下映射的物理表(即发货单物理表)。
4.关联字段匹配,利用数据资产管理平台设置的流程编排信息、以及知识图谱中订单基本信息和发货单基本信息之间的ER关系的关联信息,确定订单号字段是订单基本信息和发货单基本信息的物理表的关联字段;进而,通过属性规则和数据字典,匹配发货单物理表(发货单基本信息的逻辑实体相映射的物理表、以及发货单行的逻辑实体相映射的物理表)中的订单号字段,并通过数据虚拟化工具进行统一SQL语法的数据层面匹配,验证发货单物理表是否与用户的订单进行关联,以验证所筛选的与发货单基本信息和发货单行的逻辑实体相映射的物理表是否准确。
5.唯一性校验,发货单号是发货单基本信息的物理表的业务主键,是唯一的字段,从而可以通过离散抽样查询发货单物理表的一部分数据(例如100条数据),并使用唯一性SQL语句判断字段值的唯一性,即验证抽样的部分发货单物理表是否具有唯一的发货单号。例如,对筛选得到的发货单基本信息的逻辑实体相映射的物理表、以及发货单行的逻辑实体相映射的物理表进行抽样,使用唯一性SQL语句,判断抽样的发货单基本信息和发货单行的逻辑实体映射的物理表是否具有唯一的发货单号,以验证所筛选的与发货单基本信息和发货单行的逻辑实体相映射的物理表是否准确。
通过以上过程,可以有效地执行对象探查过程,并保证后续任务的准确性。
在可选实现中,通过对象探查规则所确定的与逻辑实体相映射的物理表,可以作为逻辑实体的对象探查推荐结果;而如果逻辑实体的输入关联信息中指示了为逻辑实体设置关联的物理表,则逻辑实体的输入关联信息所指示的物理表可以作为逻辑实体的对象探查已选中结果;从而逻辑实体的对象探查推荐结果和对象探查已选中结果,可以作为逻辑实体的对象探查初步结果。也就是说,逻辑实体的对象探查初步结果包含了基于对象探查规则,从逻辑实体的待探查物理表清单中,确定的逻辑实体相映射的物理表,以及基于输入关联信息所指示的为逻辑实体设置关联的物理表。
在进一步的可选实现中,基于企业用户从探查范围信息所对应的逻辑实体中选定逻辑实体之后,可以形成对应的探查任务,本申请实施例可以支持通过探查任务列表展示企业用户选定的多个逻辑实体对应的探查任务,比如一个逻辑实体对应的探查任务,用于为逻辑实体匹配相映射的物理表。在可选实现中,探查任务列表可以展示各个探查任务的探查标题、对应的业务场景、实时执行状态、探查过程中各个阶段的操作、探查日志、探查结果等内容,并且支持企业用户对探查任务列表中的探查任务进行任务启动以及任务停止。
在步骤S214中,基于逻辑实体的对象探查初步结果,确认已关联的逻辑实体相映射的物理表,得到逻辑实体的对象探查最终结果。
本申请实施例可以在确定逻辑实体的对象探查初步结果之后,提供并输出逻辑实体的对象探查初步结果,比如将逻辑实体的对象探查初步结果提供给企业用户,以便企业用户通过其设备(例如终端设备)查看逻辑实体的对象探查初步结果。
在可选实现中,基于逻辑实体的对象探查初步结果包括对象探查推荐结果和对象探查已选中结果,本申请实施例可以通过不同的展示形式,展示对象探查推荐结果和对象探查已选中结果。示例性的,本申请实施例可以将逻辑实体的对象探查推荐结果(即通过对象探查规则所确定的与逻辑实体相映射的推荐物理表)以推荐形式进行展示,也就是说,逻辑实体的对象探查推荐结果被设置为以推荐形式进行展示,比如将对象探查推荐结果通过推荐形式在展示页面中进行置顶展示;将逻辑实体的对象探查已选中结果(即逻辑实体的输入关联信息所指示的为逻辑实体设置关联的物理表)展示为被选中的状态,也就是说,逻辑实体的对象探查已选中结果被设置为以被选中的状态进行展示。
需要说明的是,逻辑实体的对象探查初步结果是逻辑实体映射的物理表的集合,逻辑实体映射的物理表可以是推荐物理表以及输入关联信息设置关联的物理表。在可选实现中,逻辑实体映射的物理表指示的是逻辑实体与物理表的映射关系,本申请实施例可以支持多个物理表映射到一个逻辑实体,也可能存在多个逻辑实体共用一个物理表的情况。例如采购订单的逻辑实体可以映射直接采购的物理表和委外采购的物理表,而出库单、生产入库单、发货单等多个逻辑实体则可以共用出入库单据表这一物理表。
在进一步的可选实现中,本申请实施例可以支持对逻辑实体的对象探查初步结果进行确认和修改,比如可以将逻辑实体的对象探查初步结果提供给企业用户,支持由企业用户确认和修改逻辑实体的对象探查初步结果。在可选实现中,企业用户可以对逻辑实体的对象探查推荐结果和对象探查已选中结果进行确认和修改。
在一个实现示例中,当通过对象探查执行引擎执行完对象探查过程后,被选定的逻辑实体的探查任务可以更改为确认对象探查的状态,此时数据资产管理平台可以将逻辑实体的对象探查初步结果提供给企业用户,从而由企业用户确认逻辑实体的对象探查初步结果,并可支持由企业用户在确认过程中对逻辑实体映射的物理表进行修改。
在进一步的可选实现中,本申请实施例支持展示逻辑实体的对象探查初步结果中所有物理表的中英文,并提供所有物理表的数据预览,以便企业用户确认和修改对象探查初步结果。在进一步的可选实现中,本申请实施例支持用户在对逻辑实体的对象探查初步结果进行确认和修改的基础上,进一步支持用户新增逻辑实体映射的物理表,从而通过新增物理表的方式,来修改逻辑实体的对象探查初步结果。
在可选实现中,针对企业用户已确认映射关系的逻辑实体(企业用户可能是修改、新增逻辑实体映射的物理表之后,确认了逻辑实体的映射关系,也可能是直接确认了对象探查初步结果中逻辑实体的映射关系),本申请实施例可以为已确认映射关系的逻辑实体设置已关联标记,表示已关联了逻辑实体相映射的物理表,即已关联了逻辑实体与物理表的映射关系;已关联的逻辑实体与物理表的映射关系可以形成逻辑实体的对象探查最终结果。当探查范围信息所对应的所有逻辑实体均设置已关联标记(即探查范围信息所对应的所有逻辑实体均已关联了相映射的物理表),则本申请实施例可以得到探查范围信息所对应的所有逻辑实体的对象探查最终结果,得到最终的逻辑实体与物理表的映射关系。进一步的,本申请实施例可以保存所有逻辑实体的对象探查最终结果。
本申请实施例将逻辑实体的对象探查初步结果提供给企业用户进行确认和修改,并且基于企业用户确认的逻辑实体与物理表的映射关系,可以为逻辑实体关联相映射的物理表,从而由关联的逻辑实体与物理表的映射关系形成逻辑实体的对象探查最终结果,可以保证对象探查结果的准确性。
在其他可选实现中,步骤S214也可以不必执行,而是将逻辑实体的对象探查初步结果,直接作为逻辑实体的对象探查最终结果,从而得到最终的逻辑实体与物理表的映射关系。
在执行完成对象探查后,本申请实施例可以得到探查范围信息所对应的逻辑实体相映射的物理表,从而数据资产管理平台无需针对每个逻辑实体手动配置相映射的物理表,这可以减轻人工进行数据集成的工作量。基于对象探查所得到的逻辑实体与物理表的映射关系,本申请实施例可以进行关系探查,从而通过关系探查建立物理表之间的ER关系,进一步的,还可建立物理表之间的字段的ER关系;也就是说,关系探查的目的是为了建立物理表之间的关系,比如物理表之间的ER关系、物理表之间的字段的ER关系。
需要说明是,基于物理表之间的ER关系、字段的ER关系,可以生成从物理表到数据资产的集成SQL(Structured Query Language,结构化查询语言)语句,以使用集成SQL语句,将物理表的数据与数据资产的逻辑实体相集成,便于后续进行数据的分析和业务使用。也就是说,关系探查所得到的物理表之间的ER关系、字段的ER关系,能够用于物理表的数据至数据资产的逻辑实体的集成,实现数据资产管理平台的数据集成,以便于后续的数据的分析和业务使用。因此关系探查所得到的ER关系具有重要的使用意义。
作为可选实现,本申请实施例提供关系探查方案,以实现确定上述ER关系,并降低确定ER关系所消耗的人力和时间。作为可选实现,图6示例性的示出了本申请实施例提供的关系探查的可选流程图,该方法流程可由服务器执行,例如由数据资产管理平台对应的服务器执行该方法流程,参照图6,该方法流程可以包括如下步骤。
在步骤S610中,获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系。
在对企业数据资产进行数据集成前,需要建立物理表之间的ER关系,此时本申请实施例可以借助元数据信息(元数据信息包括逻辑实体之间的ER关系),从而在对象探查所得到的逻辑实体映射的物理表的基础上,建立物理表之间的ER关系。
作为可选实现,元数据信息可以是企业数据资产的元数据信息,可以存储于数据资产管理平台。元数据信息可以包括逻辑实体之间的ER关系,例如,任意业务场景的任意业务对象下逻辑实体的ER关系,包括但不限于:不同业务场景的不同业务对象下的逻辑实体之间的ER关系、同一业务场景的不同业务对象下的逻辑实体之间的ER关系、同一业务场景的同一业务对象下的逻辑实体之间的ER关系等。
在进一步的可选实现中,元数据信息还可以包括:业务履行链路信息等。其中,业务履行链路信息是指企业在执行业务过程中涉及的一系列步骤或环节所形成的业务流程链;这些步骤或环节可以涵盖从业务的发起到完成的整个过程所需的关键活动和信息流。在可选实现中,可以依据行业经验总结得到业务履行链路信息,并设置在元数据信息中。
在步骤S611中,根据元数据信息中的逻辑实体之间的ER关系,以及逻辑实体所映射的物理表,确定物理表之间的ER关系。
在获取到企业数据资产的元数据信息之后,为了建立物理表之间的ER关系,本申请实施例可以读取对象探查所得到的逻辑实体与物理表的映射关系(即逻辑实体所映射的物理表);从而根据元数据信息中的逻辑实体之间的ER关系,以及逻辑实体所映射的物理表,确定出物理表之间的ER关系。
作为可选实现,在得到对象探查所建立的逻辑实体与物理表的映射关系后,基于企业数据资产的元数据信息中的逻辑实体之间的ER关系,可以将逻辑实体之间的ER关系,迁移到逻辑实体所映射的物理表之间,从而确定出物理表之间的ER关系。也就是说,元数据信息中所包括的逻辑实体之间的ER关系,可以表示逻辑实体所映射的物理表之间的ER关系,从而可以基于逻辑实体之间的ER关系,以及逻辑实体所映射的物理表,建立出物理表之间的ER关系。比如,发货单与订单对应的两个逻辑实体之间存在ER关系,则可以表示发货单和订单这两个物理表的ER关系,从而建立发货单和订单这两个物理表的ER关系。
在步骤S612中,在存在ER关系的物理表之间,确定字段之间的ER关系,以得到物理表之间字段的ER关系。
作为可选实现,企业数据资产的数据集成过程可以并不限于得到物理表之间的ER关系,还可以得到物理表字段之间的ER关系。也就是说,还可以在物理表之间建立字段级别的ER关系,比如在存在ER关系的物理表之间,建立字段之间的ER关系。基于此,由于企业数据资产的逻辑实体的字段和物理表的字段并未建立关联关系,因此还需要执行一定的匹配规则,来实现在字段级别层面建立物理表字段之间的ER关系。
作为可选实现,本申请实施例可以通过在不同的数据库中执行存储操作或函数操作,从而在执行存储操作或函数操作的过程中,通过ER字段的匹配规则,为存在ER关系的物理表,建立字段之间的ER关系,以实现通过ER字段的匹配规则,在物理表之间建立字段级别的ER关系。在一个实现示例中,ER字段的匹配规则可以包括但不限于:
数据库外键规则,根据数据系统中DDL(Data Definition Language,数据定义语言)语句的表外键,在存在ER关系的物理表之间,自动确定字段之间的ER关系;
抽样规则,比如抽样数据系统的部分数据记录、特定字段进行字段之间的ER关系匹配;例如离散抽取100条数据、抽样获取字符串类型的字段等,进行字段之间的ER关系匹配。
通过ER字段的匹配规则,本申请实施例可以得到两个物理表(包含不同业务履行阶段和同一业务履行阶段下的头行表)之间关联的字段信息,也就是说,两个物理表之间存在关联的字段以及字段的关联关系。例如订单表和发货单表可以通过订单号的字段关联,发货单表可以通过发货单号的字段关联等。
在进一步的可选实现中,本申请实施例可以将物理表之间的ER关系、字段之间的ER关系进行汇集,形成企业的ER数据(也称为ER资产),并可以在后续进行展示和调整。例如,在执行完关系探查之后,便可以在任务探查列表中按照主数据、事务数据、基础数据等不同类型展示物理表的ER数据(涉及物理表之间的ER关系、以及不同物理表之间字段的ER关系),同时可以对不同表之间的ER关系进行调整或补充。当确认ER数据无误之后(比如可以直接确认关系探查所得到的ER数据无误,或者,在调整ER数据之后确认无误),便可以通过接口将企业的ER数据存储到数据资产管理平台,以供数据集成使用(比如供生成集成SQL语句使用)。
在进一步的可选实现中,关系探查的结果(ER数据)可以保存在企业资产目录下新建的资产空间,并将本申请实施例所探查得到的物理表、ER关系等信息持久化到数据资产管理平台的数据库中。从而数据集成时,便可应用对象探查和关系探查的结果,免于消耗大量时间来寻找物理表映射关系、配置ER关系等工作。
在进一步的可选实现中,本申请实施例可以基于物理表之间的ER关系,物理表之间的字段的ER关系,进行数据质量校验并输出质量报告。
在其他可能的实现中,针对对象探查,本申请实施例可以通过资产空间下逻辑实体的中英文命名、和物理表的数据字典进行文本匹配,从而实现相似度计算,以缩小扫描表的范围;另外,可以输入数据条数或年订单金额等信息,根据记录数量和值分布情况进行匹配。
在其他可能的实现中,针对关系探查,本申请实施例可以考虑在确认进行ER关系匹配的字段时,选择单据号等字段,从而可以有针对性地通过对应字段的值进行匹配。此外,本申请实施例可以深入进行字段级别的探查,同时可以在关系探查结果中呈现出与主数据、事务数据之间的关系。
综上,本申请实施例提供了一种包含对象探查和关系探查的数据探查方案,本申请实施例提供的数据探查方案的主要思路所形成的方法流程可以如图7所示。图7为本申请实施例提供的数据探查方法的可选流程图,该方法流程可由服务器执行,例如由数据资产管理平台对应的服务器执行该方法流程,参照图7,该方法流程可以包括如下步骤。
在步骤S710中,执行对象探查,得到逻辑实体与物理表的映射关系;其中,一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体。
作为可选实现,步骤S710所涉及的对象探查的可选实现过程,可以参照前文相应部分的描述。
在步骤S711中,获取元数据信息,元数据信息包括逻辑实体之间的ER关系。
在步骤S712中,根据元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据;其中,ER数据为数据探查结果,ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系。
作为可选实现,步骤S712所涉及的关系探查的可选实现过程,可以参照前文相应部分的描述。
本申请实施例提供的数据探查方法可以包括:执行对象探查,得到逻辑实体与物理表的映射关系;其中,一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体;以及,获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系;进而,本申请实施例可以根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据,所述ER数据为数据探查结果;其中,所述ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系。
可以看出,本申请实施例可以将数据探查分为对象探查和关系探查,并且关系探查基于对象探查所得到的逻辑实体与物理表的映射关系而进行,从而通过关系探查,本申请实施例可以得到物理表之间的ER关系、以及物理表之间字段的ER关系,从而实现物理表的关系确定,形成ER数据并作为数据探查结果。由于本申请实施例是通过对象探查和关系探查,来得到表达物理表的关系的ER数据,可以不局限于物理表的类型;并且逻辑实体作为元数据的一部分,本申请实施例是以元数据为基础进行数据探查,便于后续根据元数据对数据进行管理;同时,本申请实施例利用元数据来进行数据探查,可以根据企业的业务场景需求进行定制化修改和后续管理;因此本申请实施例提供的数据探查方案的局限性较低。可见,本申请实施例能够降低数据探查的局限性,提升数据探查的适用性。
进一步的,本申请实施例可以基于不同企业的场景形成数据探查的模板,提高相似企业的数据探查效率。另外,本申请实施例可以根据数据探查的结果,确定企业的数据资产的集成难度,方便了解企业的数据情况。另外,通过数据探查可以自动生成ER数据,无需在数据集成过程中配置复杂的ER关系,提升效率。另外,若使用数据探查的模板进行数据探查,则可以代替大量人工寻找数据、查看字典、编写SQL来确定关联关系等工作,可以提升数据探查的效率。
下面对本申请实施例提供的数据探查装置进行介绍,下文描述的数据探查装置可以视为是数据资产管理平台对应的服务器,为实现本申请实施例提供的数据探查方法所需设置的程序模块。下文描述的内容可与上文描述内容相互对应参照。
作为可选实现,图8示例性的示出了本申请实施例提供的数据探查装置的示例图,如图8所示,该数据探查装置可以包括:
对象探查模块810,用于执行对象探查,得到逻辑实体与物理表的映射关系;其中,一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体;
元数据信息获取模块820,用于获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系;
关系探查模块830,用于根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据;其中,所述ER数据为数据探查结果,所述ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系。
在可选实现中,对象探查模块810,用于执行对象探查,得到逻辑实体与物理表的映射关系,可以包括:
确定探查范围信息,所述探查范围信息包括:业务场景、业务场景下的业务对象、业务对象下的逻辑实体;
根据业务场景在数据资产管理平台所归属的应用服务,为业务场景下的业务对象下的逻辑实体配置应用服务对应的数据源,以得到逻辑实体的待探查物理表清单;其中,数据源中具有存储数据的物理表;
获取逻辑实体的输入关联信息,所述逻辑实体的输入关联信息包括为逻辑实体设置关联的编码或者物理表;
根据预设的对象探查规则以及逻辑实体的输入关联信息,从逻辑实体的待探查物理表清单中,确定与逻辑实体相映射的物理表,作为逻辑实体的对象探查初步结果。
在可选实现中,对象探查模块810,用于根据业务场景在数据资产管理平台所归属的应用服务,为业务场景下的业务对象下的逻辑实体配置应用服务对应的数据源,可以包括:确定业务场景所归属的应用服务;根据预先设定的应用服务与数据源的对应关系,将业务场景所归属的应用服务对应的数据源,配置给业务场景下的业务对象下的逻辑实体。
在可选实现中,所述逻辑实体的对象探查初步结果包括:逻辑实体的对象探查推荐结果和对象探查已选中结果;所述逻辑实体的对象探查推荐结果为:基于对象探查规则,从逻辑实体的待探查物理表清单中,确定的逻辑实体相映射的物理表;所述逻辑实体的对象探查已选中结果为:基于输入关联信息所指示的为逻辑实体设置关联的物理表;
其中,逻辑实体的对象探查推荐结果被设置为以推荐形式进行展示,逻辑实体的对象探查已选中结果被设置为以被选中的状态进行展示。
在可选实现中,对象探查模块810,用于执行对象探查,得到逻辑实体与物理表的映射关系,还可以包括:基于逻辑实体的对象探查初步结果,确认已关联的逻辑实体相映射的物理表,得到逻辑实体的对象探查最终结果。
在可选实现中,关系探查模块830,用于根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据,可以包括:
基于所述元数据信息中的逻辑实体之间的ER关系,将逻辑实体之间的ER关系,迁移到逻辑实体所映射的物理表之间,确定出物理表之间的ER关系;
在存在ER关系的物理表之间,确定字段之间的ER关系,以得到物理表之间字段的ER关系;
将物理表之间的ER关系、字段之间的ER关系进行汇集,形成ER数据。
本申请实施例还提供一种服务器,例如,数据资产管理平台对应的服务器,该服务器可以包括:至少一个处理器和至少一个存储器。
处理器可能是CPU(中央处理器),GPU(Graphics Processing Unit,图形处理器),NPU(嵌入式神经网络处理器),FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列),TPU(张量处理单元),AI芯片,ASIC(Application Specific Integrated Circuit,特定集成电路),或者是被配置成实施本申请实施例的一个或多个集成电路等。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
其中,存储器存储一条或多条计算机可执行指令,处理器调用所述一条或多条计算机可执行指令,以执行本申请实施例提供的数据探查方法。
本申请实施例还提供一种存储介质,该存储介质存储一条或多条计算机可执行指令,该一条或多条计算机可执行指令被执行时实现本申请实施例提供的数据探查方法。
本申请实施例还提供一种计算机程序产品,包括一条或多条计算机可执行指令,该一条或多条计算机可执行指令被执行时实现本申请实施例提供的数据探查方法。例如,该一条或多条计算机可执行指令被处理器执行时,实现本申请实施例提供的数据探查方法。
上文描述了本申请实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本申请实施例披露、公开的实施例方案。
虽然本申请实施例披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。
Claims (9)
1.一种数据探查方法,其特征在于,包括:
执行对象探查,得到逻辑实体与物理表的映射关系,所述映射关系表示探查范围信息所对应的逻辑实体相映射的物理表;其中,所述探查范围信息包括:业务场景、业务场景下的业务对象、业务对象下的逻辑实体;一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体;
获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系;
根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据;其中,所述ER数据为数据探查结果,所述ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系;
所述根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据包括:基于所述元数据信息中的逻辑实体之间的ER关系,将逻辑实体之间的ER关系,迁移到逻辑实体所映射的物理表之间,确定出物理表之间的ER关系;在存在ER关系的物理表之间,确定字段之间的ER关系,以得到物理表之间字段的ER关系;将物理表之间的ER关系、字段之间的ER关系进行汇集,形成ER数据。
2.根据权利要求1所述的方法,其特征在于,所述执行对象探查,得到逻辑实体与物理表的映射关系包括:
确定探查范围信息;
根据业务场景所归属的应用服务,为业务场景下的业务对象下的逻辑实体配置应用服务对应的数据源,以得到逻辑实体的待探查物理表清单;其中,数据源中具有存储数据的物理表;
获取逻辑实体的输入关联信息,所述逻辑实体的输入关联信息包括为逻辑实体设置关联的编码或者物理表;
根据预设的对象探查规则以及逻辑实体的输入关联信息,从逻辑实体的待探查物理表清单中,确定与逻辑实体相映射的物理表,作为逻辑实体的对象探查初步结果。
3.根据权利要求2所述的方法,其特征在于,所述根据业务场景所归属的应用服务,为业务场景下的业务对象下的逻辑实体配置应用服务对应的数据源包括:
确定业务场景所归属的应用服务;
根据预先设定的应用服务与数据源的对应关系,将业务场景所归属的应用服务对应的数据源,配置给业务场景下的业务对象下的逻辑实体。
4.根据权利要求2所述的方法,其特征在于,所述逻辑实体的对象探查初步结果包括:逻辑实体的对象探查推荐结果和对象探查已选中结果;所述逻辑实体的对象探查推荐结果为:基于对象探查规则,从逻辑实体的待探查物理表清单中,确定的逻辑实体相映射的物理表;所述逻辑实体的对象探查已选中结果为:基于输入关联信息所指示的为逻辑实体设置关联的物理表;
其中,逻辑实体的对象探查推荐结果被设置为以推荐形式进行展示,逻辑实体的对象探查已选中结果被设置为以被选中的状态进行展示。
5.根据权利要求2所述的方法,其特征在于,所述执行对象探查,得到逻辑实体与物理表的映射关系还包括:
基于逻辑实体的对象探查初步结果,确认已关联的逻辑实体相映射的物理表,得到逻辑实体的对象探查最终结果。
6.一种数据探查装置,其特征在于,包括:
对象探查模块,用于执行对象探查,得到逻辑实体与物理表的映射关系,所述映射关系表示探查范围信息所对应的逻辑实体相映射的物理表;其中,所述探查范围信息包括:业务场景、业务场景下的业务对象、业务对象下的逻辑实体;一个业务场景下具有至少一个业务对象,一个业务对象下具有至少一个逻辑实体;
元数据信息获取模块,用于获取元数据信息,所述元数据信息包括逻辑实体之间的ER关系;
关系探查模块,用于根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据;其中,所述ER数据为数据探查结果,所述ER数据包括:物理表之间的ER关系、以及物理表之间字段的ER关系;所述根据所述元数据信息、以及逻辑实体与物理表的映射关系,执行关系探查,得到ER数据包括:基于所述元数据信息中的逻辑实体之间的ER关系,将逻辑实体之间的ER关系,迁移到逻辑实体所映射的物理表之间,确定出物理表之间的ER关系;在存在ER关系的物理表之间,确定字段之间的ER关系,以得到物理表之间字段的ER关系;将物理表之间的ER关系、字段之间的ER关系进行汇集,形成ER数据。
7.一种服务器,其特征在于,包括:至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如权利要求1-5任一项所述的数据探查方法。
8.一种存储介质,其特征在于,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时实现如权利要求1-5任一项所述的数据探查方法。
9.一种计算机程序产品,其特征在于,包括一条或多条计算机可执行指令,所述一条或多条计算机可执行指令被执行时实现如权利要求1-5任一项所述的数据探查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410117312.4A CN117648339B (zh) | 2024-01-29 | 2024-01-29 | 一种数据探查方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410117312.4A CN117648339B (zh) | 2024-01-29 | 2024-01-29 | 一种数据探查方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117648339A CN117648339A (zh) | 2024-03-05 |
CN117648339B true CN117648339B (zh) | 2024-05-14 |
Family
ID=90049876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410117312.4A Active CN117648339B (zh) | 2024-01-29 | 2024-01-29 | 一种数据探查方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648339B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577590A (zh) * | 2013-11-12 | 2014-02-12 | 北京润乾信息系统技术有限公司 | 一种数据查询方法和系统 |
CN109491998A (zh) * | 2018-10-08 | 2019-03-19 | 杭州数梦工场科技有限公司 | 分析业务数据的方法、装置及电子设备 |
WO2020259309A1 (zh) * | 2019-06-28 | 2020-12-30 | 苏宁云计算有限公司 | 一种多维数据查询方法及装置 |
CN112434009A (zh) * | 2020-11-19 | 2021-03-02 | 浙江大华技术股份有限公司 | 端到端的数据探查方法、装置、计算机设备和存储介质 |
CN115209568A (zh) * | 2021-04-09 | 2022-10-18 | 成都极米科技股份有限公司 | 多链路系统业务流数据传输的管理方法、装置及存储介质 |
CN116244387A (zh) * | 2023-02-27 | 2023-06-09 | 上海太美数字科技有限公司 | 实体关系构建方法、装置、电子设备及存储介质 |
CN117453980A (zh) * | 2023-10-13 | 2024-01-26 | 杭州硕磐智能科技有限公司 | 元数据管理、配置页面生成方法、服务器及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7054877B2 (en) * | 2003-03-31 | 2006-05-30 | International Business Machines Corporation | Dealing with composite data through data model entities |
US20060242176A1 (en) * | 2005-04-22 | 2006-10-26 | Igor Tsyganskiy | Methods of exposing business configuration dependencies |
-
2024
- 2024-01-29 CN CN202410117312.4A patent/CN117648339B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577590A (zh) * | 2013-11-12 | 2014-02-12 | 北京润乾信息系统技术有限公司 | 一种数据查询方法和系统 |
CN109491998A (zh) * | 2018-10-08 | 2019-03-19 | 杭州数梦工场科技有限公司 | 分析业务数据的方法、装置及电子设备 |
WO2020259309A1 (zh) * | 2019-06-28 | 2020-12-30 | 苏宁云计算有限公司 | 一种多维数据查询方法及装置 |
CN112434009A (zh) * | 2020-11-19 | 2021-03-02 | 浙江大华技术股份有限公司 | 端到端的数据探查方法、装置、计算机设备和存储介质 |
CN115209568A (zh) * | 2021-04-09 | 2022-10-18 | 成都极米科技股份有限公司 | 多链路系统业务流数据传输的管理方法、装置及存储介质 |
CN116244387A (zh) * | 2023-02-27 | 2023-06-09 | 上海太美数字科技有限公司 | 实体关系构建方法、装置、电子设备及存储介质 |
CN117453980A (zh) * | 2023-10-13 | 2024-01-26 | 杭州硕磐智能科技有限公司 | 元数据管理、配置页面生成方法、服务器及存储介质 |
Non-Patent Citations (3)
Title |
---|
衡星辰 ; 陈丰 ; 张诗军 ; 甘杉 ; .元数据管理系统在电力企业的研究与实践.自动化与仪器仪表.2017,(第04期),全文. * |
陆燕 ; .企业概念数据模型研究与实践.金融电子化.2018,(第06期),全文. * |
高鸣明 ; .一种对象模型与关系模型的映射方法.科技促进发展(应用版).2010,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117648339A (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11409764B2 (en) | System for data management in a large scale data repository | |
US11461294B2 (en) | System for importing data into a data repository | |
CN109213754B (zh) | 一种数据处理系统及数据处理方法 | |
US7854376B2 (en) | System and method for managing item interchange and identification in an extended enterprise | |
CN111722839B (zh) | 一种代码生成方法、装置、电子设备及存储介质 | |
CN106294478B (zh) | 数据仓库的数据处理方法及装置 | |
CN104866426A (zh) | 软件测试综合控制方法及系统 | |
CN103020158A (zh) | 一种报表创建方法、装置和系统 | |
US10445675B2 (en) | Confirming enforcement of business rules specified in a data access tier of a multi-tier application | |
CN105868956A (zh) | 一种数据处理方法及装置 | |
CN111414410A (zh) | 数据处理方法、装置、设备和存储介质 | |
US11704345B2 (en) | Inferring location attributes from data entries | |
CN111427577A (zh) | 代码处理方法、装置及服务器 | |
CN111061733A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN116450908B (zh) | 基于数据湖的自助式数据分析方法、装置和电子设备 | |
CN117453980A (zh) | 元数据管理、配置页面生成方法、服务器及存储介质 | |
CN116303641B (zh) | 一种支持多数据源可视化配置的实验室报告管理方法 | |
CN117648339B (zh) | 一种数据探查方法、装置、服务器及存储介质 | |
CN113360517A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113221528A (zh) | 基于openEHR模型的临床数据质量评估规则的自动生成与执行方法 | |
EP2990960A1 (en) | Data retrieval via a telecommunication network | |
Zhong et al. | Burner: Recipe automatic generation for HPC container based on domain knowledge graph | |
CN118070764A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN115292370A (zh) | 一种业务单据数据处理方法、装置、介质 | |
CN114020751A (zh) | 大数据平台管理系统、方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |