CN111639143A

CN111639143A - 数据仓库的数据血缘关系展示方法及装置、电子设备

Info

Publication number: CN111639143A
Application number: CN202010504422.8A
Authority: CN
Inventors: 林沛欣; 卢超; 李海荣; 陈永辉
Original assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Current assignee: Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-08
Anticipated expiration: 2040-06-05
Also published as: CN111639143B

Abstract

本申请实施例涉及一种数据仓库的数据血缘关系展示方法及装置、电子设备。本申请实施例的数据仓库的数据血缘关系展示方法包括：接收到目标数据表的数据血缘关系查询请求；获取数据仓库中的第一映射关系表，得到目标数据表与数据仓库内其他数据表之间的第一数据血缘关系；针对第一数据血缘关系中的每个原始数据表，获取该原始数据表的第二映射关系表，获取该原始数据表与其源数据之间的第二数据血缘关系；根据第一数据血缘关系和第二数据血缘关系，生成该目标数据表的数据血缘关系图表。本申请实施例的数据仓库的数据血缘关系展示方法不依赖于特定的技术框架与实现逻辑，实现了数据仓库的数据血缘关系的支持多平台的数据采集，具备较好的扩展性。

Description

数据仓库的数据血缘关系展示方法及装置、电子设备

技术领域

本申请实施例涉及数据仓库的技术领域，特别是涉及一种数据仓库的数据血缘关系展示方法及装置、电子设备。

背景技术

数据的产生、加工融合、流转流通，到提供应用，数据之间自然会形成一种关系，我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系，称之为数据的血缘关系。

数据仓库的构建过程通常包括如下几个步骤：数据集成或者接入、数据建模、数据加工转换、数据应用发布。其中在应对模型冗余、跨层引用和链路过长等问题，保证模型的稳定性和数据一致性尤为重要。而在用户在使用数据过程中往往会出现“找数难”的问题，很难追踪到数据的源头。

在传统的技术中，数据血缘获取方式通常是在数据处理运行时获取，这样的获取方式会比较依赖特定的技术框架与实现逻辑，兼容性较差，如果数据仓库的底层技术框架变化，实现逻辑将会失效。

发明内容

本申请实施例提供了一种数据仓库的数据血缘关系展示方法及装置、电子设备，不依赖于特定的技术框架与实现逻辑，实现了数据仓库的数据血缘关系的支持多平台的数据采集，具备较好的扩展性。

第一方面，本申请实施例提供了一种数据仓库的数据血缘关系展示方法，所述方法包括：

接收到目标数据表的数据血缘关系查询请求；

获取所述数据仓库中的第一映射关系表，其中，每个所述第一映射关系表根据对每个数据表的加工脚本解析得到；

根据所述第一映射关系表，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系；

针对所述第一数据血缘关系中的每个原始数据表，获取该原始数据表的第二映射关系表，其中，所述第二映射关系表根据对该原始数据表的同步映射文件解析得到；

根据所述第二映射关系表，获取该原始数据表与其源数据之间的第二数据血缘关系；

根据所述第一数据血缘关系和所述第二数据血缘关系，生成该目标数据表的数据血缘关系图表。

可选的，根据所述第一数据血缘关系和所述第二数据血缘关系，生成该目标数据表的数据血缘关系图表，包括：

获取所述第一数据血缘关系中每个数据表在所述数据仓库中的层级；

生成初始数据血缘关系图表，按照所述层级，在所述初始数据血缘关系图表中分层展示所述第一数据血缘关系中的每个数据表；

根据所述第一数据血缘关系，连接所述初始数据血缘关系图表中的数据表；

根据所述第二数据血缘关系，显示所述初始数据血缘关系图表中每个原始数据表与其数据源之间的映射关系，得到所述目标数据表的数据血缘关系图表。

可选的，还包括如下步骤：

针对所述数据血缘关系图表中的每个数据表，遍历所述数据仓库中的每个所述第一映射关系表，得到每个数据表在数据仓库中总共被引用的次数；

在所述数据血缘关系图表中显示每个数据表在数据仓库中总共被引用的次数。

可选的，还包括如下步骤：

根据每个数据表在数据仓库中总共被引用的次数，确定该数据表与其所引用的数据表之间的连接线的粗细。

可选的，每个所述数据表的所述第一映射关系表中存储有该数据表的父节点数据表，以及该数据表与每个所述父节点数据表之间的映射关系。

可选的，所述根据所述数据仓库中的第一映射关系表，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系，包括：

遍历所有所述第一映射关系表，得到该目标数据表的每一代父节点数据表、每一代子节点数据表，以及不同代节点数据表之间的映射关系；

根据所述每一代父节点数据表、所述每一代子节点数据表，以及所述不同代节点数据表之间的映射关系，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系。

可选的，所述第一映射关系表的获取步骤包括：

针对每个数据表的加工脚本，对该加工脚本的字符流进行扫描，并根据构词规则识别单词以及进行单词拆分；

将所述单词组合成各类语法短语，并进行语义分析，得到AST语法树；

遍历AST语法树，得到该数据表的加工信息；

根据该数据表的加工信息，得到每个数据表的所述第一映射关系表。

第二方面，本申请实施例提供了一种数据仓库的数据血缘关系展示装置，所述装置包括：

查询请求接收模块，用于接收到目标数据表的数据血缘关系查询请求；

第一映射关系表获取模块，用于获取所述数据仓库中的第一映射关系表，其中，每个所述第一映射关系表根据对每个数据表的加工脚本解析得到；

第一数据血缘关系获取模块，用于根据所述第一映射关系表，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系；

第二映射关系表获取模块，用于针对所述第一数据血缘关系中的每个原始数据表，获取该原始数据表的第二映射关系表，其中，所述第二映射关系表根据对该原始数据表的同步映射文件解析得到；

第二数据血缘关系获取模块，用于根据所述第二映射关系表，获取该原始数据表与其源数据之间的第二数据血缘关系；

数据血缘关系图表生成模块，用于根据所述第一数据血缘关系和所述第二数据血缘关系，生成该目标数据表的数据血缘关系图表。

第三方面，本申请实施例提供了一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如本申请实施例第一方面所述的数据仓库的数据血缘关系展示方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例第一方面所述的数据仓库的数据血缘关系展示方法的步骤。

在本申请实施例中，通过定义每个数据表的加工脚本，解析加工脚本得到第一映射关系表，并根据第一映射关系表得到每个数据表与所述数据仓库内其他数据表之间的第一数据血缘关系，以及通过定义每个数据表的同步映射文件，解析同步映射文件得到第二映射关系表，并根据第二映射关系表得到第一数据血缘关系中的每个原始数据表与其源数据之间的第二数据血缘关系，最终得到目标关系表在数据仓库中的数据血缘关系，上述解析过程不需要在数据处理运行时获取数据，在同步作业定义和脚本定义时便可采集加工脚本和同步映射文件，得到第一映射关系表和第二映射关系表，上述过程不依赖于特定的技术框架与实现逻辑，实现了数据仓库的数据血缘关系的支持多平台的数据采集，具备较好的扩展性。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图说明

图1为在一个示例性的实施例中提供的一种数据仓库的数据血缘关系展示方法的流程图；

图2为在一个示例性的实施例中生成目标数据表的数据血缘关系图表的示意图；

图3为在一个示例性的实施例中提供的获取第一数据血缘关系的流程图；

图4为在一个示例性的实施例中提供的获取第一映射关系表的流程图；

图5为在一个示例性的实施例中提供的对数据价值进行评估的流程图；

图6为在一个示例性的实施例中提供的一种数据仓库的数据血缘关系展示方法的流程图；

图7为在一个示例性的实施例中提供的表E第一数据血缘关系的示意图；

图8为在一个示例性的实施例中提供的表E数据血缘关系的示意图；

图9为在一个示例性的实施例中提供的一种数据仓库的数据血缘关系展示装置的结构示意图；

图10为在一个示例性的实施例中提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

针对传统技术中，数据仓库的数据血缘获取方式通常是在数据处理运行时获取，这样的获取方式会比较依赖特定的技术框架与实现逻辑，兼容性交叉，如果数据仓库的底层技术框架变化，实现逻辑将会失效，造成获取不便这一技术问题，本申请实施例提供了一种数据仓库的数据血缘关系展示方法，如图1所示，在一个实施例中，所述方法包括如下步骤：

S101：接收到目标数据表的数据血缘关系查询请求。

数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

在本申请实施例中，数据仓库对外提供查询服务接口，用户可以通过查询服务接口输入所要查询的目标数据表的相关信息，从而查询该目标数据表在数据仓库中的数据血缘关系。

S102：获取所述数据仓库中的第一映射关系表，其中，每个所述第一映射关系表根据对每个数据表的加工脚本解析得到。

在本申请实施例中，通过定义每个数据表的所述加工脚本来定义该数据表被加工的过程，数据仓库根据每个数据表的加工脚本中的加工信息，对相关数据表进行加工，得到该数据表。其中，所述加工信息可以是数据抽取、数据转换、数据计算等。

其中，数据抽取用于对数据库中现有字段进行整合加工，以形成分析所需要的新的字段，包括字段拆分、字段合并、字段匹配等。

字段拆分用于截取某一字段中的部分信息，将该字段拆分成两个或多个字段。字段合并用于将若干字段合成为一个新的字段，或者将字段值与文字、数字等组合形成新的字段。字段匹配用于从具有相同字段的关联数据库中获取所需数据。

不同来源的数据可能存在不同的结构，数据转换主要用于将数据转换成规范、清晰、又易于分析的结构。数据转换包括结构转换和行列转换，结构转换主要指一维数据表与二维数据表之间的转换。行列转换用于将行列数据进行转换。

当数据库中没有需要的字段，需要通过现有字段进行计算之后才能获得，便需要进行数据计算，数据计算包括简单计算和日期、时间数据计算，简单计算用于对数据值进行加、减、乘、除等运算并产生新的字段，日期、时间数据计算用于对日期和时间数据进行运算并产生新的字段。

在本申请实施例中，通过解析每个数据表的加工脚本，得到每个数据表的所述第一映射关系表，其中，解析过程可以是对所述加工脚本的内容进行语义分析，提取出加工对象，加工过程等关键信息，并根据提取出的关键信息，得到第一映射关系表，每个数据表的所述第一映射关系表中记录了该数据表的上述加工过程，以及被加工对象，以及该数据表中的内容与被加工对象的内容之间的映射关系。

在本申请实施例中，所述加工脚本的类型不特定在某种类型，可以是HIVE、db2、sqlserver、Oracle、postgresql、odps等，以实现跨平台的应用。

S103：根据所述第一映射关系表，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系。

其中，所述第一数据血缘关系可以是简单的数据表与数据表之间的加工关系，在一些例子中，所述第一数据血缘关系还可以包括数据表与数据表之间每个字段之间的加工关系。

S104：针对所述第一数据血缘关系中的每个原始数据表，获取该原始数据表的第二映射关系表，其中，所述第二映射关系表根据对该原始数据表的同步映射文件解析得到。

所述原始数据表为在所述第一血缘关系中从外部的业务系统中同步数据所得到的表格，其不止有数据仓库内部的数据表之间的加工关系，还与外部业务系统的数据表具有关联关系，因此，在本申请实施例中，还获取每个原始数据表的第二映射关系表。

在本申请实施例中，通过定义同步映射文件来定义每个原始数据表与外部业务系统的数据表的同步过程，数据仓库根据每个原始数据表的所述同步映射文件，同步外部业务系统的数据表与该原始数据表，其中，所述同步可以也可以是数据抽取、数据转换、数据计算等。

S105：根据所述第二映射关系表，获取该原始数据表与其源数据之间的第二数据血缘关系。

其中，所述第二数据血缘关系可以是简单的原始数据表与外部数据表之间的关联关系，在一些例子中，所述第二数据血缘关系还可以包括原始数据表与外部数据表之间每个字段之间的关联关系。

S106：根据所述第一数据血缘关系和所述第二数据血缘关系，生成该目标数据表的数据血缘关系图表。

在本申请实施例中，所述目标数据表的数据血缘关系图表，可以是简单的包括数据仓库中数据表与数据表之间的加工关系，以及原始数据表与外部数据表之间的关联关系，在其他例子中，所述目标数据表的数据血缘关系图表，还可以包括数据仓库中数据表与数据表之间每个字段之间的加工关系，以及原始数据表与外部数据表之间每个字段之间的关联关系。

在一个示例性的实施例中，如图2所示，根据所述第一数据血缘关系和所述第二数据血缘关系，生成该目标数据表的数据血缘关系图表，包括：

S201：获取所述第一数据血缘关系中每个数据表在所述数据仓库中的层级；

S202：生成初始数据血缘关系图表，按照所述层级，在所述初始数据血缘关系图表中分层展示所述第一数据血缘关系中的每个数据表；

S203：根据所述第一数据血缘关系，连接所述初始数据血缘关系图表中的数据表；

S204：根据所述第二数据血缘关系，显示所述初始数据血缘关系图表中每个原始数据表与其数据源之间的映射关系，得到所述目标数据表的数据血缘关系图表。

在本申请实施例中，为了得到更加清晰的数据结构，还对数据表进行层级划分。所述层级可以根据不同的数据场景有不同的划分方式，例如包括操作数据存储层(ODS，Operational Data Store)、数据仓库细节层(DWD，data warehouse detail)、数据仓库服务层(DWS，data warehouse service)等层级，也可以是包括数据运营层、数据仓库层和数据产品层等层级。

在一个示例性的实施例中，在定义所述加工脚本时，定义了该数据表被加工的过程，也即定义了加工对象和加工手段，针对每一个数据表，其加工对象即为其父节点数据表，因此，每个所述数据表的所述第一映射关系表中存储有该数据表的父节点数据表，以及该数据表与每个所述父节点数据表之间的映射关系。

在一个示例性的实施例中，如图3所示，所述根据所述数据仓库中的第一映射关系表，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系，包括：

S301：遍历所有所述第一映射关系表，得到该目标数据表的每一代父节点数据表、每一代子节点数据表，以及不同代节点数据表之间的映射关系；

S302：根据所述每一代父节点数据表、所述每一代子节点数据表，以及所述不同代节点数据表之间的映射关系，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系。

在一个示例性的实施例中，如图4所示，所述第一映射关系表的获取步骤包括：

S401：针对每个数据表的加工脚本，对该加工脚本的字符流进行扫描，并根据构词规则识别单词以及进行单词拆分；

S402：将所述单词组合成各类语法短语，并进行语义分析，得到AST语法树；

S403：遍历AST语法树，得到该数据表的加工信息；

S404：根据该数据表的加工信息，得到每个数据表的所述第一映射关系表。

抽象语法树(abstract syntax code，AST)是源代码的抽象语法结构的树状表示，树上的每个节点都表示源代码中的一种结构。抽象语法树并不依赖于源语言的语法，因此，本申请实施例通过抽象语法树解析数据表的加工脚本，使得本申请实施例的数据仓库的数据血缘关系展示方法可以针对不特定的脚本类型，可以是HIVE、db2、sqlserver、Oracle、postgresql、odps等，以达到跨平台的效果。

在一个示例性的实施例中，所述第二映射关系表的获取步骤包括：

针对每个原始数据表，获取该原始数据表的同步映射文件；

解析所述同步映射文件，得到所述源数据与所述原始数据表之间的映射关系；

根据所述源数据与所述原始数据表之间的映射关系，得到每个原始数据表的所述第二映射关系表。

其中，上述解析过程也可以是通过抽象语法树进行。

在一个示例性的实施例中，本申请实施例中的数据仓库的血缘关系展示方法还可以实现对数据价值进行评估，在上述实施例的基础上，还包括如下步骤：

S501：针对所述数据血缘关系图表中的每个数据表，遍历所述数据仓库中的每个所述第一映射关系表，得到每个数据表在数据仓库中总共被引用的次数；

S502：在所述数据血缘关系图表中显示每个数据表在数据仓库中总共被引用的次数。

其中，被引用的次数越多，则表明该数据表在该数据仓库中的价值越大，即可以根据引用次数评估该数据表的价值。

在另一个例子中，为了更加直观的展示数据表的价值，还包括如下步骤：

在一个具体的实施例中，以所述数据仓库的底层基础是hive技术架构，数据表加工的第一个任务是从业务系统α同步a表到数据仓库的表A，第二个任务是：需要对数据表A、以及数据仓库已存在的表B数据进行数据加工，把加工后的结果写入到C表，再对C表与D表结合加工，把最终结果写入到E表。其中，E表所在的层级为DWS层，C表和D表所在的层级为DWD层，A表和B表所在的层级为ODS层。

业务系统α表a的结构如下：

列名	数据类型	描述
			X	Integer	编号
Y	String	名称
			Z	Date	发生时间

数据仓库已有A表结构如下：

列名	数据类型	描述
			X	Integer	编号
Y	String	名称
			Z	Date	发生时间

数据仓库已有B表结构如下：

列名	数据类型	描述
			Xx	Integer	X编号
X1	Integer	编号
			Y1	String	名称
Z1	Date	发生时间

数据仓库已有C表结构如下：

列名	数据类型	描述
			Xy	Integer	y编号
X2	Integer	编号
			Y2	String	名称
Z2	Date	发生时间

数据仓库已有D表结构如下：

列名	数据类型	描述
			X	Integer	编号
Y	String	名称
			Z	Date	发生时间

数据仓库已有E表如下：

在数据加工过程中，首先，需要针对A表定义同步映射文件，通过定义同步映射文件来定义A表与表a的同步过程。其次，需要针对数据仓库中数据表之间的加工关系定义加工脚本，其中，加工脚本可以是针对每一个加工环节进行定义，例如，在本申请实施例中，可以在C表的加工脚本中，定义对A表与B表进行加工，把加工结果写入C表的过程。在其他例子中，加工脚本还可以针对多个加工环节进行定义，例如，在本申请实施例中，可以在E表的加工环节中，定义“对数据表A、以及数据仓库已存在的表B数据进行数据加工，把加工后的结果写入到C表，再对C表与D表结合加工，把最终结果写入到E表”这一整个加工过程。

本申请实施例的数据仓库的数据血缘关系展示方法，在所述同步映射文件和所述加工脚本定义完成后，便可解析所述同步映射文件，得到第二映射关系表，以及解析所述加工脚本，得到第二映射关系表，从而可以接收外部的查询。在一个实施例中，如图5所示，当用户通过查询接口查询表E的数据血缘关系时，本申请实施例的数据仓库的数据血缘关系展示方法执行包括如下步骤：

S601：接收到表E的数据血缘关系查询请求。

S602：获取所述表E的第一映射关系表，其中，所述表E的第一映射关系表根据表E的加工脚本解析得到，所述表E的加工脚本中记载了表E的加工过程。

S603：根据所述第一映射关系表，得到所述表E与所述数据仓库内其他数据表之间的第一数据血缘关系。

如图7所示，图7为表E与数据仓库内其他数据表之间的第一数据血缘关系的示意图，在其他例子中，所述第一数据血缘关系还可以包括表E与其他数据表之间每个字段之间的加工关系。

S604：针对所述第一数据血缘关系中的原始数据表A，获取表A的第二映射关系表，其中，所述第二映射关系表根据对表A的同步映射文件解析得到。

S605：根据所述第二映射关系表，获取表A与其源数据表a之间的第二数据血缘关系。

S606：获取所述第一数据血缘关系中每个数据表在所述数据仓库中的层级。

S607：生成初始数据血缘关系图表，按照所述层级，在所述初始数据血缘关系图表中分层展示所述第一数据血缘关系中的每个数据表。

S608：根据所述第一数据血缘关系，连接所述初始数据血缘关系图表中的数据表。

S609：针对所述数据血缘关系图表中的每个数据表，遍历所述数据仓库中的每个所述第一映射关系表，得到每个数据表在数据仓库中总共被引用的次数，在所述数据血缘关系图表中显示每个数据表在数据仓库中总共被引用的次数。

如图8所示，图8为本实施例中所得到的表E的血缘关系图表。

图9为本申请实施例提供的一种数据仓库的数据血缘关系展示装置的结构示意图，如图9所示，所述数据仓库的数据血缘关系展示装置900包括：

查询请求接收模块901，用于接收到目标数据表的数据血缘关系查询请求；

第一映射关系表获取模块902，用于获取所述数据仓库中的第一映射关系表，其中，每个所述第一映射关系表根据对每个数据表的加工脚本解析得到；

第一数据血缘关系获取模块903，用于根据所述第一映射关系表，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系；

第二映射关系表获取模块904，用于针对所述第一数据血缘关系中的每个原始数据表，获取该原始数据表的第二映射关系表，其中，所述第二映射关系表根据对该原始数据表的同步映射文件解析得到；

第二数据血缘关系获取模块905，用于根据所述第二映射关系表，获取该原始数据表与其源数据之间的第二数据血缘关系；

数据血缘关系图表生成模块906，用于根据所述第一数据血缘关系和所述第二数据血缘关系，生成该目标数据表的数据血缘关系图表。

在一个示例性的实施例中，所述数据血缘关系图表生成模块906包括：

层级获取单元，用于获取所述第一数据血缘关系中每个数据表在所述数据仓库中的层级；

初始数据血缘关系图表生成单元，用于生成初始数据血缘关系图表，按照所述层级，在所述初始数据血缘关系图表中分层展示所述第一数据血缘关系中的每个数据表；

连接单元，用于根据所述第一数据血缘关系，连接所述初始数据血缘关系图表中的数据表；

显示单元，用于根据所述第二数据血缘关系，显示所述初始数据血缘关系图表中每个原始数据表与其数据源之间的映射关系，得到所述目标数据表的数据血缘关系图表。

在一个示例性的实施例中，所述数据仓库的数据血缘关系展示装置900还包括：

引用次数获取模块，用于针对所述数据血缘关系图表中的每个数据表，遍历所述数据仓库中的每个所述第一映射关系表，得到每个数据表在数据仓库中总共被引用的次数；

第一显示模块，用于在所述数据血缘关系图表中显示每个数据表在数据仓库中总共被引用的次数。

第二显示模块，用于根据每个数据表在数据仓库中总共被引用的次数，确定该数据表与其所引用的数据表之间的连接线的粗细。

在一个示例性的实施例中，每个所述数据表的所述第一映射关系表中存储有该数据表的父节点数据表，以及该数据表与每个所述父节点数据表之间的映射关系。

在一个示例性的实施例中，第一数据血缘关系获取模块903包括：

节点获取单元，用于遍历所有所述第一映射关系表，得到该目标数据表的每一代父节点数据表、每一代子节点数据表，以及不同代节点数据表之间的映射关系；

第一数据血缘关系获取单元，用于根据所述每一代父节点数据表、所述每一代子节点数据表，以及所述不同代节点数据表之间的映射关系，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系。

在一个示例性的实施例中，第一映射关系表获取模块902包括：

拆分单元，用于针对每个数据表的加工脚本，对该加工脚本的字符流进行扫描，并根据构词规则识别单词以及进行单词拆分；

语义分析单元，用于将所述单词组合成各类语法短语，并进行语义分析，得到AST语法树；

遍历单元，用于遍历AST语法树，得到该数据表的加工信息；

第一映射关系表获取单元，用于根据该数据表的加工信息，得到每个数据表的所述第一映射关系表。

所述加工信息包括以下至少一项：

在一个示例性的实施例中，数据抽取、数据转换、数据计算。

在一个示例性的实施例中，第二映射关系表获取模块904包括：

同步映射文件获取单元，用于针对每个原始数据表，获取该原始数据表的同步映射文件；

解析单元，用于解析所述同步映射文件，得到所述源数据与所述原始数据表之间的映射关系；

第二映射关系表获取单元，用于根据所述源数据与所述原始数据表之间的映射关系，得到每个原始数据表的所述第二映射关系表。

如图10所示，图10是本申请实施例根据一示例性实施例示出的一种电子设备的结构框图。

所述电子设备包括处理器910和存储器920。该主控芯片中处理器910的数量可以是一个或者多个，图10中以一个处理器910为例。该主控芯片中存储器920的数量可以是一个或者多个，图10中以一个存储器920为例。

存储器920作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例任意实施例所述的数据仓库的数据血缘关系展示方法程序，以及本申请实施例任意实施例所述的数据仓库的数据血缘关系展示方法对应的程序指令/模块。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器920可进一步包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器910通过运行存储在存储器920中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述任一实施例所记载的数据仓库的数据血缘关系展示方法。

本申请实施例还提供了一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现上述任意一个实施例所述的数据仓库的数据血缘关系展示方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带，磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质，可用于存储可以被计算设备访问的信息。

应当理解的是，本申请实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求来限制。

以上所述实施例仅表达了本申请实施例的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请实施例构思的前提下，还可以做出若干变形和改进，这些都属于本申请实施例的保护范围。

Claims

1.一种数据仓库的数据血缘关系展示方法，其特征在于，所述方法包括：

接收到目标数据表的数据血缘关系查询请求；

2.根据权利要求1所述的数据仓库的数据血缘关系展示方法，其特征在于，根据所述第一数据血缘关系和所述第二数据血缘关系，生成该目标数据表的数据血缘关系图表，包括：

3.根据权利要求2所述的数据仓库的数据血缘关系展示方法，其特征在于，还包括如下步骤：

4.根据权利要求3所述的数据仓库的数据血缘关系展示方法，其特征在于，还包括如下步骤：

5.根据权利要求1所述的数据仓库的数据血缘关系展示方法，其特征在于：

每个所述数据表的所述第一映射关系表中存储有该数据表的父节点数据表，以及该数据表与每个所述父节点数据表之间的映射关系。

6.根据权利要求5所述的数据仓库的数据血缘关系展示方法，其特征在于，所述根据所述数据仓库中的第一映射关系表，得到所述目标数据表与所述数据仓库内其他数据表之间的第一数据血缘关系，包括：

7.根据权利要求5所述的数据仓库的数据血缘关系展示方法，其特征在于，所述第一映射关系表的获取步骤包括：

遍历AST语法树，得到该数据表的加工信息；

8.一种数据仓库的数据血缘关系展示装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至7任一项所述的数据仓库的数据血缘关系展示方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据仓库的数据血缘关系展示方法的步骤。