CN107515886B

CN107515886B - 一种数据表的识别方法、装置和系统

Info

Publication number: CN107515886B
Application number: CN201610440032.2A
Authority: CN
Inventors: 潘旻; 徐宁; 王伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2016-06-17
Filing date: 2016-06-17
Publication date: 2020-11-24
Anticipated expiration: 2036-06-17
Also published as: WO2017218744A1; US10445345B2; US20170364582A1; TWI743092B; CN107515886A; TW201810083A

Abstract

本申请实施例提供了一种数据表的识别方法、装置和系统，所述方法包括：获取数据表之间的第一依赖关系；依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；获取所述数据表中的一个或多个字段之间的第二依赖关系；依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度；依据所述关联度，对所述数据表进行识别，使得在确定数据表的关联度时从字段粒度出发，通过字段的使用情况、字段本身的属性、数据表的距离、数据表的连通性等维度，能够科学合理地衡量出数据表之间的关联度。

Description

一种数据表的识别方法、装置和系统

技术领域

本申请涉及信息技术领域，特别是涉及一种数据表的识别方法、一种数据表关联度的确定方法、一种数据表的识别装置、一种数据表关联度的确定装置和一种数据表的识别系统。

背景技术

对于大数据，业界提出了3V特征，即规模性(Volumn)、高速性(Velocity)和多样性(Variety)。随着近几年的发展，大数据的存储、计算能力都取得了不错的发展，目前，迫切需要解决的就是大数据的多样性。为了满足大数据的多样性要求，其中一种解决方案就是数据交换。数据交换可以在不同公司之间进行，也可以在同一公司内部不同业务部门之间进行。数据交换的具体形式就是数据仓库中或者云计算环境下不同数据表之间的相互访问。在日常业务过程中，为了满足各项业务对于数据多样性的需求，一张结果数据表的组成也许需要依赖多个业务部门的数据表甚至是不同公司开放出来的数据表，但是，在数据交换和互访问中，不同的数据表对于满足业务需求的结果数据表的重要性可能不同，如何识别出具有较高重要性的数据表，以便重点运维和重点保障便成了大数据时代的一项重要任务。由于对于数据表重要性的识别主要是通过数据表的关联度来确定的，因此，各部门、各公司提供的数据对于满足业务需求的结果数据表的关联度大小如何确定，就成为数据互访问中数据交换价值衡量与计量的关键。

通常，数据表的存储可以通过数据仓库来实现，数据仓库中往往存在着成千上万的数据表，而每一张数据表中又会有数十个或者数百个字段。在某一具体的业务场景中，为了达到具体的分析需求，可以将多张数据表之间的依赖关系通过一个复杂的有向图来表示。如图1所示，是一种以数据表为节点的有向无环图的示意图。在图1中，圆圈代表数据表，圆圈中的字母代表数据表的名称，例如数据表A，数据表B等；圆圈旁注释框中字母代表数据表中的字段名，例如数据表A中有字段有a1、a2、a3和a4；两个圆圈之间带有方向的线段代表两个数据表之间存在着扫描/依赖关系，例如从数据表A到数据表C的箭头，表示数据表A为数据表C贡献了字段a1和字段a2两个字段，也可以说数据表C的产生需要依赖数据表A的字段a1和字段a2。

已有技术在计算两张数据表之间的关联度时，分为两种情况分别计算：一种是两张数据表存在直接依赖关系，例如图1中数据表A与数据表C，而另一种则是两张数据表存在间接依赖关系，例如图1中数据表A与数据表E。

对于存在直接依赖关系的数据表，已有技术按照贡献的字段个数占比来计算关联度。例如在图1中，在计算数据表A与数据表C之间的关联度时，首先确认数据表C所依赖的数据表包括数据表A和数据表B，其中数据表A为数据表C贡献了2个字段，而数据表B则为数据表C只贡献了1个字段，因此数据表A和数据表B对数据表C的关联度比例为2:1，即数据表A对数据表C的关联度为2/3，数据表B对数据表C的关联度为1/3。

对于不存在直接依赖关系的数据表，已有技术在计算关联度时需要通过中间数据表，将间接依赖关系转化为存在直接关系的数据链路来进行计算。例如图1中数据表A对数据表E的关联度，需要首先计算数据表A对数据表C的关联度，以及，数据表C对数据表E的关联度。由于数据表A对数据表C的关联度为2/3，数据表C对数据表E的关联度为1/4，则数据表A对数据表E的关联度为2/3*1/4＝1/6。

但是，按照上述已有技术计算的数据表之间的关联度只能精确到数据表粒度，无法具体精确到数据表的字段粒度，而事实上一张数据表内部的不同数据字段的重要性存在较大差别的，已有技术的计算方法无法体现出这种差异。其次，对于存在直接依赖关系的父子表之间，已有技术只是简单依据一张子表对父表贡献的字段数比例作为关联度大小，考虑的因子过于简单，无法完全精确的反映实际的业务场景的区别。第三，对于只有间接依赖关系的父子表之间的关联度计算，已有技术通过转化为直接依赖的数据表之间关联度的乘积，使得相隔一两层的数据表之间关联度会成指数级减小，关联度衰减速率过快，无法体现数据表之间真实的贡献情况。因此，按照已有技术对数据表的重要性进行识别的结果并不准确。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据表的识别方法、一种数据表关联度的确定方法、一种数据表的识别装置、一种数据表关联度的确定装置和相应的一种数据表的识别系统。

为了解决上述问题，本申请公开了一种数据表的识别系统，所述系统包括终端和服务器，其中：

所述终端执行：

接收针对数据业务的识别指令；

将所述识别指令提交至服务器；

接收服务器发送的所述数据业务所关联的数据表，其中，所述数据业务所关联的数据表由所述服务器针对所述识别指令，通过识别所述数据业务所关联的数据表获得；

展现所述数据业务所关联的数据表；

所述服务器执行：

接收针对数据业务的识别指令；

针对所述识别指令，对所述数据业务所关联的数据表进行识别；

输出所述数据业务所关联的数据表。

可选地，所述针对所述识别指令，对所述数据业务所关联的数据表进行识别的步骤包括：

获取数据表之间的第一依赖关系；

依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度；

依据所述关联度，对所述数据表进行识别。

为了解决上述问题，本申请公开了一种数据表的识别方法，包括：

接收针对数据业务的识别指令；

将所述识别指令提交至服务器；

展现所述数据业务所关联的数据表。

接收由终端提交的针对数据业务的识别指令；

针对所述识别指令，识别所述数据业务所关联的数据表；

向终端发送所述数据业务所关联的数据表。

可选地，所述针对所述识别指令，识别所述数据业务所关联的数据表的步骤包括：

获取数据表之间的第一依赖关系；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

依据所述关联度，对所述数据表进行识别。

可选地，所述依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目的步骤包括：

针对所述第一依赖关系，构建所述数据表之间的有向无环图；

统计所述有向无环图中的路径长度和路径数目。

可选地，所述针对所述第一依赖关系，构建所述数据表之间的有向图的步骤包括：

按照所述第一依赖关系所对应的顺序，构建以所述数据表为节点的有向图；

删除所述有向图中的环，获得所述数据表之间的有向无环图。

可选地，所述统计所述有向无环图中的路径长度和路径数目的步骤包括：

统计所述有向无环图中的第一数据表与第二数据表之间的一条或多条路径的长度，以及，

所述第一数据表到任一数据表的路径数目，和，所述第一数据表到任一数据表且经过第二数据表的路径数目。

可选地，所述依据所述第二依赖关系，确定所述一个或多个字段的重要性系数的步骤包括：

获取所述一个或多个字段在预设时间段内的使用次数，所述一个或多个字段具有对应的字段等级；

根据所述使用次数，和/或，字段等级，确定所述一个或多个字段的重要性系数，其中，所述一个或多个字段的重要性系数与所述使用次数，和/或，所述字段等级正相关。

可选地，所述采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度的步骤包括：

采用所述第一数据表与第二数据表之间的一条或多条路径的长度，确定第一数据表与第二数据表之间的距离系数；

采用所述第一数据表到任一数据表的路径数目，和，所述第一数据表到任一数据表且经过第二数据表的路径数目，确定第一数据表与第二数据表之间的连通系数；

采用所述第一数据表与第二数据表之间的距离系数，所述第一数据表与第二数据表之间的连通系数，以及第一数据表中的一个或多个字段的重要性系数，第二数据表中的一个或多个字段的重要性系数，确定第一数据表中的一个或多个字段对第二数据表中的一个或多个字段的关联度，所述第一数据表中的一个或多个字段与第二数据表中的一个或多个字段具有依赖关系；

采用所述第一数据表中的一个或多个字段对第二数据表中的一个或多个字段的关联度，确定第一数据表对第二数据表的关联度。

可选地，所述依据所述关联度，对所述数据表进行识别的步骤包括：

按照所述关联度的大小，识别出数据业务所需的多张数据表。

可选地，所述按照所述关联度的大小，识别出数据业务所需的多张数据表的步骤包括：

分别获取所述数据业务所需的数据表的关联度大小；

根据所述关联度大小，从所述数据业务所需的数据表中筛选出预设数量的多张数据表。

获取数据表之间的第一依赖关系；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

依据所述关联度，对所述数据表进行识别。

为了解决上述问题，本申请公开了一种数据表关联度的确定方法，包括：

获取数据表之间的第一依赖关系；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度。

为了解决上述问题，本申请公开了一种数据表的识别装置，包括：

第一接收模块，用于接收针对数据业务的识别指令；

提交模块，用于将所述识别指令提交至服务器；

第二接收模块，用于接收服务器发送的所述数据业务所关联的数据表，其中，所述数据业务所关联的数据表由所述服务器针对所述识别指令，通过识别所述数据业务所关联的数据表获得；

展现模块，用于展现所述数据业务所关联的数据表。

第三接收模块，用于接收由终端提交的针对数据业务的识别指令；

识别模块，用于针对所述识别指令，识别所述数据业务所关联的数据表；

发送模块，用于向终端发送所述数据业务所关联的数据表。

可选地，所述识别模块包括：

第一依赖关系获取子模块，用于获取数据表之间的第一依赖关系；

路径长度和路径数目统计子模块，用于依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

第二依赖关系获取子模块，用于获取所述数据表中的一个或多个字段之间的第二依赖关系；

重要性系数确定子模块，用于依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

关联度确定子模块，用于采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度；

数据表识别子模块，用于依据所述关联度，对所述数据表进行识别。

可选地，所述路径长度和路径数目统计子模块包括：

有向无环图构建单元，用于针对所述第一依赖关系，构建所述数据表之间的有向无环图；

路径长度和路径数目统计单元，用于统计所述有向无环图中的路径长度和路径数目。

可选地，所述有向无环图构建单元包括：

无环图构建子单元，用于按照所述第一依赖关系所对应的顺序，构建以所述数据表为节点的有向图；

有向无环图获得子单元，用于删除所述有向图中的环，获得所述数据表之间的有向无环图。

可选地，所述路径长度和路径数目统计单元包括：

路径长度统计子单元，用于统计所述有向无环图中的第一数据表与第二数据表之间的一条或多条路径的长度，以及，

路径数目统计子单元，用于统计所述第一数据表到任一数据表的路径数目，和，所述第一数据表到任一数据表且经过第二数据表的路径数目。

可选地，所述重要性系数确定子模块包括：

使用次数获取单元，用于获取所述一个或多个字段在预设时间段内的使用次数，所述一个或多个字段具有对应的字段等级；

重要性系数确定单元，用于根据所述使用次数，和/或，字段等级，确定所述一个或多个字段的重要性系数，其中，所述一个或多个字段的重要性系数与所述使用次数，和/或，所述字段等级正相关。

可选地，所述关联度确定子模块包括：

距离系数确定单元，用于采用所述第一数据表与第二数据表之间的一条或多条路径的长度，确定第一数据表与第二数据表之间的距离系数；

连通系数确定单元，用于采用所述第一数据表到任一数据表的路径数目，和，所述第一数据表到任一数据表且经过第二数据表的路径数目，确定第一数据表与第二数据表之间的连通系数；

字段关联度确定单元，用于采用所述第一数据表与第二数据表之间的距离系数，所述第一数据表与第二数据表之间的连通系数，以及第一数据表中的一个或多个字段的重要性系数，第二数据表中的一个或多个字段的重要性系数，确定第一数据表中的一个或多个字段对第二数据表中的一个或多个字段的关联度，所述第一数据表中的一个或多个字段与第二数据表中的一个或多个字段具有依赖关系；

数据表关联度确定单元，用于采用所述第一数据表中的一个或多个字段对第二数据表中的一个或多个字段的关联度，确定第一数据表对第二数据表的关联度。

可选地，所述数据表识别子模块包括：

数据表识别单元，用于按照所述关联度的大小，识别出数据业务所需的多张数据表。

可选地，所述数据表识别单元包括：

数据表关联度获取子单元，用于分别获取所述数据业务所需的数据表的关联度大小；

数据表筛选子单元，用于根据所述关联度大小，从所述数据业务所需的数据表中筛选出预设数量的多张数据表。

第一依赖关系获取模块，用于获取数据表之间的第一依赖关系；

路径长度和路径数目统计模块，用于依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

第二依赖关系获取模块，用于获取所述数据表中的一个或多个字段之间的第二依赖关系；

重要性系数确定模块，用于依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

关联度确定模块，用于采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度；

数据表识别模块，用于依据所述关联度，对所述数据表进行识别。

为了解决上述问题，本申请公开了一种数据表关联度的确定装置，包括：

关联度确定模块，用于采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度。

与背景技术相比，本申请实施例包括以下优点：

本申请实施例，在依据第一依赖关系统计所述数据表之间的路径长度和路径数目，以及，依据第二依赖关系确定一个或多个字段的重要性系数后，采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度，并依据所述关联度，对所述数据表进行识别，使得在确定数据表的关联度时从字段粒度出发，通过字段的使用情况、字段本身的属性、数据表的距离、数据表的连通性等维度，能够科学合理地衡量出数据表之间的关联度。

其次，本申请实施例采用图论的思想提出了数据表之间的连通系数和距离系数，作为数据表之间关联度计量的两个重要权重因子，并引入了数据表之间的层级关系，通过将两张表之间的层级关系融入到距离系数中，来合理解决非直接依赖数据表之间的关联度问题，避免了非直接依赖数据表之间关联度随着层级的变化衰减太快的问题。

附图说明

图1是一种以数据表为节点的有向无环图的示意图；

图2是本申请的一种数据表的识别方法实施例一的步骤流程图；

图3一种标注有字段依赖关系的有向无环图的示意图；

图4是本申请的一种数据表的识别方法实施例二的步骤流程图；

图5是一种具有环的有向图的示意图；

图6是本申请的一种数据表关联度的确定方法实施例三的步骤流程图；

图7是本申请的一种数据表的识别方法实施例四的步骤流程图；

图8是本申请的一种数据表的识别方法实施例五的步骤流程图；

图9是本申请的一种数据表的识别装置实施例一的结构框图；

图10是本申请的一种数据表的识别装置实施例二的结构框图；

图11是本申请的一种数据表的识别装置实施例三的结构框图；

图12是本申请的一种数据表关联度的确定装置实施例四的结构框图；

图13是本申请的一种数据表的识别系统的架构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图2，示出了本申请的一种数据表的识别方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，获取数据表之间的第一依赖关系；

大数据环境下，数据会以一张张数据表的形式存在于数据仓库或数据库中，数据表是一种逻辑概念，可以认为数据表中的数据彼此之间都符合一定的逻辑规则或者逻辑条件。

在本申请实施例中，所述第一依赖关系可以是数据表之间的依赖关系或扫描关系。所述依赖关系或扫描关系是指某一数据表的产生，依赖于其他一张或多张数据表。在具体实现中，可以通过获取数据仓库中所有数据表之间的互访问数据来确定第一依赖关系，数据的形式为<C:c，A:a>的二元组。意思是数据表C与数据表A存在扫描关系，并且数据表C的c字段由数据表A的a字段产生。

如图1所示，数据表C的产生依赖于数据表A和数据表B，即可以认为数据表C与数据表A和数据表B具有相应的依赖关系或扫描关系。

步骤102，依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

路径长度是指两张具有依赖关系的数据表之间的距离长度，对于具有直接依赖关系的数据表而言，一般可以认为其路径长度为1，而对于间接依赖的数据表，其路径长度可以通过在两张数据表之间具有间接依赖关系的数据表的张数来确定。通常，对于具有间接依赖关系的数据表，其路径长度可能不是唯一的，即具有多条路径，因此，其路径数目也相应不唯一。

在本申请的一种优选实施例中，所述依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目的步骤具体可以包括如下子步骤：

子步骤1021，针对所述第一依赖关系，构建所述数据表之间的有向无环图；

子步骤1022，统计所述有向无环图中的路径长度和路径数目。

如果在一张图中，它的每条边都是有方向的，则这张图可以被称为有向图。有向图中的边是由两个顶点组成的有序对，有序对通常用尖括号表示，如<vi,vj>表示一条有向边，其中vi是边的始点，vj是边的终点。<vi,vj>和<vj,vi>代表两条不同的有向边。在图论中，如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图。

在本申请实施例中，在获得数据表之间的第一依赖关系后，可以依据所述第一依赖关系，构建出以数据数据表为节点的有向无环图，通过统计所述有向无环图中的路径长度和路径数目，可以直观地获得两张数据表之间的路径长度和路径数目。例如，在图1中，数据表A和数据表E之间的路径只有一条，即路径数目为1，该路径的路径长度为2。数据的形式为：<A-C-E>。代表数据表A与数据表E之间存在一条路径为A->C->E。

步骤103，获取所述数据表中的一个或多个字段的第二依赖关系；

通常，一张数据表中可以包括有一个或多个字段，由于数据表的产生可能依赖于其他一张或多张数据表，因此，数据表中的一个字段的产生也可能依赖于其他一张或多张数据表中的一个或多个字段。

如图3所示，是一种标注有字段依赖关系的有向无环图的示意图。具体地，字段依赖关系可以以<C:c1，A:a1^A:a2>的数据形式表示，意思是：数据表C中的字段c1由数据表A中的字段a1、a2产生。

其次，第二依赖关系还可以包括字段在预设时间段内被使用的次数，即该字段被下游数据表访问的次数，以及该数据表的直接下游表数目，相应的数据形式为<A:a1,3,2>，表示数据表A的字段a1在预设时间段内被下游数据表访问了3次，数据表A的直接下游数据表有2张。通常，预设时间段可以是一天。当然，在实际中也可以根据需要将预设时间段设置为两天或半天，本申请对此不作具体限定。

步骤104，依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

通常，数据表中的任一一个字段都具有相应的字段等级，不同的字段具有不同的字段。例如，字段等级可以分为1，2，3，4四个级别，分别对应于可公开、可共享、隐私信息、绝密四种状态的数据。其数据形式可以是<A:a1,1>，表示数据表A中的字段a1的字段等级为1级，即字段a1可公开。

在本申请的一种优选实施例中，所述依据所述第二依赖关系，确定所述一个或多个字段的重要性系数的步骤具体可以包括如下子步骤：

子步骤1041，获取所述一个或多个字段在预设时间段内的使用次数；

子步骤1042，根据所述使用次数，和/或，字段等级，确定所述一个或多个字段的重要性系数。

在本申请实施例中，所述一个或多个字段的重要性系数可以是与所述使用次数，和/或，所述字段等级正相关。

在具体实现中，可以采用如下公式，确定所述一个或多个字段的重要性系数：

其中，level_weight(a_i)为字段a_i的字段等级，use_cnt(a_i)为预设时间段内字段a_i的使用次数，n为所述数据表中的字段数量，α、β为比例系数，0＜α、β＜1。

步骤105，采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度；

在本申请实施例中，路径长度和路径数目表示了数据表之间的关联强度。例如，路径长度越短，其联系越紧密；路径数目越少，某一数据表对另一数据表越不可或缺。

因此，在确定获得数据表中的一个或多个字段的重要性系数后，可以进一步采用路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度。

步骤106，依据所述关联度，对所述数据表进行识别。

在本申请实施例中，在确定获得数据表之间的关联度后，可以依据所述关联度对数据表进行识别，具体地，可以按照所述关联度的大小，识别出数据业务所需的多张数据表。例如，对于某一个数据业务，可能用到L张数据表，那么在分别确定获得所述L张数据表的关联度后，可以进一步筛选出这L张数据表中关联度较大的topK张数据表，然后对所述topK张数据表进行重点运维和重点保障，以确保数据表的数据质量和产出时间。

在本申请实施例中，在依据第一依赖关系统计所述数据表之间的路径长度和路径数目，以及，依据第二依赖关系确定一个或多个字段的重要性系数后，采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度，并依据所述关联度，对所述数据表进行识别，使得在确定数据表的关联度时从字段粒度出发，通过字段的使用情况、字段本身的属性、数据表的距离、数据表的连通性等维度，能够科学合理地衡量出数据表之间的关联度。

参照图4，示出了本申请的一种数据表的识别方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，针对所述第一依赖关系，构建所述数据表之间的有向图；

在本申请实施例中，通过获取数据仓库中所有数据表之间的互访问数据，可以构建出所述数据表之间的有向无环图。

在本申请的一种优选实施例中，所述针对所述第一依赖关系，构建所述数据表之间的有向图的步骤具体可以包括如下子步骤：

子步骤2011，按照所述第一依赖关系所对应的顺序，构建以所述数据表为节点的有向图；

子步骤2012，删除所述有向图中的环，获得所述数据表之间的有向无环图。

在具体实现中，在获得数据表之间的互访问数据即第一依赖关系后，可以按照所述第一依赖关系所对应的顺序，首先构建出以所述数据表为节点的有向图，进而通过删除所述有向图中的环，获得数据表之间的有向无环图。

如图5所示，是一种具有环的有向图的示意图，其中，存在环ABCC以及环ABDA。

在具体实现中，可以通过堆栈的方法，去除有向图中的环。以某一数据表为起点，在每一步的遍历中，当判断出现环时，可以通过删除出现环的有向线段，以删除环。例如，以数据表A为起点，但遍历至ABCC时出现了环，此时可以通过删除数据表C自身的有向线段删除环，当遍历至ABDA时，可以通过删除数据表D与数据表A之间的有向线段删除环。

步骤202，统计所述有向无环图中的第一数据表与第二数据表之间的一条或多条路径的长度，以及，所述第一数据表到任一数据表的路径数目，和，所述第一数据表到任一数据表且经过第二数据表的路径数目；

在本申请实施例中，当需要确定第一数据表与第二数据表之间的关联度时，可以首先在有向无环图中统计出所述第一数据表与第二数据表之间的一条或多条路径的长度，以及，所述第一数据表到任一数据表的路径数目，和，所述第一数据表到任一数据表且经过第二数据表的路径数目。

步骤203，确定所述数据表中一个或多个字段的重要性系数；

在具体实现中，可以首先获取某一字段在预设时间段内(通常为一天)的使用次数以及所述字段的字段等级，然后采用如下公式，确定所述字段的重要性系数：

步骤204，采用所述第一数据表与第二数据表之间的一条或多条路径的长度，确定第一数据表与第二数据表之间的距离系数；

步骤205，采用所述第一数据表到任一数据表的路径数目，和，所述第一数据表到任一数据表且经过第二数据表的路径数目，确定第一数据表与第二数据表之间的连通系数；

在本申请实施例中，在获得数据表之间的路径长度和路径数目后，可以分别根据所述路径长度和路径数目，确定数据表之间的距离系数和连通系数。

在具体实现中，可以采用如下公式，确定第一数据表与第二数据表之间的距离系数：

其中，step(A,B)表示第一数据表A到第二数据表B的一条路径的长度，n为第一数据表A到第二数据表B的路径数目；

可以采用如下公式，确定第一数据表与第二数据表之间的连通系数，连通系数越大可以表示数据表之间的连通性越强：

其中，path_cnt(A,B,leaf)为第一数据表A到任一数据表且经过第二数据表B的路径数目，path_cnt(A,null,leaf)为第一数据表A到任一数据表的路径数目。

步骤206，采用所述第一数据表与第二数据表之间的距离系数，所述第一数据表与第二数据表之间的连通系数，以及第一数据表中的一个或多个字段的重要性系数，第二数据表中的一个或多个字段的重要性系数，确定第一数据表中的一个或多个字段对第二数据表中的一个或多个字段的关联度；

在本申请实施例中，当分别获得数据表之间的距离系数、连通系数，以及数据表中一个或多个字段的重要性系数后，可以采用上述距离系数、连通系数，以及重要性系数，确定第一数据表中的一个或多个字段与具有依赖关系的第二数据表中的一个或多个字段之间的关联度。

在具体实现中个，可以采用如下公式，确定第一数据表中的一个或多个字段对第二数据表中的一个或多个字段的关联度：

其中，i＝1…N表示与第一数据表A中的字段a_i存在依赖关系的数据表，m＝1…n表示在第二数据表B中，与第一数据表A中的字段a_i存在依赖关系的字段bm，，ρ、λ为比例系数，0＜ρ、λ＜1。

weight(A,a_i,B,b_i)可以代表数据表B中字段b_i与数据表A中的a_i字段具有依赖关系，以及字段a_i与字段b_i的关联度大小。等式的右边第一部分，代表的是数据表A与数据表B的综合关联度，综合关联度由两个因子组成，分别是连通系数和关联系数；等式的右边第二部分，代表的是数据表B中字段b_i在数据表B中与字段a_i存在血缘关系的所有字段中的权重。

步骤207，采用所述第一数据表中的一个或多个字段对第二数据表中的一个或多个字段的关联度，确定第一数据表对第二数据表的关联度；

在本申请实施例中，在分别获得一个或多个字段的关联度后，可以采用所述字段之间的关联度，确定数据表之间的关联度。

在具体实现中，可以采用如下公式，确定第一数据表对第二数据表的关联度：

其中，M为在第一数据表A中，与第二数据表B中的字段具有依赖关系的字段数量，N为在第二数据表B中，与第一数据表A中的字段具有依赖关系的字段数量。

步骤208，按照所述关联度的大小，识别出数据业务所需的多张数据表。

在本申请的一种优选实施例中，所述按照所述关联度的大小，识别出数据业务所需的多张数据表的步骤具体可以包括如下子步骤：

子步骤2081，分别获取所述数据业务所需的数据表的关联度大小；

子步骤2082，根据所述关联度大小，从所述数据业务所需的数据表中筛选出预设数量的多张数据表。

在具体实现中，在确定获得数据表之间的关联度后，可以依据所述关联度对数据表进行识别。例如，对于某一个数据业务，可能用到L张数据表，那么在分别确定获得所述L张数据表的关联度后，可以进一步筛选出这L张数据表中关联度较大的topK张数据表，然后对所述topK张数据表进行重点运维和重点保障，以确保数据表的数据质量和产出时间。

在本申请实施例中，采用图论的思想提出了数据表之间的连通系数和距离系数，作为数据表之间关联度计量的两个重要权重因子，并引入了数据表之间的层级关系，通过将两张表之间的层级关系融入到距离系数中，来合理解决非直接依赖数据表之间的关联度问题，避免了非直接依赖数据表之间关联度随着层级的变化衰减太快的问题。

参照图6，示出了本申请的一种数据表关联度的确定方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤301，获取数据表之间的第一依赖关系；

步骤302，依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

步骤303，获取所述数据表中的一个或多个字段之间的第二依赖关系；

步骤304，依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

步骤305，采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度。

由于步骤301-305与本申请的一种数据表的识别方法实施例一中的步骤101-105类似，相关之处参见数据表的识别方法实施例一的部分说明即可，本实施例在此不加以详述。为了便于理解，下面以一个具体事例对数据表之间关联度的确定方法作一说明。

以图3所示的有向无环图为例。

数据表之间的第一依赖关系可以表示如下：

a)<A,C>

b)<B,C>

c)<C,E>

d)<D,E>

e)<A,C,E>

f)<B,C,E>

字段之间的第二依赖关系可以表示如下：

a)<C:c1,A:a1>

b)<C:c1,A:a2>

c)<C:c1,B:b1>

d)<C:c2,A:a3>

e)<C:c2,B:b2>

f)<C:c2,B:b3>

g)<E:e1,C:c1>

h)<E:e1,D:d2>

i)<E:e2,C:c2>

数据表中各字段等级可以表示如下：

a)<A:a1,1>

b)<A:a2,1>

c)<A:a3,3>

d)<B:b1,2>

e)<B:b2,2>

f)<B:b3,3>

g)<C:c1,1>

h)<C:c2,3>

i)<D:d1,2>

j)<D:d2,3>

k)<E:e1,1>

l)<E:e2,2>

数据表字段使用次数及下游数据表数量数据可以表示如下：

a)<A:a1,2,1>

b)<A:a2,3,1>

c)<A:a3,1,1>

d)<B:b1,2,1>

e)<B:b2,1,1>

f)<B:b3,2,1>

g)<C:c1,1,1>

h)<C:c2,1,1>

i)<D:d1,2,1>

j)<D:d2,1,1>

k)<E:e1,0,0>

l)<E:e2,0,0>

1、确定数据表A与数据表E的连通系数：

conn_ratio(A,E)＝1/1＝1

2、确定数据表A与数据表E的距离系数：

length_ratio(A,E)＝1/2

3、确定数据表A与数据表E的综合关联度(取比例系数为0.5)

sum_score(A,E)＝0.5*1+0.5*1/2＝0.75

4、从图3中可知，与数据表E中的e2字段存在依赖关系的数据表A中的字段为a3。此外，与数据表E存在依赖关系的数据表除数据表A之外还有数据表C、B、D。因此：

weight(A,a3,E,e2)＝sum_score(A,E)/(sum_score(A,C)+sum_score(A,B)+sum_score(A,D)+sum_score(A,E))*(weight(a3)/(weight(a3)))＝0.75/(1+0+0+0.75)*1＝3/7＝0.43

5、由于数据表A与数据表E之间只在字段a3与字段e2之间存在依赖关系，因此attr(A,E)＝0.43，即数据表A对数据表E的关联度为0.43。

参照图7，示出了本申请的一种数据表的识别方法实施例四的步骤流程图，具体可以包括如下步骤：

步骤401，接收针对数据业务的识别指令；

步骤402，将所述识别指令提交至服务器；

步骤403，接收服务器发送的所述数据业务所关联的数据表，其中，所述数据业务所关联的数据表由所述服务器针对所述识别指令，通过识别所述数据业务所关联的数据表获得；

步骤404，展现所述数据业务所关联的数据表。

在本申请实施例中，当需要对数据业务所关联的数据表进行识别时，可以向终端发送针对所述数据业务的识别指令，终端在接收到识别指令后，可以将所述识别指令提交至服务器，由服务器识别出所述数据业务所关联的数据表，进而反馈至终端，终端在接收到服务器反馈的所述数据业务所关联的数据表后，可以在终端的用户界面上展现所述数据表。

参照图8，示出了本申请的一种数据表的识别方法实施例五的步骤流程图，具体可以包括如下步骤：

步骤501，接收由终端提交的针对数据业务的识别指令；

步骤502，针对所述识别指令，识别所述数据业务所关联的数据表；

步骤503，向终端发送所述数据业务所关联的数据表。

在本申请实施例中，服务器在接收到到由终端提交的针对某一数据业务的识别指令后，可以针对所述识别指令，识别出所述数据业务所关联的数据表，然后向终端反馈所述数据表。

在本申请的一种优选实施例中，所述针对所述识别指令，识别所述数据业务所关联的数据表的步骤具体可以包括如下子步骤：

子步骤5031，获取数据表之间的第一依赖关系；

子步骤5032，依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

子步骤5033，获取所述数据表中的一个或多个字段之间的第二依赖关系；

子步骤5034，依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

子步骤5035，采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度；

子步骤5036，依据所述关联度，对所述数据表进行识别。

由于子步骤5031-5036与本申请的一种数据表的识别方法实施例一中的步骤101-106类似，相关之处参见数据表的识别方法实施例一的部分说明即可，本实施例在此不加以详述。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图9，示出了本申请的一种数据表的识别装置实施例一的结构框图，具体可以包括如下模块：

第一接收模块601，用于接收针对数据业务的识别指令；

提交模块602，用于将所述识别指令提交至服务器；

第二接收模块603，用于接收服务器发送的所述数据业务所关联的数据表，其中，所述数据业务所关联的数据表可以是由所述服务器针对所述识别指令，通过识别所述数据业务所关联的数据表获得；

展现模块604，用于展现所述数据业务所关联的数据表。

参照图10，示出了本申请的一种数据表的识别装置实施例二的结构框图，具体可以包括如下模块：

第三接收模块701，用于接收由终端提交的针对数据业务的识别指令；

识别模块702，用于针对所述识别指令，识别所述数据业务所关联的数据表；

发送模块703，用于向终端发送所述数据业务所关联的数据表。

在本申请实施例中，所述识别模块702具体可以包括如下子模块：

第一依赖关系获取子模块7021，用于获取数据表之间的第一依赖关系；

路径长度和路径数目统计子模块7022，用于依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

第二依赖关系获取模块子7023，用于获取所述数据表中的一个或多个字段的第二依赖关系；

重要性系数确定子模块7024，用于依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

关联度确定模块子7025，用于采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度；

数据表识别子模块7026，用于依据所述关联度，对所述数据表进行识别。

在本申请实施例中，所述路径长度和路径数目统计子模块7022具体可以包括如下单元：

在本申请实施例中，所述有向无环图构建单元具体可以包括如下子单元：

在本申请实施例中，所述路径长度和路径数目统计单元具体可以包括如下子单元：

在本申请实施例中，所述重要性系数确定子模块7024具体可以包括如下单元：

使用次数获取单元，用于获取所述一个或多个字段在预设时间段内的使用次数，所述一个或多个字段可以具有对应的字段等级；

其中，level_weight(a_i)为字段a_i的字段等级，use_cnt(a_i)为预设时间段内字段a_i的使用次数，n为所述数据表中的字段数量。

在本申请实施例中，所述关联度确定子模块7025具体可以包括如下单元：

在本申请实施例中，可以采用如下公式，确定第一数据表与第二数据表之间的距离系数：

其中，step(A,B)表示第一数据表A到第二数据表B的一条路径的长度，n为第一数据表A到第二数据表B的路径数量；

可以采用如下公式，确定第一数据表与第二数据表之间的连通系数：

其中，path_cnt(A,B,leaf)为第一数据表A到任一数据表且经过第二数据表B的路径数目，path_cnt(A,null,leaf)为第一数据表A到任一数据表的路径数目；

可以采用如下公式，确定第一数据表中的一个或多个字段对第二数据表中的一个或多个字段的关联度：

其中，i＝1…N表示与第一数据表A中的字段a_i存在依赖关系的数据表，m＝1…n表示在第二数据表B中，与第一数据表A中的字段a_i存在依赖关系的字段bm；

可以采用如下公式，确定第一数据表对第二数据表的关联度：

在本申请实施例中，所述数据表识别子模块7026具体可以包括如下单元：

在本申请实施例中，所述数据表识别单元具体可以包括如下子单元：

参照图11，示出了本申请的一种数据表的识别装置实施例三的结构框图，具体可以包括如下模块：

第一依赖关系获取模块801，用于获取数据表之间的第一依赖关系；

路径长度和路径数目统计模块802，用于依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

第二依赖关系获取模块803，用于获取所述数据表中的一个或多个字段之间的第二依赖关系；

重要性系数确定模块804，用于依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

关联度确定模块805，用于采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度；

数据表识别模块806，用于依据所述关联度，对所述数据表进行识别。

参照图12，示出了本申请的一种数据表关联度的确定装置实施例四的结构框图，具体可以包括如下模块：

第一依赖关系获取模块901，用于获取数据表之间的第一依赖关系；

路径长度和路径数目统计模块902，用于依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目；

第二依赖关系获取模块903，用于获取所述数据表中的一个或多个字段之间的第二依赖关系；

重要性系数确定模块904，用于依据所述第二依赖关系，确定所述一个或多个字段的重要性系数；

关联度确定模块905，用于采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图13，示出了本申请的一种数据表的识别系统的架构图，所述系统可以包括终端和服务器，所述终端可以执行如下动作：

接收针对数据业务的识别指令；

将所述识别指令提交至服务器；

展现所述数据业务所关联的数据表；

所述服务器可以执行如下动作：

接收针对数据业务的识别指令；

输出所述数据业务所关联的数据表。

在本申请的实施例中，所述针对所述识别指令，对所述数据业务所关联的数据表进行识别的步骤具体可以包括如下子步骤：

获取数据表之间的第一依赖关系；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

依据所述关联度，对所述数据表进行识别。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种数据表的识别方法、一种数据表关联度的确定方法、一种数据表的识别装置、一种数据表关联度的确定装置和一种数据表的识别系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据表的识别系统，所述系统包括终端和服务器，其特征在于：

所述终端执行：

接收针对数据业务的识别指令；

将所述识别指令提交至服务器；

展现所述数据业务所关联的数据表；

所述服务器执行：

接收针对数据业务的识别指令；

输出所述数据业务所关联的数据表；

所述针对所述识别指令，对所述数据业务所关联的数据表进行识别的步骤包括：

获取数据表之间的第一依赖关系；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

依据所述关联度，对所述数据表进行识别。

2.一种数据表的识别方法，其特征在于，包括：

接收针对数据业务的识别指令；

将所述识别指令提交至服务器；

展现所述数据业务所关联的数据表；

其中，所述数据业务所关联的数据表为依据数据表之间的关联度，对所述数据表进行识别得到；所述数据表之间的关联度由路径长度、路径数据，以及一个或多个字段的重要性系数确定；所述一个或多个字段的重要性系数依据获取的所述数据表中的一个或多个字段之间的第二依赖关系确定；所述数据表之间的路径长度和路径数目依据获取的所述数据表之间的第一依赖关系统计得到。

3.一种数据表的识别方法，其特征在于，包括：

接收由终端提交的针对数据业务的识别指令；

针对所述识别指令，识别所述数据业务所关联的数据表；

向终端发送所述数据业务所关联的数据表；

所述针对所述识别指令，识别所述数据业务所关联的数据表的步骤包括：

获取数据表之间的第一依赖关系；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

依据所述关联度，对所述数据表进行识别。

4.根据权利要求3所述的方法，其特征在于，所述依据所述第一依赖关系，统计所述数据表之间的路径长度和路径数目的步骤包括：

统计所述有向无环图中的路径长度和路径数目。

5.根据权利要求4所述的方法，其特征在于，所述针对所述第一依赖关系，构建所述数据表之间的有向图的步骤包括：

6.根据权利要求4或5所述的方法，其特征在于，所述统计所述有向无环图中的路径长度和路径数目的步骤包括：

7.根据权利要求3所述的方法，其特征在于，所述依据所述第二依赖关系，确定所述一个或多个字段的重要性系数的步骤包括：

8.根据权利要求6所述的方法，其特征在于，所述采用所述路径长度、路径数目，以及，重要性系数，确定所述数据表之间的关联度的步骤包括：

9.根据权利要求3或4或5或7或8所述的方法，其特征在于，所述依据所述关联度，对所述数据表进行识别的步骤包括：

10.根据权利要求9所述的方法，其特征在于，所述按照所述关联度的大小，识别出数据业务所需的多张数据表的步骤包括：

分别获取所述数据业务所需的数据表的关联度大小；

11.一种数据表的识别方法，其特征在于，包括：

获取数据表之间的第一依赖关系；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

依据所述关联度，对所述数据表进行识别。

12.一种数据表关联度的确定方法，其特征在于，包括：

获取数据表之间的第一依赖关系；

获取所述数据表中的一个或多个字段之间的第二依赖关系；

13.一种数据表的识别装置，其特征在于，包括：

第一接收模块，用于接收针对数据业务的识别指令；

提交模块，用于将所述识别指令提交至服务器；

展现模块，用于展现所述数据业务所关联的数据表；

14.一种数据表的识别装置，其特征在于，包括：

发送模块，用于向终端发送所述数据业务所关联的数据表；

所述识别模块包括：

15.根据权利要求14所述的装置，其特征在于，所述路径长度和路径数目统计子模块包括：

16.根据权利要求15所述的装置，其特征在于，所述有向无环图构建单元包括：

17.根据权利要求15或16所述的装置，其特征在于，所述路径长度和路径数目统计单元包括：

18.根据权利要求14所述的装置，其特征在于，所述重要性系数确定子模块包括：

19.根据权利要求17所述的装置，其特征在于，所述关联度确定子模块包括：

20.根据权利要求14或15或16或18或19所述的装置，其特征在于，所述数据表识别子模块包括：

21.根据权利要求20所述的装置，其特征在于，所述数据表识别单元包括：

22.一种数据表的识别装置，其特征在于，包括：

23.一种数据表关联度的确定装置，其特征在于，包括：