CN110442604A

CN110442604A - 数据流向查询方法、抽取方法、处理方法及相关装置

Info

Publication number: CN110442604A
Application number: CN201910623403.4A
Authority: CN
Inventors: 曾伟
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-12
Anticipated expiration: 2039-07-11
Also published as: CN110442604B

Abstract

本发明涉及大数据技术领域，提供一种数据流向查询方法、抽取方法、处理方法及相关装置，所述方法包括：获取数据表的数据表标识，并根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构；基于表结点结构的流向指针，确定查找到的候选数据表标识；对数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向。本发明根据流向指针可以直接查询到候选数据表标识，因此大大减少查询数据流向时的查找次数，从而提高数据流向的查询效率。

Description

数据流向查询方法、抽取方法、处理方法及相关装置

技术领域

本发明涉及大数据技术领域，具体而言，涉及一种数据流向查询方法、抽取方法、处理方法及相关装置。

背景技术

ETL(Extract-Transform-Load，抽取-转换-加载)是指将业务系统中的数据经过抽取、清洗、转换之后加载到数据仓库的过程，目的是将企业业务系统中分散、零乱、标准不统一的数据整合到一起，为企业业务系统的决策提供分析依据。

ETL处理过程包括三个部分：数据的抽取、数据的清洗转换和数据的加载。其中，数据的抽取是指从各个不同的数据源抽取到ODS(Operational Data Store，操作型数据存储)中。在数据的抽取过程中，将数据从数据库中的一张数据表抽取到另外一张数据表中，更常用的是将数据从一张数据表抽取到多张数据表中、或者从多张数据表中抽取到同一张数据表中。数据在不同数据表之间的流向展示了不同数据表之间的流向关系。通过分析不同数据表之间的流向关系，可以清楚地了解数据的由来去向，从而实现追根溯源。

在数据表的数量非常巨大的情况下，如何高效地查询数据表中的数据流向是本领域技术人员亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种数据流向查询方法、抽取方法、处理方法及相关装置，能够在数据表的数量非常巨大的情况下，可以高效地查询到数据表中的数据流向。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种数据流向查询方法，所述方法包括：获取数据表的数据表标识，并根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构；基于表结点结构的流向指针，确定流向指针指向的预先建立的数据存储结构中的边结点结构，边结点结构包括候选数据表标识，候选数据表标识用于表征数据表中数据的来源表或数据的流入表；当边结点结构中的流向指针指向预先建立的数据存储结构中的其他边结点结构时，确定其他边结点结构中的候选数据表标识；将边结点结构中的候选数据表标识和其他边结点结构中的候选数据表标识分别确定为数据表标识并执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤；对数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向。

第二方面，本发明实施例提供了一种数据抽取方法，所述方法包括：在针对数据表执行数据抽取任务时，基于上述的数据流向查询方法确定该数据表的目的数据表；将从该数据表中抽取的数据同步至目的数据表中。

第三方面，本发明实施例提供了一种数据处理方法，所述方法包括：在检测到数据表中存在异常数据时，基于上述的数据流向查询方法确定该数据表中的异常数据流经的数据表；对数据表和流经的数据表中的异常数据进行处理。

第四方面，本发明实施例提供了一种数据流向查询装置，所述装置包括获取模块、第一执行模块、第二执行模块、第三执行模块及第四执行模块。其中，获取模块用于获取数据表的数据表标识，并根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构；第一执行模块用于基于表结点结构的流向指针，确定流向指针指向的预先建立的数据存储结构中的边结点结构，边结点结构包括候选数据表标识，候选数据表标识用于表征数据表中数据的来源表或数据的流入表；第二执行模块用于当边结点结构中的流向指针指向预先建立的数据存储结构中的其他边结点结构时，确定其他边结点结构中的候选数据表标识；第三执行模块用于将边结点结构中的候选数据表标识和其他边结点结构中的候选数据表标识分别确定为数据表标识并执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤；第四执行模块用于对数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向。

第五方面，本发明实施例提供了一种数据抽取装置，所述装置包括抽取模块和同步模块。其中，抽取模块用于在针对数据表执行数据抽取任务时，基于上述的数据流向查询方法确定该数据表的目的数据表；同步模块用于将从该数据表中抽取的数据同步至目的数据表中。

第六方面，本发明实施例提供了一种数据处理装置，所述装置包括查询模块和处理模块。其中，查询模块用于在检测到数据表中存在异常数据时，基于上述的数据流向查询方法确定该数据表中的异常数据流经的数据表；处理模块用于对数据表和流经的数据表中的异常数据进行处理。

第七方面，本发明实施例还提供了一种主机，所述主机包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的数据流向查询方法，和/或者数据抽取方法，和/或者数据处理方法。

第八方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的数据流向查询方法，和/或者数据抽取方法，和/或者数据处理方法。

相对现有技术，本发明实施例提供的一种数据流向查询方法、抽取方法、处理方法及相关装置，通过预先建立的数据存储结构中的表结点结构中的流向指针和边结点结构中的流向指针，查询出候选数据表标识，根据候选数据表标识表征的数据表中数据的来源表或者数据的流入表，获取数据表中数据的数据流向。由于根据流向指针可以直接查询到候选数据表标识，因此大大减少查询数据流向时的查找次数，从而提高数据流向的查询效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1a示出了本发明实施例提供的数据流向示例图。

图1b示出了本发明实施例提供的图1a中的表4的血缘关系的示意图。

图1c示出了本发明实施例提供的图1a中的表3的影响关系的示意图。

图1d示出了本发明实施例提供的图1a中的表3的血缘关系的示意图。

图1e示出了本发明实施例提供的图1a中的表3的全链关系的示意图。

图2示出了本发明实施例提供的主机的方框示意图。

图3示出了本发明实施例提供的数据流向查询方法的流程图。

图4a示出了本发明实施例提供的表结点结构和边结点结构的示意图。

图4b示出了本发明实施例提供的数据存储结构的示例图。

图5示出了本发明实施例提供的数据流向示意图及对应的数据存储结构示意图。

图6示出了本发明实施例提供的全链关系的拼接示意图。

图7示出了本发明实施例提供的数据抽取方法的流程图。

图8示出了本发明实施例提供的数据处理方法的流程图。

图9示出了数据存储结构的建立的方法流程图。

图10示出了本发明实施例提供的边结点结构的关联示意图。

图11示出了本发明实施例提供的数据流向查询装置的示意图。

图12示出了本发明实施例提供的数据抽取装置的示意图。

图13示出了本发明实施例提供的数据处理装置的示意图。

图标：10-主机；101-存储器；102-通信接口；103-处理器；104-总线；200-数据流向查询装置；201-获取模块；202-第一执行模块；203-第二执行模块；204-第三执行模块；205-第四执行模块；300-数据抽取装置；301-抽取模块；302-同步模块；400-数据处理装置；401-查询模块；402-处理模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在大数据技术领域，数据表之间的流向关系是通过数据在不同数据表之间的流向展示的，而数据在不同数据表之间的流向是通过数据从一张数据表抽取到另外一张数据表建立的。

请参照图1a，图1a示出了本发明实施例提供的数据流向示例图，图1a中，将表1中的数据抽取到表2中，即数据的流向是从表1到表2，将表2的数据抽取到表3和表4中，即数据的流向是从表2到表3，还有从表2到表4，将表4的数据抽取到表6，表3的数据抽取到表5，则表1、表2、表3、表4、表5、表6之间的数据流向关系如图中箭头所示。

数据表的流向关系有三种：血缘关系、影响关系和全链关系，其中，血缘关系指以目标数据表的第一代祖先即目标数据表中的数据所在的最初的初始数据表为起点，以目标数据表自身为终点，按照数据在其中的流向、从终点向起点分析后逐层扩展得到的关系，例如，图1a中，表4的血缘关系指从表4的第一代祖先表1为起点，以表4为终点从表4开始逐层分析、扩展得到的关系，从表4开始，表4中的数据来源于表2，表2中的数据来源于表1，表1中的数据没有来源，即表1为初始数据表。因此，数据的流向为：表1->表2->表4，这样就形成了表4的血缘关系，如图1b所示。

影响关系指以目标数据表自身为起点，以受其影响的最末端子代的数据表即终点数据表为终点，按照数据在其中的流向、从起点向终点分析后逐层扩展得到的关系，例如，图1a中，表3的影响关系指以表3为起点，以表3影响的最末端子代的数据表即表5为终点进行分析、逐层扩展得到的关系，从表3开始，表3中的数据流向了表5，表5中的数据没有流向到其他数据表，表5为终点数据表，因此，数据的流向为：表3->表5，这样就形成了表3的影响关系，如图1c所示。

全链关系是以目标数据表的第一代祖先为起点、以受目标数据表影响的最末端子代的数据表为终点，按照数据在其中的流向、从目标数据表开始分别向起点和终点分析后逐层扩展得到的关系，全链关系可以是血缘关系和影响关系的合集，例如，图1a中的表3全链关系分析过程为：从表3开始向起点分析，表3中的数据来源于表2，表2中的数据来源于表1，表1是第一代祖先，向起点分析结束，此时可以得到表3的血缘关系，如图1d所示。从表3开始向后分析，表3中的数据流向表5，表5为表3影响的最末端子代的数据表，向终点分析结束，此时可以得到表3的影响关系，将表3的血缘关系和影响关系合并即可得到表3的全链关系，表3的全链关系如图1e所示。

在实际应用中，为了快速地得到目标数据表的流向关系，进而分析数据并定位目标数据表中的数据的来龙去脉，需要快速地查询到目标数据表的流向关系，为了方便查询，通常采用邻接表存储两个数据表之间的直接来源关系，例如，图1a对应的邻接表如下表1所示：

表1图1a对应的邻接表

表1中，第一列表示的是数据表的ID，第二列表示的是对应的数据表的名称，第三列表示的是对应的数据表的来源表ID，此处的来源表指当前表中的数据的直接来源表，例如，数据表1的ID为1，对应的来源表ID为空，意味着数据表1没有来源表，即数据表1是图1a中所有表中的数据的初始来源表，数据表2的ID为2，对应的来源表ID为1，即数据表2中的数据直接来源于数据表1，数据表3和数据表4与之类似。例如，当需要查找数据表3的血缘关系时，首先找到数据表3的来源表为数据表2，然后再逐层查找，找到数据表2的来源表为数据表1，接下来，再找数据表1的来源表，数据表1来源表为空，则查找结束，最终得到数据表3的血缘关系，如图1d所示。

实际应用中，通常会出现同一个数据表中的数据来自于2个或2个以上的数据表、或者同一个数据表中的数据流向至2个或2个以上的数据表，对于此情况，当前邻接表的方式只存储了数据表与其每个来源表之间的关系，并未存储同一个数据表的多个来源表之间的关联关系，也未存储同一个数据表的多个目的表之间的关联关系，因此，查找数据表的流向关系时，需要针对每个来源表或者目的表都进行一次上述的查找过程，将所有来源表或者目的表对应的查找结果进行组合，最终才能得到完整的流向关系，当中间的来源表中的数据又来自于多个数据表时，此时，查找的次数会激增，查找效率也会随之急剧下降。

针对这一问题，发明人提出一种数据流向查询方法、抽取方法、处理方法及相关装置，通过预先建立的数据存储结构中的表结点结构中的流向指针和边结点结构中的流向指针，查询出候选数据表标识，根据候选数据表标识表征的数据表中数据的来源表或者数据的流入表，获取数据表中数据的数据流向。由于根据流向指针可以直接查询到候选数据表标识，可以大大减少确定数据表的流向关系时的查询次数，从而提高确定数据表的流向关系的效率。下面将进行详细描述。

请参照图2，图2示出了本发明实施例提供的主机10的方框示意图。主机10可以是，但不限于，虚拟机、实体服务器、实体服务器上的虚拟机等能提供与所述服务器或者虚拟机有相同功能的实体或者虚拟的服务端。主机10的操作系统可以是，但不限于，Windows系统、Linux系统等。所述主机10包括存储器101、通信接口102、处理器103和总线104，所述存储器101、通信接口102和处理器103通过总线104连接，处理器103用于执行存储器101中存储的可执行模块，例如计算机程序。

其中，存储器101可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口102(可以是有线或者无线)实现该主机10与外部存储设备之间的通信连接。

总线104可以是ISA总线、PCI总线或EISA总线等。图2中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器101用于存储程序，所述处理器103在接收到执行指令后，执行所述程序以实现本发明上述实施例揭示的数据流向查询方法，数据抽取方法，数据处理方法。需要说明的是，本发明中的数据流向查询方法、数据抽取方法和数据处理方法可以在同一主机上执行，也可以在不同的主机上执行。为了方便描述，后续以图2所示的主机10执行上述数据流向查询方法、数据抽取方法和数据处理方法为例进行说明。

请参照图3，图3示出了本发明实施例提供的数据流向查询方法的流程图，该方法包括以下步骤：

步骤S101，获取数据表的数据表标识，并根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构。

在本发明实施例中，预先建立的数据存储结构中包括多个表结点结构和多个边结点结构，每一表结点结构与一个数据表对应，每一表结点结构包括数据表的信息和流向指针，数据表的信息可以包括数据表的标识、数据表的创建时间、最近一次修改时间等其他属性信息；流向指针包括流入指针及流出指针，分别指向可以表征与表结点结构对应的数据表中的数据流入流向或者流出流向的边结点结构。边结点结构包括第一数据表标识和第二数据表标识，表征的数据流向为：数据从第一数据表标识表征的数据表流出，流入至第二数据表标识表征的数据表的流向。边结点结构还包括流向指针，流向指针包括流入指针及流出指针，在边结点结构中，流入指针指向的其他的边结点结构与该边结点结构具有相同的第二数据表标识，流出指针指向的其他的边结点结构与该边结点结构具有相同的第一数据表标识。

请参照图4a，图4a示出了本发明实施例提供的表结点结构和边结点结构的示意图，图4a中，表结点结构包括数据表标识(图4a中的数据表标识为3)、流入指针和流出指针，表结点结构的流入指针为空指针，用^表示，表结点结构的流出指针指向边结点结构，边结点结构包括第一数据表标识、第二数据表标识、流入指针和流出指针，第一数据表标识为3，代表表3、第二数据表标识为5、代表表5，边结点结构的流入指针和流出指针均为空指针，该边结点结构表征的数据流向为，数据从表3流出，流入表5。

请参照图4b，图4b示出了本发明实施例提供的数据存储结构的示例图。图4b中的数据存储结构中包括6个表结点结构和5个边结点结构，其中，表结点结构中的1～6分别代表表1～表6的数据表标识。以表2对应的表结点结构为例，其中的2代表表2的数据表标识，表2对应的表结点结构的流入指针指向1#边结点结构，1#边结点结构包括的第一数据表标识和第二数据表标识分别为1和2，1#边结点结构表示的数据流向为：数据从表1流出，流入表2。表2对应的表结点结构的流出指针指向2#边结点结构，2#边结点结构包括的第一数据表标识和第二数据表标识分别为2和3，2#边结点结构表示的数据流向为：数据从表2流出，流入表3。再以2#边结点结构为例，2#边结点结构还包括流入指针和流出指针，2#边结点结构的流入指针为空指针，图中用^表示，表示不存在第二数据表标识为3的其他边结点结构，2#边结点结构的流出指针指向3#边结点结构，3#边结点结构的第一数据表标识为2，与2#边结点结构的第一数据表标识相同。图4b中其余数据表的表结点结构与表2类似，其余边结点结构与2#边结点结构类似，此处不再赘述。

作为一种具体实施方式，所有数据表的表结点结构可以通过链表或者数组进行组织，形成表结点链表或者表结点数组，每一数据表均有一个表名，主机10预先存储每一数据表的表名与该数据表在表结点链表或者表结点数组中的位置之间的对应关系，每一数据表的表结点结构中包括该数据表的数据表标识，因此，通过数据表的表名可以得到该数据表在表结点链表或者表结点数组中的位置，从而得到该数据表的表结点结构，从该表结点结构中可以获取到该数据表的数据表标识，数据表标识可以是表名、表的编号等其他可以唯一表示对应数据表的标志，数据表标识可以用字符、字符串或者数字等表示。

步骤S102，基于表结点结构的流向指针，确定流向指针指向的预先建立的数据存储结构中的边结点结构，边结点结构包括候选数据表标识，候选数据表标识用于表征数据表中数据的来源表或数据的流入表。

在本发明实施例中，当表结点结构的流向指针为流入指针时，该流入指针指向的边结点结构的第一数据表标识为候选数据表标识，该候选数据表标识表征数据表中数据的来源表，即该数据表的父数据表。当表结点结构的流向指针为流出指针时，该流出指针指向的边结点结构的第二数据表标识为候选数据表标识，该候选数据表标识表征数据表中数据的流入表，即该数据表的子数据表。

需要说明的是，此处的来源表并不一定是表征数据表中数据的初始来源表，例如，图1a中，数据表为表4时，表2为表4的来源表，而表1为表4的初始来源表，数据表为表2时，表1既是表2的来源表又是表2的初始来源表。

步骤S103，当边结点结构中的流向指针指向预先建立的数据存储结构中的其他边结点结构时，确定其他边结点结构中的候选数据表标识。

在本发明实施例中，当边结点结构中的流向指针为流入指针时，该流入指针指向的其他边结点结构的第二数据表标识与该边结点结的第二数据表标识相同，其他边结点结构的第一数据表标识为候选数据表标识。当边结点结构中的流向指针为流出指针时，该流出指针指向的其他边结点结构的第一数据表标识与该边结点结的第一数据表标识相同，其他边结点结构的第二数据表标识为候选数据表标识。

步骤S104，将边结点结构中的候选数据表标识和其他边结点结构中的候选数据表标识分别确定为数据表标识并执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤。

在本发明实施例中，将边结点结构中的候选数据表标识和其他边结点结构中的候选数据表标识分别确定为数据表标识后，需要执行的步骤包括：根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤，及步骤S102～S104，直至边结点结构中的流向指针为空、并且表结点结构的流向指针为空。

以图4b中的表3为例，按照流入指针查询过程如下：表3的表结点结构的流入指针指向的边结点结构包括的候选表标识为2，将2作为数据表标识，继续确定表2对应的表结点结构，表2的表结点结构的流入指针指向的边结点结构包括的候选表标识为1，将2作为数据表标识，继续确定表1对应的表结点结构，表1的表结点结构的流入指针为空，则不再继续向下查询。另外，当表3的表结点结构的流入指针指向的边结点结构的流入指针指向其余的边结点结构时，将该其余的边结点结构包括的候选表标识作为数据表标识，进行类似的步骤，直到数据表标识对应的表结点结构的流入指针为空，则不再继续向下查询。

在本发明实施例中，可以不用在边结点结构中的流向指针为空、并且表结点结构的流向指针为空时才结束查询，可以根据实际需要确定预设查询结束条件，终止查询，例如，预设查询结束条件可以是数据表标识和查找到的候选数据表标识中出现目标数据表时，结束查询。以图4b中表5例，表5为数据表，目标数据表为表2，根据流入指针进行查询，表5的流入表为表3，表3非目标数据表，故继续查询表3的流入表，表3的流入表为表2，为目标数据表，此时不再继续查询表2的流入表，结束查询。预设查询结束条件也可以为查询的目标层级，当查询到目标层级时，结束查询，层级可以表示数据流经的层次。以图1a为例，按照数据的流出流向从表1到表6共有4个层级，表1属于第一个层级，表2属于第二个层级，表3和表4属于第三个层级，表5和表6属于第四个层级，图1a的数据存储结构如图4b，基于图4b的存储结构，以表1为例，根据流出指针进行查询，目标层级为3，表1的流出表为表2，当前层级为2，表2的流出表为表3，当前层级为3，不再继续查询表3的流出表，表2还有一个流出表为表4，当前层级为3，不再继续查询表4的流出表，表2没有其他流出表了，终止查询，当然，也可以进一步限定需要的数据流向的数据流的个数，例如，限制数据流的个数为1，则不再继续查询表2的其他流出表，终止查询，本发明实施例不对具体的预设查询结束条件予以限定。

在本发明实施例中，当边结点结构中的流向指针未指向其他边结点结构时，只需要将边结点结构中的候选数据表标识确定为数据表标识，继续执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤，因此，本发明实施例中还包括步骤S105。

步骤S105，当边结点结构中的流向指针未指向其他边结点结构时，将边结点结构中的候选数据表标识确定为数据表标识并执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤。

在本发明实施例中，步骤S105与步骤S104类似，此处不再赘述。

步骤S106，对数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向。

在本发明实施例中，在获取数据表的数据表标识之后，还可以获取查询方向。当查询方向用于表征查询数据表中数据的来源情况时，则流向指针为流入指针，流入指针用于表征数据的流入流向，作为一种具体的获得数据表中数据的数据流入流向的方式，可以是：

当流向指针为流入指针时，则对数据表标识和查找到的候选数据表标识依据数据的流入流向进行排序，获得表征血缘关系的数据表中数据的数据流入流向。

请参照图5，图5示出了本发明实施例提供的数据流向示意图及对应的数据存储结构示意图，以表3为例，数据表标识为3，利用步骤S101～S105查找到的候选数据表标识为：2、1、7，依据数据的流入流向进行排序，得到的表征表3的血缘关系的数据流入流向为：表1->表2->表3和表7->表3。

当查询方向用于表征查询数据表中数据的流出情况时，则流向指针为流出指针，流出指针用于表征数据的流出流向，作为一种具体的获取数据表中数据的数据流向的方式，可以是：

当流向指针为流出指针时，则对数据表标识和查找到的候选数据表标识依据数据的流出流向进行排序，获得表征影响关系的数据表中数据的数据流出流向。

以图5中的表2为例，数据表标识为2，利用步骤S101～S105查找到的候选数据表标识为：3、5，依据数据的流出流向进行排序，得到的表征表2的影响关系的数据流出流向为：表2->表3->表5。

需要说明的是，由于全链关系是由血缘关系和影响关系拼接而成，因此，本发明实施例可以通过步骤S101～S105分别得到表征血缘关系的数据表中数据的数据流出流向和表征影响关系的数据表中数据的数据流出流向，通过拼接，即可得到表征全链关系的数据表中数据的数据流入流出流向，因此，本发明实施不再单独列出对应的步骤。图6示出了本发明实施例提供的全链关系的拼接示意图。

在本发明实施例中，通过预先建立的数据存储结构中的表结点结构中的流向指针和边结点结构中的流向指针，查询出候选数据表标识，根据候选数据表标识表征的数据表中数据的来源表或者数据的流入表，获取数据表中数据的数据流向，与现有技术相比，具有以下有益效果：

第一，根据流入指针可以直接查询到流入流向相关的候选数据表标识，因此大大减少查询数据流入流向时的查找次数，从而提高数据流向的查询效率。

第二，根据流出指针可以直接查询到流出流向相关的候选数据表标识，因此大大减少查询数据流出流向时的查询次数，从而提高数据流向的查询效率。

第三，由于流入指针和流出指针相互独立，因此，数据流入流向的查找和数据流出流向的查询可以同时进行，由此，提高了表征全链关系的数据流入流出流向的查询效率。

基于上述任一数据流向查询实施例，本发明还提供了一种数据抽取方法，请参照图7，图7示出了本发明实施例提供的数据抽取方法的流程图，数据抽取方法包括以下步骤：

步骤S201，在针对数据表执行数据抽取任务时，基于上述的数据流向查询方法确定该数据表的目的数据表。

在本发明实施例中，执行数据抽取任务时，可以首先按照上述步骤S101～S106，依据流出指针进行查询，获得表征影响关系的数据表中数据的数据流出流向，根据数据流出流向确定目的数据表，目的数据表为数据从数据表流出后，流入的数据表。

步骤S202，将从该数据表中抽取的数据同步至目的数据表中。

在本发明实施例中，以一种应用场景为例进行说明。例如，需要建立一个数据中心，数据中心的数据来自于人口库和法人库，建立数据中心时，需要进行数据抽取，即需要将人口库的数据表和法人库的数据表中的数据抽取到数据中心，根据数据在人口库的数据表、法人库的数据表及数据中心的数据表的流向关系，预先生成对应的存储结构，按照上述步骤S101～S106，依据流出指针进行查询，得到人口库的数据表表a流出，流入至数据中心的数据表表b的数据流出流向，确定数据表表a的目的数据表为数据中心的数据表表b，从表a中抽取的数据同步至表b中。

在本发明实施例中，在执行数据抽取任务时，通过基于上述任一数据流向查询实施例中描述的数据查询方法，可以快速地确定数据抽取任务中数据表的目标数据表，从而提高数据抽取任务的执行效率。

基于上述任一数据流向查询实施例，本发明还提供了一种数据处理方法，请参照图8，图8示出了本发明实施例提供的数据处理方法的流程图，数据处理方法包括以下步骤：

步骤S301，在检测到数据表中存在异常数据时，基于上述的数据流向查询方法确定该数据表中的异常数据流经的数据表。

步骤S302，对数据表和流经的数据表中的异常数据进行处理。

在本发明实施例中，以另一种应用场景为例进行说明。例如，数据中心的表b中的数据来自于人口库的表a，当表b中的数据出现异常时，比如表b中某个人身份证号错误时，需要追溯表b的数据来源即人口库的表a，此时，可以按照上述步骤S101～S106，依据流入指针进行查询，得到表b中的数据的流入流向，确定表b中的异常数据流经的表a，从而进一步确定异常数据出现的原因，同时，也按照上述步骤S101～S106，依据流出指针进行查询，得到表b中的数据的流出流向，确定表b中的异常数据是否流入其他数据表中。

需要说明的是，上述只是一个示例，具体场景中可以有多个数据表，每个数据表的数据可以来自于多个数据表，每个数据表的数据也可以流向多个数据表，但是具体实现均可以根据前面描述的内容，在不付出创造性的劳动的情况下得到，也在本发明保护的范围之内。

在本发明实施例中，在检测到数据表中存在异常数据时，通过基于上述任一数据流向查询实施例中描述的数据查询方法，可以快速地确定异常数据的来源，及异常数据对其他数据表中数据的影响，从而提高异常数据的处理效率。

在本发明实施例中，上述数据流向查询方法均是基于预先建立的数据存储结构实现的，在给定数据在任意两个数据表之间的流向的前提下，可以通过执行计算机程序实现数据存储结构的建立，下面给出数据存储结构的建立方法。

请参照图9，图9示出了数据存储结构的建立的方法流程图。该方法包括以下步骤：

步骤S401，为每一数据表建立一个对应的表结点结构。

在本发明实施例中，每一个数据表对应一个表结点结构，表结点结构包括数据表的表信息、流入指针和流出指针，数据表的表信息可以为数据表标识。

步骤S402，依据数据在该数据表和其他数据表之间的流向，建立用于表征该流向的边结点结构，边结点结构包括第一数据表标识和第二数据表标识，数据从第一数据表标识表征的数据表流出，流入至第二数据表标识表征的数据表。

在本发明实施例中，边结点结构包括第一数据表标识、第二数据表标识、流入指针和流出指针。数据在任意两个数据表之间的数据流向关系都可以用边结点结构表示，例如，数据从表1流出，流入表2，则表1和表2存在数据流向关系，则表达这一数据流向关系的边结点结构中的第一数据表标识为表1的数据表标识，第二数据表标识为表2的数据表标识。

步骤S403，将表结点结构的流入指针指向第一边结点结构，其中，第一边结点结构的第二数据表标识与该表结点结构对应的数据表的数据表标识相同。

在本发明实施例中，第二数据表标识与该表结点结构对应的数据表的数据表标识相同的第一边结点结构可以为多个，此时，可以将表结点结构的流入指针指向任意一个第一边结点结构。

需要说明的是，当不存在第一边结点结构时，表结点结构中的流入指针为空指针。

步骤S404，将表结点结构的流出指针指向第二边结点结构，其中，第二边结点结构的第一数据表标识与该表结点结构对应的数据表的数据表标识相同。

在本发明实施例中，第一数据表标识与该表结点结构对应的数据表的数据表标识相同的第二边结点结构可以为多个，此时，可以将表结点结构的流出指针指向任意一个第二边结点结构。

需要说明的是，当不存在第二边结点结构时，流出指针为空指针。

步骤S405，将第二数据表标识相同的多个第一边结点结构依次通过每个第一边结点结构的流入指针进行关联。

具体地，假设存在3个第二数据表标识相同的第一边结点结构，记为：第一边结点结构1、第一边结点结构2、第一边结点结构3，则表结点结构的流入指针可以指向第一边结点结构1，第一边结点结构1的流入指针可以分别指向第一边结点结构2和第一边结点结构3，或者第一边结点结构1的流入指针指向第一边结点结构2，第一边结点结构2的流入指针指向第一边结点结构3。

还参考图5进行说明，从图5左图可以看出，表3的流入表为表2和表7，则第二数据表标识与表3的数据表标识相同的第一边结点结构有两个，即2#边结点结构和7#边结点结构，则将表3的表结点结构的流入指针指向2#边结点结构，将2#边结点结构的流入指针指向7#边结点结构。

在本发明实施例中，通过表结点结构的流入指针指向的边结点结构，可以查询到与该表结点结构对应的数据表的来源表，通过该边结点结构的流入指针指向的其他边结点结构，可以查询到该数据表的其他来源表，通过遍历其他边结点结构的流入指针，可以查询到该数据表的所有来源表。

步骤S406，将第一数据表标识相同的多个第二边结点结构依次通过每个第二边结点结构的流出指针进行关联。

在本发明实施例中，通过表结点结构的流出指针指向的边结点结构，可以查询到与该表结点结构对应的数据表的流入表，通过该边结点结构的流出指针指向的其他边结点结构，可以查询到该数据表的其他流入表，通过遍历其他边结点结构的流出指针，可以查询到该数据表的所有流入表。

请参照图10，图10示出了本发明实施例提供的边结点结构的关联示意图。图10中有两个边结点结构：1#边结点结构，代表数据从表2(表2的数据表标识为2)流入表3(表3的数据表标识为3)的数据流向，2#边结点结构，代表数据从表2流入表4(表4的数据表标识为4)，2#边结点结构和1#边结点结构具有相同的第一数据表标识，因此，通过1#边结点结构中的流出指针指向2#边结点结构，由此将1#边结点结构和2#边结点结构关联起来，需要说明的是，因为此例中只存在两个边结点结构，2#边结点结构的流出指针不需要指向其他边结点结构了，故2#边结点结构的流出指针为空指针，图中用^表示，另外，不存在与1#边结点结构具有相同第二数据表标识的其他边结点结构，故1#边结点结构的流入指针也为空指针，图中用^表示。

通过边结点结构的流入指针将第二数据表标识相同的边结点结构进行关联与之类似，此处不再单独示例。至此，完成了数据存储结构的创建过程，在进行数据流向查询时直接调用按照步骤S401～S406描述的数据存储结构创建方法创建好的数据存储结构，即可查询到数据流向，相比于现有的数据存储结构，大大提高了基于本发明提供的数据存储结构进行流向查询的查询速度。

基于同一发明构思，本发明实施例还提供了一种数据流向查询装置，请参照图11，图11示出了本发明实施例提供的数据流向查询装置200的示意图。数据流向查询装置200，包括至少一个可以软件或固件(firmware)的形式存储于存储器101中或固化在所述主机10的操作系统(operating system，OS)中的软件功能模块，可以在处理器103接收到执行指令后，执行数据流向查询装置200对应的程序，以实现上述数据流向查询方法。

数据流向查询装置200包括获取模块201、第一执行模块202、第二执行模块203、第三执行模块204及第四执行模块205。

获取模块201，用于获取数据表的数据表标识，并根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构。

具体地，获取模块201，还用于获取查询方向，当查询方向用于表征查询数据表中数据的来源情况时，则流向指针为流入指针；当查询方向用于表征查询数据表中数据的流出情况时，则流向指针为流出指针，其中，流入指针用于表征数据的流入流向，流出指针用于表征数据的流出流向。

第一执行模块202，用于基于表结点结构的流向指针，确定流向指针指向的预先建立的数据存储结构中的边结点结构，边结点结构包括候选数据表标识，候选数据表标识用于表征数据表中数据的来源表或数据的流入表。

第二执行模块203，用于当边结点结构中的流向指针指向预先建立的数据存储结构中的其他边结点结构时，确定其他边结点结构中的候选数据表标识。

第三执行模块204，用于将边结点结构中的候选数据表标识和其他边结点结构中的候选数据表标识分别确定为数据表标识并执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤。

具体地，第三执行模块204，还用于当边结点结构中的候选数据表标识和其他边结点结构中的候选数据表标识均满足预设查询结束条件时，终止执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤。

具体地，第三执行模块204，还用于当所述边结点结构中的流向指针未指向其他边结点结构时，则将所述边结点结构中的候选数据表标识确定为数据表标识并执行根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构的步骤。

具体地，第三执行模块204，还用于当边结点结构中的候选数据表标识满足预设查询结束条件时，终止执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤。

第四执行模块205，用于对数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向。

具体地，第四执行模块205，还用于当流向指针为流入指针时，则对数据表标识和查找到的候选数据表标识依据数据的流入流向进行排序，获得表征血缘关系的数据表中数据的数据流入流向；以及用于当流向指针为流出指针时，则对数据表标识和查找到的候选数据表标识依据数据的流出流向进行排序，获得表征影响关系的数据表中数据的数据流出流向。

请参照图12，图12示出了本发明实施例提供的数据抽取装置300的示意图。数据抽取装置300包括至少一个可以软件或固件(firmware)的形式存储于存储器101中或固化在所述主机10的操作系统(operating system，OS)中的软件功能模块，可以在处理器103接收到执行指令后，执行数据抽取装置300对应的程序，以实现上述数据抽取方法。

数据抽取装置300包括抽取模块301和同步模块302。

抽取模块301，用于在针对数据表执行数据抽取任务时，基于上述的数据流向查询方法确定该数据表的目的数据表。

同步模块302，用于将从该数据表中抽取的数据同步至目的数据表中。

请参照图13，图13示出了本发明实施例提供的数据处理装置400的示意图。数据处理装置400包括至少一个可以软件或固件(firmware)的形式存储于存储器101中或固化在所述主机10的操作系统(operating system，OS)中的软件功能模块，可以在处理器103接收到执行指令后，执行数据处理装置400对应的程序，以实现上述数据处理方法。

数据处理装置400包括查询模块401和处理模块402。

查询模块401，用于在检测到数据表中存在异常数据时，基于上述的数据流向查询方法确定该数据表中的异常数据流经的数据表。

处理模块402，用于对数据表和流经的数据表中的异常数据进行处理。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的数据流向查询装置200、数据抽取装置300和数据处理装置400的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还揭示了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的数据流向查询方法，和/或者数据抽取方法，和/或者数据处理方法。

综上所述，本发明提供一种数据流向查询方法、抽取方法、处理方法及相关装置，所述数据流向查询方法包括：获取数据表的数据表标识，并根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构；基于表结点结构的流向指针，确定流向指针指向的预先建立的数据存储结构中的边结点结构，边结点结构包括候选数据表标识，候选数据表标识用于表征数据表中数据的来源表或数据的流入表；当边结点结构中的流向指针指向预先建立的数据存储结构中的其他边结点结构时，确定其他边结点结构中的候选数据表标识；将边结点结构中的候选数据表标识和其他边结点结构中的候选数据表标识分别确定为数据表标识并执行根据数据表标识，从预先建立的数据存储结构中确定数据表标识对应的表结点结构的步骤；对数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向，能够在数据表的数量非常巨大的情况下，可以实现数据流向的高效查询。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种数据流向查询方法，其特征在于，所述方法包括：

获取数据表的数据表标识，并根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构；

基于所述表结点结构的流向指针，确定所述流向指针指向的所述预先建立的数据存储结构中的边结点结构，所述边结点结构包括候选数据表标识，所述候选数据表标识用于表征所述数据表中数据的来源表或数据的流入表；

当所述边结点结构中的流向指针指向所述预先建立的数据存储结构中的其他边结点结构时，确定所述其他边结点结构中的候选数据表标识；

将所述边结点结构中的候选数据表标识和所述其他边结点结构中的候选数据表标识分别确定为数据表标识并执行根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构的步骤；

对所述数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向。

2.如权利要求1所述的数据流向查询方法，其特征在于，当所述边结点结构中的流向指针未指向其他边结点结构时，则

将所述边结点结构中的候选数据表标识确定为数据表标识并执行根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构的步骤；

3.如权利要求1或2所述的数据流向查询方法，其特征在于，在获取数据表的数据表标识之后，还包括：

获取查询方向，当所述查询方向用于表征查询所述数据表中数据的来源情况时，则所述流向指针为流入指针；当所述查询方向用于表征查询所述数据表中数据的流出情况时，则所述流向指针为流出指针，其中，所述流入指针用于表征数据的流入流向，所述流出指针用于表征数据的流出流向；

所述对所述数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向的步骤包括：

当流向指针为流入指针时，则对所述数据表标识和查找到的候选数据表标识依据数据的流入流向进行排序，获得表征血缘关系的数据表中数据的数据流入流向；

当流向指针为流出指针时，则对所述数据表标识和查找到的候选数据表标识依据数据的流出流向进行排序，获得表征影响关系的数据表中数据的数据流出流向。

4.如权利要求1所述的数据流向查询方法，其特征在于，所述将所述边结点结构中的候选数据表标识和所述其他边结点结构中的候选数据表标识分别确定为数据表标识并执行根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构的步骤包括：

当所述边结点结构中的候选数据表标识和所述其他边结点结构中的候选数据表标识均满足预设查询结束条件时，终止执行根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构的步骤。

5.如权利要求2所述的数据流向查询方法，其特征在于，所述将所述边结点结构中的候选数据表标识确定为数据表标识并执行根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构的步骤包括：

当所述边结点结构中的候选数据表标识满足预设查询结束条件时，终止执行根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构的步骤。

6.一种数据抽取方法，其特征在于，所述方法包括：

在针对数据表执行数据抽取任务时，基于权利要求1～5任一所述的数据流向查询方法确定该数据表的目的数据表；

将从该数据表中抽取的数据同步至所述目的数据表中。

7.一种数据处理方法，其特征在于，所述方法包括：

在检测到数据表中存在异常数据时，基于权利要求1～5任一所述的数据流向查询方法确定该数据表中的异常数据流经的数据表；

对所述数据表和所述流经的数据表中的异常数据进行处理。

8.一种数据流向查询装置，其特征在于，所述装置包括：

获取模块，用于获取数据表的数据表标识，并根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构；

第一执行模块，用于基于所述表结点结构的流向指针，确定所述流向指针指向的所述预先建立的数据存储结构中的边结点结构，所述边结点结构包括候选数据表标识，所述候选数据表标识用于表征所述数据表中数据的来源表或数据的流入表；

第二执行模块，用于当所述边结点结构中的流向指针指向所述预先建立的数据存储结构中的其他边结点结构时，确定所述其他边结点结构中的候选数据表标识；

第三执行模块，用于将所述边结点结构中的候选数据表标识和所述其他边结点结构中的候选数据表标识分别确定为数据表标识并执行根据所述数据表标识，从预先建立的数据存储结构中确定所述数据表标识对应的表结点结构的步骤；

第四执行模块，用于对所述数据表标识和查找到的候选数据表标识依据数据的流向进行排序，获得数据表中数据的数据流向。

9.一种数据抽取装置，其特征在于，所述装置包括：

抽取模块，用于在针对数据表执行数据抽取任务时，基于权利要求1～5任一所述的数据流向查询方法确定该数据表的目的数据表；

同步模块，用于将从该数据表中抽取的数据同步至所述目的数据表中。

10.一种数据处理装置，其特征在于，所述装置包括：

查询模块，用于在检测到数据表中存在异常数据时，基于权利要求1～5任一所述的数据流向查询方法确定该数据表中的异常数据流经的数据表；

处理模块，用于对所述数据表和所述流经的数据表中的异常数据进行处理。

11.一种主机，其特征在于，所述主机包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～5中任一项所述的数据流向查询方法，和/或者如权利要求6所述的数据抽取方法，和/或者如权利要求7所述的数据处理方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1～5中任一项所述的数据流向查询方法，和/或者如权利要求6所述的数据抽取方法，和/或者如权利要求7所述的数据处理方法。