CN109669981A

CN109669981A - 数据关系管理方法、装置、数据关系获取方法及存储介质

Info

Publication number: CN109669981A
Application number: CN201811578855.7A
Authority: CN
Inventors: 彭丽林; 刘俊良; 王双; 王怡君; 金日海
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-04-23

Abstract

本发明实施例提供一种数据关系管理方法、装置、数据关系获取方法及存储介质，所述管理方法包括：基于目标数据库的元数据、目标数据库中的来源表的表名以及目标数据库中的目的表的表名，获取目标数据库的第一唯一码、来源表的第二唯一码以及目的表的第三唯一码；基于数据流向关系，确定第一唯一码、第二唯一码以及第三唯一码之间的关系，继而建立唯一码关系图，所述唯一码关系图用于表征目标数据库、来源表以及目的表之间的血缘关系图。针对不同的数据库分配不同的唯一码，每一个数据库中的每一个表分配不同的唯一码，不同数据库中的表的唯一码也不同，继而建立唯一码关系图，使得用户能够直观的、快速地获取数据之间的关系。

Description

数据关系管理方法、装置、数据关系获取方法及存储介质

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据关系管理方法、装置、数据关系获取方法及存储介质。

背景技术

数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合，用于支持管理决策。

随着数据仓库服务时间越长，涉及的业务也会越多，业务之间的复杂度越高，随之对业务的数据流向、影响分析、关联分析等就越复杂。数据仓库的管理者希望能方便的看到各个表，数据仓库的用户希望能看到表的更多的业务信息。然而，数据仓库是一个黑盒，双方需求难以满足。

发明内容

鉴于此，本发明实施例的目的在于提供一种数据关系管理方法、装置、数据关系获取方法及存储介质，能够使得用户能够直观的、快速地获取数据与数据之间的关系。

第一方面，本发明实施例提供一种数据关系管理方法，所述方法包括：获取目标数据库和所述目标数据库的元数据；获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系；基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码；基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码以及所述第三唯一码之间的关系，继而建立唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表以及所述目的表之间的血缘关系图。由于不同数据库中的表的名字可能相同，因此，针对不同的数据库分配不同的唯一码，每一个数据库中的每一个表分配不同的唯一码，其中，不同数据库中的表的唯一码也不同，继而建立唯一码关系图，其中，基于所述唯一码关系图能够获取与所述唯一码关系图中的唯一码一一对应的数据之间的血缘关系图，使得用户能够直观的、快速地获取数据与数据之间的关系。

基于第一方面，在一种可能的设计中，获取目标数据库和所述目标数据库的元数据，包括：获取目标文件，其中，所述目标文件中包括与所述目标数据库对应的文件标识；获取所述目标文件的文件标识；基于所述文件标识，从预先存储的标识与数据库的对应关系中，确定所述目标数据库的名称，并获取所述目标数据库的元数据。由于不同的目标文件包括的数据库的信息不同，通过给不同的目标文件分配不同的文件标识，通过预先存储的标识与数据库的对应关系中，能够快速、准确的获取与所述文件标识对应的所述目标数据库和所述目标数据库的元数据。

基于第一方面，在一种可能的设计中，所述目标文件中包括所述来源表的信息和所述目的表的信息，获取来源表的表名、目的表的表名以及所述来源表和所述目的表之间的数据流向关系，包括：基于所述目标文件和所述目标数据库，获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系。通过该方式，能够准确的获取与所述目标文件对应的所有数据库和所有表之间的数据流向关系。

基于第一方面，在一种可能的设计中，在所述目标数据库的数量为至少两个时，基于所述目标文件和所述目标数据库，获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系，包括：基于所述文件标识，从预先存储的标识与数据库的对应关系中，获取至少两个所述目标数据库之间的数据传输关系；基于至少两个所述目标数据库、所述数据传输关系以及所述目标文件，获取至少两个所述目标数据库中的所述来源表的表名、至少两个所述目标数据库中的所述目的表的表名以及至少两个所述目标数据库中的所述来源表和至少两个所述目标数据库中的所述目的表之间的数据流向关系。在所述目标数据库的数量为至少两个时，通过获取至少两个所述数据库之间的数据流向关系，继而能够准确获取至少两个所述数据库中与所述目标文件对应的表之间的数据流向关系。

基于第一方面，在一种可能的设计中，基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码，包括：基于所述目标数据库的元数据，获取所述第一唯一码；基于所述第一唯一码和所述来源表的表名，获取所述第二唯一码；基于所述第一唯一码和所述目的表的表名，获取所述第三唯一码。由于不同数据库中的表的名字可能相同，因此，通过该该方式给不同的数据库分配不同的唯一码，每一个数据库中的每一个表分配不同的唯一码，其中，不同数据库中的表的唯一码也不同，继而能够建立唯一码关系图。

基于第一方面，在一种可能的设计中，基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码和所述第三唯一码之间的关系，继而建立唯一码关系图之前，所述方法还包括：基于所述目标数据库和所述目标文件，获取所述来源表的字段的名称、所述目的表的字段的名称以及所述来源表的字段和所述所述目的表的字段的字段关系；基于所述第二唯一码和所述来源表的字段的名称，获取第四唯一码；基于所述第三唯一码和所述目的表的字段的名称，获取第五唯一码；基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码和所述第三唯一码之间的关系，继而建立唯一码关系图，包括：基于所述数据流向关系和所述字段关系，确定所述第一唯一码、所述第二唯一码、所述第三唯一码、所述第四唯一码和所述第五唯一码之间的关系，继而建立所述唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表、所述目的表、所述来源表的字段的名称以及所述目的表的字段的名称之间的所述血缘关系图。由于不同表的字段可能相同，因此，通过给每一个数据库中的每一个表的不同字段分配不同的唯一码，继而能够保证字段的唯一性，并通过建立唯一码关系图，使得用户能够直观的、快速地获取数据与数据之间的关系。

基于第一方面，在一种可能的设计中，建立所述唯一码关系图之后，所述方法还包括：获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码；基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取所述唯一码关系图；基于所述所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。通过预先存储的唯一码和唯一码关系图的对应关系，使得用户能够快速的、直观的获取与所述唯一码关系图对应的血缘关系图。

第二方面，本发明实施例提供一种数据关系获取方法，所述方法包括：获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码；基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取唯一码关系图；基于所述所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。通过预先存储的唯一码和唯一码关系图的对应关系，使得用户能够快速的、直观的获取与所述唯一码关系图对应的血缘关系图。

第三方面，本发明实施例提供一种数据关系管理装置，所述装置包括：第一获取单元，用于获取目标数据库和所述目标数据库的元数据；第二获取单元，用于获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系；第三获取单元，用于基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码；关系图建立单元，用于基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码以及所述第三唯一码之间的关系，继而建立唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表以及所述目的表之间的血缘关系图。

基于第三方面，在一种可能的设计中，所述第一获取单元包括：目标文件获取单元，用于获取目标文件，其中，所述目标文件中包括与所述目标数据库对应的文件标识；文件标识获取单元，用于获取所述目标文件的文件标识；第一获取子单元，用于基于所述文件标识，从预先存储的标识与数据库的对应关系中，确定所述目标数据库的名称，并获取所述目标数据库的元数据。

基于第三方面，在一种可能的设计中，所述目标文件中包括所述来源表的信息和所述目的表的信息，所述第二获取单元，还用于基于所述目标文件和所述目标数据库，获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系。

基于第三方面，在一种可能的设计中，在所述目标数据库的数量为至少两个时，所述第二获取单元，还用于基于所述文件标识，从预先存储的标识与数据库的对应关系中，获取至少两个所述目标数据库之间的数据传输关系；以及基于至少两个所述目标数据库、所述数据传输关系以及所述目标文件，获取至少两个所述目标数据库中的所述来源表的表名、至少两个所述目标数据库中的所述目的表的表名以及至少两个所述目标数据库中的所述来源表和至少两个所述目标数据库中的所述目的表之间的数据流向关系。

基于第三方面，在一种可能的设计中，所述第三获取单元，还用于基于所述目标数据库的元数据，获取所述第一唯一码；以及基于所述第一唯一码和所述来源表的表名，获取所述第二唯一码；以及基于所述第一唯一码和所述目的表的表名，获取所述第三唯一码。

基于第三方面，在一种可能的设计中，所述装置还包括：第四唯一码获取单元，用于基于所述第二唯一码和所述来源表的字段的名称，获取第四唯一码；第五唯一码获取单元，用于基于所述第三唯一码和所述目的表的字段的名称，获取第五唯一码；所述关系图建立单元，还用于基于所述数据流向关系和所述字段关系，确定所述第一唯一码、所述第二唯一码、所述第三唯一码、所述第四唯一码和所述第五唯一码之间的关系，继而建立所述唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表、所述目的表、所述来源表的字段的名称以及所述目的表的字段的名称之间的所述血缘关系图。

基于第三方面，在一种可能的设计中，所述装置还包括：第四获取单元，用于获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码；第五获取单元，用于基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取所述唯一码关系图；第六获取单元，用于基于所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。

第四方面，本发明实施例提供一种数据关系获取装置，所述装置包括：指令获取单元，用于获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码；唯一码关系图获取单元，用于基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取唯一码关系图；血缘关系图获取单元，用于基于所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。

第五方面，本发明实施例提供一种电子设备，包括处理器以及与所述处理器连接的存储器，所述存储器内存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行第一方面和第二方面所述的方法。

第六方面，本发明实施例提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行第一方面和第二方面所述的方法。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的电子设备的结构示意图；

图2为本发明第一实施例提供的数据关系管理方法的流程示意图；

图3为本发明第一实施例提供的唯一码关系图；

图4为本发明第二实施例提供的数据关系获取方法的流程示意图；

图5为本发明第三实施例提供的数据关系管理装置的结构示意图；

图6为本发明第四实施例提供的数据关系获取装置的结构示意图。

图标：100-电子设备；110-存储器；120-存储控制器；130-处理器；140-外设接口；150-输入输出单元；160-音频单元；170-显示单元；410-第一获取单元；420-第二获取单元；430-第三获取单元；440-关系图建立单元；510-指令获取单元；520-唯一码关系图获取单元；530-血缘关系图获取单元。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本发明实施例提供一种电子设备100的结构示意图，所述电子设备100可以是个人电脑(personal computer，PC)、平板电脑、智能手机、个人数字助理(personal digitalassistant，PDA)等。

如图1所示，所述电子设备100可以包括：数据关系管理装置、数据关系获取装置、存储器110、存储控制器120、处理器130、外设接口140、输入输出单元150、音频单元160、显示单元170。

所述存储器110、存储控制器120、处理器130、外设接口140、输入输出单元150、音频单元160以及显示单元170各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据关系管理装置和所述数据关系获取装置包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中或固化在客户端设备的操作装置(operating system，OS)中的软件功能模块。所述处理器130用于执行存储器110中存储的可执行模块，例如所述图像分类装置包括的软件功能模块或计算机程序。

其中，存储器110可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器110用于存储程序，所述处理器130在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流程定义的电子设备100所执行的方法可以应用于处理器130中，或者由处理器130实现。

处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述外设接口140将各种输入/输出装置耦合至处理器130以及存储器110。在一些实施例中，外设接口140，处理器130以及存储控制器120可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

输入输出单元150用于提供给用户输入数据实现用户与电子设备100的交互。所述输入输出单元150可以是，但不限于，鼠标和键盘等。

音频单元160向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

显示单元170在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元170可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器130进行计算和处理。

第一实施例

请参照图2，图2为本发明第一实施例提供的一种数据关系管理方法的流程图，所述方法应用于如图1所示的电子设备100，下面将对图2所示的流程进行详细阐述，所述方法包括：

S100：获取目标数据库和所述目标数据库的元数据。

作为一种实施方式，S100包括：获取目标文件，其中，所述目标文件中包括与所述目标数据库对应的文件标识。

其中，在本实施例中，从(Hadoop Distributed File System，HDFS)分布式文件系统中获取所述目标文件，HDFS是一个高度容错性的系统，适合部署在廉价的机器上，HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用，在其他实施例中，所述目标文件也可以存储在其他分布式文件系统中，例如：(Google File System，GFS)谷歌文件系统，其中，在本实施例中，所述目标文件为需要解析的shell文件，在其他实施例中，所述目标文件也可以为利用其他编程语言编写的数据。

获取所述目标文件的文件标识。

在实际实施过程中，利用shell文件解析器对所述目标文件进行解析，获取所述目标文件的文件标识，其中，所述文件标识可以由数字和/或字母构成，在本实施例中，所述文件标识可以是十进制数字，例如10、25、28等十进制数字，在其他实施例中，所述文件标识也可以为七位二进制数字，例如0100010，0010000等，所述文件标识用于表征文件的唯一性的身份信息，文件标识的具体形式不作限制。

基于所述文件标识，从预先存储的标识与数据库的对应关系中，确定所述目标数据库的名称，并获取所述目标数据库的元数据。

在实际实施过程中，基于所述文件标识，从airflow数据库中获取与所述文件标识对应的目标数据库的名称以及所述目标数据库的元数据，在其他实施例中，也可以从其他数据库中获取与所述文件标识对应的目标数据库的名字以及所述目标数据库的元数据，其中，元数据，又称中介数据、中继数据，为描述数据的数据，主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。作为一种实施方式，在文件标识对应的目标数据库为至少两个时，从airflow数据库中获取与所述文件标识对应的至少两个所述目标数据库之间的数据流向关系。例如，在所述目标文件中包含有与两个数据库(Mysql数据库和Oracle数据库)的对应的文件标识时，基于所述文件标识，获取Mysql数据库和Oracle数据库的名称、Mysql数据库和Oracle数据库的元数据以及Mysql数据库和Oracle数据库之间的数据流向关系，在所述目标文件对应的两个数据库之间的数据流向关系为将Mysql数据库中的数据进行处理后，输出至Oracle数据库进行处理时，基于所述文件标识获取到的两个数据库之间的数据流向关系为：Mysql数据库-》Oracle数据库。

由于不同的目标文件包括的数据库的信息不同，通过给不同的目标文件分配不同的文件标识，通过预先存储的标识与数据库的对应关系中，能够快速、准确的获取与所述文件标识对应的所述目标数据库的名称和所述目标数据库的元数据。

作为一种实施方式，在需要对目标数据库(A1数据库)和目标数据库中的目标表(A表、B表)之间的数据流向关系建立血缘关系图时，直接获取A1数据库的名字、A表的名字、B表的名字、A表与B表之间的数据流向关系以及A1数据库的元数据，无需基于所述目标文件来获取A1数据库的名字、A表的名字、B表的名字、A表与B表之间的数据流向关系以及A1数据库的元数据。

S200：获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系。

作为一种实施方式，在所述目标文件中包括所述来源表的信息和所述目的表的信息时，S200包括：

基于所述目标文件和所述目标数据库，在所述目标文件为待解析的shell文件时，利用shell文件解析器对所述目标文件进行解析，获取sqoop代码块和beeline代码块，Sqoop是一个用来将HDFS和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(例如：MySQL、Oracle等)中的数据导进到HDFS中，也可以将HDFS的数据导进到关系型数据库中，利用sqoop语法解析器对所述sqoop代码块进行解析，获取与所述所述sqoop代码块对应的T-SQL语句，利用beeline语法解析器对所述beeline代码块进行解析，以及与所述beeline代码块对应的HQL语句，针对T-SQL语句，利用T-SQL语法解析器对T-SQL语句进行解析，并设置数据的输入源和输出源，可以理解的是，在所述目标数据库为Mysql数据库时，数据的输入源和数据的输出源均为Mysql数据库，继而获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系。在其他实施例中，也可以利用其他语言将目标数据库中的表、字段的信息进行编码后存储在所述目标文件中。

举例来说，在所述目标文件包含有Mysql数据库中的A1表中的数据经过处理后输入到Mysql数据库中的B1表时，Mysql数据库中的C1表中的数据经过处理后输入到Mysql数据库中的D1表时，基于所述目标文件和所述目标数据库，获取A1表的表名、B1表的表名、C1表的表名、D1表的表名、Mysql数据库中的A1表-》Mysql数据库中的B1表，Mysql数据库中的C1表-》Mysql数据库中的D1表。

通过该方式，能够准确的获取与所述目标文件对应的所有数据库和所有表之间的数据流向关系。

作为一种实施方式，在所述目标数据库的数量为至少两个时，S200包括：

基于所述文件标识，从预先存储的标识与数据库的对应关系中，获取至少两个所述目标数据库之间的数据传输关系。

在文件标识对应的目标数据库为至少两个时，从airflow数据库中获取与所述文件标识对应的至少两个所述目标数据库之间的数据流向关系。例如，在所述目标文件中包含有两个数据库(Mysql数据库和Oracle数据库)的信息时，基于所述文件标识，获取Mysql数据库和Oracle数据库的名称、Mysql数据库和Oracle数据库的元数据以及Mysql数据库和Oracle数据库之间的数据流向关系，在所述目标文件对应的两个数据库之间的数据流向关系为将Mysql数据库中的数据进行处理后，输出至Oracle数据库进行处理时，基于所述文件标识获取到的两个数据库之间的数据流向关系为：Mysql数据库-》Oracle数据库。

基于至少两个所述目标数据库、所述数据传输关系以及所述目标文件，获取至少两个所述目标数据库中的所述来源表的表名、至少两个所述目标数据库中的所述目的表的表名以及至少两个所述目标数据库中的所述来源表和至少两个所述目标数据库中的所述目的表之间的数据流向关系。

基于至少两个所述目标数据库、所述数据传输关系以及所述目标文件，在所述目标文件为待解析的shell文件时，利用shell文件解析器对所述目标文件进行解析，获取sqoop代码块和beeline代码块，Sqoop是一个用来将HDFS和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(例如：MySQL、Oracle等)中的数据导进到HDFS中，也可以将HDFS的数据导进到关系型数据库中，利用sqoop语法解析器对所述sqoop代码块进行解析，获取与所述所述sqoop代码块对应的T-SQL语句，利用beeline语法解析器对所述beeline代码块进行解析，以及与所述beeline代码块对应的HQL语句，针对T-SQL语句，利用T-SQL语法解析器对T-SQL语句进行解析，并设置数据的输入源和输出源，可以理解的是，在所述目标数据库的数据流向关系为：Mysql数据库-》Oracle数据库时，数据的输入源为Mysql数据库，数据的输出源为Oracle数据库，继而获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系。在其他实施例中，也可以利用其他语言将目标数据库中的表、字段的信息进行编码后存储在所述目标文件中。

举例来说，在所述目标文件包含有Mysql数据库-》Oracle数据库的数据流向关系、Mysql数据库中的A表中的数据经过处理后输入到Oracle数据库中的B表时，Mysql数据库中的C表中的数据经过处理后输入到Oracle数据库中的D表时，基于所述目标文件和所述目标数据库，获取A表的表名、B表的表名、C表的表名、D表的表名、Mysql数据库中的A表-》Oracle数据库中的B表，Mysql数据库中的C表-》Oracle数据库中的D表。

在所述目标数据库的数量为至少两个时，通过获取至少两个所述数据库之间的数据流向关系，继而能够准确获取至少两个所述数据库中与所述目标文件对应的表之间的数据流向关系。

S300：基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码。

作为一种实施方式，S300包括：

基于所述目标数据库的元数据，获取所述第一唯一码。

其中，唯一码可以为数字和/或字母构成，唯一码可以为数字，唯一码可以为字母，唯一码可以由字母和数字构成，在本实施例中，唯一码用十进制数字表示。

作为一种实施方式，基于所述目标数据库的元数据，从预先存储的元数据和唯一码之间的关系中，获取与所述目标数据库的元数据对应的所述第一唯一码。

作为一种实施方式，基于所述元数据和Hash算法计算出所述第一唯一码。

基于所述第一唯一码和所述来源表的表名，获取所述第二唯一码。

基于所述第一唯一码，从预先存储的元数据和唯一码的对应关系中获取与所述第一唯一码对应的目标数据库的元数据，基于所述目标数据库的元数据和所述来源表的表名，获取所述来源表的元数据，基于所述来源表的元数据，获取所述第二唯一码。

基于所述第一唯一码和所述目的表的表名，获取所述第三唯一码。

基于所述第一唯一码，从预先存储的元数据和唯一码的对应关系中获取与所述第一唯一码对应的目标数据库的元数据，基于所述目标数据库的元数据和所述目的表的表名，获取所述目的表的元数据，基于所述目的表的元数据，获取所述第三唯一码。

由于不同数据库中的表的名字可能相同，因此，通过该该方式给不同的数据库分配不同的唯一码，每一个数据库中的每一个表分配不同的唯一码，其中，不同数据库中的表的唯一码也不同，继而能够建立唯一码关系图。

S400：基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码以及所述第三唯一码之间的关系，继而建立唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表以及所述目的表之间的血缘关系图。

可以理解的是，请参照图3，在所述目标文件包含有目标数据库Mysql数据库-》目标数据库Oracle数据库的数据流向关系、Mysql数据库中的A表中的数据经过处理后输入到Oracle数据库中的B表时，Mysql数据库中的C表中的数据经过处理后输入到Oracle数据库中的D表时，所述Mysql数据库对应的第一唯一码为10，所述Oracle数据库对应的第一唯一码为20，Mysql数据库中的A表对应的第二唯一码为11，Mysql数据库中的C表对应的第二唯一码为12，Oracle数据库中的B表对应的第三唯一码为21，Oracle数据库中的D表对应的第三唯一码为22时，基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码以及所述第三唯一码之间的关系，继而建立唯一码关系图。

由于唯一码和所述目标数据库、所述来源表以及所述目的表的名称是一一对应的关系，因此，基于所述唯一码关系图中的唯一码，从预先存储的元数据和唯一码的对应关系中获取与所述唯一码关系图中的唯一码对应的元数据之间的关系图，基于所述元数据关系图中的元数据以及元数据之间的关系，获取所述目标数据库、所述来源表以及所述目的表之间的血缘关系图。

由于不同数据库中的表的名字可能相同，因此，针对不同的数据库分配不同的唯一码，每一个数据库中的每一个表分配不同的唯一码，其中，不同数据库中的表的唯一码也不同，继而建立唯一码关系图，其中，基于所述唯一码关系图能够获取与所述唯一码关系图中的唯一码一一对应的数据之间的血缘关系图，使得用户能够直观的、快速地获取数据与数据之间的关系。

作为一种实施方式，在S400之前，所述方法还包括：

基于所述目标数据库和所述目标文件，获取所述来源表的字段的名称、所述目的表的字段的名称以及所述来源表的字段和所述所述目的表的字段的字段关系。

基于所述目标文件和所述目标数据库，在所述目标文件为待解析的shell文件时，利用shell文件解析器对所述目标文件进行解析，获取sqoop代码块和beeline代码块，利用sqoop语法解析器对所述sqoop代码块进行解析，获取与所述所述sqoop代码块对应的T-SQL语句，利用beeline语法解析器对所述beeline代码块进行解析，以及与所述beeline代码块对应的HQL语句，针对T-SQL语句，利用T-SQL语法解析器对T-SQL语句进行解析，并设置数据的输入源和输出源，可以理解的是，在所述目标数据库为Mysql数据库时，数据的输入源和数据的输出源均为Mysql数据库，继而获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名、所述来源表中的字段的名称、所述目的表中的字段的名称、所述来源表和所述目的表之间的数据流向关系以及所述来源表中的字段与所述目的表中的字段之间的数据流向关系。

举例来说，在所述目标文件包含有Mysql数据库中的A1表中的a1字段的数据经过处理后输入到Mysql数据库中的B1表中b1字段时，Mysql数据库中的C1表中的c1字段的数据经过处理后输入到Mysql数据库中的D1表中的d1字段时，基于所述目标文件和所述目标数据库，获取A1表的表名、B1表的表名、C1表的表名、D1表的表名、a1字段的名称、b1字段的名称、c1字段的名称、d1字段的名称、Mysql数据库中的A1表中的a1字段-》Mysql数据库中的B1表中的b1字段，Mysql数据库中的C1表中的c1字段-》Mysql数据库中的D1表中的d1字段。

基于所述第二唯一码和所述来源表的字段的名称，获取第四唯一码。

基于所述第二唯一码，从预先存储的唯一码和元数据对应的关系中获取与所述第二唯一码对应的所述来源表的元数据，基于所述来源表的元数据和所述来源表的字段的名称，获取所述来源表的字段的元数据，基于所述来源表的字段的元数据，从从预先存储的唯一码和元数据对应的关系中获取所述第四唯一码。

基于所述第三唯一码和所述目的表的字段的名称，获取第五唯一码。

基于所述第三唯一码，从预先存储的唯一码和元数据对应的关系中获取与所述第三唯一码对应的所述目的表的元数据，基于所述目的表的元数据和所述目的表的字段的名称，获取所述目的表的字段的元数据，基于所述目的表的字段的元数据，从从预先存储的唯一码和元数据对应的关系中获取所述第五唯一码。

基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码和所述第三唯一码之间的关系，继而建立唯一码关系图，包括：

基于所述数据流向关系和所述字段关系，确定所述第一唯一码、所述第二唯一码、所述第三唯一码、所述第四唯一码和所述第五唯一码之间的关系，继而建立所述唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表、所述目的表、所述来源表的字段的名称以及所述目的表的字段的名称之间的所述血缘关系图。

可以理解的是，由于唯一码和所述目标数据库、所述来源表、所述目的表、所述来源表中的字段、所述目的表中的字段的名称是一一对应的关系，因此，基于所述唯一码关系图中的唯一码，从预先存储的元数据和唯一码的对应关系中获取与所述唯一码关系图中的唯一码对应的元数据之间的关系图，基于所述元数据关系图中的元数据以及元数据之间的关系，获取所述目标数据库、所述来源表、所述目的表、所述来源表的字段的名称以及所述目的表的字段的名称之间的所述血缘关系图。

由于不同表的字段可能相同，因此，通过给每一个数据库中的每一个表的不同字段分配不同的唯一码，继而能够保证字段的唯一性，并通过建立唯一码关系图，使得用户能够直观的、快速地获取数据与数据之间的关系。

作为一种实施方式，在S400之后，所述方法还包括：

获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码。

在用户需要查询目标数据时，用户可以通过电子设备100发送用于表征查询目标数据的指令至处理器130，其中，所述指令包括：目标数据的唯一码。

基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取所述唯一码关系图。

处理器130基于所述指令，获取所述目标数据的唯一码，处理器基于所述目标数据的唯一码，从预先存储在存储器110中的唯一码和唯一码关系图的对应关系中获取所述唯一码关系图。

基于所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。

处理器130基于所述唯一码关系图中的唯一码，从预先存储在存储器110中的唯一码和元数据的对应关系中获取与所述唯一码关系图对应的元数据关系图，继而能够基于所述元数据关系图中的元数据以及元数据之间的关系，获取与所述唯一码关系图对应的血缘关系图，处理器130将所述血缘关系图发送至显示单元170展示。

通过预先存储的唯一码和唯一码关系图的对应关系，使得用户能够快速的、直观的获取与所述唯一码关系图对应的血缘关系图。

第二实施例

请参照图4，图4为本发明第二实施例提供的一种数据关系获取方法的流程图，所述方法应用于如图1所示的电子设备100，下面将对图4所示的流程进行详细阐述，所述方法包括：

S500：获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码。

S600：基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取唯一码关系图。

S700：基于所述所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。

第三实施例

请参照图5，图5是本发明第三实施例提供的一种数据关系管理装置的结构框图。所述装置存储于如图1所述的电子设备100，下面将对图5所示的结构框图进行阐述，所示装置包括：

第一获取单元410，用于获取目标数据库和所述目标数据库的元数据。

第二获取单元420，用于获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系。

第三获取单元430，用于基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码。

关系图建立单元440，用于基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码以及所述第三唯一码之间的关系，继而建立唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表以及所述目的表之间的血缘关系图。

作为一种实施方式，第一获取单元410包括：目标文件获取单元，用于获取目标文件，其中，所述目标文件中包括与所述目标数据库对应的文件标识。

文件标识获取单元，用于获取所述目标文件的文件标识。

第一获取子单元，用于基于所述文件标识，从预先存储的标识与数据库的对应关系中，确定所述目标数据库的名称，并获取所述目标数据库的元数据。

作为一种实施方式，所述目标文件中包括所述来源表的信息和所述目的表的信息，所述第二获取单元，还用于基于所述目标文件和所述目标数据库，获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系。

作为一种实施方式，在所述目标数据库的数量为至少两个时，所述第二获取单元，还用于基于所述文件标识，从预先存储的标识与数据库的对应关系中，获取至少两个所述目标数据库之间的数据传输关系；以及基于至少两个所述目标数据库、所述数据传输关系以及所述目标文件，获取至少两个所述目标数据库中的所述来源表的表名、至少两个所述目标数据库中的所述目的表的表名以及至少两个所述目标数据库中的所述来源表和至少两个所述目标数据库中的所述目的表之间的数据流向关系。

作为一种实施方式，第三获取单元430，还用于基于所述目标数据库的元数据，获取所述第一唯一码；以及基于所述第一唯一码和所述来源表的表名，获取所述第二唯一码；以及基于所述第一唯一码和所述目的表的表名，获取所述第三唯一码。

作为一种实施方式，所述装置还包括：第四唯一码获取单元，用于基于所述第二唯一码和所述来源表的字段的名称，获取第四唯一码。

第五唯一码获取单元，用于基于所述第三唯一码和所述目的表的字段的名称，获取第五唯一码。

关系图建立单元440，还用于基于所述数据流向关系和所述字段关系，确定所述第一唯一码、所述第二唯一码、所述第三唯一码、所述第四唯一码和所述第五唯一码之间的关系，继而建立所述唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表、所述目的表、所述来源表的字段的名称以及所述目的表的字段的名称之间的所述血缘关系图。

作为一种实施方式，所述装置还包括：第四获取单元，用于获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码。

第五获取单元，用于基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取所述唯一码关系图。

第六获取单元，用于基于所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。

第四实施例

请参照图6，图6是本发明第四实施例提供的一种数据关系获取装置的结构框图。所述装置存储于如图1所述的电子设备100，下面将对图6所示的结构框图进行阐述，所示装置包括：

指令获取单元510，用于获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码。

唯一码关系图获取单元520，用于基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取唯一码关系图。

血缘关系图获取单元530，用于基于所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。

本实施例对数据关系管理、获取的各功能单元实现各自功能的过程，请参见上述图2和图3所示实施例中描述的内容，此处不再赘述。

此外，本发明实施例还提供了一种存储介质，在该存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行本发明第一实施例和第二实施例所提供的数据关系管理和获取方法。

综上所述，本发明各实施例提出的一种数据关系管理方法、装置、数据管理获取方法及存储介质，所述管理方法包括：获取目标数据库和所述目标数据库的元数据；获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系；基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码；基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码以及所述第三唯一码之间的关系，继而建立唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表以及所述目的表之间的血缘关系图。由于不同数据库中的表的名字可能相同，因此，针对不同的数据库分配不同的唯一码，每一个数据库中的每一个表分配不同的唯一码，其中，不同数据库中的表的唯一码也不同，继而建立唯一码关系图，其中，基于所述唯一码关系图能够获取与所述唯一码关系图中的唯一码一一对应的数据之间的血缘关系图，使得用户能够直观的、快速地获取数据与数据之间的关系。所述获取方法包括：获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码；基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取唯一码关系图；基于所述所述唯一码关系图，获取与所述唯一码关系图对应的血缘关系图。通过预先存储的唯一码和唯一码关系图的对应关系，使得用户能够快速的、直观的获取与所述唯一码关系图对应的血缘关系图。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

Claims

1.一种数据关系管理方法，其特征在于，所述方法包括：

获取目标数据库和所述目标数据库的元数据；

获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系；

基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码；

基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码以及所述第三唯一码之间的关系，继而建立唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表以及所述目的表之间的血缘关系图。

2.根据权利要求1所述的方法，其特征在于，获取目标数据库和所述目标数据库的元数据，包括：

获取目标文件，其中，所述目标文件中包括与所述目标数据库对应的文件标识；

获取所述目标文件的文件标识；

3.根据权利要求2所述的方法，其特征在于，所述目标文件中包括所述来源表的信息和所述目的表的信息，获取来源表的表名、目的表的表名以及所述来源表和所述目的表之间的数据流向关系，包括：

基于所述目标文件和所述目标数据库，获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系。

4.根据权利要求3所述的方法，其特征在于，在所述目标数据库的数量为至少两个时，基于所述目标文件和所述目标数据库，获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系，包括：

基于所述文件标识，从预先存储的标识与数据库的对应关系中，获取至少两个所述目标数据库之间的数据传输关系；

5.根据权利要求1所述的方法，其特征在于，基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码，包括：

基于所述目标数据库的元数据，获取所述第一唯一码；

基于所述第一唯一码和所述来源表的表名，获取所述第二唯一码；

6.根据权利要求3所述的方法，其特征在于，基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码和所述第三唯一码之间的关系，继而建立唯一码关系图之前，所述方法还包括：

基于所述目标数据库和所述目标文件，获取所述来源表的字段的名称、所述目的表的字段的名称以及所述来源表的字段和所述所述目的表的字段的字段关系；

基于所述第二唯一码和所述来源表的字段的名称，获取第四唯一码；

基于所述第三唯一码和所述目的表的字段的名称，获取第五唯一码；

7.根据权利要求1或6所述的方法，其特征在于，建立所述唯一码关系图之后，所述方法还包括：

获取一用于表征查询目标数据的指令，其中，所述指令包括：目标数据的唯一码；

基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取所述唯一码关系图；

8.一种数据关系获取方法，其特征在于，所述方法包括：

基于所述目标数据的唯一码，从预先存储的唯一码和唯一码关系图的对应关系中获取唯一码关系图；

9.一种数据关系管理装置，其特征在，所述装置包括：

第一获取单元，用于获取目标数据库和所述目标数据库的元数据；

第二获取单元，用于获取所述目标数据库中的来源表的表名、所述目标数据库中的目的表的表名以及所述来源表和所述目的表之间的数据流向关系；

第三获取单元，用于基于所述目标数据库的元数据、所述来源表的表名以及所述目的表的表名，获取所述目标数据库的第一唯一码、所述来源表的第二唯一码以及所述目的表的第三唯一码；

关系图建立单元，用于基于所述数据流向关系，确定所述第一唯一码、所述第二唯一码和所述第三唯一码之间的关系，继而建立唯一码关系图，其中，所述唯一码关系图用于表征所述目标数据库、所述来源表以及所述目的表之间的血缘关系图。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-8中任意一项所述的方法。