CN109800069A

CN109800069A - 一种实现数据治理的方法及装置

Info

Publication number: CN109800069A
Application number: CN201811592485.2A
Authority: CN
Inventors: 耿正熙; 张毅然
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Zhizhi Heshu Technology Co ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-05-24
Anticipated expiration: 2038-12-25
Also published as: CN109800069B

Abstract

本申请实施例公开了一种实现数据治理的方法及装置；上述实现数据治理的方法，包括：响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子；基于创建的算子，构建有向无环图；调度执行基于有向无环图生成的数据治理任务。本申请实施例提供的实现数据治理的方法及装置，可以降低数据治理的技术门槛，并提高数据治理效率。

Description

一种实现数据治理的方法及装置

技术领域

本申请涉及但不限于计算机技术领域，尤指一种实现数据治理的方法及装置。

背景技术

随着大数据技术和应用的发展，促使了传统行业(如公安、金融、工业)需要将海量的业务数据向大数据平台迁移，在这个过程中，对数据进行转换、清洗的过程，称为数据治理。然而，由于缺乏统一标准、原始数据不规范等诸多问题，导致数据治理困难重重。目前，数据治理需要由专业的技术人员来进行数据清洗、去重、映射等一系列的操作，效率不高且容易出错，不仅对技术人员的技术要求较高，而且对技术人员在业务层面的要求也非常高。

发明内容

本申请实施例提供一种实现数据治理的方法及装置，可以降低数据治理的技术门槛，并提高数据治理效率。

一方面，本申请实施例提供一种实现数据治理的方法，包括：响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子；基于创建的算子，构建有向无环图；调度执行基于有向无环图生成的数据治理任务。

另一方面，本申请实施例提供一种实现数据治理的装置，包括：算子创建模块，适于响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子；有向无环图构建模块，适于基于创建的算子，构建有向无环图；任务调度模块，适于调度执行基于所述有向无环图生成的数据治理任务。

另一方面，本申请实施例提供一种终端设备，包括：显示单元、输入单元、存储器和处理器；所述显示单元连接所述处理器，适于显示数据治理页面；所述输入单元连接所述处理器，适于检测所述数据治理页面上的操作；所述存储器适于存储实现数据治理的程序，所述程序被所述处理器执行时实现上述实现数据治理的方法的步骤。

另一方面，本申请实施例提供一种计算机可读介质，存储有实现数据治理的程序，所述程序被处理器执行时实现上述提供的实现数据治理的方法的步骤。

本申请实施例中，通过提供数据治理页面，并根据数据治理页面上接收到的添加命令，自动创建并生成数据治理任务，无需技术人员了解数据治理的内部逻辑，通过简单的页面操作可以完成数据治理的要求，从而极大地降低了数据治理的操作技术难度，提高了数据治理效率，而且降低了出错概率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的实现数据治理的方法的流程图；

图2为本申请实施例提供的实现数据治理的装置的示意图；

图3为本申请实施例提供的终端设备的示意图。

具体实施方式

下面将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例提供一种实现数据治理的方法及装置，通过提供数据治理页面，基于简单的页面操作即可实现数据治理过程，从而降低了数据治理过程中的技术门槛，提高了数据治理效率。

图1为本申请实施例提供的实现数据治理的方法的流程图。如图1所示，本实施例提供的实现数据治理的方法可以由实现数据治理的装置(比如，数据治理平台)执行。然而，本申请对此并不限定。

在一示例性实施例中，以数据治理平台为例，数据治理平台可以提供数据治理页面，用户可以在数据治理页面上配置待治理的原始数据所在的数据源以及业务所需的目标数据的信息；在完成数据治理需求的配置后，可以点击数据治理页面上提供的按钮(比如，全量添加按钮、增量添加按钮)，以便数据治理平台实现数据治理任务的自动化创建、添加和执行，最终完成对原始数据的治理，得到业务所需的目标数据。

如图1所示，本实施例提供的实现数据治理的方法包括以下步骤：

步骤101、响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子；

步骤102、基于创建的算子，构建有向无环图；

步骤103、调度执行基于有向无环图生成的数据治理任务。

其中，有向无环图(DAG，Directed Acyclic Graph)为任意一条边有方向，且不存在环路的图。本实施例中，DAG中的每个节点表示一个算子，每条边表示算子之间的依赖关系。其中，算子可以指对数据进行加工、转换的过程。

在一示例性实施例中，在步骤101之前，本实施例的方法还可以包括：响应于数据治理页面上接收到的配置信息，构建原始表和目标表；其中，原始表为用于存放来自数据源的原始数据的表，目标表为用于存放经数据治理后得到的目标数据的表。

其中，用户可以通过数据治理平台提供的数据治理页面，进行业务需求的配置。比如，配置原始数据以及所需得到的目标数据的信息。数据治理平台可以根据用户在数据治理页面上输入的配置信息，建立原始表和目标表。比如，数据治理平台可以根据数据源(即原始数据所在的数据库或文件)的配置信息，向数据源服务器发送数据接入请求，并将每个不同的数据源作为数据源实例记录在数据治理平台中；然后可以从数据源服务器同步每个数据源下面对应的若干库表信息，作为原始表的数据，其中可以包括表的中文名、英文名、字段列表、字段数据类型等信息。其中，一个数据源中可以存在若干张原始表。后续通过数据治理任务的执行可以基于原始表，将数据源的原始数据存储到本地的存储介质中记录的原始表内，作为后续得到目标数据的数据原始库。

其中，数据治理平台还可以根据用户配置的业务需求，在原始数据的基础上构建出需要得到的目标数据的模型，即业务所需的数据表(目标表)。一个原始表中可以抽取出多张目标表。比如，目标表中可以记录从原始表中抽取的实体、关系、事件。其中，实体可以指现实世界中的一类物理对象，可以是实际存在的，例如车、人；也可以是虚拟抽象的，例如案件、户口；关系可以指实体之间的各种关联，例如配偶关系、人车所属关系；事件指在特定时空维度刻画主体和客体间关系的一类对象，例如打电话事件、住宿事件。

在一示例性实施例中，用于数据治理的算子，可以包括以下四种类型：预处理算子、增量同步算子、增量计算算子以及融合算子；其中，预处理算子用于对来自数据源的原始数据进行预处理，增量同步算子用于将数据从数据源同步到原始表，增量计算算子用于将数据从原始表抽取到目标表，融合算子用于对映射到目标表的数据进行多值处理、去重及排序；原始表为用于存放来自数据源的原始数据的表，目标表为用于存放经数据治理后得到的目标数据的表。示例性地，每一类算子可以被实现为一组Spark任务。

在一示例性实施例中，数据治理可以看成是将原始数据处理成目标数据的过程。数据治理的整个流程可以按照顺序划分为以下四个阶段：预处理阶段、增量同步阶段、增量计算阶段以及融合阶段。其中，原始数据经过上述四个阶段的处理可以得到目标数据。比如，预处理阶段可以对原始数据进行初步的预处理，例如，数据量统计等；增量同步阶段可以将数据从数据源同步到数据治理平台本地的原始表；增量计算阶段可以将数据从原始表抽取到根据业务需求构建的目标表，其中可以对数据进行转化、清洗等处理；融合阶段可以将来自多个数据源的增量数据与历史数据按主键或联合主键进行多值处理、去重及排序。其中，数据治理平台可以预先定义每个阶段的数据处理逻辑，以及输入和输出的数据格式。基于此，在整个数据治理的原始数据确定的情况下，可以给每个阶段创建对应类型的算子，比如，可以给预处理阶段的一个实例创建一个预处理算子。

在一示例性实施例中，添加命令可以包括全量添加命令；步骤101可以包括：响应于全量添加命令，创建用于得到增量版本号为1的原始表的预处理算子和增量同步算子；根据增量版本号为1的原始表以及目标表，创建对应的增量计算算子和融合算子。

其中，增量版本可以用来表示进行治理的数据批次。当一个原始表有新数据进入后，会创建对应的一个增量版本，采用增量版本号进行标识。

本示例性实施例中，用户可以在数据治理页面下发全量添加命令，数据治理平台接收到全量添加命令后，可以给数据治理平台中未被治理过的原始表自动创建和添加数据治理任务。比如，原始表可以通过原始表标识(ID)来区分，数据治理平台可以记录未被治理过的原始表的原始表ID，然后，创建对应的预处理算子和增量同步算子，以便得到未被治理过的原始表的增量版本(增量版本号为1)。换言之，针对未被治理过的原始表，通过后续执行预处理算子和增量同步算子对应的数据治理任务，可以更新该原始表内的数据，且更新后该原始表的增量版本号可以为1。然而，本申请对此并不限定。在其他实施例中，数据治理平台可以根据用户之前的配置信息，记录构建的原始表的原始表ID，若任一原始表ID对应的增量版本号大于或等于1，则表明该原始表已经被治理过，若任一原始表ID对应的增量版本号为空，则表明该原始表还未被治理。基于此，数据治理平台可以根据原始表ID及对应的增量版本号，确定未被治理过的原始表，从而创建对应的预处理算子和增量同步算子。

其中，在创建预处理算子和增量同步算子之后，相应地，可以创建增量计算算子和融合算子。示例性地，若同一个原始表对应存在多个增量计算算子，为了提升数据治理效率，可以将多个增量计算算子合并为一个加速增量计算算子。然而，本申请对此并不限定。

在一示例性实施例中，添加命令可以包括增量添加命令；步骤101可以包括：响应于增量添加命令，基于已被治理过的增量版本号为N的原始表，创建用于得到增量版本号为N+1的原始表的预处理算子和增量同步算子；根据增量版本号为N+1的原始表以及目标表，创建对应的增量计算算子和融合算子；其中，N为大于或等于1的整数。

本示例性实施例中，用户可以在数据治理页面下发增量添加命令，数据治理平台接收到增量添加命令后，可以对数据治理平台中已经被治理过的原始表自动创建和添加数据治理任务。比如，数据治理平台中可以记录已被治理过的原始表的原始表ID，然后，在接收到增量添加命令后，可以创建对应的预处理算子和增量同步算子，以便得到已被治理过的原始表的增量版本(比如，将原始表的增量版本号加1)。其中，在预处理算子的处理逻辑中，可以判断原始表所依赖的数据源的增量版本号(其中，数据源的增量版本号可以与原始表的增量版本号一致)，以便判断是否有新数据进入该原始表，若增量版本号大于1则可以继续后续的处理，否则停止后续处理。在增量同步算子的处理逻辑中，可以从原始表(比如，增量版本号为N)依赖的数据源采集数据，记录数据源信息(比如，数据源ID)、原始表ID、是否采集完整、采集开始时间、采集结束时间、以及数据源的增量版本号等多个维度的信息，当数据采集完整，则可以确定得到增量版本号加1的原始表(即，增量版本号更新为N+1)，提供给后续处理；当数据未采集完整(比如，采集开始时间和采集结束时间不满足设定条件)，则停止后续处理。示例性地，数据治理平台还可以识别已被治理过的原始表是否为全量式增量表，若为全量式增量表，则创建预处理算子和增量同步算子，用于得到新的增量版本的全量式增量表。其中，全量式增量表可以指新进入的数据为历史数据的更新数据的原始表。

在一示例性实施例中，由于四个类型的算子分别对应四个阶段，因此，数据治理平台创建的算子可以采用以下方式进行标识：采用1表示预处理阶段，则对应的预处理算子标记为：1_原始表ID_增量版本号；采用2表示增量同步阶段，则对应的增量同步算子标记为：2_原始表ID_增量版本号；采用3表示增量计算阶段，则对应的增量计算算子标记为：3_原始表ID_目标表ID_表级映射ID_增量版本号；采用4表示融合阶段，则对应的融合算子标记为：4_目标表ID_融合版本号。

在一示例性实施例中，步骤102可以包括：基于创建的预处理算子、增量同步算子、增量计算算子以及融合算子之间的依赖关系，构建DAG，其中，DAG中的每个节点代表一个算子。

本示例性实施例中，数据治理平台的调度器可以将创建的各种类型的算子作为节点，构建出具有依赖关系的DAG。比如，可以首先获取所有处于预处理阶段和增量同步阶段的算子，由相同的原始表ID构建依赖关系；在增量计算阶段，可以通过表级映射ID确定原始表和目标表之间的映射关系，基于增量计算算子所依赖的原始表ID，确定与前两个阶段的算子之间的依赖关系；在融合阶段，可以根据融合算子对应的目标表ID，确定与增量计算阶段的算子之间的依赖关系，从而得到DAG。需要说明的是，在构建DAG的过程中，可以计算存在的重复算子，并将重复算子置为脏数据，重复算子不会放入DAG。

在一示例性实施例中，步骤103可以包括：给有向无环图中的每个算子生成对应的数据治理任务，将数据治理任务添加到任务队列，从任务队列调度执行数据治理任务。其中，任务队列是数据治理平台的调度器的重要组成部分，负责将数据治理任务按照正确的顺序执行。数据治理平台的调度器可以调度执行数据治理任务，从而根据业务流程进行数据的清洗、去重、映射等操作，最终完成数据清洗工作。

本申请实施例可以根据配置的业务需求，独特定制数据治理过程，生成业务所需的目标数据。在数据治理的过程中，不需要业务人员了解数据治理的内部逻辑，通过页面操作即可触发数据治理平台自动生成治理逻辑，不需要业务人员每次都进行数据添加操作，也不需要在数据库中写大量的SQL(Structured Query Language，结构化查询语言)查找需要的表。而且，本实施例通过提供数据治理页面，可以形成统一的数据接口，便于直接调用数据且易于查询管理数据，而且可以精确定制各种数据治理的要求，配置成为有效的规则，在治理的过程中仅需要在前端页面进行简单的数据项配置即可完成数据治理的要求，从而极大地降低技术门槛，提高了数据治理效率。

图2为本申请实施例提供的实现数据治理的装置的示意图。如图2所示，本实施例提供的实现数据治理的装置包括：算子创建模块201、DAG构建模块202以及任务调度模块203；其中，算子创建模块201，适于响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子；DAG构建模块202，适于基于创建的算子，构建DAG；任务调度模块203，适于调度执行基于DAG生成的数据治理任务。

在一示例性实施例中，用于数据治理的算子可以包括以下四种类型：预处理算子、增量同步算子、增量计算算子以及融合算子；其中，预处理算子用于对来自数据源的原始数据进行预处理，增量同步算子用于将数据从数据源同步到原始表，增量计算算子用于将数据从原始表抽取到目标表，融合算子用于对映射到目标表的数据进行多值处理、去重及排序；原始表为用于存放来自数据源的原始数据的表，目标表为用于存放经数据治理后得到的目标数据的表。

关于本实施例提供的实现数据治理的装置的相关说明可以参照上述方法实施例的描述，故于此不再赘述。

图3为本申请实施例提供的终端设备的示意图。如图3所示，本实施例提供的终端设备(比如，智能手机、平板电脑等移动终端，或者台式电脑等固定终端)，包括：处理器301、存储器302、显示单元303以及输入单元304；其中，显示单元303连接处理器301，适于显示数据治理页面；输入单元304连接处理器301，适于检测数据治理页面上的操作；存储器302适于存储实现数据治理的程序，该程序被处理器301执行时实现上述实施例提供实现数据治理的方法的步骤，比如图1所示的步骤。

需要说明的是，图3中所示的终端设备的结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者提供不同的部件布置。

其中，处理器301可以包括但不限于微处理器(MCU，Microcontroller Unit)或可编程逻辑器件(FPGA，Field Programmable Gate Array)等的处理装置。存储器302可用于存储应用软件的软件程序以及模块，如本实施例中的实现数据治理的方法对应的程序指令或模块，处理器301通过运行存储在存储器302内的软件程序以及模块，从而执行各种功能应用以及数据处理，比如实现本实施例提供的方法。存储器302可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些示例中，存储器302可包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

其中，输入单元304可以适于接收输入的信息。示例性地，输入单元304可以包括触控面板(或称为触摸屏)以及其他输入设备(比如，鼠标、键盘、操作杆等)。显示单元303可以适于显示用户输入的信息或提供给用户的信息。显示单元303可以包括显示面板，比如，液晶显示器、有机发光二极管等。示例性地，触控面板可以覆盖在显示面板上，当触控面板检测到在其上或附近的触摸操作后，传输给处理器301以确定触摸事件的类型，随后处理器301根据触摸事件的类型在显示面板上提供相应的视觉输出。示例性地，触控面板和显示面板可以作为两个独立的部件来实现终端设备的输入和输出功能，或者，触控面板和显示面板可以集成在一起来实现输入和输出功能。

此外，本申请实施例还提供一种计算机可读介质，存储有实现数据治理的程序，该程序被处理器执行时实现上述方法的步骤，比如图1所示的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种实现数据治理的方法，其特征在于，包括：

响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子；

基于创建的算子，构建有向无环图；

调度执行基于所述有向无环图生成的数据治理任务。

2.根据权利要求1所述的方法，其特征在于，所述用于数据治理的算子，包括以下四种类型：预处理算子、增量同步算子、增量计算算子以及融合算子；其中，所述预处理算子用于对来自数据源的原始数据进行预处理，所述增量同步算子用于将数据从数据源同步到原始表，所述增量计算算子用于将数据从原始表抽取到目标表，所述融合算子用于对映射到目标表的数据进行多值处理、去重及排序；

所述原始表为用于存放来自数据源的原始数据的表，所述目标表为用于存放经数据治理后得到的目标数据的表。

3.根据权利要求2所述的方法，其特征在于，所述添加命令包括全量添加命令；

所述响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子，包括：

响应于所述全量添加命令，创建用于得到增量版本号为1的原始表的预处理算子和增量同步算子；并根据所述增量版本号为1的原始表以及目标表，创建对应的增量计算算子和融合算子。

4.根据权利要求2所述的方法，其特征在于，所述添加命令包括增量添加命令；

响应于所述增量添加命令，基于已被治理过的增量版本号为N的原始表，创建用于得到增量版本号为N+1的原始表的预处理算子和增量同步算子；其中，N为大于或等于1的整数；

根据所述增量版本号为N+1的原始表以及目标表，创建对应的增量计算算子和融合算子。

5.根据权利要求2所述的方法，其特征在于，所述基于创建的算子，构建有向无环图，包括：

基于创建的预处理算子、增量同步算子、增量计算算子以及融合算子之间的依赖关系，构建有向无环图，其中，所述有向无环图中的每个节点代表一个算子。

6.根据权利要求1所述的方法，其特征在于，所述调度执行基于所述有向无环图生成的数据治理任务，包括：

给所述有向无环图中的每个算子生成对应的数据治理任务，将所述数据治理任务添加到任务队列，从所述任务队列调度执行所述数据治理任务。

7.根据权利要求1所述的方法，其特征在于，所述响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子之前，所述方法还包括：

响应于所述数据治理页面上接收到的配置信息，构建原始表和目标表；其中，所述原始表为用于存放来自数据源的原始数据的表，所述目标表为用于存放经数据治理后得到的目标数据的表。

8.一种实现数据治理的装置，其特征在于，包括：

算子创建模块，适于响应于数据治理页面上接收到的添加命令，给待治理的原始数据创建用于数据治理的算子；

有向无环图构建模块，适于基于创建的算子，构建有向无环图；

任务调度模块，适于调度执行基于所述有向无环图生成的数据治理任务。

9.一种终端设备，其特征在于，包括：显示单元、输入单元、存储器和处理器；所述显示单元连接所述处理器，适于显示数据治理页面；所述输入单元连接所述处理器，适于检测所述数据治理页面上的操作；所述存储器适于存储实现数据治理的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的实现数据治理的方法的步骤。

10.一种计算机可读介质，其特征在于，存储有实现数据治理的程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的实现数据治理的方法的步骤。