CN114691658A

CN114691658A - 一种数据回溯方法、装置、电子设备及存储介质

Info

Publication number: CN114691658A
Application number: CN202210299742.3A
Authority: CN
Inventors: 叶玮彬; 崔金涛; 刘涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-01

Abstract

本公开提供了一种数据回溯方法、装置、电子设备及存储介质，涉及数据处理技术领域。具体实现方案为：基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系，其中，目标拓扑关系用于确定多个待计算的任务实例；按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境；调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果，完成数据的回溯，由此达到了通过回溯数据所需计算的任务实例间的拓扑关系，动态地调整每个任务实例对应的计算环境从而完成数据回溯的目的，实现了提高数据回溯计算效率、减小数据回溯计算资源开销的技术效果。

Description

一种数据回溯方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术领域，进一步涉及大数据领域，具体涉及一种数据回溯方法、装置、电子设备及存储介质。

背景技术

在当今大数据时代，随着企业大数据爆炸式增长，可能会引起数据时效、数据安全、数据质量等实际问题。在治理数据质量阶段，由于大数据的生产链路和系统关系比较复杂，当大数据中的一份数据发生异常时，这份异常的数据会影响它所关联的上下游数据以及系统，由此引起数据质量变差。数据质量是企业组织的首要战略重点之一，因此需要对数据质量进行优化处理。

相关技术中，通常使用单数据源跨时间区间批量数据回溯的方法或者多数据源无差别并行数据回溯的方法对数据质量进行处理。但是，使用单数据源跨时间区间进行批量数据回溯时的计算效率较低，使用多数据源无差别并行进行数据回溯时则需要耗费大量的计算资源。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开提供了一种数据回溯方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种数据回溯方法，包括：基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系，其中，待回溯数据包括：多个数据对象，多个数据对象中的每个数据对象包括：多个数据单元，第一依赖关系用于描述不同数据对象的数据单元之间的依赖关系，第二依赖关系用于描述不同数据对象之间的基准时间依赖关系，目标拓扑关系用于确定多个待计算的任务实例；按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境；调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果，其中，计算结果用于调节数据回溯过程的处理进度。

根据本公开的又一方面，提供了一种数据回溯装置，包括：分析模块，用于基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系，其中，待回溯数据包括：多个数据对象，多个数据对象中的每个数据对象包括：多个数据单元，第一依赖关系用于描述不同数据对象的数据单元之间的依赖关系，第二依赖关系用于描述不同数据对象之间的基准时间依赖关系，目标拓扑关系用于确定多个待计算的任务实例；协同模块，用于按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境；计算模块，用于调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果，其中，计算结果用于调节数据回溯过程的处理进度。

根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提出的数据回溯方法。

根据本公开的又一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提出的数据回溯方法。

根据本公开的又一方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开提出的数据回溯方法。

本公开的实施例中，通过待回溯数据的字段级血缘信息和基准时间依赖关系模型得到待回溯数据所需计算的任务实例及任务实例间的拓扑关系，然后按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境，最后调用计算环境对应的计算引擎进行任务计算，得到计算结果，由此达到了动态地调整每个任务实例对应待回溯数据的计算环境进行计算以从而完成数据回溯的目的，实现了提高数据回溯计算效率、减小数据回溯计算资源开销的技术效果，从而解决了相关技术中数据回溯方法的计算效率低、计算资源开销大的技术问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种用于实现数据回溯方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本公开实施例的一种数据回溯方法的流程图；

图3是根据本公开实施例的一种可选的实例拓扑视图构建的流程图；

图4是根据本公开实施例的一种可选的字段层级的不同数据表间拓扑关系的结构图；

图5是根据本公开实施例的一种可选的推算全链路待回溯字段顶点数据应回溯的时间分区的示意图；

图6是根据本公开实施例的一种可选的任务实例拓扑视图的示意图；

图7是根据本公开实施例的一种数据回溯装置的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，可以使用单数据源跨时间区间批量数据回溯的方法来对数据质量进行处理，通过对单数据源本身做优化处理，然后依次确认受该单数据源影响的下游数据源，批量处理跨数据区间的其它数据以提高数据质量。但是，使用单数据源跨时间区间批量数据回溯方法的计算效率较低。在企业的数据链路有5～10层甚至更多的拓扑深度时无法满足对全链路数据完整修复的处理需求。对此，相关技术中还提供了一种多数据源无差别并行数据回溯的方法，通过同时关注相关联系统中的多个数据源，并采取无差别并行回溯以加快数据链路的整体数据回溯，从而完成对数据的回溯。这种方法虽然提高了数据处理的效率，但由于无法精确识别受影响的数据范围，存在计算资源开销大的技术问题。

根据本公开实施例，提供了一种数据回溯方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现数据回溯方法的计算机终端(或移动设备)的硬件结构框图。

如图1所示，计算机终端100包括计算单元101，其可以根据存储在只读存储器(ROM)102中的计算机程序或者从存储单元108加载到随机访问存储器(RAM)103中的计算机程序，来执行各种适当的动作和处理。在RAM 103中，还可存储计算机终端100操作所需的各种程序和数据。计算单元101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

计算机终端100中的多个部件连接至I/O接口105，包括：输入单元106，例如键盘、鼠标等；输出单元107，例如各种类型的显示器、扬声器等；存储单元108，例如磁盘、光盘等；以及通信单元109，例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的数据回溯方法。例如，在一些实施例中，数据回溯方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到RAM 103并由计算单元101执行时，可以执行本文描述的数据回溯方法的一个或多个步骤。备选地，在其他实施例中，计算单元101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据回溯方法。

本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

此处需要说明的是，在一些可选实施例中，上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。

在上述运行环境下，本公开提供了如图2所示的数据回溯方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种数据回溯方法流程图。如图2所示，该方法可以包括如下步骤：

步骤S21，基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系，其中，待回溯数据包括：多个数据对象，多个数据对象中的每个数据对象包括：多个数据单元，第一依赖关系用于描述不同数据对象的数据单元之间的依赖关系，第二依赖关系用于描述不同数据对象之间的基准时间依赖关系，目标拓扑关系用于确定多个待计算的任务实例；

上述回溯数据可以是需要按优选条件向前搜索以达到目标的数据。上述数据对象可以是由软件理解的复合信息表示，包括外部实体、事物、角色、组织单位等。上述数据单元可以是网络信息传输的基本单位。上述拓扑关系可以是满足拓扑几何学原理的各空间数据间的相互关系。

步骤S22，按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境；

上述并发度可以是在一个时间点上可能与服务器进行交互的用户数量。上述计算环境可以是建立在开放的网络基础设施上，通过对分布自治资源的集成和综合利用，为终端用户或应用系统提供和谐、安全、透明的一体化服务的环境。

例如，利用一个关系型数据管理系统的锁机制为待计算数据协调不同的计算引擎，具体地，在一个关系型数据管理系统中，该关系型数据管理系统的锁机制可以按照并发度的高低为待计算数据协调不同的计算引擎，比如，并发度比较低时，可以使用第一存储引擎，使用该引擎在计算过程中不会发生死锁，其中，死锁可以是两个或两个以上的进程在执行过程中，由于竞争资源或者彼此通信而造成的一种阻塞的现象。

步骤S23，调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果，其中，计算结果用于调节数据回溯过程的处理进度。

上述计算引擎可以是专门处理数据的计算机程序。

根据本公开上述步骤S21至步骤S23，通过待回溯数据的字段级血缘信息和基准时间依赖关系模型推算出所有待回溯字段顶点数据应回溯的时间分区，进而得到回溯数据所需计算的任务实例及任务实例间的拓扑关系，然后按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境，最后调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果，由此达到了通过回溯数据所需计算的任务实例间的拓扑关系，动态地调整每个任务实例对应的计算环境从而完成数据回溯的目的，实现了提高数据回溯计算效率、减小数据回溯计算资源开销的技术效果，从而解决了相关技术中数据回溯方法的计算效率低、计算资源开销大的技术问题。

在一个可选实施方式中，通过以不同数据对象的数据单元的元信息构建顶点，以不同数据对象的数据单元之间的依赖关系构建边，得到第一依赖关系，然后利用不同数据对象之间的基准时间偏移量和依赖时间的步长跨度，得到第二依赖关系，由此利用第一依赖关系和第二依赖关系生成目标拓扑关系。上述元信息用于描述信息的结构、语义、用途和用法等。

例如，某信贷系统处理不同用户的逾期信息，为了查看不同用户在不同时间点的逾期信息，该信贷系统的数据回溯机制可以是基于血缘关系的全链路字段级数据回溯机制。首先通过数据血缘模型生成初始血缘，然后通过数据表的基准时间依赖模型推算出全链路所有待回溯字段顶点数据应回溯的时间分区，其次分析模块以所有待回溯字段顶点出发进行遍历，将所有待回溯字段的顶点所涉及边的出度进行标记，同时对字段指向的数据表进行标记，最后根据基准时间的数量，将出度转化为同等数量的顶点，再根据数据表和任务的关联关系，由此生成目标拓扑关系。另外，基于血缘关系的全链路字段级数据回溯机制由分析模块、协调模块、执行模块三部分配合完成，其中，分析模块运行的基础是数据血缘模型。

下面对上述实施例的数据回溯方法进行进一步介绍。

作为一种可选的实施方式，在步骤S21中，基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系可以包括以下方法步骤：

S211、对待回溯数据中与第一依赖关系关联的每个数据单元进行遍历，得到第一遍历结果；

S212、基于第一遍历结果对遍历的数据单元所涉及边的出度进行标记，以及对遍历的数据单元所指向的数据对象进行标记，得到标记结果；

S213、利用第二依赖关系确定基准时间的数量；

S214、通过基准时间的数量和标记结果，将出度转化为同等数据的顶点，得到转化结果；

S215、依据转化结果与预设关联关系生成目标拓扑关系，其中，预设关联关系用于描述所述多个数据对象与多个任务实例之间的关联关系。

上述遍历可以是沿着某条搜索路线，依次对树(或图)中的每个节点均做一次访问，其中，访问节点所做的操作依赖于具体的应用问题，具体的访问操作可以是检查节点的值、更新节点的值等。上述出度可以是有向图中顶点的出边条数。上述基准时间可以是根据项目需求自定义的一个时间点。

图3是根据本公开实施例的一种可选的实例拓扑视图构建的流程图，如图3所示，首先通过数据血缘模型生成初始血缘，然后通过数据表的基准时间依赖模型推算出全链路所有待回溯字段顶点数据应回溯的时间分区，其次分析模块以所有待回溯字段顶点出发进行遍历，将所有待回溯字段的顶点所涉及边的出度进行标记，同时对字段指向的数据表进行标记，最后根据基准时间的数量，将出度转化为同等数量的顶点，再根据数据表和任务的关联关系，由此可以构建出实例拓扑视图。

上述数据血缘模型可以是用于描述数据依赖关系的一系列元信息集合。在数据血缘模型中，可以包括表层级和字段层级。表层级可以是以有向无环图的结构描述数据表上下游之间的依赖关系的一种层级，其中，有向无环图的每个顶点可以表示具体的表，有向无环图的每条边可以描述数据表的依赖关系。字段层级可以是比表层级更细化的一种层级，其中，有向无环图的顶点可以描述字段元信息，有向无环图的边可以描述字段元信息和字段依赖关系，同时字段的顶点信息中含有关联表信息的指针，能够追溯到与数据表的关联关系。上述基准时间依赖模型可以通过二元组{offset,step}来表达，其中，offset表示基准时间偏移量，step表示依赖时间的步长跨度，例如，B rely A{0,1}表示B依赖A当天时间分区的数据，B rely A{-2,2}表示B依赖A过去2天的时间分区的全部数据。

图4是根据本公开实施例的一种可选的字段层级的不同数据表间拓扑关系的结构图，如图4所示，数据表A可以用表A来表示。表A可以包括字段A1、字段A2、字段A3和字段A4，表B可以包括字段B1、字段B2和字段B3，且字段A1既可以与字段B1有关联，也可以与字段C1有关联。另外，表B依赖表A过去1天的时间分区的数据。

图5是根据本公开实施例的一种可选的推算全链路待回溯字段顶点数据应回溯的时间分区的示意图，具体地，在上述通过数据表的基准时间依赖模型推算出全链路所有待回溯字段顶点数据应回溯的时间分区的过程中，首先从起始顶点(即待回溯的原始数据)开始进行图遍历，然后根据起始顶点携带的基准时间入参信息，其中，基准时间入参信息可以是相关业务系统自定义设置的时间点，最后在遍历过程中依次推算出全链路待回溯字段顶点数据应回溯的时间分区。例如，表D应回溯基准时间入参信息为20220102的分区数据，并且表E依赖于表D过去2天的时间分区的全部数据，则可推算出表E应回溯基准时间为20220103和基准时间为20220104的分区数据。

需要注意的是，在上述遍历完成后，分析模块可以过滤掉与回溯字段无间接关联的表。对于受影响的表，可以根据基准时间的数量，将出度转化为同等数量的顶点，再根据数据表和任务实例的关联关系，由此可以构建出任务实例拓扑视图。

图6是根据本公开实施例的一种可选的任务实例拓扑视图的示意图，如图6所示，表A、表B、表C、表D、表E为受影响的表，因此在遍历完成后，可以根据基准时间的数量，将出度转化为同等数量的顶点，再分别根据表A、表B、表C、表D、表E和任务实例的关联关系，从而构建出任务实例拓扑视图。可选地，由于表F与回溯字段无间接关联，因此在遍历完成后，分析模块可以过滤掉表F。

作为一种可选的实施方式，在步骤S22中，按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境可以包括以下方法步骤：

S221、对目标拓扑关系进行遍历，得到第二遍历结果；

S222、依据第二遍历结果填充执行队列所包含的元素信息，得到填充结果，其中，执行队列用于对目标拓扑关系进行时序控制；

S223、按照预设并发度和填充结果为多个待计算的任务实例中的每个任务实例协调对应的计算环境。

上述元素信息可以是待回溯的数据表名、分片信息、计算任务名、基准时间、所需申请的资源量等。

仍然以某信贷系统处理不同用户的逾期信息为例，该信贷系统数据回溯机制中的协调模块可以首先通过调用分析模块提供的设计模式对任务实例拓扑关系进行广度优先遍历，将遍历的顶点信息加入到执行队列直至全部遍历完成，得到填充结果，然后协调模块按照预设并发度，依次将执行队列的元素进行消费，最后协调模块调用执行模块，开辟与并发度相同的计算节点，同时协调模块将与执行模块建立连接，当检测到执行模块的计算节点闲置时，将该计算节点从执行队列中移出，并提交到闲置的计算节点中，由此，完成对每个任务实例计算环境的协调，以减小数据回溯对于计算资源的开销。

作为一种可选的实施方式，在步骤S22中，按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境还可以包括：

配置容错模式，其中，容错模式用于在对多个待计算的任务实例进行任务计算过程中，响应于部分任务实例出现计算异常，确定针对计算异常的容错处理方式。

上述配置容错模式可以是快速失效模式、失效自动恢复模式和失效安全模式三种模式中其一。快速失效模式可以是要求全链路的回溯必须全部成功的模式，如果遇到单个任务异常，终止本次全链路回溯，将回溯结果置为失败，同时将该任务回溯过程中产生的具有副作用的中间数据删除，并将该任务恢复到未执行的状态。失效自动恢复模式可以是考虑链路中的个别任务因运行时环境异常导致局部失败的模式，如果遇到单个任务异常，优先将队列中的其他非强依赖节点提交到执行模块，待其他节点完成时，再提交该失败节点。失效安全模式可以是希望链路中有更多的数据被回溯恢复的模式，该模式将忽略失败的任务节点及其下游，优先保障运行成功的任务。

作为一种可选的实施方式，在步骤S23中，调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果可以包括以下方法步骤：

S231、获取目标参数信息，其中，目标参数信息包括：预设并发度、容错模式；

S232、基于目标参数信息，调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果。

上述计算引擎可以是Spark计算引擎、Flink计算引擎、MapReduce计算引擎等，其中，执行模块可以根据提交的目标参数信息来决定采用哪种计算引擎。

仍然以某信贷系统处理不同用户的逾期信息为例，该信贷系统数据回溯机制中的执行模块在接收到协调模块的请求命令时，首先启动相应的计算节点，然后根据提交的目标参数信息，将任务实例分发到相应的计算环境进行任务计算，得到计算结果，由此动态地调整每个任务实例对应的计算环境以提高计算结果的准确性。

作为一种可选的实施方式，在步骤S23中，调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果还可以包括以下方法步骤：

S233、检测计算环境对应的任务实例的任务状态是否正常，以及计算结果是否符合预设条件；

S234、响应于计算环境对应的任务实例的任务状态正常并且计算结果符合预设条件，回传计算结果。

上述预设条件可以是由对接第三方的质量检测系统设定的条件。上述计算结果可以是任务实例产出的路径、执行状态等，其中执行状态既可以是成功，也可以是失败。

仍然以某信贷系统处理不同用户的逾期信息为例，该信贷系统数据回溯机制中的执行模块在计算引擎完成结果计算之后，可以首先确认任务状态是否正常，然后校验结果路径的数据是否符合预期条件，当运行结果符合预期条件时，在数据存储系统进行标识，其中，标识通常是一个约定的标识，最后将任务实例产出的路径、执行状态等回传给协调模块，由此完成计算结果的回传。

作为一种可选的实施方式，在步骤S232中，基于目标参数信息，调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果还可以包括：

在对多个待计算的任务实例进行任务计算过程中，响应于部分任务实例出现计算异常，上报异常信息，其中，异常信息用于确定是否触发容错模式。

仍然以某信贷系统处理不同用户的逾期信息为例，该信贷系统数据回溯机制中的执行模块在对多个待计算的任务实例进行任务计算过程中，当部分任务实例出现计算异常时，数据回溯机制中的协调模块将判断是否触发相应的容错模式，由此提高数据回溯方法的计算效率。

需要注意的是，造成计算异常的原因可以是计算资源阻塞导致任务长时间夯住、存储集群负载过高等，其中夯住可以是用于计算任务的计算程序程序卡死。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

在本公开中还提供了一种数据回溯装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本公开其中一实施例的一种数据回溯装置的结构框图，如图7所示，数据回溯装置700包括：分析模块701、协同模块702、计算模块703。

分析模块701，用于基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系，其中，待回溯数据包括：多个数据对象，多个数据对象中的每个数据对象包括：多个数据单元，第一依赖关系用于描述不同数据对象的数据单元之间的依赖关系，第二依赖关系用于描述不同数据对象之间的基准时间依赖关系，目标拓扑关系用于确定多个待计算的任务实例；协同模块702，用于按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境；计算模块703，用于调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果，其中，计算结果用于调节数据回溯过程的处理进度。

可选地，分析模块701，还用于：以不同数据对象的数据单元的元信息构建顶点，以不同数据对象的数据单元之间的依赖关系构建边，得到第一依赖关系。

可选地，分析模块701，还用于：利用不同数据对象之间的基准时间偏移量和依赖时间的步长跨度，得到第二依赖关系。

可选地，分析模块701，还用于：对待回溯数据中与第一依赖关系关联的每个数据单元进行遍历，得到第一遍历结果，基于第一遍历结果对遍历的数据单元所涉及边的出度进行标记，以及对遍历的数据单元所指向的数据对象进行标记，得到标记结果，利用第二依赖关系确定基准时间的数量，通过基准时间的数量和标记结果，将出度转化为同等数据的顶点，得到转化结果，从而依据转化结果与预设关联关系生成目标拓扑关系。

可选地，协同模块701，还用于：对目标拓扑关系进行遍历，得到第二遍历结果，依据第二遍历结果填充执行队列所包含的元素信息，得到填充结果，从而按照预设并发度和填充结果为多个待计算的任务实例中的每个任务实例协调对应的计算环境。

可选地，协同模块701，还用于：配置容错模式，其中，容错模式用于在对多个待计算的任务实例进行任务计算过程中，响应于部分任务实例出现计算异常，确定针对计算异常的容错处理方式。

可选地，计算模块701，还用于：获取目标参数信息，其中，目标参数信息包括：预设并发度、容错模式；基于目标参数信息，调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果。

可选地，计算模块701，还用于：检测计算环境对应的任务实例的任务状态是否正常，以及计算结果是否符合预设条件，当计算环境对应的任务实例的任务状态正常并且计算结果符合预设条件时，回传计算结果。

可选地，计算模块701，还用于：在对多个待计算的任务实例进行任务计算过程中，当部分任务实例出现计算异常时，上报异常信息，其中，异常信息用于确定是否触发容错模式。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本公开中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系，其中，待回溯数据包括：多个数据对象，多个数据对象中的每个数据对象包括：多个数据单元，第一依赖关系用于描述不同数据对象的数据单元之间的依赖关系，第二依赖关系用于描述不同数据对象之间的基准时间依赖关系，目标拓扑关系用于确定多个待计算的任务实例；

步骤S2，按照预设并发度为多个待计算的任务实例中的每个任务实例协调对应的计算环境；

步骤S3，调用计算环境对应的计算引擎对计算环境对应的任务实例进行任务计算，得到计算结果，其中，计算结果用于调节数据回溯过程的处理进度。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述方法实施例中的步骤。

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的数据回溯方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

Claims

1.一种数据回溯方法，包括：

基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系，其中，所述待回溯数据包括：多个数据对象，所述多个数据对象中的每个数据对象包括：多个数据单元，所述第一依赖关系用于描述不同数据对象的数据单元之间的依赖关系，所述第二依赖关系用于描述不同数据对象之间的基准时间依赖关系，所述目标拓扑关系用于确定多个待计算的任务实例；

按照预设并发度为所述多个待计算的任务实例中的每个任务实例协调对应的计算环境；

调用所述计算环境对应的计算引擎对所述计算环境对应的任务实例进行任务计算，得到计算结果，其中，所述计算结果用于调节数据回溯过程的处理进度。

2.根据权利要求1所述的数据回溯方法，其中，所述数据回溯方法还包括：

以不同数据对象的数据单元的元信息构建顶点，以不同数据对象的数据单元之间的依赖关系构建边，得到所述第一依赖关系。

3.根据权利要求1所述的数据回溯方法，其中，所述数据回溯方法还包括：

利用不同数据对象之间的基准时间偏移量和依赖时间的步长跨度，得到所述第二依赖关系。

4.根据权利要求1所述的数据回溯方法，其中，基于所述待回溯数据的所述第一依赖关系和所述第二依赖关系，生成所述目标拓扑关系包括：

对所述待回溯数据中与所述第一依赖关系关联的每个数据单元进行遍历，得到第一遍历结果；

基于所述第一遍历结果对遍历的数据单元所涉及边的出度进行标记，以及对遍历的数据单元所指向的数据对象进行标记，得到标记结果；

利用所述第二依赖关系确定基准时间的数量；

通过所述基准时间的数量和所述标记结果，将所述出度转化为同等数据的顶点，得到转化结果；

依据所述转化结果与预设关联关系生成所述目标拓扑关系，其中，所述预设关联关系用于描述所述多个数据对象与多个任务实例之间的关联关系。

5.根据权利要求1所述的数据回溯方法，其中，按照所述预设并发度为所述多个待计算的任务实例中的每个任务实例协调对应的计算环境包括：

对所述目标拓扑关系进行遍历，得到第二遍历结果；

依据所述第二遍历结果填充执行队列所包含的元素信息，得到填充结果，其中，所述执行队列用于对所述目标拓扑关系进行时序控制；

按照所述预设并发度和所述填充结果为所述多个待计算的任务实例中的每个任务实例协调对应的计算环境。

6.根据权利要求5所述的数据回溯方法，其中，所述数据回溯方法还包括：

配置容错模式，其中，所述容错模式用于在对所述多个待计算的任务实例进行任务计算过程中，响应于部分任务实例出现计算异常，确定针对计算异常的容错处理方式。

7.根据权利要求6所述的数据回溯方法，其中，调用所述计算环境对应的计算引擎对所述计算环境对应的任务实例进行任务计算，得到所述计算结果包括：

获取目标参数信息，其中，所述目标参数信息包括：所述预设并发度、所述容错模式；

基于所述目标参数信息，调用所述计算环境对应的计算引擎对所述计算环境对应的任务实例进行任务计算，得到所述计算结果。

8.根据权利要求7所述的数据回溯方法，其中，所述数据回溯方法还包括：

检测所述计算环境对应的任务实例的任务状态是否正常，以及所述计算结果是否符合预设条件；

响应于所述计算环境对应的任务实例的任务状态正常并且所述计算结果符合所述预设条件，回传所述计算结果。

9.根据权利要求7所述的数据回溯方法，其中，所述数据回溯方法还包括：

在对所述多个待计算的任务实例进行任务计算过程中，响应于部分任务实例出现计算异常，上报异常信息，其中，所述异常信息用于确定是否触发所述容错模式。

10.一种数据回溯装置，包括：

分析模块，用于基于待回溯数据的第一依赖关系和第二依赖关系，生成目标拓扑关系，其中，所述待回溯数据包括：多个数据对象，所述多个数据对象中的每个数据对象包括：多个数据单元，所述第一依赖关系用于描述不同数据对象的数据单元之间的依赖关系，所述第二依赖关系用于描述不同数据对象之间的基准时间依赖关系，所述目标拓扑关系用于确定多个待计算的任务实例；

协同模块，用于按照预设并发度为所述多个待计算的任务实例中的每个任务实例协调对应的计算环境；

计算模块，用于调用所述计算环境对应的计算引擎对所述计算环境对应的任务实例进行任务计算，得到计算结果，其中，所述计算结果用于调节数据回溯过程的处理进度。

11.根据权利要求10所述的装置，其中，所述分析模块还用于：

12.根据权利要求10所述的装置，其中，所述分析模块还用于：

13.根据权利要求10所述的装置，其中，所述分析模块还用于：

利用所述第二依赖关系确定基准时间的数量；

14.根据权利要求10所述的装置，其中，所述协同模块还用于：

对所述目标拓扑关系进行遍历，得到第二遍历结果；

15.根据权利要求14所述的装置，其中，所述协同模块还用于：

16.根据权利要求15所述的装置，其中，所述计算模块还用于：

17.根据权利要求16所述的装置，其中，所述计算模块还用于：

18.根据权利要求16所述的装置，其中，所述计算模块还用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的数据回溯方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的数据回溯方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的数据回溯方法。