CN116595232A

CN116595232A - 跨数据源的数据处理系统、方法及装置

Info

Publication number: CN116595232A
Application number: CN202310596133.9A
Authority: CN
Inventors: 叶家俊; 陈超超; 郑小林
Original assignee: Hangzhou Jinzhita Technology Co ltd
Current assignee: Hangzhou Jinzhita Technology Co ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-15

Abstract

本说明书提供跨数据源的数据处理系统、方法及装置，其中所述跨数据源的数据处理系统包括发起方和多个参与方；所述发起方，用于根据本地元数据信息生成目标语句，并在所述目标语句中提取参与方标识和数据标识，其中，所述本地元数据信息包含各个参与方发布的元数据信息；在所述多个参与方中确定所述参与方标识对应的目标参与方，以及根据所述数据标识和所述目标语句确定所述目标参与方对应的数据处理计划；将所述数据处理计划发送至所述目标参与方；所述目标参与方，用于将所述数据处理计划发送至本地管理节点，并通过所述本地管理节点调用计算节点执行所述数据处理计划；根据执行结果确定所述目标语句对应的反馈数据，并发送至所述发起方。

Description

跨数据源的数据处理系统、方法及装置

技术领域

本说明书涉及数据处理技术领域，特别涉及跨数据源的数据处理系统、方法及装置。

背景技术

随着互联网技术的发展，越来越多的业务开始线上化，伴随着业务相关数据也随着业务的复杂度而增加。而企业和组织面临着海量的数据，数据的安全性和合规性也越来越受到关注。为了保护数据安全，许多企业往往会将数据存储在内部网络，并采用多层安全策略来保护数据不被非法获取或使用。但是由于数据安全策略的限制，不同部门、业务系统或数据源之间无法直接共享数据，导致数据形成了孤立的“岛屿”，也就是所谓的数据孤岛问题。这使得企业难以获得全局的数据视图，难以进行统一的数据分析和决策，影响了企业的业务运营和发展。因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了跨数据源的数据处理系统，跨数据源的数据处理方法。本说明书同时涉及跨数据源的数据处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种跨数据源的数据处理系统，包括发起方和多个参与方；

所述发起方，用于根据本地元数据信息生成目标语句，并在所述目标语句中提取参与方标识和数据标识，其中，所述本地元数据信息包含各个参与方发布的元数据信息；在所述多个参与方中确定所述参与方标识对应的目标参与方，以及根据所述数据标识和所述目标语句确定所述目标参与方对应的数据处理计划；将所述数据处理计划发送至所述目标参与方；

所述目标参与方，用于将所述数据处理计划发送至本地管理节点，并通过所述本地管理节点调用计算节点执行所述数据处理计划；根据执行结果确定所述目标语句对应的反馈数据，并发送至所述发起方。

可选地，所述发起方，还用于接收数据处理请求，并将所述数据处理请求发送至本地管理节点；通过所述本地管理节点在本地存储空间中查找所述数据处理请求对应的本地元数据信息；按照预设的语句生成规则和所述本地元数据信息生成所述目标语句。

可选地，所述发起方，还用于对所述目标语句进行解析，获得数据源标识；对所述数据源标识进行拆分，根据拆分结果确定所述参与方标识和所述数据标识。

可选地，所述发起方，还用于对所述目标语句进行解析，获得所述目标参与方对应的子目标语句；利用所述数据标识对所述子目标语句进行更新，根据更新结果生成数据查询计划、数据插入计划、数据删除计划或数据更新计划，并将所述数据查询计划、所述数据插入计划、所述数据删除计划或所述数据更新计划作为所述数据处理计划。

可选地，所述目标参与方，还用于接收所述数据处理计划，并将所述数据处理计划发送至所述本地管理节点；通过所述本地管理节点确定所述数据处理计划对应的计划执行信息，并按照所述计划执行信息在计算节点集群中调用所述计算节点；通过所述计算节点执行所述数据处理计划。

可选地，所述发起方，还用于在所述本地元数据信息中确定发起方元数据信息，根据所述发起方元数据信息生成本地目标语句；在所述本地目标语句中确定本地数据标识，并利用所述本地数据标识和所述本地目标语句生成本地数据处理计划；通过本地管理节点调用本地计算节点执行所述本地数据处理计划；根据执行结果确定所述本地目标语句对应的本地数据。

可选地，所述发起方，还用于确定新增元数据信息，并检测所述新增元数据信息的基础属性；在所述新增元数据信息为本地基础属性的情况下，利用所述新增元数据信息对发起方元数据信息进行更新；在所述新增元数据信息为异地基础属性的情况下，按照预设的发布规则对所述新增元数据信息进行调整，并对调整后的新增元数据信息进行发布。

可选地，所述发起方，还用于根据预设的发布规则在所述多个参与方中确定同步参与方，以及按照预设的发布规则对所述新增元数据信息进行调整，获得数据字典信息；针对所述同步参与方发布所述数据字典信息。

根据本说明书实施例的第二方面，提供了一种跨数据源的数据处理方法，应用于发起方，包括：

根据本地元数据信息生成目标语句，并在所述目标语句中提取参与方标识和数据标识，其中，所述本地元数据信息包含各个参与方发布的元数据信息；

在多个参与方中确定所述参与方标识对应的目标参与方，以及根据所述数据标识和所述目标语句确定所述目标参与方对应的数据处理计划；

将所述数据处理计划发送至所述目标参与方，其中，所述数据处理计划用于在所述目标参与方确定所述目标语句对应的反馈数据。

根据本说明书实施例的第三方面，提供了另一种跨数据源的数据处理方法，应用于目标参与方，包括：

接收发起方发送的数据处理计划；

将所述数据处理计划发送至本地管理节点，并通过所述本地管理节点调用计算节点执行所述数据处理计划；

根据执行结果确定所述目标语句对应的反馈数据，并发送至所述发起方。

根据本说明书实施例的第四方面，提供了一种跨数据源的数据处理装置，应用于发起方，包括：

生成语句模块，被配置为根据本地元数据信息生成目标语句，并在所述目标语句中提取参与方标识和数据标识，其中，所述本地元数据信息包含各个参与方发布的元数据信息；

确定计划模块，被配置为在多个参与方中确定所述参与方标识对应的目标参与方，以及根据所述数据标识和所述目标语句确定所述目标参与方对应的数据处理计划；

发送计划模块，被配置为将所述数据处理计划发送至所述目标参与方，其中，所述数据处理计划用于在所述目标参与方确定所述目标语句对应的反馈数据。

根据本说明书实施例的第五方面，提供了一种跨数据源的数据处理装置，应用于目标参与方，包括：

接收计划模块，被配置为接收发起方发送的数据处理计划；

调用节点模块，被配置为将所述数据处理计划发送至本地管理节点，并通过所述本地管理节点调用计算节点执行所述数据处理计划；

确定数据模块，被配置为根据执行结果确定所述目标语句对应的反馈数据，并发送至所述发起方。

根据本说明书实施例的第六方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时实现跨数据源的数据处理方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述跨数据源的数据处理方法的步骤。

本说明书提供的跨数据源的数据处理系统，其包括发起方和多个参与方，为了能够实现发起方发起数据处理请求后，可以实现跨多个参与方完成数据读取，以方便下游业务使用，可以由发起方根据包含各个参与方发布的元数据信息的本地元数信息生成目标语句，在此基础上，可以根据目标语句提取参与方标识和数据标识，之后以此为基础确定目标参与方，并结合数据标识和目标语句确定目标参与方对应的数据处理计划，实现发起方以本地元数据信息出发生成对应每个数据源的数据处理计划，可以实现跨数据源的数据处理，而且不会影响各方之间的数据互通性；此后，目标参与方即可通过本地管理节点调用计算节点执行数据处理计划，实现根据执行结果确定目标语句对应的反馈数据，并反馈至发起方即可。实现各方之间可以通过共享元数据信息的方式支持各方跨数据源的数据处理，并且相应的数据处理计划也将结合元数据信息生成的目标语句确定标识信息完成，从而确保数据处理准确性和高效性，以方便下游业务使用。

附图说明

图1是本说明书一实施例提供的一种跨数据源的数据处理系统的示意图；

图2是本说明书一实施例提供的一种跨数据源的数据处理系统的结构示意图；

图3是本说明书一实施例提供的一种跨数据源的数据处理方法的流程图；

图4是本说明书一实施例提供的另一种跨数据源的数据处理方法的流程图；

图5是本说明书一实施例提供的一种跨数据源的数据处理装置的结构示意图；

图6是本说明书一实施例提供的另一种跨数据源的数据处理装置的结构示意图；

图7是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本说明书中，提供了跨数据源的数据处理系统，跨数据源的数据处理方法。本说明书同时涉及跨数据源的数据处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1所示的示意图，本说明书提供的跨数据源的数据处理系统，其包括发起方和多个参与方，为了能够实现发起方发起数据处理请求后，可以实现跨多个参与方完成数据读取，以方便下游业务使用，可以由发起方根据包含各个参与方发布的元数据信息的本地元数信息生成目标语句，在此基础上，可以根据目标语句提取参与方标识和数据标识，之后以此为基础确定目标参与方，并结合数据标识和目标语句确定目标参与方对应的数据处理计划，实现发起方以本地元数据信息出发生成对应每个数据源的数据处理计划，可以实现跨数据源的数据处理，而且不会影响各方之间的数据互通性；此后，目标参与方即可通过本地管理节点调用计算节点执行数据处理计划，实现根据执行结果确定目标语句对应的反馈数据，并反馈至发起方即可。实现各方之间可以通过共享元数据信息的方式支持各方跨数据源的数据处理，并且相应的数据处理计划也将结合元数据信息生成的目标语句确定标识信息完成，从而确保数据处理准确性和高效性，以方便下游业务使用。

图2示出了根据本说明书一实施例提供的一种跨数据源的数据处理系统的结构示意图，跨数据源的数据处理系统200包括发起方210，多个参与方220；

所述发起方210，用于根据本地元数据信息生成目标语句，并在所述目标语句中提取参与方标识和数据标识，其中，所述本地元数据信息包含各个参与方发布的元数据信息；在所述多个参与方中确定所述参与方标识对应的目标参与方，以及根据所述数据标识和所述目标语句确定所述目标参与方对应的数据处理计划；将所述数据处理计划发送至所述目标参与方；

所述目标参与方220，用于将所述数据处理计划发送至本地管理节点，并通过所述本地管理节点调用计算节点执行所述数据处理计划；根据执行结果确定所述目标语句对应的反馈数据，并发送至所述发起方。

本实施例提供的跨数据源的数据处理系统可以应用于任意数据源不同的业务场景，比如同机构内不同部门分别对不同类型的数据进行存储的数据处理场景，或者跨机构(不同机构对应不同数据源)的数据处理场景，再或者不同个体持有不同数据的数据处理场景等；即本实施例提供的跨数据源的数据处理系统可以实现跨数据源的数据处理，从而解决异构数据源的数据处理问题。其中，数据处理包括但不限于数据查询处理、数据修改处理、数据增加处理或数据删除处理等。

本实施例以跨机构跨数据源的数据查询应用为例，对跨数据源的数据处理系统进行说明，其他场景的数据处理过程均可参见本实施例中相同或相应的描述，本实施例在此不作过多赘述。

具体的，发起方和参与方均为对应不同数据源的业务方，当某一个业务方具有数据查询需求时，则该业务方即为发起方，而剩余的业务方即为参与方。也就是说，发起方为具有数据查询需求的业务方，而参与方为配合发起方进行数据查询并反馈的业务方。比如A、B、C、D四个机构具有合作关系，当A机构具有数据查询需求时，A为发起方，则B、C、D均为参与方；相应的，当B机构具有数据查询需求时，B为发起方，则A、C、D均为参与方；其中，目标参与方具体是指本地查询需求下，需要响应于发起方的查询需求进行数据查询的参与方；如A为发起方，其需要查询b类型数据和c类型数据，而b类型数据存储在B机构，c类型数据存储在C机构，则此时B和C为目标参与方。

相应的，本地元数据信息具体是指存储发起方自身的元数据信息和各个参与方发布的元数据信息的集合体，实现发起方可以通过本地元数据信息生成对应每个目标参与方的数据处理计划。其中，本地元数据信息中关联发起方的元数据信息将记录所持有数据的数据字段名、数据类型、数据名称、数据连接信息，用于在发起方内可以定位数据存储位置；而参与方在发起方处存储的元数据信息将记录数据字段名、数据类型、数据名称，用于确定数据被哪个参与方持有，但无法确定参与方存储数据的指定位置，从而确保各参与方数据的安全性。

相应的，目标语句具体是指根据发起方查询数据需求所生成的SQL语句，且其根据本地元数据信息生成，用于确定本地数据查询需求所关联的参与方，以及所需要读取的数据在参与方的名称，方便后续生成对应目标参与方的数据处理计划，用于在目标参与方处执行计划查询到相应的数据；相应的，参与方标识具体是指参与方对应的唯一标识，能够用于在多个参与方中确定与发起方本次查询需求对应的目标参与方。相应的，数据标识具体是指被出查询数据在目标参与方处对应的唯一标识，用于在目标参与方执行计划时，可以定位对应查询需求的目标数据。相应的，数据处理计划具体是指用于在目标参与方处执行的SQL计划，如数据查询计划。

相应的，本地管理节点具体是指每个业务方均会部署的管理节点，用于负责本地元数据的管理和调度执行数据处理计划的计算节点，如元数据信息的更新，针对数据处理计划分配计算节点等。且需要说明的是，业务方所存储的元数据信息可以通过本地部署的元数据信息存储节点完成，从而实现单独管理元数据信息。相应的，计算节点具体是指能够执行数据处理计划的节点，用于从本地存储的数据中读取数据，修改数据，删除数据等处理；相应的，反馈数据具体是指计算节点执行完成数据处理计划后得到的数据，比如数据查询计划，则反馈数据即为在目标参与方本地存储的数据中查询到的数据。比如数据更新计划，则反馈数据即为对目标参与方本地存储的数据进行更新后的结果数据。

基于此，在发起方具有数据查询需求时，为了能够实现跨机构跨数据源的数据查询，可以先根据本地元数据信息生成目标语句，且由于本地元数据信息不仅包含自身的元数据信息，还包含各个参与方发布的元数据信息；因此可以确保目标语句能够适配不同的参与方；在此基础上，可以在目标语句中提取参与方标识和数据标识；实现在多个参与方中确定参与方标识对应的目标参与方，其即为对应发起方需要查询数据时配合的机构。同时可以根据数据标识和目标语句确定目标参与方对应的数据处理计划，并将数据处理计划发送至目标参与方即可。

在目标参与方接收到数据处理计划后，为了能够快速地完成查询操作，可以将数据处理计划发送至本地管理节点，并通过本地管理节点调用计算节点执行数据处理计划；实现根据执行结果确定目标语句对应的反馈数据，并发送至发起方。在各个目标参与方完成查询并反馈数据后，发起方即可利用接收到的反馈数据执行下游任务，比如进行数据分析、业务风险识别、推荐商品预测等，本实施例在此不作任何限定。

实际应用中，在面向跨机构跨数据源的场景下，比起一般的异构数据源场景，此时还存在一个跨机构问题，通过数据库信息和表信息无法定位到唯一数据源，因为可能存在不同机构之间使用相同的存储引擎，并且表名也相同的情况。因此，为了能够实现跨机构完成数据查询等操作，可以控制机构内基于查询引擎，独立的管理自己的数据源连接信息，对于每张数据表，对应一个独立的引擎侧的数据名称；同时还可以当某方发起查询请求时，在SQL语句中需要在表名上标注归属机构(例如机构名.数据名)，从而实现跨机构的数据查询等操作。需要说明的是，本实施例提供的跨数据源的数据处理系统中，SQL语句需要利用机构名和数据名(数据标识和参与方标识)来定位每个数据，以实现各个参与方执行数据查询计划时，可以准确反馈发起方需要的数据。

也就是说，数据名是在查询引擎上管理的，在使用过程中，需要事先在查询引擎上配置原始数据的连接信息，同步元数据信息，并将该元数据信息同步给相连的其余机构，元数据中包含了数据字段名、数据类型等信息，并且机构自身编辑一个数据名，用于在同一个机构内定位数据存储位置。对于该查询引擎而言，在一个机构内通过一个数据名就可以唯一定位到具体的数据源信息，在上层屏蔽了数据在物理上的数据源、数据库、数据表等信息，简化了SQL的编写复杂度。

此外，为了能够实现跨机构的数据查询，机构内部可以采用主从模型，即每个机构部署一个客户端，负责和外部机构之间的网络连接和任务发起。同时部署管理节点，负责元数据信息管理，计算节点管理，以及SQL的解析处理工作。再部署元数据信息存储节点，用于存储客户端上的元数据信息，而计算节点即可负责数据的读入和计算。同时机构和机构之间可以采用典型的P2P架构，即客户端和客户端之间两两相连，当一次查询请求涉及到其他参与方时，通过客户端将查询请求发送给相应的客户端，其余客户端完成查询即可将查询结果反馈给查询方。

举例说明，A、B、C、D四个机构之间具有合作关系，A机构存储有用户的交易数据，B机构存储有用户的医疗数据，C机构存储有用户的保险数据，D机构存储有用户的从业数据；当A机构需要向用户推荐商品时，需要结合自身存储的交易数据和D机构存储的从业数据完成目标商品的确定并推荐。此时，A机构可以根据本地元数据信息生成SQL语句，并根据SQL语句确定机构标识ID_D，以及数据标识ID_data_x(表示用户x对应的数据标识，且具有唯一性)。此时可以根据机构标识ID_D在B、C、D三个机构中将D机构作为目标机构，之后结合数据标识ID_data_x和SQL语句生成对应D机构的数据查询计划，并将数据查询计划发送至D机构的客户端。

D机构客户端在接收到数据查询计划后，可以通过Coordinator(本地管理节点)调用worker(计算节点)执行数据查询计划，并根据执行结果在本地数据中读取到数据标识ID_data_x对应的目标数据，并将目标数据反馈至机构A即可，方便后续机构A根据目标数据对用户x进行推荐商品的预测。

进一步的，在发起方生成目标语句时，为了能够确保目标语句生成的准确性，从而方便后续创建准确的数据处理计划，可以结合发起方本地的管理节点完成，本实施例中，所述发起方，还用于接收数据处理请求，并将所述数据处理请求发送至本地管理节点；通过所述本地管理节点在本地存储空间中查找所述数据处理请求对应的本地元数据信息；按照预设的语句生成规则和所述本地元数据信息生成所述目标语句。

具体的，发起方的本地管理节点与上述实施例中关于本地管理节点的描述相同，本实施例在此不作过多赘述。相应的，本地存储空间具体是指用于存储本地元数据信息的存储空间，以实现在应用阶段可以直接访问本地存储空间得到本地元数据信息，从而提高本地元数据信息的读取效率。相应的，语句生成规则具体是指按照增加数据标识和参与方标识设置的规则，确保生成的目标语句可以记录数据源标识。其中，数据处理请求具体是指发起方触发的请求，该请求可以用于数据增删改查等处理。

基于此，在发起方接收到数据处理请求后，为了能够提高语句生成效率，加快数据查询速度，可以将数据处理请求发送至本地管理节点；通过本地管理节点在本地存储空间中查找数据处理请求对应的本地元数据信息；此时在按照预设的语句生成规则和本地元数据信息生成目标语句，以方便后续结合目标语句生成每个参与方对应的数据处理计划。

沿用上例，A机构在需要进行数据查询时，可以将数据查询请求发送给本地的Coordinator，由Coordinator在MetaStore(本地存储空间)中查找本地元数据信息，以实现根据本地元数据信息和预设的SQL语句生成规则，生成SQL语句，以方便后续使用SQL语句进行数据查询计划的生成和发送等处理。

综上，通过采用本地管理节点和本地存储空间配合维护本地元数据信息，可以方便在应用阶段，快速的查询到元数据信息使用，从而提高数据处理计划的生成速度和数据处理效率。

更进一步的，考虑到目标语句将触发数据执行计划的创建，其创建后的计划将对应发起方，因此在解析语句时，需要得到记录参与方标识和数据标识的数据源标识，从数据源标识中拆分出两种标识使用，本实施例中，所述发起方，还用于对所述目标语句进行解析，获得数据源标识；对所述数据源标识进行拆分，根据拆分结果确定所述参与方标识和所述数据标识。

具体的，数据源标识具体是指记录参与方标识和数据标识的数据结构，其按照设定的规则对参与方标识和数据标识进行记录，实现在应用阶段，可以按照设定规则从数据源标识中拆分出参与方标识和数据标识。

基于此，发起方在生成目标语句后，为了能够实现确定需要配合完成数据查询的参与方，以及目标参与方存储数据的名称，可以对目标语句进行解析，获得数据源标识；此时可以从数据源标识中拆分出参与方标识和数据标识，以方便后续使用。

综上，通过采用数据源标识对数据标识和参与方标识进行一同记录，可以有效节省字段占用的空间，从而有效的节省了存储资源。

此外，考虑到发起方需要结合多个目标参与方才能够完成数据处理，因此在通过查询引擎生成数据处理计划时，需要针对每个目标参与方都进行数据处理计划的创建，因此需要根据目标语句确定目标参与方的子语句，以此驱动数据处理计划的生成，本实施例中，所述发起方，还用于对所述目标语句进行解析，获得所述目标参与方对应的子目标语句；利用所述数据标识对所述子目标语句进行更新，根据更新结果生成数据查询计划、数据插入计划、数据删除计划或数据更新计划，并将所述数据查询计划、所述数据插入计划、所述数据删除计划或所述数据更新计划作为所述数据处理计划。

具体的，子目标语句具体是指目标语句中对应目标参与方的SQL语句，其属于目标语句的一部分，不同的目标参与方对应的子目标语句将组成发起方生成的目标语句。相应的，数据查询计划具体是指用于在目标参与方存储的数据中查询数据的计划；数据插入计划具体是指向目标参与方存储的数据中插入新数据的计划；数据删除计划具体是指将目标参与方存储的数据中删除数据的计划；数据更新计划具体是指对目标参与方存储的数据进行变更的计划。

基于此，为了能够针对目标参与方生成其对应的计划，用于在目标参与方处进行数据的增删改查，可以先对目标语句进行解析，获得目标参与方对应的子目标语句；此时可以利用数据标识对子目标语句进行更新，实现根据更新结果生成数据查询计划、数据插入计划、数据删除计划或数据更新计划，此时即可将数据查询计划、数据插入计划、数据删除计划或数据更新计划作为所述数据处理计划。以方便下游后续可以发送至目标参与方进行数据的处理操作。

需要说明的是，针对任意目标参与方生成数据处理计划的描述均可参见本实施例中相同的描述内容，本实施例在此不作过多赘述。

综合，通过结合数据标识生成对应目标参与方的数据处理计划，可以确保数据处理计划与目标参与方的匹配度，从而确保目标参与方能够正常执行数据处理计划，以配合发起方完成数据处理操作。

当目标参与方接收到数据处理计划后，为了能够选择合适的计算节点完成数据处理计划，可以通过本地管理节点根据计划执行信息选择，本实施例中，所述目标参与方，还用于接收所述数据处理计划，并将所述数据处理计划发送至所述本地管理节点；通过所述本地管理节点确定所述数据处理计划对应的计划执行信息，并按照所述计划执行信息在计算节点集群中调用所述计算节点；通过所述计算节点执行所述数据处理计划。

具体的，计划执行信息具体是指执行数据处理计划所需要消耗的计算资源信息等，比如占用内存资源大小，消耗cpu计算能力大小等，用于实现可以通过本地管理节点调度对应的计算节点执行数据处理计划。相应的，计算节点集群具体是指由大量的计算节点组成的集群，其通过管理节点调度，用于在需要进行处理任务时，可以分配对应的计算节点完成任务的处理操作。

基于此，在目标参与方接收到数据处理计划后，可以先将数据处理计划发送至本地管理节点；此时为了能够选择合适的计算节点执行该计划，以响应于发起方的数据处理需求，可以通过本地管理节点确定数据处理计划对应的计划执行信息，并按照计划执行信息在计算节点集群中调用计算节点；实现根据计算资源消耗情况选择计算节点，最后再通过计算节点执行数据处理计划即可。

沿用上例，D机构接收到数据查询计划后，考虑到D机构部署了worker1，worker2…workerN，N个计算节点，为了能够合理利用计算资源，避免资源消耗，可以通过Coordinator先确定数据查询计划对应的计算资源消耗信息，之后按照计算资源消耗信息在N个计算节点选择worker2作为目标计算节点，此时可以将数据查询计划分配给worker2执行，并根据执行结果在本地数据中读取到数据标识ID_data_x对应的目标数据，并将目标数据反馈至机构A即可，方便后续机构A根据目标数据对用户x进行推荐商品的预测。

综上，通过结合计划执行信息选择计算节点，可以确保被选择的计算节点其计算能力均与数据处理计划相匹配，从而实现充分利用计算资源，避免计算资源的浪费。

进一步的，考虑到发起方在结合其他参与方进行查询时，有一部数据可能在本地存储，则此时还需要结合发起方元数据信息进行数据的查询处理，本实施例中，所述发起方，还用于在所述本地元数据信息中确定发起方元数据信息，根据所述发起方元数据信息生成本地目标语句；在所述本地目标语句中确定本地数据标识，并利用所述本地数据标识和所述本地目标语句生成本地数据处理计划；通过本地管理节点调用本地计算节点执行所述本地数据处理计划；根据执行结果确定所述本地目标语句对应的本地数据。

具体的，发起方元数据信息具体是指发起方自身持有的元数据信息，其不仅记录数据的存储相关信息，还记录数据的连接信息，用于实现可以在本地查找对应的数据。相应的，本地目标语句具体是指用于生成发起方在本地进行数据查询的语句。本地数据处理计划具体是指在发起方本地执行的SQL计划，如数据查询计划。其中，关于本地管理节点和本地计算节点的相关描述可参见上述实施例中相同或相应的描述，本实施例在此不作过多赘述。

基于此，当发起方查询数据也需要在本地查询时，可以先在本地元数据信息中确定发起方元数据信息，此时可以再根据发起方元数据信息生成本地目标语句；之后在本地目标语句中确定本地数据标识，并利用本地数据标识和本地目标语句生成本地数据处理计划；即可实现创建用于在本地进行数据处理的计划，最后通过本地管理节点调用本地计算节点执行本地数据处理计划；即可根据执行结果确定本地目标语句对应的本地数据。

沿用上例，A机构不仅需要D机构的数据，还需要结合本地存储的数据才能够实现推荐商品的预测；因此，A机构可以在本地元数据信息中确定自身对应的元数据信息，之后结合该元数据信息可以生成本地查询数据对应的SQL语句，此时可以从SQL语句中确定数据标识ID_data1_x1，之后结合数据标识ID_data1_x1和SQL语句生成本地数据查询计划。进一步的，A机构部署的Coordinator会将本地数据查询计划分配给worker，由worker执行本地数据查询计划，从而得到本地存储的关于用户x的交易数据，以方便后续结合用户x的交易数据和就业数据，完成对用户x的推荐商品确定。

综上，在需要在本地进行数据查询时，也将结合查询引擎的要求进行语句构建和计划生成，并调用计算节点执行本地计划，从而可以确保本地数据查询的准确性和高效性。

此外，由于发起方存储的本地元数据信息不仅包含自身的元数据信息，还包括其他参与方的元数据信息，因此当有新增元数据信息时，需要结合新增元数据信息的属性决定更新方式，本实施例中，所述发起方，还用于确定新增元数据信息，并检测所述新增元数据信息的基础属性；在所述新增元数据信息为本地基础属性的情况下，利用所述新增元数据信息对发起方元数据信息进行更新；在所述新增元数据信息为异地基础属性的情况下，按照预设的发布规则对所述新增元数据信息进行调整，并对调整后的新增元数据信息进行发布。

具体的，新增元数据信息具体是指业务方本地数据发生变化后广播的元数据信息，该元数据信息可以是发起方自己对应的元数据信息，也可以是其他参与方同步过来的元数据信息。相应的，基础属性具体是指表征新增元数据信息所属方的属性描述信息，用于确定元数据信息为本地还是异地；相应的，发布规则具体是指发布元数据信息的规则，用于对元数据信息进行调整，从而避免发布后影响本地数据安全性。

基于此，当发起方接收到新增元数据信息后，为了能够将新增元数据信息记录在本地，或者同步给其他参与方，可以先检测新增元数据信息的基础属性；在新增元数据信息为本地基础属性的情况下，说明新增元数据信息对应的数据变更操作为本地操作，则此时可以直接利用新增元数据信息对发起方元数据信息进行更新即可，实现对自身的元数据信息进行更新。在新增元数据信息为异地基础属性的情况下，说明新增元数据信息是需要同步给其他参与方的元数据信息，而为了避免元数据信息记录有本地数据存储的敏感信息，可以按照预设的发布规则对新增元数据信息进行调整，实现脱敏，最后再对调整后的新增元数据信息进行发布即可。

综上，为了能够实现新增元数据信息后，可以基于新增元数据信息对本地元数据信息进行更新，或者发布前可以避免隐私数据泄露，可以按照元数据信息的基础属性完成后续操作，从而确保数据安全性。

在此基础上，为了能够实现发起方在向各个参与方同步元数据信息时，不会造成本地数据存储安全性问题，可以根据预设发布规则进行元数据信息的调整，本实施例中，所述发起方，还用于根据预设的发布规则在所述多个参与方中确定同步参与方，以及按照预设的发布规则对所述新增元数据信息进行调整，获得数据字典信息；针对所述同步参与方发布所述数据字典信息。

具体的，同步参与方具体是指本地同步元数据信息需要接收的参与方，由于机构之间的合作程度不同，因此不同的元数据信息可能会提供给不同的参与方使用，因此在同步之前，还需要确定同步参与方。相应的，数据字典信息具体是指根据新增元数据信息确定的能够同步至同步参与方的元数据信息。

基于此，当确定需要将新增元数据信息同步至其他参与方后，可以先根据预设的发布规则在多个参与方中确定同步参与方，此后再按照预设的发布规则对新增元数据信息进行调整，以获得不包含敏感信息的数据字典信息；最后针对同步参与方发布数据字典信息即可。

举例说明，A机构在本地数据库S中存储了用户y的就业数据，为了能够实现其他与A机构具有合作关系的机构也能够了解该信息，方便在后续业务中联合A机构进行，可以由A机构发布用户y的就业数据对应的元数据信息。在此之前，可以先确定能够接收该元数据信息的机构，分别为B和C，此后，再对用户y的就业数据对应的元数据信息进行调整，可以将用户y的就业数据存储在数据库S的连接信息剔除，以得到调整后的元数据信息，此时再向B和C发布调整后的元数据信息即可，实现其他机构了解A机构的数据新增情况，同时也能够避免数据安全性问题。

图3示出了根据本说明书一实施例提供的一种跨数据源的数据处理方法的流程图，该方法应用于发起方，具体包括以下步骤：

步骤S302，根据本地元数据信息生成目标语句，并在所述目标语句中提取参与方标识和数据标识，其中，所述本地元数据信息包含各个参与方发布的元数据信息；

步骤S304，在多个参与方中确定所述参与方标识对应的目标参与方，以及根据所述数据标识和所述目标语句确定所述目标参与方对应的数据处理计划；

步骤S306，将所述数据处理计划发送至所述目标参与方，其中，所述数据处理计划用于在所述目标参与方确定所述目标语句对应的反馈数据。

一个可选的实施例中，所述发起方，还用于接收数据处理请求，并将所述数据处理请求发送至本地管理节点；通过所述本地管理节点在本地存储空间中查找所述数据处理请求对应的本地元数据信息；按照预设的语句生成规则和所述本地元数据信息生成所述目标语句。

一个可选的实施例中，所述发起方，还用于对所述目标语句进行解析，获得数据源标识；对所述数据源标识进行拆分，根据拆分结果确定所述参与方标识和所述数据标识。

一个可选的实施例中，所述发起方，还用于对所述目标语句进行解析，获得所述目标参与方对应的子目标语句；利用所述数据标识对所述子目标语句进行更新，根据更新结果生成数据查询计划、数据插入计划、数据删除计划或数据更新计划，并将所述数据查询计划、所述数据插入计划、所述数据删除计划或所述数据更新计划作为所述数据处理计划。

一个可选的实施例中，所述发起方，还用于在所述本地元数据信息中确定发起方元数据信息，根据所述发起方元数据信息生成本地目标语句；在所述本地目标语句中确定本地数据标识，并利用所述本地数据标识和所述本地目标语句生成本地数据处理计划；通过本地管理节点调用本地计算节点执行所述本地数据处理计划；根据执行结果确定所述本地目标语句对应的本地数据。

一个可选的实施例中，所述发起方，还用于确定新增元数据信息，并检测所述新增元数据信息的基础属性；在所述新增元数据信息为本地基础属性的情况下，利用所述新增元数据信息对发起方元数据信息进行更新；在所述新增元数据信息为异地基础属性的情况下，按照预设的发布规则对所述新增元数据信息进行调整，并对调整后的新增元数据信息进行发布。

一个可选的实施例中，所述发起方，还用于根据预设的发布规则在所述多个参与方中确定同步参与方，以及按照预设的发布规则对所述新增元数据信息进行调整，获得数据字典信息；针对所述同步参与方发布所述数据字典信息。

需要说明的是，本实施例提供的跨数据源的数据处理方法未详细描述的内容均可参见上述实施例中相同或相应的描述，本实施例在此不作过多赘述。

图4示出了根据本说明书一实施例提供的另一种跨数据源的数据处理方法的流程图，该方法应用于目标参与方，具体包括以下步骤：

步骤S402，接收发起方发送的数据处理计划；

步骤S404，将所述数据处理计划发送至本地管理节点，并通过所述本地管理节点调用计算节点执行所述数据处理计划；

步骤S406，根据执行结果确定所述目标语句对应的反馈数据，并发送至所述发起方。

一个可选的实施例中，所述目标参与方，还用于接收所述数据处理计划，并将所述数据处理计划发送至所述本地管理节点；通过所述本地管理节点确定所述数据处理计划对应的计划执行信息，并按照所述计划执行信息在计算节点集群中调用所述计算节点；通过所述计算节点执行所述数据处理计划。

与上述方法实施例相对应，本说明书还提供了跨数据源的数据处理装置实施例，图5示出了本说明书一实施例提供的一种跨数据源的数据处理装置的结构示意图。如图5所示，该装置应用于发起方，包括：

生成语句模块502，被配置为根据本地元数据信息生成目标语句，并在所述目标语句中提取参与方标识和数据标识，其中，所述本地元数据信息包含各个参与方发布的元数据信息；

确定计划模块504，被配置为在多个参与方中确定所述参与方标识对应的目标参与方，以及根据所述数据标识和所述目标语句确定所述目标参与方对应的数据处理计划；

发送计划模块506，被配置为将所述数据处理计划发送至所述目标参与方，其中，所述数据处理计划用于在所述目标参与方确定所述目标语句对应的反馈数据。

上述为本实施例的一种跨数据源的数据处理装置的示意性方案。需要说明的是，该跨数据源的数据处理装置的技术方案与上述的跨数据源的数据处理系统的技术方案属于同一构思，跨数据源的数据处理装置的技术方案未详细描述的细节内容，均可以参见上述跨数据源的数据处理系统的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了另一种跨数据源的数据处理装置实施例，图6示出了本说明书一实施例提供的另一种跨数据源的数据处理装置的结构示意图。如图6所示，该装置应用于目标参与方，包括：

接收计划模块602，被配置为接收发起方发送的数据处理计划；

调用节点模块604，被配置为将所述数据处理计划发送至本地管理节点，并通过所述本地管理节点调用计算节点执行所述数据处理计划；

确定数据模块606，被配置为根据执行结果确定所述目标语句对应的反馈数据，并发送至所述发起方。

上述为本实施例的另一种跨数据源的数据处理装置的示意性方案。需要说明的是，该跨数据源的数据处理装置的技术方案与上述的跨数据源的数据处理系统的技术方案属于同一构思，跨数据源的数据处理装置的技术方案未详细描述的细节内容，均可以参见上述跨数据源的数据处理系统的技术方案的描述。

图7示出了根据本说明书一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)接口，等等。

在本申请的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行计算机可执行指令时实现跨数据源的数据处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的跨数据源的数据处理系统的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述跨数据源的数据处理系统的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于跨数据源的数据处理方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的跨数据源的数据处理系统的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述跨数据源的数据处理系统的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减，例如在某些地域，根据专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种跨数据源的数据处理系统，其特征在于，包括发起方和多个参与方；

2.根据权利要求1所述的系统，其特征在于，所述发起方，还用于接收数据处理请求，并将所述数据处理请求发送至本地管理节点；通过所述本地管理节点在本地存储空间中查找所述数据处理请求对应的本地元数据信息；按照预设的语句生成规则和所述本地元数据信息生成所述目标语句。

3.根据权利要求1所述的系统，其特征在于，所述发起方，还用于对所述目标语句进行解析，获得数据源标识；对所述数据源标识进行拆分，根据拆分结果确定所述参与方标识和所述数据标识。

4.根据权利要求1所述的系统，其特征在于，所述发起方，还用于对所述目标语句进行解析，获得所述目标参与方对应的子目标语句；利用所述数据标识对所述子目标语句进行更新，根据更新结果生成数据查询计划、数据插入计划、数据删除计划或数据更新计划，并将所述数据查询计划、所述数据插入计划、所述数据删除计划或所述数据更新计划作为所述数据处理计划。

5.根据权利要求1所述的系统，其特征在于，所述目标参与方，还用于接收所述数据处理计划，并将所述数据处理计划发送至所述本地管理节点；通过所述本地管理节点确定所述数据处理计划对应的计划执行信息，并按照所述计划执行信息在计算节点集群中调用所述计算节点；通过所述计算节点执行所述数据处理计划。

6.根据权利要求1所述的系统，其特征在于，所述发起方，还用于在所述本地元数据信息中确定发起方元数据信息，根据所述发起方元数据信息生成本地目标语句；在所述本地目标语句中确定本地数据标识，并利用所述本地数据标识和所述本地目标语句生成本地数据处理计划；通过本地管理节点调用本地计算节点执行所述本地数据处理计划；根据执行结果确定所述本地目标语句对应的本地数据。

7.根据权利要求1所述的系统，其特征在于，所述发起方，还用于确定新增元数据信息，并检测所述新增元数据信息的基础属性；在所述新增元数据信息为本地基础属性的情况下，利用所述新增元数据信息对发起方元数据信息进行更新；在所述新增元数据信息为异地基础属性的情况下，按照预设的发布规则对所述新增元数据信息进行调整，并对调整后的新增元数据信息进行发布。

8.根据权利要求7所述的系统，其特征在于，所述发起方，还用于根据预设的发布规则在所述多个参与方中确定同步参与方，以及按照预设的发布规则对所述新增元数据信息进行调整，获得数据字典信息；针对所述同步参与方发布所述数据字典信息。

9.一种跨数据源的数据处理方法，其特征在于，应用于发起方，包括：

10.一种跨数据源的数据处理方法，其特征在于，应用于目标参与方，包括：

接收发起方发送的数据处理计划；

11.一种跨数据源的数据处理装置，其特征在于，应用于发起方，包括：

12.一种跨数据源的数据处理装置，其特征在于，应用于目标参与方，包括：

接收计划模块，被配置为接收发起方发送的数据处理计划；

13.一种计算设备，其特征在于，包括存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现权利要求9或10所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求9或10所述方法的步骤。