CN117312373A

CN117312373A - 一种并发连接器的数据处理方法、装置和数据处理系统

Info

Publication number: CN117312373A
Application number: CN202311266125.4A
Authority: CN
Inventors: 江昕; 梅凯; 赵辉; 冯春锋
Original assignee: Du Xiaoman Technology Beijing Co Ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-29

Abstract

本公开提供一种并发连接器的数据处理方法、装置和数据处理系统，涉及大数据技术领域。该方法的具体实施方式包括：接收一个或多个数据读取请求；从本地的并发配置表中查找与数据源标识对应的数据源地址和与引擎标识对应的引擎地址，访问与数据源地址对应的数据源主节点；接收数据源主节点为待读取数据分配的第一节点信息，并访问与引擎地址对应的引擎主节点，获取计算引擎的第二节点信息；利用第一节点信息和第二节点信息，将数据源和计算引擎对接，使得计算引擎从数据源中并发采集待读取数据。该实施方式能够利用构造的并发连接器的并发通道，将数据源中的分段节点与计算引擎的工作节点对接，实现数据的并发读写，提升读写效率和写入的稳定性。

Description

一种并发连接器的数据处理方法、装置和数据处理系统

技术领域

本公开涉及大数据技术领域，尤其涉及一种并发连接器的数据处理方法、装置和数据处理系统。

背景技术

presto作为常用的大数据实时查询计算引擎，计算性能优异，且易用性和可扩展性加强，可以支持多种类型的数据源处理，甚至是跨数据源计算场景。常见的数据源包括GP、hive、Mysql、HBase等，数据量庞大且分布形式多样。

现有的presto在获取GP的数据时，通常利用JDBC数据库连接构建presto和GP之间的链接，进而从GP的主节点读取、或者向GP的主节点写入数据。

然而，随着大数据技术的飞速发展，presto常常需要将分布于GP中不同位置的多张表中的数据进行关联计算，一方面，仅靠主节点的读写效率低下，而且由于数据量庞大，会给主节点造成很大的读写压力，极易出现数据读写失败、主节点崩溃进而导致GP阻滞、运行不稳等现象；另一方面，向GP写入的数据并不是一成不变的，常常伴随着数据的删除、修改等操作，现有的JDBC数据库连接无法进行删除等操作，只能全部删除原始数据、再重新导入变化后的全量数据，使得数据处理效率低下，无法满足实时的查询请求，用户使用场景受限，使用体验较差。

发明内容

有鉴于此，本公开实施例提供一种并发连接器的数据处理方法、装置和数据处理系统，能够解决presto和GP之间的读写效率低下、主节点读写压力大，容易出现数据读写失败、主节点崩溃进而导致GP阻滞、运行不稳等现象；无法进行删除等操作，数据处理效率低下，无法满足实时的查询请求，用户使用场景受限，使用体验较差的问题。

为实现上述目的，根据本公开的一方面，提供了一种并发连接器的数据处理方法，包括：

接收一个或多个数据读取请求；其中，所述数据读取请求包括待读取数据、数据源的数据源标识和计算引擎的引擎标识；

从本地的并发配置表中查找与所述数据源标识对应的数据源地址和与所述引擎标识对应的引擎地址，访问与所述数据源地址对应的数据源主节点；

接收所述数据源主节点为所述待读取数据分配的第一节点信息，并访问与所述引擎地址对应的引擎主节点，获取所述计算引擎的第二节点信息；

利用所述第一节点信息和所述第二节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎从所述数据源中并发采集所述待读取数据。

根据本公开的另一方面，提供了一种并发连接器的数据处理装置，包括：

接收模块，用于接收一个或多个数据读取请求；其中，所述数据读取请求包括待读取数据、数据源的数据源标识和计算引擎的引擎标识；

访问模块，用于从本地的并发配置表中查找与所述数据源标识对应的数据源地址和与所述引擎标识对应的引擎地址，访问与所述数据源地址对应的数据源主节点；

获取模块，用于接收所述数据源主节点为所述待读取数据分配的第一节点信息，并访问与所述引擎地址对应的引擎主节点，获取所述计算引擎的第二节点信息；

对接模块，用于利用所述第一节点信息和所述第二节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎从所述数据源中并发采集所述待读取数据。

根据本公开的再一方面，提供了一种数据处理系统，包括：计算引擎、数据源和并发连接器，所述并发连接器包括并发连接器的数据处理装置，其中：

所述计算引擎的引擎主节点接收终端发送的数据查询请求，并对所述数据查询请求进行解析，生成所述数据读取请求后发送给所述并发连接器，所述数据读取请求包括待读取数据、数据源的数据源标识和引擎标识；

响应于所述数据读取请求，所述并发连接器从本地的并发配置表中查找与所述数据源标识对应的数据源地址和与所述引擎标识对应的引擎地址，访问与所述数据源地址对应的数据源主节点；

所述数据源的数据源主节点为所述待读取数据分配第一节点信息；

所述并发连接器接收所述第一节点信息，并访问与所述引擎地址对应的引擎主节点，获取所述计算引擎的第二节点信息，利用所述第一节点信息和所述第二节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎从所述数据源中并发采集所述待读取数据。

根据本公开的还一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行所述并发连接器的数据处理方法。

根据本公开实施例的又一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述并发连接器的数据处理方法。

本申请实施例中提供的一个或多个技术方案，通过并发连接器的并发通道将计算引擎的工作节点和数据源的分段节点对接，以及并发连接器中嵌入改造后的删除算子，可以实现计算引擎从数据源并发读取数据、向数据源并发写入数据、删除数据源中的数据，大大提升数据的读写效率，扩大数据计算处理场景，满足多样化的业务需求的技术效果。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的并发连接器的数据处理方法的流程图；

图2示出了根据本公开示例性实施例的数据处理系统的示意图；

图3示出了根据本公开示例性实施例的数据读取请求的确定方法的流程图；

图4示出了根据本公开示例性实施例的数据源主节点的访问方法的流程图；

图5示出了根据本公开示例性实施例的数据源、计算引擎和并发连接器的对接示意图；

图6示出了根据本公开示例性实施例的第一节点信息的生成方法的流程图；

图7示出了根据本公开示例性实施例的待读取数据的并发读取方法方法的流程图；

图8示出了根据本公开第一示例性实施例的待写入数据的并发写入方法的流程图；

图9示出了根据本公开第二示例性实施例的待写入数据的并发写入方法的流程图；

图10示出了根据本公开示例性实施例的待删除数据的删除方法的流程图；

图11示出了根据本公开示例性实施例的并发连接器的数据处理装置的示意性框图；

图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“在本公开实施例中”表示“至少一个实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

presto：是一个开源的大数据分布式SQL查询引擎，适用于交互式分析查询，可支持众多的数据源，同时提供接口开发数据源连接器。

GreenPlum：简称GP，是一个分布式的列式数据库管理系统，采用海量并行处理架构，可以实现大规模数据集的高性能数据查询和分析，支持列式存储和批处理操作。

PostgreSQL：一种自由软件的对象-关系型数据库管理系统。

JDBC：Java Database Connectivity，即Java数据库连接，是Java语言中用来规范客户端程序访问数据库的规则的应用程序接口，提供了诸如查询和更新数据库中数据的方法。

对于presto的查询需要用到GP数据的情况，presto通过PostgreSQL-JDBC连接GP的主节点，采集GP主节点累积的数据，主节点累积的数据来自GP中不同存储位置的多张数据表，数据量庞大的情况下逐个从主节点读取数据速度很慢，读取数据的效率较为低下；

对于presto向GP写入数据的情况，presto通过PostgreSQL-JDBC连接GP的主节点，逐个向GP主节点写入数据，数据量庞大的情况下逐个向主节点写入数据不仅写数据速度慢、写入效率低下，而且会给GP主节点带来极大的计算资源消耗压力，导致主节点连接的波动过大，崩溃风险极高，进而导致GP运行不稳定，造成写入失败、被迫中断GP和其它引擎或者数据源的连接，大数据处理风险急剧升高。

通过本公开的并发连接器的数据处理方法，利用构造的并发连接器，将数据源中的各个分段节点与计算引擎的各个工作节点分别通过并发连接器中的多个并发通道对接，实现数据的并发读写，提升读写效率和写入的稳定性。

进一步地，将删除算子加入并发连接器，直接对GP分区的数据进行删除操作，扩展了连接器的应用场景，可以满足多样的实际使用需求，提升用户体验。

以下参照附图描述本公开的方案。

图1示出了根据本公开示例性实施例的并发连接器的数据处理方法的流程图，如图1所示，本公开的并发连接器的数据处理方法包括如下步骤：

在本公开实施例中，本公开的并发连接器的数据处理方法应用于并发连接器，如图2所示，本公开的数据处理系统包括计算引擎、数据源和并发连接器，并发连接器用于构建计算引擎和数据源之间的连通，实现两者之间的数据传输和处理，使得计算引擎可以对数据源的数据进行并发读写、删除等操作，包括从数据源并发读取数据、向数据源并发写入数据、删除数据源中的数据等，以提升两者之间的数据传输效率，进而提高计算引擎的计算和查询效率，缓解数据源主节点的资源压力和数据处理压力，保障数据源的稳定运行，提升用户使用体验。

步骤S101，接收一个或多个数据读取请求；其中，所述数据读取请求包括待读取数据、数据源的数据源标识和计算引擎的引擎标识。

在本公开实施例中，计算引擎接收用户通过终端发起的数据查询请求，由计算引擎的引擎主节点对数据查询请求的查询语句进行解析，确定需要从数据源读取的数据，生成包括数据源的数据源标识、计算引擎的引擎标识和待读取数据的数据读取请求并发送给并发连接器，如图3所示；或者，计算引擎生成数据读取请求后，调用并发连接器进行处理，如图3所示。

进一步地，计算引擎为presto，数据源为GP，presto接收数据查询请求并解析，生成数据读取请求并发送给并发连接器；或者，presto生成数据读取请求后，在数据读取请求的数据源标识为GP的情况下，调用并发连接器进行处理。

步骤S102，从本地的并发配置表中查找与所述数据源标识对应的数据源地址和与所述引擎标识对应的引擎地址，访问与所述数据源地址对应的数据源主节点。

在本公开实施例中，并发连接器中预先存储了包括各个数据源和计算引擎的配置信息的并发配置表，配置信息包括各个数据源的数据源标识、数据源主节点的访问链接的数据源地址、数据源账号、数据源密码等，还包括各个引擎的引擎标识、引擎主节点的访问链接的引擎地址、引擎账号、引擎密码等，并发连接器根据并发配置表中与数据源标识对应的数据源地址，访问数据源的数据源主节点。其中，数据源地址、引擎地址可以是IP地址。

进一步地，如图4所示，本公开的数据源主节点的访问方法包括如下步骤：

步骤S401，链接与所述数据源标识的数据源主节点对应的所述数据源地址。

在本公开实施例中，比如，并发连接器的并发配置表存储了GP的配置信息，包括GP的数据源标识GP01、GP01的数据源主节点的IP地址、GP01账号和GP01密码，并发连接器链接与数据源主节点的IP地址。

步骤S402，利用所述数据源账号和所述数据源密码登录所述数据源主节点的控制台。

在本公开实施例中，比如，并发连接器利用配置表中GP01的GP01账号和GP01密码登录数据源主节点的控制台。

步骤S403，判断所述控制台的响应结果是否为验证成功，如果是，转至步骤S404；如果否，转至步骤S405。

步骤S404，将所述待读取数据发送给所述数据源主节点。

在本公开实施例中，在数据源主节点的控制台的响应结果为验证成功的情况下，表明数据源账号和数据源密码正确，并发服务器可以与数据源主节点通信，将待读取数据发送给数据源主节点。比如，GP01的数据源主节点对GP01账号和GP01密码验证成功，则并发连接器登录成功，可以与GP01的数据源主节点通信，向数据源主节点发送待读取数据。

步骤S405，向所述计算引擎返回验证失败的登录结果。

在本公开实施例中，在数据源主节点的控制台的响应结果为验证失败的情况下，表明数据源账号和数据源密码中的至少一者错误、被拒绝登录，也即，并发服务器不具有数据源的访问权限，则向计算引擎返回验证失败的登录结果，使得计算引擎将登录结果返回终端，由开发人员对并发服务器本地的并发配置表中的问题进行定位及修正。

在本公开实施例中，通过本公开的数据源主节点的访问方法，并发服务器从本地存储的并发配置表中获取数据源的地址、账号、密码等相关信息，并利用账号和密码与数据源主节点通信，发送待读取数据，以便于后续根据节点之间的对应关系并发读写，可以保证数据读取的安全性，防止数据泄露。

步骤S103，接收所述数据源主节点为所述待读取数据分配的第一节点信息，并访问与所述引擎地址对应的引擎主节点，获取所述计算引擎的第二节点信息。

在本公开实施例中，如图5所示，数据源包括数据源主节点和多个分段节点，计算引擎包括引擎主节点和多个从节点，数据源主节点接收到待读取数据后，根据待读取数据的分布位置和数据量，为待读取数据分配匹配数量的分段节点，生成第一节点信息并发送给并发连接器。

进一步地，引擎主节点本地的引擎配置表中存储了第二节点信息，第二节点信息包括计算引擎的各个工作节点的工作节点信息，包括工作节点标识、工作节点地址等。并发连接器利用本公开的数据源主节点的访问方法，链接与引擎标识的引擎主节点对应的引擎地址，利用引擎账号和引擎密码登录引擎主节点的控制台，在引擎主节点的控制台的响应结果为验证成功的情况下，与计算引擎主节点通信，从引擎主节点的引擎配置表中获取第二节点信息。

更进一步地，在引擎主节点的控制台的响应结果为验证失败的情况下，表明引擎账号和引擎密码中的至少一者错误、被拒绝登录，也即，并发服务器不具有计算引擎的访问权限，计算引擎向终端返回验证失败的登录结果，由开发人员进行定位及修正。

在本公开实施例中，如图6所示，本公开的第一节点信息的生成方法包括如下步骤：

在本公开实施例中，本公开的第一节点信息的生成方法由数据源主节点执行。

步骤S601，接收所述待读取数据。

步骤S602，根据所述待读取数据的文件标识，定位所述待读取数据在所述数据源中所属的多个第一目标分段节点。

步骤S603，利用所述第一目标分段节点的分段节点标识和分段节点地址，生成所述第一节点信息。

在本公开实施例中，通过本公开的第一节点信息的生成方法，由数据源主节点确定待读取数据所在的第一目标分段节点，并生成第一节点信息，可以便于后期并发连接器构建数据源和计算引擎之间的并发通道，以缓解数据源主节点压力，提高数据读写效率。

步骤S104，利用所述第一节点信息和所述第二节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎从所述数据源中并发采集所述待读取数据。

在本公开实施例中，如图5所示，并发服务器包括多个并发通道，根据第一节点信息和第二节点信息，利用并发通道连通数据源的第一目标分段节点和计算引擎的工作节点，使得计算引擎从数据源中并发采集待读取数据，如图7所示，本公开的待读取数据的并发读取方法包括如下步骤：

在本公开实施例中，本公开的待读取数据的并发读取方法由并发连接器执行。

步骤S701，根据所述第一节点信息，确定各个第一目标分段节点的分段节点标识、分段节点地址和第一数量。

步骤S702，根据所述第二节点信息，确定全部工作节点的工作节点标识、工作节点地址和第二数量。

步骤S703，从所述第二数量的工作节点中选取大于等于所述第一数量的第一目标工作节点。

在本公开实施例中，并发连接器从计算引擎的工作节点中选取大于等于第一目标分段节点的第一数量的工作节点作为第一目标工作节点。

步骤S704，分别为每一个所述第一目标分段节点分配一个第一目标工作节点，得到第一对应关系；其中，所述第一对应关系为所述第一目标分段节点的分段节点标识、分段节点地址和所述第一目标工作节点的工作节点标识、工作节点地址之间的对应关系。

在本公开实施例中，或者，可以为一个第一目标分段节点分配多个第一目标工作节点，以进一步提高数据读取效率，相应地，第一对应关系中一个分段节点标识对应多个工作节点标识。

步骤S705，根据所述第一对应关系，分别将每一个所述第一目标分段节点和所述第一目标工作节点通过所述并发通道连接，使得各个所述目标工作节点分别通过对应的并发通道、将从所述第一目标分段节点并发采集的第一目标数据存储至所述计算引擎。

在本公开实施例中，一个并发通道根据一个第一目标分段节点的分段节点地址和一个第一目标工作节点的工作节点地址，链接第一目标分段节点和第一目标工作节点，进而构建一个第一目标分段节点和一个第一目标工作节点之间的连通通道，各个第一目标工作节点并发从对应的第一目标分段节点上采集待读取数据，并发送给引擎主节点，由引擎主节点汇总为第一目标数据后存储至计算引擎。

进一步地，或者，各个第一目标工作节点根据数据查询请求，对采集的待读取数据进行计算后发送给引擎主节点，由引擎主节点汇总计算为第一目标数据后存储至计算引擎。

在本公开实施例中，通过本公开的待读取数据的并发读取方法，通过并发通道连接第一目标工作节点和第一目标分段节点，从而并发采集待读取数据，可以提高计算引擎的数据读取效率，进而提升数据计算和查询效率，扩展数据处理场景，满足多样化的业务需求。

在本公开实施例中，计算引擎的生产环境多种多样，数据处理请求也多种多样，比如，计算引擎向数据源写入数据，或者计算引擎删除数据源中的数据，本公开的并发连接器基于原生的二次开发，还可以实现数据的并发写入或者删除，高度融合实际的数据处理场景。

进一步地，如图8所示，本公开第一实施例的待写入数据的并发写入方法包括如下步骤：

在本公开实施例中，本公开第一实施例的待写入数据的并发写入方法由并发连接器执行。

步骤S801，接收一个或多个数据写入请求；其中，所述数据写入请求包括待写入数据、计算引擎的引擎标识、数据源的数据源标识和第三节点信息；其中，所述第三节点信息是所述计算引擎的引擎主节点利用为所述待写入数据分配的第二目标工作节点生成的。

在本公开实施例中，计算引擎的引擎主节点根据待写入数据的数据量大小，为待写入数据分配第二目标工作节点，得到第三节点信息，第三节点信息包括分配的第三数量的第二目标工作节点的工作节点标识、工作节点地址等。计算引擎利用引擎标识、待写入数据、被写入的数据源的数据源标识和第三节点信息生成数据写入请求，发送或者调用并发连接器进行处理。

进一步地，计算引擎为presto，数据源为GP，presto将数据写入请求发送给并发连接器；或者，presto在数据写入请求的数据源标识为GP的情况下，调用并发连接器进行处理。

步骤S802，从本地的并发配置表中查找与所述数据源标识对应的数据源地址，访问与所述数据源地址对应的数据源主节点，获取所述数据源主节点的数据源配置表中的第四节点信息。

在本公开实施例中，并发连接器利用本公开的数据源主节点的访问方法，与数据源主节点通信，获取数据源主节点的数据源配置表中的第四节点信息，第四节点信息包括数据源的各个分段节点的分段节点信息，包括分段节点标识、分段节点地址等。

步骤S803，根据所述第三节点信息和所述第四节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎向所述数据源中并发写入所述待写入数据。

步骤S8031，根据所述第三节点信息，确定各个第二目标工作节点的工作节点标识、工作节点地址和第三数量。

步骤S8032，根据所述第四节点信息，确定全部分段节点的分段节点标识、分段节点地址和第四数量。

步骤S8033，从所述第四数量的全部分段节点中选取等于所述第三数量的第二目标分段节点。

步骤S8034，分别为每一个所述第二目标工作节点分配一个第二目标分段节点，得到第二对应关系；其中，所述第二对应关系为所述第二目标工作节点的工作节点标识、工作节点地址和所述第二目标分段节点的分段节点标识、分段节点地址之间的对应关系。

在本公开实施例中，一个并发通道连接一个第二目标分段节点和一个第二目标工作节点。

步骤S8035，根据所述第二对应关系，分别将每一个所述第二目标工作节点和所述第二目标分段节点通过所述并发通道连接，使得各个所述目标工作节点分别通过对应的并发通道、将所述待写入数据并发写入所述数据源。

在本公开实施例中，一个并发通道根据一个第二目标工作节点的工作节点地址和一个第二目标分段节点的分段节点地址，链接第二目标工作节点和第二目标分段节点，进而构建一个第二目标工作节点和一个第二目标分段节点之间的连通通道，使得各个第二目标工作节点将待写入数据并发写入数据源。

进一步地，如图9所示，本公开第二实施例的待写入数据的并发写入方法包括如下步骤：

在本公开实施例中，本公开第二实施例的待写入数据的并发写入方法由数据源和计算引擎执行。

步骤S901，所述数据源主节点创建临时表和目标写入表，并将所述临时表同步至各个所述第二目标分段节点；其中，所述临时表的主键为随机分布键。

步骤S902，各个所述第二目标工作节点将所述待写入数据通过各个所述并发通道并发写入对应的第二目标分段节点的临时表中。

在本公开实施例中，比如，并发通道实现第二目标工作节点向临时表的写入可以是insert into函数。

步骤S903，所述数据源主节点将各个所述第二目标分段节点的临时表汇总至所述目标写入表，得到第二目标数据。

在本公开实施例中，通过本公开第二实施例的待写入数据的并发写入方法，计算引擎的工作节点通过并发连接的并发通道向数据源的分段节点的临时表并发写入数据，再由数据源主节点汇总得到第二目标数据，可以大大提高数据写入效率，缓解数据源主节点的资源压力和计算原理，满足多样化的计算需求和计算场景。

在本公开实施例中，通过本公开第一实施例的待写入数据的并发写入方法，避免了传统的集中向数据源主节点写入数据的行为，实现数据源的多个分段节点的并发写入，并且，采用随机分布键临时表，防止数据写入冲突，保证数据写入完整性，提高写入效率的同时提升写入准确度，扩展了数据处理场景，可以满足各式的业务需求。

在本公开实施例中，如图10所示，本公开的待删除数据的删除方法包括如下步骤：

在本公开实施例中，本公开的待删除数据的删除方法由并发连接器执行，通过在并发连接器中增加删除算子，删除算子的谓词下推逻辑精确至数据源的数据源标识，使得并发连接器可以识别到各种数据源，定位待删除数据在数据源中的位置并删除，实现计算引擎对数据源中的数据的删除逻辑。

步骤S1001，接收一个或多个数据删除请求；其中，所述数据删除请求包括待删除数据和数据源的数据源标识。

步骤S1002，访问与所述数据源标识对应的数据源主节点，将所述待删除数据发送给所述数据源主节点，接收所述数据源主节点返回的删除验证结果。

在本公开实施例中，为了保证数据源的完整性和可靠性，仅支持并发连接器对数据源的限制性删除，也即，由于全表数据的删除属于威胁数据完整性的危险行为，故而限制并发连接器的全表删除操作。数据源主节点在接收到并发连接器发送的待删除数据时，对待删除数据是否为全表数据进行判断，生成删除验证结果。

进一步地，删除验证结果包括允许删除、拒绝删除，允许删除的删除验证结果还包括待删除数据所属的一个或多个第三目标分段节点的分段节点标识及各个第三目标分段节点的目标主键区段。

步骤S1003，判断所述删除验证结果是否为允许删除，如果是，转至步骤S1004；如果否，转至步骤S1005。

步骤S1004，根据所述删除验证结果的第三目标分段节点的分段节点标识和目标主键区段，执行对所述待删除数据的删除操作。

在本公开实施例中，在删除验证结果为允许删除的情况下，并发连接器根据第三目标分段节点的节点标识和目标主键区段，定位待删除数据，并执行待删除数据的删除操作。

步骤S1005，拒绝所述数据删除请求。

在本公开实施例中，在删除验证结果为拒绝删除的情况下，并发连接器的删除操作被数据源主节点拦截，保证数据源的完整性和可靠性。

在本公开实施例中，通过本公开的待删除数据的删除方法，利用并发连接器中改进的删除算子，实现计算引擎对数据源的删除操作，大大扩展了数据处理的应用场景，可以满足多样化的业务处理需求。

在本公开实施例中，通过本公开的并发连接器的数据处理方法，利用新增的并发连接器连通计算引擎和数据源，实现计算引擎和数据源之间的并发读写及删除，可以大幅度提高计算引擎从数据源中读取数据、向数据源中写入数据的读写效率，弥补计算引擎对数据源的删除缺陷，经过验证读写效率可以提升10倍以上，大大缓解了数据源主节点的资源压力和计算压力，提升数据读写、删除和存储的稳定性，扩展了实际的数据处理适用场景，提升用户使用体验。

图11是根据本公开实施例的并发连接器的数据处理装置的主要模块的示意图，如图11所示，本公开的并发连接器的数据处理装置1100包括：

接收模块1101，用于接收一个或多个数据读取请求；其中，所述数据读取请求包括待读取数据、数据源的数据源标识和计算引擎的引擎标识。

或者，所述接收模块1101用于接收一个或多个数据写入请求；其中，所述数据写入请求包括待写入数据、数据源的数据源标识和第三节点信息；其中，所述第三节点信息是所述计算引擎的引擎主节点利用为所述待写入数据分配的第二目标工作节点生成的。

再或者，所述接收模块1101用于接收一个或多个数据删除请求；其中，所述数据删除请求包括待删除数据和数据源的数据源标识。

访问模块1102，用于从本地的并发配置表中查找与所述数据源标识对应的数据源地址和与所述引擎标识对应的引擎地址，访问与所述数据源地址对应的数据源主节点。

或者，所述访问模块1102用于从本地的并发配置表中查找与所述数据源标识对应的数据源地址，访问与所述数据源地址对应的数据源主节点，获取所述数据源主节点的数据源配置表中的第四节点信息。

再或者，所述访问模块1102用于与所述数据源标识对应的数据源主节点，将所述待删除数据发送给所述数据源主节点，接收所述数据源主节点返回的删除验证结果。

获取模块1103，用于接收所述数据源主节点为所述待读取数据分配的第一节点信息，并访问与所述引擎地址对应的引擎主节点，获取所述计算引擎的第二节点信息。

对接模块1104，用于利用所述第一节点信息和所述第二节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎从所述数据源中并发采集所述待读取数据。

或者，所述对接模块1104用于根据所述第三节点信息和所述第四节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎向所述数据源中并发写入所述待写入数据。

再或者，所述对接模块1104用于在所述删除验证结果为允许删除的情况下，根据所述删除验证结果的第三目标分段节点的分段节点标识和目标主键区段，执行对所述待删除数据的删除操作。

在本公开实施例中，所述数据处理系统的交互过程包括：

进一步地，所述数据源的数据源主节点为所述待读取数据分配第一节点信息，包括：

所述数据源主节点接收所述待读取数据，根据所述待读取数据的文件标识，定位所述待读取数据在所述数据源中所属的多个第一目标分段节点。

所述数据源主节点利用所述第一目标分段节点的分段节点标识和分段节点地址，生成所述第一节点信息。

在本公开实施例中，或者，所述数据处理系统的交互过程包括：

所述计算引擎的引擎主节点为待写入数据分配第二目标工作节点，得到第三节点信息，利用所述待写入数据、数据源的数据源标识和所述第三节点信息生成数据写入请求，将所述数据写入请求发送给所述并发连接器；

响应于所述数据写入请求，所述并发连接器从本地的并发配置表中查找与所述数据源标识对应的数据源地址，访问与所述数据源地址对应的数据源主节点，获取所述数据源主节点的数据源配置表中的第四节点信息；

所述并发连接器根据所述第三节点信息和所述第四节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎向所述数据源中并发写入所述待写入数据。

进一步地，所述并发连接器根据所述第三节点信息和所述第四节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎向所述数据源中并发写入所述待写入数据，包括：

所述并发连接器根据所述第三节点信息，确定各个第二目标工作节点的工作节点标识、工作节点地址和第三数量；

所述并发连接器根据所述第四节点信息，确定全部分段节点的分段节点标识、分段节点地址和第四数量；

所述并发连接器从所述第四数量的全部分段节点中选取等于所述第三数量的第二目标分段节点；

所述并发连接器分别为每一个所述第二目标工作节点分配一个第二目标分段节点，得到第二对应关系；其中，所述第二对应关系为所述第二目标工作节点的工作节点标识、工作节点地址和所述第二目标分段节点的分段节点标识、分段节点地址之间的对应关系；

所述并发连接器根据所述第二对应关系，分别将每一个所述第二目标工作节点和所述第二目标分段节点通过所述并发通道连接，使得各个所述目标工作节点分别通过对应的并发通道、将所述待写入数据并发写入所述数据源。

更进一步地，所述各个所述目标工作节点分别通过对应的并发通道、将所述待写入数据并发写入所述数据源，包括：

所述数据源主节点创建临时表和目标写入表，并将所述临时表同步至各个所述第二目标分段节点；其中，所述临时表的主键为随机分布键；

各个所述第二目标工作节点将所述待写入数据通过各个所述并发通道并发写入对应的第二目标分段节点的临时表中；

所述数据源主节点将各个所述第二目标分段节点的临时表汇总至所述目标写入表，得到第二目标数据。

所述并发连接器接收一个或多个数据删除请求；其中，所述数据删除请求包括待删除数据和数据源的数据源标识；

所述并发连接器访问与所述数据源标识对应的数据源主节点，将所述待删除数据发送给所述数据源主节点；

所述数据源主节点对所述待删除数据是否为全表数据进行判断，生成删除验证结果，并发送给所述并发连接器；

所述并发连接器在所述删除验证结果为允许删除的情况下，根据所述删除验证结果的第三目标分段节点的分段节点标识和目标主键区段，执行对所述待删除数据的删除操作。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图12，现将描述可以作为本公开的服务器或客户端的电子设备1200的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM1202以及RAM1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

电子设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206、输出单元1207、存储单元1208以及通信单元1209。输入单元1206可以是能向电子设备1200输入信息的任何类型的设备，输入单元1206可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1207可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1204可以包括但不限于磁盘、光盘。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMa12设备、蜂窝通信设备和/或类似物。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理。例如，在一些实施例中，图1、图3至4、图6至图10的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到电子设备1200上。在一些实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图1、图3至4、图6至图10的方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种并发连接器的数据处理方法，其特征在于，包括：

2.如权利要求1所述的数据处理方法，其特征在于，所述利用所述第一节点信息和所述第二节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎从所述数据源中并发采集所述待读取数据，包括：

根据所述第一节点信息和所述第二节点信息，确定所述数据源的第一目标分段节点和所述计算引擎的第一目标工作节点；

分别为每一个所述第一目标分段节点分配一个第一目标工作节点，得到第一对应关系；其中，所述第一对应关系为所述第一目标分段节点的分段节点标识、分段节点地址和所述第一目标工作节点的工作节点标识、工作节点地址之间的对应关系；

根据所述第一对应关系，分别将每一个所述第一目标分段节点和所述第一目标工作节点通过所述并发通道连接，使得各个所述目标工作节点分别通过对应的并发通道、将从所述第一目标分段节点并发采集的第一目标数据存储至所述计算引擎。

3.如权利要求1所述的数据处理方法，其特征在于，所述根据所述第一节点信息和所述第二节点信息，确定所述数据源的第一目标分段节点和所述计算引擎的第一目标工作节点，包括：

根据所述第一节点信息，确定各个第一目标分段节点的分段节点标识、分段节点地址和第一数量；

根据所述第二节点信息，确定全部工作节点的工作节点标识、工作节点地址和第二数量；

从所述第二数量的工作节点中选取大于等于所述第一数量的第一目标工作节点。

4.如权利要求1所述的数据处理方法，其特征在于，所述并发配置表还包括数据源账号和数据源密码；所述访问与所述数据源地址对应的数据源主节点，包括：

链接与所述数据源标识的数据源主节点对应的所述数据源地址；

利用所述数据源账号和所述数据源密码登录所述数据源主节点的控制台；

在所述控制台的响应结果为验证成功的情况下，将所述待读取数据发送给所述数据源主节点。

5.如权利要求1所述的数据处理方法，其特征在于，包括：

接收一个或多个数据写入请求；其中，所述数据写入请求包括待写入数据、数据源的数据源标识和第三节点信息；其中，所述第三节点信息是所述计算引擎的引擎主节点利用为所述待写入数据分配的第二目标工作节点生成的；

从本地的并发配置表中查找与所述数据源标识对应的数据源地址，访问与所述数据源地址对应的数据源主节点，获取所述数据源主节点的数据源配置表中的第四节点信息；

根据所述第三节点信息和所述第四节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎向所述数据源中并发写入所述待写入数据。

6.如权利要求5所述的数据处理方法，其特征在于，所述根据所述第三节点信息和所述第四节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎向所述数据源中并发写入所述待写入数据，包括：

根据所述第三节点信息，确定各个第二目标工作节点的工作节点标识、工作节点地址和第三数量；

根据所述第四节点信息，确定全部分段节点的分段节点标识、分段节点地址和第四数量；

从所述第四数量的全部分段节点中选取等于所述第三数量的第二目标分段节点，分别为每一个所述第二目标工作节点分配一个第二目标分段节点，得到第二对应关系；其中，所述第二对应关系为所述第二目标工作节点的工作节点标识、工作节点地址和所述第二目标分段节点的分段节点标识、分段节点地址之间的对应关系；

根据所述第二对应关系，分别将每一个所述第二目标工作节点和所述第二目标分段节点通过所述并发通道连接，使得各个所述目标工作节点分别通过对应的并发通道、将所述待写入数据并发写入所述数据源。

7.如权利要求1所述的数据处理方法，其特征在于，包括：

接收一个或多个数据删除请求；其中，所述数据删除请求包括待删除数据和数据源的数据源标识；

访问与所述数据源标识对应的数据源主节点，将所述待删除数据发送给所述数据源主节点，接收所述数据源主节点返回的删除验证结果；

在所述删除验证结果为允许删除的情况下，根据所述删除验证结果的第三目标分段节点的分段节点标识和目标主键区段，执行对所述待删除数据的删除操作。

8.如权利要求1至7中任一项所述的数据处理方法，其特征在于，所述计算引擎为presto，所述数据源为GreenPlum。

9.一种并发连接器的数据处理装置，其特征在于，包括：

10.一种数据处理系统，其特征在于，包括：计算引擎、数据源和并发连接器，所述并发连接器包括如权利要求9所述的并发连接器的数据处理装置，其中：

11.如权利要求10所述的数据处理系统，其特征在于，所述数据源的数据源主节点为所述待读取数据分配第一节点信息，包括：

12.如权利要求10所述的数据处理系统，其特征在于，还包括：

13.如权利要求12所述的数据处理系统，其特征在于，所述并发连接器根据所述第三节点信息和所述第四节点信息，将所述数据源和所述计算引擎对接，使得所述计算引擎向所述数据源中并发写入所述待写入数据，包括：

14.如权利要求13所述的数据处理系统，其特征在于，所述各个所述目标工作节点分别通过对应的并发通道、将所述待写入数据并发写入所述数据源，包括：

15.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的并发连接器的数据处理方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的并发连接器的数据处理方法。