CN117520461B

CN117520461B - 逻辑分片的分发方法、装置、设备和介质

Info

Publication number: CN117520461B
Application number: CN202410021715.9A
Authority: CN
Inventors: 杨珂; 沈游人; 杨娟; 唐昊哲; 胡甲韬; 夏润民
Original assignee: Beijing Haizhi Xingtu Technology Co ltd
Current assignee: Beijing Haizhi Xingtu Technology Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-04-02
Anticipated expiration: 2044-01-05
Also published as: CN117520461A

Abstract

本发明公开了一种逻辑分片的分发方法、装置、设备和介质，涉及计算机技术领域，具体包括：确定待分发逻辑分片所属的候选存储节点，并根据各候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从待分发逻辑分片中确定各候选计算节点对应的本地逻辑分片；从各候选计算节点对应的本地逻辑分片中，为各候选计算节点分发目标数量的本地逻辑分片，作为第一类逻辑分片；其中，目标数量表示可为各候选计算节点分发的本地逻辑分片的最小数量的最大值；将除第一类逻辑分片以外的待分发逻辑分片，作为第二类逻辑分片，且将第二类逻辑分片平均分发给各候选计算节点。本发明可以降低各候选计算节点进行数据加载整体所需的时间。

Description

逻辑分片的分发方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种逻辑分片的分发方法、装置、设备和介质。

背景技术

图计算系统是一种用于处理和分析图数据的计算框架，可以高效地执行各种图分析算法。图数据通常由节点和边组成，用于表示实体以及实体之间的关系和连接。图计算系统能够有效地处理和分析大规模、高度关联的数据，发现隐藏在数据背后的有价值信息和模式，对于挖掘社交网络、推荐引擎、欺诈检测、知识图谱构建等各种领域都至关重要。

图计算任务的执行通常包含下面三个步骤：从图数据库加载数据到图计算系统，执行图计算任务，输出计算结果。在存算分离架构下，由于计算节点和存储节点可能位于不同的服务器上，所以在加载数据时，计算节点需要通过网络读取远程服务器上存储节点的数据，而通常网络传输速度远小于CPU的计算速度，因此数据加载这一步很容易成为整个计算流程中的瓶颈所在。

发明内容

本发明提供了一种逻辑分片的分发方法、装置、设备和介质，以降低计算节点进行数据加载整体所需的时间。

根据本发明的一方面，提供了一种逻辑分片的分发方法，包括：

确定待分发逻辑分片所属的候选存储节点，并根据各所述候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从所述待分发逻辑分片中确定各所述候选计算节点对应的本地逻辑分片；

从各所述候选计算节点对应的本地逻辑分片中，为各所述候选计算节点分发目标数量的所述本地逻辑分片，作为第一类逻辑分片；其中，所述目标数量表示可为各所述候选计算节点分发的本地逻辑分片的最小数量的最大值；

将除所述第一类逻辑分片以外的所述待分发逻辑分片，作为第二类逻辑分片，且将所述第二类逻辑分片平均分发给各所述候选计算节点。

根据本发明的另一方面，提供了一种逻辑分片的分发装置，包括：

本地逻辑分片确定模块，用于确定待分发逻辑分片所属的候选存储节点，并根据各所述候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从所述待分发逻辑分片中确定各所述候选计算节点对应的本地逻辑分片；

第一类逻辑分片分发模块，用于从各所述候选计算节点对应的本地逻辑分片中，为各所述候选计算节点分发目标数量的所述本地逻辑分片，作为第一类逻辑分片；其中，所述目标数量表示可为各所述候选计算节点平均分发的本地逻辑分片的最大数量；

第二类逻辑分片分发模块，用于将除所述第一类逻辑分片以外的所述待分发逻辑分片，作为第二类逻辑分片，且将所述第二类逻辑分片平均分发给各所述候选计算节点。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的逻辑分片的分发方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的逻辑分片的分发方法。

本发明实施例的技术方案通过确定待分发逻辑分片所属的候选存储节点，并根据各候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从待分发逻辑分片中确定各候选计算节点对应的本地逻辑分片；从各候选计算节点对应的本地逻辑分片中，为各候选计算节点分发目标数量的本地逻辑分片，作为第一类逻辑分片；其中，目标数量表示可为各候选计算节点分发的本地逻辑分片最小数量的最大值；将除第一类逻辑分片以外的待分发逻辑分片，作为第二类逻辑分片，且将第二类逻辑分片平均分发给各候选计算节点，从而在保证各候选计算节点负载均衡的前提下，为各候选计算节点尽可能地分发更多数量的本地逻辑分片，由于本地逻辑分片节省了网络通信的开销，所需的加载时间较短，因此可以降低各候选计算节点进行数据加载整体所需的时间。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明实施例一提供的一种逻辑分片的分发方法的流程图；

图1B为本发明实施例一提供的一种可选的节点部署方案的示意图；

图1C为本发明实施例一提供的另一种可选的节点部署方案的示意图；

图1D为本发明实施例一提供的另一种可选的节点部署方案的示意图；

图2A为本发明实施例二提供的一种目标数量的确定方法的流程图；

图2B为本发明实施例二提供的一种二分图的示意图；

图2C为本发明实施例二提供的一种最大匹配方案的示意图；

图3为本发明实施例三提供的一种逻辑分片的分发装置的结构示意图；

图4是实现本发明实施例的逻辑分片的分发方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“待分发”、“本地”、“目标”、“候选”、“第一类”、“第二类”、“第一、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1A为本发明实施例一提供的一种逻辑分片的分发方法的流程图，本实施例可适用于为各候选计算节点分发逻辑分片，供各候选计算节点进行数据计算的情况，该方法可以由逻辑分片的分发装置来执行，该逻辑分片的分发装置可以采用硬件和/或软件的形式实现，如采用服务器实现。如图1A所示，该方法包括：

S101、确定待分发逻辑分片所属的候选存储节点，并根据各候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从待分发逻辑分片中确定各候选计算节点对应的本地逻辑分片。

其中，相对于单机图计算系统和单机图数据库，分布式图计算系统和分布式图数据库可以部署在多个服务器上，图数据通过一定的算法被划分到多个服务器上存储。为简单起见，下文将分布式图数据库称作候选存储节点，将分布式图计算系统称作候选计算节点。

存算分离架构是一种分布式数据库的系统设计模式，其中存储和计算功能被分离到不同的模块中，以提高系统可伸缩性、资源隔离能力、资源利用率。在存算分离架构下，候选计算节点可以和候选存储节点部署在相同的服务器上，也可以部署在不同的服务器上。

候选计算节点通常只负责数据的分析计算，图数据本身通过候选存储节点来存储和管理，在运行数据计算任务时，需要先从候选存储节点中将图数据读取到候选计算节点中。图数据是由点、边、以及点和边附带的属性所组成的数据。

图数据在存储于候选存储节点之前，预先采用分片技术进行数据切分，也即将图数据按照既定的算法(如哈希算法)划分成至少一个逻辑分片，各逻辑分片中包含若干数据量的图数据。对图数据进行数据切分完成后，将得到的至少一个逻辑分片作为待分发逻辑分片存储于对应的候选存储节点中。通过对图数据进行数据切分，能够增加系统的可伸缩性和负载均衡的能力。

在存算分离架构下，候选存储节点和候选计算节点的数量可以相同，也可以不同，他们部署的服务器可以相同，也可以不同。一台服务器可以只部署候选存储节点，也可以只部署候选计算节点，也可以同时部署候选存储节点和候选计算节点。具体部署方案由用户的配置和集群状态所决定。

图1B为本发明实施例一提供的一种可选的节点部署方案的示意图，如图1B所示，在此节点部署方案中，服务器1、服务器2、服务器3和服务器4均同时部署候选存储节点和候选计算节点，此时服务器1、服务器2、服务器3和服务器4均同时具备图数据存储及计算的能力。

图1C为本发明实施例一提供的另一种可选的节点部署方案的示意图，如图1C所示，在此节点部署方案中，服务器1仅部署候选存储节点，服务器2和服务器3均同时部署候选存储节点和候选计算节点，服务器4仅部署候选存储节点，此时服务器1仅具备图数据存储能力，服务器2和服务器3均同时具备图数据存储及计算的能力，服务器4仅具备图数据存储能力。

图1D为本发明实施例一提供的另一种可选的节点部署方案的示意图，如图1D所示，在此节点部署方案中，服务器1和服务器2仅部署候选存储节点，服务器3和服务器4仅部署候选计算节点，此时服务器1和服务器2仅具备图数据存储能力，服务器3和服务器4仅具备图数据计算能力。

当一个候选计算节点从一个候选存储节点加载一个待分发逻辑分片时，若候选存储节点和候选计算节点位于同一服务器，则该待分发逻辑分片称为该候选计算节点对应的本地逻辑分片，若候选存储节点和候选计算节点位于不同服务器，则该待分发逻辑分片称为该候选计算节点对应的远程逻辑分片。可以理解的是，由于加载远程逻辑分片相比于加载本地逻辑分片多了网络通信的开销，而通常情况下网络通信带宽远低于本地CPU、内存和外存处理速度，所以通常情况下远程逻辑分片加载时间远大于本地逻辑分片加载时间。因此对于一个候选计算节点，当分发的逻辑分片总数量一定时，其中包括的本地逻辑分片越多，则该候选计算节点的加载总耗时越少。

在一种实施方式中，确定本次计算任务包括的所有待分发逻辑分片，并确定各待分发逻辑分片存储于的候选存储节点，作为各待分发逻辑分片所属的候选存储节点。例如，假设待分发逻辑分片1存储于候选存储节点A中，那么待分发逻辑分片1所属的候选存储节点为候选存储节点A。

根据预先建立的候选存储节点与服务器的部署关系，确定各候选存储节点所属的服务器作为第一服务器，且根据预先建立的候选计算节点与服务器的部署关系，确定各候选计算节点所属的服务器作为第二服务器。例如，假设服务器1部署有候选存储节点A，则候选存储节点A所属的第一服务器为“服务器1”；又假设服务器2部署有候选计算节点A，则候选计算节点A所属的第二服务器为“服务器2”；又假设服务器3部署有候选存储节点B和候选计算节点B，则候选存储节点B所属的第一服务器为“服务器3”，候选计算节点B所属的第二服务器为“服务器3”。

将各候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器进行比对，并根据比对结果从待分发逻辑分片中确定各候选计算节点对应的本地逻辑分片。例如，假设候选存储节点B所属的第一服务器和候选计算节点B所属的第二服务器相同，也即候选存储节点B和候选计算节点B部署于同一服务器中，假设候选存储节点B中存储有待分发逻辑分片1、待分发逻辑分片2和待分发逻辑分片3，那么将待分发逻辑分片1、待分发逻辑分片2和待分发逻辑分片3作为候选计算节点B对应的本地逻辑分片。

S102、从各候选计算节点对应的本地逻辑分片中，为各候选计算节点分发目标数量的本地逻辑分片，作为第一类逻辑分片。

其中，目标数量表示可为各候选计算节点分发的本地逻辑分片的最小数量的最大值。对于一个计算任务而言，数据加载方案既需要保证负载均衡，即每个候选计算节点加载的数据量尽可能相同，也需要尽可能减少加载时间。因此，为各候选计算节点分发逻辑分片需要满足以下两个条件：1）负载均衡约束；2）尽可能分发更多数量的本地逻辑分片。当同时满足1）和2）两个条件时，则可以理解为：为各候选计算节点平均分发本地逻辑分片，且保证为各候选计算节点分发的本地逻辑分片的最小数量最大(也即目标数量)。这是因为，对于一个计算任务，数据加载完成时间取决于最慢的一个候选计算节点完成加载的时间，而最慢的候选计算节点就是本地逻辑分片最少的候选计算节点。

示例性的，假设共有候选计算节点A、候选计算节点B和候选计算节点C三个候选计算节点，假设候选计算节点A对应的本地逻辑分片为“待分发逻辑分片1”和“待分发逻辑分片2”；候选计算节点B对应的本地逻辑分片为“待分发逻辑分片3”和“待分发逻辑分片4”；候选计算节点C对应的本地逻辑分片为“待分发逻辑分片5”、“待分发逻辑分片6”和“待分发逻辑分片7”。

为了同时满足上述条件1）和2），可以理解的是，为候选计算节点A、候选计算节点B和候选计算节点C平均分发本地逻辑分片，且保证分发的本地逻辑分片的最小数量最大为“2”，也即目标数量为“2”。

分配方案1可以是：将“待分发逻辑分片1”和“待分发逻辑分片2”分发给候选计算节点A，将“待分发逻辑分片3”和“待分发逻辑分片4”分发给候选计算节点B，将“待分发逻辑分片5”和“待分发逻辑分片6”分发给候选计算节点C。

分配方案2可以是：将“待分发逻辑分片1”和“待分发逻辑分片2”分发给候选计算节点A，将“待分发逻辑分片3”和“待分发逻辑分片4”分发给候选计算节点B，将“待分发逻辑分片5”和“待分发逻辑分片7”分发给候选计算节点C。

分配方案3可以是：将“待分发逻辑分片1”和“待分发逻辑分片2”分发给候选计算节点A，将“待分发逻辑分片3”和“待分发逻辑分片4”分发给候选计算节点B，将“待分发逻辑分片6”和“待分发逻辑分片7”分发给候选计算节点C。

在一种实施方式中，根据各候选计算节点对应的本地逻辑分片，采用二分算法和二分图最大匹配算法进行方案查找，以确定同时满足上述条件1）和2）的方案，并输出得到的目标数量。进而依据目标数量为各候选计算节点分发本地逻辑分片，作为第一类逻辑分片。

S103、将除第一类逻辑分片以外的待分发逻辑分片，作为第二类逻辑分片，且将第二类逻辑分片平均分发给各候选计算节点。

在一种实施方式中，将所有的待分发逻辑分片中除去第一类逻辑分片的待分发逻辑分片，作为第二类逻辑分片。并根据候选计算节点的节点数量，将第二类逻辑分片平均分发给各候选计算节点，以保证各候选计算节点的负载均衡。

示例性的，假设所有的待分发逻辑分片的数量为“100”，其中第一类逻辑分片的数量为“50”，第二类逻辑分片的数量为“50”，假设候选计算节点的节点数量为10，则将第一类逻辑分片分发给各候选计算节点后，将剩余的50个第二类逻辑分片以任意方式平均分发给10个候选计算节点，也即每个候选计算节点分发5个第二类逻辑分片，以保证各候选计算节点的负载均衡。

本发明实施例的技术方案通过确定待分发逻辑分片所属的候选存储节点，并根据各候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从待分发逻辑分片中确定各候选计算节点对应的本地逻辑分片；从各候选计算节点对应的本地逻辑分片中，为各候选计算节点分发目标数量的本地逻辑分片，作为第一类逻辑分片；其中，目标数量表示可为各候选计算节点分发的本地逻辑分片的最小数量的最大值；将除第一类逻辑分片以外的待分发逻辑分片，作为第二类逻辑分片，且将第二类逻辑分片平均分发给各候选计算节点，从而以逻辑分片为粒度，通过二分算法与二分图最大匹配算法找到一个数据加载方案，使得所有候选计算节点加载逻辑分片数量相同的同时，所有计算节点加载的本地逻辑分片的最小数量最大，由于本地逻辑分片节省了网络通信的开销，所需的加载时间较短，因此在实现各候选计算节点负载均衡的同时，降低各候选计算节点进行数据加载整体所需的时间。

可选的，根据各候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从待分发逻辑分片中确定各候选计算节点对应的本地逻辑分片，包括：

将各候选存储节点所属的第一服务器与各候选计算节点所属的第二服务器进行比对；将第一服务器与第二服务器相同的候选存储节点以及候选计算节点，分别作为目标存储节点和目标计算节点；将目标存储节点存储的待分发逻辑分片，作为目标计算节点对应的本地逻辑分片。

示例性的，假设候选存储节点C所属的第一服务器为“服务器1”，候选计算节点C所属的第二服务器同样为“服务器1”，则将候选存储节点C和候选计算节点C分别作为目标存储节点和目标计算节点。假设候选存储节点C存储的待分发逻辑分片包括“待分发逻辑分片1”、“待分发逻辑分片2”、“待分发逻辑分片3”和“待分发逻辑分片4”，则将“待分发逻辑分片1”、“待分发逻辑分片2”、“待分发逻辑分片3”和“待分发逻辑分片4”作为候选计算节点C对应的本地逻辑分片。

通过将各候选存储节点所属的第一服务器与各候选计算节点所属的第二服务器进行比对；将第一服务器与第二服务器相同的候选存储节点以及候选计算节点，分别作为目标存储节点和目标计算节点；将目标存储节点存储的待分发逻辑分片，作为目标计算节点对应的本地逻辑分片，实现了确定各候选计算节点对应的本地逻辑分片的效果，为后续为各候选计算节点分发本地逻辑分片奠定了数据基础。

实施例二

图2A为本发明实施例二提供的一种目标数量的确定方法的流程图，本实施例对上述实施例一中“目标数量”的确定方式进行进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2A所示，该方法包括：

步骤1、为各候选计算节点分别构建初始数量的虚拟逻辑分片。

其中，初始数量为各候选计算节点对应的本地逻辑分片的数量上限和数量下限之间的均值，数量上限为待分发逻辑分片和候选计算节点之间的数量比值，数量下限为零。

在一种实施方式中，在第一次迭代时，根据本地逻辑分片的数量上限和数量下限之间的均值计算得到初始数量。数量上限为待分发逻辑分片和候选计算节点之间的数量比值，数量下限为零。按照计算得到的初始数量，分别为各候选计算节点构建虚拟逻辑分片。

示例性的，假设待分发逻辑分片的数量为“s”，候选计算节点的数量为“c”，则本地逻辑分片的数量上限为“s/c”，本地逻辑分片的数量下限为“0”，初始数量为“(s/c+0)/2=s/2c”。则为每个候选计算节点构建“s/2c”个虚拟逻辑分片。

步骤2、若任一待分发逻辑分片为任一候选计算节点对应的本地逻辑分片，则构建该待分发逻辑分片与该候选计算节点对应的各虚拟逻辑分片之间的连接关系。

示例性的，假设候选计算节点A对应的本地逻辑分片为“待分发逻辑分片1”、“待分发逻辑分片2”和“待分发逻辑分片3”，候选计算节点A包括的虚拟逻辑分片为“虚拟逻辑分片1”和“虚拟逻辑分片2”，则构建“待分发逻辑分片1”与“虚拟逻辑分片1”和“虚拟逻辑分片2”之间的连接关系，构建“待分发逻辑分片2”与“虚拟逻辑分片1”和“虚拟逻辑分片2”之间的连接关系，构建“待分发逻辑分片3”与“虚拟逻辑分片1”和“虚拟逻辑分片2”之间的连接关系。

步骤3、基于构建的连接关系生成由待分发逻辑分片和虚拟逻辑分片组成的二分图，并确定二分图包括的至少一个最大匹配方案。

其中，若一个无向图中顶点可分割为两个互不相交的子集，并且图中的每条边所关联的两个顶点分别属于这两个互不相交的子集，则称该无向图为二分图。在本实施例中，这两个互不相交的子集分别为“待分发逻辑分片集合”和“虚拟逻辑分片集合”。

给定一个二分图，在该二分图的任一子图中，若该子图的边集合中的任意两条边都不交汇于同一个顶点，则称该子图是该二分图的一个匹配方案，进而选择边集合中边数最大的子图作为该二分图的最大匹配方案。

在一种实施方式中，根据构建的待分发逻辑分片和虚拟逻辑分片之间的连接关系，生成由待分发逻辑分片和虚拟逻辑分片组成的二分图。采用任意二分图最大匹配算法，如匈牙利算法或网络流算法，求得该二分图包括的至少一个最大匹配方案。

图2B为本发明实施例二提供的一种二分图的示意图，如图2B所示，假设共包括待分发逻辑分片1(以下简称分片1)、待分发逻辑分片2(以下简称分片2)、待分发逻辑分片3(以下简称分片3)、待分发逻辑分片4(以下简称分片4)、待分发逻辑分片5(以下简称分片5)和待分发逻辑分片6(以下简称分片6)。假设共包括候选计算节点1和候选计算节点2，其中，候选计算节点1包括虚拟逻辑分片1(以下简称虚拟1)和虚拟逻辑分片2(以下简称虚拟2)；候选计算节点2包括虚拟逻辑分片3(以下简称虚拟3)和虚拟逻辑分片4(以下简称虚拟4)。

假设候选计算节点1对应的本地逻辑分片为“分片1”、“分片2”和“分片3”，候选计算节点2对应的本地逻辑分片为“分片3”和“分片5”，则构建“分片1”与“虚拟1”和“虚拟2”之间的连接关系，构建“分片2”与“虚拟1”和“虚拟2”之间的连接关系，构建“分片3”与“虚拟1”、“虚拟2”、“虚拟3”和“虚拟4”之间的连接关系，构建“分片5”与“虚拟3”和“虚拟4”之间的连接关系。

进而根据构建的连接关系，生成“分片1、分片2、分片3、分片4、分片5和分片6”和“虚拟1、虚拟2、虚拟3和虚拟4”组成的二分图。

图2C为本发明实施例二提供的一种最大匹配方案的示意图，继续以图2B中的“二分图”为例进行解释说明，确定图2B中的“二分图”包括的至少一个最大匹配方案，如图2C所示，为图2B中的“二分图”包括的一种最大匹配方案，在该最大匹配方案中，“分片1”与“虚拟1”和“虚拟2”之间存在连接关系，“分片3”与“虚拟3”之间存在连接关系，“分片5”与“虚拟4”之间存在连接关系。

步骤4、根据最大匹配方案确定目标数量。

在一种实施方式中，确定在各最大匹配方案中是否存在各虚拟逻辑分片均存在连接关系的情况，若是，则将此时的初始数量作为候选数量，并进一步增大初始数量并重新遍历步骤1~步骤4；若否，则进一步减小初始数量并重新遍历步骤1~步骤4。最终迭代结束后，得到至少一个候选数量，并选取最大候选数量作为目标数量。

通过步骤1、为各候选计算节点分别构建初始数量的虚拟逻辑分片；步骤2、若任一待分发逻辑分片为任一候选计算节点对应的本地逻辑分片，则构建该待分发逻辑分片与该候选计算节点对应的各虚拟逻辑分片之间的连接关系；步骤3、基于构建的连接关系生成由待分发逻辑分片和虚拟逻辑分片组成的二分图，并确定二分图包括的至少一个最大匹配方案；步骤4、根据最大匹配方案确定目标数量，从而通过二分图实现了对目标数量的确定，在保证计算任务负载均衡的前提下，使得所有候选计算节点的本地逻辑分片数量尽量大，从而极大降低了数据加载整体所需时间。

可选的，根据最大匹配方案确定目标数量，包括：

步骤41、确定是否存在任一最大匹配方案中各虚拟逻辑分片均存在连接关系；若是则执行步骤421，若否则执行步骤422。

以图2C中的最大匹配方案为例进行解释说明，在图2C的最大匹配方案中“虚拟1”与“分片2”存在连接关系，“虚拟2”与“分片1”存在连接关系，“虚拟3”与“分片3”存在连接关系，“虚拟4”与“分片5”存在连接关系，也即各虚拟逻辑分片均存在连接关系。

步骤421、将初始数量作为候选数量，并增大初始数量以对初始数量进行更新，并采用更新后的初始数量重新执行步骤1~步骤4，直至满足迭代停止条件时，执行步骤43。

在一种实施方式中，通过增大数量下限的方式来增大初始数量，并根据增大后的初始数量，重新执行步骤1~步骤4，直至满足迭代停止条件时，执行步骤43。

可选的，增大初始数量以对初始数量进行更新，包括：

将数量下限设置为初始数量加一以对数量下限进行更新，并根据数量上限和更新后的数量下限之间的均值，确定更新后的初始数量。

示例性的，假设原先的数量下限为0，数量上限为“s/c”，初始数量为“s/2c”，则将数量下限更新为“(s/2c)+1”，更新后的初始数量为“[(s/2c)+1+s/c]/2=(3s+2c)/4c”。

通过将数量下限设置为初始数量加一以对数量下限进行更新，并根据数量上限和更新后的数量下限之间的均值，确定更新后的初始数量，从而在初始数量满足要求的前提下，继续使用增大后的初始数量重新进行算法迭代，实现了数据遍历的效果，保证最终确定的目标数量的准确性。

步骤422、减小初始数量以对初始数量进行更新，并采用更新后的初始数量重新执行步骤1~步骤4，直至满足迭代停止条件时，执行步骤43。

在一种实施方式中，通过减小数量上限的方式来减小初始数量，并根据减小后的初始数量，重新执行步骤1~步骤4，直至满足迭代停止条件时，执行步骤43。

可选的，减小初始数量以对初始数量进行更新，包括：

将数量上限设置为初始数量减一以对数量上限进行更新，并根据数量下限和更新后的数量上限之间的均值，确定更新后的初始数量。

示例性的，假设原先的数量下限为0，数量上限为“s/c”，初始数量为“s/2c”，则将数量上限更新为“(s/2c)-1”，更新后的初始数量为“[(s/2c)-1+0]/2=(s-2c)/4c”。

通过将数量上限设置为初始数量减一以对数量上限进行更新，并根据数量下限和更新后的数量上限之间的均值，确定更新后的初始数量，从而在初始数量不满足要求的前提下，继续使用减少后的初始数量重新进行算法迭代，实现了数据遍历的效果，保证最终确定的目标数量的准确性。

可选的，迭代停止条件为：更新后的数量下限大于更新后的数量上限。

其中，当更新后的数量下限大于更新后的数量上限时，则停止对初始数量的更新，并跳转执行步骤43。

通过设置迭代停止条件为：更新后的数量下限大于更新后的数量上限，避免出现算法无限循环迭代的情况，保证了算法的可终止性以及目标数量的可获取性。

步骤43、选取最大的候选数量作为目标数量。

其中，在多次迭代中会产生若干的候选数量，并从候选数量中选择最大的一个作为目标数量。

通过步骤41、确定是否存在任一最大匹配方案中各虚拟逻辑分片均存在连接关系；若是则执行步骤421，若否则执行步骤422；步骤421、将初始数量作为候选数量，并增大初始数量以对初始数量进行更新，并采用更新后的初始数量重新执行步骤1~步骤4，直至满足迭代停止条件时，执行步骤43；步骤422、减小初始数量以对初始数量进行更新，并采用更新后的初始数量重新执行步骤1~步骤4，直至满足迭代停止条件时，执行步骤43；步骤43、选取最大的候选数量作为目标数量，实现了算法迭代的效果，保证了最终算法输出的目标数量的准确性和可靠性。

可选的，从各候选计算节点对应的本地逻辑分片中，为各候选计算节点分发目标数量的本地逻辑分片，包括：

确定目标数量所对应的最大匹配方案，作为目标最大匹配方案；按照目标最大匹配方案中各待分发逻辑分片与各虚拟逻辑分片之间的连接关系，为各候选计算节点分发目标数量的本地逻辑分片。

示例性的，继续以图2C中的最大匹配方案为例进行解释说明，假设图2C中的最大匹配方案为目标最大匹配方案，则按照该最大匹配方案，将“分片1”和“分片2”分发给候选计算节点1，供候选计算节点1根据“分片1”和“分片2”进行计算；将“分片3”和“分片5”分发给候选计算节点2，供候选计算节点2根据“分片3”和“分片5”进行计算。

通过确定目标数量所对应的最大匹配方案，作为目标最大匹配方案；按照目标最大匹配方案中各待分发逻辑分片与各虚拟逻辑分片之间的连接关系，为各候选计算节点分发目标数量的本地逻辑分片，从而确定了本地逻辑分片的具体分发方式，保证了本地逻辑分片分发的效率以及可行性。

实施例三

图3为本发明实施例三提供的一种逻辑分片的分发装置的结构示意图。如图3所示，该装置包括：

本地逻辑分片确定模块31，用于确定待分发逻辑分片所属的候选存储节点，并根据各候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从待分发逻辑分片中确定各候选计算节点对应的本地逻辑分片；

第一类逻辑分片分发模块32，用于从各候选计算节点对应的本地逻辑分片中，为各候选计算节点分发目标数量的本地逻辑分片，作为第一类逻辑分片；其中，目标数量表示可为各候选计算节点分发的本地逻辑分片的最小数量的最大值；

第二类逻辑分片分发模块33，用于将除第一类逻辑分片以外的待分发逻辑分片，作为第二类逻辑分片，且将第二类逻辑分片平均分发给各候选计算节点。

可选的，本地逻辑分片确定模块31，具体用于：

将各候选存储节点所属的第一服务器与各候选计算节点所属的第二服务器进行比对；

将第一服务器与第二服务器相同的候选存储节点以及候选计算节点，分别作为目标存储节点和目标计算节点；

将目标存储节点存储的待分发逻辑分片，作为目标计算节点对应的本地逻辑分片。

可选的，装置还包括目标数量确定装置，具体用于：

步骤1、为各候选计算节点分别构建初始数量的虚拟逻辑分片；其中，初始数量为各候选计算节点对应的本地逻辑分片的数量上限和数量下限之间的均值，数量上限为待分发逻辑分片和候选计算节点之间的数量比值，数量下限为零；

步骤2、若任一待分发逻辑分片为任一候选计算节点对应的本地逻辑分片，则构建该待分发逻辑分片与该候选计算节点对应的各虚拟逻辑分片之间的连接关系；

步骤3、基于构建的连接关系生成由待分发逻辑分片和虚拟逻辑分片组成的二分图，并确定二分图包括的至少一个最大匹配方案；

步骤4、根据最大匹配方案确定目标数量。

可选的，目标数量确定装置，具体还用于：

步骤41、确定是否存在任一最大匹配方案中各虚拟逻辑分片均存在连接关系；

若是则执行步骤421，若否则执行步骤422；

步骤421、将初始数量作为候选数量，并增大初始数量以对初始数量进行更新，并采用更新后的初始数量重新执行步骤1~步骤4，直至满足迭代停止条件时，执行步骤43；

步骤422、减小初始数量以对初始数量进行更新，并采用更新后的初始数量重新执行步骤1~步骤4，直至满足迭代停止条件时，执行步骤43；

步骤43、选取最大的候选数量作为目标数量。

可选的，目标数量确定装置，具体还用于：

将数量下限设置为初始数量加一以对数量下限进行更新，并根据数量上限和更新后的数量下限之间的均值，确定更新后的初始数量；

目标数量确定装置，具体还用于：

可选的，第一类逻辑分片分发模块32，具体用于：

确定目标数量所对应的最大匹配方案，作为目标最大匹配方案；

按照目标最大匹配方案中各待分发逻辑分片与各虚拟逻辑分片之间的连接关系，为各候选计算节点分发目标数量的本地逻辑分片。

本发明实施例所提供的逻辑分片的分发装置可执行本发明任意实施例所提供的逻辑分片的分发方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备40包括至少一个处理器41，以及与至少一个处理器41通信连接的存储器，如只读存储器（ROM）42、随机访问存储器（RAM）43等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器41可以根据存储在只读存储器（ROM）42中的计算机程序或者从存储单元48加载到随机访问存储器（RAM）43中的计算机程序，来执行各种适当的动作和处理。在RAM 43中，还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出（I/O）接口45也连接至总线44。

电子设备40中的多个部件连接至I/O接口45，包括：输入单元46，例如键盘、鼠标等；输出单元47，例如各种类型的显示器、扬声器等；存储单元48，例如磁盘、光盘等；以及通信单元49，例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理，例如逻辑分片的分发方法。

在一些实施例中，逻辑分片的分发方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元48。在一些实施例中，计算机程序的部分或者全部可以经由ROM 42和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时，可以执行上文描述的逻辑分片的分发方法的一个或多个步骤。备选地，在其他实施例中，处理器41可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行逻辑分片的分发方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种逻辑分片的分发方法，其特征在于，包括：

将除所述第一类逻辑分片以外的所述待分发逻辑分片，作为第二类逻辑分片，且将所述第二类逻辑分片平均分发给各所述候选计算节点；

其中，所述目标数量通过如下方式确定：

步骤1、为各所述候选计算节点分别构建初始数量的虚拟逻辑分片；其中，所述初始数量为各所述候选计算节点对应的本地逻辑分片的数量上限和数量下限之间的均值，所述数量上限为所述待分发逻辑分片和所述候选计算节点之间的数量比值，所述数量下限为零；

步骤2、若任一所述待分发逻辑分片为任一所述候选计算节点对应的本地逻辑分片，则构建该待分发逻辑分片与该候选计算节点对应的各所述虚拟逻辑分片之间的连接关系；

步骤3、基于构建的连接关系生成由所述待分发逻辑分片和所述虚拟逻辑分片组成的二分图，并确定所述二分图包括的至少一个最大匹配方案；

步骤4、根据所述最大匹配方案确定所述目标数量。

2.根据权利要求1所述的方法，其特征在于，所述根据各所述候选存储节点所属的第一服务器以及各候选计算节点所属的第二服务器，从所述待分发逻辑分片中确定各所述候选计算节点对应的本地逻辑分片，包括：

将各所述候选存储节点所属的第一服务器与各所述候选计算节点所属的第二服务器进行比对；

将所述第一服务器与所述第二服务器相同的所述候选存储节点以及所述候选计算节点，分别作为目标存储节点和目标计算节点；

将所述目标存储节点存储的所述待分发逻辑分片，作为所述目标计算节点对应的所述本地逻辑分片。

3.根据权利要求1所述的方法，其特征在于，所述根据所述最大匹配方案确定所述目标数量，包括：

步骤41、确定是否存在任一所述最大匹配方案中各所述虚拟逻辑分片均存在连接关系；

若是则执行步骤421，若否则执行步骤422；

步骤421、将所述初始数量作为候选数量，并增大所述初始数量以对所述初始数量进行更新，并采用更新后的所述初始数量重新执行所述步骤1~所述步骤4，直至满足迭代停止条件时，执行步骤43；

步骤422、减小所述初始数量以对所述初始数量进行更新，并采用更新后的所述初始数量重新执行所述步骤1~所述步骤4，直至满足迭代停止条件时，执行步骤43；

步骤43、选取最大的所述候选数量作为所述目标数量。

4.根据权利要求3所述的方法，其特征在于，所述增大所述初始数量以对所述初始数量进行更新，包括：

将所述数量下限设置为所述初始数量加一以对所述数量下限进行更新，并根据所述数量上限和更新后的所述数量下限之间的均值，确定更新后的所述初始数量；

所述减小所述初始数量以对所述初始数量进行更新，包括：

将所述数量上限设置为所述初始数量减一以对所述数量上限进行更新，并根据所述数量下限和更新后的所述数量上限之间的均值，确定更新后的所述初始数量。

5.根据权利要求4所述的方法，其特征在于，所述迭代停止条件为：更新后的所述数量下限大于更新后的所述数量上限。

6.根据权利要求3所述的方法，其特征在于，所述从各所述候选计算节点对应的本地逻辑分片中，为各所述候选计算节点分发目标数量的所述本地逻辑分片，包括：

确定所述目标数量所对应的所述最大匹配方案，作为目标最大匹配方案；

按照所述目标最大匹配方案中各所述待分发逻辑分片与各所述虚拟逻辑分片之间的连接关系，为各所述候选计算节点分发所述目标数量的所述本地逻辑分片。

7.一种逻辑分片的分发装置，其特征在于，包括：

第一类逻辑分片分发模块，用于从各所述候选计算节点对应的本地逻辑分片中，为各所述候选计算节点分发目标数量的所述本地逻辑分片，作为第一类逻辑分片；其中，所述目标数量表示可为各所述候选计算节点分发的本地逻辑分片的最小数量的最大值；

第二类逻辑分片分发模块，用于将除所述第一类逻辑分片以外的所述待分发逻辑分片，作为第二类逻辑分片，且将所述第二类逻辑分片平均分发给各所述候选计算节点；

所述装置还包括目标数量确定装置，具体用于：

步骤4、根据所述最大匹配方案确定所述目标数量。

8.根据权利要求7所述的装置，其特征在于，所述本地逻辑分片确定模块，具体用于：

9.根据权利要求7所述的装置，其特征在于，所述目标数量确定装置，具体还用于：

若是则执行步骤421，若否则执行步骤422；

步骤43、选取最大的所述候选数量作为所述目标数量。

10.根据权利要求9所述的装置，其特征在于，所述目标数量确定装置，具体还用于：

所述目标数量确定装置，具体还用于：

11.根据权利要求10所述的装置，其特征在于，所述迭代停止条件为：更新后的所述数量下限大于更新后的所述数量上限。

12.根据权利要求9所述的装置，其特征在于，所述第一类逻辑分片分发模块，具体用于：

13.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的逻辑分片的分发方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的逻辑分片的分发方法。