CN111931082A

CN111931082A - 一种基于分布式集群的大规模数据排序方法及系统

Info

Publication number: CN111931082A
Application number: CN202010732771.5A
Authority: CN
Inventors: 李琦; 宋卫东
Original assignee: Chongqing Ruiyun Technology Co ltd
Current assignee: Chongqing Ruiyun Technology Co ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-13
Anticipated expiration: 2040-07-27
Also published as: CN111931082B

Abstract

本发明提供一种基于分布式集群的大规模数据排序方法及系统，该方法包括：在分布式集群网络中，当第一节点接收到排序指令时，获取待排序样本，并向分布式集群网络发起排序请求；分布式集群网络中的第二节点，用于获取至少部分待排序样本，并放入到自身数位寄存器中，按照预设排序方法对至少部分待排序样本进行排序，得到第一排序结果，然后将第一排序结果发送到指定的第三节点；第三节点用于将各第一排序结果两两进行融合处理，直至得到待排序样本的最终排序结果；并将最终排序结果回传给第一节点。通过对大规模的排序样本进行拆分，利用分布式集群的方式，能够更高效的进行数据排序处理，突破传统模式的瓶颈。

Description

一种基于分布式集群的大规模数据排序方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于分布式集群的大规模数据排序方法及系统。

背景技术

在对一客体进行分析时，往往会对对其进行排序，当前在处理数据排序上常见的是单机数据排序方法，往往在数据量较小是，不会产生任何影响，但是一旦样本数量较大时，将会严重影响排序效率，例如有1千万+客户样本，并且每位客户有多个属性，那么分别对其进行排序时，采用传统的单机排序机制以及数据处理方式，就显得格外吃力，耗费时间将较长，因此排序机制就显得格外重要。

针对行业数据的日益剧增，为了解决大规模数据的排序处理难题，本案通过采用分布式集群技术，使其能够提升效率。

发明内容

本发明提供的一种基于分布式集群的大规模数据排序方法及系统，主要解决的技术问题是：现有大规模数据排序效率低，耗费时间长。

为解决上述技术问题，本发明提供一种基于分布式集群的大规模数据排序方法，包括：

在分布式集群网络中，当第一节点接收到排序指令时，获取待排序样本，并向所述分布式集群网络发起排序请求，所述排序请求包含所述待排序样本；

所述分布式集群网络中的第二节点，用于从所述待排序样本中获取至少部分待排序样本，并将所述至少部分待排序样本放入到自身数位寄存器中，按照预设排序方法对所述至少部分待排序样本进行排序，得到第一排序结果，然后将所述第一排序结果发送到指定的第三节点；所述第二节点为所述分布式集群网络中除所述第一节点与所述第三节点外的至少部分任意节点；所述第二节点的数量为M，所述第三节点的数量为N，且所述M大于等于10，所述N大于等于2，且所述M大于所述N*2；

所述第三节点用于将各所述第一排序结果两两进行融合处理，直至得到所述待排序样本的最终排序结果；并将所述最终排序结果回传给所述第一节点。

可选的，所述第一节点按照设定样本数量，将所述待排序样本划分为若干组K；

所述向所述分布式集群网络发起排序请求，所述排序请求包含所述待排序样本包括：选取K个第二节点，并分别向各所述第二节点发起排序子请求，所述排序子请求中包含划分后的一组待排序样本，且向各所述第二节点发送的各组待排序样本不同。

可选的，在所述分布式集群网络中的第二节点数量Q小于所述K时，将所述设定样本数量更新为所述L，所述L为所述待排序样本数量与所述Q的比值向上取整，重新对所述待排序样本划分为P组，并分别发送给P个第二节点，所述P小于等于所述Q。

可选的，所述分布式集群网络为区块链网络。

可选的，所述预设排序方法包括：

所述第二节点建立与所述至少部分待排序样本数量对等的数位寄存器空白区间，依次将所述至少部分待排序样本放入到所述空白区间内，利用所述数位寄存器对所述至少部分待排序样本的各个样本进行位数识别，判断各个样本的位数是否均相同，若否，将位数较少的样本置前，将位数较多的样本置后；基于位数完成初步排序后，针对位数相同的样本两两进行数值大小比较，得到所述第一排序结果；若判断各个样本的位数均相同，则直接对各个样本两两进行数值大小比较。

可选的，所述第三节点用于将各所述第一排序结果两两进行融合处理包括：

所述第三节点针对接收到的各所述第一排序结果，两两分为一组，针对每一组，将其中一所述第一排序结果的第一位样本与另一所述第一排序结果的第一位样本进行比较，将数值较小的样本放入到结果区间的第一位；将数值较大的样本与对方第一排序结果中的第二位样本进行比较，将数值较小的样本放入到结果区间的第二位；将数值较大的样本与对方第一排序结果中的余下数值最小的样本进行比较，以此类推，直至某一第一排序结果中的所有样本被放入到结果区间中，另一第一排序结果中余下未比较样本直接依次放入到该结果区间，得到该组排序结果；针对其他组，重复执行上述融合过程，以此得到该第三节点所有组的第二排序结果；

针对该第三节点所有组的第二排序结果，重复执行上述融合过程，直至得到该第三节点所有第一排序结果的第三排序结果；

针对各第三节点对其第一排序结果的第三排序结果，重复执行上述融合过程，得到所述待排序样本的最终排序结果。

本发明还提供一种基于分布式集群的大规模数据排序系统，包括第一节点、若干第二节点和若干第三节点，以用于实现如上任一项所述的基于分布式集群的大规模数据排序方法的步骤。

本发明的有益效果是：

根据本发明提供的一种基于分布式集群的大规模数据排序方法及系统，该方法包括：在分布式集群网络中，当第一节点接收到排序指令时，获取待排序样本，并向分布式集群网络发起排序请求，排序请求包含待排序样本；分布式集群网络中的第二节点，用于从待排序样本中获取至少部分待排序样本，并将至少部分待排序样本放入到自身数位寄存器中，按照预设排序方法对至少部分待排序样本进行排序，得到第一排序结果，然后将第一排序结果发送到指定的第三节点；第二节点为分布式集群网络中除第一节点与第三节点外的至少部分任意节点；第二节点的数量为M，第三节点的数量为N，且M大于等于10，N大于等于2，且M大于N*2；第三节点用于将各第一排序结果两两进行融合处理，直至得到待排序样本的最终排序结果；并将最终排序结果回传给第一节点。通过对大规模的排序样本进行拆分，利用分布式集群的方式，能够更高效的进行数据排序处理，突破传统模式的瓶颈。

附图说明

图1为本发明实施例一的基于分布式集群的大规模数据排序方法流程示意图；

图2为本发明实施例二的基于分布式集群的大规模数据排序系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

为了解决当前针对大规模数据进行排序存在效率低，耗费时间长的问题，本实施例提供一种基于分布式集群的大规模数据排序方法，通过对大规模的排序样本进行拆分，利用分布式集群的方式，能够更高效的进行数据排序处理，突破传统模式的瓶颈。

请参见图1，图1为本实施例提供的基于分布式集群的大规模数据排序方法流程示意图，该方法主要包括如下步骤：

S101、第一节点获取待排序样本，发起排序请求。

本方案首先需要构建分布式集群网络或者利用现有的分布式集群网络，构建的分布式集群可以是局域网、城域网的方式，现有的分布式集群例如可以采用区块链网络，对此不做限制。

对于存在大规模数据排序需求的用户而言，通过相关设备，例如移动终端、PC、服务器等(相当于第一节点，也可称为请求节点)，通过上传需要进行排序的待排序样本，下发排序指令实现分布式集群的自动排序过程，排序过程高效便捷。

第一节点接收到用户排序指令时，基于用户上传或者指定的位置获取得到待排序样本。从而向分布式集群网络发起排序请求，请求网络中相应节点对该待排序样本进行排序处理，从而提高排序效率。其中，排序请求中包含待排序样本，以供网络中其他节点可以获取得到。

在发起排序请求之前，第一节点可按照设定样本数量，将待排序样本划分为若干组K。其中设定样本数量可以根据实际情况灵活设置，对此不作限制。例如，设定样本数量设置为10，假设待排序样本数量为10万，则可分为1万组待排序样本。

第一节点选取K个节点，分别向各个第二节点(也可称为排序节点)发起排序子请求，其中每一排序子请求中携带有一组待排序样本，且向各个第二节点发送的各组待排序样本不同，使得该待排序样本能够被均匀分配到各个第二节点。

当待排序样本数量过于庞大时，按照设定样本数量进行分组划分，得到的分组可能没有足够数量的第二节点负责处理。对此，本方案在分布式集群网络中的第二节点数量Q小于分组数K时，将设定样本数量更新为L，其中L为待排序样本数量与第二节点数量Q的比值向上取整，重新对待排序样本划分为P组，并分别发送给P个第二节点，其中P必然小于等于第二节点数量Q。使得待排序样本能够全部分配到分布式集群网络中各个第二节点进行处理。

可选实施例中，在第一节点获取到待排序样本时，先识别待排序样本数据量，当样本数据量低于设定数据量阈值时，不再向分布式集群网络发起排序请求，可利用自身处理资源进行处理；避免造成网络资源浪费；只有当数据量达到设定数据量阈值时，再向分布式集群网络发起排序请求，保证排序效率。其中，设定数据量阈值可实际网络中各节点协议设定。

S102、第二节点将相应的待排序样本放入数位寄存器进行排序。

第二节点基于第一节点发起的排序子请求，获取对应的待排序样本组，并基于自身数位寄存器，建立空白区间，空白区间的长度至少可用于容纳该样本组中的各个样本，然后依次将该样本组中的各个样本数据放入到空白区间内。

第二节点利用数位寄存器的位数识别功能，识别各样本数据的位数，判断该待排序样本组中各个样本的位数是否相同，如果不同，则将位数较少的样本置前，将位数较多的样本之后。例如待排序样本组包含a、b、c、d、e五个样本数据，位数识别得到d、e为1位数，而a、b、c为两位数，则将d、e置前，将a、b、c置后，得到d、e、a、b、c。本实施例利用数位寄存器能够更高效实现局部排序，通过对局部有序数据序列进行排序，可以极大的减少数据间的比较，从而提高排序效率。

在基于位数完成初步排序后，针对位数相同的样本两两进行数值大小比较，从而得到第一排序结果。继续以上述示例进行说明，在得到初步排序结果d、e、a、b、c之后，分别将d和e进行比较，以及将a、b、c两两进行比较；假设d大于e，则位置互换，将数值较小的e置前，将数值较大的d置后，得到e、d、a、b、c；然后比较a与b，以及a与c的大小；如果a小于b，保持a、b位置不变，得到e、d、a、b、c；然后比较a与c的大小，如果a大于c，则a、c位置互换，得到e、d、c、b、a；最后比较b与a的大小，得到b大于a，最终得到e、d、c、a、b，即第一排序结果。

应当说明的是，若第二节点判断待排序样本组各个样本的位数均相同，则直接对各个样本两两进行数值大小比较即可。

对于其他第二节点，处理过程类似，得到对应待排序样本组的第一排序结果，在此不再赘述。

S103、将第一排序结果发送给第三节点。

S104、第三节点进行融合处理。

第二节点在处理得到第一排序结果后，直接将第一排序结果发送给指定的第三节点，其中第三节点的指定可以在第一节点发布排序请求时指定，也即排序子请求中还携带有第三节点的位置信息。

第三节点针对接收到的各第一排序结果，两两分为一组，针对每一组，将其中一第一排序结果的第一位样本与另一第一排序结果的第一位样本进行比较，将数值较小的样本放入到结果区间的第一位；将数值较大的样本与对方第一排序结果中的第二位样本进行比较，将数值较小的样本放入到结果区间的第二位；将数值较大的样本与对方第一排序结果中的余下数值最小的样本进行比较，以此类推，直至某一第一排序结果中的所有样本都被放入到结果区间中，另一第一排序结果中余下未比较样本直接依次放入到该结果区间，得到该组排序结果；针对其他组，重复执行上述融合过程，以此得到该第三节点所有组的第二排序结果；

针对各第三节点对其第一排序结果的第三排序结果，重复执行上述融合过程，得到该待排序样本的最终排序结果。

假设，某第三节点接收到四个第一排序结果，分别为S1:1,3,5,7,9；S2:6,8,10,12,14；S3:1,2,3,4,5；S4:3,4,5,6,7；

将S1和S2分为一组，将S3和S4分为一组；

针对第一组，参见如下表1所示：

表1

针对第二组，参见如下表2所示：

表2

也即是将其中一第一排序结果的第一位样本与另一第一排序结果的第一位样本进行比较，将数值较小的样本放入到结果区间的第一位；将数值较大的样本与对方第一排序结果中的第二位样本进行比较，将数值较小的样本放入到结果区间的第二位；将数值较大的样本与对方第一排序结果中的余下数值最小的样本进行比较，以此类推，直至某一第一排序结果中的所有样本都被放入到结果区间中，另一第一排序结果中余下未比较样本直接依次放入到该结果区间，得到该组排序结果，无需进行比较，减少了比较次数，提高了排序效率。应当理解，如果比较过程中，两者相等，则随意选取一个一个样本放入到对应的结果区间即可。

然后，将第一组的排序结果和第二组的排序结果(即第二排序结果)，同样采用上述融合方式，得到该节点的第三排序结果，参见如下表3所示：

表3

基于上述示例可知，通过对有序数组两两比较排序，数据间的比较和交换较少，有利于提高排序效率。

针对各第三节点对其第一排序结果的第三排序结果，重复执行上述融合过程，得到待排序样本的最终排序结果。

S105、第三节点将最终排序结果回传给第一节点。

第三节点将最终排序结果回传给第一节点，完成对待排序样本的排序。第一节点接收该最终排序结果，并存储或者展示给用户查看。

需要说明的是，分布式集群网络中节点角色是可变化的，一个节点不是作为请求节点时，可以作为排序节点，也可以作为融合节点，也可以在处理一次排序过程中，先作为排序节点，然后又作为融合节点。

应当理解的是，本实施例中排序顺序为由小到大，采用由大到小排序时，与本方案等同。

本实施例提供的基于分布式集群的大规模数据排序方法，通过数位寄存器能够更高效的寻找到最值；通过对局部有序数据序列进行排序能够提高排序效率；通过数据融合方式大大减少了数据间的比较与交换。

实施例二：

本实施例在上述实施例一的基础上，提供一种基于分布式集群的大规模数据排序系统，请参见图2，该系统包括第一节点21、若干第二节点22和若干第三节点23，以用于实现如上实施例一中所述的基于分布式集群的大规模数据排序方法的步骤。

下面结合具体的示例说明分布式集群的大规模数据排序系统的运行过程，其中第一节点假设为主服务器，第二节点为从服务器，第三节点为融合服务器：

主服务器获取100万条样本数据；将样本分别划分并发送至20万台从服务器；每台从服务器获得5条样本数据，进行排序；以其中一台编号为S000001的从服务器进行说明，其他从服务器同理：

该从服务器接收到的待排序数据集有5条样本数据，假设分别为：

25，8，33，3，11

排序流程以升序为例，具体如下：

该从服务器的数位寄存器显示如下：

25[2]，8[1]，33[2]，3[1]，11[2]

通过寄存器位数，很容易排除3个2位数，将剩余的依次两两进行比较，将较小的数向前移动，此处将8与3进行比较，得到该数列最小值为3。

以此为算法基础进行排序，过程如下

第一次：

8，3，25，33，11

第二次：

3，8，11，33，25

第三次：

3，8，11，25，33

至此，编号为S000001的从服务器完成排序，得到第一排序结果。

每台从服务器按照以上流程均完成各自数据集排序。

若S000002号从服务器排序后的数据为：

4，9，17，43，50；

现以S000001与S000002为例，说明融合服务器进行最终数据融合排序的算法过程。融合服务器将对从服务器输出的第一排序结果，两两进行融合，不断重复直至完成最终融合。

具体过程详见下表4：

S000001	3	8	11	25	33
											S000002	4	9	17	43	50
比较	3<4	4<8	8<9	9<11	11<17	17<25	25<43	43>33	-	-
											结果区间	3	4	8	9	11	17	25	33	43	50

上下依次比较，若小，则依次落入结果区间。一般情况下，通过对已经有序的数列进行排序，大大减少了在数据交换上的资源损耗。本实施例中，通过数据融合算法，减少了数据交换，直接将较小数值输出在最终结果集中，提高了整体排序的效率。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于分布式集群的大规模数据排序方法，其特征在于，包括：

2.如权利要求1所述的基于分布式集群的大规模数据排序方法，其特征在于，所述第一节点按照设定样本数量，将所述待排序样本划分为若干组K；

3.如权利要求2所述的基于分布式集群的大规模数据排序方法，其特征在于，在所述分布式集群网络中的第二节点数量Q小于所述K时，将所述设定样本数量更新为所述L，所述L为所述待排序样本数量与所述Q的比值向上取整，重新对所述待排序样本划分为P组，并分别发送给P个第二节点，所述P小于等于所述Q。

4.如权利要求1所述的基于分布式集群的大规模数据排序方法，其特征在于，所述分布式集群网络为区块链网络。

5.如权利要求1-4任一项所述的基于分布式集群的大规模数据排序方法，其特征在于，所述预设排序方法包括：

6.如权利要求1-4任一项所述的基于分布式集群的大规模数据排序方法，其特征在于，所述第三节点用于将各所述第一排序结果两两进行融合处理包括：

7.一种基于分布式集群的大规模数据排序系统，其特征在于，包括第一节点、若干第二节点和若干第三节点，以用于实现上述权利要求1-6任一项所述的基于分布式集群的大规模数据排序方法的步骤。