CN110851282A

CN110851282A - 一种基于内存网格的分布式数据计算方法及系统

Info

Publication number: CN110851282A
Application number: CN201911109485.7A
Authority: CN
Inventors: 张春林; 李利军; 李春青; 李蕾; 于洋
Original assignee: Beijing Tongtech Co Ltd
Current assignee: Beijing Tongtech Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-02-28
Anticipated expiration: 2039-11-14
Also published as: CN110851282B

Abstract

本发明提供了一种基于内存网格的分布式数据计算方法及系统，方法包括：获取预处理数据，并将预处理数据向内存网格传输；根据预设的数据分组模型，将内存网格中的预处理数据划分为若干个数据队列；将数据队列向内存网格中不同的数据处理节点传输，以使不同的数据处理节点对所述数据队列进行数据处理，得到处理结果，并将处理结果向内存网格传输；解决了传统技术中集群式解决方案在应用实例具有了状态，无法进行横向扩展的问题，进一步解决了传统技术中因数据量较大使得数据处理的负载压力过大的问题，缩短了数据处理所需耗费的时间，同时也有效地提高了对预处理数据的处理效率。

Description

一种基于内存网格的分布式数据计算方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于内存网格的分布式数据计算方法及系统。

背景技术

内存网格（RAM（Random Access Memory）Grid）是一种面向广域网上内存资源共享的新型网格系统。它的主要目标是在物理内存不足的情况下，提高内存密集型应用或IO密集型应用的系统性能。

随着企业应用的并发访问用户越来越多，单个应用实例已经不足以支撑，这就要求应用可以进行动态地横向扩展，通过增加实施例个数来对并发用户进行分流；但传统的集群式解决方案的是在多个应用实施例前端放置负载均衡器，以将并发的用户请求引入到不同的应用实例进行处理；

但在实际的业务场景下，应用实例的运行往往伴随着很多的数据的产生，这些数据使得应用实例在运行时具有了状态，使得横向扩展就会变得困难，进一步会导致对较大数据量的数据进行处理时耗费大量的时间，甚至有可能因数据量巨大导致数据处理负载压力过大，影响正常的数据处理。

因此，提出一种基于内存网格的分布式数据计算方法及系统。

发明内容

为解决上述技术问题，本发明提供一种基于内存网格的分布式数据计算方法及系统，用以解决传统技术中因数据量较大使得数据处理时负载压力过大的问题。

本发明实施例中提供了一种基于内存网格的分布式数据计算方法，所述方法包括：

获取预处理数据，并将所述预处理数据向所述内存网格传输；

根据预设的数据分组模型，将所述内存网格中的所述预处理数据划分为若干个数据队列；

将所述数据队列向所述内存网格中不同的数据处理节点传输，以使所述不同的数据处理节点对所述数据队列进行数据处理，得到处理结果，并将处理结果向所述内存网格传输。

在一个实施例中，所述步骤：根据预设的数据分组模型，将所述内存网格中的所述预处理数据划分为若干个数据队列，包括如下步骤：

建立数据分组模型；

获取所述预处理数据的存储信息、存储类型和加密类型；

根据所述预处理数据的存储信息、存储类型、加密类型，获取所述预处理数据的关联度信息；

将所述预处理数据的关联度信息向所述数据分组模型传输；所述数据分组模型根据所述预处理数据的关联度信息将所述预处理数据向相应的所述数据队列传输。

在一个实施例中，所述预处理数据的存储信息，包括所述预处理数据所占存储空间的大小、所述预处理数据的存储时间以及所述预处理数据的存储路径中的一种或多种；

所述预处理数据的存储类型，包括字符型、数值型、文本类型以及视频类型中的一种或多种；

所述预处理数据的加密类型，包括非对称加密算法、数字签名算法以及md5加密算法中的一种或多种。

在一个实施例中，所述步骤：将所述数据队列向所述内存网格中不同的数据处理节点传输，以使所述不同的数据处理节点对所述数据队列进行数据处理，得到处理结果，并将处理结果向所述内存网格传输，之后还包括如下步骤：

将所述内存网格中不同的所述数据处理节点传输的所述处理结果进行整合，获取所述数据队列处理结果；

对所述数据处理节点的数据处理过程进行监控，获取所述数据处理节点的监测信息；

当监测到所述数据队列处理结束后，将所述监测信息向所述内存网格传输，获取所述数据队列监测结果。

在一个实施例中，所述步骤：将所述数据队列向所述内存网格中不同的数据处理节点传输，以使所述不同的数据处理节点对所述数据队列进行数据处理，得到处理结果，并将所述处理结果向所述内存网格传输，之后还包括如下步骤：

在所述内存网格中创建若干个数据存储区；

获取所述处理结果的属性信息；

根据所述处理结果的属性信息，将所述处理结果传输到所述内存网格中所述处理结果的属性信息对应的所述数据存储区内。

在一个实施例中，所述步骤：在所述内存网格中创建若干个数据存储区；之后还包括：

对所述若干个数据存储区中的所述处理结果分别进行备份处理。

在一个实施例中，将所述内存网格中的所述预处理数据划分为若干个数据队列时包括如下步骤：

步骤A1、获取所有所述预处理数据，并计算所述预处理数据中的每个数据的标准处理时间；

步骤A2、根据所述内存网格中的数据处理节点数量，将所述预处理数据随机划分成对应数量的数据队列，并将所述预处理数据中的每个数据的对应的队列的编号形成编号向量；

步骤A3、重复K次步骤A2，直至形成K个编号向量；

步骤A4、计算所述编号向量中的每个数据处理节点的数据处理时间；

其中，

为第

个编号向量中第

个数据处理节点的数据处理时间，

为第

个数据处理节点的运算性能，

为的取值为

，

为第

个数据处理节点余留的需要处理的数据的集合，

为第

条数据的标准处理时间，

为

的取值为

，

为第

个编号向量中队列的编号为

时所对应的预处理数据的集合，

为第

条数据的标准处理时间，

为第个数据处理节点的转接时间，

为集合

含有的数据的数量，

为集合

含有的数据的数量；

步骤A5、计算每个编号向量的时间稳定度；

其中，

为第

个编号向量的时间稳定度，

为数据处理节点的数量；

步骤A6、利用优化的遗传算法进行编号向量的确定，其中包含如下步骤：

步骤A601、将所有的编号向量构成一个遗传数据库；

步骤A602、对遗传库中的每个编号向量分别进行变异，在变异时，首先确定变异数据量；

其中，

为第个编号向量的变异数据量，

为预设的变异系数，预设值为0.5到 1，

为遗传数据库中所有的编号向量的时间稳定度的最小值，

为遗传数据库中所有的编号向量的时间稳定度的最大值,

为对括号内的值取整；

对编号向量进行

次变异，每次变异编号向量中的一个值，形成

个变异向量；

计算所述变异向量对应的时间稳定度，将每个编号向量与所对应的变异向量中时间稳定度最小的值所对应的向量作为新的编号向量保留，从而重构交叉遗传数据库；

步骤A603、按顺序从交叉遗传数据库中选择两个编号向量作为遗传父代，并根据遗传父代计算遗传交叉数据量；

其中，

为所述遗传父代的遗传交叉数据量，

为预设的交叉系数，预设值为0.5 到1，

为遗传父代的时间稳定度的最大值；

从两个遗传父代的编号向量中随机选择一个位置的值作为交叉点，对连续的

个值进行交叉，从而形成新的子代；

计算遗传父代和形成的子代的时间稳定度，选择时间稳定度中较小的3个向量作为编号向量并入新的种群库，并将遗传父代从交叉遗传数据库中剔除；

步骤A604、重复步骤A603直至交叉遗传数据库中剩余的编号向量不足2个，则结束重复操作，并计算新的种群库中所有编号向量的时间稳定度的最小值作为比较值；

步骤A605、将新的种群库作为遗传数据库，重复步骤A602到步骤A605，直至比较值连续10次不再变化，则将此时比较值所对应的编号向量作为结果向量，结果向量所对应的编号则为所述预处理数据对应的队列编号，从而将预处理数据划分为若干个数据队列，并确定每条数据所对应的数据处理节点。

一种基于内存网格的分布式数据计算系统，所述系统包括：获取模块、数据分组模块和处理模块，其中，

所述获取模块，用于获取预处理数据，并将所述预处理数据向所述内存网格传输；

所述数据分组模块，用于根据预设的数据分组模型，对所述内存网格中的所述预处理数据进行划分，获取划分后的若干个数据队列；

所述处理模块，用于将所述数据队列向所述内存网格中不同的数据处理节点传输，以使所述不同的数据处理节点对所述数据队列进行数据处理，得到处理结果，并将处理结果向所述内存网格传输。

在一个实施例中，所述数据分组模块，还包括模型建立单元、信息获取单元、关联度计算单元和分组单元，其中，

所述模型建立单元，用于建立数据分组模型；

所述信息获取单元，用于获取所述预处理数据的存储信息、存储类型和加密类型，并将所述预处理数据的存储信息、存储类型和加密类型向所述关联度计算单元传输；

所述关联度计算单元，用于根据所述信息获取单元传输的所述预处理数据的存储信息、存储类型、加密类型，获取所述预处理数据的关联度信息，并将所述预处理数据的关联度信息向所述分组单元传输；

所述分组单元，用于将所述关联度计算单元传输的所述预处理数据的关联度信息向所述数据分组模型传输；所述数据分组模型根据所述预处理数据的关联度信息将所述预处理数据向相应的所述数据队列传输。

在一个实施例中，所述系统，还包括结果获取模块和监测模块，其中，

所述结果获取模块，用于将所述内存网格中不同的所述数据处理节点传输的所述处理结果进行整合，获取所述数据队列处理结果；

所述监测模块，用于对所述数据处理节点的数据处理过程进行监控，获取所述数据处理节点的监测信息；并且当监测到所述数据队列处理结束后，将所述监测信息向所述内存网格传输，获取所述数据队列监测结果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供一种基于内存网格的分布式数据计算方法的示意图；

图2为本发明所提供一种基于内存网格的分布式数据计算系统的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于内存网格的分布式数据计算方法，如图1所示，方法包括：

获取预处理数据，并将预处理数据向内存网格传输；

根据预设的数据分组模型，将内存网格中的预处理数据划分为若干个数据队列；

将数据队列向内存网格中不同的数据处理节点传输，以使不同的数据处理节点对数据队列进行数据处理，得到处理结果，并将处理结果向内存网格传输。

上述方法的工作原理在于：获取预处理数据，并将预处理数据向内存网格传输；根据预设的数据分组模型将内存网格中的预处理数据划分为若干个数据队列；将数据队列向内存网格中不同的数据处理节点传输，以使不同的数据处理节点对数据队列进行数据处理，得到处理结果，并向内存网格传输。

上述方法的有益效果在于：通过预设的数据分组模型，实现了将内存网格中的预处理数据划分为若干个数据队列；并将划分后的数据队列向内存网格中不同的数据处理节点传输，以使不同的数据处理节点对数据队列进行数据处理，得到处理结果，从而实现了对预处理数据的处理；与传统技术相比，上述方法中将内存网格中的预处理数据划分为若干个数据队列，以便内存网格中不同的数据处理节点对数据队列分别进行处理；解决了传统技术中集群式解决方案在应用实例具有了状态，无法进行横向扩展的问题，进一步解决了传统技术中因数据量较大使得数据处理的负载压力过大的问题，缩短了数据处理所需耗费的时间，同时也有效地提高了对预处理数据的处理效率。

在一个实施例中，步骤：根据预设的数据分组模型，将内存网格中的预处理数据划分为若干个数据队列，包括如下步骤：

建立数据分组模型；

获取预处理数据的存储信息、存储类型和加密类型；

根据预处理数据的存储信息、存储类型、加密类型，获取预处理数据的关联度信息；

将预处理数据的关联度信息向数据分组模型传输；数据分组模型根据预处理数据的关联度信息将预处理数据向相应的数据队列传输。上述技术方案中通过对预处理数据的存储信息、存储类型、加密类型，实现了对预处理数据的关联度信息的获取；并通过数据分组模型根据预处理数据的关联度信息，实现了将预处理数据划分到相应的数据队列。

在一个实施例中，预处理数据的存储信息，包括预处理数据所占存储空间的大小、预处理数据的存储时间以及预处理数据的存储路径中的一种或多种；上述技术方案中通过对预处理数据所占存储空间的大小、预处理数据的存储时间以及预处理数据的存储路径的获取，实现了对预处理数据的存储信息的获取。

预处理数据的存储类型，包括字符型、数值型、文本类型以及视频类型中的一种或多种；通过上述技术方案，实现了对预处理数据的存储类型的获取。

预处理数据的加密类型，包括非对称加密算法、数字签名算法以及md5加密算法中的一种或多种。通过上述技术方案，实现了对预处理数据的加密类型的获取。

在一个实施例中，步骤：将数据队列向内存网格中不同的数据处理节点传输，以使不同的数据处理节点对数据队列进行数据处理，得到处理结果，并将处理结果向内存网格传输，之后还包括如下步骤：

将内存网格中不同的数据处理节点传输的处理结果进行整合，获取数据队列处理结果；

对数据处理节点的数据处理过程进行监控，获取数据处理节点的监测信息；

当监测到数据队列处理结束后，将监测信息向内存网格传输，获取数据队列监测结果。上述技术方案中通过对内存网格中不同的数据处理节点传输的处理结果进行整合，实现了对数据队列处理结果的获取；并且对数据处理节点的数据处理过程进行监控，实现了对数据处理节点的监测信息的获取，并在监测到数据队列处理结束后，将监测信息向内存网格传输，从而实现了对数据队列监测结果的获取。

在内存网格中创建若干个数据存储区；

获取处理结果的属性信息；

根据处理结果的属性信息，将处理结果传输到内存网格中处理结果的属性信息对应的数据存储区内。上述技术方案中通过若干个数据存储区实现了对处理结果的分区存储。

在一个实施例中，步骤：在内存网格中创建若干个数据存储区；之后还包括：对若干个数据存储区中的处理结果分别进行备份处理。上述技术方案中实现了对若干个数据存储区中的处理结果的备份处理。

一种基于内存网格的分布式数据计算系统，如图2所示，系统包括：获取模块21、数据分组模块22和处理模块23，其中，

获取模块21，用于获取预处理数据，并将预处理数据向内存网格传输；

数据分组模块22，用于根据预设的数据分组模型，对内存网格中的预处理数据进行划分，获取划分后的若干个数据队列；

处理模块23，用于将数据队列向内存网格中不同的数据处理节点传输，以使不同的数据处理节点对数据队列进行数据处理，得到处理结果，并将的处理结果向内存网格传输。

上述系统的工作原理在于：获取模块21将获取的预处理数据向内存网格传输；数据分组模块22根据预设的数据分组模型，对内存网格中的预处理数据进行划分，获取划分后的若干个数据队列；处理模块23将数据队列向内存网格中不同的数据处理节点传输，以使不同的数据处理节点对数据队列进行数据处理，得到处理结果，并将处理结果并向内存网格传输。

上述系统的有益效果在于：数据分组模块通过预设的数据分组模型，实现了将内存网格中的预处理数据划分为若干个数据队列；处理模块将划分后的数据队列向内存网格中不同的数据处理节点传输，以使不同的数据处理节点对数据队列进行数据处理，得到处理结果，从而实现了对预处理数据的处理；与传统技术相比，上述系统中将内存网格中的预处理数据划分为若干个数据队列，以便内存网格中不同的数据处理节点对数据队列分别进行处理，解决了传统技术中集群式解决方案在应用实例具有了状态，无法进行横向扩展的问题，进一步解决了传统技术中因数据量较大使得数据处理的负载压力过大的问题，缩短了数据处理所需耗费的时间，同时也有效地提高了系统对预处理数据的处理效率。

在一个实施例中，数据分组模块，还包括模型建立单元、信息获取单元、关联度计算单元和分组单元，其中，

模型建立单元，用于建立数据分组模型；

信息获取单元，用于获取预处理数据的存储信息、存储类型和加密类型，并将预处理数据的存储信息、存储类型和加密类型向关联度计算单元传输；

关联度计算单元，用于根据信息获取单元传输的预处理数据的存储信息、存储类型、加密类型，获取预处理数据的关联度信息，并将预处理数据的关联度信息向分组单元传输；

分组单元，用于将关联度计算单元传输的预处理数据的关联度信息向数据分组模型传输；数据分组模型根据预处理数据的关联度信息将预处理数据向相应的数据队列传输。上述技术方案中通过关联度计算单元根据预处理数据的存储信息、存储类型、加密类型，实现了对预处理数据的关联度信息的获取；分组单元，将预处理数据的关联度信息向数据分组模型传输，数据分组模型根据预处理数据的关联度信息，实现了将预处理数据划分到相应的数据队列。

在一个实施例中，系统，还包括结果获取模块和监测模块，其中，

结果获取模块，用于将内存网格中不同的数据处理节点传输的处理结果进行整合，获取数据队列处理结果；

监测模块，用于对数据处理节点的数据处理过程进行监控，获取数据处理节点的监测信息；并且当监测到数据队列处理结束后，将监测信息向内存网格传输，获取数据队列监测结果。上述技术方案中结果获取模块通过对内存网格中不同的数据处理节点传输的处理结果进行整合，实现了对数据队列处理结果的获取；并且通过监测模块对数据处理节点的数据处理过程进行监控，实现了对数据处理节点的监测信息的获取，并在监测到数据队列处理结束后，将监测信息向内存网格传输，从而实现了对数据队列监测结果的获取。

例如，所述预处理数据中存在7条数据，网格中数据处理节点有3个，则将所述预处理数据随机划分成对3个队列，则编号向量则为所述预处理数据中存在7条数据对应的队列编号，例如（1,3,2,1,1,3,2）；

步骤A3、重复K次步骤A2，直至形成K个编号向量；

所述K为预设值，一般预设为10。

其中，

为第

个编号向量中第个数据处理节点的数据处理时间，

为第

个数据处理节点的运算性能，

为

的取值为

，

为第个数据处理节点余留的需要处理的数据的集合，

为第

条数据的标准处理时间，

为

的取值为

，

为第个编号向量中队列的编号为

时所对应的预处理数据的集合，

为第

条数据的标准处理时间，

为第个数据处理节点的转接时间，

为集合

含有的数据的数量，

为集合

含有的数据的数量；

根据步骤A4可以得到每个数据处理节点需要的数据处理时间，且在获取数据处理时间时还考虑了每个数据处理节点需要处理数据的数量，从而使得所述数据处理节点的数据处理时间能够包含了在处理完一条数据后再连接下一条数据时的损耗时间。

步骤A5、计算每个编号向量的时间稳定度；

其中，

为第

个编号向量的时间稳定度，

为数据处理节点的数量；

利用步骤A5，可以得到每个编号向量的时间稳定度，所述每个编号向量的时间稳定度为所述编号向量对应的所有数据处理节点的数据处理时间的总和乘以数据处理节点的数据处理时间的波动差，从而使得当

最小时则为所述编号向量对应的所有数据处理节点的数据处理时间的总和乘以数据处理节点的数据处理时间的波动差最小，也就是数据处理时间短，且每个数据处理节点都比较稳定，即每个数据处理节点的数据处理时间都接近。

步骤A601、将所有的编号向量构成一个遗传数据库；

其中，

为第

个编号向量的变异数据量，

为预设的变异系数，预设值为0.5到 1，

为遗传数据库中所有的编号向量的时间稳定度的最小值，

为遗传数据库中所有的编号向量的时间稳定度的最大值,

为对括号内的值取整；

对编号向量进行

次变异，每次变异编号向量中的一个值，形成

个变异向量；

例如，第3个编号向量为（1,3,2,1,1,3,2），为2，则对第3个编号向量进行2次变异，变异为随机变异，则第一次变异可以对第3个值进行变异，将2变为3，形成变异向量（1,3,3, 1,1,3,2），第二次变异可以对第5个值进行变异，将1变为2，形成变异向量（1,3,3,1,2,3, 2），则通过后则可以形成两个变异向量（1,3,3,1,1,3,2）和（1,3,3,1,2,3,2）；

根据步骤A602可以对遗传数据库中的所有编号向量进行变异，每次根据编号向量的时间稳定度来确定变异次数，当编号向量的时间稳定度较大时，则说明此时编号向量较差，则变异次数较多，从而增加选择的可能性，并从变异向量中选择时间稳定度较小的作为新的编号向量，从而使得编号向量不断的进化。

其中，

为所述遗传父代的遗传交叉数据量，

为预设的交叉系数，预设值为0.5 到1，

为遗传父代的时间稳定度的最大值；

个值进行交叉，从而形成新的子代；

例如，遗传父代分别为（1,2,2,1,1,3,2）和（1,3,2,2,3,1,1），且

为2，选择第4个位置的值作为交叉点：

形成4个新的子代；

子代1：（1,3,2,1,1,3,2）、子代2：（1,2,2,1,3,1,2）：

子代3：（1,2,2,2,3,1,1）、子代2：（1,3,2,1,1,3,2）：

根据步骤A603可以对遗传数据库中的所有编号向量进行交叉遗传，每次根据编号向量的时间稳定度来确定交叉数据量，当编号向量的时间稳定度较大时，则说明此时编号向量较差，则遗传时交叉次数较多，从而增加选择的可能性，并从遗传后的子代和遗传父代中选择时间稳定度较小的作为新的编号向量，从而使得编号向量不断的进化。

例如，结果向量为（1,3,2,1,1,3,2），则所述预处理数据划分为1、2、3三个数据队列，且第1、4、5条待处理数据划分在第一个队列，在第一个数据处理节点中进行数据处理，第3、7条待处理数据划分在第二个队列，在第二个数据处理节点中进行数据处理，第2、6条待处理数据划分在第三个队列，在第三个数据处理节点中进行数据处理。

上述技术的有益效果在于：利用上述技术可以得到时间稳定度最小时所对应的所述预处理数据的划分队列的结果，从而对所述预处理数据实现智能划分，且划分后时间稳定度最小，从而使得数据处理时间短，且每个数据处理节点都比较稳定，即每个数据处理节点的数据处理时间都接近。

且在上述过程中，得到最优的路径，采用改进遗传算法，动态的确定变异数据量和遗传交叉数据量，使得变异和交叉的数据量能更好的适应编号向量，且交叉和遗传时每次都只选择一个位置进行交叉或者遗传，使得所述过程能够变得更为简单，并且在形成新的种群库时，并不是仅仅选择时间稳定度最小的1个编号向量进入种群库，而是选择了3个，使得可选择路径更多，避免了路径规划时进入局部最优解的情况。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。