CN117519993B

CN117519993B - 基于分布式计算的高效大数据处理系统及方法

Info

Publication number: CN117519993B
Application number: CN202410015825.4A
Authority: CN
Inventors: 李伟民; 刘志乐; 叶宏梁; 许俊勇
Original assignee: Shenzhen Sangda Yinluo Technology Co ltd
Current assignee: Shenzhen Sangda Yinluo Technology Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-04-05
Anticipated expiration: 2044-01-05
Also published as: CN117519993A

Abstract

本发明公开了一种基于分布式计算的高效大数据处理系统，包括：主POS收款机，包括：第一接收模块接收待处理数据集；分类模块解析待处理数据集包括的若干条待处理数据的属性信息，根据所述属性信息对若干条待处理数据进行分类，得到分类结果；第二接收模块接收用户终端发送的数据处理需求，对数据处理需求进行解析，得到解析结果；第一确定模块根据分类结果及解析结果确定数据处理任务；第二确定模块根据数据处理任务确定对应的逻辑节点拓扑图；第三确定模块根据逻辑节点拓扑图中确定若干台副POS收款机中对应的目标副POS收款机，作为分布式节点对数据处理任务进行计算。实现多台联动，来完成复杂的业务，有效的利用各台POS收款机的计算资源。

Description

基于分布式计算的高效大数据处理系统及方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于分布式计算的高效大数据处理系统及方法。

背景技术

目前，在各种零售和服务行业中经常会使用POS收款机，POS收款机（Point ofSale）是一种用于商户接受支付的设备。它可以连接银行账户、信用卡、移动支付等多种支付方式，方便顾客进行消费，并实现资金的交易和结算。可以提供快速便捷的支付方式，增加顾客满意度，提高工作效率，同时也提供了更安全、更准确的交易记录和结算凭证。

现有技术中在同一局域网中会有多台POS收款机进行工作，但是各台POS收款机只是单独进行工作，处理简单且单一的数据运算，无法实现多台联动，来完成复杂的业务，不能有效的利用各台POS收款机的计算资源，造成计算资源的浪费。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的第一个目的在于提出一种基于分布式计算的高效大数据处理系统，实现多台联动，来完成复杂的业务，有效的利用各台POS收款机的计算资源，避免计算资源的浪费。

本发明的第二个目的在于提出一种基于分布式计算的高效大数据处理方法。

为达到上述目的，本发明第一方面实施例提出了一种基于分布式计算的高效大数据处理系统，包括：一台主POS收款机和若干台副POS收款机；

所述主POS收款机，包括：

第一接收模块，用于接收待处理数据集；

分类模块，用于解析待处理数据集包括的若干条待处理数据的属性信息，根据所述属性信息对若干条待处理数据进行分类，得到分类结果；

第二接收模块，用于接收用户终端发送的数据处理需求，对数据处理需求进行解析，得到解析结果；

第一确定模块，用于根据分类结果及解析结果确定数据处理任务；

第二确定模块，用于根据数据处理任务确定对应的逻辑节点拓扑图；

第三确定模块，用于根据逻辑节点拓扑图中确定若干台副POS收款机中对应的目标副POS收款机，作为分布式节点对数据处理任务进行计算。

根据本发明的一些实施例，所述分类模块，包括：

计算模块，用于：

将若干条待处理数据映射到向量空间，确定每条待处理数据对应的特征向量；

计算每个特征向量之间的欧式距离；根据各个特征向量之间的欧式距离计算出若干条待处理数据的平均距离；

确定每条待处理数据在平均距离内包含的数据量及每条待处理数据在平均距离内包含的数据量之间的欧式距离均值，计算出数据密度值；

根据数据密度值查询预设的数据密度值-扫描半径数据表，确定目标扫描半径；

获取模块，用于：

随机选取一条待处理数据作为聚类中心，获取与所述聚类中心之间的间距未超出扫描半径的待处理数据，作为一个分类集合；

在若干条待处理数据中除分类集合外再次选取一条待处理数据作为又一个聚类中心，重复以上方法进行聚类，得到若干个分类集合，进而得到分类结果。

根据本发明的一些实施例，所述第二接收模块，包括：

转换模块，用于：

接收用户终端发送的数据处理需求，基于汤普森算法调用正则表达式集对数据处理需求进行转换，得到非确定有限状态自动机；

基于子集构造法将非确定有限状态自动机转换为确定有限状态机；

基于分割法通过将状态分组并合并等价状态来减少确定有限状态机的状态数，得到最小状态的确定有限状态机，作为目标状态机；

根据目标状态机的转换表及状态机模拟器组成词法解析器；

解析模块，用于：

基于词法解析器对数据处理需求进行解析，确定词法解析结果；

对词法解析结果基于抽象语法树进行语义分析，得到解析结果。

根据本发明的一些实施例，所述第一确定模块，包括：

查询模块，用于根据分类结果及解析结果查询预设的分类结果-解析结果-数据处理任务数据表，确定数据处理任务。

根据本发明的一些实施例，第二确定模块，包括：

划分模块，用于对数据处理任务进行划分，得到若干个子数据处理任务；

融合模块，用于：

确定每个子数据处理任务对应的子逻辑节点拓扑图；

根据若干个子逻辑节点拓扑图进行融合，得到逻辑节点拓扑图。

根据本发明的一些实施例，所述第二确定模块，包括：

判断模块，用于判断数据处理任务的处理难度等级；

查询模块，用于根据处理难度等级查询预设的处理难度等级-逻辑节点拓扑图数据表，确定对应等级的逻辑节点拓扑图。

根据本发明的一些实施例，所述判断模块，包括：

提取模块，用于获取数据处理任务，并进行特征提取，得到特征向量D，特征向量D包括N个特征值；

存储模块，用于存储预设数据处理任务数据库，在预设数据处理任务数据库中拥有不同的数据处理任务的P条数据及每条数据对应的N个特征值，基于P条数据形成矩阵A，并在每条数据后面标注该数据所对应的处理难度等级，形成向量Y；

对矩阵A进行标准化处理，得到标准化矩阵B；

其中，为标准化矩阵B中的第i行第t列的值；为矩阵A的第i行t列的值；为向量D的第t个值； i=1、2、3……P,t=1、2、3……N；

计算标准化矩阵B的修正矩阵CY；

其中，为修正矩阵CY的第j行t列的值，t=1、2、3……N, j=1、2、3……N;

根据修正矩阵计算修正系数向量C；

其中，为单位矩阵，求解以上等式，则能得到修正系数向量C；

根据修正系数向量及数据处理任务对应的特征向量D，计算特征向量D与第i条数据的关联系数；

其中，为特征向量D与第i条数据的关联系数；C_t为修正系数向量C的第t个值；

确定具有最大的关联系数的数据对应的处理难度等级，作为数据处理任务的处理难度等级。

为达到上述目的，本发明第二方面实施例提出了一种基于分布式计算的高效大数据处理方法，应用于基于分布式计算的高效大数据处理系统，处理系统包括：一台主POS收款机和若干台副POS收款机；所述处理方法，包括：

基于主POS收款机接收待处理数据集；

解析待处理数据集包括的若干条待处理数据的属性信息，根据所述属性信息对若干条待处理数据进行分类，得到分类结果；

接收用户终端发送的数据处理需求，对数据处理需求进行解析，得到解析结果；

根据分类结果及解析结果确定数据处理任务；

根据数据处理任务确定对应的逻辑节点拓扑图；

根据逻辑节点拓扑图中确定若干台副POS收款机中对应的目标副POS收款机，作为分布式节点对数据处理任务进行计算。

根据本发明的一些实施例，解析待处理数据集包括的若干条待处理数据的属性信息，根据所述属性信息对若干条待处理数据进行分类，得到分类结果，包括：

根据本发明的一些实施例，接收用户终端发送的数据处理需求，对数据处理需求进行解析，得到解析结果，包括：

根据目标状态机的转换表及状态机模拟器组成词法解析器；

本发明提出了一种基于分布式计算的高效大数据处理系统及方法，实现对待处理数据集进行分类以及对数据处理需求进行解析，准确确定数据处理任务，进而确定若干台副POS收款机中对应的目标副POS收款机，作为分布式节点对数据处理任务进行计算。实现多台联动，来完成复杂的业务，有效的利用各台POS收款机的计算资源，避免计算资源的浪费。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的基于分布式计算的高效大数据处理系统的框图；

图2是根据本发明一个实施例的分类模块的框图；

图3是根据本发明一个实施例的基于分布式计算的高效大数据处理方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明第一方面实施例提出了一种基于分布式计算的高效大数据处理系统，包括：一台主POS收款机和若干台副POS收款机；

所述主POS收款机，包括：

第一接收模块，用于接收待处理数据集；

上述技术方案的工作原理：主POS收款机对比副POS收款机具有丰富的功能和计算能力，包括接收待处理数据集并进行分类、接收用户终端发送的数据处理需求，对数据处理需求进行解析，得到解析结果、确定目标副POS收款机，作为分布式节点对数据处理任务进行计算等功能，基于主POS收款机实现确定数据处理任务，并确定分布式计算方案，最后通过目标副POS收款机，作为分布式节点对数据处理任务进行计算。

该实施例中，待处理数据集为服务器或终端发送过来进行处理的数据。属性信息包括每条待处理数据对应的特征向量。

该实施例中，数据处理需求包括用户的数据处理需求，如处理速度、计算精度等等。

该实施例中，基于分类结果确定各个数据的分类集合，基于解析结果确定相应的处理要求，进而确定数据处理任务。

该实施例中，逻辑节点拓扑图为完成数据处理任务时，包含的目标副POS收款机以及各个目标副POS收款机之间的计算顺序关联。

该实施例中，目标副POS收款机为执行数据处理任务的副POS收款机。

上述技术方案的有益效果：实现对待处理数据集进行分类以及对数据处理需求进行解析，准确确定数据处理任务，进而确定若干台副POS收款机中对应的目标副POS收款机，作为分布式节点对数据处理任务进行计算。实现多台联动，来完成复杂的业务，有效的利用各台POS收款机的计算资源，避免计算资源的浪费。

如图2所示，根据本发明的一些实施例，所述分类模块，包括：

计算模块，用于：

获取模块，用于：

上述技术方案的工作原理：该实施例中，将待处理数据映射到向量空间，可以使用降维技术，如主成分分析（PCA）或t分布邻域嵌入算法（t-SNE）。这些方法可以将高维数据降低到低维空间，同时保留数据的主要特征。确定每条待处理数据对应的特征向量的过程如下：首先，对原始数据进行预处理，包括去除异常值、缺失值等。然后，选择合适的降维方法，如PCA或t-SNE。使用选定的降维方法将原始数据映射到低维空间。最后，计算每条待处理数据在低维空间中的坐标，即特征向量。

该实施例中，计算每个特征向量之间的欧式距离；根据各个特征向量之间的欧式距离计算出若干条待处理数据的平均距离，实现对若干条待处理数据整体的中心范围进行划分，得到一个大致的范围。

该实施例中，基于每条待处理数据在平均距离内包含的数据量与每条待处理数据在平均距离内包含的数据量之间的欧式距离均值的比值，作为数据密度值，准确确定若干条待处理数据的数据密度值；

根据数据密度值查询预设的数据密度值-扫描半径数据表，确定目标扫描半径，目标扫描半径为进行数据分类的距离阈值。

该实施例中，基于获取模块，随机选取一条待处理数据作为聚类中心，获取与所述聚类中心之间的间距未超出扫描半径的待处理数据，作为一个分类集合；在若干条待处理数据中除分类集合外再次选取一条待处理数据作为又一个聚类中心，重复以上方法进行聚类，得到若干个分类集合，进而得到分类结果。实现对待处理数据的准确分类。

上述技术方案的有益效果：基于将映射到向量空间，确定每条待处理数据对应的特征向量，确定若干条待处理数据的整体特征值，即数据密度值，根据数据密度值查询预设的数据密度值-扫描半径数据表，确定目标扫描半径，确定进行数据分类的距离阈值，随机选取一条待处理数据作为聚类中心，获取与所述聚类中心之间的间距未超出扫描半径的待处理数据，作为一个分类集合，依次进行数据分类，提高了数据分类的效率及准确性。

根据本发明的一些实施例，所述第二接收模块，包括：

转换模块，用于：

根据目标状态机的转换表及状态机模拟器组成词法解析器；

解析模块，用于：

上述技术方案的工作原理：该实施例中，使用Python编写一个简单的程序。首先，我们需要导入所需的库，然后定义一个函数来接收用户终端发送的数据处理需求，接着使用正则表达式集对需求进行转换，最后调用汤普森算法得到非确定有限状态自动机。

该实施例中，基于子集构造法将非确定有限状态自动机转换为确定有限状态机，包括：1、初始化一个空的确定有限状态机；2、从非确定有限状态自动机中选择一个状态作为初始状态，将其添加到确定有限状态机中；3、对于每个选择的状态，找到其所有可能的转换，并将这些转换添加到确定有限状态机中；重复步骤3，直到所有状态都被处理。

该实施例中，基于分割法的确定有限状态机（DFA）最小化算法通常包括以下步骤：1、将初始状态作为一组，将其标记为已访问。2、对于每个未访问的状态，检查其所有转换是否与已访问状态组中的任何状态具有相同的转换。如果是，则将这些状态合并到同一个新状态中。重复步骤2，直到没有更多的状态可以合并。使用合并后的状态集创建一个新的确定有限状态机，该状态机具有最小的状态数。

该实施例中，根据目标状态机的转换表及状态机模拟器组成词法解析器，包括：在词法分析器的实现中，状态机扮演了关键的角色。具体来说，词法分析器以有穷状态机来实现。其工作原理是根据目标状态机的转换表进行输入字符的逐位分析。首先，需要定义状态和转移函数。状态代表了词法分析器在解析过程中可能处于的情况，而转移函数则描述了当遇到某个字符时，词法分析器如何从一个状态转移到另一个状态。然后，需要使用一个循环来读取并处理输入字符。在每个迭代中，首先确定当前的状态，然后根据转移函数将当前状态转换为下一个状态。同时，需要使用一个变量来记录当前解析出的单词。最后，当词法分析器完成对输入字符串的解析后，它将输出一个包含了所有识别出的单词的列表。

该实施例中，基于解析模块对数据处理需求进行解析，确定词法解析结果，语义分析的目的是将抽象语法树（AST）转换为一个中间表示形式，然后对这个中间表示形式进行进一步的处理。这个中间表示形式通常被称为中间代码或者中间表示。在语义分析的过程中，对抽象语法树进行遍历，并对每个节点进行相应的处理。例如，可能需要检查变量是否已经被声明，或者检查表达式的语法是否正确等等。最后，可以使用生成的中间代码来执行程序，确定解析结果。

上述技术方案的有益效果：实现对数据处理需求的准确解析，得到准确的解析结果。

根据本发明的一些实施例，所述第一确定模块，包括：

上述技术方案的工作原理及有益效果：基于分类结果和解析结果两个参数查询预设的分类结果-解析结果-数据处理任务数据表，便于准确的确定数据处理任务。

根据本发明的一些实施例，第二确定模块，包括：

融合模块，用于：

确定每个子数据处理任务对应的子逻辑节点拓扑图；

上述技术方案的工作原理及有益效果：在确定逻辑节点拓扑图时，对数据处理任务进行划分，得到若干个子数据处理任务；确定每个子数据处理任务对应的子逻辑节点拓扑图，进而数据融合，进而便于准确确定逻辑节点拓扑图。确定每个子数据处理任务对应的子逻辑节点拓扑图为基于存储的简单的任务处理逻辑生成的。

根据本发明的一些实施例，所述第二确定模块，包括：

判断模块，用于判断数据处理任务的处理难度等级；

上述技术方案的工作原理及有益效果：判断数据处理任务的处理难度等级，根据不同的处理难度等级查询预设的处理难度等级-逻辑节点拓扑图数据表，确定对应等级的逻辑节点拓扑图，实现对数据处理任务的快速及准确的处理。

根据本发明的一些实施例，所述判断模块，包括：

对矩阵A进行标准化处理，得到标准化矩阵B；

计算标准化矩阵B的修正矩阵CY；

根据修正矩阵计算修正系数向量C；

上述技术方案的工作原理及有益效果：确定数据处理任务的特征向量D，特征向量D包括N个特征值；N个特征值包括任务的执行精度、时间、进度参数、效果等等。存储模块，包括不同的数据处理任务的P条数据及对应的处理难度等级。基于对矩阵A进行标准化处理，得到标准化矩阵B，对矩阵A的参数进行均衡化处理，避免因较大误差值而影响计算结果。计算标准化矩阵B的修正矩阵及根据修正矩阵计算修正系数向量，便于确定标准化矩阵B中不同数据在展现处理难度方面的系数差异及对应数据的关键特征。根据修正系数向量及数据处理任务对应的特征向量D，计算特征向量D与第i条数据的关联系数，进而准确实现数据处理任务与各条数据的匹配，确定具有最大的关联系数的数据对应的处理难度等级，作为数据处理任务的处理难度等级，准确确定数据处理任务的处理难度等级。

如图3所示，本发明第二方面实施例提出了一种基于分布式计算的高效大数据处理方法，应用于基于分布式计算的高效大数据处理系统，处理系统包括：一台主POS收款机和若干台副POS收款机；所述处理方法，包括步骤S1-S6：

S1、基于主POS收款机接收待处理数据集；

S2、解析待处理数据集包括的若干条待处理数据的属性信息，根据所述属性信息对若干条待处理数据进行分类，得到分类结果；

S3、接收用户终端发送的数据处理需求，对数据处理需求进行解析，得到解析结果；

S4、根据分类结果及解析结果确定数据处理任务；

S5、根据数据处理任务确定对应的逻辑节点拓扑图；

S6、根据逻辑节点拓扑图中确定若干台副POS收款机中对应的目标副POS收款机，作为分布式节点对数据处理任务进行计算。

根据目标状态机的转换表及状态机模拟器组成词法解析器；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于分布式计算的高效大数据处理系统，其特征在于，包括：一台主POS收款机和若干台副POS收款机；

所述主POS收款机，包括：

第一接收模块，用于接收待处理数据集；

第三确定模块，用于根据逻辑节点拓扑图确定若干台副POS收款机中对应的目标副POS收款机，作为分布式节点对数据处理任务进行计算。

2.如权利要求1所述基于分布式计算的高效大数据处理系统，其特征在于，所述分类模块，包括：

计算模块，用于：

获取模块，用于：

在若干条待处理数据中除分类集合外再次选取一条待处理数据作为又一个聚类中心，获取与又一个聚类中心之间的间距未超出扫描半径的待处理数据，作为又一个分类集合；对未归类的待处理数据进行迭代处理，依次进行聚类，得到若干个分类集合，进而得到分类结果。

3.如权利要求1所述基于分布式计算的高效大数据处理系统，其特征在于，所述第二接收模块，包括：

转换模块，用于：

根据目标状态机的转换表及状态机模拟器组成词法解析器；

解析模块，用于：

4.如权利要求1所述基于分布式计算的高效大数据处理系统，其特征在于，所述第一确定模块，包括：

5.如权利要求1所述基于分布式计算的高效大数据处理系统，其特征在于，第二确定模块，包括：

融合模块，用于：

确定每个子数据处理任务对应的子逻辑节点拓扑图；

6.如权利要求1所述基于分布式计算的高效大数据处理系统，其特征在于，所述第二确定模块，包括：

判断模块，用于判断数据处理任务的处理难度等级；

7.如权利要求6所述基于分布式计算的高效大数据处理系统，其特征在于，所述判断模块，包括：

对矩阵A进行标准化处理，得到标准化矩阵B；

其中，为标准化矩阵B中的第i行第t列的值；/>为矩阵A的第i行t列的值；/>为向量D的第t个值； i=1、2、3……P,t=1、2、3……N；

计算标准化矩阵B的修正矩阵CY；

根据修正矩阵计算修正系数向量C；

其中，/>为特征向量D与第i条数据的关联系数；C_t为修正系数向量C的第t个值；

8.一种基于分布式计算的高效大数据处理方法，其特征在于，应用于基于分布式计算的高效大数据处理系统，处理系统包括：一台主POS收款机和若干台副POS收款机；所述处理方法，包括：

基于主POS收款机接收待处理数据集；

根据分类结果及解析结果确定数据处理任务；

根据数据处理任务确定对应的逻辑节点拓扑图；

根据逻辑节点拓扑图确定若干台副POS收款机中对应的目标副POS收款机，作为分布式节点对数据处理任务进行计算。

9.如权利要求8所述基于分布式计算的高效大数据处理方法，其特征在于，解析待处理数据集包括的若干条待处理数据的属性信息，根据所述属性信息对若干条待处理数据进行分类，得到分类结果，包括：

10.如权利要求8所述基于分布式计算的高效大数据处理方法，其特征在于，接收用户终端发送的数据处理需求，对数据处理需求进行解析，得到解析结果，包括：

根据目标状态机的转换表及状态机模拟器组成词法解析器；