CN111143393A

CN111143393A - 一种大数据的处理系统

Info

Publication number: CN111143393A
Application number: CN201811304161.4A
Authority: CN
Inventors: 祁建明; 徐继峰; 周峻松
Original assignee: Guangzhou Mingling Information Technology Co Ltd
Current assignee: Guangzhou Mingling Information Technology Co Ltd
Priority date: 2018-11-03
Filing date: 2018-11-03
Publication date: 2020-05-12

Abstract

本发明公开一种大数据的处理系统，包括数据库单元，用于存储结果数据；接收单元，接收待分析的数据；切分处理单元，用于将待分析的数据切分为多个数据分片；分析单元组，具有多个的处理节点，用于分析数据分片并形成子结果数据；分配单元，将切分处理单元生成的多个数据分片并依次分配给分析单元组的多个处理节点进行处理；接收单元，依次接收分析单元组的各个处理节点处理后的子结果数据；合并写入单元，用于收集的各个子结果数据进行合并，形成结果数据并写入到数据库单元内；该大数据的处理系统数据处理速度快。

Description

一种大数据的处理系统

技术领域

本发明涉及一种大数据的处理系统。

背景技术

大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

在大数据领域中，数据的处理速度是尤为关键的，本领域的技术人员希望大数据处理系统处理数据的速度可以进一步的提升。

发明内容

本发明要解决的技术问题是提供一种数据处理速度快的大数据的处理系统。

为解决上述问题，本发明采用如下技术方案：

一种大数据的处理系统，包括

数据库单元，用于存储结果数据；

接收单元，接收待分析的数据；

切分处理单元，用于将待分析的数据切分为多个数据分片；

分析单元组，具有多个的处理节点，用于分析数据分片并形成子结果数据；

分配单元，将切分处理单元生成的多个数据分片并依次分配给分析单元组的多个处理节点进行处理；

接收单元，依次接收分析单元组的各个处理节点处理后的子结果数据；

合并写入单元，用于收集的各个子结果数据进行合并，形成结果数据并写入到数据库单元内。

作为优选，所述切分处理单元的切分规则为根据分析单元组的节点的数量，将所述待分析的数据切分为与处理节点的数量相同的数据分片。

本发明还提供一种大数据的处理系统的处理方法，包括以下步骤：

1)接收待分析的数据；

2)将待分析的数据进行切分处理，切分为多个数据分片；

3)将生成的多个数据分片并按顺序依次分配给分析单元组的多个处理节点进行处理；

4)依次接收分析单元组的各个处理节点处理后的子结果数据，并对子结果数据根据分配顺序进行标记；

5)对各个子结果数据根据顺序标记进行合并，形成结果数据并写入到数据库单元内。

作为优选，所述切分处理的具体步骤为：

A)获取待处理数据的签名；

B)根据汉明距离的相似阈值，确定切分段数；

C)按照切分段数，对签名进行一级切分，以获得至少两个前缀首部；

D)对于所述至少两个前缀首都中的每个前缀首部，按照切分段数，对所述签名中除前缀首部之外剩余的位数进行二级切分，以获得所述前缀首部对应的至少两个前缀尾部；

E)对所述每个前缀首部，将前缀首部和前缀首部对应的至少两个前缀尾部中的每个前缀尾部分别组合在一起，形成所述至少两个签名前缀中的一个签名前缀。

作为优选，所述数据分片包括多行数据。

作为优选，所述切分处理单元对数据分片中的多行数据进行逐行处理。

作为优选，还包含有

标记单元，用于对子结果数据根据分配顺序进行标记，合并写入单元根据标记单元的标记进行合并。

本发明的有益效果为：将待处理的数据切分为多个数据分片，再分别分配给多个处理点进行处理，各个处理点处理完毕后再对各个子结果数据进行合并，形成结果数据，可以有效的降低数据的复杂程度，从而可以有效的提升处理速度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施例1和2一种大数据的处理系统的单元连接框图。

图2为实施例3的一种大数据的处理系统的处理方法的流程图。

图3为本发明提供的一种大数据的处理系统

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在实施例中，需要理解的是，术语“中间”、“上”、“下”、“顶部”、“右侧”、“左端”、“上方”、“背面”、“中部”、等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例1

如图1所示，一种大数据的处理系统，包括

数据库单元，用于存储结果数据；

接收单元，接收待分析的数据；

切分处理单元，用于将待分析的数据切分为多个数据分片；

在本实施例中，所述切分处理单元的切分规则为根据分析单元组的节点的数量，将所述待分析的数据切分为与处理节点的数量相同的数据分片。

在本实施例中，所述切分处理的具体步骤为：

A)获取待处理数据的签名；

B)根据汉明距离的相似阈值，确定切分段数；

在本实施例中，所述数据分片包括多行数据。

实施例2

如图1所示，一种大数据的处理系统，包括

数据库单元，用于存储结果数据；

接收单元，接收待分析的数据；

切分处理单元，用于将待分析的数据切分为多个数据分片；

在本实施例中，所述切分处理的具体步骤为：

A)获取待处理数据的签名；

B)根据汉明距离的相似阈值，确定切分段数；

在本实施例中，所述数据分片包括多行数据。

在本实施例中，所述切分处理单元对数据分片中的多行数据进行逐行处理。

实施例3

如图2所示，一种大数据的处理系统，包括

数据库单元，用于存储结果数据；

接收单元，接收待分析的数据；

切分处理单元，用于将待分析的数据切分为多个数据分片；

在本实施例中，所述切分处理的具体步骤为：

A)获取待处理数据的签名；

B)根据汉明距离的相似阈值，确定切分段数；

在本实施例中，所述数据分片包括多行数据。

在本实施例中，还包含有

如图3所述，本发明还提供一种大数据的处理系统的处理方法，包括以下步骤：

1)接收待分析的数据；

2)将待分析的数据进行切分处理，切分为多个数据分片；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种大数据的处理系统，其特征在于：包括

数据库单元，用于存储结果数据；

接收单元，接收待分析的数据；

切分处理单元，用于将待分析的数据切分为多个数据分片；

2.根据权利要求1所述的一种大数据的处理系统，其特征在于：所述切分处理单元的切分规则为根据分析单元组的节点的数量，将所述待分析的数据切分为与处理节点的数量相同的数据分片。

3.一种大数据的处理系统的处理方法，包括以下步骤：

1)接收待分析的数据；

2)将待分析的数据进行切分处理，切分为多个数据分片；

4.根据权利要求3所述的一种大数据的处理系统，其特征在于：所述切分处理的具体步骤为：

A)获取待处理数据的签名；

B)根据汉明距离的相似阈值，确定切分段数；

5.根据权利要求4所述的一种大数据的处理系统，其特征在于：所述数据分片包括多行数据。

6.根据权利要求5所述的一种大数据的处理系统，其特征在于：所述切分处理单元对数据分片中的多行数据进行逐行处理。

7.根据权利要求6所述的一种大数据的处理系统，其特征在于：还包含有