CN111143393A - 一种大数据的处理系统 - Google Patents
一种大数据的处理系统 Download PDFInfo
- Publication number
- CN111143393A CN111143393A CN201811304161.4A CN201811304161A CN111143393A CN 111143393 A CN111143393 A CN 111143393A CN 201811304161 A CN201811304161 A CN 201811304161A CN 111143393 A CN111143393 A CN 111143393A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- unit
- segmentation
- prefix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开一种大数据的处理系统,包括数据库单元,用于存储结果数据;接收单元,接收待分析的数据;切分处理单元,用于将待分析的数据切分为多个数据分片;分析单元组,具有多个的处理节点,用于分析数据分片并形成子结果数据;分配单元,将切分处理单元生成的多个数据分片并依次分配给分析单元组的多个处理节点进行处理;接收单元,依次接收分析单元组的各个处理节点处理后的子结果数据;合并写入单元,用于收集的各个子结果数据进行合并,形成结果数据并写入到数据库单元内;该大数据的处理系统数据处理速度快。
Description
技术领域
本发明涉及一种大数据的处理系统。
背景技术
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
在大数据领域中,数据的处理速度是尤为关键的,本领域的技术人员希望大数据处理系统处理数据的速度可以进一步的提升。
发明内容
本发明要解决的技术问题是提供一种数据处理速度快的大数据的处理系统。
为解决上述问题,本发明采用如下技术方案:
一种大数据的处理系统,包括
数据库单元,用于存储结果数据;
接收单元,接收待分析的数据;
切分处理单元,用于将待分析的数据切分为多个数据分片;
分析单元组,具有多个的处理节点,用于分析数据分片并形成子结果数据;
分配单元,将切分处理单元生成的多个数据分片并依次分配给分析单元组的多个处理节点进行处理;
接收单元,依次接收分析单元组的各个处理节点处理后的子结果数据;
合并写入单元,用于收集的各个子结果数据进行合并,形成结果数据并写入到数据库单元内。
作为优选,所述切分处理单元的切分规则为根据分析单元组的节点的数量,将所述待分析的数据切分为与处理节点的数量相同的数据分片。
本发明还提供一种大数据的处理系统的处理方法,包括以下步骤:
1)接收待分析的数据;
2)将待分析的数据进行切分处理,切分为多个数据分片;
3)将生成的多个数据分片并按顺序依次分配给分析单元组的多个处理节点进行处理;
4)依次接收分析单元组的各个处理节点处理后的子结果数据,并对子结果数据根据分配顺序进行标记;
5)对各个子结果数据根据顺序标记进行合并,形成结果数据并写入到数据库单元内。
作为优选,所述切分处理的具体步骤为:
A)获取待处理数据的签名;
B)根据汉明距离的相似阈值,确定切分段数;
C)按照切分段数,对签名进行一级切分,以获得至少两个前缀首部;
D)对于所述至少两个前缀首都中的每个前缀首部,按照切分段数,对所述签名中除前缀首部之外剩余的位数进行二级切分,以获得所述前缀首部对应的至少两个前缀尾部;
E)对所述每个前缀首部,将前缀首部和前缀首部对应的至少两个前缀尾部中的每个前缀尾部分别组合在一起,形成所述至少两个签名前缀中的一个签名前缀。
作为优选,所述数据分片包括多行数据。
作为优选,所述切分处理单元对数据分片中的多行数据进行逐行处理。
作为优选,还包含有
标记单元,用于对子结果数据根据分配顺序进行标记,合并写入单元根据标记单元的标记进行合并。
本发明的有益效果为:将待处理的数据切分为多个数据分片,再分别分配给多个处理点进行处理,各个处理点处理完毕后再对各个子结果数据进行合并,形成结果数据,可以有效的降低数据的复杂程度,从而可以有效的提升处理速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例1和2一种大数据的处理系统的单元连接框图。
图2为实施例3的一种大数据的处理系统的处理方法的流程图。
图3为本发明提供的一种大数据的处理系统
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在实施例中,需要理解的是,术语“中间”、“上”、“下”、“顶部”、“右侧”、“左端”、“上方”、“背面”、“中部”、等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例1
如图1所示,一种大数据的处理系统,包括
数据库单元,用于存储结果数据;
接收单元,接收待分析的数据;
切分处理单元,用于将待分析的数据切分为多个数据分片;
分析单元组,具有多个的处理节点,用于分析数据分片并形成子结果数据;
分配单元,将切分处理单元生成的多个数据分片并依次分配给分析单元组的多个处理节点进行处理;
接收单元,依次接收分析单元组的各个处理节点处理后的子结果数据;
合并写入单元,用于收集的各个子结果数据进行合并,形成结果数据并写入到数据库单元内。
在本实施例中,所述切分处理单元的切分规则为根据分析单元组的节点的数量,将所述待分析的数据切分为与处理节点的数量相同的数据分片。
在本实施例中,所述切分处理的具体步骤为:
A)获取待处理数据的签名;
B)根据汉明距离的相似阈值,确定切分段数;
C)按照切分段数,对签名进行一级切分,以获得至少两个前缀首部;
D)对于所述至少两个前缀首都中的每个前缀首部,按照切分段数,对所述签名中除前缀首部之外剩余的位数进行二级切分,以获得所述前缀首部对应的至少两个前缀尾部;
E)对所述每个前缀首部,将前缀首部和前缀首部对应的至少两个前缀尾部中的每个前缀尾部分别组合在一起,形成所述至少两个签名前缀中的一个签名前缀。
在本实施例中,所述数据分片包括多行数据。
实施例2
如图1所示,一种大数据的处理系统,包括
数据库单元,用于存储结果数据;
接收单元,接收待分析的数据;
切分处理单元,用于将待分析的数据切分为多个数据分片;
分析单元组,具有多个的处理节点,用于分析数据分片并形成子结果数据;
分配单元,将切分处理单元生成的多个数据分片并依次分配给分析单元组的多个处理节点进行处理;
接收单元,依次接收分析单元组的各个处理节点处理后的子结果数据;
合并写入单元,用于收集的各个子结果数据进行合并,形成结果数据并写入到数据库单元内。
在本实施例中,所述切分处理单元的切分规则为根据分析单元组的节点的数量,将所述待分析的数据切分为与处理节点的数量相同的数据分片。
在本实施例中,所述切分处理的具体步骤为:
A)获取待处理数据的签名;
B)根据汉明距离的相似阈值,确定切分段数;
C)按照切分段数,对签名进行一级切分,以获得至少两个前缀首部;
D)对于所述至少两个前缀首都中的每个前缀首部,按照切分段数,对所述签名中除前缀首部之外剩余的位数进行二级切分,以获得所述前缀首部对应的至少两个前缀尾部;
E)对所述每个前缀首部,将前缀首部和前缀首部对应的至少两个前缀尾部中的每个前缀尾部分别组合在一起,形成所述至少两个签名前缀中的一个签名前缀。
在本实施例中,所述数据分片包括多行数据。
在本实施例中,所述切分处理单元对数据分片中的多行数据进行逐行处理。
实施例3
如图2所示,一种大数据的处理系统,包括
数据库单元,用于存储结果数据;
接收单元,接收待分析的数据;
切分处理单元,用于将待分析的数据切分为多个数据分片;
分析单元组,具有多个的处理节点,用于分析数据分片并形成子结果数据;
分配单元,将切分处理单元生成的多个数据分片并依次分配给分析单元组的多个处理节点进行处理;
接收单元,依次接收分析单元组的各个处理节点处理后的子结果数据;
合并写入单元,用于收集的各个子结果数据进行合并,形成结果数据并写入到数据库单元内。
在本实施例中,所述切分处理单元的切分规则为根据分析单元组的节点的数量,将所述待分析的数据切分为与处理节点的数量相同的数据分片。
在本实施例中,所述切分处理的具体步骤为:
A)获取待处理数据的签名;
B)根据汉明距离的相似阈值,确定切分段数;
C)按照切分段数,对签名进行一级切分,以获得至少两个前缀首部;
D)对于所述至少两个前缀首都中的每个前缀首部,按照切分段数,对所述签名中除前缀首部之外剩余的位数进行二级切分,以获得所述前缀首部对应的至少两个前缀尾部;
E)对所述每个前缀首部,将前缀首部和前缀首部对应的至少两个前缀尾部中的每个前缀尾部分别组合在一起,形成所述至少两个签名前缀中的一个签名前缀。
在本实施例中,所述数据分片包括多行数据。
在本实施例中,所述切分处理单元对数据分片中的多行数据进行逐行处理。
在本实施例中,还包含有
标记单元,用于对子结果数据根据分配顺序进行标记,合并写入单元根据标记单元的标记进行合并。
如图3所述,本发明还提供一种大数据的处理系统的处理方法,包括以下步骤:
1)接收待分析的数据;
2)将待分析的数据进行切分处理,切分为多个数据分片;
3)将生成的多个数据分片并按顺序依次分配给分析单元组的多个处理节点进行处理;
4)依次接收分析单元组的各个处理节点处理后的子结果数据,并对子结果数据根据分配顺序进行标记;
5)对各个子结果数据根据顺序标记进行合并,形成结果数据并写入到数据库单元内。
本发明的有益效果为:将待处理的数据切分为多个数据分片,再分别分配给多个处理点进行处理,各个处理点处理完毕后再对各个子结果数据进行合并,形成结果数据,可以有效的降低数据的复杂程度,从而可以有效的提升处理速度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种大数据的处理系统,其特征在于:包括
数据库单元,用于存储结果数据;
接收单元,接收待分析的数据;
切分处理单元,用于将待分析的数据切分为多个数据分片;
分析单元组,具有多个的处理节点,用于分析数据分片并形成子结果数据;
分配单元,将切分处理单元生成的多个数据分片并依次分配给分析单元组的多个处理节点进行处理;
接收单元,依次接收分析单元组的各个处理节点处理后的子结果数据;
合并写入单元,用于收集的各个子结果数据进行合并,形成结果数据并写入到数据库单元内。
2.根据权利要求1所述的一种大数据的处理系统,其特征在于:所述切分处理单元的切分规则为根据分析单元组的节点的数量,将所述待分析的数据切分为与处理节点的数量相同的数据分片。
3.一种大数据的处理系统的处理方法,包括以下步骤:
1)接收待分析的数据;
2)将待分析的数据进行切分处理,切分为多个数据分片;
3)将生成的多个数据分片并按顺序依次分配给分析单元组的多个处理节点进行处理;
4)依次接收分析单元组的各个处理节点处理后的子结果数据,并对子结果数据根据分配顺序进行标记;
5)对各个子结果数据根据顺序标记进行合并,形成结果数据并写入到数据库单元内。
4.根据权利要求3所述的一种大数据的处理系统,其特征在于:所述切分处理的具体步骤为:
A)获取待处理数据的签名;
B)根据汉明距离的相似阈值,确定切分段数;
C)按照切分段数,对签名进行一级切分,以获得至少两个前缀首部;
D)对于所述至少两个前缀首都中的每个前缀首部,按照切分段数,对所述签名中除前缀首部之外剩余的位数进行二级切分,以获得所述前缀首部对应的至少两个前缀尾部;
E)对所述每个前缀首部,将前缀首部和前缀首部对应的至少两个前缀尾部中的每个前缀尾部分别组合在一起,形成所述至少两个签名前缀中的一个签名前缀。
5.根据权利要求4所述的一种大数据的处理系统,其特征在于:所述数据分片包括多行数据。
6.根据权利要求5所述的一种大数据的处理系统,其特征在于:所述切分处理单元对数据分片中的多行数据进行逐行处理。
7.根据权利要求6所述的一种大数据的处理系统,其特征在于:还包含有
标记单元,用于对子结果数据根据分配顺序进行标记,合并写入单元根据标记单元的标记进行合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811304161.4A CN111143393A (zh) | 2018-11-03 | 2018-11-03 | 一种大数据的处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811304161.4A CN111143393A (zh) | 2018-11-03 | 2018-11-03 | 一种大数据的处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111143393A true CN111143393A (zh) | 2020-05-12 |
Family
ID=70515536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811304161.4A Pending CN111143393A (zh) | 2018-11-03 | 2018-11-03 | 一种大数据的处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111143393A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102475A (zh) * | 2013-04-11 | 2014-10-15 | 腾讯科技(深圳)有限公司 | 分布式并行任务处理的方法、装置及系统 |
US20150254307A1 (en) * | 2014-03-10 | 2015-09-10 | Interana, Inc. | System and methods for rapid data analysis |
CN106657213A (zh) * | 2016-09-14 | 2017-05-10 | 深圳峰创智诚科技有限公司 | 文件传输方法和装置 |
CN108614827A (zh) * | 2016-12-12 | 2018-10-02 | 阿里巴巴集团控股有限公司 | 数据切分方法、判重方法及电子设备 |
US20180322169A1 (en) * | 2017-05-05 | 2018-11-08 | Servicenow, Inc. | Global Search |
-
2018
- 2018-11-03 CN CN201811304161.4A patent/CN111143393A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102475A (zh) * | 2013-04-11 | 2014-10-15 | 腾讯科技(深圳)有限公司 | 分布式并行任务处理的方法、装置及系统 |
US20150254307A1 (en) * | 2014-03-10 | 2015-09-10 | Interana, Inc. | System and methods for rapid data analysis |
CN106657213A (zh) * | 2016-09-14 | 2017-05-10 | 深圳峰创智诚科技有限公司 | 文件传输方法和装置 |
CN108614827A (zh) * | 2016-12-12 | 2018-10-02 | 阿里巴巴集团控股有限公司 | 数据切分方法、判重方法及电子设备 |
US20180322169A1 (en) * | 2017-05-05 | 2018-11-08 | Servicenow, Inc. | Global Search |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175158B (zh) | 一种基于向量化的日志模板提取方法和系统 | |
CN105812177A (zh) | 一种网络故障处理方法和处理设备 | |
CN110888981B (zh) | 基于标题的文档聚类方法、装置、终端设备及介质 | |
CN110969517B (zh) | 一种招投标生命周期关联方法、系统、存储介质及计算机设备 | |
CN110719106B (zh) | 一种基于节点分类排序的社交网络图压缩方法及系统 | |
CN108920611A (zh) | 文章生成方法、装置、设备及存储介质 | |
CN111435343B (zh) | 计算机系统日志模板的自动生成和在线更新方法与系统 | |
US9881045B2 (en) | System and method for processing data | |
CN107229842A (zh) | 一种基于局部图的三代测序序列校正方法 | |
CN107085615B (zh) | 文本消重系统、方法、服务器及计算机存储介质 | |
CN109189840B (zh) | 一种流式在线日志解析方法 | |
CN110347827A (zh) | 面向异构文本运维数据的事件提取方法 | |
CN111143393A (zh) | 一种大数据的处理系统 | |
CN106909619B (zh) | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 | |
CN114465875B (zh) | 故障处理方法及装置 | |
US9235616B2 (en) | Systems and methods for partial workflow matching | |
CN116303379A (zh) | 一种数据处理方法、系统及计算机储存介质 | |
CN112883704B (zh) | 一种大数据相似文本去重预处理方法、装置及终端设备 | |
CN105654106A (zh) | 一种决策树生成方法及系统 | |
CN112035978B (zh) | 一种刀具参数优化设计方法及系统 | |
CN113850265A (zh) | Pdf文档的解析方法、装置、电子设备及存储介质 | |
CN111445401A (zh) | 圆柱棒料无序分拣的视觉识别方法、装置、设备及介质 | |
Al-Fayoumi | Enhanced Associative classification based on incremental mining Algorithm (E-ACIM) | |
CN111107493A (zh) | 一种移动用户位置预测方法与系统 | |
CN113901968B (zh) | 一种基于机器学习的铁路点云特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200512 |
|
RJ01 | Rejection of invention patent application after publication |