CN107436947A - 一种大数据储存及并行处理方法 - Google Patents

一种大数据储存及并行处理方法 Download PDF

Info

Publication number
CN107436947A
CN107436947A CN201710657288.3A CN201710657288A CN107436947A CN 107436947 A CN107436947 A CN 107436947A CN 201710657288 A CN201710657288 A CN 201710657288A CN 107436947 A CN107436947 A CN 107436947A
Authority
CN
China
Prior art keywords
data
storage
platform
parallel processing
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710657288.3A
Other languages
English (en)
Other versions
CN107436947B (zh
Inventor
杨绪升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN FENGHUO PUTIAN IT Co Ltd
Original Assignee
WUHAN FENGHUO PUTIAN IT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN FENGHUO PUTIAN IT Co Ltd filed Critical WUHAN FENGHUO PUTIAN IT Co Ltd
Priority to CN201710657288.3A priority Critical patent/CN107436947B/zh
Publication of CN107436947A publication Critical patent/CN107436947A/zh
Application granted granted Critical
Publication of CN107436947B publication Critical patent/CN107436947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据储存及并行处理方法,包括如下步骤:根据需求建立储存平台,需对海量数据的进行查询与分析处理,对数据进行并行挖掘处理,将数据通过常见机器学习算法到Hadoop平台的移植,实现其并行化,将并行处理后抓取的数据储存至储存平台内,并经过储存平台处理,将其分类,并远程储存不同的储存单元。该大数据储存及并行处理方法能够对所抓取的数据进行分类别储存,能够有效提高数据的安全性以及可靠性,充分利用数据库资源,提高了现有集中式数据库的利用率,还能够对数据进行备份,以避免其丢失。

Description

一种大数据储存及并行处理方法
技术领域
本发明涉及数据储存技术领域,尤其涉及一种大数据储存及并行处理方法。
背景技术
随着互联网技术的飞速发展,如何对互联网信息进行有效监管成为各级网信部门亟待解决的重大课题,尤其是自媒体和新媒体技术手段不断发展变化,给网上舆论引导和信息管控提出了严峻挑战,必须不断适应新的形势变化,改进网信部门技术手段和工作平台。
近年来,随着信息化与数据储存的深度融合以及物联网技术的快速发展,鉴于高速光纤数据网和无线传输已在互联网行业广泛普及,大数据蕴含大价值。大数据的存在引导人们研究“数据密集型”的应用系统,与大数据交互,识别新模式,发现新规律。而现有技术中,数据都是集中在同一的储存器内,若是发生故障,则全部数据都会受到影响,为此,我们提出了一种大数据储存及并行处理方法。
发明内容
本发明提出了一种大数据储存及并行处理方法,以解决上述背景技术中提出的问题。
本发明提出了一种大数据储存及并行处理方法,包括如下步骤:
S1:根据需求建立储存平台,其具体步骤如下:
A1、建立管理服务器以及多个内部存储器,之间并形成集群能够并行处理大数据请求;
A2、对A1中的多个内部储存器进行编号分类,并将其记录至管理服务器内,且在内部储存器内部储存时,进行数据类别分类储存;
A3、在建立多个储存单元,并设置在不同的区域,之间通过无线通信进行实时连接,以便于将数据进行分类备份,并将数据传输至多个储存单元进行保存,以避免数据的丢失;
S2:实时数据抓取不同网站数据更新的策略,对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取,由于数据抓取过程有很多环节,会造成部分数据无法抓取的问题,通过对种子爬虫处理,任务调度策略处理,防止漏爬数据现象;
S3:需对海量数据的进行查询与分析处理,主要包括:
1)、Hive查询执行计划优化,包括MapReduce任务生成以及MapReduce间数据传输效率的优化;
2)、针对MapReduce在实时性方面不足,结合MapReduce框架与并行关系数据库中思想,研究面向海量数据的分布式实时查询引擎,支持实时数据查询;
3)、借鉴分析型数据库思想,结合查询负载特点的研究分布式实时查询引擎中查询优化技术,包括并行查询优化、数据高效分布、复杂多表连接和分布式缓存;
S4:在经过S3的处理后,对数据进行并行挖掘处理,将数据通过常见机器学习算法到Hadoop平台的移植,实现其并行化;
S5:最后,将并行处理后抓取的数据储存至储存平台内,并经过储存平台处理,将其分类,并远程储存不同的储存单元。
优选的,在S1内的储存平台内部还设置有信号去噪、数据压缩、数据分析、数据加密以及数据解密的功能,以保证储存平台的正常运行。
优选的,构建“数据密集型”的大数据储存平台,需要协调很多计算和存储资源,高效地接入和保存大范围、多尺度的监测数据,并使系统长时间保持安全可靠的运行状态,这对数据存储与分析平台提出了较高的性能要求。
本发明提出的一种大数据储存及并行处理方法,有益效果在于:该大数据储存及并行处理方法能够对所抓取的数据进行分类别储存,能够有效提高数据的安全性以及可靠性,充分利用数据库资源,提高了现有集中式数据库的利用率,还能够对数据进行备份,以避免其丢失。
具体实施方式
下面结合具体实施例来对本发明做进一步说明。
本发明提出了一种大数据储存及并行处理方法,包括如下步骤:
S1:根据需求建立储存平台,其具体步骤如下:
A1、建立管理服务器以及多个内部存储器,之间并形成集群能够并行处理大数据请求;
A2、对A1中的多个内部储存器进行编号分类,并将其记录至管理服务器内,且在内部储存器内部储存时,进行数据类别分类储存,储存平台内部还设置有信号去噪、数据压缩、数据分析、数据加密以及数据解密的功能,以保证储存平台的正常运行;
A3、在建立多个储存单元,并设置在不同的区域,之间通过无线通信进行实时连接,以便于将数据进行分类备份,并将数据传输至多个储存单元进行保存,以避免数据的丢失;
S2:实时数据抓取不同网站数据更新的策略,对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取,由于数据抓取过程有很多环节,会造成部分数据无法抓取的问题,通过对种子爬虫处理,任务调度策略处理,防止漏爬数据现象;
S3:需对海量数据的进行查询与分析处理,主要包括:
1)、Hive查询执行计划优化,包括MapReduce任务生成以及MapReduce间数据传输效率的优化;
2)、针对MapReduce在实时性方面不足,结合MapReduce框架与并行关系数据库中思想,研究面向海量数据的分布式实时查询引擎,支持实时数据查询;
3)、借鉴分析型数据库思想,结合查询负载特点的研究分布式实时查询引擎中查询优化技术,包括并行查询优化、数据高效分布、复杂多表连接和分布式缓存;
S4:在经过S3的处理后,对数据进行并行挖掘处理,将数据通过常见机器学习算法到Hadoop平台的移植,实现其并行化;
S5:最后,将并行处理后抓取的数据储存至储存平台内,并经过储存平台处理,将其分类,并远程储存不同的储存单元。
构建“数据密集型”的大数据储存平台,需要协调很多计算和存储资源,高效地接入和保存大范围、多尺度的监测数据,并使系统长时间保持安全可靠的运行状态,这对数据存储与分析平台提出了较高的性能要求。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.一种大数据储存及并行处理方法,其特征在于,包括以下步骤:
S1:根据需求建立储存平台,其具体步骤如下:
A1、建立管理服务器以及多个内部存储器,之间并形成集群能够并行处理大数据请求;
A2、对A1中的多个内部储存器进行编号分类,并将其记录至管理服务器内,且在内部储存器内部储存时,进行数据类别分类储存;
A3、在建立多个储存单元,并设置在不同的区域,之间通过无线通信进行实时连接,以便于将数据进行分类备份,并将数据传输至多个储存单元进行保存,以避免数据的丢失;
S2:实时数据抓取不同网站数据更新的策略,对不同网站做不同的抓取策略,并利用多种抓取方式进行不同数据的抓取,由于数据抓取过程有很多环节,会造成部分数据无法抓取的问题,通过对种子爬虫处理,任务调度策略处理,防止漏爬数据现象;
S3:需对海量数据的进行查询与分析处理,主要包括:
1)、Hive查询执行计划优化,包括MapReduce任务生成以及MapReduce间数据传输效率的优化;
2)、针对MapReduce在实时性方面不足,结合MapReduce框架与并行关系数据库中思想,研究面向海量数据的分布式实时查询引擎,支持实时数据查询;
3)、借鉴分析型数据库思想,结合查询负载特点的研究分布式实时查询引擎中查询优化技术,包括并行查询优化、数据高效分布、复杂多表连接和分布式缓存;
S4:在经过S3的处理后,对数据进行并行挖掘处理,将数据通过常见机器学习算法到Hadoop平台的移植,实现其并行化;
S5:最后,将并行处理后抓取的数据储存至储存平台内,并经过储存平台处理,将其分类,并远程储存不同的储存单元。
2.根据权利要求1所述的一种大数据储存及并行处理方法,其特征在于:在S1内的储存平台内部还设置有信号去噪、数据压缩、数据分析、数据加密以及数据解密的功能,以保证储存平台的正常运行。
3.根据权利要求1所述的一种大数据储存及并行处理方法,其特征在于:构建“数据密集型”的大数据储存平台,需要协调很多计算和存储资源,高效地接入和保存大范围、多尺度的监测数据,并使系统长时间保持安全可靠的运行状态,这对数据存储与分析平台提出了较高的性能要求。
CN201710657288.3A 2017-08-03 2017-08-03 一种大数据储存及并行处理方法 Active CN107436947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710657288.3A CN107436947B (zh) 2017-08-03 2017-08-03 一种大数据储存及并行处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710657288.3A CN107436947B (zh) 2017-08-03 2017-08-03 一种大数据储存及并行处理方法

Publications (2)

Publication Number Publication Date
CN107436947A true CN107436947A (zh) 2017-12-05
CN107436947B CN107436947B (zh) 2019-12-20

Family

ID=60461011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710657288.3A Active CN107436947B (zh) 2017-08-03 2017-08-03 一种大数据储存及并行处理方法

Country Status (1)

Country Link
CN (1) CN107436947B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795626A (zh) * 2019-10-28 2020-02-14 南京弹跳力信息技术有限公司 大数据处理方法及系统
CN110955704A (zh) * 2019-12-03 2020-04-03 北京锐安科技有限公司 一种数据管理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05137175A (ja) * 1991-11-11 1993-06-01 Fujitsu Ltd 分散型監視システムの出力方式
CN101567002A (zh) * 2009-05-25 2009-10-28 北京中企开源信息技术有限公司 一种实时数据存储的方法和系统
CN103019853A (zh) * 2012-11-19 2013-04-03 北京亿赞普网络技术有限公司 一种作业任务的调度方法和装置
CN103440288A (zh) * 2013-08-16 2013-12-11 曙光信息产业股份有限公司 一种大数据存储方法及装置
EP2990985A1 (en) * 2014-08-25 2016-03-02 Deutsche Telekom AG Method and system for trust level based data storage in a distributed storage environment and trust level based access to the storage environment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05137175A (ja) * 1991-11-11 1993-06-01 Fujitsu Ltd 分散型監視システムの出力方式
CN101567002A (zh) * 2009-05-25 2009-10-28 北京中企开源信息技术有限公司 一种实时数据存储的方法和系统
CN103019853A (zh) * 2012-11-19 2013-04-03 北京亿赞普网络技术有限公司 一种作业任务的调度方法和装置
CN103440288A (zh) * 2013-08-16 2013-12-11 曙光信息产业股份有限公司 一种大数据存储方法及装置
EP2990985A1 (en) * 2014-08-25 2016-03-02 Deutsche Telekom AG Method and system for trust level based data storage in a distributed storage environment and trust level based access to the storage environment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱永利等: "ODPS平台下的电力设备监测大数据存储与并行处理方法", 《电工技术学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795626A (zh) * 2019-10-28 2020-02-14 南京弹跳力信息技术有限公司 大数据处理方法及系统
CN110955704A (zh) * 2019-12-03 2020-04-03 北京锐安科技有限公司 一种数据管理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107436947B (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CA2897338A1 (en) Data stream splitting for low-latency data access
CN106156328B (zh) 一种银行运行日志数据监控方法及系统
CN104376365A (zh) 一种基于关联规则挖掘的信息系统运行规则库的构造方法
CN104850576B (zh) 一种基于海量视频的快速特征提取系统
CN104850593B (zh) 一种基于大数据的应急物资数据存储及流通监测方法
CN104951524B (zh) 一种用于数据库运维的移动平台及其使用方法
CN108595473A (zh) 一种基于云计算的大数据应用平台
CN106452819A (zh) 数据采集系统及数据采集方法
CN104778188A (zh) 一种分布式设备日志采集方法
CN102929961A (zh) 基于构建快速数据分级通道的数据处理方法及其装置
CN110502546A (zh) 一种数据处理方法及装置
CN103577431B (zh) 一种利用多种数据库进行系统设计的方法、装置以及系统
CN107436947A (zh) 一种大数据储存及并行处理方法
CN102737192B (zh) 一种基于云存储的可信程序操作文件备份方法
CN103327116A (zh) 一种网络文件的动态副本存储方法
CN105069029B (zh) 一种实时etl系统及方法
CN106021593A (zh) 一种第一数据库与第二数据库接管过程中的复制处理方法
CN103310375A (zh) 智慧天网行为审计分析系统
CN116703024A (zh) 基于电力大数据的煤炭行业企业生产情况分析系统
CN108334549A (zh) 一种设备数据存储方法、提取方法、存储平台及提取平台
CN104038314B (zh) 一种新型的安监联网动态数据实时传输系统及方法
CN103198126A (zh) 物联网时空数据管理方法
CN104199919A (zh) 一种实现超大规模数据实时读取的方法
Liu et al. Research on environmental monitoring system based on microservices and data mining
CN106776617A (zh) 日志文件的保存方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant