CN110990430A - 一种大规模数据并行处理系统 - Google Patents

一种大规模数据并行处理系统 Download PDF

Info

Publication number
CN110990430A
CN110990430A CN201911202743.6A CN201911202743A CN110990430A CN 110990430 A CN110990430 A CN 110990430A CN 201911202743 A CN201911202743 A CN 201911202743A CN 110990430 A CN110990430 A CN 110990430A
Authority
CN
China
Prior art keywords
data
sql
engine
sub
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911202743.6A
Other languages
English (en)
Inventor
陆冰芳
谢菁
张希翔
韦宗慧
梁仲峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Power Grid Co Ltd
Original Assignee
Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Power Grid Co Ltd filed Critical Guangxi Power Grid Co Ltd
Priority to CN201911202743.6A priority Critical patent/CN110990430A/zh
Publication of CN110990430A publication Critical patent/CN110990430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大规模数据并行处理系统,包括:查询请求终端,所述查询请求终端与SQL主引擎连接,所述SQL主引擎连接有若干SQL从引擎,所述SQL从引擎设置有若干个,且每个所述SQL从引擎分别对专一数据类型的子数据库进行存储和管理,所述大数据库与数据推送模块连接,所述大数据库根目录下建立有若干个用于分别存储专一数据类型的子数据库,所述数据推送模块与大数据采集终端连接,用于对采集到的数据信息进行数据类型识别。本发明通过SQL从引擎处理单一数据类型的子数据库,并将数据处理结果向上级SQL主引擎进行汇总,并由SQL主引擎将结果整合后发送至查询请求终端进行显示,输出查询结果,对数据处理效率高,能够以多种设备为载体,操作方便。

Description

一种大规模数据并行处理系统
技术领域
本发明属于大数据处理技术领域,具体涉及一种大规模数据并行处理系统。
背景技术
数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。随着互联网技术的发展,数据量也在飞速提升,面对海量数据,传统的数据处理模式已经无法满足现有的生产需求。因此,如何从大数据中快速获取人们需要的信息成为大数据处理中的重要任务。
发明内容
本发明的目的在于提供一种大规模数据并行处理系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种大规模数据并行处理系统,包括:
查询请求终端,所述查询请求终端与SQL主引擎连接,所述查询请求终端用于发出大数据处理指令,并将查询请求进行解析后发送至SQL主引擎以及接收SQL主引擎的请求处理结果并进行结果输出;
SQL主引擎,所述SQL主引擎连接有若干SQL从引擎,所述SQL主引擎接收查询请求后,将查询请求向负责查询管理专一数据类型子数据库的SQL从引擎进行分发以及接收SQL从引擎的处理结果;
SQL从引擎,所述SQL从引擎设置有若干个,且每个所述SQL从引擎分别对专一数据类型的子数据库进行存储和管理,在SQL从引擎接收到查询请求时,从子数据库中调取相关处理结果;
大数据库,所述大数据库与数据推送模块连接,所述大数据库根目录下建立有若干个用于分别存储专一数据类型的子数据库;
数据推送模块,所述数据推送模块与大数据采集终端连接,用于对采集到的数据信息进行数据类型识别,并将数据按照类型分别推送至大数据库中保存;
大数据采集终端,所述大数据采集终端将采集到的数据信息发送至数据推送模块进行识别分类。
优选的,所述数据推送模块中还设有若干数据分类子模块,每个数据分类子模块随机接收大数据采集终端发出的数据,所述数据分类子模块可对数据类型进行识别并将数据发送至大数据库中用于保存指定数据类型的子数据库中进行存储。
优选的,所述SQL主引擎和SQL从引擎还包括HBase表。
优选的,所述查询请求终端包括计算机、智能手机,所述查询请求终端通过云服务器与SQL主引擎连接。
本发明的技术效果和优点:
本发明通过SQL从引擎处理单一数据类型的子数据库,提高数据查询管理效率,并将数据处理结果向上级SQL主引擎进行汇总,并由SQL主引擎将结果整合后发送至查询请求终端进行显示,输出查询结果,对数据处理效率高,能够以多种设备为载体,操作方便。
附图说明
图1为本发明的系统结构示意图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种大规模数据并行处理系统,包括:
查询请求终端,所述查询请求终端与SQL主引擎连接,所述查询请求终端用于发出大数据处理指令,并将查询请求进行解析后发送至SQL主引擎以及接收SQL主引擎的请求处理结果并进行结果输出,向查询请求终端输入查询指令时,首先对查询指令进行解析,判断查询指令为数据定义类型或数据操作类型的语句,根据查询指令的类别分别进行操作;
SQL主引擎,所述SQL主引擎连接有若干SQL从引擎,所述SQL主引擎接收查询请求后,将查询请求向负责查询管理专一数据类型子数据库的SQL从引擎进行分发以及接收SQL从引擎的处理结果,SQL主引擎分别对下级每个SQL从引擎发出控制指令,使得SQL从引擎进行并列处理,提高数据处理效率,节约时间,SQL从引擎将数据处理结果向上级SQL主引擎进行汇总,并由SQL主引擎将结果整合后发送至查询请求终端进行显示,输出查询结果;
SQL从引擎,所述SQL从引擎设置有若干个,且每个所述SQL从引擎分别对专一数据类型的子数据库进行存储和管理,在SQL从引擎接收到查询请求时,从子数据库中调取相关处理结果,采用SQL从引擎处理单一数据类型的子数据库,提高数据查询管理效率;
大数据库,所述大数据库与数据推送模块连接,所述大数据库根目录下建立有若干个用于分别存储专一数据类型的子数据库,将同类型的数据保存管理在同一子数据库中,有利于提高数据查找精度;
数据推送模块,所述数据推送模块与大数据采集终端连接,用于对采集到的数据信息进行数据类型识别,并将数据按照类型分别推送至大数据库中保存,通过预先对数据类型进行分类,对同一类型的数据集中存储管理,提高数据存储的整洁性,便于操作;
大数据采集终端,所述大数据采集终端将采集到的数据信息发送至数据推送模块进行识别分类,大数据采集时,通过不同渠道同时进行采集并上传至数据推送模块进行集中处理。
所述数据推送模块中还设有若干数据分类子模块,每个数据分类子模块随机接收大数据采集终端发出的数据,所述数据分类子模块可对数据类型进行识别并将数据发送至大数据库中用于保存指定数据类型的子数据库中进行存储。数据分类子模块用于识别数据类型,能够在收集数据时就对数据进行分类识别处理,数据分类子模块并行处理,提高对数据的分类效率,粗粒速度高。
所述SQL主引擎和SQL从引擎还包括HBase表,其中SLQ表中非主键的列映射为HBase表中列族中的列,SLQ表中的主键列映射为HBase表中的行主键。
所述查询请求终端包括计算机、智能手机,所述查询请求终端通过云服务器与SQL主引擎连接,能够以多种设备为载体,适应性广,实现自由化对数据进行处理操作。
本发明通过SQL从引擎处理单一数据类型的子数据库,提高数据查询管理效率,并将数据处理结果向上级SQL主引擎进行汇总,并由SQL主引擎将结果整合后发送至查询请求终端进行显示,输出查询结果,对数据处理效率高,能够以多种设备为载体,操作方便。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种大规模数据并行处理系统,其特征在于:包括:
查询请求终端,所述查询请求终端与SQL主引擎连接,所述查询请求终端用于发出大数据处理指令,并将查询请求进行解析后发送至SQL主引擎以及接收SQL主引擎的请求处理结果并进行结果输出;
SQL主引擎,所述SQL主引擎连接有若干SQL从引擎,所述SQL主引擎接收查询请求后,将查询请求向负责查询管理专一数据类型子数据库的SQL从引擎进行分发以及接收SQL从引擎的处理结果;
SQL从引擎,所述SQL从引擎设置有若干个,且每个所述SQL从引擎分别对专一数据类型的子数据库进行存储和管理,在SQL从引擎接收到查询请求时,从子数据库中调取相关处理结果;
大数据库,所述大数据库与数据推送模块连接,所述大数据库根目录下建立有若干个用于分别存储专一数据类型的子数据库;
数据推送模块,所述数据推送模块与大数据采集终端连接,用于对采集到的数据信息进行数据类型识别,并将数据按照类型分别推送至大数据库中保存;
大数据采集终端,所述大数据采集终端将采集到的数据信息发送至数据推送模块进行识别分类。
2.根据权利要求1所述的一种大规模数据并行处理系统,其特征在于:所述数据推送模块中还设有若干数据分类子模块,每个数据分类子模块随机接收大数据采集终端发出的数据,所述数据分类子模块可对数据类型进行识别并将数据发送至大数据库中用于保存指定数据类型的子数据库中进行存储。
3.根据权利要求1所述的一种大规模数据并行处理系统,其特征在于:所述SQL主引擎和SQL从引擎还包括HBase表。
4.根据权利要求1所述的一种大规模数据并行处理系统,其特征在于:所述查询请求终端包括计算机、智能手机,所述查询请求终端通过云服务器与SQL主引擎连接。
CN201911202743.6A 2019-11-29 2019-11-29 一种大规模数据并行处理系统 Pending CN110990430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911202743.6A CN110990430A (zh) 2019-11-29 2019-11-29 一种大规模数据并行处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911202743.6A CN110990430A (zh) 2019-11-29 2019-11-29 一种大规模数据并行处理系统

Publications (1)

Publication Number Publication Date
CN110990430A true CN110990430A (zh) 2020-04-10

Family

ID=70088507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911202743.6A Pending CN110990430A (zh) 2019-11-29 2019-11-29 一种大规模数据并行处理系统

Country Status (1)

Country Link
CN (1) CN110990430A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911665A (zh) * 2021-02-06 2022-08-16 上海胧爱信息科技有限公司 一种数据采集终端管理系统及管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930060A (zh) * 2012-11-27 2013-02-13 孙振辉 一种数据库快速索引的方法及装置
CN103646051A (zh) * 2013-11-27 2014-03-19 武汉邮电科学研究院 一种基于列存储的大数据并行处理系统及方法
CN105824957A (zh) * 2016-03-30 2016-08-03 电子科技大学 分布式内存列式数据库的查询引擎系统及查询方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930060A (zh) * 2012-11-27 2013-02-13 孙振辉 一种数据库快速索引的方法及装置
CN103646051A (zh) * 2013-11-27 2014-03-19 武汉邮电科学研究院 一种基于列存储的大数据并行处理系统及方法
CN105824957A (zh) * 2016-03-30 2016-08-03 电子科技大学 分布式内存列式数据库的查询引擎系统及查询方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911665A (zh) * 2021-02-06 2022-08-16 上海胧爱信息科技有限公司 一种数据采集终端管理系统及管理方法

Similar Documents

Publication Publication Date Title
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN103235825A (zh) 一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法
CN106599052A (zh) 一种基于ApacheKylin的数据查询系统及其方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN104462222A (zh) 一种卡口车辆通行数据的分布式存储方法及系统
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
CN109977175B (zh) 数据配置查询方法和装置
US20200334314A1 (en) Emergency disposal support system
CN110162522A (zh) 一种分布式数据搜索系统及方法
CN105095436A (zh) 数据源数据自动建模方法
CN112559634A (zh) 一种基于计算机云计算大数据用数据管理系统
CN111046059B (zh) 基于分布式数据库集群的低效sql语句分析方法及系统
CN108287889B (zh) 一种基于弹性表模型的多源异构数据存储方法和系统
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
CN110297829A (zh) 一种面向特定行业结构化业务数据的全文检索方法及系统
CN110532282A (zh) 数据查询方法及装置
CN110990430A (zh) 一种大规模数据并行处理系统
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN113779349A (zh) 数据检索系统、装置、电子设备和可读存储介质
CN105677745A (zh) 一种通用高效自助数据查询系统及实现方法
CN112269913A (zh) 一种企业级全量数据智能搜索实现方法及系统
CN107577690B (zh) 海量信息数据的推荐方法及推荐装置
RU2396593C2 (ru) Способ поиска данных об объектах и в различных базах данных и система для его реализации
CN111104441A (zh) 一种数据采集方法及系统
KR101598471B1 (ko) Rdf 트리플 데이터 종류 기반 데이터 저장 및 검색 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410