CN108763310A - 一种高可用的大数据平台 - Google Patents

一种高可用的大数据平台 Download PDF

Info

Publication number
CN108763310A
CN108763310A CN201810375776.XA CN201810375776A CN108763310A CN 108763310 A CN108763310 A CN 108763310A CN 201810375776 A CN201810375776 A CN 201810375776A CN 108763310 A CN108763310 A CN 108763310A
Authority
CN
China
Prior art keywords
data
platform
sub
platform system
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810375776.XA
Other languages
English (en)
Inventor
魏素扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Ming Crane Cloud Technology Co Ltd
Original Assignee
Jiangsu Ming Crane Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Ming Crane Cloud Technology Co Ltd filed Critical Jiangsu Ming Crane Cloud Technology Co Ltd
Priority to CN201810375776.XA priority Critical patent/CN108763310A/zh
Publication of CN108763310A publication Critical patent/CN108763310A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高可用的大数据平台,包括:支架服务器和布置在所述支架服务器上的平台系统集群,所述平台系统集群包括:数据存储子平台系统;数据集成子平台系统;数据计算子平台系统;智能全文检索子平台系统和统一运维监测子平台系统,所述统一运维监测子平台系统统一的安装部署及运维监测管理。根据本发明的高可用的大数据平台,是一个高可用大大数据平台及统一的运维监测系统,从数据采集,存储,计算分析,可视化检索,统一运维监测管理的高可用的大数据系统。从数据采集系统到数据到数据可视化形成有效的完整的体系,减少一般的大数据平台不能形成完整的闭环,造成数据丢失,数据分析不完整的弊端。

Description

一种高可用的大数据平台
技术领域
本发明涉及大数据处理技术领域,具体而言,特别涉及一种高可用的大数据平台。
背景技术
当今世界,信息化浪潮席卷全球,大数据、云计算、物联网等蓬勃发展,使互联网时代迈上一个新台阶,大数据技术无疑是整个信息行业乃至整个社会的热点话题,各行各业都在探讨大数据可以为自身所在的行业带来怎样的变化和提升,以实现“人在干、数在转、云在算”的价值理念为最高目标。
大数据平台基于开源分布式框架Hadoop为基础并深度优化,且整合大量优秀开源技术框架,形成以数据分布式采集,大数据聚合传输,数据分布式存储,实时和离线数据分析计算,智能全文检索,大数据可视化等构成大数据生态系统。传统的数据库无法支撑在海量数据全量计算及存储,使用起来十分不便。
发明内容
本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。有鉴于此,本发明需要提供一种…优点(独立权利要求带来的技术效果,要简洁)的主题)。
根据本发明实施例的高可用的大数据平台,包括:支架服务器和布置在所述支架服务器上的平台系统集群,所述平台系统集群包括:数据存储子平台系统;数据集成子平台系统,所述数据集成子平台系统通过Agent客户端实时采集数据,通过Flume将数据及时传送至Kafka集群,同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统;数据计算子平台系统,所述数据计算子平台系统通过MapReduce离线计算,Storm计算流数据框架做数据统计分析,数据关联挖掘和模型预测功能,使用异步通信框架对海量数据,数学建模迭代求优,获取最优参数模型,再使用模型参数预测未来发展趋势,以便于精准控制和智能决策;智能全文检索子平台系统,所述智能全文检索子平台系统使用自然语言处理技术,倒排序算法实现数据内容全文检索;统一运维监测子平台系统,所述统一运维监测子平台系统统一的安装部署及运维监测管理。
根据本发明的实施例的高可用的大数据平台,是一个高可用大大数据平台及统一的运维监测系统,从数据采集,存储,计算分析,可视化检索,统一运维监测管理的高可用的大数据系统。从数据采集系统到数据到数据可视化形成有效的完整的体系,减少一般的大数据平台不能形成完整的闭环,造成数据丢失,数据分析不完整的弊端。
另外,根据本发明上述实施例的高可用的大数据平台还可以具有如下附加的技术特征:
根据本发明的一个实施例,所述平台系统集群进一步包括:大数据可视化平台系统,所述大数据可视化平台系统布置在所述支架服务器上。
根据本发明的一个实施例,所述数据存储子平台系统支持关系型数据存储于Oracle、SQL或Hive数据库。
根据本发明的一个实施例,所述数据存储子平台系统支持非结构化数据存储于Hbase和HDFS分布式文件系统。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是根据本发明的一个实施例的高可用的大数据平台的架构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
根据本发明的实施例的高可用的大数据平台,使用针对特定应用的大数据管理平台,通过使用多项先进技术包括:融合检索引擎、MySQL多引擎机制、Hadoop/HDFS分布式并行计算和多副本机制、关系数据库列存储机制、自然语言处理等先进技术,而设计的大数据聚合分析平台,为各类业务提供大数据分析应用。
而引入Federation的最主要原因是简单,其简单性是与真正的分布式Namenode相比而言的。Federation能够快速的解决了大部分单Namenode HDFS的问题。Federation是简单鲁棒的设计,由于联盟中各个Namenode之间是相互独立的。Federation整个核心设计实现大概用了3.5个月。大部分改变是在Datanode、Config和Tools,而Namenode本身的改动非常少,这样Namenode原先的鲁棒性不会受到影响。比分布式的Namenode简单,虽然这种实现的扩展性比起真正的分布式的Namenode要小些,但是可以迅速满足需求。另外一个原因是Federation良好的向后兼容性,已有的单Namenode的部署配置不需要任何改变就可以继续工作。
统一运维管理平台使用Ganglia收集度量指标,用Nagios支持系统报警,当需要引起管理员的关注时(比如,节点停机或磁盘剩余空间不足等问题),系统将向其发送告警。
根据本发明的实施例的高可用的大数据平台,包括:支架服务器(未示出)和布置在所述支架服务器上的平台系统集群,平台系统集群包括:数据存储子平台系统10、数据集成子平台系统20、数据计算子平台系统30、智能全文检索子平台系统40和统一运维监测子平台系统50。
具体而言,数据集成子平台系统20通过Agent客户端实时采集数据,通过Flume将数据及时传送至Kafka集群,同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统10。
数据计算子平台系统30通过MapReduce离线计算,Storm计算流数据框架做数据统计分析,数据关联挖掘和模型预测功能,使用异步通信框架对海量数据,数学建模迭代求优,获取最优参数模型,再使用模型参数预测未来发展趋势,以便于精准控制和智能决策。
智能全文检索子平台系统40使用自然语言处理技术,倒排序算法实现数据内容全文检索。
统一运维监测子平台系统50统一的安装部署及运维监测管理。
根据本发明的实施例的高可用的大数据平台,是一个高可用大大数据平台及统一的运维监测系统,从数据采集,存储,计算分析,可视化检索,统一运维监测管理的高可用的大数据系统。从数据采集系统到数据到数据可视化形成有效的完整的体系,减少一般的大数据平台不能形成完整的闭环,造成数据丢失,数据分析不完整的弊端。
根据本发明的一个实施例,平台系统集群进一步包括:大数据可视化平台系统60,大数据可视化平台系统60布置在支架服务器上。
根据本发明的一个实施例,数据存储子平台系统10支持关系型数据存储于Oracle、SQL或Hive数据库。可以理解的是,根据本发明的一个实施例,数据存储子平台系统10支持非结构化数据存储于Hbase和HDFS分布式文件系统。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种高可用的大数据平台,其特征在于,包括:支架服务器和布置在所述支架服务器上的平台系统集群,所述平台系统集群包括:
数据存储子平台系统;
数据集成子平台系统,所述数据集成子平台系统通过Agent客户端实时采集数据,通过Flume将数据及时传送至Kafka集群,同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统;
数据计算子平台系统,所述数据计算子平台系统通过MapReduce离线计算,Storm计算流数据框架做数据统计分析,数据关联挖掘和模型预测功能,使用异步通信框架对海量数据,数学建模迭代求优,获取最优参数模型,再使用模型参数预测未来发展趋势,以便于精准控制和智能决策;
智能全文检索子平台系统,所述智能全文检索子平台系统使用自然语言处理技术,倒排序算法实现数据内容全文检索;
统一运维监测子平台系统,所述统一运维监测子平台系统统一的安装部署及运维监测管理。
2.根据权利要求1所述的高可用的大数据平台,其特征在于,所述平台系统集群进一步包括:大数据可视化平台系统,所述大数据可视化平台系统布置在所述支架服务器上。
3.根据权利要求1或2所述的高可用的大数据平台,其特征在于,所述数据存储子平台系统支持关系型数据存储于Oracle、SQL或Hive数据库。
4.根据权利要求1或2所述的高可用的大数据平台,其特征在于,所述数据存储子平台系统支持非结构化数据存储于Hbase和HDFS分布式文件系统。
CN201810375776.XA 2018-04-25 2018-04-25 一种高可用的大数据平台 Pending CN108763310A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810375776.XA CN108763310A (zh) 2018-04-25 2018-04-25 一种高可用的大数据平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810375776.XA CN108763310A (zh) 2018-04-25 2018-04-25 一种高可用的大数据平台

Publications (1)

Publication Number Publication Date
CN108763310A true CN108763310A (zh) 2018-11-06

Family

ID=64011848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810375776.XA Pending CN108763310A (zh) 2018-04-25 2018-04-25 一种高可用的大数据平台

Country Status (1)

Country Link
CN (1) CN108763310A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951313A (zh) * 2019-01-18 2019-06-28 长江大学 一种Hadoop云平台的监控装置及方法
CN110784350A (zh) * 2019-10-25 2020-02-11 北京计算机技术及应用研究所 一种实时可用集群管理系统的设计方法
CN112685385A (zh) * 2020-12-31 2021-04-20 广西中科曙光云计算有限公司 一种用于智慧城市建设的大数据平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN106354779A (zh) * 2016-08-23 2017-01-25 成都卡莱博尔信息技术股份有限公司 一种面向集群架构的数据管理系统
CN106649462A (zh) * 2016-09-26 2017-05-10 北京赛思信安技术股份有限公司 一种针对海量数据全文检索场景的实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN106354779A (zh) * 2016-08-23 2017-01-25 成都卡莱博尔信息技术股份有限公司 一种面向集群架构的数据管理系统
CN106649462A (zh) * 2016-09-26 2017-05-10 北京赛思信安技术股份有限公司 一种针对海量数据全文检索场景的实现方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951313A (zh) * 2019-01-18 2019-06-28 长江大学 一种Hadoop云平台的监控装置及方法
CN109951313B (zh) * 2019-01-18 2022-04-19 长江大学 一种Hadoop云平台的监控装置及方法
CN110784350A (zh) * 2019-10-25 2020-02-11 北京计算机技术及应用研究所 一种实时可用集群管理系统的设计方法
CN110784350B (zh) * 2019-10-25 2022-04-05 北京计算机技术及应用研究所 一种实时高可用集群管理系统的设计方法
CN112685385A (zh) * 2020-12-31 2021-04-20 广西中科曙光云计算有限公司 一种用于智慧城市建设的大数据平台

Similar Documents

Publication Publication Date Title
Zhang et al. Parallel processing systems for big data: a survey
CN108763310A (zh) 一种高可用的大数据平台
US9305076B1 (en) Flattening a cluster hierarchy tree to filter documents
CN103970851A (zh) 海量凭证数据直接出具大型企业集团总部财务报表的方法
CN107590181A (zh) 一种大数据的智能分析系统
CN109977125A (zh) 一种基于网络安全的大数据安全分析平台系统
Caldarola et al. Big data: A survey-the new paradigms, methodologies and tools
CN111459900B (zh) 大数据生命周期设置方法、装置、存储介质及服务器
Vu et al. Using deep learning for big spatial data partitioning
Vazhkudai et al. GUIDE: a scalable information directory service to collect, federate, and analyze logs for operational insights into a leadership HPC facility
Wang et al. Fast and adaptive indexing of multi-dimensional observational data
Ren et al. Skyline queries over incomplete data streams
Bai et al. Querying fuzzy spatiotemporal data using XQuery
Tian et al. A learned index for exact similarity search in metric spaces
CN105824892A (zh) 一种数据池对数据同步和处理的方法
US9268844B1 (en) Adding document filters to an existing cluster hierarchy
US20040054987A1 (en) System and method of an incremental file audit in a computer system
Mouratidis et al. Tree-based partition querying: a methodology for computing medoids in large spatial datasets
Vouzoukidou et al. Processing continuous text queries featuring non-homogeneous scoring functions
Wu et al. Community detection with topological structure and attributes in information networks
Pandey et al. A comprehensive study of clustering algorithms for big data mining with mapreduce capability
Wang et al. Block storage optimization and parallel data processing and analysis of product big data based on the hadoop platform
Wang et al. FSP: towards flexible synchronous parallel frameworks for distributed machine learning
Liao et al. An efficient storage architecture based on blockchain and distributed database for public security big data
Polyantseva et al. Ensuring the Reliability of a Highly Loaded Vehicle Monitoring and Traffic Control Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication