CN108763310A

CN108763310A - 一种高可用的大数据平台

Info

Publication number: CN108763310A
Application number: CN201810375776.XA
Authority: CN
Inventors: 魏素扬
Original assignee: Jiangsu Ming Crane Cloud Technology Co Ltd
Current assignee: Jiangsu Ming Crane Cloud Technology Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-11-06

Abstract

本发明公开了一种高可用的大数据平台，包括：支架服务器和布置在所述支架服务器上的平台系统集群，所述平台系统集群包括：数据存储子平台系统；数据集成子平台系统；数据计算子平台系统；智能全文检索子平台系统和统一运维监测子平台系统，所述统一运维监测子平台系统统一的安装部署及运维监测管理。根据本发明的高可用的大数据平台，是一个高可用大大数据平台及统一的运维监测系统，从数据采集，存储，计算分析，可视化检索，统一运维监测管理的高可用的大数据系统。从数据采集系统到数据到数据可视化形成有效的完整的体系，减少一般的大数据平台不能形成完整的闭环，造成数据丢失，数据分析不完整的弊端。

Description

一种高可用的大数据平台

技术领域

本发明涉及大数据处理技术领域，具体而言，特别涉及一种高可用的大数据平台。

背景技术

当今世界，信息化浪潮席卷全球，大数据、云计算、物联网等蓬勃发展，使互联网时代迈上一个新台阶，大数据技术无疑是整个信息行业乃至整个社会的热点话题，各行各业都在探讨大数据可以为自身所在的行业带来怎样的变化和提升，以实现“人在干、数在转、云在算”的价值理念为最高目标。

大数据平台基于开源分布式框架Hadoop为基础并深度优化，且整合大量优秀开源技术框架，形成以数据分布式采集，大数据聚合传输，数据分布式存储，实时和离线数据分析计算，智能全文检索，大数据可视化等构成大数据生态系统。传统的数据库无法支撑在海量数据全量计算及存储，使用起来十分不便。

发明内容

本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。有鉴于此，本发明需要提供一种…优点(独立权利要求带来的技术效果，要简洁)的主题)。

根据本发明实施例的高可用的大数据平台，包括：支架服务器和布置在所述支架服务器上的平台系统集群，所述平台系统集群包括：数据存储子平台系统；数据集成子平台系统，所述数据集成子平台系统通过Agent客户端实时采集数据，通过Flume将数据及时传送至Kafka集群，同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统；数据计算子平台系统，所述数据计算子平台系统通过MapReduce离线计算，Storm计算流数据框架做数据统计分析，数据关联挖掘和模型预测功能，使用异步通信框架对海量数据，数学建模迭代求优，获取最优参数模型，再使用模型参数预测未来发展趋势，以便于精准控制和智能决策；智能全文检索子平台系统，所述智能全文检索子平台系统使用自然语言处理技术，倒排序算法实现数据内容全文检索；统一运维监测子平台系统，所述统一运维监测子平台系统统一的安装部署及运维监测管理。

根据本发明的实施例的高可用的大数据平台，是一个高可用大大数据平台及统一的运维监测系统，从数据采集，存储，计算分析，可视化检索，统一运维监测管理的高可用的大数据系统。从数据采集系统到数据到数据可视化形成有效的完整的体系，减少一般的大数据平台不能形成完整的闭环，造成数据丢失，数据分析不完整的弊端。

另外，根据本发明上述实施例的高可用的大数据平台还可以具有如下附加的技术特征：

根据本发明的一个实施例，所述平台系统集群进一步包括：大数据可视化平台系统，所述大数据可视化平台系统布置在所述支架服务器上。

根据本发明的一个实施例，所述数据存储子平台系统支持关系型数据存储于Oracle、SQL或Hive数据库。

根据本发明的一个实施例，所述数据存储子平台系统支持非结构化数据存储于Hbase和HDFS分布式文件系统。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明的一个实施例的高可用的大数据平台的架构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

根据本发明的实施例的高可用的大数据平台，使用针对特定应用的大数据管理平台，通过使用多项先进技术包括：融合检索引擎、MySQL多引擎机制、Hadoop/HDFS分布式并行计算和多副本机制、关系数据库列存储机制、自然语言处理等先进技术，而设计的大数据聚合分析平台，为各类业务提供大数据分析应用。

而引入Federation的最主要原因是简单，其简单性是与真正的分布式Namenode相比而言的。Federation能够快速的解决了大部分单Namenode HDFS的问题。Federation是简单鲁棒的设计，由于联盟中各个Namenode之间是相互独立的。Federation整个核心设计实现大概用了3.5个月。大部分改变是在Datanode、Config和Tools，而Namenode本身的改动非常少，这样Namenode原先的鲁棒性不会受到影响。比分布式的Namenode简单，虽然这种实现的扩展性比起真正的分布式的Namenode要小些，但是可以迅速满足需求。另外一个原因是Federation良好的向后兼容性，已有的单Namenode的部署配置不需要任何改变就可以继续工作。

统一运维管理平台使用Ganglia收集度量指标，用Nagios支持系统报警，当需要引起管理员的关注时(比如，节点停机或磁盘剩余空间不足等问题)，系统将向其发送告警。

根据本发明的实施例的高可用的大数据平台，包括：支架服务器(未示出)和布置在所述支架服务器上的平台系统集群，平台系统集群包括：数据存储子平台系统10、数据集成子平台系统20、数据计算子平台系统30、智能全文检索子平台系统40和统一运维监测子平台系统50。

具体而言，数据集成子平台系统20通过Agent客户端实时采集数据，通过Flume将数据及时传送至Kafka集群，同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统10。

数据计算子平台系统30通过MapReduce离线计算，Storm计算流数据框架做数据统计分析，数据关联挖掘和模型预测功能，使用异步通信框架对海量数据，数学建模迭代求优，获取最优参数模型，再使用模型参数预测未来发展趋势，以便于精准控制和智能决策。

智能全文检索子平台系统40使用自然语言处理技术，倒排序算法实现数据内容全文检索。

统一运维监测子平台系统50统一的安装部署及运维监测管理。

根据本发明的一个实施例，平台系统集群进一步包括：大数据可视化平台系统60，大数据可视化平台系统60布置在支架服务器上。

根据本发明的一个实施例，数据存储子平台系统10支持关系型数据存储于Oracle、SQL或Hive数据库。可以理解的是，根据本发明的一个实施例，数据存储子平台系统10支持非结构化数据存储于Hbase和HDFS分布式文件系统。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种高可用的大数据平台，其特征在于，包括：支架服务器和布置在所述支架服务器上的平台系统集群，所述平台系统集群包括：

数据存储子平台系统；

数据集成子平台系统，所述数据集成子平台系统通过Agent客户端实时采集数据，通过Flume将数据及时传送至Kafka集群，同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统；

数据计算子平台系统，所述数据计算子平台系统通过MapReduce离线计算，Storm计算流数据框架做数据统计分析，数据关联挖掘和模型预测功能，使用异步通信框架对海量数据，数学建模迭代求优，获取最优参数模型，再使用模型参数预测未来发展趋势，以便于精准控制和智能决策；

智能全文检索子平台系统，所述智能全文检索子平台系统使用自然语言处理技术，倒排序算法实现数据内容全文检索；

统一运维监测子平台系统，所述统一运维监测子平台系统统一的安装部署及运维监测管理。

2.根据权利要求1所述的高可用的大数据平台，其特征在于，所述平台系统集群进一步包括：大数据可视化平台系统，所述大数据可视化平台系统布置在所述支架服务器上。

3.根据权利要求1或2所述的高可用的大数据平台，其特征在于，所述数据存储子平台系统支持关系型数据存储于Oracle、SQL或Hive数据库。

4.根据权利要求1或2所述的高可用的大数据平台，其特征在于，所述数据存储子平台系统支持非结构化数据存储于Hbase和HDFS分布式文件系统。