CN111126852A

CN111126852A - 一种基于大数据建模的bi应用系统

Info

Publication number: CN111126852A
Application number: CN201911360296.7A
Authority: CN
Inventors: 陆洋
Original assignee: Jiangsu 365 Network Co ltd
Current assignee: Jiangsu 365 Network Co ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08

Abstract

本发明提供一种基于大数据建模的BI应用系统，包括：数据采集存储模块，DPI、业务侧、网元侧数据通过文件接口方式发送到Flume‑NG集群，将接收到的数据实时的通过hdfs方式汇聚到大数据分析平台；数据清洗模块，通过编写HQL脚本对数据进行清洗、转换，形成特征宽表；数据挖掘模块，基于特征宽表的数据建模进行模型开发、模型评估和模型应用；分析结果发布，模型应用的结果集存储在HBase中，数据的调用通过HBase API实现，数据的展现通过ECharts技术实现。本发明统一进行数据建模，建设集中的数据处理中心，提供强大的数据处理能力，保障系统的稳定运行，构建统一的BI应用中心，满足业务需求，体现数据价值。

Description

一种基于大数据建模的BI应用系统

技术领域

本发明属于大数据处理技术领域，具体涉及一种基于大数据建模的BI应用系统。

背景技术

商业智能(Business Intelligence，英文为简写为BI，即商业智能又名商务智能)的概念于1996年最早由加特纳集团(Gartner Group)提出，加特纳集团将商业智能定义为：商业智能描述了一系列的概念和方法，通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法，包括收集、管理和分析数据，将这些数据转化为有用的信息，然后分发到企业各处。

BI不再仅仅是一种概念、一种技术，它更多的成为了一种业务层面的需求，为企业应用服务。BI管理的方法或产品的核心就是通过数据提取、整理、分析，将这些数据转化为有用的信息，辅助企业制定商业决策。现有技术中BI引用系统存在如下问题：脱离大数据体系，数据处理能力差，无法满足业务需求，没有统一的数据管理监控体系，无法保障系统的稳定运行。

发明内容

本发明的目的是提供一种基于大数据建模的BI应用系统，统一进行数据建模，建设集中的数据处理中心，提供强大的数据处理能力，保障系统的稳定运行，构建统一的BI应用中心，满足业务需求，体现数据价值。

本发明提供了如下的技术方案：

一种基于大数据建模的BI应用系统，包括：

数据采集存储模块，DPI、业务侧、网元侧数据通过文件接口方式发送到Flume-NG集群，Flume-NG通过memory数据传输方式，将接收到的数据实时的通过hdfs方式汇聚到大数据分析平台；

数据清洗模块，通过编写HQL脚本对数据进行清洗、转换，形成特征宽表；

数据挖掘模块，基于特征宽表的数据建模采用Spark R，调用聚类、分类等算法，进行模型开发、模型评估和模型应用；

分析结果发布，模型应用的结果集存储在HBase中，首先在HBase中新建存储结果集的HBase表，通过MapReduce生成HFile文件，然后通过Bulk Load方式入库，数据的调用通过HBase API实现，数据的展现通过ECharts技术实现。

优选的，大数据分析平台所要搭建的数据分析工具选择的操作系统为开源版的RedHat、Centos或者Debian作为底层的构建平台。

优选的，数据采集存储模块的数据接入包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序的接入，数据接入的工具包括Flume、Logstash、数据运河系统和sqoop等。

优选的，Sqoop将数据从文件或者传统数据库导入到分布式平台。

优选的，数据建模分析还包括机器学习算法，包括贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

本发明的有益效果是：利用spark和hadoop技术，构建大数据平台最为核心的基础数据的存储、处理能力中心，提供强大的数据处理能力，满足数据的交互需求；同时通过sparkstreaming，可以有效满足企业实时数据的要求，构建企业发展的实时指标体系；同时为了更好的满足的数据获取需求，通过RDBMS，提供企业高度汇总的统计数据，满足企业常规的统计报表需求，降低使用门槛；对大数据明细查询需求，则通过构建HBase集群，提供大数据快速查询能力，满足对大数据的查询获取需求。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明系统结构示意图。

具体实施方式

如图1所示，一种基于大数据建模的BI应用系统，包括：

具体的，系统建立过程中，所需：

(1)操作系统的选择：操作系统一般使用开源版的RedHat、Centos或者Debian作为底层的构建平台，要根据大数据平台所要搭建的数据分析工具可以支持的系统，正确的选择操作系统的版本。

(2)搭建Hadoop集群：Hadoop作为一个开发和运行处理大规模数据的软件平台，实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心的设计是HDFS和MapReduce，HDFS是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，适用于那些有着超大数据集的应用程序；MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型。在生产实践应用中，Hadoop非常适合应用于大数据存储和大数据的分析应用，适合服务于几千台到几万台大的服务器的集群运行，支持PB级别的存储容量。

Hadoop家族还包含各种开源组件，比如Yarn，Zookeeper，Hbase，Hive，Sqoop，Impala，Spark等。使用开源组件的优势显而易见，活跃的社区会不断的迭代更新组件版本，使用的人也会很多，遇到问题会比较容易解决，同时代码开源，高水平的数据开发工程师可结合自身项目的需求对代码进行修改，以更好的为项目提供服务。

(3)选择数据接入和预处理工具：面对各种来源的数据，数据接入就是将这些零散的数据整合在一起，综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入，数据接入常用的工具有Flume，Logstash，NDC(网易数据运河系统)，sqoop等。对于实时性要求比较高的业务场景，比如对存在于社交网站、新闻等的数据信息流需要进行快速的处理反馈，那么数据的接入可以使用开源的Strom，Spark streaming等。

当需要使用上游模块的数据进行计算、统计和分析的时候，就需要用到分布式的消息系统，比如基于发布/订阅的消息系统kafka。还可以使用分布式应用程序协调服务Zookeeper来提供数据同步服务，更好的保证数据的可靠和一致性。

数据预处理是在海量的数据中提取出可用特征，建立宽表，创建数据仓库，会使用到HiveSQL，SparkSQL和Impala等工具。随着业务量的增多，需要进行训练和清洗的数据也会变得越来越复杂，可以使用azkaban或者oozie作为工作流调度引擎，用来解决有多个hadoop或者spark等计算任务之间的依赖关系问题。

(4)数据存储：除了Hadoop中已广泛应用于数据存储的HDFS，常用的还有分布式、面向列的开源数据库Hbase，HBase是一种key/value系统，部署在HDFS上，与Hadoop一样，HBase的目标主要是依赖横向扩展，通过不断的增加廉价的商用服务器，增加计算和存储能力。同时hadoop的资源管理器Yarn，可以为上层应用提供统一的资源管理和调度，为集群在利用率、资源统一等方面带来巨大的好处。

Kudu是一个围绕Hadoop生态圈建立的存储引擎，Kudu拥有和Hadoop生态圈共同的设计理念，可以运行在普通的服务器上，作为一个开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Redis是一种速度非常快的非关系型数据库，可以将存储在内存中的键值对数据持久化到硬盘中，可以存储键与5种不同类型的值之间的映射。

(5)选择数据挖掘工具：Hive可以将结构化的数据映射为一张数据库表，并提供HQL的查询功能，它是建立在Hadoop之上的数据仓库基础架构，是为了减少MapReduce编写工作的批处理系统，它的出现可以让那些精通SQL技能、但是不熟悉MapReduce、编程能力较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL语言查询、汇总、分析数据。Impala是对Hive的一个补充，可以实现高效的SQL查询，但是Impala将整个查询过程分成了一个执行计划树，而不是一连串的MapReduce任务，相比Hive有更好的并发性和避免了不必要的中间sort和shuffle。

Spark可以将Job中间输出结果保存在内存中，不需要读取HDFS，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Solr是一个运行在Servlet容器的独立的企业级搜索应用的全文搜索服务器，用户可以通过http请求，向搜索引擎服务器提交一定格式的XML，生成索引，或者通过HTTP GET操作提出查找请求，并得到XML格式的返回结果。还可以对数据进行建模分析，会用到机器学习相关的知识，常用的机器学习算法，比如贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

(6)数据的可视化以及输出API：对于处理得到的数据可以对接主流的BI系统，比如国外的Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数(可免费试用)等，将结果进行可视化，用于决策分析；或者回流到线上，支持线上业务的发展。可视化一般式对结果或部分原始数据做展示。一般有两种情况，行数据展示，和列查找展示。

通过本发明建设企业的基础数据中心，构建企业统一的数据存储体系，统一进行数据建模，为数据的价值呈现奠定基础。同时数据处理能力下沉，建设集中的数据处理中心，提供强大的数据处理能力；通过统一的数据管理监控体系，保障系统的稳定运行。有了数据基础，构建统一的BI应用中心，满足业务需求，体现数据价值。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据建模的BI应用系统，其特征在于，包括：

2.根据权利要求1所述的一种基于大数据建模的BI应用系统，其特征在于，大数据分析平台所要搭建的数据分析工具选择的操作系统为开源版的RedHat、Centos或者Debian作为底层的构建平台。

3.根据权利要求1所述的一种基于大数据建模的BI应用系统，其特征在于，数据采集存储模块的数据接入包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序的接入，数据接入的工具包括Flume、Logstash、数据运河系统和sqoop等。

4.根据权利要求3所述的一种基于大数据建模的BI应用系统，其特征在于，Sqoop将数据从文件或者传统数据库导入到分布式平台。

5.根据权利要求1所述的一种基于大数据建模的BI应用系统，其特征在于，数据建模分析还包括机器学习算法，包括贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。