CN104572118A

CN104572118A - 基于s-plus的大数据平台的构建方法

Info

Publication number: CN104572118A
Application number: CN201510037844.8A
Authority: CN
Inventors: 肖凌; 罗振; 郭嘉; 许德玮
Original assignee: Wuhan Research Institute of Posts and Telecommunications Co Ltd
Current assignee: Wuhan Research Institute of Posts and Telecommunications Co Ltd
Priority date: 2015-01-26
Filing date: 2015-01-26
Publication date: 2015-04-29

Abstract

本发明公开一种基于S-PLUS的大数据平台的构建方法，发明体系架构自底向上分为四层：物理层、虚拟化层、服务层和应用层。物理层部署了异构的硬件资源；在虚拟化层，利用Eucalyptus 构建虚拟机群，在虚拟机集群上部署了Hadoop 环境；在服务层，集成了S-PLUS语言，实现数据挖掘功能并提供服务。在应用层，提供给用户清晰的操作界面，其功能包括：数据存储和处理系统、数组运算工具、完整连贯的统计分析工具、优秀的统计制图功能。S-PLUS软件是一种简便而强大的编程语言，可操纵数据的输入和输出，实现分支、循环，用户可自定义功能。发明能有效处理智慧城市中信息系统服务、信息监管、公共安全等智慧城市系统需关注的目标，以大数据的方式进行展现并分析结果，处理效率高。

Description

基于 S-PLUS 的大数据平台的构建方法

技术领域

本发明涉及一种基于S-PLUS的大数据平台的构建方法，结合云计算、虚拟化和 Hadoop 等技术，集成了S-PLUS语言，适用于处理城市管理、城市信息系统服务、社会监管、公共安全等数据集，允许用户通过Web 界面的方式进行数据挖掘、分析。

背景技术

随着信息化的推进和智慧城市的建设，以城市为单位的数据量日益上升，智慧城市每天会产生0.3PB-6.7PB左右的视频数据。在城市系统应用中，收集了大量的海量的业务数据，其中蕴藏着大量未知的、潜在的信息。数据挖掘是一种新的商业信息处理技术，在银行、电信、保险、交通、零售等领域得到了普遍的应用。通过对大量业务数据进行抽取、转换、分析和其他模型化处理，可提取辅助做出正确而关键的决策。面对的数据量越来越大，针对大数据的挖掘、分析日趋得到关注。但是，受限于内存容量和计算能力，传统的基于单机，单区域范围内的数据分析已经开始在大数据时代显得力不从心；传统的数据挖掘、分析方法在大数据环境下不再有效。

云计算的出现，为解决大数据问题提供了有效的途径。云计算、虚拟化技术可以有效地整合基础设施资源，为大数据的挖掘、分析提供了计算和存储能力。Hadoop可以让用户在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储，为大数据的计算和存储提供了可用框架。商业软件S-PLUS 是当今相当流行的数据分析、统计制图语言，具有丰富的分析模块和实用工具，在业界已得到广泛应用。为了充分挖掘、分析大数据的价值，为用户提供功能强大的数据挖掘、分析功能，设计一个集成了商业软件S-PLUS 语言、易用的大数据挖掘平台，具有很好的应用价值。

发明内容

发明目的：本发明提供一种基于S-PLUS的大数据平台的构建方法，集成S-PLUS语言作为数据分析引擎，设计了一个能够处理大数据环境下的数据挖掘平台。利用该平台进行数据挖掘，用户可以解决一些典型的数据挖掘问题，如处理城市管理、城市信息系统服务、社会监管、公共安全等问题。

为了实现上述目的，所构建系统的体系结构如下：

物理层：由服务器、PC 机、网络设备等硬件组成，为大数据处理提供必需的硬件基础。

虚拟化层：采用开源云平台解决方案 Eucalyptus 搭建虚拟机集群，整合基础设施资源，为整个系统提供了可扩展的、易管理的计算和存储能力；然后，在虚拟机上部署Hadoop 环境和 MySQL 集群，用于支持大数据的读写和存储。

服务层：部署 Hadoop 环境，使得S-PLUS 语言引擎能够运行在 Hadoop 集群之上，既可以充分发挥 S-PLUS语言在统计计算和绘图方面的强大功能，同时可以利用 Hadoop 在并行计算和扩展性方面的能力弥补S-PLUS 语言在处理大数据时的不足；开发服务，在服务中封装通常用到的数据挖掘方法实现的功能。

应用层：以 Web 界面的方式向用户服务层实现的各种功能。用户可以建立分析流程，包括：设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。

技术方案：一种基于S-PLUS的大数据平台的构建方法，包括如下几个步骤：

步骤1：基础设施虚拟化。采用虚拟化技术将设施虚拟化，包括物理层的服务器虚拟化、存储虚拟化和网络虚拟化，形成虚拟化层；其中建立两个虚拟化池即计算虚拟化池和存储虚拟化池是最重要的两个部分；计算虚拟化池主要实现计算资源层面的虚拟化，其中又包括服务器虚拟化和应用中间件虚拟化；存储虚拟化池主要实现存储数据虚拟化，其中又包括存储硬件架构虚拟化和存储软件虚拟化。本发明按照上述思路搭建主机、管理节点、多台计算节点以及网络设备等硬件，为大数据处理提供必需的硬件基础。

步骤 2：虚拟机实例化。此流程大致分为以下几个步骤：

（1）选择虚拟机并定制化；

（2）保存定制化参数文件；

（3）选择部署的目标物理机服务器；

（4）拷贝虚拟机的相关文件；

（5）在目标机上启动部署后的虚拟机。

步骤 3：开源云计算解决方案Eucalyptus的安装；使用Eucalyptus 作为基础，搭建虚拟机集群，用户可以快速方便地在现有的基础架构上创建私有的云计算平台，其安装过程主要包含以下几步：

（1）安装Linux操作系统；

（2）配置Yum安装源；

（3）配置安装脚本；

（4）安装其他节点操作系统；

（5）搭建Cobbler服务；

（6） PXE方式安装节点OS；

（7）配置安全策略、网桥、防火墙、NFS 共享。

步骤4：服务层：部署 S-PLUS 环境，使得 S-PLUS语言引擎能够运行在Hadoop集群之上；配置动态链接库，使得实际的计算过程是通过在底层调用S-PLUS 语言来实现的。

步骤 5：处理关系型数据库中的海量数据；结合 S-PLUS 和 Hadoop 来实现对关系型数据库中大规模数据的操作：通过商业工具 S-PLUS将大量待分析数据输出为文本数据文件，并将文本数据文件上传到 HDFS 中，然后转化为对文本数据集进行分布式处理。

步骤 6：流程化的操作方法；在应用层以 Web 界面的方式向用户服务层实现的各种功能；用户可以操纵数据的输入和输出，可实现分支、循环，并可自定义功能，功能包括但不限于城市管理、城市信息系统服务、社会监管、公共安全等智慧交通系统需关注的目标，设置内容包括：设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。

本发明采用上述技术方案，具有以下效果：

（1）利用云计算虚拟化和大数据技术，整合基础设施资源，为平台提供便于统一管理、具备高可扩展性的计算和存储能力。

（2）针对不同规模数据集采用最优的数据处理模式，当数据规模单机模式不能处理时候，利用 Hadoop 集群提供支持。并且，Hadoop 存储的多备份策略、任务执行时的心跳机制、以及数据库集群和复制技术保证了平台具备较高容错能力。

（3）为解决数据挖掘算法的可扩展性，使用多种设计模式优化接口设计，表示层的参数配置界面和 S-PLUS 语言分析数据的逻辑松耦合。

（4）提供了主流的数据挖掘算法，支持处理结构化（MySQL、SQLServer、txt、csv 和xls 等格式文件）、半结构化（XML、HTML 等格式文件）、非结构化（jpg、bmp 和 GIS 底图、MPG等图像视频文件）三大类数据。

（5）提供了将原来的垂直扩展的关系型数据库转变为水平扩展的分布型数据库，从而缓解智慧交通所带来的数据暴增问题。

附图说明

图 1 是基于S-PLUS的大数据平台的构建方法的体系架构图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于S-PLUS的大数据平台的构建方法的体系架构，如图 1 所示，包括如下几个步骤：

步骤1：基础设施虚拟化。采用虚拟化技术能实现主机和存储资源的一体化整合和共享利用，既能提高资源利用率，降低成本，又能降低管理的复杂性。将设施虚拟化，包括服务器虚拟化、存储虚拟化、网络虚拟化。本发明主要从两个方面进行虚拟化，建立两个虚拟化池即计算虚拟化池和存储虚拟化池。计算虚拟化池主要实现应用虚拟化，在计算资源层面包括服务器虚拟化和应用中间件虚拟化。存储虚拟化池主要实现数据存储虚拟化，在存储层面包括存储硬件架构虚拟化和存储软件虚拟化。本发明按照上述思路搭建主机、管理节点、多台计算节点以及网络设备等硬件，为大数据处理提供必需的硬件基础。

步骤2：虚拟机实例化的阶段。此流程大致分为以下几个步骤：

（1）选择虚拟机并定制化；

（2）保存定制化参数文件；

（3）选择部署的目标物理机服务器；

（4）拷贝虚拟机的相关文件；

（5）在目标机上启动部署后的虚拟机。

步骤3：开源云计算解决方案Eucalyptus的安装；使用Eucalyptus 作为基础，搭建虚拟机集群，用户可以快速方便地在现有的基础架构上创建私有的云计算平台，其安装过程主要包含以下几步：

（1）安装Linux操作系统；

（2）配置Yum安装源；

（3）配置安装脚本；

（4）安装其他节点操作系统；

（5）搭建Cobbler服务；

（6） PXE方式安装节点OS；

（7）配置安全策略、网桥、防火墙、NFS 共享。

步骤4：服务层：部署 S-PLUS 环境，使得 S-PLUS语言引擎能够运行在 Hadoop 集群之上；配置动态链接库，使得实际的计算过程是通过在底层调用S-PLUS 语言来实现的。具体的配置步骤如下：

（1）准备服务器

　　 1.1系统请求；

　　 WINDOWS服务器系统（2000、2003）

　　 SP2（2000），推荐SP4

　　 1G内存（推荐2G内存）

　　多个CPU，主频1GHZ

　　 500M磁盘空间（50M用于SPLUS SERVER服务器文件，450M用于SPLU文件），100M用于临时文件

　　至少1GB的系统交换文件

　　 IIS WEB SERVER

　　可选的组件：

　　图形（WIN2000用JVM,WIN2003用J2SE1.4.0.2）

　　 EMAIL(确认SMTP是否安装并运行)

　　 1.2登陆服务器的帐号要有ADMIN特权；

　　 1.3安装IIS；

　　 1.4删除旧的SPLUS SERVER；

　　 1.5关闭所有应用程序，SPLUS SERVER会自动暂停和重启IIS；

　　 1.6插入SPLUS SERVER AND CLIENT CD；

（2）安装界面提示安装SPLUS SERVER

（3）测试安装是否成功

　　 http://hostname/statserver

（4）客户端安装

　　如果你只需要用IE作为客户端访问SPLUS SERVER的话，那么你在客户端不用安装和设置任何东西，只需要打开IE，敲入下面网址： http://hostname/statserver 就可以访问；然后，如果你想使用其他客户端，比如SPLUS Publishing客户端或者EXCEL客户端，那么你必须运行客户端安装软件在客户机器上，这个S-PLUS企业服务器的客户端组件，它通过基于HTTP通讯的机制和服务器进行交互，这个客户端安装就在主安装窗口上，单击S-PLUS这个按钮就可以开始安装；

　　安装期间，会提示输入下面信息：

　　主机名字：这是SPLUS SERVER服务器安装软件所在的机器；

　　端口号：这是SPLUS SERVER服务器所监听的端口，缺省是80端口；

　　 URL：由于是基于HTTP进行通讯，故需要指定URL，缺省是/ssbin/webapi.dll。

步骤5：处理关系型数据库中的海量数据。结合 S-PLUS 和 Hadoop 来实现对关系型数据库中大规模数据的操作：通过商业工具 S-PLUS将大量待分析数据输出为文本数据文件，并将文本数据文件上传到 HDFS 中，然后转化为对文本数据集进行分布式处理。Hadoop 提供了相应的从关系数据库查询和读取数据的接口，虽然允许用相关接口从数据库中直接读取数据记录作为MapReduce 的输入，但处理效率较低，而且大量频繁地从 MapReduce 程序中查询和读取关系数据库可能会大大增加数据库的访问负载。本发明采用了一种可以更高效地读取并处理关系数据库中大量数据记录的解决方案：通过商业工具S-PLUS将大量待分析数据输出为文本数据文件，并上传到 HDFS 中，然后转化为对文本数据集进行分布式处理。

步骤 6：流程化的操作方法；在应用层以 Web 界面的方式向用户服务层实现各种功能；用户可以操纵数据的输入和输出，可实现分支、循环，并可自定义功能，功能包括但不限于城市管理、城市信息系统服务、社会监管、公共安全等智慧交通系统需关注的目标，设置内容包括：设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。

Claims

1.一种基于S-PLUS的大数据平台的构建方法，其特征在于，包括如下几个步骤：

步骤1：基础设施虚拟化；采用虚拟化技术将设施虚拟化，包括物理层的服务器虚拟化、存储虚拟化和网络虚拟化，形成虚拟化层；其中建立两个虚拟化池即计算虚拟化池和存储虚拟化池是最重要的两个部分；计算虚拟化池主要实现计算资源层面的虚拟化，其中又包括服务器虚拟化和应用中间件虚拟化；存储虚拟化池主要实现存储数据虚拟化，其中又包括存储硬件架构虚拟化和存储软件虚拟化；

步骤2 ：虚拟机实例化；此流程大致分为以下几个步骤：

（1）选择虚拟机并定制化；

（2）保存定制化参数文件；

（3）选择部署的目标物理机服务器；

（4）拷贝虚拟机的相关文件；

（5）在目标机上启动部署后的虚拟机；

（1）安装Linux操作系统

（2）配置Yum安装源；

（3）配置安装脚本；

（4）安装其他节点操作系统；

（5）搭建Cobbler服务；

（6） PXE方式安装节点OS；

（7）配置安全策略、网桥、防火墙、NFS 共享；

步骤4：服务层：部署S-PLUS 环境，使得 S-PLUS语言引擎能够运行在Hadoop 集群之上；配置动态链接库，使得实际的计算过程是通过在底层调用S-PLUS 语言来实现的；

步骤5：处理关系型数据库中的海量数据：结合 S-PLUS 和 Hadoop 来实现对关系型数据库中大规模数据的操作：通过商业工具 S-PLUS将大量待分析数据输出为文本数据文件，并将文本数据文件上传到 HDFS 中，然后转化为对文本数据集进行分布式处理；

步骤6：流程化的操作方法：在应用层以 Web 界面的方式向用户服务层实现的各种功能；用户可以操纵数据的输入和输出，可实现分支、循环，并可自定义功能，功能包括但不限于城市管理、城市信息系统服务、城市监管、公共安全等智慧城市需关注的目标，设置内容包括：设置数据来源、选择分析方法、设置分析参数、数据挖掘与分析、得出分析结果并展示。

2.根据权利要求1所述的基于S-PLUS的大数据平台的构建方法，其特征在于：所述服务层中，使用了MySQL 数据库的复制技术以及商业工具 S-PLUS 实现了Hadoop 与数据库间进行可定制的数据传递机制。

3.根据权利要求1所述的基于S-PLUS的大数据平台的构建方法，其特征在于：所述应用层中，设计了B/S 模式的用户操作界面，用户只需利用图形化界面进行操作，而不需要直接编写S-PLUS代码进行数据分析和统计，实际的计算过程则是通过在底层调用S-PLUS语言来实现的，从根本上屏蔽了S-PLUS语言的复杂性。