CN103793204A - 基于云计算的数据分析系统src - Google Patents

基于云计算的数据分析系统src Download PDF

Info

Publication number
CN103793204A
CN103793204A CN201210422274.0A CN201210422274A CN103793204A CN 103793204 A CN103793204 A CN 103793204A CN 201210422274 A CN201210422274 A CN 201210422274A CN 103793204 A CN103793204 A CN 103793204A
Authority
CN
China
Prior art keywords
data
subsystem
src
etl
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210422274.0A
Other languages
English (en)
Inventor
朱志国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shun Soft Technology Development (dalian) Co Ltd
Original Assignee
Shun Soft Technology Development (dalian) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shun Soft Technology Development (dalian) Co Ltd filed Critical Shun Soft Technology Development (dalian) Co Ltd
Priority to CN201210422274.0A priority Critical patent/CN103793204A/zh
Publication of CN103793204A publication Critical patent/CN103793204A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于云计算的数据分析系统SRC,其特征在于包括如下系统:(1)数据采集子系统;(2)数据下载子系统;(3)ETL子系统;(4)应用子系统;(5)系统管理子系统;(6)数据访问接口层:主要是提供访问CloudBase仓库、Mysql数据库以及ETL程序简单调用的抽象接口;借助对数据库、数据仓库中数据表的Select、Insert、Update、Delete等基本操作的封装,为上层应用子系统应用业务逻辑控制模块提供简单调用,从而降低应用子系统访问数据以及调用ETL子系统的复杂度。该基于云计算的数据分析系统SRC大大提高了系统处理效率和灵活性,缩短了系统处理时间。

Description

基于云计算的数据分析系统SRC
技术领域
本发明涉及一种基于云计算的数据分析系统SRC。
背景技术
随着互联网业务的深入发展,特别是移动互联网时代的到来,流量激增对运营商的传统管道模式运营提出了新的挑战,2012年我国移动互联网用户将达到5.2亿,年复合增长率超过35%,并由此带动数据流量的大规模增长,这种基于数据流量的新应用和新模式对运营商的运营能力提出了挑战。如何在提升管道宽带能力的同时提升网络智能性,进而提升管道承载能力和管道价值,是摆在运营商面前的急迫问题。
发明内容
本发明针对以上问题的提出,而研制一种基于云计算的数据分析系统SRC。本发明采用的技术手段如下:
一种基于云计算的数据分析系统SRC,其特征在于包括如下系统:
(1)数据采集子系统:此子系统的工作主要由部署在城域网骨干层的DPI设备完成;DPI设备首先按照一定比例采集捕捉到的IP数据包,并拆包提取、检验数据是否为分析范围数据;如果数据符合提取条件,DPI设备将该数据包信息按照规定的格式保存到一条信息记录当中,当提取并生成的记录达到一定数量时,DPI设备将这些记录按照预定义命名规则保存到宽带日志文件中;
(2)数据下载子系统:由于数据采集子系统与应用访问子系统通常部署在不同的机房或者不同地域,需要由数据下载子系统按照固定的周期将数据采集子系统生成的日志文件下载到SRC分析系统数据存储平台;SRC系统采用FTP方式每天定时下载采集子系统生成的日志数据并保存到SRC系统存储平台的HDFS中;
(3)ETL子系统:此子系统为SRC功能模块的中枢,经过数据预处理、数据转换、数据清洗处理以及结果转存等步骤将大量原始日志数据转换为供应用子系统使用的精简有效数据,最终将精简处理结果转存到MySQL数据当中;在实现过程中ETL子系统通过调用Cloudbase数据仓库接口,大大简化了实现ETL功能程序的复杂度;
Cloudbase是运行在Hadoop上的数据仓库软件,可以轻易地使用SQL语句对存储在Hadoop HDFS中的资料进行分析,分析的主要任务是剔除无效数据,并根据有效记录的关键字段进行有效记录合并;每次利用Cloudbase进行SQL语言查询时,Cloudbase会将SQL语句转换为MapReduce分布式并行计算任务来执行,采用MapReduce并行计算处理方式一方面克服了单机硬件配置的瓶颈,另一方面大大提高了系统处理能力,缩短了处理时间;
(4)应用子系统:应用子系统就是为最终用户提供各种宽带分析功能的访问层,包括电子渠道分析、电子渠道对比、3G移动业务分析、报表查询搜索等功能模块,主要负责提供友好的用户访问界面与处理业务功能访问请求,并将用户请求处理结果呈现给最终用户;
(5)系统管理子系统:包括用户管理、权限管理、数据管理以及系统监控模块;其中数据管理功能实现对HDFS中日志数据和MySQL数据库中精简数据及挖掘数据的管理;
(6)数据访问接口层:主要是提供访问CloudBase仓库、Mysql数据库以及ETL程序简单调用的抽象接口;借助对数据库、数据仓库中数据表的Select、Insert、Update、Delete等基本操作的封装,为上层应用子系统应用业务逻辑控制模块提供简单调用,从而降低应用子系统访问数据以及调用ETL子系统的复杂度。
系统每天凌晨自动下载电信公司机房DPI设备采集的日志数据,ETL子系统数据处理任务由3台Hadoop集群完成,系统每小时能够处理原始数据量大约为4.2GB,经过数据预处理、抽取、清洗工作流程后得到的有效数据为200MB左右,压缩比可达1/200;由于SRC基于Hadoop并行分布式处理平台构建,因此可以快速实现在线横向扩展,而完成此项工作原有系统处理能力为2GB/h,同时系统无法实现实时的横向扩展;最终电信企业网络管理员或者其他电子渠道经验者用户可以通过浏览器访问系统,获取宽带用户访问网上营业厅等电子渠道的统计分析结果,系统同时提供PDF文件下载功能,方便用户获取、打印统计报表;由于Hadoop具有较为灵活的伸缩性,当需要处理的原始数据迅速增加时,系统可以快速扩展Hadoop集群节点数量,提高系统处理能力;同时当处理任务较少时,也可以即时减少Hadoop系统工作节点,因此系统具有较为灵活的扩展性能。
本发明的有益效果在于:SRC结合开源MapReduce分布式并行技术,使用Cloudbase进行日志数据分析,最后以Web页面和PDF报表文件两种形式呈现统计结果,成功实现数据采集、信息提取、业务逻辑实现与呈现等经营分析系统工作流程的分离,大大提高了系统处理效率和灵活性,缩短了系统处理时间。分布式并行计算技术(本系统采用Hadoop平台)在海量数据处理、分析、挖掘方面展现了很多优良特性,在今后大规模数据分析、数据挖掘、科学计算等领域将发挥越来越重要的作用。
附图说明
图1为本发明所述系统功能架构图;
图2为本发明所述系统逻辑架构图;
图3为本发明所述系统部署图。
具体实施方式
本系统是采用Hadoop云计算技术实现一种标准宽带数据增值业务系统,系统以宽带网络用户访问日志数据为分析对象,结合企业电子渠道的运营特征,主要定义电子渠道分析功能、电子渠道对比功能和3G移动互联网业务分析三大方面的用户功能需求,并将系统业务功能与系统管理功能相结合,提供集企业数据源收集、数据存储、数据分析等为一体的一站式服务,旨在通过建设企业数据仓库以长期辅助企业分析决策,提升企业网站运营效果。
Hadoop是Google MapReduce的一个Java开源软件实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同Java程序员可以不考虑内存泄露一样,MapReduce运行时系统会解决输入数据的并行分发,跨越机器集群的程序执行调度,处理服务器的失效,并且管理机器之间的通信请求。MapReduce计算框架允许程序员可以不需要并行处理或者分布式计算系统的编程经验,就可以利用超大规模的分布式系统资源处理问题。Cloudbase是一个构建于Hadoop MapReduce计算模型基础之上的高性能数据挖掘软件,适应TB、PB规模的数据分析。Cloudbase的特征是允许程序员使用ANSI SQL直接对大规模海量日志文件进行很方便的查询。
具体结构如图1至图3所示,当前,运营商控制通信复杂性、安全性的需求越来越高,需要更智能的业务系统实现对网络的有效管理以及监测用户访问网络的行为。为了对网络流量进行精细的检查、监控和分析,很多网络运营商在骨干网部署了DPI检测设备。DPI设备能够按照指定的周期和IP地址空间采集网络中的数据包并进行拆包,提取有用信息,SRC系统采用的原始日志数据来自中国电信某地市DPI设备采集的数据。该系统以宽带网络用户访问日志数据为分析对象,结合企业电子渠道的运营特征,主要定义电子渠道分析功能、电子渠道对比功能和3G移动互联网业务分析三大方面的用户功能需求,并将系统业务功能与系统管理功能相结合,系统功能分解如图1所示。
系统采用分层架构方法,分为数据访问层、分析应用层、数据存储层、数据获取层、数据源层。其逻辑架构如图2。
云计算基于高效的虚拟计算资源,应用程序,以灵活安全的方式达到快速扩展和缩减的效果,从而交付高品质服务。业务以及客户服务以相对简化的方式交付,这将大大推进创新和高效决策。因此网络运营综合分析系统也采取基于云计算的技术架构,采用了服务器池、存储池、网络及安全池架构虚拟化结构。
大部分经营分析系统或者数据挖掘系统的工作流程包含以下主要步骤:数据集中与选择、数据预处理(抽取)、数据转换、数据清洗与融合、数据分析(挖掘)和结果呈现。本系统同样包含这些工作流程,并由以下主要功能模块完成。
(1)数据采集子系统
此子系统的工作主要由部署在城域网骨干层的D PI设备完成。DPI设备首先按照一定比例采集捕捉到的IP数据包,并拆包提取、检验数据是否为分析范围数据。如果数据符合提取条件,DPI设备将该数据包信息按照规定的格式保存到一条信息记录当中,当提取并生成的记录达到一定数量时,DPI设备将这些记录按照预定义命名规则保存到宽带日志文件中。
(2)数据下载子系统
由于数据采集子系统与应用访问子系统通常部署在不同的机房或者不同地域,需要由数据下载子系统按照固定的周期将数据采集子系统生成的日志文件下载到SRC分析系统数据存储平台。SRC系统采用FTP方式每天定时下载采集子系统生成的日志数据并保存到SRC系统存储平台的HDFS中。
(3)ETL子系统
此子系统为SRC功能模块的中枢,经过数据预处理、数据转换、数据清洗处理以及结果转存等步骤将大量原始日志数据转换为供应用子系统使用的精简有效数据,最终将精简处理结果转存到MySQL数据当中。在实现过程中ETL子系统通过调用Cloudbase数据仓库接口,大大简化了实现ETL功能程序的复杂度。
Cloudbase是运行在Hadoop上的数据仓库软件,可以轻易地使用SQL语句对存储在Hadoop HDFS中的资料(日志记录)进行分析,分析的主要任务是剔除无效数据,并根据有效记录的关键字段进行有效记录合并。每次利用Cloudbase进行SQL语言查询时,Cloudbase会将SQL语句转换为MapReduce分布式并行计算任务来执行,采用MapReduce并行计算处理方式一方面克服了单机硬件配置的瓶颈,另一方面大大提高了系统处理能力,缩短了处理时间。
(4)应用子系统
应用子系统就是为最终用户提供各种宽带分析功能的访问层,包括电子渠道分析、电子渠道对比、3G移动业务分析、报表查询搜索等功能模块,主要负责提供友好的用户访问界面与处理业务功能访问请求,并将用户请求处理结果呈现给最终用户。
(5)系统管理子系统
包括用户管理、权限管理、数据管理以及系统监控模块。其中数据管理功能实现对HDFS中日志数据和MySQL数据库中精简数据及挖掘数据的管理。
(6)数据访问接口层
主要是提供访问CloudBase仓库、Mysql数据库以及ETL程序简单调用的抽象接口。借助对数据库、数据仓库中数据表的Select、Insert、Update、Delete等基本操作的封装,为上层应用子系统应用业务逻辑控制模块提供简单调用,从而降低应用子系统访问数据以及调用ETL子系统的复杂度。
系统每天凌晨自动下载电信公司机房DPI设备采集的日志数据,ETL子系统数据处理任务由3台Hadoop集群完成,系统每小时能够处理原始数据量大约为4.2GB,经过数据预处理、抽取、清洗工作流程后得到的有效数据为200MB左右,压缩比可达1/200。由于SRC基于Hadoop并行分布式处理平台构建,因此可以快速实现在线横向扩展,而完成此项工作原有系统处理能力为2GB/h,同时系统无法实现实时的横向扩展。其系统部署图如图3。
最终电信企业网络管理员或者其他电子渠道经验者用户可以通过浏览器访问系统,获取宽带用户访问网上营业厅等电子渠道的统计分析结果,系统同时提供PDF文件下载功能,方便用户获取、打印统计报表。由于Hadoop具有较为灵活的伸缩性,当需要处理的原始数据迅速增加时,系统可以快速扩展Hadoop集群节点数量,提高系统处理能力;同时当处理任务较少时,也可以即时减少Hadoop系统工作节点,因此系统具有较为灵活的扩展性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.一种基于云计算的数据分析系统SRC,其特征在于包括如下系统:
(1)数据采集子系统:此子系统的工作主要由部署在城域网骨干层的DPI设备完成;DPI设备首先按照一定比例采集捕捉到的IP数据包,并拆包提取、检验数据是否为分析范围数据;如果数据符合提取条件,DPI设备将该数据包信息按照规定的格式保存到一条信息记录当中,当提取并生成的记录达到一定数量时,DPI设备将这些记录按照预定义命名规则保存到宽带日志文件中;
(2)数据下载子系统:由于数据采集子系统与应用访问子系统通常部署在不同的机房或者不同地域,需要由数据下载子系统按照固定的周期将数据采集子系统生成的日志文件下载到SRC分析系统数据存储平台;SRC系统采用FTP方式每天定时下载采集子系统生成的日志数据并保存到SRC系统存储平台的HDFS中;
(3)ETL子系统:此子系统为SRC功能模块的中枢,经过数据预处理、数据转换、数据清洗处理以及结果转存等步骤将大量原始日志数据转换为供应用子系统使用的精简有效数据,最终将精简处理结果转存到MySQL数据当中;在实现过程中ETL子系统通过调用Cloudbase数据仓库接口,大大简化了实现ETL功能程序的复杂度;
Cloudbase是运行在Hadoop上的数据仓库软件,可以轻易地使用SQL语句对存储在Hadoop HDFS中的资料进行分析,分析的主要任务是剔除无效数据,并根据有效记录的关键字段进行有效记录合并;每次利用Cloudbase进行SQL语言查询时,Cloudbase会将SQL语句转换为MapReduce分布式并行计算任务来执行,采用MapReduce并行计算处理方式一方面克服了单机硬件配置的瓶颈,另一方面大大提高了系统处理能力,缩短了处理时间;
(4)应用子系统:应用子系统就是为最终用户提供各种宽带分析功能的访问层,包括电子渠道分析、电子渠道对比、3G移动业务分析、报表查询搜索等功能模块,主要负责提供友好的用户访问界面与处理业务功能访问请求,并将用户请求处理结果呈现给最终用户;
(5)系统管理子系统:包括用户管理、权限管理、数据管理以及系统监控模块;其中数据管理功能实现对HDFS中日志数据和MySQL数据库中精简数据及挖掘数据的管理;
(6)数据访问接口层:主要是提供访问CloudBase仓库、Mysql数据库以及ETL程序简单调用的抽象接口;借助对数据库、数据仓库中数据表的Select、Insert、Update、Delete等基本操作的封装,为上层应用子系统应用业务逻辑控制模块提供简单调用,从而降低应用子系统访问数据以及调用ETL子系统的复杂度。
2.根据权利要求1所述的一种基于云计算的数据分析系统SRC,其特征在于:系统每天凌晨自动下载电信公司机房DPI设备采集的日志数据,ETL子系统数据处理任务由3台Hadoop集群完成,系统每小时能够处理原始数据量大约为4.2GB,经过数据预处理、抽取、清洗工作流程后得到的有效数据为200MB左右,压缩比可达1/200;由于SRC基于Hadoop并行分布式处理平台构建,因此可以快速实现在线横向扩展,而完成此项工作原有系统处理能力为2GB/h,同时系统无法实现实时的横向扩展。
3.根据权利要求1所述的一种基于云计算的数据分析系统SRC,其特征在于:最终电信企业网络管理员或者其他电子渠道经验者用户可以通过浏览器访问系统,获取宽带用户访问网上营业厅等电子渠道的统计分析结果,系统同时提供PDF文件下载功能,方便用户获取、打印统计报表;由于Hadoop具有较为灵活的伸缩性,当需要处理的原始数据迅速增加时,系统可以快速扩展Hadoop集群节点数量,提高系统处理能力;同时当处理任务较少时,也可以即时减少Hadoop系统工作节点,因此系统具有较为灵活的扩展性能。
CN201210422274.0A 2012-10-29 2012-10-29 基于云计算的数据分析系统src Pending CN103793204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210422274.0A CN103793204A (zh) 2012-10-29 2012-10-29 基于云计算的数据分析系统src

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210422274.0A CN103793204A (zh) 2012-10-29 2012-10-29 基于云计算的数据分析系统src

Publications (1)

Publication Number Publication Date
CN103793204A true CN103793204A (zh) 2014-05-14

Family

ID=50668926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210422274.0A Pending CN103793204A (zh) 2012-10-29 2012-10-29 基于云计算的数据分析系统src

Country Status (1)

Country Link
CN (1) CN103793204A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337753A (zh) * 2014-08-06 2016-02-17 中国移动通信集团广东有限公司 一种互联网真实质量监测方法及装置
CN105354234A (zh) * 2015-10-09 2016-02-24 武汉烽火网络有限责任公司 基于深度包检测的网络实时大数据系统及大数据分析方法
CN105955208A (zh) * 2016-04-15 2016-09-21 青岛克路德机器人有限公司 一种基于云平台的网络机器人数据控制系统
CN106354875A (zh) * 2016-09-21 2017-01-25 中体彩科技发展有限公司 数据调度装置
CN106557469A (zh) * 2015-09-24 2017-04-05 阿里巴巴集团控股有限公司 一种处理数据仓库中数据的方法及装置
CN107526847A (zh) * 2017-09-27 2017-12-29 合肥博力生产力促进中心有限公司 一种基于云计算的专利信息分析系统
CN107729394A (zh) * 2017-09-20 2018-02-23 北京京东尚科信息技术有限公司 基于Hadoop集群的数据集市管理系统及其使用方法
CN107818268A (zh) * 2017-11-15 2018-03-20 中国联合网络通信集团有限公司 大数据平台的访问控制方法及服务器
CN109446189A (zh) * 2018-10-31 2019-03-08 成都天衡智造科技有限公司 一种工业参数离群点检测系统及方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337753A (zh) * 2014-08-06 2016-02-17 中国移动通信集团广东有限公司 一种互联网真实质量监测方法及装置
CN106557469A (zh) * 2015-09-24 2017-04-05 阿里巴巴集团控股有限公司 一种处理数据仓库中数据的方法及装置
CN106557469B (zh) * 2015-09-24 2020-11-20 创新先进技术有限公司 一种处理数据仓库中数据的方法及装置
CN105354234A (zh) * 2015-10-09 2016-02-24 武汉烽火网络有限责任公司 基于深度包检测的网络实时大数据系统及大数据分析方法
CN105354234B (zh) * 2015-10-09 2018-10-09 武汉烽火网络有限责任公司 基于深度包检测的网络实时大数据系统及大数据分析方法
CN105955208A (zh) * 2016-04-15 2016-09-21 青岛克路德机器人有限公司 一种基于云平台的网络机器人数据控制系统
CN105955208B (zh) * 2016-04-15 2020-07-10 青岛克路德机器人有限公司 一种基于云平台的网络机器人数据控制系统
CN106354875B (zh) * 2016-09-21 2020-02-21 中体彩科技发展有限公司 数据调度装置
CN106354875A (zh) * 2016-09-21 2017-01-25 中体彩科技发展有限公司 数据调度装置
CN107729394A (zh) * 2017-09-20 2018-02-23 北京京东尚科信息技术有限公司 基于Hadoop集群的数据集市管理系统及其使用方法
CN107526847A (zh) * 2017-09-27 2017-12-29 合肥博力生产力促进中心有限公司 一种基于云计算的专利信息分析系统
CN107818268A (zh) * 2017-11-15 2018-03-20 中国联合网络通信集团有限公司 大数据平台的访问控制方法及服务器
CN109446189A (zh) * 2018-10-31 2019-03-08 成都天衡智造科技有限公司 一种工业参数离群点检测系统及方法

Similar Documents

Publication Publication Date Title
CN103793204A (zh) 基于云计算的数据分析系统src
CN102404126B (zh) 一种云计算在应用过程中的收费方法
CN105893593B (zh) 一种数据融合的方法
CN101159603B (zh) 一种无线网络海量数据存储方法
CN104735104A (zh) 微信智能公众平台系统
CN107315776A (zh) 一种基于云计算的数据管理系统
CN108366109A (zh) 一种气象数据数值预报云共享平台和数据共享方法
CN112632135A (zh) 一种大数据平台
CN103618652A (zh) 一种业务数据的审计和深度分析系统及其方法
CN111061788A (zh) 一种基于云架构的多源异构数据转换整合系统及其实现方法
CN106484709A (zh) 一种日志数据的审计方法和审计装置
CN101447064B (zh) 一种审计管理系统和审计管理方法
CN103970851A (zh) 海量凭证数据直接出具大型企业集团总部财务报表的方法
CN102999528B (zh) 一种数据仓库中etl任务离线和数据清理的方法及装置
CN1918590A (zh) 对商业使用技术性能度量以及使用状况分析和成本分配
CN108108466A (zh) 一种分布式系统日志查询分析方法及装置
CN106502875A (zh) 一种基于云计算的日志生成方法及系统
CN110096521A (zh) 日志信息处理方法及装置
CN107239563A (zh) 舆情信息动态监控方法
CN104715420A (zh) 电力工程数据的处理方法及装置
CN108197252A (zh) 桥梁全寿命综合管理与分析云平台系统
Theeten et al. Towards the optimization of a parallel streaming engine for telco applications
CN112929237B (zh) 网站细分流量的分析方法、系统、设备和介质
CN108920951A (zh) 一种基于云模式下的安全审计框架
Sridhar et al. A study of big data analytics in clouds with a security perspective

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140514